机器学习数学语言学习报告:第三天

阅读: 评论:0

机器学习数学语言学习报告:第三天

机器学习数学语言学习报告:第三天

累加、累乘与积分作业

  1. ∑ i m o d 2 = 0 x i sum_{imod2 =0}x_i ∑imod2=0​xi​

  2. 问:求向量 X textbf{X} X中非负分量的加权和,权重向量 W textbf{W} W​非负

    答: ∑ x i ≥ 0 w i x i sum_{x_i geq 0}w_i x_i ∑xi​≥0​wi​xi​​

    问:将上式变为累乘形式

    答: ln ⁡ ∏ x i ≥ 0 e w i x i lnprod_{x_i geq 0} mathrm{e}^{w_ix_i} ln∏xi​≥0​ewi​xi​​

    问:​​​​​求真实概率分布 P P P与近似概率分布 Q Q Q的KL散度

    答: D K L ( P ∥ Q ) = ∫ − ∞ ∞ p ( x ) ln ⁡ p ( x ) q ( x ) d x displaystyle D_{mathrm {KL} }(P|Q)=int _{-infty }^{infty }p(x)ln {frac {p(x)}{q(x)}},{rm {d}}x DKL​(P∥Q)=∫−∞∞​p(x)lnq(x)p(x)​dx​

  3. 三重累加的常用于计算三维张量的和,如图像的各类归一化方法(Batch Norm、Layer Norm 和 Group Norm)中求均值和方差的过程。

  4. 定积分 ∫ 0 π x sin ⁡ x d x = π int_0^pi x sin x , mathrm{d} x=pi ∫0π​xsinxdx=π​​​的python求解程序为:

    import math
    delta = 0.01
    sum([x * math.sin(x) * delta for x in [i * delta for i in range(int(math.pi / delta))]])
    

    结果为3.141537512485255,误差小于1e-5。

线性回归作业

  1. 最小二乘法例子

    令函数 y = 3 x + 5 y=3x+5 y=3x+5, x x x取1,4,5, y ^ hat{y} y^​的取值分别为9,16,19。

    建立线性模型 y ^ = f ( x ) = a x + b hat{y} = f(x) = ax+b y^​=f(x)=ax+b,使用最小二乘法求系数 a a a和 b b b​。

    a = ∑ i = 1 3 x i y ^ i − 3 x ‾ y ‾ ∑ i = 1 3 x i 2 − 3 x ‾ 2 ≈ 3.02 a=frac{sum^3_{i=1}x_ihat{y}_i-3overline{x}overline{y}}{sum_{i=1}^3x_i^2-3overline{x}^2} approx3.02 a=∑i=13​xi2​−3x2∑i=13​xi​y^​i​−3xy​​≈3.02​​

    b = y ‾ − a x ‾ ≈ 4.59 b=overline{y}-aoverline{x}approx4.59 b=y​−ax≈4.59​

  2. 岭回归推导

    优化目标为 arg ⁡ min ⁡ L ( w ) = arg ⁡ min ⁡ w ∥ X w − Y ∥ 2 2 + λ ∥ w ∥ 2 2 argmin{mathcal{L}(mathbf{w})}= underset{mathbf{w}}{{argmin}}|mathbf{X}mathbf{w}-mathbf{Y}|^2_2+lambda|mathbf{w}|^2_2 argminL(w)=wargmin​∥Xw−Y∥22​+λ∥w∥22​

    L ( w ) = ( X w − Y ) T ( X w − Y ) + λ w T w = w T X T X w − Y T X w − w T X T Y + Y T + Y T Y + λ w T w mathcal{L}(mathbf{w})=(mathbf{X}mathbf{w}-mathbf{Y})^{mathsf{T}}(mathbf{X}mathbf{w}-mathbf{Y})+lambda mathbf{w}^{mathsf{T}}mathbf{w}=mathbf{w}^{mathsf{T}}mathbf{X}^{mathsf{T}}mathbf{X}mathbf{w}-mathbf{Y}^{mathsf{T}}mathbf{X}mathbf{w}-mathbf{w}^{mathsf{T}}mathbf{X}^{mathsf{T}}mathbf{Y}+mathbf{Y}^{mathsf{T}}+mathbf{Y}^{mathsf{T}}mathbf{Y}+lambda mathbf{w}^{mathsf{T}} mathbf{w} L(w)=(Xw−Y)T(Xw−Y)+λwTw=wTXTXw−YTXw−wTXTY+YT+YTY+λwTw

    即令 ∂ L ∂ w = 2 X T X w − X T Y − X T Y − 2 λ w = X T X w − X T Y − λ w = 0 frac{partialmathcal{L}}{partialmathbf{w}}=2mathbf{X}^{mathsf{T}}mathbf{X}mathbf{w}-mathbf{X}^{mathsf{T}}mathbf{Y}-mathbf{X}^{mathsf{T}}mathbf{Y}-2lambdamathbf{w}=mathbf{X}^{mathsf{T}}mathbf{X}mathbf{w}-mathbf{X}^{mathsf{T}}mathbf{Y}-lambdamathbf{w}=0 ∂w∂L​=2XTXw−XTY−XTY−2λw=XTXw−XTY−λw=0​

    因此 w = ( X T X + λ I ) − 1 X T Y mathbf{w}=(mathbf{X}^{mathsf{T}}mathbf{X}+lambdamathbf{I})^{-1}mathbf{X}^{mathsf{T}}mathbf{Y} w=(XTX+λI)−1XTY

Logistic 回归推导

x textbf{x} x为输入, w textbf{w} w为学习参数, y y y类别标签,使用sigmoid函数分类概率有
P ( y = 1 ∣ x ; w ) = 1 1 + e − x w P(y = 1 vert mathbf {x}; mathbf {w}) = frac {1}{1 + e^{-mathbf {xw}}} P(y=1∣x;w)=1+e−xw1​
统一 y i y_i yi​的不同取值(0 或 1):
P ( y i ∣ x i ; w ) = P ( y i = 1 ∣ x i ; w ) y i ( 1 − P ( y i = 1 ∣ x i ; w ) ) 1 − y i Pleft(y_{i} vert mathbf{x}_{i} ; mathbf{w}right)=Pleft(y_{i}=1 vertmathbf{x}_{i} ; mathbf{w}right)^{y_{i}}left(1-Pleft(y_{i}=1 vertmathbf{x}_{i} ; mathbf{w}right)right)^{1-y_{i}} P(yi​∣xi​;w)=P(yi​=1∣xi​;w)yi​(1−P(yi​=1∣xi​;w))1−yi​
若数据共有 n n n个,总的概率为各个概率的乘积,即
P a l l = P ( y 1 ∣ x 1 ; w ) P ( y 2 ∣ x 2 ; w ) P ( y 3 ∣ x 3 ; w ) … P ( y n ∣ x n ; w ) = ∏ i = 1 n P ( y i ∣ x i ; w ) begin{aligned} &P_{all}=Pleft(y_{1} vert boldsymbol{x}_{1}; mathbf{w}right) Pleft(y_{2} vert boldsymbol{x}_{2}; mathbf{w}right) Pleft(y_{3} vert boldsymbol{x}_{3}; mathbf{w}right) ldots Pleft(y_{n} vert boldsymbol{x}_{n}; mathbf{w}right) \ &=prod_{i=1}^{n} P(y_i vert mathbf{x}_i; mathbf{w}) end{aligned} ​Pall​=P(y1​∣x1​;w)P(y2​∣x2​;w)P(y3​∣x3​;w)…P(yn​∣xn​;w)=i=1∏n​P(yi​∣xi​;w)​优化目标为最大化上式
arg ⁡ max ⁡ w L ( w ) = ∏ i = 1 n P ( y i ∣ x i ; w ) underset{mathbf{w}}{arg max } L(mathbf{w})=prod_{i=1}^{n} Pleft(y_{i} vertmathbf{x}_{i} ; mathbf{w}right) wargmax​L(w)=i=1∏n​P(yi​∣xi​;w)
可以通过两边取对数来把连乘变成连加,从而简化运算:
log ⁡ L ( w ) = ∑ i = 1 n log ⁡ P ( y i ∣ x i ; w ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) + ( 1 − y i ) log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) 1 − P ( y i = 1 ∣ x i ; w ) + log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i x i w − log ⁡ ( 1 + e x i w ) begin {aligned}log L (mathbf {w}) & = sum_{i = 1}^n log P (y_i vert mathbf {x}i; mathbf{w}) \ & = sum_{i = 1}^n y_i log P(y_i = 1 vert mathbf{x}_i; mathbf{w}) + (1 - y_i) log(1 - P(y_i = 1 vert mathbf{x}_i; mathbf{w})) \ & = sum_{i = 1}^n y_i log frac{P(y_i = 1 vert mathbf{x}_i; mathbf{w})}{1 - P(y_i = 1 vert mathbf{x}_i; mathbf{w})} + log (1 - P(y_i = 1 vert mathbf{x}_i; mathbf{w}))\& = sum_{i = 1}^n y_i mathbf{x}_i mathbf{w} - log (1 + e^{mathbf{x}_i mathbf{w}}) end{aligned} logL(w)​=i=1∑n​logP(yi​∣xi;w)=i=1∑n​yi​logP(yi​=1∣xi​;w)+(1−yi​)log(1−P(yi​=1∣xi​;w))=i=1∑n​yi​log1−P(yi​=1∣xi​;w)P(yi​=1∣xi​;w)​+log(1−P(yi​=1∣xi​;w))=i=1∑n​yi​xi​w−log(1+exi​w)​
对 w textbf{w} w求偏导得:
∂ log ⁡ L ( w ) ∂ w = ∑ i = 1 n y i x i − e x i w 1 + e x i w x i = ∑ i = 1 n ( y i − e x i w 1 + e x i w ) x i begin {aligned} frac {partial log L (mathbf {w})}{partial mathbf {w}} & = sum_{i = 1}^n y_i mathbf {x}_i - frac {e^{mathbf {x}_i mathbf {w}}}{1 + e^{mathbf {x}_i mathbf {w}}} mathbf {x}_i\ & = sum_{i = 1}^n left(y_i - frac{e^{mathbf{x}_i mathbf{w}}}{1 + e^{mathbf{x}_i mathbf{w}}}right) mathbf{x}_iend{aligned} ∂w∂logL(w)​​=i=1∑n​yi​xi​−1+exi​wexi​w​xi​=i=1∑n​(yi​−1+exi​wexi​w​)xi​​
令偏导为0得到迭代方程:
w t + 1 = w t − α ∂ log ⁡ L ( w ) ∂ w mathbf{w}^{t+1}=mathbf{w}^{t}-alpha frac{partial log L(mathbf{w})}{partial mathbf{w}} wt+1=wt−α∂w∂logL(w)​
该方法的特点为

  • 名字叫回归却常用于分类问题,利用sigmoid函数对问题建模,比线性函数更符合分类问题。
  • sigmoid函数任意阶可导,具有良好的数学性质,使得方法简单易实现,许多机器学习算法都会用到该函数。
  • 模型的可解释性好,特征的权重能反映不同特征对最后结果的影响。
  • 没有假设数据分布,具有更强的泛用性。
  • 输出为概率形式,可以用于辅助决策。

本文发布于:2024-01-31 07:43:48,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170665823326799.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:机器   语言   数学   报告
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23