机器学习数学语言学习报告：第三天

阅读：评论：0

机器学习数学语言学习报告：第三天

累加、累乘与积分作业

∑ i m o d 2 = 0 x i sum_{imod2 =0}x_i ∑imod2=0xi
问：求向量 X textbf{X} X中非负分量的加权和，权重向量 W textbf{W} W非负

答： ∑ x i ≥ 0 w i x i sum_{x_i geq 0}w_i x_i ∑xi≥0wixi

问：将上式变为累乘形式

答： ln ⁡ ∏ x i ≥ 0 e w i x i lnprod_{x_i geq 0} mathrm{e}^{w_ix_i} ln∏xi≥0ewixi

问：求真实概率分布 P P P与近似概率分布 Q Q Q的KL散度

答： D K L ( P ∥ Q ) = ∫ − ∞ ∞ p ( x ) ln ⁡ p ( x ) q ( x ) d x displaystyle D_{mathrm {KL} }(P|Q)=int _{-infty }^{infty }p(x)ln {frac {p(x)}{q(x)}},{rm {d}}x DKL(P∥Q)=∫−∞∞p(x)lnq(x)p(x)dx
三重累加的常用于计算三维张量的和，如图像的各类归一化方法（Batch Norm、Layer Norm 和 Group Norm）中求均值和方差的过程。
定积分 ∫ 0 π x sin ⁡ x d x = π int_0^pi x sin x , mathrm{d} x=pi ∫0πxsinxdx=π的python求解程序为：
```
import math
delta = 0.01
sum([x * math.sin(x) * delta for x in [i * delta for i in range(int(math.pi / delta))]])
```
结果为3.141537512485255，误差小于1e-5。

线性回归作业

最小二乘法例子

令函数 y = 3 x + 5 y=3x+5 y=3x+5， x x x取1，4，5， y ^ hat{y} y^的取值分别为9，16，19。

建立线性模型 y ^ = f ( x ) = a x + b hat{y} = f(x) = ax+b y^=f(x)=ax+b，使用最小二乘法求系数 a a a和 b b b。

a = ∑ i = 1 3 x i y ^ i − 3 x ‾ y ‾ ∑ i = 1 3 x i 2 − 3 x ‾ 2 ≈ 3.02 a=frac{sum^3_{i=1}x_ihat{y}_i-3overline{x}overline{y}}{sum_{i=1}^3x_i^2-3overline{x}^2} approx3.02 a=∑i=13xi2−3x2∑i=13xiy^i−3xy≈3.02

b = y ‾ − a x ‾ ≈ 4.59 b=overline{y}-aoverline{x}approx4.59 b=y−ax≈4.59
岭回归推导

优化目标为 arg ⁡ min ⁡ L ( w ) = arg ⁡ min ⁡ w ∥ X w − Y ∥ 2 2 + λ ∥ w ∥ 2 2 argmin{mathcal{L}(mathbf{w})}= underset{mathbf{w}}{{argmin}}|mathbf{X}mathbf{w}-mathbf{Y}|^2_2+lambda|mathbf{w}|^2_2 argminL(w)=wargmin∥Xw−Y∥22+λ∥w∥22

L ( w ) = ( X w − Y ) T ( X w − Y ) + λ w T w = w T X T X w − Y T X w − w T X T Y + Y T + Y T Y + λ w T w mathcal{L}(mathbf{w})=(mathbf{X}mathbf{w}-mathbf{Y})^{mathsf{T}}(mathbf{X}mathbf{w}-mathbf{Y})+lambda mathbf{w}^{mathsf{T}}mathbf{w}=mathbf{w}^{mathsf{T}}mathbf{X}^{mathsf{T}}mathbf{X}mathbf{w}-mathbf{Y}^{mathsf{T}}mathbf{X}mathbf{w}-mathbf{w}^{mathsf{T}}mathbf{X}^{mathsf{T}}mathbf{Y}+mathbf{Y}^{mathsf{T}}+mathbf{Y}^{mathsf{T}}mathbf{Y}+lambda mathbf{w}^{mathsf{T}} mathbf{w} L(w)=(Xw−Y)T(Xw−Y)+λwTw=wTXTXw−YTXw−wTXTY+YT+YTY+λwTw

即令 ∂ L ∂ w = 2 X T X w − X T Y − X T Y − 2 λ w = X T X w − X T Y − λ w = 0 frac{partialmathcal{L}}{partialmathbf{w}}=2mathbf{X}^{mathsf{T}}mathbf{X}mathbf{w}-mathbf{X}^{mathsf{T}}mathbf{Y}-mathbf{X}^{mathsf{T}}mathbf{Y}-2lambdamathbf{w}=mathbf{X}^{mathsf{T}}mathbf{X}mathbf{w}-mathbf{X}^{mathsf{T}}mathbf{Y}-lambdamathbf{w}=0 ∂w∂L=2XTXw−XTY−XTY−2λw=XTXw−XTY−λw=0

因此 w = ( X T X + λ I ) − 1 X T Y mathbf{w}=(mathbf{X}^{mathsf{T}}mathbf{X}+lambdamathbf{I})^{-1}mathbf{X}^{mathsf{T}}mathbf{Y} w=(XTX+λI)−1XTY

Logistic 回归推导

x textbf{x} x为输入， w textbf{w} w为学习参数， y y y类别标签，使用sigmoid函数分类概率有
P ( y = 1 ∣ x ; w ) = 1 1 + e − x w P(y = 1 vert mathbf {x}; mathbf {w}) = frac {1}{1 + e^{-mathbf {xw}}} P(y=1∣x;w)=1+e−xw1
统一 y i y_i yi的不同取值（0 或 1）：
P ( y i ∣ x i ; w ) = P ( y i = 1 ∣ x i ; w ) y i ( 1 − P ( y i = 1 ∣ x i ; w ) ) 1 − y i Pleft(y_{i} vert mathbf{x}_{i} ; mathbf{w}right)=Pleft(y_{i}=1 vertmathbf{x}_{i} ; mathbf{w}right)^{y_{i}}left(1-Pleft(y_{i}=1 vertmathbf{x}_{i} ; mathbf{w}right)right)^{1-y_{i}} P(yi∣xi;w)=P(yi=1∣xi;w)yi(1−P(yi=1∣xi;w))1−yi
若数据共有 n n n个，总的概率为各个概率的乘积，即
P a l l = P ( y 1 ∣ x 1 ; w ) P ( y 2 ∣ x 2 ; w ) P ( y 3 ∣ x 3 ; w ) … P ( y n ∣ x n ; w ) = ∏ i = 1 n P ( y i ∣ x i ; w ) begin{aligned} &P_{all}=Pleft(y_{1} vert boldsymbol{x}_{1}; mathbf{w}right) Pleft(y_{2} vert boldsymbol{x}_{2}; mathbf{w}right) Pleft(y_{3} vert boldsymbol{x}_{3}; mathbf{w}right) ldots Pleft(y_{n} vert boldsymbol{x}_{n}; mathbf{w}right) \ &=prod_{i=1}^{n} P(y_i vert mathbf{x}_i; mathbf{w}) end{aligned} Pall=P(y1∣x1;w)P(y2∣x2;w)P(y3∣x3;w)…P(yn∣xn;w)=i=1∏nP(yi∣xi;w)优化目标为最大化上式
arg ⁡ max ⁡ w L ( w ) = ∏ i = 1 n P ( y i ∣ x i ; w ) underset{mathbf{w}}{arg max } L(mathbf{w})=prod_{i=1}^{n} Pleft(y_{i} vertmathbf{x}_{i} ; mathbf{w}right) wargmaxL(w)=i=1∏nP(yi∣xi;w)
可以通过两边取对数来把连乘变成连加，从而简化运算：
log ⁡ L ( w ) = ∑ i = 1 n log ⁡ P ( y i ∣ x i ; w ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) + ( 1 − y i ) log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) 1 − P ( y i = 1 ∣ x i ; w ) + log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i x i w − log ⁡ ( 1 + e x i w ) begin {aligned}log L (mathbf {w}) & = sum_{i = 1}^n log P (y_i vert mathbf {x}i; mathbf{w}) \ & = sum_{i = 1}^n y_i log P(y_i = 1 vert mathbf{x}_i; mathbf{w}) + (1 - y_i) log(1 - P(y_i = 1 vert mathbf{x}_i; mathbf{w})) \ & = sum_{i = 1}^n y_i log frac{P(y_i = 1 vert mathbf{x}_i; mathbf{w})}{1 - P(y_i = 1 vert mathbf{x}_i; mathbf{w})} + log (1 - P(y_i = 1 vert mathbf{x}_i; mathbf{w}))\& = sum_{i = 1}^n y_i mathbf{x}_i mathbf{w} - log (1 + e^{mathbf{x}_i mathbf{w}}) end{aligned} logL(w)=i=1∑nlogP(yi∣xi;w)=i=1∑nyilogP(yi=1∣xi;w)+(1−yi)log(1−P(yi=1∣xi;w))=i=1∑nyilog1−P(yi=1∣xi;w)P(yi=1∣xi;w)+log(1−P(yi=1∣xi;w))=i=1∑nyixiw−log(1+exiw)
对 w textbf{w} w求偏导得：
∂ log ⁡ L ( w ) ∂ w = ∑ i = 1 n y i x i − e x i w 1 + e x i w x i = ∑ i = 1 n ( y i − e x i w 1 + e x i w ) x i begin {aligned} frac {partial log L (mathbf {w})}{partial mathbf {w}} & = sum_{i = 1}^n y_i mathbf {x}_i - frac {e^{mathbf {x}_i mathbf {w}}}{1 + e^{mathbf {x}_i mathbf {w}}} mathbf {x}_i\ & = sum_{i = 1}^n left(y_i - frac{e^{mathbf{x}_i mathbf{w}}}{1 + e^{mathbf{x}_i mathbf{w}}}right) mathbf{x}_iend{aligned} ∂w∂logL(w)=i=1∑nyixi−1+exiwexiwxi=i=1∑n(yi−1+exiwexiw)xi
令偏导为0得到迭代方程：
w t + 1 = w t − α ∂ log ⁡ L ( w ) ∂ w mathbf{w}^{t+1}=mathbf{w}^{t}-alpha frac{partial log L(mathbf{w})}{partial mathbf{w}} wt+1=wt−α∂w∂logL(w)
该方法的特点为

名字叫回归却常用于分类问题，利用sigmoid函数对问题建模，比线性函数更符合分类问题。
sigmoid函数任意阶可导，具有良好的数学性质，使得方法简单易实现，许多机器学习算法都会用到该函数。
模型的可解释性好，特征的权重能反映不同特征对最后结果的影响。
没有假设数据分布，具有更强的泛用性。
输出为概率形式，可以用于辅助决策。

本文发布于:2024-01-31 07:43:48，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170665823326799.html

上一篇：【魔训】数学表达式: 从恐惧到单挑系列作业第3天

下一篇：数学表达式: 从恐惧到单挑 (10. Logistic 回归)

标签：机器语言数学报告

留言与评论（共有 0 条评论）