∑ i m o d 2 = 0 x i sum_{imod2 =0}x_i ∑imod2=0xi
问:求向量 X textbf{X} X中非负分量的加权和,权重向量 W textbf{W} W非负
答: ∑ x i ≥ 0 w i x i sum_{x_i geq 0}w_i x_i ∑xi≥0wixi
问:将上式变为累乘形式
答: ln ∏ x i ≥ 0 e w i x i lnprod_{x_i geq 0} mathrm{e}^{w_ix_i} ln∏xi≥0ewixi
问:求真实概率分布 P P P与近似概率分布 Q Q Q的KL散度
答: D K L ( P ∥ Q ) = ∫ − ∞ ∞ p ( x ) ln p ( x ) q ( x ) d x displaystyle D_{mathrm {KL} }(P|Q)=int _{-infty }^{infty }p(x)ln {frac {p(x)}{q(x)}},{rm {d}}x DKL(P∥Q)=∫−∞∞p(x)lnq(x)p(x)dx
三重累加的常用于计算三维张量的和,如图像的各类归一化方法(Batch Norm、Layer Norm 和 Group Norm)中求均值和方差的过程。
定积分 ∫ 0 π x sin x d x = π int_0^pi x sin x , mathrm{d} x=pi ∫0πxsinxdx=π的python求解程序为:
import math
delta = 0.01
sum([x * math.sin(x) * delta for x in [i * delta for i in range(int(math.pi / delta))]])
结果为3.141537512485255,误差小于1e-5。
最小二乘法例子
令函数 y = 3 x + 5 y=3x+5 y=3x+5, x x x取1,4,5, y ^ hat{y} y^的取值分别为9,16,19。
建立线性模型 y ^ = f ( x ) = a x + b hat{y} = f(x) = ax+b y^=f(x)=ax+b,使用最小二乘法求系数 a a a和 b b b。
a = ∑ i = 1 3 x i y ^ i − 3 x ‾ y ‾ ∑ i = 1 3 x i 2 − 3 x ‾ 2 ≈ 3.02 a=frac{sum^3_{i=1}x_ihat{y}_i-3overline{x}overline{y}}{sum_{i=1}^3x_i^2-3overline{x}^2} approx3.02 a=∑i=13xi2−3x2∑i=13xiy^i−3xy≈3.02
b = y ‾ − a x ‾ ≈ 4.59 b=overline{y}-aoverline{x}approx4.59 b=y−ax≈4.59
岭回归推导
优化目标为 arg min L ( w ) = arg min w ∥ X w − Y ∥ 2 2 + λ ∥ w ∥ 2 2 argmin{mathcal{L}(mathbf{w})}= underset{mathbf{w}}{{argmin}}|mathbf{X}mathbf{w}-mathbf{Y}|^2_2+lambda|mathbf{w}|^2_2 argminL(w)=wargmin∥Xw−Y∥22+λ∥w∥22
L ( w ) = ( X w − Y ) T ( X w − Y ) + λ w T w = w T X T X w − Y T X w − w T X T Y + Y T + Y T Y + λ w T w mathcal{L}(mathbf{w})=(mathbf{X}mathbf{w}-mathbf{Y})^{mathsf{T}}(mathbf{X}mathbf{w}-mathbf{Y})+lambda mathbf{w}^{mathsf{T}}mathbf{w}=mathbf{w}^{mathsf{T}}mathbf{X}^{mathsf{T}}mathbf{X}mathbf{w}-mathbf{Y}^{mathsf{T}}mathbf{X}mathbf{w}-mathbf{w}^{mathsf{T}}mathbf{X}^{mathsf{T}}mathbf{Y}+mathbf{Y}^{mathsf{T}}+mathbf{Y}^{mathsf{T}}mathbf{Y}+lambda mathbf{w}^{mathsf{T}} mathbf{w} L(w)=(Xw−Y)T(Xw−Y)+λwTw=wTXTXw−YTXw−wTXTY+YT+YTY+λwTw
即令 ∂ L ∂ w = 2 X T X w − X T Y − X T Y − 2 λ w = X T X w − X T Y − λ w = 0 frac{partialmathcal{L}}{partialmathbf{w}}=2mathbf{X}^{mathsf{T}}mathbf{X}mathbf{w}-mathbf{X}^{mathsf{T}}mathbf{Y}-mathbf{X}^{mathsf{T}}mathbf{Y}-2lambdamathbf{w}=mathbf{X}^{mathsf{T}}mathbf{X}mathbf{w}-mathbf{X}^{mathsf{T}}mathbf{Y}-lambdamathbf{w}=0 ∂w∂L=2XTXw−XTY−XTY−2λw=XTXw−XTY−λw=0
因此 w = ( X T X + λ I ) − 1 X T Y mathbf{w}=(mathbf{X}^{mathsf{T}}mathbf{X}+lambdamathbf{I})^{-1}mathbf{X}^{mathsf{T}}mathbf{Y} w=(XTX+λI)−1XTY
x textbf{x} x为输入, w textbf{w} w为学习参数, y y y类别标签,使用sigmoid函数分类概率有
P ( y = 1 ∣ x ; w ) = 1 1 + e − x w P(y = 1 vert mathbf {x}; mathbf {w}) = frac {1}{1 + e^{-mathbf {xw}}} P(y=1∣x;w)=1+e−xw1
统一 y i y_i yi的不同取值(0 或 1):
P ( y i ∣ x i ; w ) = P ( y i = 1 ∣ x i ; w ) y i ( 1 − P ( y i = 1 ∣ x i ; w ) ) 1 − y i Pleft(y_{i} vert mathbf{x}_{i} ; mathbf{w}right)=Pleft(y_{i}=1 vertmathbf{x}_{i} ; mathbf{w}right)^{y_{i}}left(1-Pleft(y_{i}=1 vertmathbf{x}_{i} ; mathbf{w}right)right)^{1-y_{i}} P(yi∣xi;w)=P(yi=1∣xi;w)yi(1−P(yi=1∣xi;w))1−yi
若数据共有 n n n个,总的概率为各个概率的乘积,即
P a l l = P ( y 1 ∣ x 1 ; w ) P ( y 2 ∣ x 2 ; w ) P ( y 3 ∣ x 3 ; w ) … P ( y n ∣ x n ; w ) = ∏ i = 1 n P ( y i ∣ x i ; w ) begin{aligned} &P_{all}=Pleft(y_{1} vert boldsymbol{x}_{1}; mathbf{w}right) Pleft(y_{2} vert boldsymbol{x}_{2}; mathbf{w}right) Pleft(y_{3} vert boldsymbol{x}_{3}; mathbf{w}right) ldots Pleft(y_{n} vert boldsymbol{x}_{n}; mathbf{w}right) \ &=prod_{i=1}^{n} P(y_i vert mathbf{x}_i; mathbf{w}) end{aligned} Pall=P(y1∣x1;w)P(y2∣x2;w)P(y3∣x3;w)…P(yn∣xn;w)=i=1∏nP(yi∣xi;w)优化目标为最大化上式
arg max w L ( w ) = ∏ i = 1 n P ( y i ∣ x i ; w ) underset{mathbf{w}}{arg max } L(mathbf{w})=prod_{i=1}^{n} Pleft(y_{i} vertmathbf{x}_{i} ; mathbf{w}right) wargmaxL(w)=i=1∏nP(yi∣xi;w)
可以通过两边取对数来把连乘变成连加,从而简化运算:
log L ( w ) = ∑ i = 1 n log P ( y i ∣ x i ; w ) = ∑ i = 1 n y i log P ( y i = 1 ∣ x i ; w ) + ( 1 − y i ) log ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i log P ( y i = 1 ∣ x i ; w ) 1 − P ( y i = 1 ∣ x i ; w ) + log ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i x i w − log ( 1 + e x i w ) begin {aligned}log L (mathbf {w}) & = sum_{i = 1}^n log P (y_i vert mathbf {x}i; mathbf{w}) \ & = sum_{i = 1}^n y_i log P(y_i = 1 vert mathbf{x}_i; mathbf{w}) + (1 - y_i) log(1 - P(y_i = 1 vert mathbf{x}_i; mathbf{w})) \ & = sum_{i = 1}^n y_i log frac{P(y_i = 1 vert mathbf{x}_i; mathbf{w})}{1 - P(y_i = 1 vert mathbf{x}_i; mathbf{w})} + log (1 - P(y_i = 1 vert mathbf{x}_i; mathbf{w}))\& = sum_{i = 1}^n y_i mathbf{x}_i mathbf{w} - log (1 + e^{mathbf{x}_i mathbf{w}}) end{aligned} logL(w)=i=1∑nlogP(yi∣xi;w)=i=1∑nyilogP(yi=1∣xi;w)+(1−yi)log(1−P(yi=1∣xi;w))=i=1∑nyilog1−P(yi=1∣xi;w)P(yi=1∣xi;w)+log(1−P(yi=1∣xi;w))=i=1∑nyixiw−log(1+exiw)
对 w textbf{w} w求偏导得:
∂ log L ( w ) ∂ w = ∑ i = 1 n y i x i − e x i w 1 + e x i w x i = ∑ i = 1 n ( y i − e x i w 1 + e x i w ) x i begin {aligned} frac {partial log L (mathbf {w})}{partial mathbf {w}} & = sum_{i = 1}^n y_i mathbf {x}_i - frac {e^{mathbf {x}_i mathbf {w}}}{1 + e^{mathbf {x}_i mathbf {w}}} mathbf {x}_i\ & = sum_{i = 1}^n left(y_i - frac{e^{mathbf{x}_i mathbf{w}}}{1 + e^{mathbf{x}_i mathbf{w}}}right) mathbf{x}_iend{aligned} ∂w∂logL(w)=i=1∑nyixi−1+exiwexiwxi=i=1∑n(yi−1+exiwexiw)xi
令偏导为0得到迭代方程:
w t + 1 = w t − α ∂ log L ( w ) ∂ w mathbf{w}^{t+1}=mathbf{w}^{t}-alpha frac{partial log L(mathbf{w})}{partial mathbf{w}} wt+1=wt−α∂w∂logL(w)
该方法的特点为
本文发布于:2024-01-31 07:43:48,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170665823326799.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |