Machine Learning

阅读：评论：0

Machine Learning

Neural Networks Learning

Neural Networks Learning
- Neural network model
  - cost function
- backpropagation algorithm
- 反向传播
  - 反向传播过程
    - 再看看第5步中的a(l)a(l)a^{(l)}
- 参数初始化

Neural network model

Forward propagation:

cost function

notation:
a(j)i a i ( j ) $a_{i}^{(j)}$ = “activation” of unit i in layer j
Θ(j) Θ ( j ) $Theta^{(j)}$ = matrix of weights controlling function mapping from layer j to layer j+1
hθ(x(i))k=a(3)k h θ ( x ( i ) ) k = a k ( 3 ) $h_{theta}(x^{(i)})_{k}=a_{k}^{(3)}$ is the activation (output value) of the k-th output unit
y=⎡⎣⎢⎢⎢⎢⎢⎢⎢yk=11yk=20yk=30⋮yk=100⎤⎦⎥⎥⎥⎥⎥⎥⎥,⎡⎣⎢⎢⎢⎢⎢⎢⎢010⋮0⎤⎦⎥⎥⎥⎥⎥⎥⎥,…or⎡⎣⎢⎢⎢⎢⎢⎢⎢100⋮1⎤⎦⎥⎥⎥⎥⎥⎥⎥ y = [ y k = 1 1 y k = 2 0 y k = 3 0 ⋮ y k = 10 0 ] , [ 0 1 0 ⋮ 0 ] , … o r [ 1 0 0 ⋮ 1 ] $y=begin{bmatrix} y_{k=1} quad 1 \ y_{k=2} quad 0\ y_{k=3} quad 0 \ vdots \ y_{k=10} quad0 end{bmatrix},begin{bmatrix} 0 \ 1\0 \ vdots \0 end{bmatrix},dots or begin{bmatrix} 1 \ 0\0 \ vdots \1 end{bmatrix}$ 是one-hot编码。
【备注：one-hot编码的优点：不同数字如（0，1，….9）之间的欧式距离是相等的。】
y(i)k= y k ( i ) = $y_{k}^{(i)}=$ 第i个样本的的第j个输出单元。the k-th output unit of the i-th example
L= L = $L=$ 网络层的总数，包括输入层与输出层。the number of the layers,include input layer and output layer

J(θ)=−1m∑i=1m∑k=1k[y(i)klog((hΘ(x(i)))k)+(1−y(i)k)log(1−(hΘ(x(i)))k)]+λ2m∑l=1L−1∑i=1sl∑j=1s(l+1)(Θ(l)j,i)2 J ( θ ) = − 1 m ∑ i = 1 m ∑ k = 1 k [ y k ( i ) l o g ( ( h Θ ( x ( i ) ) ) k ) + ( 1 − y k ( i ) ) l o g ( 1 − ( h Θ ( x ( i ) ) ) k ) ] + λ 2 m ∑ l = 1 L − 1 ∑ i = 1 s l ∑ j = 1 s ( l + 1 ) ( Θ j , i ( l ) ) 2 $J(theta)=-frac{1}{m}sum_{i=1}^{m}sum_{k=1}^{k}bigg [ y_{k}^{(i)}log((h_{Theta}(x^{(i)}))_{k})+(1-y_{k}^{(i)})log(1-(h_{Theta}(x^{(i)}))_{k}) bigg] + frac{lambda}{2m}sum_{l=1}^{L-1}sum_{i=1}^{sl}sum_{j=1}^{s_{(l+1)}}(Theta_{j,i}^{(l)})^2$

backpropagation algorithm

Backpropagation:

Training set { (x(1),y(1)),(x(2),y(2)),…,(x(m),y(m)) ( x ( 1 ) , y ( 1 ) ) , ( x ( 2 ) , y ( 2 ) ) , … , ( x ( m ) , y ( m ) ) $(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),dots ,(x^{(m)},y^{(m)})$ } .m examples.
Set Δ(l)ij=0 Δ i j ( l ) = 0 $Delta_{ij}^{(l)}=0$ (for all l,i,j) ,used to comput ∂∂Θ(l)i,jJ(Θ), ∂ ∂ Θ i , j ( l ) J ( Θ ) , $frac{∂}{∂Theta_{i,j}^{(l)}}J(Theta),$ Cycle accumulation
For training example t=1 to m:
1. Set a(1):=x(t) a ( 1 ) := x ( t ) $a^{(1)}:=x^{(t)}$
2.执行前向传播，分别计算 a(l) a ( l ) $a^{(l)}$ for l=2,3,…,L l = 2 , 3 , … , L $l=2,3,dots ,L$
3.用 y(i) y ( i ) $y^{(i)}$ ，通过 δ(L)=a(L)−y(t) δ ( L ) = a ( L ) − y ( t ) $delta ^{(L)} = a ^{(L)} - y^{(t)}$ 计算输出层的损失。
4.Compute δ(L−1),δ(L−2),…,δ(2).δ(l)=((Θ(l))Tδ(l+1)).∗a(l).∗(1−a(i)) δ ( L − 1 ) , δ ( L − 2 ) , … , δ ( 2 ) . δ ( l ) = ( ( Θ ( l ) ) T δ ( l + 1 ) ) . ∗ a ( l ) . ∗ ( 1 − a ( i ) ) $delta ^{(L-1)},delta ^{(L-2)},dots ,delta ^{(2)}.quad delta ^{(l)}=big((Theta^{(l)})^{T} delta ^{(l+1)} big).*a^{(l)}.*big( 1-a^{(i)}big)quad quad$ // g′(z(l))=a(l).∗(1−a(i)) g ′ ( z ( l ) ) = a ( l ) . ∗ ( 1 − a ( i ) ) $g'(z^{(l)})=a^{(l)}.*big( 1-a^{(i)}big)$
5. Δ(l)i,j:=Δ(l)i,j+a(l)jδ(l+1)i Δ i , j ( l ) := Δ i , j ( l ) + a j ( l ) δ i ( l + 1 ) $Delta_{i,j}^{(l)}:=Delta_{i,j}^{(l)}+a_{j}^{(l)}delta_{i}^{(l+1)}$ or with vectorization, Δ(l):=Δ(l)+δ(l+1)(a(l))T Δ ( l ) := Δ ( l ) + δ ( l + 1 ) ( a ( l ) ) T $Delta^{(l)}:=Delta^{(l)}+delta^{(l+1)}(a^{(l)})^T$ .
ENDFOR

hense we update our new Δ Δ $Delta$ matrix.

D(l)i,j:=1m(Δ(l)i,j+λΘ(l)i,j),ifj≠0 D i , j ( l ) := 1 m ( Δ i , j ( l ) + λ Θ i , j ( l ) ) , i f j ≠ 0 $D_{i,j}^{(l)}:=frac{1}{m}big(Delta_{i,j}^{(l)}+lambdaTheta_{i,j}^{(l)} big),if j neq 0$
D(l)i,j:=1mΔ(l)i,j,ifj=0 D i , j ( l ) := 1 m Δ i , j ( l ) , i f j = 0 $D_{i,j}^{(l)}:=frac{1}{m}Delta_{i,j}^{(l)},if j =0$
Thus we get ∂∂Θ(l)i,jJ(Θ)=D(l)i,j ∂ ∂ Θ i , j ( l ) J ( Θ ) = D i , j ( l ) $frac{∂}{∂Theta_{i,j}^{(l)}}J(Theta)=D_{i,j}^{(l)}$

反向传播

g′(z(l))=a(l).∗(1−a(i)) g ′ ( z ( l ) ) = a ( l ) . ∗ ( 1 − a ( i ) ) $g'(z^{(l)})=a^{(l)}.*big( 1-a^{(i)}big)$ 推导过程：
已知： g(z(l))=11+e−z(l)=a(l) g ( z ( l ) ) = 1 1 + e − z ( l ) = a ( l ) $g(z^{(l)})= frac{1}{1+e^{-z^{(l)}}}=a^{(l)}$
g′(z(l))=(sigmoid(z(l)))′ g ′ ( z ( l ) ) = ( s i g m o i d ( z ( l ) ) ) ′ $g'(z^{(l)})=big(sigmoid(z^{(l)})big)'$
=(11+e−z(l))′ = ( 1 1 + e − z ( l ) ) ′ $= big(frac{1}{1+e^{-z^{(l)}}}big)'$
=−1⋅1(1+e−z(l))2⋅(1+e−z(l))′ = − 1 ⋅ 1 ( 1 + e − z ( l ) ) 2 ⋅ ( 1 + e − z ( l ) ) ′ $= -1cdot frac{1}{(1+e^{-z^{(l)}})^2}cdot(1+e^{-z^{(l)}})'$
=−1(1+e−z(l))2⋅(e−z(l))′ = − 1 ( 1 + e − z ( l ) ) 2 ⋅ ( e − z ( l ) ) ′ $= frac{-1}{(1+e^{-z^{(l)}})^2}cdot(e^{-z^{(l)}})'$
=−1(1+e−z(l))2⋅e−z(l)⋅(−z(l))′ = − 1 ( 1 + e − z ( l ) ) 2 ⋅ e − z ( l ) ⋅ ( − z ( l ) ) ′ $= frac{-1}{(1+e^{-z^{(l)}})^2}cdot e^{-z^{(l)}} cdot (-z^{(l)})'$
=−1(1+e−z(l))2⋅e−z(l)⋅−1 = − 1 ( 1 + e − z ( l ) ) 2 ⋅ e − z ( l ) ⋅ − 1 $= frac{-1}{(1+e^{-z^{(l)}})^2}cdot e^{-z^{(l)}} cdot -1$
=(e−z(l)+1)−1(1+e−z(l))2 = ( e − z ( l ) + 1 ) − 1 ( 1 + e − z ( l ) ) 2 $= frac{(e^{-z^{(l)}}+1)-1}{(1+e^{-z^{(l)}})^2}$
=11+e−z(l)−1(1+e−z(l))2 = 1 1 + e − z ( l ) − 1 ( 1 + e − z ( l ) ) 2 $= frac{1}{1+e^{-z^{(l)}}} - frac{1}{(1+e^{-z^{(l)}})^2}$
=g(z(l))⋅(1−g(z(l))) = g ( z ( l ) ) ⋅ ( 1 − g ( z ( l ) ) ) $= g(z^{(l)}) cdot (1-g(z^{(l)}))$
=a(l)⋅(1−a(l)) = a ( l ) ⋅ ( 1 − a ( l ) ) $= a^{(l)} cdot (1-a^{(l)})$

反向传播部分的计算比较繁琐，特别作了一张简化了的网络示意图。实际效果与课程中样例是一致的。

a(1)=x(i) a ( 1 ) = x ( i ) $a^{(1)}=x^{(i)}$ 是样本的输入层，图中示意X有两个特征，另外增加一个偏置量 a(1)0 a 0 ( 1 ) $a_{0}^{(1)}$
a(2) a ( 2 ) $a^{(2)}$ 层是隐藏层，有三个节点， a(1)∗θ(1) a ( 1 ) ∗ θ ( 1 ) $a^{(1)}*theta^{(1)}$ 后输出 z(2) z ( 2 ) $z^{(2)}$ , z(2) z ( 2 ) $z^{(2)}$ 再经过激活函数sigmoid输出 a(2) a ( 2 ) $a^{(2)}$ 。隐藏层添加一个偏置量 a(2)0 a 0 ( 2 ) $a_{0}^{(2)}$
a(3) a ( 3 ) $a^{(3)}$ 是输出层，也有激活的过程，输出的 a(3)1=y1 a 1 ( 3 ) = y 1 $a_{1}^{(3)}=y_{1}$ 对应公式里的 (hθ(x(i)))k=1,a(3)2=y2 ( h θ ( x ( i ) ) ) k = 1 , a 2 ( 3 ) = y 2 $(h_{theta}(x^{(i)}))_{k=1},a_{2}^{(3)}=y_{2}$ 对应公式里的 (hθ(x(i)))k=2 ( h θ ( x ( i ) ) ) k = 2 $(h_{theta}(x^{(i)}))_{k=2}$ , hθ(x(i))=[y(i)1,y(i)2] h θ ( x ( i ) ) = [ y 1 ( i ) , y 2 ( i ) ] $h_theta(x^{(i)})=[y_{1}^{(i)} ,y_{2}^{(i)}]$
回顾一下神经网络的损失函数：

反向传播过程

【首先说明一下，课程关于方向传播只给出了一些流程用类似“ 3.用 y(i) y ( i ) $y^{(i)}$ ，通过 δ(L)=a(L)−y(t) δ ( L ) = a ( L ) − y ( t ) $delta ^{(L)} = a ^{(L)} - y^{(t)}$ 计算输出层的损失。 4.Compute δ(L−1),δ(L−2),…,δ(2).δ(l)=((Θ(l))Tδ(l+1)).∗a(l).∗(1−a(i)) δ ( L − 1 ) , δ ( L − 2 ) , … , δ ( 2 ) . δ ( l ) = ( ( Θ ( l ) ) T δ ( l + 1 ) ) . ∗ a ( l ) . ∗ ( 1 − a ( i ) ) $delta ^{(L-1)},delta ^{(L-2)},dots ,delta ^{(2)}.quad delta ^{(l)}=big((Theta^{(l)})^{T} delta ^{(l+1)} big).*a^{(l)}.*big( 1-a^{(i)}big)quad quad$ 5. Δ(l)i,j:=Δ(l)i,j+a(l)jδ(l+1)i Δ i , j ( l ) := Δ i , j ( l ) + a j ( l ) δ i ( l + 1 ) $Delta_{i,j}^{(l)}:=Delta_{i,j}^{(l)}+a_{j}^{(l)}delta_{i}^{(l+1)}$ ” 这样的简化说明，至于为什么这么设定没有阐述。这就导致课程中所说的流程是不明其道理的。而关于神经网络的反向传播想要说清楚，估计得说上一整天（参考我的智商）。我尽力自洽还原吧】

δ(L)=a(L)−y δ ( L ) = a ( L ) − y $delta^{(L)}= a^{(L)}-y$ *
δ(l)=((Θ(l))Tδ(l+1)).∗a(l).∗(1−a(i)) δ ( l ) = ( ( Θ ( l ) ) T δ ( l + 1 ) ) . ∗ a ( l ) . ∗ ( 1 − a ( i ) ) $delta ^{(l)}=big((Theta^{(l)})^{T} delta ^{(l+1)} big).*a^{(l)}.*big( 1-a^{(i)}big)$ *

我觉得课程这部分描述的有点凌乱。 a(l).∗(1−a(i)) a ( l ) . ∗ ( 1 − a ( i ) ) $a^{(l)}.*big( 1-a^{(i)}big)$ 这一项看着很眼熟，是sigmoid(z)的导数。真身是它： ∂a(L)∂z(L) ∂ a ( L ) ∂ z ( L ) $frac{∂a^{(L)}}{∂z^{(L)}}$ 。把定义稍微变一下，感觉就都对上了。 δ(l)=(Θ(l))Tδ(l+1) δ ( l ) = ( Θ ( l ) ) T δ ( l + 1 ) $delta ^{(l)}=(Theta^{(l)})^{T} delta ^{(l+1)}$ 。这是误差的反向传导过程，参数矩阵的转置可以表达为按参数的（大小）为权重反向计算误差。

再看看第5步中的 a(l) a ( l ) $a^{(l)}$

∂z(l+1)∂θ(l+1)=a(l) ∂ z ( l + 1 ) ∂ θ ( l + 1 ) = a ( l ) $frac{∂z^{(l+1)}}{∂theta^{(l+1)}} = a^{(l)}$
把这三块合并起来看看，是它！： ∂J(Θ)∂θ(L)=∂J(Θ)∂a(L)⋅∂a(L)∂z(L)⋅∂z(L)∂θ(L) ∂ J ( Θ ) ∂ θ ( L ) = ∂ J ( Θ ) ∂ a ( L ) ⋅ ∂ a ( L ) ∂ z ( L ) ⋅ ∂ z ( L ) ∂ θ ( L ) $frac{∂J(Theta)}{∂theta^{(L)}}=frac{∂J(Theta)}{∂a^{(L)}} cdot frac{∂a^{(L)}}{∂z^{(L)}} cdot frac{∂z^{(L)}}{∂theta^{(L)}}$

太雷人了，略吧

要完整表述整个反向传播，发现一两句话说不完。最好加上一些辅助的说明图。完整推导过程见另一篇博客《Machine Learning |吴恩达（2-2）—神经网络,反向传播推导》

参数初始化

课程中列出下图：

1）参数不能都初始化为0。这样做的话，会导致所有的反向传播都是一样的，同一层大量的神经元都是相同的参数（反向更新后），没有存在的意义。
2）参数初始化在[-ϵ,ϵ]之间，而关于ϵ的大小，课程没有说明。
下面我们谈谈如何设定ϵ，或者应该如何对参数进行初始化。参考《Neural Networks and Deep Learning》
参数如果按高斯分布初始化mu=0，sigma=1的情况下。 z=∑mi=0wi⋅xi+b z = ∑ i = 0 m w i ⋅ x i + b $z=sum_{i=0}^{m}w_icdot x_i+b$
z的分布将很大可能是以下形式：

也就是z值太小，回顾sigmoid’(z)的导数图像，这将导致偏导数非常小，“神经元趋于饱和”，导致学习缓慢的问题。
我们希望z的分布如下：

大部分的z不要太小。那么可以设定参数的随机初始化为高斯分布（ mu=0，sigma=1nin√ m u = 0 ， s i g m a = 1 n i n $mu=0，sigma=frac{1}{sqrt{n_{in}}}$ ） nin n i n $n_{in}$ 是指上一层（含输入层）神经元个数.