深度学习训练中梯度消失的原因有哪些？有哪些解决方法？

阅读：评论：0

梯度消失产生的主要原因有：一是使用了深层网络，二是采用了不合适的损失函数。

目前优化神经网络的方法都是基于BP，即根据损失函数计算的误差通过梯度反向传播的方式，指导深度网络权值的更新优化。其中将误差从末层往前传递的过程需要链式法则（Chain Rule）的帮助。而链式法则是一个连乘的形式，所以当层数越深的时候，梯度将以指数形式传播。梯度消失问题一般随着网络层数的增加会变得越来越明显。在根据损失函数计算的误差通过梯度反向传播的方式对深度网络权值进行更新时，得到的梯度值接近0，也就是梯度消失。
计算权值更新信息的时候需要计算前层偏导信息，因此如果激活函数选择不合适，比如使用sigmoid，梯度消失就会很明显，原因如果使用sigmoid作为损失函数，其梯度是不可能超过0.25的，这样经过链式求导之后，很容易发生梯度消失。

解决方法：

1.pre-training+fine-tunning

此方法来自Hinton在2006年发表的一篇论文，Hinton为了解决梯度的问题，提出采取无监督逐层训练方法，其基本思想是每次训练一层隐节点，训练时将上一层隐节点的输出作为输入，而本层隐节点的输出作为下一层隐节点的输入，此过程就是逐层“预训练”（pre-training）；在预训练完成后，再对整个网络进行“微调”（fine-tunning）。此思想相当于是先寻找局部最优，然

本文发布于:2024-01-31 23:55:25，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170671652532314.html

上一篇：【深度学习笔记1.2】梯度消失与梯度爆炸

下一篇：我的奇思妙想机器人消防员

标签：有哪些梯度解决方法深度原因

留言与评论（共有 0 条评论）