首页 > 其他分享> > 梯度消失/爆炸产生的原因和解决方案

梯度消失/爆炸产生的原因和解决方案

2021-03-25 20:59:11 作者：互联网

梯度消失/爆炸产生的原因

在进行反向传播的过程中，梯度会反向传播，当梯度很大，并且weight值大于1的时候，网络会产生梯度爆炸，反之weight值很小，网络会产生梯度消失。
下面从网络深度和激活函数角度进行解释：
（1）网络深度
若在网络很深的时候，若权重初始化很小，各层上的相乘得到的数值都会在0-1之间的小数，而激活函数梯度也是0-1之间的数，那么连乘后，结果数值会变得很小，导致梯度消失，若权重初始化大时，大到激活函数的导数都大于1，那么连乘后，可能会导致求导的结果很大，导致梯度爆炸
（2）激活函数
如果激活函数选择不合适，例如sigmoid，梯度消失就很明显了，原因看下图，左边为sigmoid函数图，右边为其导数图，如果使用sigmoid作为损失函数，其梯度时不可能超过0.25，这样经过链式求导之后，很容易发生梯度消失。
在这里插入图片描述

梯度消失/爆炸的解决方案

1.预训练加微调
此方法来自Hinton在2006年发表的一篇论文，Hinton为了解决梯度的问题，提出采取无监督逐层训练方法，其基本思想是每次训练一层隐节点，训练时将上一层隐节点的输出作为输入，而本层隐节点的输出作为下一层隐节点的输入，此过程就是逐层“预训练”（pre-training）；在预训练完成后，再对整个网络进行“微调”（fine-tunning）。Hinton在训练深度信念网络（Deep Belief Networks中，使用了这个方法，在各层预训练完成后，再利用BP算法对整个网络进行训练。此思想相当于是先寻找局部最优，然后整合起来寻找全局最优，此方法有一定的好处，但是目前应用的不是很多了。
2.梯度裁剪
当梯度超过一定阈值，那么就将其强制限制在这个范围之内，这就可以防止梯度爆炸，另外解决一种梯度爆炸的手段就是权重正则化比较常见的时L1和L2正则化。
3.采用合适的激活函数
例如Relu，LeakyRelu等等
4.采用BN
5.残差结构
6.LSTM
LSTM全称是长短期记忆网络，是不那么容易发生梯度消失，主要原因在于LSTM内部复杂的门。在计算时，将过程中的梯度进行了抵消。

标签：函数,训练,爆炸,梯度,消失,网络,解决方案
来源： https://blog.csdn.net/weixin_45074568/article/details/115218201