其他分享
首页 > 其他分享> > 梯度消失/爆炸产生的原因和解决方案

梯度消失/爆炸产生的原因和解决方案

作者:互联网

梯度消失/爆炸产生的原因

在进行反向传播的过程中,梯度会反向传播,当梯度很大,并且weight值大于1的时候,网络会产生梯度爆炸,反之weight值很小,网络会产生梯度消失。
下面从网络深度和激活函数角度进行解释:
(1)网络深度
若在网络很深的时候,若权重初始化很小,各层上的相乘得到的数值都会在0-1之间的小数,而激活函数梯度也是0-1之间的数,那么连乘后,结果数值会变得很小,导致梯度消失,若权重初始化大时,大到激活函数的导数都大于1,那么连乘后,可能会导致求导的结果很大,导致梯度爆炸
(2)激活函数
如果激活函数选择不合适,例如sigmoid,梯度消失就很明显了,原因看下图,左边为sigmoid函数图,右边为其导数图,如果使用sigmoid作为损失函数,其梯度时不可能超过0.25,这样经过链式求导之后,很容易发生梯度消失。
在这里插入图片描述

梯度消失/爆炸的解决方案

1.预训练加微调
此方法来自Hinton在2006年发表的一篇论文,Hinton为了解决梯度的问题,提出采取无监督逐层训练方法,其基本思想是每次训练一层隐节点,训练时将上一层隐节点的输出作为输入,而本层隐节点的输出作为下一层隐节点的输入,此过程就是逐层“预训练”(pre-training);在预训练完成后,再对整个网络进行“微调”(fine-tunning)。Hinton在训练深度信念网络(Deep Belief Networks中,使用了这个方法,在各层预训练完成后,再利用BP算法对整个网络进行训练。此思想相当于是先寻找局部最优,然后整合起来寻找全局最优,此方法有一定的好处,但是目前应用的不是很多了。
2.梯度裁剪
当梯度超过一定阈值,那么就将其强制限制在这个范围之内,这就可以防止梯度爆炸,另外解决一种梯度爆炸的手段就是权重正则化比较常见的时L1和L2正则化。
3.采用合适的激活函数
例如Relu,LeakyRelu等等
4.采用BN
5.残差结构
6.LSTM
LSTM全称是长短期记忆网络,是不那么容易发生梯度消失,主要原因在于LSTM内部复杂的门。在计算时,将过程中的梯度进行了抵消。

标签:函数,训练,爆炸,梯度,消失,网络,解决方案
来源: https://blog.csdn.net/weixin_45074568/article/details/115218201