其他分享
首页 > 其他分享> > 梯度消失与梯度爆炸

梯度消失与梯度爆炸

作者:互联网

在训练深度网络时,导数或坡度有时候会非常大(梯度爆炸),或导数非常小(梯度消失),这加大了训练难度。

 对于一个很深的神经网络,预测值y=wL*L(L-1)*.....*w1*x   所以,w1*x=z1,a1=sigmoid(z1)   z2=w2*a2 上图省略sigmoid函数, 

一个很深的神经网络,预测值就等于权重W的L次方, 当W矩阵中的元素大于0, 容易产生梯度爆炸, 当W中的元素小于0, 容易产生梯度消失。

解决办法:

就是改变初始化w的方式,来减少梯度爆炸或消失的几率。这个解决方案虽然不能彻底解决梯度爆炸和梯度消失问题,但它确实降低了梯度消失和爆炸问题。也很有用,有助于我们为神经网络更谨慎的选择随机初始化参数。

1. Xavier初始化:

具体思路等我学完概率论后再来补充,现在我也不会,只知道可以通过更改初始化w的方式,可以减少梯度下降和梯度消失

2. He初始化:

标签:初始化,sigmoid,爆炸,梯度,消失,神经网络
来源: https://blog.csdn.net/qq_53345829/article/details/121410458