首页 > 其他分享> > 梯度消失与梯度爆炸

梯度消失与梯度爆炸

2021-11-18 22:00:09 作者：互联网

在训练深度网络时，导数或坡度有时候会非常大(梯度爆炸)，或导数非常小(梯度消失)，这加大了训练难度。

对于一个很深的神经网络，预测值y=wL*L(L-1)*.....*w1*x 所以，w1*x=z1，a1=sigmoid(z1) z2=w2*a2 上图省略sigmoid函数，

一个很深的神经网络，预测值就等于权重W的L次方，当W矩阵中的元素大于0，容易产生梯度爆炸，当W中的元素小于0，容易产生梯度消失。

解决办法:

就是改变初始化w的方式，来减少梯度爆炸或消失的几率。这个解决方案虽然不能彻底解决梯度爆炸和梯度消失问题，但它确实降低了梯度消失和爆炸问题。也很有用，有助于我们为神经网络更谨慎的选择随机初始化参数。

1. Xavier初始化:

具体思路等我学完概率论后再来补充，现在我也不会，只知道可以通过更改初始化w的方式，可以减少梯度下降和梯度消失

2. He初始化：

标签：初始化,sigmoid,爆炸,梯度,消失,神经网络
来源： https://blog.csdn.net/qq_53345829/article/details/121410458