梯度消失与梯度爆炸
作者:互联网
在训练深度网络时,导数或坡度有时候会非常大(梯度爆炸),或导数非常小(梯度消失),这加大了训练难度。
对于一个很深的神经网络,预测值y=wL*L(L-1)*.....*w1*x 所以,w1*x=z1,a1=sigmoid(z1) z2=w2*a2 上图省略sigmoid函数,
一个很深的神经网络,预测值就等于权重W的L次方, 当W矩阵中的元素大于0, 容易产生梯度爆炸, 当W中的元素小于0, 容易产生梯度消失。
解决办法:
就是改变初始化w的方式,来减少梯度爆炸或消失的几率。这个解决方案虽然不能彻底解决梯度爆炸和梯度消失问题,但它确实降低了梯度消失和爆炸问题。也很有用,有助于我们为神经网络更谨慎的选择随机初始化参数。
1. Xavier初始化:
具体思路等我学完概率论后再来补充,现在我也不会,只知道可以通过更改初始化w的方式,可以减少梯度下降和梯度消失
2. He初始化:
标签:初始化,sigmoid,爆炸,梯度,消失,神经网络 来源: https://blog.csdn.net/qq_53345829/article/details/121410458