其他分享
首页 > 其他分享> > 机器学习笔记:Adam

机器学习笔记:Adam

作者:互联网

1 Adam介绍

Adam可以想成RMSprop+momentum

怎么记呢?Momentum累加前面是没有分式的,相当于除了1,所以在分子;RMSprop累加式子是在分母的,所以也在分母。

1.1 Bias Correction

2 Adam 特点

2.1 Adam通常在RNN中有很好的performance

2.2 Adam在靠近minimum的地方可能不能很好地收敛

——>靠近minimum的地方,梯度的值很小,因而梯度的平方比梯度更小。所以rt比st还要小,这就导致st除rt的值会较大。即每次变化的幅度会很大——这就可能导致overshooting

解决方法可以是慢慢地减少学习率,或者当快靠近minimum的时候,切换成带momentum的SGD

标签:rt,机器,梯度,笔记,st,minimum,Adam,momentum
来源: https://blog.csdn.net/qq_40206371/article/details/120381008