其他分享
首页 > 其他分享> > “随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam”

“随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam”

作者:互联网

“随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam”

随机梯度下降法

怎么减小每次计算的参数量?
梯度下降法性价比低。
mini-batch等价于随机梯度下降法。

在这里插入图片描述
步长越大和理想下降路径偏离越大。

牛顿法

在这里插入图片描述
在这里插入图片描述
实用性较差

动量法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
指数加权移动平均法
在这里插入图片描述
动量法:把历史的数据也考虑进来,对参数的修改进行一些修正。

Nesterov

动量法:梯度和冲量共同决定下降方向。
在这里插入图片描述
怎么做到超前?
Nesterov:不止利用历史数据,还要向前超前一步,然后再修正下降方向。

学习率应该慢慢减小的。

最简单的方法,每迭代一步,学习率减少一个固定的数值。
当然这种方法并不好用。

AdaGrad

在这里插入图片描述
在学习率下面除以一个数值,这个数值是历史上所有的梯度数据的平方再开方。
在这里插入图片描述
适用于稀疏数据,更容易出现震荡,adagrad能够很好的解决这种情况。

RMSprop

在adagrad的基础上,采用指数加权移动平均法,强调了近的历史数据的影响,忽略了远的历史数据的影响,这样下降时该快的时候就快,该慢的时候就慢。
在这里插入图片描述

Adam

RMSprop和动量法的结合
在这里插入图片描述

Nadam

AdaGrad 和Nesterov结合

标签:Nesterov,梯度,RMSprop,下降,Adam,AdaGrad,动量
来源: https://blog.csdn.net/weixin_44623752/article/details/120142958