首页 > 其他分享> > “随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam”

“随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam”

2021-09-06 20:33:27 作者：互联网

随机梯度下降法

怎么减小每次计算的参数量？
梯度下降法性价比低。
mini-batch等价于随机梯度下降法。
在这里插入图片描述
步长越大和理想下降路径偏离越大。

在这里插入图片描述

实用性较差

在这里插入图片描述

指数加权移动平均法

动量法：把历史的数据也考虑进来，对参数的修改进行一些修正。

动量法：梯度和冲量共同决定下降方向。
在这里插入图片描述
怎么做到超前？
Nesterov：不止利用历史数据，还要向前超前一步，然后再修正下降方向。

最简单的方法，每迭代一步，学习率减少一个固定的数值。
当然这种方法并不好用。

在这里插入图片描述
在学习率下面除以一个数值，这个数值是历史上所有的梯度数据的平方再开方。

适用于稀疏数据，更容易出现震荡，adagrad能够很好的解决这种情况。

在adagrad的基础上，采用指数加权移动平均法，强调了近的历史数据的影响，忽略了远的历史数据的影响，这样下降时该快的时候就快，该慢的时候就慢。
在这里插入图片描述

RMSprop和动量法的结合
在这里插入图片描述

AdaGrad 和Nesterov结合

标签：Nesterov,梯度,RMSprop,下降,Adam,AdaGrad,动量
来源： https://blog.csdn.net/weixin_44623752/article/details/120142958