“随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam”
作者:互联网
“随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam”
随机梯度下降法
怎么减小每次计算的参数量?
梯度下降法性价比低。
mini-batch等价于随机梯度下降法。
步长越大和理想下降路径偏离越大。
牛顿法
实用性较差
动量法
指数加权移动平均法
动量法:把历史的数据也考虑进来,对参数的修改进行一些修正。
Nesterov
动量法:梯度和冲量共同决定下降方向。
怎么做到超前?
Nesterov:不止利用历史数据,还要向前超前一步,然后再修正下降方向。
学习率应该慢慢减小的。
最简单的方法,每迭代一步,学习率减少一个固定的数值。
当然这种方法并不好用。
AdaGrad
在学习率下面除以一个数值,这个数值是历史上所有的梯度数据的平方再开方。
适用于稀疏数据,更容易出现震荡,adagrad能够很好的解决这种情况。
RMSprop
在adagrad的基础上,采用指数加权移动平均法,强调了近的历史数据的影响,忽略了远的历史数据的影响,这样下降时该快的时候就快,该慢的时候就慢。
Adam
RMSprop和动量法的结合
Nadam
AdaGrad 和Nesterov结合
标签:Nesterov,梯度,RMSprop,下降,Adam,AdaGrad,动量 来源: https://blog.csdn.net/weixin_44623752/article/details/120142958