To Learn More-Optimization for Deep Learning
作者:互联网
何为优化?
找个loss surface的最小值
On-line一次可以拿到一组训练资料,Off-line一次拿到所有的训练资料
Gradient的方向就是L增加的方法,所以我们要往反方向走,就是L减少的方向走,目标找到一个可以有最小的L
复习一下SGD
加入了动量之后
Adagard
RMSProp
相比于Adagrad,如果Adagrad刚开始g很大,导致learning rate 一直很小,就会很容易卡住;RMSProp就很好的解决了这个问题,这个Optimizer不会在走没几步以后就因为前几步
gradient太大,所以停下来
Adam
对比一下Adam和SGDM
标签:几步,RMSProp,Deep,Adam,Learning,方向,line,Adagrad,More 来源: https://blog.csdn.net/qq_42593798/article/details/115681273