其他分享
首页 > 其他分享> > 李宏毅机器学习课程笔记-6.4学习率调整方法

李宏毅机器学习课程笔记-6.4学习率调整方法

作者:互联网

目录

RMSProp

2013年Hinton在Coursera提出。

Momentum

1986年提出

Adam

RMSProp+Momentum+Bias Correction,2015年提出

Adam VS SGDM

目前常用的就是Adam和SGDM。

Adam训练速度快,large generalization gap(在训练集和验证集上的性能差异大),但不稳定;SGDM更稳定,little generalization gap,更加converge(收敛)。

领域 技术/模型 优化器
Q&A、文意理解、文章生成 BERT Adam
BERT的Backbone、翻译 Transformer Adam
语音生成 Tacotron Adam
目标检测 YOLO SGDM
目标检测 Mask R-CNN SGDM
图片分类 ResNet SGDM
图片生成 Big-GAN Adam
元学习 MAML Adam

SGDM适用于计算机视觉,Adam适用于NLP、Speech Synthesis、GAN、Reinforcement Learning。

SWATS

2017年提出,尝试把Adam和SGDM结合,其实就是前一段时间用Adam,后一段时间用SGDM,但在切换时需要解决一些问题。

尝试改进Adam

尝试改进SGDM

改进Momentum

Early Stopping

如果学习率调整得较好,随着迭代次数增加,神经网络在训练集上的loss会越来越小,但因为验证集(Validation set)和训练集不完全一样,所以神经网络在验证集上的loss可能不降反升,所以我们应该在神经网络在验证集上loss最小时停止训练。

Keras文档中就有关于Early stopping的说明。


Github(github.com):@chouxianyu

Github Pages(github.io):@臭咸鱼

知乎(zhihu.com):@臭咸鱼

博客园(cnblogs.com):@臭咸鱼

B站(bilibili.com):@绝版臭咸鱼

微信公众号:@臭咸鱼

转载请注明出处,欢迎讨论和交流!


标签:SGDM,提出,李宏毅,学习,神经网络,6.4,Adam,梯度,2017
来源: https://www.cnblogs.com/chouxianyu/p/14403505.html