论文阅读笔记: Cyclical Learning Rates For Training Neural Networks
作者:互联网
Cyclical Learning Rates For Training Neural Networks
2017 Leslie N. Smith
本文贡献:
提出一种新的名为cyclical learning rates的方式来设置学习率,并以此消除了在全局学习率最优值选择和选取策略上过多依赖于经验的限制.此外本文还提供了一种简单的确定学习率合理边界的方法.
摘要:
不同于传统的策略中让学习率下降单调减小的策略,本方法尝试让学习率在合理边界值内循环.使用循环学习率而不是固定值来进行训练,可以在不需要调整的情况下提高分类精度,而且通常可以减少训练所需要的步数.最终,在Resnets;Alexnet和Googlenet框架上对该算法进行了验证.
Introduction:
学习率过小会使训练算法收敛过于缓慢,过大的学习率会使训练算法发散.传统视角里认为学习率应该取在训练过程中单调减少的单个值.从本文试验中可以看出,在训练过程中让学习率在边界值左右循环的效果明显好于对学习率采用固定值.此外,相比于自适应学习率方法,本文提出的CLR本质上不需要额外的计算.本文的主要贡献:(1)提出一种为训练神经网络设定全局学习率的方法,该方法无需执行大量的试验来寻找最优质,基本上无需额外的计算.(2)一种惊奇的现象在本文中得到证明-允许学习率的上升和下降总的来说使有益的虽然这可能会损害网络的性能表现.(3)循环学习速率在CIFAR-10和CIFAR-100数据集上使用ResNets、随机深度网络和DenseNets进行了演示,在ImageNet上使用两个著名的架构:AlexNet和GoogleNet.
Related work:
Yoshua Bengio 在"Neural Networks: Tricks of the Trade, chapter Practical recommendations for gradient-based training ofdeep architectures, pages 437–478. Springer Berlin Heidelberg, 2012. "讨论了学习率的合理范围,并阐述了调整学习率的重要性.
Breuel在"The effects of hyperparameters on sgd training of neural networks."中提供了各种超参数的设置指导.
**Cyclical Learning Rates**
该学习率调整策略的本质源自于对增长学习率可能导致短期负面效果却有益于长期效果这一现象的观察.因此作者尝试让学习率在一个值的范围内进行变换而不是采取一个逐步固定或指数递减的策略,即设定最大最小边界让学习率在这个边界内循环变化.
对于CLR方法的直观有效理解源自于考虑损失函数的拓扑.在训练过程中,最糟糕的事情是遇见鞍点而不是局部最小值.鞍点处只有很小的梯度,会减缓学习过程.在这个时候,提高学习率可以更好的遍历鞍点平面.
标签:本文,Cyclical,训练,Neural,学习,Rates,Learning,Networks 来源: https://www.cnblogs.com/mathwang0916/p/15303672.html