权重衰减(weight decay)与学习率衰减(learning rate decay)
作者:互联网
权重衰减(weight decay)L2正则化的目的就是为了让权重衰减到更小的值,在一定程度上减少模型过拟合的问题,所以权重衰减也叫L2正则化。
1.1 L2正则化与权重衰减系数
L2正则化就是在代价函数后面再加上一个正则化项:
遇到这种情况通常可以通过适当降低学习率(learning rate)来实现。但是,降低学习率又会延长训练所需的时间。学习率衰减(learning rate decay)就是一种可以平衡这两者之间矛盾的解决方案。学习率衰减的基本思想是:学习率随着训练的进行逐渐衰减。学习率衰减基本有两种实现方法:- 线性衰减。例如:每过5个epochs学习率减半。
- 指数衰减。例如:随着迭代轮数的增加学习率自动发生衰减,每过5个epochs将学习率乘以0.9998。具体算法如下:
decayed_learning_rate=learning_rate*decay_rate^(global_step/decay_steps)其中decayed_learning_rate为每一轮优化时使用的学习率,learning_rate为事先设定的初始学习率,decay_rate为衰减系数,decay_steps为衰减速度。
Reference:(1)学习率衰减部分内容和图片来自:学习率衰减(learning rate decay)(2)神经网络学习率(learning rate)的衰减
![在这里插入图片描述](https://www.icode9.com/i/ll/?i=20200302141820883.jpg)
![](https://g.csdnimg.cn/static/user-reg-year/1x/2.png)
标签:weight,decay,rate,正则,L2,learning,衰减 来源: https://blog.csdn.net/kyle1314608/article/details/104610937