首页 > 其他分享> > 权重衰减（weight decay）与学习率衰减（learning rate decay）

权重衰减（weight decay）与学习率衰减（learning rate decay）

2020-03-02 14:43:09 作者：互联网

权重衰减（weight decay）L2正则化的目的就是为了让权重衰减到更小的值，在一定程度上减少模型过拟合的问题，所以权重衰减也叫L2正则化。

1.1 L2正则化与权重衰减系数

L2正则化就是在代价函数后面再加上一个正则化项：

遇到这种情况通常可以通过适当降低学习率（learning rate）来实现。但是，降低学习率又会延长训练所需的时间。学习率衰减（learning rate decay）就是一种可以平衡这两者之间矛盾的解决方案。学习率衰减的基本思想是：学习率随着训练的进行逐渐衰减。学习率衰减基本有两种实现方法：

线性衰减。例如：每过5个epochs学习率减半。
指数衰减。例如：随着迭代轮数的增加学习率自动发生衰减，每过5个epochs将学习率乘以0.9998。具体算法如下：

decayed_learning_rate=learning_rate*decay_rate^(global_step/decay_steps)其中decayed_learning_rate为每一轮优化时使用的学习率，learning_rate为事先设定的初始学习率，decay_rate为衰减系数，decay_steps为衰减速度。

Reference：（1）学习率衰减部分内容和图片来自：学习率衰减（learning rate decay）（2）神经网络学习率（learning rate）的衰减

![在这里插入图片描述](https://www.icode9.com/i/ll/?i=20200302141820883.jpg)

kyle1314608 发布了259 篇原创文章 · 获赞 7 · 访问量 2万+ 私信关注

标签：weight,decay,rate,正则,L2,learning,衰减
来源： https://blog.csdn.net/kyle1314608/article/details/104610937