其他分享
首页 > 其他分享> > 加入正则化项是如何减少过拟合的

加入正则化项是如何减少过拟合的

作者:互联网

过拟合时加入正则化项为什么能减少过拟合,提高模型泛化能力?   要降低模型的复杂度,来获得模型更好的泛化能力。而降低模型的复杂度有两条路径:一是进行降维,进行特征约减,这样可以减少模型参数的个数。二是对参数进行约束。使得参数的取值范围减少。而第二种方法就是加正则项。 增加了正则项之后,新的模型的假设空间会受到限制,此时模型的VC维会变小,也就是模型的泛化能力更强。 怎么做到的? 正则化(Regularization)包括L1、L2(L2 regularization也叫weight decay权重衰减) L2正则化 就是在代价函数后面再加上一个正则化项: C0代表原始的代价函数,后面那一项就是L2正则化项,它是这样来的:所有参数w的平方的和,除以训练集的样本大小n。λ就是正则项系数,权衡正则项与C0项的比重。另外还有一个系数1/2,1/2经常会看到,主要是为了后面求导的结果方便,后面那一项求导会产生一个2,与1/2相乘刚好凑整。 L2正则化项是怎么避免overfitting的呢?我们推导一下看看,先求导: 可以发现L2正则化项对b的更新没有影响,但是对于w的更新有影响: 在不使用L2正则化时,求导结果中w前系数为1,现在w前面系数为 1−ηλ/n ,因为η、λ、n都是正的,所以 1−ηλ/n小于1,它的效果是减小w,这也就是权重衰减(weight decay)的由来。当然考虑到后面的导数项,w最终的值可能增大也可能减小。   L1正则化 在原始的代价函数后面加上一个L1正则化项,即所有权重w的绝对值的和,乘以λ/n(这里不像L2正则化项那样,需要再乘以1/2,具体原因上面已经说过。) 同样先计算导数: 上式中sgn(w)表示w的符号。那么权重w的更新规则为: 比原始的更新规则多出了η * λ * sgn(w)/n这一项。当w为正时,更新后的w变小。当w为负时,更新后的w变大——因此它的效果就是让w往0靠,使网络中的权重尽可能为0,也就相当于减小了网络复杂度,防止过拟合。 另外,上面没有提到一个问题,当w为0时怎么办?当w等于0时,|W|是不可导的,所以我们只能按照原始的未经正则化的方法去更新w,这就相当于去掉η*λ*sgn(w)/n这一项,所以我们可以规定sgn(0)=0,这样就把w=0的情况也统一进来了。(在编程的时候,令sgn(0)=0,sgn(w>0)=1,sgn(w<0)=-1)

标签:模型,拟合,正则,L2,sgn,求导,化项
来源: https://www.cnblogs.com/YolyZZ/p/15263707.html