其他分享
首页 > 其他分享> > 特征缩放和Batch Normalization

特征缩放和Batch Normalization

作者:互联网

特征缩放

to do

Batch Normalization原理

https://zhuanlan.zhihu.com/p/34879333
https://zhuanlan.zhihu.com/p/69659844

背景

什么叫Internal Covariate Shift

Internal Covariate Shift会带来什么问题?

如何减缓Internal Covariate Shift(ICS)?

Batch Normalization


比如给定[N,C,HW],在[N,HW]上计算均值向量[C], 方差向量[C]
我们解决了第一个问题,即用更加简化的方式来对数据进行规范化,使得第 [公式] 层的输入每个特征的分布均值为0,方差为1。
Normalization操作我们虽然缓解了ICS问题,让每一层网络的输入数据分布都变得稳定,但却导致了数据表达能力的缺失。也就是我们通过变换操作改变了原有数据的信息表达(representation ability of the network),使得底层网络学习到的参数信息丢失。

测试阶段如何使用Batch Normalization?

最好不要在测试阶段用,因为

非要用的话

Batch Normalization的优势

BN使得网络中每层输入数据的分布相对稳定,加速模型学习速度

BN通过规范化与线性变换使得每一层网络的输入数据的均值与方差都在一定范围内,使得后一层网络不必不断去适应底层网络中输入的变化,从而实现了网络中层与层之间的解耦,允许每一层进行独立学习,有利于提高整个神经网络的学习速度。

BN使得模型对网络中的参数不那么敏感,简化调参过程,使得网络学习更加稳定

当学习率设置太高时,会使得参数更新步伐过大,容易出现震荡和不收敛。但是使用BN的网络将不会受到参数数值大小的影响

BN允许网络使用饱和性激活函数(例如sigmoid,tanh等),缓解梯度消失问题

在神经网络中,我们经常会谨慎地采用一些权重初始化方法(例如Xavier)或者合适的学习率来保证网络稳定训练。
在不使用BN层的时候,由于网络的深度与复杂性,很容易使得底层网络变化累积到上层网络中,导致模型的训练很容易进入到激活函数的梯度饱和区;通过normalize操作可以让激活函数的输入数据落在梯度非饱和区,缓解梯度消失的问题;另外通过自适应学习 \(\gamma\) 与 \(\beta\) 又让数据保留更多的原始信息。

BN具有一定的正则化效果

在Batch Normalization中,由于我们使用mini-batch的均值与方差作为对整体训练样本均值与方差的估计,尽管每一个batch中的数据都是从总体样本中抽样得到,但不同mini-batch的均值与方差会有所不同,这就为网络的学习过程中增加了随机噪音,与Dropout通过关闭神经元给网络训练带来噪音类似,在一定程度上对模型起到了正则化的效果。

BN总结

神经网络中有各种归一化算法:Batch Normalization (BN)、Layer Normalization (LN)、Instance Normalization (IN)、Group Normalization (GN)。从公式看它们都差不多,如 (1) 所示:无非是减去均值,除以标准差,再施以线性映射。

BN实现

标签:白化,缩放,梯度,BN,网络,Batch,输入,Normalization
来源: https://www.cnblogs.com/doragd/p/12827090.html