首页 > 其他分享> > 1、Batch Normalization

1、Batch Normalization

2021-12-06 20:34:30 作者：互联网

背景：由于Internal Covariate Shift(Google)【内部协变量转移， ICS】效应，即深度神经网络涉及到很多层的叠加，而每一层的参数更新会导致上层的输入数据分布发生变化，通过层层叠加，高层的输入分布变化会非常剧烈，这就使得高层需要不断去重新适应底层的参数更新。随着网络加深，参数分布不断往激活函数两端移动(梯度变小)，导致反向传播出现梯度消失，收敛困难。

大家都知道在统计机器学习中的一个经典假设是“源空间（source domain）和目标空间（target domain）的数据分布（distribution）是一致的”。如果不一致，那么就出现了新的机器学习问题，如 transfer learning / domain adaptation 等。而 covariate shift 就是分布不一致假设之下的一个分支问题，它是指源空间和目标空间的条件概率是一致的，但是其边缘概率不同，即：

对所有 $x\in \mathcal{X}$ , $P_s(Y|X=x)=P_t(Y|X=x)\\$ 但是 $P_s(X)\ne P_t(X)\\$ 。大家细想便会发现，的确，对于神经网络的各层输出，由于它们经过了层内操作作用，其分布显然与各层对应的输入信号分布不同，而且差异会随着网络深度增大而增大，可是它们所能“指示”的样本标记（label）仍然是不变的，这便符合了covariate shift的定义。由于是对层间信号的分析，也即是“internal”的来由。

原理：可在每层的激活函数前，加入BN，将参数重新拉回0-1正态分布，加速收敛。(理想情况下，Normalize的均值和方差应当是整个数据集的，但为了简化计算，就采用了mini_batch的操作)

标签：domain,Batch,分布,参数,数据分布,一致,covariate,Normalization
来源： https://www.cnblogs.com/ljygoodgoodstudydaydayup/p/15651706.html