首页 > 其他分享> > 《动手学深度学习》组队学习打卡Task6——批量归一化和残差网络

《动手学深度学习》组队学习打卡Task6——批量归一化和残差网络

2020-02-19 19:37:28 作者：互联网

批量归一化（BatchNormalization）

对输入的标准化（浅层模型）

处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。
标准化处理输入数据使各个特征的分布相近

批量归一化（深度模型）

利用小批量上的均值和标准差，不断调整神经网络中间输出，从而使整个神经网络在各层的中间输出的数值更稳定。

1.对全连接层做批量归一化

位置：全连接层中的仿射变换和激活函数之间。
全连接：
$\boldsymbol{x} = \boldsymbol{W\boldsymbol{u} + \boldsymbol{b}} \\ output =\phi(\boldsymbol{x})$ x=Wu+boutput=ϕ(x)

批量归一化：
$output=\phi(\text{BN}(\boldsymbol{x}))$ output=ϕ(BN(x))

$\boldsymbol{y}^{(i)} = \text{BN}(\boldsymbol{x}^{(i)})$ y(i)=BN(x(i))

$\boldsymbol{\mu}_\mathcal{B} \leftarrow \frac{1}{m}\sum_{i = 1}^{m} \boldsymbol{x}^{(i)},$ μB←m1i=1∑mx(i),
$\boldsymbol{\sigma}_\mathcal{B}^2 \leftarrow \frac{1}{m} \sum_{i=1}^{m}(\boldsymbol{x}^{(i)} - \boldsymbol{\mu}_\mathcal{B})^2,$ σB2←m1i=1∑m(x(i)−μB)2,

$\hat{\boldsymbol{x}}^{(i)} \leftarrow \frac{\boldsymbol{x}^{(i)} - \boldsymbol{\mu}_\mathcal{B}}{\sqrt{\boldsymbol{\sigma}_\mathcal{B}^2 + \epsilon}},$ x^(i)←σB2+ϵx(i)−μB,

这⾥ϵ > 0是个很小的常数，保证分母大于0

${\boldsymbol{y}}^{(i)} \leftarrow \boldsymbol{\gamma} \odot \hat{\boldsymbol{x}}^{(i)} + \boldsymbol{\beta}.$ y(i)←γ⊙x^(i)+β.

引入可学习参数：拉伸参数γ和偏移参数β。若 $\boldsymbol{\gamma} = \sqrt{\boldsymbol{\sigma}_\mathcal{B}^2 + \epsilon}$ γ=σB2+ϵ和 $\boldsymbol{\beta} = \boldsymbol{\mu}_\mathcal{B}$ β=μB，批量归一化无效。