当前位置：首页 > article >正文

CAU人工智能class4 批次归一化

article 2026/2/8 9:34:20

归一化

在对输入数据进行预处理时会用到归一化，将输入数据的范围收缩到0到1之间，这有利于避免纲量对模型训练产生的影响。
但当模型过深时会产生下述问题：
在这里插入图片描述
当一个学习系统的输入分布发生变化时，这种现象称之为“内部协变量偏移”（Internal Covariate Shift）。

内部协变量偏移

内部协变量偏移借鉴了统计学中的“协变量偏移”概念，协变量（Covariate）指的是在分析某一因变量与其关系时，除了自变量以外，可能影响因变量的其他变量。

协变量的存在可能混淆自变量和因变量之间的因果关系，故在研究中通常对协变量进行控制或校正。模型在训练时遇到数据分布发生变化，会影响模型的泛化能力。

内部协变量偏移的影响

需要较低的学习率

如果某一层的输入分布突然变化（例如均值或方差大幅波动），则该层的参数更新可能会破坏之前学到的特征。为了稳定训练，必须使用较小的学习率，这会显著减慢训练速度。

参数初始化敏感

参数初始化不合理会直接影响到模型的收敛速度、训练效率以及最终模型的性能。
原因：

引发梯度消失/爆炸问题：在计算梯度时会计算激活函数的倒数（斜率），而特别时饱和的激活函数的斜率在某些位置接近于0（或很大），这就会导致梯度消失或爆炸问题。
更快的模型收敛：更快的模型收敛

有利于训练的参数初始化

在这里插入图片描述
训练一个深度学习模型，如果希望模型有比较好的收敛效果，需要的前提
条件是每一层的输入数据有稳定的数据分布

批次归一化

批次归一化是对一个 batch 的数据在网络各层的输出做标准化处理，固定小批量里面的均值和方差，使得在不同层数据保持相同分布，即满足标准正态分布。

优点

批规一化允许使用更高的学习率
并且对初始化的要求不那么严格
它还起到了正则化的作用，在某些情况下甚至可以消除对 Dropout 的需求

步骤

𝐵𝑎𝑡𝑐ℎ𝑁𝑜𝑟𝑚 主要思路是在训练时按 𝑚𝑖𝑛𝑖 − 𝑏𝑎𝑡𝑐ℎ 为单位，对神经元的数值进行归一化，使数据的分布满足均值为 0，方差为 1。具体计算过程如下（4步）：

计算 𝑚𝑖𝑛𝑖 − 𝑏𝑎𝑡𝑐ℎ 内样本的均值
计算 𝑚𝑖𝑛𝑖 − 𝑏𝑎𝑡𝑐ℎ 内样本的方差
归一化

其中 𝜖 是一个微小值（例如 1e−7）
对标准化的输出进行缩放和平移
如果强行限制输出层的分布满足标准正态化，使得数据集中在激活函数中心的线性区域，反而使激活函数丧失了非线性特性。

可能会导致某些特征模式的丢失。因此在 BN 操作中为每个卷积核引入了两个可训练参数：缩放 (𝑆𝑐𝑎𝑙𝑒)因子 𝛾 和偏移(𝑆ℎ𝑖𝑓𝑡)因子 𝛽。

其中γ 和β 是可学习的参数，可以赋初始值 𝛾 = 1,β = 0 ，在训练过程中不断学习调整。而均值 𝜇𝐵 和方差 𝜎𝐵2 是计算得到的。
调节的原理：
γ 的作用：γ 可以调整归一化后数据的方差，使其恢复到原始数据的尺度。

β 的作用：β 可以调整归一化后数据的均值，使其恢复到原始数据的均值。
这样通过调节这两个参数可以保留一部分原数据的分布。

批量归一化的位置

放在激活函数前面

激活函数是类似于 sigmoid 有一定饱和区域的函数。则可以把归一化层放在激活函数之前，在一定程度上可以缓解梯度消失问题
在这里插入图片描述
如上图所示：假设未经过 BN 调整。
正态分布均值： −6
方差： 1
意味着 95 % 的值落在位于两个标准差[−2, 2] 的区间内，即 [−8, −4] 之间，而对应的 Sigmoid 函数的值明显接近于 0 ，这是典型的梯度饱和区。意味着梯度变化很小甚至消失。
而当落在的区间比较大时，计算出的梯度同样很小。
在这里插入图片描述
问题：

因此要对分布区间进行一定的变换，使其大部分落在函数敏感区间。