当前位置：首页 > news >正文

深度学习中Batch Normalization(BN)原理、作用浅析

news 2025/7/8 15:56:54

最近做剪枝学习，其中一种是基于BN层的γ作为缩放因子进行剪枝的，那么我想搞懂BN的工作原理更好的理解网络、剪枝等，所以有了该文。

首先先说BN的作用在详细拆解，理解。以知乎一条高赞评论说明BN层到底在干什么。

Batch Norm 为什么有效

内部协变量偏移（Internal Covariate Shift）

其反映的问题就是源域与目标域存在偏差。在深度神经网络的训练过程中，随着网络层数的增加，前一层输出的分布会发生变化，这种变化通常会使得下一层的输入分布发生偏移，导致训练过程中的梯度下降变得不稳定，从而影响模型的收敛速度和性能。这种现象被称为“内部协变量偏移”。
内部协变量偏移，使得网络在训练时需要不断适应新的输入分布，这会消耗大量的计算资源并延长训练时间。而Batch Normalization（BN）层正是针对这一问题提出的解决方案。BN的核心思想是对每一层的输入进行归一化，使其均值为0，方差为1，从而减小输入数据的分布变化，使得网络在训练过程中能够更加稳定和高效地学习。
这就是协变量偏移的问题 — 模型输入的数据与之前训练的数据分布非常不同 — 即使新数据仍然符合相同的目标函数。

损失和梯度平滑

麻省理工学者质疑了解决协变量偏移是 Batch Norm 性能的原因的说法：论文
BN有效的本质原因在于其能够使优化空间optimization landscape变得平滑,其他的Normalization方法，例如L1，L2，L无穷大，也可以起到和BN一样的效果
该论文提出，Batch Norm 所做的是通过改变网络权重的分布来大幅平滑损失情况。这意味着 gradient descent 可以自信地朝着某个方向迈出一步，因为它知道它不会在途中发现突然的中断。因此，它可以通过使用更大的学习率来采取更大的步骤。

Batch Normalization 的原理

BN 层的核心操作是在每一层的输入上进行归一化处理。具体来说，BN会对每一批次（mini-batch）的输入进行均值和方差的计算，然后使用这些统计量对输入进行归一化。归一化后的数据会被乘以一个可学习的缩放参数（gamma），并加上一个可学习的偏移参数（beta）。通过这种方式，BN不仅对输入进行了标准化处理，还通过学习到的参数对其进行了适当的尺度和位置调整，使得网络能够适应不同的数据分布。

数学上，BN操作可以表示为：
图片来自https://github.com/Captain1986/CaptainBlackboard/blob/master/D%230020-Batch-Normalization%E5%B1%82%E5%8E%9F%E7%90%86%E4%B8%8E%E5%88%86%E6%9E%90/D%230020.md
计算当前mini-batch所有样本的均值；计算当前mini-batch所有样本的方差；对当前mini-batch内每个样本用前面的均值和方差做归一化；对归一化后的样本，乘以一个缩放系数，再做一次平移；

可学习缩放参数γ、可学习偏移参数β
- 𝛾是一个缩放因子，它对标准化后的数据进行线性变换，控制了数据的尺度。通过学习网络能够自动调整每一层输出的方差大小，以适应不同的数据分布。𝛽这是一个偏移因子，它对标准化后的数据加上一个常数，控制了数据的均值。通过学习网络能够调整每一层输出的均值，使其更适合特定任务的需求 。
- 参数由网络学习得到，每个 Batch Norm 层都能够以最佳方式找到适合自己的最佳因子，因此可以移动和缩放归一化值以获得最佳预测
- 对标准化后的数据进行缩放和偏移。这一步骤是在标准化之后进行的，目的是使得网络能够恢复标准化过程中可能丢失的特征，避免标准化导致模型表达能力的下降
- 对一些重要的通道会学习到较大的γ值，不重要的通道会学到接近于0的γ值，我认为这可能是另一篇网络剪枝论文的理论基础。

Batch Norm 的作用

Batch Norm 帮助模型更快地收敛并加快训练速度。它使训练对权重的初始化方式和超参数的精确调整不太敏感。
Batch Norm 可以使用更高的学习率。如果没有 Batch Norm，学习率必须保持较小，以防止较大的异常值梯度影响梯度下降。Batch Norm 有助于减少这些异常值的影响。
Batch Norm还减少了梯度对初始权重值的依赖性。由于权重是随机初始化的，因此训练早期阶段的异常值权重值可能会扭曲梯度。因此，网络收敛需要更长的时间。Batch Norm 有助于抑制这些异常值的影响。
提高模型的泛化能力（正则化作用）在一定程度上起到了正则化的作用，减少了过拟合的风险。由于每一批次的统计量是基于当前批次数据计算的，这种变化引入了微小的噪声，有助于提高模型的泛化能力。
标准化输入数据，减少内部协方差偏移
BN通过使每一层的激活值在训练过程中保持稳定，避免了大幅度的梯度波动，从而提高了网络训练的稳定性。每一层的输入分布在训练过程中几乎不变，有助于减少训练过程中梯度的剧烈波动。

Batch Norm 何时不适用？

Batch Norm 不适用于较小的批量。这会导致每个小批量的均值和方差中出现过多的噪声。有人提出的Group Normalization等方法可以改善这些问题
Batch Norm 不用于循环网络。每个时间步之后的激活具有不同的分布，因此对其应用 Batch Norm 是不切实际的。但提出的Layer Normalization等方法也可以适用于循环网络

总结

本文主要参考了

部分内容翻译自Batch Norm Explained Visually — Why does it work?
部分图像来自BN原理分析

深度学习中Batch Normalization(BN)原理、作用浅析

Batch Norm 为什么有效

内部协变量偏移（Internal Covariate Shift）

损失和梯度平滑

Batch Normalization 的原理

Batch Norm 的作用

Batch Norm 何时不适用？

总结

相关文章：

深度学习中Batch Normalization(BN)原理、作用浅析

C语言常用字符串处理函数

文件上传漏洞详解

关于linux的ld.so.conf.d

pytest执行报错：found no collectors

如何实现网页不用刷新也能更新

c#调用c++的dll，字符串指针参数问题

HTML5 新表单属性详解

JAVA 使用反射比较对象属性的变化，记录修改日志。使用注解【策略模式】，来进行不同属性枚举值到中英文描述的切换，支持前端国际化。

Docker入门学习

吴恩达深度学习——神经网络介绍

STM32之CubeMX新建工程操作（十八）

Postgresql源码（140）理解PG的编译流程（make、Makefile、Makefile.global.in）

logback日志自定义占位符

Vue平台开发三——项目管理页面

用于牙科的多任务视频增强

【Node.js]

【Elasticsearch】腾讯云安装Elasticsearch

【网络协议】ACL（访问控制列表）第一部分

2025.1.20——一、[RCTF2015]EasySQL1 二次注入|报错注入|代码审计

【HarmonyOS 5.0】DevEco Testing：鸿蒙应用质量保障的终极武器

解决Ubuntu22.04 VMware失败的问题 ubuntu入门之二十八

ESP32 I2S音频总线学习笔记（四）： INMP441采集音频并实时播放

MySQL 8.0 OCP 英文题库解析（十三）

C++八股 —— 单例模式

项目部署到Linux上时遇到的错误（Redis，MySQL，无法正确连接，地址占用问题）

基于matlab策略迭代和值迭代法的动态规划

HarmonyOS运动开发：如何用mpchart绘制运动配速图表

七、数据库的完整性

rm视觉学习1-自瞄部分