当前位置：首页 > news >正文

Normalization(BN and LN) in NN

news 2026/2/9 2:37:40

在这里插入图片描述

Batch Normalization

称为批标准化。批是指一批数据，通常为 mini-batch；标准化是处理后的数据服从 $N (0, 1)$ 的正态分布。在训练过程中，数据需要经过多层的网络，如果数据在前向传播的过程中，尺度发生了变化，可能会导致梯度爆炸或者梯度消失，从而导致模型难以收敛。

假设输入的 mini-batch 数据是 $B={x_1...x_m}$ ，Batch Normalization 的可学习参数是 $\gamma, \beta$ ，步骤如下：

求 mini-batch 的均值： $\mu_B\gets \frac{1}{m} {\textstyle \sum_{i=1}^{m}}x_i$
求 mini-batch 的方差： $\sigma_B^2\gets \frac{1}{m} {\textstyle \sum_{i=1}^{m}}(x_i-\mu _B)$
标准化： $\widehat{x_i} \gets \frac{x_i-\mu_B}{\sqrt{\sigma_B^2+\epsilon } }$ ，其中 $\epsilon$ 是防止分母为 0 的一个数。
affine transform(缩放和平移)： $y_i\gets \gamma \widehat{x_i} +\beta\equiv BN_{r,\beta}(x_i)$ ，这个操作可以增强模型的 capacity，也就是让模型自己判断是否要对数据进行标准化，进行多大程度的标准化。如果
$\gamma=\sqrt{\sigma_B^2}, \beta=\mu_B$ ，那么就实现了恒等映射（前三步做标准化，这步做标准化的反变换）。

Batch Normalization 层一般在激活函数前一层。

在 PyTorch 中，有 3 个 Batch Normalization 类：

nn.BatchNorm1d()，输入数据的形状是 $\times C \times 1D feature(L)$ ：length
nn.BatchNorm2d()，输入数据的形状是 $\times C \times 2D feature(H \times W)$ ：hight, weight
nn.BatchNorm3d()，输入数据的形状是 $\times C \times 3D feature(T \times H \times W)$ ：time, hight, weight

torch.nn.BatchNorm1d(num_features, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)

num_features：一个样本的特征维度C，这个参数最重要
eps：在进行标准化操作时的分布修正项
momentum：指数加权平均估计当前的均值和方差
affine：是否需要 affine transform，默认为 True
track_running_stats：True 为训练状态，此时均值和方差会根据每个 mini-batch 改变。False 为测试状态，此时均值和方差会固定

例如，输入数据的形状是 $\times C \times 2D feature$ ，(3, 2, 2, 2, 3)，表示一个 mini-batch 有 3 个样本，每个样本有 2 个特征，每个特征的维度是 2 x 2 x3。那么就会计算 2 个均值和方差，分别对应每个特征维度。momentum 设置为 0.3，第一次的均值和方差默认为 0 和 1。输入两次 mini-batch 的数据。

Layer Normalization

提出的原因：Batch Normalization 不适用于变长的网络，如 RNN

思路：每个网络层计算均值和方差， $\gamma$ 和 $\beta$ 为逐样本的可学习参数。

torch.nn.LayerNorm(normalized_shape, eps=1e-05, elementwise_affine=True)

normalized_shape：该层每个样本特征的形状，可以取 $\times H \times W$ 、 $\times W$ 、 $W$
eps：标准化时的分母修正项
elementwise_affine：是否需要逐个样本 affine transform

例如，输入数据的形状是 $\times C \times feature$ ，(8, 2, 3, 4)，表示一个 mini-batch 有 8 个样本，每个样本有 2 个特征，每个特征的维度是 3 x 4。那么就会计算 8 个均值和方差，分别对应每个样本。

Normalization(BN and LN) in NN

Batch Normalization

Layer Normalization

相关文章：

Normalization(BN and LN) in NN

opencv-22 图像几何变换01-缩放-cv2.resize()（图像增强，图像变形，图像拼接）

python机器学习（五）逻辑回归、决策边界、代价函数、梯度下降法实现线性和非线性逻辑回归

聊聊Linq中.AsEnumerable(), AsQueryable() ,.ToList(),的区别和用法

【机器学习】机器学习中的“本体”概念

ChatGPT是否能够进行对话中的参考和指代解析？

网红项目AutoGPT源码内幕及综合案例实战（三）

第八章：list类

VUE声音-报警-实现方式

【Coppeliasim C++】焊接机械臂仿真

【LeetCode】94.二叉树的中序遍历

AWS IAM介绍

MySQL碎片清理

elasticsearch操作（API方式）

Vue2.0 使用 echarts

企业微信，阿里钉钉告警群机器人

linux下的tomcat

Vue源码学习 - new Vue初始化都做了什么？

新零售数字化商业模式如何建立？新零售数字化营销怎么做？

C++语法（26）--- 特殊类设计

【Linux】shell脚本忽略错误继续执行

AI Agent与Agentic AI：原理、应用、挑战与未来展望

8k长序列建模，蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂

如何为服务器生成TLS证书

【python异步多线程】异步多线程爬虫代码示例

NLP学习路线图（二十三）：长短期记忆网络（LSTM）

IoT/HCIP实验-3/LiteOS操作系统内核实验(任务、内存、信号量、CMSIS..)

UR 协作机器人「三剑客」：精密轻量担当（UR7e）、全能协作主力（UR12e）、重型任务专家（UR15）

AI病理诊断七剑下天山，医疗未来触手可及

[免费]微信小程序问卷调查系统(SpringBoot后端+Vue管理端)【论文+源码+SQL脚本】