当前位置：首页 > news >正文

【ML】为什么要做batch normlization，怎么做batch normlization

news 2026/4/10 13:21:59

为什么要做batch normlization，怎么做batch normlization

- - 1. batch normlization
  - - 1.1 批量归一化是什么：
    - 1.2 为什么要做批量归一化：
  - 2. feature normalization
  - - 2.1 特征归一化是什么：
    - 2.2 为什么要做特征归一化：
  - 3. batch normlization test

1. batch normlization

Batch Normalization（批量归一化）是一种在深度神经网络中常用的技术，特别是在训练期间，用于提高训练速度、稳定性和性能。它由 Sergey Ioffe 和 Christian Szegedy 在 2015 年提出。

1.1 批量归一化是什么：

批量归一化操作涉及对神经网络中的每个小批量（batch）数据进行归一化处理。具体来说，它对每个特征通道（feature map）的激活值进行归一化，使其具有固定的均值和方差。归一化过程如下：

计算批次的均值和方差：
对于每个特征通道，计算小批量数据的均值 (\mu_B) 和方差 (\sigma_B^2)。
归一化：
使用批次的均值和方差对数据进行归一化，得到：
[ \hat{x} = \frac{x - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}} ]
其中 (\epsilon) 是一个很小的常数，用来保证数值稳定性。
缩放和平移：
然后通过两个可学习的参数 (\gamma)（缩放因子）和 (\beta)（偏移量）对归一化后的数据进行缩放和平移：
[ y = \gamma \hat{x} + \beta ]

1.2 为什么要做批量归一化：

加速训练：
批量归一化可以显著加速训练过程，因为它减少了训练初期的震荡，使得优化算法能够更快地收敛。
提高稳定性：
它使得每层网络的输入分布更加稳定，减少了梯度消失或爆炸的风险。
允许更高的学习率：
由于批量归一化减少了深度网络中的内部协变量偏移问题，可以使用更高的学习率，从而加快训练速度。
减少对初始化的依赖：
传统的网络训练对权重初始化非常敏感，而批量归一化减少了这种敏感性，使得网络更容易训练。
作为正则化：
批量归一化在一定程度上起到了正则化的作用，可以减少过拟合。
允许更深层网络：
由于它有助于缓解梯度消失和梯度爆炸问题，因此使得训练更深的网络成为可能。
加速收敛：
批量归一化可以使得训练过程中的损失函数更快地下降，从而加速收敛。

尽管批量归一化带来了许多好处，但它也有一些局限性，比如可能会轻微增加模型的计算负担，以及在小批量大小下可能导致训练和推理不一致的问题。在某些情况下，研究者可能会使用其他的归一化技术，如 Layer Normalization、Instance Normalization 或 Group Normalization。

在这里插入图片描述

2. feature normalization

Feature normalization（特征归一化）是深度学习和机器学习中用于数据预处理的一种技术，旨在将数据的特征缩放到统一的范围或分布。这通常有助于提高模型的训练效率和性能。

2.1 特征归一化是什么：

特征归一化通常包括以下几种类型：

零均值归一化（Zero-Mean Normalization）：
将特征的均值调整为0，即通过减去特征的均值来实现。
单位方差归一化（Unit Variance Normalization）：
将特征缩放到单位方差，即在零均值归一化的基础上，再除以特征的标准差。
最小-最大归一化（Min-Max Normalization）：
将特征缩放到指定的 [a, b] 范围内，通常是 [0, 1]，通过线性变换实现。
Z得分归一化（Z-Score Normalization）：
基于特征的均值和标准差进行归一化，使得结果具有单位方差和零均值。

2.2 为什么要做特征归一化：

提高模型收敛速度：
归一化可以加速基于梯度下降的优化算法的收敛速度，因为梯度在各个方向上的尺度一致。
防止某些特征占优：
当特征在不同尺度上时，尺度较大的特征可能会在模型训练中占主导地位，归一化可以避免这种情况。
提高模型泛化能力：
归一化有助于模型学习到更加一般化的特征表示，从而提高模型对新数据的泛化能力。
稳定训练过程：
归一化可以减少训练过程中的数值不稳定性，如梯度爆炸或消失问题。
适应不同模型的需求：
某些模型，如支持向量机（SVM）和 K-近邻（KNN）等，对特征的尺度非常敏感，归一化是这些模型训练的前提。
改善模型性能：
在某些情况下，归一化可以显著提高模型的预测精度。
便于比较不同特征：
当特征在不同的量纲和尺度时，归一化后可以更容易地比较和组合不同特征。
数据预处理的一部分：
特征归一化是数据预处理的重要步骤之一，有助于后续的特征工程和模型训练。

然而，并非所有情况下都需要特征归一化。例如，一些基于树的模型（如决策树、随机森林）和一些深度学习模型（如使用批量归一化的卷积神经网络）可能不依赖于特征的尺度。此外，如果数据集中的特征已经接近归一化，或者特征的尺度对于问题本身具有重要意义，则可能不需要进行归一化。

在这里插入图片描述

3. batch normlization test

test 阶段如何获取 train 呢？如何更新均值和方差，如果使用pytorch实现，那么pytorch再训练阶段，（假设batch =64），在数据陆续进入 train的batch个过程中，会维持更新均值和方差，当test阶段可以调用这个更新的均值和方差
在这里插入图片描述

在这里插入图片描述

【ML】为什么要做batch normlization，怎么做batch normlization

为什么要做batch normlization，怎么做batch normlization

1. batch normlization

1.1 批量归一化是什么：

1.2 为什么要做批量归一化：

2. feature normalization

2.1 特征归一化是什么：

2.2 为什么要做特征归一化：

3. batch normlization test

相关文章：

【ML】为什么要做batch normlization，怎么做batch normlization

【C++指南】命名空间

RocketMQ Dashboard安装

前端web开发HTML+CSS3+移动web（0基础,超详细）——第3天

认识MySQL

尚品汇-创建ES索引库（二十七）

设计模式-六大原则

MyBatis搭建和增删改查

【一图学技术】6.反向代理 vs API网关 vs 负载均衡的原理和使用场景

python爬虫番外篇 | Reuqests库高级用法（1）

【链表OJ】常见面试题 3

Linux学习笔记9(Linux包管理)

论文阅读《Geometric deep learning of RNA structure》

宏集方案 | 传统建筑智能化改造，迈向物联新时代

如果服务器更改Web端口会减少被攻击的风险吗?

vim列编辑模式

如何实现pxe安装部署

机器学习常见模型

【python案例】基于Python 爬虫的房地产数据可视化分析设计与实现

如何在Python中诊断和解决内存溢出问题

无人机APM实战：从串口调试到多协议通信配置

量化交易回测实战：如何用Backtrader-PyQt-UI实现10倍策略开发效率

Windows任务栏定制神器：7+ Taskbar Tweaker让你的桌面效率翻倍

模拟IC设计进阶指南：MOS开关电路的非理想特性与优化策略

SteamCleaner终极指南：一键释放60GB硬盘空间，让游戏电脑重获新生

网络安全：4个热门有用的开源网络入侵检测系统

OBS-VirtualCam终极指南：3大核心功能实现专业虚拟摄像头方案

AI全身全息感知快速体验：5步完成从部署到生成你的第一张骨骼图

终极游戏字体库：11款开源架空文字字体让你的创作瞬间拥有游戏世界氛围

软件工程核心知识点的系统性梳理与专业解析，涵盖软件生命周期模型、敏捷开发、需求分析、结构化方法、设计原则、测试技术、质量模型、维护类型、CMMI、项目管理、配置管理、文档标准及DevOps实践