当前位置：首页 > news >正文

Datawhale x李宏毅苹果书AI夏令营深度学习详解进阶Task03

news 2026/2/10 2:03:25

在深度学习中，批量归一化（Batch Normalization，BN）技术是一种重要的优化方法，它可以有效地改善模型的训练效果。本文将详细讨论批量归一化的原理、实现方式、在神经网络中的应用，以及如何选择合适的损失函数来提高模型的训练效果，同时对均方误差和交叉熵两种常见的损失函数进行比较。

一、批量归一化的原理

在深度学习中，误差表面的崎岖不平会使训练变得困难。批量归一化的想法就是通过改变误差表面的地貌，“把山铲平”，让训练变得更容易。

具体来说，当输入特征在不同维度上的数值范围差距很大时，可能会导致误差表面在不同方向上的斜率差异很大，从而使训练变得困难。为了解决这个问题，可以对特征进行归一化，使不同维度的数值具有相同的数值范围。

例如，可以使用 Z 值归一化（标准化）的方法，对每个维度的数值计算平均值和标准差，然后将该维度的数值减去平均值并除以标准差，得到归一化后的数值。这样可以使归一化后的数值分布在 0 上下，方差为 1，从而制造一个更好的误差表面，使训练更顺利。

二、批量归一化的实现方式

在深度学习中，批量归一化的实现方式如下：

对输入的特征进行归一化，得到归一化后的特征˜x。
将˜x 输入到深度网络中，经过第一层得到 z^1，然后通过激活函数得到 a^1，接着再通过下一层，以此类推。
对中间层的特征 z 进行归一化，具体步骤如下：
- 计算 z^1, z^2, z^3 的平均值 μ 和标准差 σ。
- 根据计算出的 μ 和 σ 进行归一化：。
- 最后，加上 β 和 γ 进行调整：，其中代表逐元素的相乘，β 和 γ 是需要学习的参数。

在实际实现中，批量归一化只对一个批量内的数据进行归一化，以近似整个数据集的特征归一化。同时，在测试时，PyTorch 会对训练时每个批量计算出的 μ 和 σ 进行移动平均，测试时直接用训练时的移动平均来取代 μ 和 σ。

三、批量归一化在神经网络中的应用

批量归一化可以应用于神经网络的各个层，它可以使误差表面变得更加平滑，从而提高训练的稳定性和收敛速度。

通过对特征进行归一化，可以减少不同维度之间的差异，使得网络更容易学习到有用的特征。此外，批量归一化还可以缓解梯度消失和梯度爆炸的问题，使训练更加稳定。

四、如何选择合适的损失函数来提高模型的训练效果

选择合适的损失函数对于提高模型的训练效果至关重要。不同的损失函数适用于不同的问题和模型。

在分类问题中，常用的损失函数有均方误差和交叉熵。均方误差是将输出与标签之间的差异平方后求和，而交叉熵则是根据输出与标签之间的概率分布来计算损失。

交叉熵损失函数通常比均方误差更常用在分类上，因为它能够更好地引导模型的训练。当输出与标签相同时，交叉熵可以最小化交叉熵的值，此时均方误差也是最小的。此外，交叉熵还能够使大的值跟小的值的差距更大，从而更好地优化模型。

五、均方误差和交叉熵两种常见的损失函数的比较

通过一个三类分类的例子，可以比较均方误差和交叉熵在优化中的表现。

假设网络先输出和，通过 softmax 以后，产生和。假设正确答案是，要计算跟和之间的距离 e，e 可以是均方误差或交叉熵。

当很大，很小时，代表会很接近 1，会很接近 0，此时不管 e 取均方误差或交叉熵，损失都是小的；当小，大时，是 0，是 1，这个时候损失会比较大。

在优化过程中，如果选择交叉熵，左上角圆圈所在的点有斜率，可以通过梯度一路往右下的地方 “走”；如果选均方误差，左上角圆圈就卡住了，均方误差在这种损失很大的地方非常平坦，梯度非常小趋近于 0，无法用梯度下降顺利地 “走” 到右下角。因此，在做分类时，选均方误差的时候，如果没有好的优化器，有非常大的可能性会训练不起来。如果用 Adam，虽然图中圆圈的梯度很小，但 Adam 会自动调大学习率，还有机会走到右下角，不过训练的过程比较困难。

Datawhale x李宏毅苹果书AI夏令营深度学习详解进阶Task03

一、批量归一化的原理

二、批量归一化的实现方式

三、批量归一化在神经网络中的应用

四、如何选择合适的损失函数来提高模型的训练效果

五、均方误差和交叉熵两种常见的损失函数的比较

相关文章：

Datawhale x李宏毅苹果书AI夏令营深度学习详解进阶Task03

【机器学习】任务三：基于逻辑回归与线性回归的鸢尾花分类与波士顿房价预测分析

【操作系统存储篇】Linux文件基本操作

C++ | Leetcode C++题解之第387题字符串中的第一个唯一字符

数学建模--皮尔逊相关系数、斯皮尔曼相关系数

DAY87 APP 攻防-安卓逆向篇Smail 语法反编译签名重打包Activity 周期Hook 模块

jenkins 工具使用

使用C语言实现字符推箱子游戏

用SpringBoot API实现识别pdf文件是否含有表格

嵌入式S3C2440:控制LED灯

算法：区间dp

【14.1运行版】C++俄罗斯方块-实现欢迎界面

数据分析：R语言计算XGBoost线性回归模型的SHAP值

SprinBoot+Vue图书馆预约与占座微信小程序的设计与实现

云计算之大数据（上）

交友系统“陌陌”全方位解析

Android 删除开机动画

我用 GPT 学占星

028、架构_高可用_主从原理

【启明智显技术分享】探讨CAN总线相关知识以及Model3C 2路CAN的应用

Prompt Tuning、P-Tuning、Prefix Tuning的区别

【入坑系列】TiDB 强制索引在不同库下不生效问题

【ROS】Nav2源码之nav2_behavior_tree-行为树节点列表

Python爬虫（一）：爬虫伪装

DBAPI如何优雅的获取单条数据

GitHub 趋势日报 (2025年06月08日)

BCS 2025｜百度副总裁陈洋：智能体在安全领域的应用实践

MySQL 8.0 OCP 英文题库解析（十三）

C# 表达式和运算符(求值顺序)

4. TypeScript 类型推断与类型组合