当前位置：首页 > news >正文

《动手学深度学习 Pytorch版》 7.5 批量规范化

news 2025/11/1 3:47:40

7.5.1 训练深层网络

训练神经网络的实际问题：

数据预处理的方式会对最终结果产生巨大影响。
训练时，多层感知机的中间层变量可能具有更广的变化范围。
更深层的网络很复杂容易过拟合。

批量规范化对小批量的大小有要求，只有批量大小足够大时批量规范化才是有效的。

用 $\boldsymbol{x}\in B$ 表示一个来自小批量 $B$ 的输入；$\hat{\boldsymbol{\mu}}_B $ 表示小批量 $B$ 的样本均值； $\hat{\boldsymbol{\sigma}}_B$ 表示小批量 $B$ 的样本标准差；批量规范化 BN 根据以下表达式转换 $\boldsymbol{x}$ ：

$BN(\boldsymbol{x})=\gamma\odot\frac{\boldsymbol{x}+\hat{\boldsymbol{\mu}}_B}{\hat{\boldsymbol{\sigma}}_B}+\beta$

应用标准化后生成的小批量的均值为 0，单位方差为 1。此外，其中还包含与 $\boldsymbol{x}$ 形状相同的拉伸参数 $\gamma$ 和偏移参数 $\beta$ 。需要注意的是， $\gamma$ 和 $\beta$ 是需要与其他模型一起参与学习的参数。

从形式上看，可以计算出上式中的 $\hat{\boldsymbol{\mu}}_B $ 和 $\hat{\boldsymbol{\sigma}}_B$ ：

$\begin{align} \hat{\boldsymbol{\mu}}_B &= \frac{1}{\left|B\right|}\sum_{\boldsymbol{x}\in B}\boldsymbol{x}\\ \hat{\boldsymbol{\sigma}}_B &= \frac{1}{\left|B\right|}\sum_{\boldsymbol{x}\in B}(\boldsymbol{x}-\hat{\boldsymbol{\mu}}_B)^2+\epsilon \end{align}$

式中添加的大于零的常量 $\epsilon$ 可以保证不会发生除数为零的错误。

7.5.2 批量规范化层

全连接层和卷积层需要两种略有不同的批量规范化策略：

全连接层

通常，我们将批量规范化层置于全连接层中的仿射变换和激活函数之间。设全连接层的输入为 $x$ ，权重参数和偏置参数分别为 $\boldsymbol{W}$ 和 $b$ ，激活函数为 $\phi$ ，批量规范化的运算符为 $BN$ 。那么，使用批量规范化的全连接层的输出的计算详情如下：

$\boldsymbol{h}=\phi(BN(\boldsymbol{W}x+b))$
卷积层

对于卷积层，可以在卷积层之后和非线性激活函数之前应用批量规范化。而且需要对多个输出通道中的每个输出执行批量规范化，每个通道都有自己的标量参数：拉伸和偏移参数。
预测过程中的批量规范化

批量规范化在训练模式和预测模式下的行为通常不同。

7.5.3 从零实现

import torch
from torch import nn
from d2l import torch as d2l

def batch_norm(X, gamma, beta, moving_mean, moving_var, eps, momentum):if not torch.is_grad_enabled():  # 如果是在预测模式下，直接使用传入的移动平均所得的均值和方差X_hat = (X - moving_mean) / torch.sqrt(moving_var + eps)else:assert len(X.shape) in (2, 4)if len(X.shape) == 2:  # 使用全连接层的情况，计算特征维上的均值和方差mean = X.mean(dim=0)  # 按行求均值var = ((X - mean) ** 2).mean(dim=0)  # 按行求方差else:  # 使用二维卷积层的情况，计算通道维上（axis=1）的均值和方差。mean = X.mean(dim=(0, 2, 3), keepdim=True)  # 保持X的形状(即第1维，输出通道数)以便后面可以做广播运算，结果的形状是1*n*1*1var = ((X - mean) ** 2).mean(dim=(0, 2, 3), keepdim=True)X_hat = (X - mean) / torch.sqrt(var + eps)  # 训练模式下，用当前的均值和方差做标准化# 更新移动平均的均值和方差moving_mean = momentum * moving_mean + (1.0 - momentum) * meanmoving_var = momentum * moving_var + (1.0 - momentum) * varY = gamma * X_hat + beta  # 缩放和移位return Y, moving_mean.data, moving_var.data

class BatchNorm(nn.Module):# num_features：完全连接层的输出数量或卷积层的输出通道数。# num_dims：2表示完全连接层，4表示卷积层def __init__(self, num_features, num_dims):super().__init__()if num_dims == 2:shape = (1, num_features)else:shape = (1, num_features, 1, 1)# 参与求梯度和迭代的拉伸和偏移参数，分别初始化成1和0self.gamma = nn.Parameter(torch.ones(shape))self.beta = nn.Parameter(torch.zeros(shape))# 非模型参数的变量初始化为0和1self.moving_mean = torch.zeros(shape)self.moving_var = torch.ones(shape)def forward(self, X):# 如果X不在内存上，将moving_mean和moving_var# 复制到X所在显存上if self.moving_mean.device != X.device:self.moving_mean = self.moving_mean.to(X.device)self.moving_var = self.moving_var.to(X.device)# 保存更新过的moving_mean和moving_varY, self.moving_mean, self.moving_var = batch_norm(X, self.gamma, self.beta, self.moving_mean,self.moving_var, eps=1e-5, momentum=0.9)return Y

7.5.4 使用批量规范化层的 LeNet

net = nn.Sequential(nn.Conv2d(1, 6, kernel_size=5), BatchNorm(6, num_dims=4), nn.Sigmoid(),nn.AvgPool2d(kernel_size=2, stride=2),nn.Conv2d(6, 16, kernel_size=5), BatchNorm(16, num_dims=4), nn.Sigmoid(),nn.AvgPool2d(kernel_size=2, stride=2), nn.Flatten(),nn.Linear(16*4*4, 120), BatchNorm(120, num_dims=2), nn.Sigmoid(),nn.Linear(120, 84), BatchNorm(84, num_dims=2), nn.Sigmoid(),nn.Linear(84, 10))

学习率拉的好大。

lr, num_epochs, batch_size = 1.0, 10, 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

loss 0.262, train acc 0.902, test acc 0.879
20495.7 examples/sec on cuda:0

在这里插入图片描述

7.5.5 简明实现

net1 = nn.Sequential(nn.Conv2d(1, 6, kernel_size=5), nn.BatchNorm2d(6), nn.Sigmoid(),nn.AvgPool2d(kernel_size=2, stride=2),nn.Conv2d(6, 16, kernel_size=5), nn.BatchNorm2d(16), nn.Sigmoid(),nn.AvgPool2d(kernel_size=2, stride=2), nn.Flatten(),nn.Linear(256, 120), nn.BatchNorm1d(120), nn.Sigmoid(),nn.Linear(120, 84), nn.BatchNorm1d(84), nn.Sigmoid(),nn.Linear(84, 10))

d2l.train_ch6(net1, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

loss 0.263, train acc 0.903, test acc 0.870
36208.4 examples/sec on cuda:0

在这里插入图片描述

7.5.6 争议

这个东西就是玄学，有效但是不知大为什么有效。作者给出的解释是“减少内部协变量偏移”，但是也是处于直觉而不是证明。

练习

（1）在使用批量规范化之前，我们是否可以从全连接层或者卷积层中删除偏置函数？为什么？

我认为可以，偏置会在减去均值时消去，此外，BN 中也是带偏移参数的。

（2）比较 LeNet 在使用和不使用批量规范化情况下的学习率。

a. 绘制训练和测试精准度的提高。b. 学习率有多高?

学习率相同的话，使用批量规范化的收敛速度会非常快。

（3）我们是否需要在每个层中进行批量规范化？尝试一下？

net2 = nn.Sequential(nn.Conv2d(1, 6, kernel_size=5), nn.BatchNorm2d(6), nn.Sigmoid(),nn.AvgPool2d(kernel_size=2, stride=2),nn.Conv2d(6, 16, kernel_size=5), nn.BatchNorm2d(16), nn.Sigmoid(),nn.AvgPool2d(kernel_size=2, stride=2), nn.Flatten(),nn.Linear(256, 120), nn.Sigmoid(),nn.Linear(120, 84), nn.Sigmoid(),nn.Linear(84, 10))lr, num_epochs, batch_size = 1.0, 10, 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch6(net2, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

loss 0.349, train acc 0.871, test acc 0.856
37741.0 examples/sec on cuda:0

在这里插入图片描述

去掉后面两个之后曲线稳多了。

（4）可以通过批量规范化来替换暂退法吗？行为会如何改变？

看来还是批量规范化好些

net3 = nn.Sequential(nn.Conv2d(1, 6, kernel_size=5), nn.Sigmoid(),nn.AvgPool2d(kernel_size=2, stride=2),nn.Conv2d(6, 16, kernel_size=5), nn.Sigmoid(),nn.AvgPool2d(kernel_size=2, stride=2), nn.Flatten(),nn.Linear(256, 120), nn.Sigmoid(),nn.Dropout(p=0.1),nn.Linear(120, 84), nn.Sigmoid(),nn.Dropout(p=0.1),nn.Linear(84, 10))lr, num_epochs, batch_size = 1.0, 10, 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch6(net3, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

loss 0.541, train acc 0.790, test acc 0.748
40642.6 examples/sec on cuda:0

在这里插入图片描述

（5）确定参数 gamma 和 beta，并观察和分析结果。

net[1].gamma.reshape((-1,)), net[1].beta.reshape((-1,))

(tensor([3.1800, 1.6709, 4.0375, 3.4801, 2.6182, 2.3103], device='cuda:0',grad_fn=<ReshapeAliasBackward0>),tensor([ 3.5415,  1.6295,  1.8926, -1.5510, -2.4556,  1.1020], device='cuda:0',grad_fn=<ReshapeAliasBackward0>))

（6）查看高级 API 中关于 BatchNorm 的在线文档，以了解其他批量规范化的应用。

略。

（7）研究思路：可以应用的其他“规范化”变换有哪些，可以应用概率积分变换吗，全秩协方差估计呢？

略。

《动手学深度学习 Pytorch版》 7.5 批量规范化

7.5.1 训练深层网络

7.5.2 批量规范化层

7.5.3 从零实现

7.5.4 使用批量规范化层的 LeNet

7.5.5 简明实现

7.5.6 争议

练习

相关文章：

《动手学深度学习 Pytorch版》 7.5 批量规范化

Toaster - Android 吐司框架，专治 Toast 各种疑难杂症

2023年9月26日，历史上的今天大事件早读

CListCtrl控件为只显示一列，持滚动显示其他，不用SetScrollFlags

spring博客实现分页查询

代码阅读分析神器-Scitools Understand

学霸吐血整理‼《2023 年 IC 验证岗面试真题解析》宝藏干货!

稳定性、可靠性、可用性、灵活性、解耦性

docker搭建Redis三主三从

亚马逊要求的UL报告的产品标准是什么？如何区分

如何在linux定时备份opengauss数据库（linux核心至少在GLIBC_2.34及以上）

SkyWalking快速上手（七）——Skywalking UI 界面简介

python+vue驾校驾驶理论考试模拟系统

go-redis 框架基本使用

java内嵌浏览器CEF-JAVA、jcef、java chrome

string类模拟实现——C++

在 SQL Server 中，可以使用加号运算符（+）来拼接字符串。但是，如果需要拼接多个字符串或表中的字段，就需要使用内置的拼接函数了

蓝桥杯每日一题2023.9.25

前端面试的话术集锦第 20 篇博文——高频考点（输入 URL 到页面渲染的整个流程）

Android Jetpack Compose之确定重组范围并优化重组

简易版抽奖活动的设计技术方案

java调用dll出现unsatisfiedLinkError以及JNA和JNI的区别

高频面试之3Zookeeper

Hive 存储格式深度解析：从 TextFile 到 ORC，如何选对数据存储方案？

动态 Web 开发技术入门篇

MySQL：分区的基本使用

从面试角度回答Android中ContentProvider启动原理

uniapp 集成腾讯云 IM 富媒体消息（地理位置/文件）

Unity中的transform.up

Mysql故障排插与环境优化