当前位置：首页 > article >正文

pytorch 反向传播

article 2026/2/8 14:21:41

文章目录

- 概念
- - 计算图
  - 自动求导的两种模式
- 自动求导-代码
- - 标量的反向传播
  - 非标量变量的反向传播
  - 将某些计算移动到计算图之外

概念

核心：链式法则

深度学习框架通过自动计算导数(自动微分)来加快求导。

实践中，根据涉及号的模型，系统会构建一个计算图，来跟踪计算是哪些数据通过哪些操作组合起来产生输出。

自动微分使系统能够随后反向传播梯度。

反向传播：跟踪整个计算图，填充关于每个参数的偏导数。

计算图

将代码分解成操作子，将计算表示成一个无环图
将计算表示成一个无环图、

自动求导的两种模式

反向传播

构造计算图
前向：执行图，存储中间结果
反向：从相反方向执行图 - 不需要的枝可以减去，比如正向里的x和y连接的那个枝

自动求导-代码

标量的反向传播

案例：假设对函数 $y=2x^Tx$ 关于列向量x求导

1.首先初始化一个向量

x = torch.arange(4.0) # 创建变量x并为其分配初始值
print(x) #tensor([0., 1., 2., 3.])

2.计算y关于x的梯度之前，需要一个地方来存储梯度。

x.requires_grad_()等价于x=torch.arange(4.0,requires_grad=True)，这样PyTorch会跟踪x的梯度,并生成grad属性，该属性里记录梯度。

通常用于表示某个变量或返回值“有意为空”或"暂时没有值"，已经初始化但是没有值

x.requires_grad_(True)
print(x.grad)  # 默认值是None,存储导数。

3.计算y的值，y是一个标量，在python中表示为tensor(28., )，并记录是通过某种乘法操作生成的。

y = 2 * torch.dot(x, x)
print(y) # tensor(28., grad_fn=<MulBackward0>)

4.调用反向传播函数来自动计算y关于x每个分量的梯度。

y.backward()
print(x.grad) # tensor([ 0.,  4.,  8., 12.])

我们可以知道根据公式来算， $y=2x^Tx$ 关于列向量x求导的结果是4x，根据打印结果来看结果是正确的。

5.假设此时我们需要继续计算x所有分量的和，也就是 $y = x . s u m ()$

在默认情况下，PyTorch会累计梯度，我们需要调用grad.zero_清空之前的值。

x.grad.zero_()
y = x.sum() # y = x₁ + x₂ + x₃ + x₄
print(y)
y.backward()
print(x.grad) # tensor([1., 1., 1., 1.])

非标量变量的反向传播

在深度学习中，大部分时候目的是将批次的损失求和之后(标量)再对分量求导。

y.sum()将 y的所有元素相加，得到一个标量 $sum(y)=\sum_{i=1}^n x_i^2$

y.sum().backward()等价于y.backward(torch.ones(len(x))：

x.grad.zero_()
y = x * x  # y是一个矩阵
print(y) # tensor([0., 1., 4., 9.], grad_fn=<MulBackward0>)  4*1的矩阵
# 等价于y.backward(torch.ones(len(x)))
y.sum().backward()
print(x.grad)  # [0., 2., 4., 6.]

将某些计算移动到计算图之外

假设 $y = f (x), z = g (y, x)$ ，我们需要计算 $z$ 关于 $x$ 的梯度，正常反向传播时，梯度会通过 $y$ 和 $x$ 两条路径传播到 $x$ ： $\frac{\partial z}{\partial x} = \frac{\partial g}{\partial y} \frac{\partial y}{\partial x} +\frac{\partial g}{\partial x}$ 。但由于某种原因，希望将 $y$ 视为一个常数，忽略 $y$ 对 $x$ 的依赖： $\frac{\partial z}{\partial x} |_{y常数} =\frac{\partial g}{\partial x}$ 。

通过 detach() 方法将 $y$ 从计算图中分离，使其不参与梯度计算。

$\frac{\partial \sum z_i}{\partial x_i} = u_i$

x.grad.zero_()
y = x * x 
print(y) # tensor([0., 1., 4., 9.], grad_fn=<MulBackward0>)
u = y.detach() # 把y看成一个常数从计算图中分离，不参与梯度计算，但值还是x*x
print(u) # tensor([0., 1., 4., 9.])
z = u * x # z是一个常数*x
print(z) # tensor([ 0.,  1.,  8., 27.], grad_fn=<MulBackward0>)
z.sum().backward() print(x.grad == u) # tensor([True,True,true,True])

执行y.detach()返回一个计算图之外，但值同y一样的tensor，只是将函数z中的y替换成了这个等价变量。

但对于y本身来说还是一个在该计算图中，就可以在y上调用反向传播函数，得到 $y = x * x$ 关于 $x$ 的导数 $2 x$

x.grad.zero_()
y.sum().backward()
print(x.grad == 2 * x) # tensor([True,True,true,True])

pytorch 反向传播

文章目录

概念

计算图

自动求导的两种模式

自动求导-代码

标量的反向传播

非标量变量的反向传播

将某些计算移动到计算图之外

相关文章：

pytorch 反向传播

WindowsPE文件格式入门06.手写最小PE

并发编程--互斥锁与读写锁

记录第一次使用H5的WebBluetooth完成蓝牙标签打印机的（踩坑）过程

2025 年“认证杯”数学中国数学建模网络挑战赛 A题小行星轨迹预测

【WRF理论第十七期】单向/双向嵌套机制（含namelist.input详细介绍）

Spring Boot 3.4.3 和 Spring Security 6.4.2 结合 JWT 实现用户登录

Python 实现的运筹优化系统数学建模详解(0-1规划指派问题)

TCP转发隧道

React 学习 JSX

大模型论文：Language Models are Few-Shot Learners(GPT3)

一周学会Pandas2 Python数据处理与分析-Pandas2数据导出

深入解析栈式虚拟机与反向波兰表示法

python中的数据模型-pydantic浅讲

15.【.NET 8 实战--孢子记账--从单体到微服务--转向微服务】--单体转微服务--如何拆分单体

华为数字芯片机考2025合集4已校正

Java面试黄金宝典47

学习MySQL的第八天

AI识别与雾炮联动：工地尘雾治理新途径

GD32F303-IAP的过程和实验

众趣科技助力商家“以真示人”，让消费场景更真实透明

spark core编程之行动算子、累加器、广播变量

提高课：数据结构之树状数组

基于javaweb的SpringBoot新闻视频发布推荐评论系统（源码+部署文档）

使用Go语言实现自动清理应用系统日志

机器学习之PCA主成分分析详解

回溯——固定套路 | 面试算法12道

【11】Strongswan processor 详解1

Maven和MyBatis学习总结

普通通话CSFB方式（2g/3g）