当前位置：首页 > news >正文

获取非叶子节点的grad（retain_grad()、hook）【为了解决grad值是None的问题】

news 2026/2/10 14:50:18

在调试过程中, 有时候我们需要对中间变量梯度进行监控, 以确保网络的有效性, 这个时候我们需要打印出非叶节点的梯度, 为了实现这个目的, 我们可以通过两种手段进行, 分别是:

retain_grad()
hook

不过我感觉“hook”比“retain_grad()”要麻烦.....，所以我感觉还是使用“retain_grad()”吧

1、retain_grad()

retain_grad()显式地保存非叶节点的梯度, 代价就是会增加显存的消耗(对比hook函数的方法则是在反向计算时直接打印, 因此不会增加显存消耗.)

使用方法：

直接在forward中对你想要输出gred的tensor“.retain_grad()”即可：tensor.retain_grad()

import torchdef forwrad(x, y, w1, w2):# 其中 x,y 为输入数据，w为该函数所需要的参数z_1 = torch.mm(w1, x)z_1.retain_grad()y_1 = torch.sigmoid(z_1)y_1.retain_grad()z_2 = torch.mm(w2, y_1)z_2.retain_grad()y_2 = torch.sigmoid(z_2)# y_2.retain_grad()loss = 1 / 2 * (((y_2 - y) ** 2).sum())return loss, z_1, y_1, z_2, y_2# 测试代码
x = torch.tensor([[1.0]])
y = torch.tensor([[1.0], [0.0]])
w1 = torch.tensor([[1.0], [2.0]], requires_grad=True)
w2 = torch.tensor([[3.0, 4.0], [5.0, 6.0]], requires_grad=True)
# 正向
loss, z_1, y_1, z_2, y_2 = forwrad(x, y, w1, w2)
# 反向
loss.backward()  # 反向传播，计算梯度print(loss.grad)print(y_2.grad)print(z_2.grad)# 输出结果是否是None，如果是None-->True
def is_none(obj):return obj is None
# 打印出非叶子结点的gred
print(is_none(z_1.grad))
print(is_none(y_2.grad))
print(z_2.grad)

注意：不要对保存梯度的变量做任何修改，例如：z_1, y_1, z_2, y_2，修改为gred_list = [z_1, y_1, z_2, y_2]，然后输入梯度值，那是错误的，要直接一个一个输出，不要做任何操作

2、hook的使用

使用retain_grad会消耗额外的显存, 我们可以使用hook在反向计算的时候进行保存. 还是上面的例子, 我们使用hook来完成.

import torch# 我们可以定义一个hook来保存中间的变量
grads = {} # 存储节点名称与节点的grad
def save_grad(name):def hook(grad):grads[name] = gradreturn hookdef forwrad(x, y, w1, w2):# 其中 x,y 为输入数据，w为该函数所需要的参数z_1 = torch.mm(w1, x)y_1 = torch.sigmoid(z_1)z_2 = torch.mm(w2, y_1)y_2 = torch.sigmoid(z_2)loss = 1/2*(((y_2 - y)**2).sum())return loss, z_1, y_1, z_2, y_2# 测试代码
x = torch.tensor([[1.0]])
y = torch.tensor([[1.0], [0.0]])
w1 = torch.tensor([[1.0], [2.0]], requires_grad=True)
w2 = torch.tensor([[3.0, 4.0], [5.0, 6.0]], requires_grad=True)
# 正向传播
loss, z_1, y_1, z_2, y_2 = forwrad(x, y, w1, w2)# hook中间节点
z_1.register_hook(save_grad('z_1'))
y_1.register_hook(save_grad('y_1'))
z_2.register_hook(save_grad('z_2'))
y_2.register_hook(save_grad('y_2'))# 反向传播
loss.backward()
print(grads['z_1'])
print(grads['y_1'])
print(grads['z_2'])
print(grads['y_2'])

https://www.cnblogs.com/dxscode/p/16146470.html

pytorch | loss不收敛或者训练中梯度grad为None的问题_pytorch梯度为none_Rilkean heart的博客-CSDN博客

获取非叶子节点的grad（retain_grad()、hook）【为了解决grad值是None的问题】

在调试过程中, 有时候我们需要对中间变量梯度进行监控, 以确保网络的有效性, 这个时候我们需要打印出非叶节点的梯度, 为了实现这个目的, 我们可以通过两种手段进行, 分别是: retain_grad()hook 不过我感觉“hook”比“retain_grad()”要麻烦.....，所以我感觉还是…...

编程日记 2023/7/31 2:33:34

JMeter(八)：响应断言详解

响应断言：对服务器的响应进行断言校验（1）应用范围: main sample and sub sample, main sample only , sub-sample only , jmeter variable 关于应用范围，我们大多数勾选“main sample only” 就足够了，因为我们一个请求，实质上只有一个请求。但是当我们发一个请求时，…...

编程日记 2023/7/31 2:32:33

【网络编程】IO复用的应用一：非阻塞connect

在connect连接中，若socket以非阻塞的方式进行连接，则系统内设置的TCP三次握手超时时间为0，所以它不会等待TCP三次握手完成，直接返回，错误为EINPROGRESS。所以，我们可以通过判断connect时返回的错误码是…...

编程日记 2023/7/31 2:31:31

Spring注解开发，bean的作用范围及生命周期、Spring注解开发依赖注入

🐌个人主页： 🐌 叶落闲庭 💨我的专栏：💨 c语言数据结构 javaweb 石可破也，而不可夺坚；丹可磨也，而不可夺赤。 Spring注解开发一、注解开发定义Bean二、纯注解开发Bean三…...

编程日记 2023/7/31 2:30:30

C#设计模式之---原型模式

原型模式（Prototype Pattern） 原型模式（Prototype Pattern） 是用原型实例指定创建对象的种类，并且通过拷贝这些原型创建新的对象。原型模式是一种创建型设计模式。也就是用一个已经创建的实例作为原型，通过…...

编程日记 2023/7/31 2:29:29

STM32入门学习之外部中断

1.STM32的IO口可以作为外部中断输入口。本文通过按键按下作为外部中断的输入，点亮LED灯。在STM32的19个外部中断中，0-15为外部IO口的中断输入口。STM32的引脚分别对应着0-15的外部中断线。比如，外部中断线0对应着GPIOA.0-GPIOG.0，…...

编程日记 2023/7/31 2:28:25

Jenkins 配置maven和jdk

前提:服务器已经安装maven和jdk 一、在Jenkins中添加全局变量系统管理–>系统配置–>全局属性–>环境变量添加三个全局变量 JAVA_HOME、MAVEN_HOME、PATH 二、配置maven 系统管理–>全局工具配置–>maven–>新增新增配置三、配置JDK 在系统管…...

编程日记 2023/7/31 2:27:24

Leetcode ｜ Binary search | 22. 74. 162. 33. 34. 153.

22. Generate Parentheses 要意识到只要还有左括号，就可以放到path里。只要右括号数量小于左括号，也可以放进去。就是valid的组合。recurse两次 74. Search a 2D Matrix 看成sorted list就好。直接用m*n表示最后一位的index，并且每次只需要 …...

编程日记 2023/7/31 2:26:23

生命在于折腾——面试问题汇总

这里面的问题都是我参加面试时候遇到的问题，大家就这样看吧。一、个人情况 1、自我介绍 2、为什么离开上一家公司 3、有没有参加过HVV 4、介绍一下上家公司的项目 5、小程序和公众号渗透测试做过么 6、实习工资多少 7、有挖过漏洞么二、基础知识 1、信息收集的…...

编程日记 2023/7/31 2:25:22

＜Java＞Map＜String,Object＞中解析Object类型数据为数组格式

背景： 前端：入参为字符串和数组类型；通过json字符串传给后台， 后台：后台通过工具解析为Map<String，Object>，然后需要解析出Map里面的数组值做操作； 需求： 入参&…...

编程日记 2023/7/31 2:24:21

别再分库分表了，试试TiDB!

什么是NewSQL 传统SQL的问题升级服务器硬件数据分片 NoSQL 的问题优点缺点 NewSQL 特性 NewSQL 的主要特性三种SQL的对比 TiDB怎么来的 TiDB社区版和企业版 TIDB核心特性水平弹性扩展分布式事务支持金融级高可用实时 HTAP 云原生的分布式数据库高度兼…...

编程日记 2023/7/31 2:23:20

Java进阶之Dump文件初体验

视频地址：https://www.bilibili.com/video/BV1Ak4y137oh 学习文章：https://d9bp4nr5ye.feishu.cn/wiki/VQoAwlzrXiLFZekuLIyc1uK5nqc 最近线上频繁的内存告警，同事A通过分析dump文件解决了这个问题，我当然是不会放过这种学习的机…...

编程日记 2023/7/31 2:22:17

基于扩展(EKF)和无迹卡尔曼滤波(UKF)的电力系统动态状态估计(Matlab代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…...

编程日记 2023/7/31 2:21:16

曲线拟合(MATLAB拟合工具箱)位置前馈量计算(压力闭环控制应用)

利用PLC进行压力闭环控制的项目背景介绍请查看下面文章链接，这里不再赘述。信捷PLC压力闭环控制应用(C语言完整PD、PID源代码)_RXXW_Dor的博客-CSDN博客闭环控制的系列文章，可以查看PID专栏的的系列文章，链接如下：张力控制之速度闭环(速度前馈量计算)_RXXW_Dor的博客-CSD…...

编程日记 2023/7/31 2:20:15

小程序使用echarts

参考文档：echarts官网、echarts-for-weixin 第一步引入组件库，可直接从echarts-for-weixin下载，也可以从echarts官网自定义生成，这里我们就不贴了组件库引入好后，就是页面引用啦，废话不多说，直…...

编程日记 2023/7/31 2:19:15

面向对象——封装

C面向对象的三大特性为：封装、继承、多态 C认为万事万物都皆为对象，对象上有其属性和行为例如： 人可以作为对象，属性有姓名、年龄、身高、体重…，行为有走、跑、跳、吃饭、唱歌… 车也可以作为对象&#xf…...

编程日记 2023/7/31 2:18:13

【LeetCode】160.相交链表

题目给你两个单链表的头节点 headA 和 headB ，请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点，返回 null 。图示两个链表在节点 c1 开始相交： 题目数据保证整个链式结构中不存在环。注意，函数返回结…...

编程日记 2023/7/31 2:17:12

【JWT的使用】

文章目录前言1、用户登录1.1 JWTThreadLocal 2.1 代码实现2.1.1 ThreadLocal工具类2.2.2 定义拦截器2.2.3 注册拦截器前言 1、用户登录 1.1 JWT JSON Web Token简称JWT，用于对应用程序上用户进行身份验证的标记。使用 JWTS 之后不需要保存用户的 cookie 或其他…...

编程日记 2023/7/31 2:16:12

Python获取音视频时长

Python获取音视频时长 Python获取音视频时长1、安装插件2、获取音视频时长.py3、打包exe4、下载地址 Python获取音视频时长 1、安装插件 pip install moviepy -i https://pypi.tuna.tsinghua.edu.cn/simple2、获取音视频时长.py 上代码：获取音视频时长.py # -*-…...

编程日记 2023/7/31 2:15:11

TCP四次握手为什么客户端等待的时间是2MSL

目录什么是MSL从第三次握手开始分析总结什么是MSL MSL是Maximum Segment Lifetime英文的缩写，中文可以译为“报文最大生存时间”，他是任何报文在网络上存在的最长时间，超过这个时间报文将被丢弃。从第三次握手开始分析第三次握手服务端…...

编程日记 2023/7/31 2:14:10

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章传送阵>> 点我查看说明：假设每台服务器已…...

编程新知 2026/2/10 11:45:58

装饰模式（Decorator Pattern）重构java邮件发奖系统实战

前言现在我们有个如下的需求，设计一个邮件发奖的小系统， 需求 1.数据验证 → 2. 敏感信息加密 → 3. 日志记录 → 4. 实际发送邮件装饰器模式（Decorator Pattern）允许向一个现有的对象添加新的功能，同时又不改变其…...

编程新知 2026/2/8 4:37:00

linux之kylin系统nginx的安装

一、nginx的作用 1.可做高性能的web服务器直接处理静态资源（HTML/CSS/图片等），响应速度远超传统服务器类似apache支持高并发连接 2.反向代理服务器隐藏后端服务器IP地址，提高安全性 3.负载均衡服务器支持多种策略分发流量…...

编程新知 2026/2/8 20:42:56

Appium+python自动化（十六）- ADB命令

简介 Android 调试桥(adb)是多种用途的工具，该工具可以帮助你你管理设备或模拟器的状态。 adb ( Android Debug Bridge)是一个通用命令行工具，其允许您与模拟器实例或连接的 Android 设备进行通信。它可为各种设备操作提供便利，如安装和调试…...

编程新知 2026/1/21 18:20:51

c++ 面试题(1)-----深度优先搜索（DFS）实现

操作系统：ubuntu22.04 IDE:Visual Studio Code 编程语言：C11 题目描述地上有一个 m 行 n 列的方格，从坐标 [0,0] 起始。一个机器人可以从某一格移动到上下左右四个格子，但不能进入行坐标和列坐标的数位之和大于 k 的格子。例…...

编程新知 2026/1/10 10:16:16

剑指offer20_链表中环的入口节点

链表中环的入口节点给定一个链表，若其中包含环，则输出环的入口节点。若其中不包含环，则输出null。数据范围节点 val 值取值范围 [ 1 , 1000 ] [1,1000] [1,1000]。节点 val 值各不相同。链表长度 [ 0 , 500 ] [0,500] [0,500]。 …...

编程新知 2026/1/31 6:09:22

linux 错误码总结

1，错误码的概念与作用在Linux系统中，错误码是系统调用或库函数在执行失败时返回的特定数值，用于指示具体的错误类型。这些错误码通过全局变量errno来存储和传递，errno由操作系统维护，保存最近一次发生的错误信息。值得注意的是，errno的值在每次系统调用或函数调用失败时…...

编程新知 2025/9/16 22:48:47

LINUX 69 FTP 客服管理系统 man 5 /etc/vsftpd/vsftpd.conf

FTP 客服管理系统实现kefu123登录，不允许匿名访问，kefu只能访问/data/kefu目录，不能查看其他目录创建账号密码 useradd kefu echo 123|passwd -stdin kefu [rootcode caozx26420]# echo 123|passwd --stdin kefu 更改用户 kefu 的密码…...

编程新知 2026/2/9 20:16:17

C语言中提供的第三方库之哈希表实现

一. 简介前面一篇文章简单学习了C语言中第三方库（uthash库）提供对哈希表的操作，文章如下： C语言中提供的第三方库uthash常用接口-CSDN博客本文简单学习一下第三方库 uthash库对哈希表的操作。二. uthash库哈希表操作示例 u…...

编程新知 2025/11/9 14:40:17

pikachu靶场通关笔记19 SQL注入02-字符型注入(GET)

目录一、SQL注入二、字符型SQL注入三、字符型注入与数字型注入四、源码分析五、渗透实战 1、渗透准备 2、SQL注入探测 （1）输入单引号 （2）万能注入语句 3、获取回显列orderby 4、获取数据库名database 5、获取表名…...

编程新知 2026/2/5 5:47:53

1、retain_grad()

使用方法：

2、hook的使用

相关文章：