当前位置：首页 > news >正文

训练模型时梯度出现NAN或者INF（禁用amp的不同level）

news 2025/12/23 3:28:41

判断参数梯度位nan或inf的代码：

for name, param in model.named_parameters():if param.grad is not None:if torch.isnan(param.grad).any() or torch.isinf(param.grad).any():print(f"grad layer [{name}] is  NaN or Inf")

首先来说可能得原因：

1. 模型中存在未初始化或未更新的参数（层）

2. 除以0或者log引起

3.输入数据存在你nan或者inf

4. 学习率过大造成梯度不稳定

5.数据类型问题

这里着重讲下第5点。

我的错误是前1-2个epoch的grad norm出现 nan, 后面又稳定了，偶尔又会出现inf，有点随机。

可参考类似的情况和回答：

After several iterations gradient norm and loss becomes nan · Issue #287 · microsoft/Swin-Transformer · GitHub

Got a nan loss and gradient norm when training swin-l on imagenet22k with O1 · Issue #82 · microsoft/Swin-Transformer · GitHub

因为debug了发现都不是1,2,3,4的问题所以最后调试问题出在数据类型上。

PyTorch 的 AMP（自动混合精度） 默认支持动态切换精度。它会在前向和后向传播中自动判断是否切换为 float16 精度，以节省显存并加速计算。在使用 AMP 时，通常采用以下几种机制来选择精度：

按操作动态调整精度：AMP 会根据具体操作的数值稳定性来选择 float32 或 float16，对于稳定性较好的操作（如矩阵乘法）使用 float16，对精度要求较高的操作（如归一化）则保留 float32。
GradScaler 动态调整梯度缩放：AMP 默认使用 GradScaler 对梯度进行缩放，以避免因 float16 造成的数值下溢（过小梯度被舍去）。

这种自动化过程旨在最大程度保持数值稳定性，并降低显存需求。只需使用 torch.cuda.amp.autocast 上下文管理器和 GradScaler，AMP 就能完成动态精度切换

回到我的错误中来，若主函数里面有两个参数：

parser.add_argument('--disable_amp', action='store_true', help='Disable pytorch amp')
parser.add_argument('--amp-opt-level', type=str, choices=['O0', 'O1', 'O2'],help='mixed precision opt level, if O0, no amp is used (deprecated!)')

解决方案

1. 禁用自动混合精度（AMP）：如果你不依赖于 bfloat16 的性能优化，可以选择禁用 AMP。你可以在你的主函数中设置 --disable_amp 参数，或者在代码中直接注释掉与 GradScaler 和 autocast 相关的代码。这将避免因 bfloat16 引起的问题。

. `--disable_amp`

类型: 布尔型（action='store_true'）
功能: 如果指定了这个参数，将会禁用 PyTorch 的自动混合精度功能。在训练过程中，这意味着模型将会使用全精度（通常是 float32）进行计算，而不使用混合精度。
适用场景: 在调试或遇到精度问题时，可以选择禁用 AMP。

2. 使用 bfloat16：

需要设置这3处

[1]
model =  model.to(torch.bfloat16)[2]
samples = samples.to(torch.bfloat16)  
targets = targets.to(torch.bfloat16)[3]
with torch.cuda.amp.autocast(dtype=torch.bfloat16): outputs = model(samples)

在 PyTorch 中，使用 torch.bfloat16 时，可能会遇到与 torch.cuda.amp（自动混合精度）相关的问题，特别是关于梯度不稳定性和 unscale 操作的支持。

3. --amp-opt-level（推荐使用）：参数用于指定自动混合精度（AMP）的优化级别。而不是

主要有以下几种可选的优化级别：

O0:
- 含义: 不使用混合精度，所有计算都在全精度（float32）下进行。
- 适用场景: 当模型需要最高的数值精度或在调试时。
O1:
- 含义: 使用混合精度，但在关键操作中保持全精度（例如，反向传播）。大多数操作在 float16 下进行，只有在必要时（例如，loss 计算）切换回 float32。
- 适用场景: 在保证较高性能的同时，尽量减少数值不稳定性，适合大多数场景。
O2:
- 含义: 尽可能多地使用 float16，仅在少数操作中使用 float32。几乎所有的计算都是在 float16 下进行，可能会导致数值稳定性的问题。
- 适用场景: 性能优先的情况下使用，但需确保模型能够在 float16 下稳定运行。
O3:
- 含义: 强制所有操作都使用 float16，可能会导致更高的计算性能，但也可能引入更多的数值不稳定性。
- 适用场景: 仅适用于对性能要求极高且能够处理数值不稳定性的模型。

选择建议

O1: 通常是最推荐的选项，适合大多数任务。
O0: 如果遇到数值不稳定性或调试问题，可以选择。
O2 和 O3: 适合在确保模型稳定性的前提下追求性能的高级用户。

训练模型时梯度出现NAN或者INF（禁用amp的不同level）

判断参数梯度位nan或inf的代码： for name, param in model.named_parameters():if param.grad is not None:if torch.isnan(param.grad).any() or torch.isinf(param.grad).any():print(f"grad layer [{name}] is NaN or Inf") 首先来说可能得原因&…...

编程日记 2024/11/1 17:46:43

Maven核心概念

一、项目对象模型（POM） 1. 定义 POM（Project Object Model）是 Maven 项目的核心配置文件，它以 XML 格式描述了项目的基本信息、项目依赖、构建配置等。可以说，POM 是 Maven 理解和处理项目的基础。 2. 基…...

编程日记 2024/11/1 17:45:41

Sonatype Nexus 部署手册

文章目录一、前言二、软件环境2.1 版本变更：2.1.1 变更存储的原因2.2.2 H2作为存储的注意点三、资源配置四、开始部署4.1 部署jdk174.2 离线部署nexus4.2.1 下载4.2.2 部署1. 上传到服务器2. 解压3. 添加用户4. 修改启动参数5. 迁移sonatype-work ，并授…...

编程日记 2024/11/1 17:42:38

TLV320AIC3104IRHBR 数据手册一款低功耗立体声音频编解码器立体声耳机放大器芯片麦克风

TLV320AIC3104 是一款低功耗立体声音频编解码器，具有立体声耳机放大器以及在单端或全差分配置下可编程的多个输入和输出。该器件包括基于寄存器的全面电源控制，可实现立体声 48kHz DAC 回放，在 3.3V 模拟电源电压下的功耗低至 14mW&#xff0…...

编程日记 2024/11/1 17:40:34

（8）结构体、共用体和枚举类型数据

1. 结构体、共用体的定义及区别，typedef 定义别名结构体的定义结构体是一种用户自定义的数据类型，它可以将不同类型的数据组合在一起。例如，定义一个表示学生信息的结构体： // 定义结构体类型 struct Student struct Student {char name[20];int age;float score; };共…...

编程日记 2024/11/1 17:39:33

Jedis操作和springboot整合redis

Jedis-springboot整合redis Jedis 引入jedis依赖注意事项测试相关数据类型 Key String List set hash zset 案例 spring boot整合redis 引入相关依赖在application.properties中配置redis 配置创建redis配置类创建测试类 Jedis 引入jedis依赖 <depen…...

编程日记 2024/11/1 17:35:29

基于AI大模型的复杂扫描件PDF信息提取与规整

前言场景大致是会上传一个几十页的扫描件PDF，让AI在当中找出我需要的字段，本文会隐去具体行业信息和具体的AI提示词内容，只分享技术相关内容，请见谅。 AI模型选择针对我们行业的使用场景，我主要测试了GPT、Claude以…...

编程日记 2024/11/1 17:33:27

为什么https先非对称加密，然后对称加密？

HTTPS之所以先使用非对称加密，然后在对称加密，主要是基于两者在加密效率与安全性方面的特性考虑。首先，非对称加密具有极高的安全性，因为它使用了公钥和私钥这一对密钥。公钥是公开的，任何人都可以使用它来加密数据&…...

编程日记 2024/11/1 17:32:26

【Coroutines】Full Understanding of Kotlinx.Corutines Framework

文章目录 What is CorutinesDifference between Corutine and ThreadFast UsageSuspend FunctionAdvanced Usage of CoroutineCoroutine EssentialsCoroutineContextCoroutineScopePredefined CoroutineScopePredefined DispatchersPredefined CoroutineStartJobCreate a Corou…...

编程日记 2024/11/1 17:31:25

Python面向对象，实现图片处理案例，支持：高斯模糊、Canny边缘检测、反转边缘图像、生成手绘效果、调亮度......等等

实验图片如下： 命名为img1.jpg, 放在项目下新建文件夹images下项目构造如下： app.py源码如下 import cv2 import os from matplotlib import pyplot as plt import numpy as npclass ImageProcessor:def __init__(self, image_path):self.image cv…...

编程日记 2024/11/1 17:30:24

SOLID - 依赖倒置原则（Dependency Inversion Principle）

SOLID - 依赖倒置原则（Dependency Inversion Principle） 定义依赖倒置原则（Dependency Inversion Principle，DIP）是面向对象设计中的五大基本原则之一，通常缩写为SOLID中的D。DIP由Robert C. Martin提出&…...

编程日记 2024/11/1 17:25:19

【.NET 8 实战--孢子记账--从单体到微服务】--需求拆分与规划

在上一篇文章中我们收集了需求，并对需求进行了简单的分析和规划，但是对于开发人员来说，上一篇文章的需求还不够详细，并且没有形成计划。因此本篇文章将带领大家来拆分需求并规划开发里程碑。一、详细需求列表项目组进行了多次…...

编程日记 2024/11/1 17:23:16

在macOS的多任务处理环境中，如何平衡应用的性能与用户体验？这是否是一个复杂的优化问题？如何优化用户体验｜多任务处理｜用户体验｜应用设计

目录一多任务处理与应用性能 1. macOS中的多任务处理机制 2. 性能优化的基本策略二用户体验的关键要素 1. 响应速度 2. 界面友好性 3. 功能的直观性三平衡性能与用户体验的策略 1. 资源管理 2. 优化数据加载 3. 使用合适的线程模型 4. 实时监测和调整四使…...

编程日记 2024/11/1 17:22:14

Vscode配置CC++编程环境的使用体验优化和补充说明

文章目录快速编译运行👺code runner插件方案Code Runner Configuration 直接配置相关指令和快捷键默认task配置和取消默认配置文件补充介绍(可选推荐阅读)😊使用vscode预置变量和环境变量环境变量的使用使用环境变量的好处环境变量可能引起的问题检…...

编程日记 2024/11/1 17:20:10

十个方法杜绝CAD图纸泄密风险！2024年图纸防泄密指南！「必看」

随着信息技术的发展，CAD图纸的应用日益普遍，然而随之而来的图纸泄密风险也愈加严重。企业在提升效率的同时，更需重视信息安全。为此，本文将介绍十个有效的方法，帮助企业杜绝CAD图纸泄密风险，保障商业机密。…...

编程日记 2024/11/1 17:19:09

技术干货｜HyperMesh CFD功能详解：虚拟风洞 Part 1

虚拟风洞VWT 从2023版本开始，虚拟风洞VWT（Virtual Wind Tunnel）模块合并到HyperMesh CFD中。用户在VWT模块中完成LBM求解器ultraFluidX的前处理设置，导出参数文件XML和模型文件STL，并在GPU服务器上提交计算。 VWT目前…...

编程日记 2024/11/1 17:14:03

022集——统计多条线的总长度（CAD—C#二次开发入门）

如下图所示，选择多条线并统计长度： c#中不包含直接获取curve曲线长度属性，需用如下方法：curve.GetDistanceAtParameter(item.EndParam) 附部分代码如下： using Autodesk.AutoCAD.ApplicationServices; using Autode…...

编程日记 2024/11/1 17:13:02

大模型重要技术系列三：高效推理

接上一篇高效训练，这一篇汇总下高效推理的方法。高效推理的两个主要优化目标是低延迟（快速得到推理结果）和高吞吐量（能同时处理很多请求），同时还要尽可能地少用资源（算力、存储、网络带宽&#…...

编程日记 2024/11/1 17:10:59

Android 刘海屏适配指南

如果您不希望您的内容与刘海区域重叠， 以确保您的内容不会与状态栏及导航栏。如果您要呈现在刘海区域中，请使用 WindowInsetsCompat.getDisplayCutout() 检索 DisplayCutout 对象包含每个刘海屏的安全边衬区和边界框。借助这些 API 您需要检查视频内容…...

编程日记 2024/11/1 17:09:57

微信小程序服务通知

项目中用到了小程序的服务消息通知，通知订单状态信息，下边就是整理的一下代码，放到项目中，把项目的小程序appid和小程序的secret写进去，直接运行即可提前申请好小程序服务信息通知短信模板，代码需要用到模…...

编程日记 2024/11/1 17:06:53

Objective-C常用命名规范总结

【OC】常用命名规范总结文章目录【OC】常用命名规范总结1.类名（Class Name)2.协议名（Protocol Name)3.方法名（Method Name)4.属性名（Property Name）5.局部变量/实例变量（Local / Instance Variables&…...

编程新知 2025/12/14 22:33:06

什么是库存周转？如何用进销存系统提高库存周转率？

你可能听说过这样一句话： “利润不是赚出来的，是管出来的。” 尤其是在制造业、批发零售、电商这类“货堆成山”的行业，很多企业看着销售不错，账上却没钱、利润也不见了，一翻库存才发现： 一堆卖不动的旧货…...

编程新知 2025/12/21 6:07:42

（转）什么是DockerCompose?它有什么作用？

一、什么是DockerCompose? DockerCompose可以基于Compose文件帮我们快速的部署分布式应用，而无需手动一个个创建和运行容器。 Compose文件是一个文本文件，通过指令定义集群中的每个容器如何运行。 DockerCompose就是把DockerFile转换成指令去运行。 …...

编程新知 2025/12/14 16:13:40

蓝桥杯3498 01串的熵

问题描述对于一个长度为 23333333的 01 串, 如果其信息熵为 11625907.5798， 且 0 出现次数比 1 少, 那么这个 01 串中 0 出现了多少次? #include<iostream> #include<cmath> using namespace std;int n 23333333;int main() {//枚举 0 出现的次数//因…...

编程新知 2025/12/22 7:57:04

初学 pytest 记录

安装 pip install pytest用例可以是函数也可以是类中的方法 def test_func():print()class TestAdd: # def __init__(self): 在 pytest 中不可以使用__init__方法 # self.cc 12345 pytest.mark.api def test_str(self):res add(1, 2)assert res 12def test_int(self):r…...

编程新知 2025/12/15 0:46:10

Proxmox Mail Gateway安装指南：从零开始配置高效邮件过滤系统

💝💝💝欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐：「storms…...

编程新知 2025/12/22 14:46:36

【Linux】自动化构建-Make/Makefile

前言上文我们讲到了Linux中的编译器gcc/g 【Linux】编译器gcc/g及其库的详细介绍-CSDN博客本来我们将一个对于编译来说很重要的工具：make/makfile 1.背景在一个工程中源文件不计其数，其按类型、功能、模块分别放在若干个目录中，mak…...

编程新知 2025/12/22 8:44:34

深入浅出Diffusion模型：从原理到实践的全方位教程

I. 引言：生成式AI的黎明 – Diffusion模型是什么？ 近年来，生成式人工智能（Generative AI）领域取得了爆炸性的进展，模型能够根据简单的文本提示创作出逼真的图像、连贯的文本，乃至更多令人惊叹的…...

编程新知 2025/9/12 5:25:46

[论文阅读]TrustRAG: Enhancing Robustness and Trustworthiness in RAG

TrustRAG: Enhancing Robustness and Trustworthiness in RAG [2501.00879] TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation 代码：HuichiZhou/TrustRAG: Code for "TrustRAG: Enhancing Robustness and Trustworthin…...

编程新知 2025/12/22 8:34:15

Python网页自动化Selenium中文文档

1. 安装 1.1. 安装 Selenium Python bindings 提供了一个简单的API，让你使用Selenium WebDriver来编写功能/校验测试。通过Selenium Python的API，你可以非常直观的使用Selenium WebDriver的所有功能。 Selenium Python bindings 使用非常简洁方便的A…...

编程新知 2025/11/5 19:41:28

解决方案

. --disable_amp

选择建议

相关文章：

. `--disable_amp`