当前位置：首页 > news >正文

【深度学习】训练过程中loss出现nan

news 2026/2/9 1:34:49

@[toc]【深度学习】训练过程中loss出现nan

训练过程中loss出现nan

在深度学习中，loss 出现 NaN 通常是由数值不稳定或计算错误引起的。

1. 学习率过高

原因: 学习率过大可能导致权重更新幅度过大，引发数值不稳定。

解决方法: 降低学习率，或使用学习率调度器逐步调整。

2. 数据问题

原因: 输入数据包含 NaN 或 inf，或数据范围过大。

解决方法: 检查数据预处理，确保数据标准化或归一化，并移除异常值。

3. 梯度爆炸

原因: 梯度值过大，导致权重更新后出现 NaN。

解决方法: 使用梯度裁剪（gradient clipping）限制梯度范围。

4. 损失函数问题

原因: 某些损失函数（如对数损失）在输入接近零时可能产生 NaN。

解决方法: 检查损失函数输入，避免极端值，或添加微小常数（如 1e-8）防止除零。

5. 权重初始化不当

原因: 权重初始化不合适可能导致数值不稳定。

解决方法: 使用合适的初始化方法（如 Xavier 或 He 初始化）。

6. 数值精度问题

原因: 使用低精度浮点数（如 float16）可能引发数值不稳定。

解决方法: 尝试使用 float32 或 float64 提高精度。

7. 特定模块问题

原因: 某些模块可能由于输入或参数问题导致 NaN。

解决方法: 检查这些模块的输入和参数，确保数值合理。

8. 调试步骤

检查数据: 确保输入数据无异常。

检查损失函数: 确认输入值在合理范围内。

检查梯度: 使用调试工具（如 torch.autograd.gradcheck）检查梯度计算。

逐步调试: 逐层检查网络输出，定位问题模块。

9. 代码示例

import torch
import torch.nn as nn
import torch.optim as optim# 示例模型
model = nn.Sequential(nn.Linear(10, 50),nn.ReLU(),nn.Linear(50, 1)
)# 示例数据
inputs = torch.randn(32, 10)
targets = torch.randn(32, 1)# 损失函数和优化器
criterion = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)# 训练步骤
outputs = model(inputs)
loss = criterion(outputs, targets)# 检查 loss 是否为 NaN
if torch.isnan(loss):print("Loss is NaN. Checking gradients and inputs...")# 进一步调试optimizer.zero_grad()
loss.backward()
optimizer.step()

【深度学习】训练过程中loss出现nan

[toc]【深度学习】训练过程中loss出现nan 训练过程中loss出现nan 在深度学习中，loss 出现 NaN 通常是由数值不稳定或计算错误引起的。 1. 学习率过高原因: 学习率过大可能导致权重更新幅度过大，引发数值不稳定。解决方法: 降低学习率，…...

编程日记 2025/1/14 4:36:21

Linux - 什么是线程和线程的操作

线程概念什么是线程: 线程（Thread）是操作系统能够进行运算调度的最小单位. 它被包含在进程之中, 是进程中的实际运作单位. 一个进程可以包含多个线程. 进程 : 线程 1 : n (n > 1). 进程是系统分配资源的基本单位. 线程则是系统调度的基本单位. 在…...

编程日记 2025/1/14 4:34:19

windows及linux 安装 Yarn 4.x 版本

1. 确保系统环境准备 a. 安装 Node.js Yarn 依赖于 Node.js，所以需要先安装 Node.js。前往 Node.js 官网下载并安装适合你的 Windows 版本的 Node.js（推荐 LTS 版本）。安装完成后，打开命令提示符（CMD）或 PowerShell，验证安装：node -v npm -v如果显示版本号，则表示安…...

编程日记 2025/1/14 4:33:17

如何设计一个 RPC 框架？需要考虑哪些点？

面试官：如何设计一个 RPC 框架？需要考虑哪些点？ 设计一个远程过程调用（RPC）框架是一个复杂的系统工程，涉及多个方面的考虑。一个好的 RPC 框架应具备可扩展性、灵活性、易用性和高性能。下面是设计 RPC 框…...

编程日记 2025/1/14 4:32:16

初学stm32 --- DAC输出三角波和正弦波

输出三角波实验简要： 1，功能描述通过DAC1通道1(PA4)输出三角波，然后通过DS100示波器查看波形 2，关闭通道1触发(即自动) TEN1位置0 3，关闭输出缓冲 BOFF1位置1 4，使用12位右对齐模式将数字量写入DAC_…...

编程日记 2025/1/14 4:29:13

开源cJson用法

cJSON cJSON是一个使用C语言编写的JSON数据解析器，具有超轻便，可移植，单文件的特点，使用MIT开源协议。 cJSON项目托管在Github上，仓库地址如下： https://github.com/DaveGamble/cJSON 使用Git命令将其拉…...

编程日记 2025/1/14 4:25:10

【学习笔记】理解深度学习和机器学习的数学基础：数值计算

深度学习作为人工智能领域的一个重要分支，其算法的实现和优化离不开数值计算。数值计算在深度学习中扮演着至关重要的角色，它涉及到如何在计算机上高效、准确地解决数学问题。本文将介绍深度学习中数值计算的一些关键概念和挑战，以及如何应对…...

编程日记 2025/1/14 4:24:08

如何使用CSS让页面文本两行显示，超出省略号表示

talk is cheap, show me the code 举个栗子，如下： <span class"a">我说说<b class"b">打瞌睡党风建设打火机</b>说说色儿</span>a{display:block/inline-block;width:100px;overflow: hidden; white-spac…...

编程日记 2025/1/14 4:23:07

likeshop同城跑腿系统likeshop回收租赁系统likeshop多商户商城安装及小程序对接方法

前言：首先likeshop是一个开发平台，是一个独创的平台就像TP内核平台一样，你可以在这个平台上开发和衍生出很多伟大的产品，以likeshop为例，他们开发出商城系统，团购系统，外卖点餐系统，…...

编程日记 2025/1/14 4:22:06

C# 与 Windows API 交互的“秘密武器”：结构体和联合体

一、引言在 C# 的编程世界里，当我们想要深入挖掘 Windows 系统的底层功能，与 Windows API 打交道时，结构体和联合体就像是两把神奇的钥匙🔑 它们能够帮助我们精准地操控数据，实现一些高级且强大的功能。就好比搭建一…...

编程日记 2025/1/14 4:20:05

PHP 使用 Redis

PHP 使用 Redis PHP 是一种广泛使用的服务器端编程语言，而 Redis 是一个高性能的键值对存储系统。将 PHP 与 Redis 结合使用，可以为 Web 应用程序提供快速的读写性能和丰富的数据结构。本文将详细介绍如何在 PHP 中使用 Redis，包括安装、连接、基本操作以及一些高级应用。 …...

编程日记 2025/1/14 4:10:55

1、Xenomai 原生API 任务管理 Xenomai 本身提供的一系列多任务调度机制，主要有以下一些函数： int rt_task_create (RT_TASK task, const char name, int stksize, int prio, intmode) ; 任务的创建；int rt_task_start(RT_TASK task, void(entry)(void cookie), void cookie…...

编程日记 2025/1/14 3:59:44

26个开源Agent开发框架调研总结（2）

根据Markets & Markets的预测，到2030年，AI Agent的市场规模将从2024年的50亿美元激增至470亿美元，年均复合增长率为44.8%。 Gartner预计到2028年，至少15%的日常工作决策将由AI Agent自主完成，AI Agent在企业应用中…...

编程日记 2025/1/14 3:58:43

Element UI与Element Plus：深度剖析

文章目录前言一、概述二、技术特性三、设计理念四、使用体验五、迁移指南结语前言随着前端开发技术的快速发展，Vue.js 生态系统中的组件库也在不断进化。Element UI 和 Element Plus 是两个深受开发者喜爱的 Vue 组件库，它们分别构建于 Vue 2.x 和 V…...

编程日记 2025/1/14 3:57:43

二、BIO、NIO编程与直接内存、零拷贝

一、网络通信 1、什么是socket？ Socket 是应用层与 TCP/IP 协议族通信的中间软件抽象层，它是一组接口，一般由操作系统提供。客户端连接上一个服务端，就会在客户端中产生一个 socket 接口实例，服务端每接受一个客户端…...

编程日记 2025/1/14 3:55:39

VSCode 更好用的设置

配置 {"terminal.integrated.fontSize": 15,"security.workspace.trust.untrustedFiles": "open","editor.minimap.enabled": false,"workbench.colorTheme": "Visual Studio 2017 Light - C","gnuGlobal.c…...

编程日记 2025/1/14 3:53:37

【git】-3 github创建远程仓库,上传自己的项目，下载别人的项目

一、如何使用Github 1、创建远程仓库 2、使用github拉取/推送代码克隆仓库向远程仓库推送代码-git push 二、上传我们自己的项目到github 方法一：直接上传方法二：使用git命令方法三： 将仓库拉取到本地上传三、下载别人的项目 …...

编程日记 2025/1/14 3:47:31

计算机组成原理（1）

系统概述计算机硬件基本组成早期冯诺依曼机现代计算机计算机各部分工作原理主存储器运算器控制器计算机工作过程此文章的图片资源获取来自于王道考研计算机硬件基本组成早期冯诺依曼机存储程序是指将指令以二进制的形式事先输入到计算机的主存储器，然后按照…...

编程日记 2025/1/14 3:44:28

Openstack网络组件之Neutron

从Nova到Neutron：OpenStack网络架构的演变在云计算和虚拟化技术迅猛发展的背景下，OpenStack 成为了构建私有云和公有云平台的首选解决方案之一。早期版本中，Nova 项目不仅负责计算资源的管理，还承担了提供基本网络连接的任务。然…...

编程日记 2025/1/14 3:37:21

神州数码交换机和路由器命令总结

神州数码交换机和路由器命令总结一、神州数码交换机命令总结 1. 交换机恢复出厂设置及其基本配置. 1) //进入特权模式 2) del startup.cfg 2. Telnet方式管理交换机. 1) //进入全局配置模式 2) enable password 0 [密码] 3) Line 0 4 4) Password 0 [密码] 5) Login 3. 交换机…...

编程日记 2025/1/14 3:36:20

深入浅出Asp.Net Core MVC应用开发系列-AspNetCore中的日志记录

ASP.NET Core 是一个跨平台的开源框架，用于在 Windows、macOS 或 Linux 上生成基于云的新式 Web 应用。 ASP.NET Core 中的日志记录 .NET 通过 ILogger API 支持高性能结构化日志记录，以帮助监视应用程序行为和诊断问题。可以通过配置不同的记录提供程…...

编程新知 2026/2/8 4:37:06

TDengine 快速体验（Docker 镜像方式）

简介 TDengine 可以通过安装包、Docker 镜像及云服务快速体验 TDengine 的功能，本节首先介绍如何通过 Docker 快速体验 TDengine，然后介绍如何在 Docker 环境下体验 TDengine 的写入和查询功能。如果你不熟悉 Docker，请使用安装包的方式快…...

编程新知 2026/2/8 20:41:53

微信小程序之bind和catch

这两个呢，都是绑定事件用的，具体使用有些小区别。官方文档： 事件冒泡处理不同 bind：绑定的事件会向上冒泡，即触发当前组件的事件后，还会继续触发父组件的相同事件。例如，有一个子视图绑定了b…...

编程新知 2026/2/5 5:05:56

视频字幕质量评估的大规模细粒度基准

大家读完觉得有帮助记得关注和点赞！！！ 摘要视频字幕在文本到视频生成任务中起着至关重要的作用，因为它们的质量直接影响所生成视频的语义连贯性和视觉保真度。尽管大型视觉-语言模型（VLMs）在字幕生成方面…...

编程新知 2026/2/6 9:24:15

浅谈不同二分算法的查找情况

二分算法原理比较简单，但是实际的算法模板却有很多，这一切都源于二分查找问题中的复杂情况和二分算法的边界处理，以下是博主对一些二分算法查找的情况分析。需要说明的是，以下二分算法都是基于有序序列为升序有序的情况&#xf…...

编程新知 2025/9/14 7:37:32

Element Plus 表单(el-form)中关于正整数输入的校验规则

目录 1 单个正整数输入1.1 模板1.2 校验规则 2 两个正整数输入（联动）2.1 模板2.2 校验规则2.3 CSS 1 单个正整数输入 1.1 模板 <el-formref"formRef":model"formData":rules"formRules"label-width"150px"…...

编程新知 2025/11/10 19:08:45

鸿蒙DevEco Studio HarmonyOS 5跑酷小游戏实现指南

1. 项目概述本跑酷小游戏基于鸿蒙HarmonyOS 5开发，使用DevEco Studio作为开发工具，采用Java语言实现，包含角色控制、障碍物生成和分数计算系统。 2. 项目结构 /src/main/java/com/example/runner/├── MainAbilitySlice.java // 主界…...

编程新知 2025/12/19 22:56:05

以光量子为例，详解量子获取方式

光量子技术获取量子比特可在室温下进行。该方式有望通过与名为硅光子学（silicon photonics）的光波导（optical waveguide）芯片制造技术和光纤等光通信技术相结合来实现量子计算机。量子力学中，光既是波又是粒子。光子本…...

编程新知 2026/2/7 11:51:32

技术栈RabbitMq的介绍和使用

目录 1. 什么是消息队列？2. 消息队列的优点3. RabbitMQ 消息队列概述4. RabbitMQ 安装5. Exchange 四种类型5.1 direct 精准匹配5.2 fanout 广播5.3 topic 正则匹配 6. RabbitMQ 队列模式6.1 简单队列模式6.2 工作队列模式6.3 发布/订阅模式6.4 路由模式6.5 主题模式…...

编程新知 2026/1/23 10:10:53

虚拟电厂发展三大趋势：市场化、技术主导、车网互联

市场化：从政策驱动到多元盈利政策全面赋能 2025年4月，国家发改委、能源局发布《关于加快推进虚拟电厂发展的指导意见》，首次明确虚拟电厂为“独立市场主体”，提出硬性目标：2027年全国调节能力≥2000万千瓦&#xff0…...

编程新知 2025/12/20 18:09:59