当前位置：首页 > news >正文

【深度学习】神经网络训练过程中不收敛或者训练失败的原因

news 2026/4/9 10:17:31

在面对模型不收敛的时候，首先要保证训练的次数够多。在训练过程中，loss并不是一直在下降，准确率一直在提升的，会有一些震荡存在。只要总体趋势是在收敛就行。若训练次数够多（一般上千次，上万次，或者几十个epoch）没收敛，再考虑采取措施解决。

一、数据与标签

没有对数据进行预处理。数据分类标注是否准确？数据是否干净？
没有对数据进行归一化。由于不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。此外，大部分神经网络流程都假设输入输出是在0附近的分布，从权值初始化到激活函数、从训练到训练网络的优化算法。将数据减去均值并除去方差。
样本的信息量太大导致网络不足以fit住整个样本空间。样本少只可能带来过拟合的问题，你看下你的training set上的loss收敛了吗？如果只是validate set上不收敛那就说明overfitting了，这时候就要考虑各种anti-overfit的trick了，比如dropout，SGD，增大minibatch的数量，减少fc层的节点数量，momentum，finetune等。
标签的设置是否正确。

二、模型

网络设定不合理。如果做很复杂的分类任务，却只用了很浅的网络，可能会导致训练难以收敛。应当选择合适的网络，或者尝试加深当前网络。总体来说，网络不是越深越好，开始可以搭建一个3~8层的网络，当这个网络实现的不错时，你可以考虑实验更深的网络来提升精确度。从小网络开始训练意味着更快，并且可以设置不同参数观察对网络的影响而不是简单的堆叠更多层。
Learning rate不合适，如果太大，会造成不收敛，如果太小，会造成收敛速度非常慢。学习率设定不合理。在自己训练新网络时，可以从0.1开始尝试，如果loss不下降的意思，那就降低，除以10，用0.01尝试，一般来说0.01会收敛，不行的话就用0.001. 学习率设置过大，很容易震荡。不过刚刚开始不建议把学习率设置过小，尤其是在训练的开始阶段。在开始阶段我们不能把学习率设置的太低否则loss不会收敛。我的做法是逐渐尝试，从0.1,0.08,0.06,0.05 …逐渐减小直到正常为止。有的时候候学习率太低走不出低估，把冲量提高也是一种方法，适当提高mini-batch值，使其波动不大。learning rate设大了会带来跑飞（loss突然一直很大）的问题。这个是新手最常见的情况——为啥网络跑着跑着看着要收敛了结果突然飞了呢？可能性最大的原因是你用了relu作为激活函数的同时使用了softmax或者带有exp的函数做分类层的loss函数。当某一次训练传到最后一层的时候，某一节点激活过度（比如100），那么exp(100)=Inf，发生溢出，bp后所有的weight会变成NAN，然后从此之后weight就会一直保持NAN，于是loss就飞起来辣。如果lr设的过大会出现跑飞再也回不来的情况。这时候你停一下随便挑一个层的weights看一看，很有可能都是NAN了。对于这种情况建议用二分法尝试。0.1~0.0001.不同模型不同任务最优的lr都不一样。
隐层神经元数量错误。在一些情况下使用过多或过少的神经元数量都会使得网络很难训练。太少的神经元数量没有能力来表达任务，而太多的神经元数量会导致训练缓慢，并且网络很难清除一些噪声。隐层神经元数量可以从256 到1024中间开始设置，然后可以看看研究人员使用的数字，可以用作参考。如果他们使用的数字与这个大不相同，那么可以想象一下这其中的原理。在决定使用隐层的单元数量之前，最为关键的是考虑你需要通过这个网络表达信息的实际值的最少数量，然后再慢慢增加这个数字。如果你做回归任务可以考虑使用的神经元数量为输入或输出变量的2到3倍。实际上，与其它因素相比，隐藏单元的数量通常对于神经网络的性能影响相当小。并且在很多情况下，增大所需要隐藏单元的数量仅仅是减慢了训练速度。
错误初始化网络参数。如果没有正确初始化网络权重，那么网络将不能训练。通常使用的比较多的初始化权重的方法有‘he’,’lecun’,’xavier’在实际应用中这些方法有非常好的性能而网络偏差通常初始化为0，你可以选择一个最适合你任务的初始化方式。
没有正则化。正则化典型的就是dropout、加噪声等。即使数据量很大或者你觉得网络不可能出现过拟合，但是对网络进行正则化还是很有必要的。dropout 通常从设定参数为0.75或0.9开始，根据你认为网络出现过拟合的可能性来调整这个参数。另外，如果你确定这个网络不会出现过拟合，那么可以将参数设定为0.99。正则化不仅仅可以防止过拟合，并且在这个随机过程中，能够加快训练速度以及帮助处理数据中的异常值并防止网络的极端权重配置。对数据扩增也能够实现正则化的效果，最好的避免过拟合的方法就是有大量的训练数据。
Batch Size 过大。Batch size 设置的过大会降低网络的准确度，因为它降低了梯度下降的随机性。另外，在相同情况下batch size 越大那么要达到相同的精确度通常需要训练更多的epoch。我们可以尝试一些较小的batch size 如 16 ，8 甚至是1。使用较小的batch size 那么一个epoch就可以进行更多次的权值更新。这里有两个好处，第一，可以跳出局部最小点。其二可以表现出更好的泛化性能。
学习率设的不对。许多深度学习的框架默认开启了gradient clipping ,这个可以处理gradient explosion问题，这个是非常有用的，但是在默认情况下它也很难找到最佳学习率。如果你正确的清理了数据，删除了异常值，以及设定了正确的学习率，那么可以不需要使用gradient clipping，偶尔你也会遇到gradient explosion问题，那么你可以开启gradient clipping。但是，出现这种问题一般情况下表明数据有其它问题，而gradient clipping只是一个临时的解决方案。
最后一层的激活函数用的不对。在最后一层使用错误的激活函数会导致网络最终不能输出你期望的范围值，最常见的错误就是最后一层使用Relu函数，其输出无负值。如果是做回归任务，大多数情况下不需要使用激活函数，除非你知道你所期望的值作为输出。想象一下你的数据值实际代表了什么，以及再归一化之后它们的范围是多少，最有可能的情况是输出没有边界的正数和负数。在这种情况下，最后一层不应该使用激活函数。如果你的输出值只能在某个范围内有意义，如0~1范围内的概率组成。那么最后一层可以使用sigmoid函数。
网络存在坏梯度。如果你训练了几个epoch误差没有改变,那可能是你使用了Relu，可以尝试将激活函数换成leaky Relu。因为Relu激活函数对正值的梯度为1，负值的梯度为0。因此会出现某些网络权值的成本函数的斜率为0，在这种情况下我们说网络是“dead”,因为网络已经不能更新。

如何通过train loss与test loss分析网络当下的状况？

train loss 不断下降，test loss不断下降，说明网络仍在学习;

train loss 不断下降，test loss趋于不变，说明网络过拟合;

train loss 趋于不变，test loss不断下降，说明数据集100%有问题;

train loss 趋于不变，test loss趋于不变，说明学习遇到瓶颈，需要减小学习率或批量数目;

train loss 不断上升，test loss不断上升，说明网络结构设计不当，训练超参数设置不当，数据集经过清洗等问题。

【深度学习】神经网络训练过程中不收敛或者训练失败的原因

在面对模型不收敛的时候，首先要保证训练的次数够多。在训练过程中，loss并不是一直在下降，准确率一直在提升的，会有一些震荡存在。只要总体趋势是在收敛就行。若训练次数够多（一般上千次，上万次，…...

编程日记 2023/11/27 16:02:26

el-table修改表格每行的高度包含表头

需求： 需要修改el-table表格每行的高度为54px，并且包含表头。 .el-table {tr {height: 54px;td {padding: 0;}th {padding: 0;}} }如果样式没有生效，可能.el-table需要加上样式穿透...

编程日记 2023/11/27 16:01:25

常用数据存储格式介绍：Excel、CSV、JSON、XML

在现代数字时代，数据经过提炼后可以推动创新、简化运营并支持决策流程。然而，在提取数据之后，并将其加载到数据库或数据仓库之前，需要将数据转化为可用的数据存储格式。本文将介绍开发者常用的4种数据存储格式，包括 Ex…...

编程日记 2023/11/27 16:00:24

kafka 集群 KRaft 模式搭建

Apache Kafka是一个开源分布式事件流平台，被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用程序 Kafka 官网：https://kafka.apache.org/ Kafka 在2.8版本之后，移除了对Zookeeper的依赖，将依赖于ZooKeeper的控制器…...

编程日记 2023/11/27 15:59:20

如何进行有效的移动应用测试？

1、识别关键功能: 对于移动应用测试，首先要了解应用的需求和功能规格，确定哪些功能是最关键的。关键功能通常是用户最常用的功能，对应用的成功和用户体验至关重要。 2、设定测试目标和用例: 针对每个关键功能，设置具体的测试目…...

编程日记 2023/11/27 15:58:19

第一步是创建项目项目名自拟第二步创建个包名来规范class 再创建一个包来存储照片如下 package game; import java.awt.*; import javax.swing.*; import javax.imageio.ImageIO;public class Bird {Image image;int x,y;int width,height;int size;double g;double t;…...

编程日记 2023/11/27 15:57:18

吴恩达《机器学习》10-1-10-3:决定下一步做什么、评估一个假设、模型选择和交叉验证集

一、决定下一步做什么在机器学习的学习过程中，我们已经接触了许多不同的学习算法，逐渐深入了解了先进的机器学习技术。然而，即使在了解了这些算法的情况下，仍然存在一些差距，有些人能够高效而有力地运用这些算法&…...

编程日记 2023/11/27 15:56:17

大数据-之LibrA数据库系统告警处理（ALM-37000 MPPDBServer数据目录或Redo目录缺失）

告警解释当出现如下情况时，产生该告警： 数据实例数据目录被删除。数据实例Redo目录（pg_xlog）被删除。告警属性告警ID 告警级别可自动清除 37000 严重是告警参数参数名称参数含义 ServiceName 产生告警的服务…...

编程日记 2023/11/27 15:55:16

华为eNSP使用教程（Enterprise Network Simulation Platform，企业网络仿真平台）

文章目录华为eNSP使用教程详解引言eNSP界面快速入门启动与初始设置主界面组成创建和管理项目构建网络拓扑添加和连接设备配置设备参数示例：配置设备接口IP 保存配置仿真网络功能启动与测试示例：测试网络连通性使用调试工具疑难技术点解析路由协议配…...

编程日记 2023/11/27 15:54:15

19.Spring如何处理线程并发问题？

Spring如何处理线程并发问题？在一般情况下，只有无状态的Bean才可以在多线程环境下共享，在Spring中，绝大部分Bean都可以声明为singleton作用域，因为Spring对一些Bean中非线程安全状态采用ThreadLocal进行处理，解决线程安全问题。 ThreadLocal和线程同步机制都是为了解决多…...

编程日记 2023/11/27 15:53:14

Python办公神器：教你如何快速分拆、删页、合并PDF文件

哈喽大家好，我是了不起，今天教你如何用Python快速分拆、删页、合并PDF文件介绍有时我们可能需要对PDF文件进行一些处理，例如分拆、删页、合并等。这些操作在一些专业的PDF软件中可能比较容易实现，但是如果我们想要用Python来自…...

编程日记 2023/11/27 15:52:13

Android aidl的简单使用

一.服务端 1.创建aidl文件，然后记得build下生成java文件 package com.example.aidlservice31;// Declare any non-default types here with import statementsinterface IMyAidlServer {// 接收一个字符串参数void setData(String value);// 返回一个字符串String …...

编程日记 2023/11/27 15:51:12

双十一备战与复盘

如何组织备战重要节点从大促启动会开始后我就开始计划我们本次备战的整体节奏。挑战在哪以上内容介绍了CDP平台有多么重要，那么画像系统备战的核心挑战在“如何保障在大流量高并发情况下系统稳定提供高性能服务”，主要表现在：稳定性、…...

编程日记 2023/11/27 15:50:12

ONNX实践系列-修改yolov5-seg的proto分支输出shape

一、目标本文主要介绍要将原始yolov5分割的输出掩膜从[b,c,h,.w]修改为[b, h, w, c] 原来的：目标的：代码如下： Descripttion: version: @Company: WT-XM Author: yang jinyi Date: 2023-09-08 11:26:28 LastEditors: yang jinyi LastEditTime: 2023-09-08 11:48:01 …...

编程日记 2023/11/27 15:49:10

VMware与Linux安装

VM与Linux安装 1、安装VMware 这里安装Vm主要是为了安装Linux系统，除了相对云服务器，比较大众化的操作，当然更多的是熟悉Linux操作 1、Windows安装 (1) 下载链接，目前版本上下载VM15的版本即可https://www.vmware.com/p…...

编程日记 2023/11/27 15:46:06

服务器连接github

https://zhuanlan.zhihu.com/p/543490354 比着这个一步步做就行。 https://blog.l0v0.com/posts/94ffdbdf.html 上传文件可以看这个注意： 密钥ssh-keygen设置好之后，以后就不用每次输入账号密码才能访问了。 otherwise，每次要输入账号密码。…...

编程日记 2023/11/27 15:45:05

自动驾驶中的LFM(LED 闪烁缓解)问题

自动驾驶中的LFM Reference: 自动驾驶系统如何跨越LFM这道坎？ 从路灯、交通灯，到车载照明，低功耗、长寿命、高可靠的 LED 正在快速取代传统照明方式。但 LED 在道路上的普遍使用，却带来“LED闪烁”现象。“LED闪烁”是由 LED 驱…...

编程日记 2023/11/27 15:43:03

ArkTS-页面和自定义组件生命周期

页面生命周期：被Entry装饰的组件生命周期 onPageShow：页面每次显示时触发一次，包括路由过程、应用进入前台等场景onPageHide：页面每次隐藏时触发一次，包括路由过程、应用进入前后台等场景onBackPress：当用户…...

编程日记 2023/11/27 15:42:02

ELK: logstash gork filter 多个模式（pattern）匹配规则语法和多行日志匹配设置

项目里用logstash分析日志，由于有多种模式（pattern）需要匹配，网上搜了很多示例，发现这些都是老的写法，都会报错，后来查阅了官方文档，才发现，新版本只支持新语法。错误的…...

编程日记 2023/11/27 15:41:01

Ubuntu20.04上编译安装TVM

本文主要讲述如何在ubuntu20.04平台上编译TVM代码并在python中import tvm成功。源代码下载： git clone --recursive https://github.com/apache/tvm tvm 平台环境升级： 1） sudo apt-get update 2） sudo apt-get install -y pyth…...

编程日记 2023/11/27 15:39:59

DeepSeek-V3算法优化实战：降低推理延迟的10种方法

DeepSeek-V3算法优化实战：降低推理延迟的10种方法 1. 引言在人工智能应用快速发展的今天，模型推理速度往往成为决定用户体验的关键因素。DeepSeek-V3作为先进的大语言模型，虽然在生成质量上表现出色，但在实际部署中常常面临推理…...

编程新知 2026/4/9 9:31:42

反激式开关电源双环PID控制避坑指南：从理论到MATLAB仿真

反激式开关电源双环PID控制避坑指南：从理论到MATLAB仿真反激式开关电源因其结构简单、成本低廉等优势，在中小功率场合广泛应用。然而，其控制系统的设计却暗藏诸多陷阱，尤其是电压环与电流环的双环PID控制，稍有不慎就会…...

编程新知 2026/4/9 9:29:41

Qwen3-VL-WEBUI代理功能体验：让AI帮你操作电脑界面

Qwen3-VL-WEBUI代理功能体验：让AI帮你操作电脑界面 1. 引言：当AI学会"看"和"操作" 想象一下这样的场景：你正在远程指导父母使用一个新软件，但他们总是找不到"那个蓝色的下载按钮"在哪里。或者作为…...

编程新知 2026/4/9 9:22:16

告别复杂配置！用SGLang+Docker轻松部署bge-large-zh-v1.5

告别复杂配置！用SGLangDocker轻松部署bge-large-zh-v1.5 1. 为什么选择bge-large-zh-v1.5 bge-large-zh-v1.5是目前中文语义理解领域表现最优秀的嵌入模型之一。它能将任意长度的中文文本转换为1024维的高质量向量表示，这些向量能够精准捕捉文本的深层…...

编程新知 2026/4/9 8:48:20