当前位置：首页 > news >正文

深度学习pytorch——减少过拟合的几种方法（持续更新）

news 2026/2/9 1:27:22

1、增加数据集

2、正则化(Regularization)

正则化：得到一个更加简单的模型的方法。

以一个多项式为例：

随着最高次的增加，会得到一个更加复杂模型，模型越复杂就会更好的拟合输入数据的模型（图-1），拟合的程度越大，表现在参数上的现象就是高次的系数趋近于0，如果直接将趋近于0的高次去掉，就可以得到一个更加简单的模型，这种方法称为正则化。

图-1

直观的看，经过正则化的模型更加平滑（图-2）.

图-2

正则化的方法：

（1）L1-正则化：在原来的模型基础上加上一个 1-范数（这里使用二分类模型作为示例）：

（2）L2-正则化：在原来的模型基础上加上一个 2-范数（这里使用二分类模型作为示例）：

代码示例：

# L2-正则化
device = torch.device('cuda:0')
net = MLP.to(device)
optimizer = optim.SGD(net.parameters,lr = learning_rate,weight_decay=0.01) #weight_decay=0.01就代表进行L2-正则化
criteoon = nn.CrossEntropyLoss().to(device)

# L1-正则化
# 对于L1-正则化，pytorch并没有提供直接的方法，就只能使用人工去做了
regularization_loss = 0
for param in model.parameters():                # 相求1-范数的总和regularization_loss += torch.sum(torch.abs(param))classify_loss = criteon(logits,target)
loss = classify_loss + 0.01*regularization_loss     # 再将得到的正则损失加入模型损失，其中0.01是1-范数总和前面的系数optimizer.zero_grad()
loss.backward()
optimizer.step()

3、加入动量（momentum）

动量即惯性——本次向哪移动，还需要考虑上一次移动的方向。

正常更新梯度的公式（公式-1）：

公式-1

加入动量之后的公式（公式-2）：

公式-2

将z(k+1)带入梯度更新公式，即公式-1减去，其中Z(k)相当于上一次的梯度，系数 $\alpha$ 和β的大小决定了是当前梯度对方向的决定性大，还是上一梯度对方向的决定性大。

当动量为0时的梯度更新情况（图-3）：

图-3

动量不为0时的梯度更新情况（图-4）：

图-4

将图-3和图-4对比，可以得出动量不为0，即考虑上一梯度，梯度更新更加稳定，不会出现巨大的跳跃情况，并且不加动量的没有找到最小点，一直在局部最小值点徘徊，如果加入动量，考虑到上一梯度，可以在一定程度上解决这种情况（图-4是加入动量之后最好的情况）。

代码演示，直接在优化器部分使用momentum属性就可以了，但是如果使用Adam优化器，就不需要添加，因为在Adam优化器内部定义的有momentum属性：

4、学习率（Learning Rate ）

不同学习率梯度更新情况（图-5）：

图-5

当学习率太小的时候，梯度更新比较慢，需要较多次的更新。

当学习率太大的时候，梯度更新比较激烈，找到的极值点Loss太大。

如何找到正确的的学习率？

在训练之初，可以先设置一个较大的学习率加快更新的速度，然后逐步减小学习率，即设置一个动态学习率。

图-6

从图-6，可以看到有一个突然下降的点，这个点就是学习率训练一些数据之后，学习率突然变小导致的结果。在此之前可以看到Loss趋于不变，可以合理的猜测是因为学习率太大了，出现了来回摇摆不定的情况（图-7）：

图-7

当学习率突然减小，梯度更新变慢，易找到极小点（图-8）：

图-8

代码演示：

5、dropout

dropout：减少神经元之间的连接，减少模型的学习量。标准的神经网络是全连接的，相比经过dropout的神经网络减少了一些连接（图-9）。

图-9

代码演示，可以使用Dropout方法断开连接，0.5代表断开两层之间的50% ：

这种方法被用在模型训练中，但当模型测试过程中，为了提高test的表现，要结束这个操作，将所有的连接都使用上，可以使用net_dropped.eval()方法结束这个操作，代码演示如下：

6、随机梯度下降（Strochastic Gradient Descent ）

这里的随机并不是指任意，这里面是有一套规则的，是一套映射的关系，即将原来的数据x送入f(x)得到一种分布。经过随机从原数据中得到一组小数据，使用这一小组数据训练模型。

学习：课时60 Early stopping, dropout等_哔哩哔哩_bilibili

相关文章：

深度学习pytorch——减少过拟合的几种方法（持续更新）

1、增加数据集 2、正则化(Regularization) 正则化：得到一个更加简单的模型的方法。以一个多项式为例： 随着最高次的增加，会得到一个更加复杂模型，模型越复杂就会更好的拟合输入数据的模型（图-1）&#…...

编程日记 2024/3/30 19:31:32

排序第五篇归并排序

一简介归并排序(Merge Sort) 的基本思想是： 首先将待排序文件看成 n n n 个长度为1的有序子文件， 把这些子文件两两归并， 得到 n 2 \frac{n}{2} 2n 个长度为 2 的有序子文件； 然后再把这 n 2 \frac{n}{2} 2n 个有序的子…...

编程日记 2024/3/30 19:30:32

【Win】使用PowerShell和Webhooks轻松发送消息至Microsoft Teams

Microsoft Teams是一款由微软开发的团队协作和通讯工具。如果您对这个名字还不太熟悉，那么现在就是一个了解它的好时机。微软将Teams定位为其之前Skype for Business解决方案的继任者，并且它也提供了与其他基于频道的通讯应用程序（例如Slack、…...

编程日记 2024/3/30 19:28:29

ESCTF-OSINT赛题WP

这你做不出来?check ESCTF{湖北大学_嘉会园食堂} 这个识图可以发现是淡水渔人码头但是 osint 你要发现所有信息聊天记录说国外同时提示给了美国你综合搜索美国渔人码头在美国旧金山的渔人码头（英语：Fisherman’s Wharf）是一个著名旅…...

编程日记 2024/3/30 19:19:21

2024蓝桥杯省赛保奖突击班-Day2-前缀和、差分、尺取_笔记_练习题解

3月25日-课堂笔记前缀和预处理 O ( n ) \mathcal{O}(n) O(n) s[1] a[1]; for(int i 2; i < n; i)s[i] s[i - 1] a[i];利用前缀和查询区间和 O ( 1 ) O(1) O(1) long long calc(int l, int r) {return l 1 ? s[r] : s[r] - s[l - 1]; }差分序列的求法 c[1] a[…...

编程日记 2024/3/30 19:17:19

C++基础之虚函数（十七）

一.什么是多态多态是在有继承关系的类中，调用同一个指令（函数），不同对象会有不同行为。二.什么是虚函数概念：首先虚函数是存在于类的成员函数中，通过virtual关键字修饰的成员函数叫虚函数。性质&am…...

编程日记 2024/3/30 19:16:18

快速入门Kotlin①基本语法

前言 23年底读了一遍“Kotlin官方文档”，官方文档大而全，阅读下来，大有裨益。此系列文章的目的是记录学习进程，同时，若能让读者迅速掌握重点内容并快速上手，那就再好不过了。函数带有两个 Int 参数、…...

编程日记 2024/3/30 19:12:15

【理解指针（四）】

文章目录一、指针数组二、指针数组来模拟二维数组三、字符指针变量注意： 字符串的例子（曾经的一道笔试题） 四、数组指针变量1、什么是数组指针变量2、数组指针怎么初始化五、二维数组传参的本质六、函数指针1、什么是函数指针变量2、函数的…...

编程日记 2024/3/30 19:06:10

Ribbon简介

目录一、概念介绍 1、Ribbon是什么 2、认识负载均衡 2.1 服务器端的负载均衡 2.2 客户端的负载均衡 3、Ribbon工作原理 4、Ribbon的主要组件 IClientConfig ServerList ServerListFilter IRule Iping ILoadBalancer ServerListUpdater 5、Ribbon支持…...

编程日记 2024/3/30 19:03:07

【感悟《剑指offer》典型编程题的极练之路】02字符串篇！

个人主页：秋风起，再归来~ 文章所属专栏：《剑指offer》典型编程题的极练之路个人格言：悟已往之不谏，知来者犹可追克心守己&#xff0c…...

编程日记 2024/3/30 19:02:06

通过 Docker 实现国产数据库 OpenGauss 开发环境搭建

通过 Docker 实现国产数据库 OpenGauss 开发环境搭建一前置准备 2.1 下载镜像 docker pull enmotech/opengauss:5.0.1构建镜像的 Dockerfile，方便后期实现个性化定制： FROM ubuntu:22.04 as builderARG TARGETARCHWORKDIR /warehouseRUN set -eux;…...

编程日记 2024/3/30 18:57:02

【Java】LinkedList模拟实现

目录整体框架IMyLinkedList接口IndexNotLegalException异常类MyLinkedList类成员变量(节点信息)addFirst(头插)addLast(尾插)在指定位置插入数据判断是否存在移除第一个相等的节点移除所有相等的节点链表的长度打印链表释放回收链表整体框架 IMyLinkedList接口这个接口用来…...

编程日记 2024/3/30 18:56:01

ubuntu下mysql常用命令

1. 登录数据库 mysql -u root -p 2.创建数据库 create database 数据库名字 mysql> create database yourdb; Query OK, 1 row affected (0.03 sec)3.显示数据库 show databases; 实操结果如下 mysql> show databases; -------------------- | Database | ---…...

编程日记 2024/3/30 18:54:59

燃气官网安全运行监测系统-阀井燃气监测仪-旭华智能

近年来，燃气爆炸事故频发，造成了重大人员伤亡和财产损失。这也再次为我们敲响警钟，燃气是我们日常生活中不可或缺的能源，但其潜在的危险性也是不容小觑。因此在重要节点加装燃气阀井气体监测仪，并将数据上传到系统平台…...

编程日记 2024/3/30 18:53:58

vue 文件预览(docx、.xlsx、pdf)

1.ifream <iframe src"" ></iframe> 注: src里面是文件地址 2.vue-office 支持vue2和vue3提供docx、.xlsx、pdf多种文档的在线预览方案 2.1安装 #docx文档预览组件 npm install vue-office/docx vue-demi#excel文档预览组件 npm install vue-office…...

编程日记 2024/3/30 18:50:56

云架构（二）大使模式

Ambassador pattern （https://learn.microsoft.com/en-us/azure/architecture/patterns/ambassador） 简单描述创建一个助手服务，这个服务代表消费服务或者应用程序发送网络请求。大使服务可以看做是与客户机同一个位置的进程外代理。这种…...

编程日记 2024/3/30 18:47:53

.NET Path类库的特殊方法

在.NET中Path类库是非常常用的一个类库，包含很多我们常用的方法，常用的方法这里就不详细说明了，这里记录下几个非常规的方法。获取随机文件名： //将返回随机的文件名Console.WriteLine(Path.GetRandomFileName()); 获取禁止在路…...

编程日记 2024/3/30 18:40:48

【JVM】JVM常用性能调优参数详细介绍

JVM常用性能调优参数详细介绍一、何时进行JVM调优二、性能调优三、JVM调优的基本原则四、JVM调优目标五、JVM调优的步骤六、JVM参数七、JVM参数解析及调优八、JVM参数使用手册8.1 内存相关8.2 GC策略相关8.3 GC日志相关8.4 异常相关8.5 问题定位及优化相关九、参考文档一、何时…...

编程日记 2024/3/30 18:39:47

React中的受控组件与非受控组件

受控组件与非受控组件受控组件组件(input, select)的状态与state的值绑定，组件的状态全程响应外部数据 class TestComponent extends React.Component {constructor (props) {super(props);this.state { username: lindaidai };}render () {return <input …...

编程日记 2024/3/30 18:38:46

uniapp实现u-datetime-picker时间选择器的默认日期定位，解决default-value不生效问题

uniapp实现u-datetime-picker，设置默认定位日期，解决default-value不生效问题想实现的效果是点开时间选择器默认显示当前日期，而不是该选择器最早的日期给选择器添加ref属性，如下： <u-datetime-picker :show&q…...

编程日记 2024/3/30 18:37:45

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周，有很多同学在写期末Java web作业时，运行tomcat出现乱码问题，经过多次解决与研究，我做了如下整理： 原因： IDEA本身编码与tomcat的编码与Windows编码不同导致，Windows 系统控制台…...

编程新知 2026/2/8 4:37:39

Vue记事本应用实现教程

文章目录 1. 项目介绍2. 开发环境准备3. 设计应用界面4. 创建Vue实例和数据模型5. 实现记事本功能5.1 添加新记事项5.2 删除记事项5.3 清空所有记事 6. 添加样式7. 功能扩展：显示创建时间8. 功能扩展：记事项搜索9. 完整代码10. Vue知识点解析10.1 数据绑…...

编程新知 2025/9/20 5:20:12

docker详细操作--未完待续

docker介绍 docker官网: Docker：加速容器应用程序开发 harbor官网：Harbor - Harbor 中文使用docker加速器: Docker镜像极速下载服务 - 毫秒镜像是什么 Docker 是一种开源的容器化平台，用于将应用程序及其依赖项（如库、运行时环…...

编程新知 2026/2/5 4:33:24

Linux简单的操作

ls ls 查看当前目录 ll 查看详细内容 ls -a 查看所有的内容 ls --help 查看方法文档 pwd pwd 查看当前路径 cd cd 转路径 cd .. 转上一级路径 cd 名转换路径 …...

编程新知 2026/1/20 14:36:39

学校招生小程序源码介绍

基于ThinkPHPFastAdminUniApp开发的学校招生小程序源码，专为学校招生场景量身打造，功能实用且操作便捷。从技术架构来看，ThinkPHP提供稳定可靠的后台服务，FastAdmin加速开发流程，UniApp则保障小程序在多端有良好的兼…...

编程新知 2026/1/26 14:19:52

Robots.txt 文件

什么是robots.txt？ robots.txt 是一个位于网站根目录下的文本文件（如：https://example.com/robots.txt），它用于指导网络爬虫（如搜索引擎的蜘蛛程序）如何抓取该网站的内容。这个文件遵循 Robots…...

编程新知 2025/9/9 5:38:23

SpringTask-03.入门案例

一.入门案例启动类： package com.sky;import lombok.extern.slf4j.Slf4j; import org.springframework.boot.SpringApplication; import org.springframework.boot.autoconfigure.SpringBootApplication; import org.springframework.cache.annotation.EnableCach…...

编程新知 2026/2/2 0:35:08

精益数据分析（97/126）：邮件营销与用户参与度的关键指标优化指南

精益数据分析（97/126）：邮件营销与用户参与度的关键指标优化指南在数字化营销时代，邮件列表效度、用户参与度和网站性能等指标往往决定着创业公司的增长成败。今天，我们将深入解析邮件打开率、网站可用性、页面参与时…...

编程新知 2025/12/13 4:04:33

以光量子为例，详解量子获取方式

光量子技术获取量子比特可在室温下进行。该方式有望通过与名为硅光子学（silicon photonics）的光波导（optical waveguide）芯片制造技术和光纤等光通信技术相结合来实现量子计算机。量子力学中，光既是波又是粒子。光子本…...

编程新知 2026/2/7 11:51:32

【生成模型】视频生成论文调研

工作清单上游应用方向：控制、速度、时长、高动态、多主体驱动类型工作基础模型WAN / WAN-VACE / HunyuanVideo控制条件轨迹控制ATI~镜头控制ReCamMaster~多主体驱动Phantom~音频驱动Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation速…...

编程新知 2025/9/9 8:40:47