当前位置：首页 > news >正文

【AI知识】过拟合、欠拟合和正则

news 2026/2/10 22:33:29

一句话总结： 过拟合和欠拟合是机器学习中的两个相对的概念，正则化是用于解决过拟合的方法。

1. 欠拟合： 指模型在训练数据上表现不佳，不能充分捕捉数据的潜在规律，导致在训练集和测试集上的误差都很高。欠拟合意味着模型太简单，无法有效地学习数据中的重要特征，导致其预测能力差。

欠拟合的表现： 训练误差较高 / 测试误差较高 / 模型复杂度过低
欠拟合的原因：
- 模型过于简单，无法捕捉数据中的复杂模式。
- 模型使用的特征（输入变量）太少，或没有选择合适的特征，导致可能无法捕捉到数据中的重要信息。
- 训练时间过短，模型还没充分从数据中学习到有用的模式，如迭代次数过少或训练轮次不足。
- 过度正则化也可能导致欠拟合，正则化是为了防止过拟合，但如果正则化过强，可能会使模型变得过于简单。
- 如果数据中噪声过大，且模型没有足够的能力来拟合这些噪声的规律时，也可能会表现出欠拟合的现象。
如何解决欠拟合： 增加模型的复杂度 / 增加特征 / 训练时间增加 / 减少正则化强度 / 数据增强

2. 过拟合（Overfitting）： 指的是模型在训练数据上表现得非常好，但在新的、未见过的数据（如测试集或验证集）上表现不佳的现象。即模型对训练数据的拟合程度过高，捕捉了数据中的噪声、细节和偶然性，而没有学习到数据的普遍规律，从而失去了对新数据的泛化能力。

过拟合的表现： 训练集表现很好，测试集表现差 / 模型的复杂度过高，能够拟合数据的每个小波动和噪声
过拟合的原因：
- 当模型的参数太多，或者模型的复杂度过高时，它会能够很好地拟合训练集中的所有数据点，包括数据中的噪声和细节。
- 训练数据量太少，缺乏足够的数据来支持模型的泛化，使得模型无法学习到数据的普遍规律，容易出现过拟合。
- 训练时间过长，模型可能会开始“记住”训练数据，而不是学习数据的普遍规律，从而出现过拟合。
- 训练数据中的噪声（如错误的标签、输入的异常值等）可能会导致模型过拟合，模型会尝试拟合噪声，而不是学习有意义的模式。
- 缺乏正则化，正则化是控制模型复杂度的一种方法，如果没有适当的正则化，模型容易过度拟合训练数据。
如何解决过拟合：
- 使用简单的模型，减少参数量。
- 增加训练数据量，更多的数据有助于模型学习到更稳定的模式，而不是记住训练数据中的噪声。
- 数据增强（Data Augmentation），如果增加数据量不容易实现，可以通过数据增强来生成更多的训练数据。数据增强技术通过对现有数据进行旋转、平移、裁剪、缩放、翻转等操作，来增加数据集的多样性，在图像处理任务中非常常见。
- 正则化（Regularization），如L1/L2 正则化，Dropout。
- 交叉验证（Cross-validation），通过将数据集分成多个子集，进行多次训练和验证，模型在不同的验证集上的表现可以帮助评估是否出现过拟合。
- 早停（Early Stopping），在训练过程中，如果模型在验证集上的性能开始下降，说明模型可能开始过拟合训练数据。早停技术会在模型表现不再提升时停止训练，从而防止过拟合。
- 集成方法（Ensemble Methods），通过组合多个模型的结果来构建一个更强的模型，常用的方法如随机森林。
- 降维（Dimensionality Reduction）技术，如主成分分析（PCA）可以通过减少输入数据的维度来降低模型的复杂度，防止模型学习到数据中的噪声。
3. 正则化（Regularization）： 是机器学习中用于防止模型过拟合的一种技术，目标是限制模型的复杂性。它通过对模型的参数施加限制或惩罚，避免模型在训练数据上过度“记忆”，而是学到一些更一般化的规律，从而提高模型的泛化能力。通常，正则化方法会在损失函数中增加一个正则化项，使得损失函数不仅考虑模型的预测误差，还考虑模型的复杂度。

常见的正则化方法：
- L1 正则化（Lasso）： 通过在损失函数中增加参数权重的绝对值和来限制模型的复杂度。L1 正则化的损失函数如下，其中， $w_i$ 是模型的参数，λ 是正则化超参数，控制正则化的强度。
  
  作用和特点：
  - 稀疏性（Sparsity）： L1 正则化的一个重要特点是它能够产生稀疏模型。即，通过惩罚权重的绝对值，L1 正则化可以将某些权重压缩为零，从而自动进行特征选择。这意味着一些特征会被“丢弃”，使得模型变得更加简单和高效。
  - 特征选择： L1 正则化适用于特征数很多的情况，尤其是当很多特征可能与输出无关时。通过将不相关特征的权重置为零，L1 正则化有效地选择了最重要的特征。
  - 缺点： 对特征之间的共线性不够鲁棒。如果数据中的特征高度相关，L1 正则化通常会选择其中一个特征，而忽略其他相关特征。
- L2 正则化（Ridge）： 通过在损失函数中增加参数权重的平方和来限制模型复杂度。L2 正则化的损失函数如下，其中， $w_i$ 是模型的参数，λ 是正则化超参数，控制正则化的强度。
  
  作用和特点：
  - 权重的平滑： L2 正则化的作用是将权重的绝对值尽可能地减小，但不会完全使其为零。它鼓励模型权重较小且均匀分布，从而防止某些特征对模型的影响过大，避免过拟合。
  - 不产生稀疏解： 与 L1 正则化不同，L2 正则化不会使得某些权重变为零，而是使所有权重都较小，模型的复杂度得到控制。
  - 对特征间共线性鲁棒： 在特征高度相关的情况下，L2 正则化通常会均匀地分配权重，而不是选择其中一个特征。
  - 缺点： 不具备特征选择功能。与 L1 正则化不同，L2 正则化不会将不相关的特征的权重压缩为零，因此无法自动进行特征选择。
- Dropout： 是一种常用的神经网络正则化方法。它通过在训练过程中随机“丢弃”一部分神经元（即将其输出设置为零）来防止神经网络过拟合。
  Dropout 使得神经网络在每次训练时都使用不同的子网络进行训练，从而防止网络对特定神经元的依赖，增强了模型的泛化能力。
- 早停（Early Stopping）： 在训练过程中监控验证集的误差，当验证集误差停止改善时，提前停止训练。这可以防止模型在训练数据上训练过长时间，从而避免过拟合。
- 数据增强（Data Augmentation）： 主要用于图像、文本等领域。通过对训练数据进行一系列变换（如旋转、缩放、裁剪、翻转等），生成新的数据样本，从而增加训练集的多样性，降低模型对训练数据的过度依赖，从而防止过拟合。

【AI知识】过拟合、欠拟合和正则

一句话总结： 过拟合和欠拟合是机器学习中的两个相对的概念，正则化是用于解决过拟合的方法。 1. 欠拟合： 指模型在训练数据上表现不佳，不能充分捕捉数据的潜在规律，导致在训练集和测试集上的误差都很高。欠拟合意味着模…...

编程日记 2024/12/10 9:12:50

MacOS编译webRTC源码小tip

简单记录一下，本人在编译webRTC时，碰到了一下比较烦人的问题，在MacOS终端下，搭建科学上网之后，chromium的depot_tools仓库成功拉下来了，紧接着，使用fetch以及gclient sync始终都返回curl相关的网…...

编程日记 2024/12/10 9:11:48

Linux基础命令（三）：文件压缩及解压缩命令

文件压缩及解压缩命令 tar — 打包和压缩 tar 是一个用于打包文件的工具，常常用来将多个文件或目录打包成一个单独的文件。它本身不进行压缩，但可以与压缩工具（如 gzip 或 bzip2）一起使用。用法： 打包文件&#xff0…...

编程日记 2024/12/10 9:10:47

目标跟踪算法：ByteTrack、卡尔曼滤波、匈牙利算法、高置信度检测目标、低置信度检测目标

目录 1 ByteTrack特点 2 ByteTrack和SORT区别----个人通俗理解 3 ByteTrack算法原理 4 ByteTrack整体流程图上一篇博客我复习了下SORT跟踪算法，这一篇博客我再复习下ByteTrack跟踪算法，ByteTrack里面也是用了卡尔曼滤波和匈牙利算法&#x…...

编程日记 2024/12/10 9:09:46

[定昌linux系统]如何安装jdk8

1:下载jdk8 的 arm64 的版本，由于官方下载需要gmail，我的gmail 密码忘了，所以从csdn上下载了一份，地址： https://download.csdn.net/download/qq_27742163/88533548?utm_mediumdistribute.pc_relevant_download.none…...

编程日记 2024/12/10 9:07:43

【Cadence32】PCB多层板电源、地平面层创建心得➕CM约束管理器Analyze分析显示设置➕“DP”报错DRC

【转载】Cadence Design Entry HDL 使用教程【Cadence01】Cadence PCB Edit相对延迟与绝对延迟的显示问题【Cadence02】Allegro引脚焊盘Pin设置为透明【Cadence03】cadence不小心删掉钢网层怎么办？ 【Cadence04】一般情况下Allegro PCB设计时的约束规则设置&a…...

编程日记 2024/12/10 9:05:41

基于SpringBoot+Vue的新闻管理系统

系统展示用户前台界面管理员后台界面系统背景随着互联网技术的飞速发展，信息传播速度不断加快，新闻媒体行业面临着巨大的机遇与挑战。传统的新闻媒体正在逐渐向数字化转型，而新闻管理系统作为数字化新闻媒体的核心组成部分，其…...

编程日记 2024/12/10 9:04:40

图的割点、割边(Tarjan算法)

深度优先搜索的利用。在一个无向连通图中，如果删掉某个顶点后，图不再连通（即任意两点之间不能互相到达），我们称这样的顶点为割点。在一个无向连通图中，如果删掉某条边后，图不在连通&#xff0…...

编程日记 2024/12/10 9:01:35

算法学习（十四）—— 二叉树的深度搜索（DFS）

目录关于dfs 部分OJ题详解 2331. 计算布尔二叉树的值 129. 求根节点到叶节点数字之和 814. 二叉树剪枝 98. 验证二叉搜索树 230. 二叉搜索树中第K小的元素 257. 二叉树的所有路径关于dfs 算法学习（十二）—— 递归，搜索&#xff0c…...

编程日记 2024/12/10 9:00:32

【vue2】封装自定义的日历组件(三)之基础添加月份的加减定位到最新月份的第一天

我们在切换月份的时候，希望高亮显示在每个月的第一天上面，这样的效果我们要怎么来实现，其实也很简单，我们先看下实现的效果实现效果代码实现原理就是获取到每月的第一天日期，然后再跟整个的数据进行对比&#xff…...

编程日记 2024/12/10 8:59:29

LabVIEW偏心圆筒流变仪测控系统

偏心圆筒流变仪是一种专门研究聚合物熔体在复杂流场中特殊流变行为的先进设备。通过结合硬件控制与LabVIEW软件开发，本系统实现了对流变仪功能的精准控制与数据采集，进一步提高了聚合物加工过程的研究精度和效率。项目背景传统的流变测量设备多集中于…...

编程日记 2024/12/10 8:55:23

Runloop

假设你的项目中有关tableView，然后还有一个定时器timer在执行，定时器代码如下： var num 0override func viewDidLoad() {super.viewDidLoad()let timer Timer(timeInterval: 1,target: self,selector: #selector(self.run),userInfo: nil,r…...

编程日记 2024/12/10 8:54:22

SpringBoot的Bean类三种注入方式（附带LomBok注入）

SpringBoot的Bean类三种注入方式（附带LomBok注入） 在 Spring Boot 中，Bean 的注入方式主要包括构造函数注入（Constructor Injection）、字段注入（Field Injection）以及 Setter 方法注入&#xf…...

编程日记 2024/12/10 8:52:20

开源向量数据库介绍说明

开源向量数据库 Milvus 特点：分布式、高性能，支持亿级向量检索。支持的数据类型：文本、图像、音频、视频等。使用场景：推荐系统、语义搜索、图像搜索。数据存储后端：支持多种后端，如 SQLite、MySQL、Pos…...

编程日记 2024/12/10 8:49:16

【前端】深度解析 JavaScript 中的 new 关键字与构造函数

博客主页： [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: 前端文章目录 💯前言💯构造函数的核心特性💯new 关键字的执行机制💯实例代码与详细解析代码示例代码逐步解析 💯new 的内部执行模拟执行过程的详细解析 &am…...

编程日记 2024/12/10 8:47:12

2024年华中杯数学建模C题基于光纤传感器的平面曲线重建算法建模解题全过程文档及程序

2024年华中杯数学建模 C题基于光纤传感器的平面曲线重建算法建模原题再现光纤传感技术是伴随着光纤及光通信技术发展起来的一种新型传感器技术。它是以光波为传感信号、光纤为传输载体来感知外界环境中的信号，其基本原理是当外界环境参数发生变化时&#xff0c…...

编程日记 2024/12/10 8:46:11

使用 `typing_extensions.TypeAlias` 简化类型定义：初学者指南

使用 typing_extensions.TypeAlias 简化类型定义：初学者指南什么是 TypeAlias？安装 typing_extensions示例代码：如何使用 TypeAlias示例 1：为简单类型定义别名示例 2：为复杂类型定义别名示例 3：结合 Union…...

编程日记 2024/12/10 8:41:05

如何快速批量把 PDF 转为 JPG 或其它常见图像格式？

在某些特定场景下，将 PDF 转换为 JPG 图片格式却具有不可忽视的优势。例如，当我们需要在不支持 PDF 查看的设备或软件中展示文档内容时，JPG 图片能够轻松被识别和打开；此外，对于一些网络分享或社交媒体发布的需求&…...

编程日记 2024/12/10 8:40:03

如何在组织中塑造和强化绩效文化？

在组织中塑造和强化绩效文化是一个系统性的工程。一、明确绩效目标与期望设定清晰目标组织应根据自身战略规划，将长期目标分解为具体、可衡量、可实现、相关联、有时限（SMART）的短期和中期绩效目标。例如，一家连锁餐饮企业的…...

编程日记 2024/12/10 8:36:59

OllyDbg、CE简单介绍

基础知识： 想要破解软件，需要一些基础知识： 文件格式：Windows对应PE、Linux对应ELF、IOS对应Mash-0。文件格式是指操作系统规定的每个段（代码段、数据段、堆、栈）的大小、顺序等信息。汇编语言&#xff1…...

编程日记 2024/12/10 8:34:57

LeetCode - 394. 字符串解码

题目 394. 字符串解码 - 力扣（LeetCode） 思路使用两个栈：一个存储重复次数，一个存储字符串遍历输入字符串： 数字处理：遇到数字时，累积计算重复次数左括号处理：保存当前状态&a…...

编程新知 2026/1/25 10:09:59

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院查看报告小程序

一、开发环境准备工具安装： 下载安装DevEco Studio 4.0（支持HarmonyOS 5）配置HarmonyOS SDK 5.0确保Node.js版本≥14 项目初始化： ohpm init harmony/hospital-report-app 二、核心功能模块实现 1. 报告列表…...

编程新知 2026/2/1 4:17:33

OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别

OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别直接训练提示词嵌入向量的核心区别您提到的代码： prompt_embedding = initial_embedding.clone().requires_grad_(True) optimizer = torch.optim.Adam([prompt_embedding...

编程新知 2025/7/4 0:50:01

[Java恶补day16] 238.除自身以外数组的乘积

给你一个整数数组 nums，返回数组 answer ，其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积。题目数据保证数组 nums之中任意元素的全部前缀元素和后缀的乘积都在 32 位整数范围内。请不要使用除法，且在 O(n) 时间复杂度…...

编程新知 2025/10/3 13:53:38

Spring AI与Spring Modulith核心技术解析

Spring AI核心架构解析 Spring AI（https://spring.io/projects/spring-ai）作为Spring生态中的AI集成框架，其核心设计理念是通过模块化架构降低AI应用的开发复杂度。与Python生态中的LangChain/LlamaIndex等工具类似，但特别为多语…...

编程新知 2025/12/14 17:38:21

C# 求圆面积的程序（Program to find area of a circle）

给定半径r，求圆的面积。圆的面积应精确到小数点后5位。例子： 输入：r 5 输出：78.53982 解释：由于面积 PI * r * r 3.14159265358979323846 * 5 * 5 78.53982，因为我们只保留小数点后 5 位数字。输…...

编程新知 2026/2/8 9:34:11

HashMap中的put方法执行流程（流程图）

1 put操作整体流程 HashMap 的 put 操作是其最核心的功能之一。在 JDK 1.8 及以后版本中，其主要逻辑封装在 putVal 这个内部方法中。整个过程大致如下： 初始判断与哈希计算： 首先，putVal 方法会检查当前的 table（也就…...

编程新知 2026/2/8 3:32:52

三分算法与DeepSeek辅助证明是单峰函数

前置单峰函数有唯一的最大值，最大值左侧的数值严格单调递增，最大值右侧的数值严格单调递减。单谷函数有唯一的最小值，最小值左侧的数值严格单调递减，最小值右侧的数值严格单调递增。三分的本质三分和二分一样都是通过不断缩…...

编程新知 2026/1/31 2:50:32

抽象类和接口（全）

一、抽象类 1.概念：如果⼀个类中没有包含⾜够的信息来描绘⼀个具体的对象，这样的类就是抽象类。像是没有实际⼯作的⽅法,我们可以把它设计成⼀个抽象⽅法，包含抽象⽅法的类我们称为抽象类。 2.语法在Java中，⼀个类如果被 abs…...

编程新知 2026/2/5 4:38:22

LCTF液晶可调谐滤波器在多光谱相机捕捉无人机目标检测中的作用

中达瑞和自2005年成立以来，一直在光谱成像领域深度钻研和发展，始终致力于研发高性能、高可靠性的光谱成像相机，为科研院校提供更优的产品和服务。在《低空背景下无人机目标的光谱特征研究及目标检测应用》这篇论文中提到中达瑞和 LCTF 作为多…...

编程新知 2025/12/31 17:08:10

相关文章：