当前位置：首页 > news >正文

21.过拟合和欠拟合示例

news 2026/4/3 6:24:00

1. 背景介绍

在机器学习和深度学习中，过拟合和欠拟合是两个非常重要的概念。过拟合指的是模型在训练数据上表现很好，但在新的测试数据上效果变差的情况。欠拟合则是指模型无法很好地拟合训练数据的情况。这两种情况都会导致模型无法很好地泛化，影响最终的预测和应用效果。

为了帮助大家更好地理解过拟合和欠拟合的概念及其应对方法，我将通过一个基于PyTorch的代码示例来演示这两种情况的具体表现。我们将生成一个抛物线数据集，并定义三种不同复杂度的模型，分别对应欠拟合、正常拟合和过拟合的情况。通过可视化训练和测试误差的曲线图，以及预测结果的散点图，我们可以直观地观察到这三种情况下模型的拟合效果。

2. 核心概念与联系

过拟合和欠拟合是机器学习和深度学习中两个相互对应的概念:

1. 过拟合(Overfitting): 模型在训练数据上表现很好,但在新的测试数据上效果变差的情况。这通常是由于模型过于复杂,过度拟合了训练数据中的噪声和细节,导致无法很好地推广到未知数据。

2. 欠拟合(Underfitting): 模型无法很好地拟合训练数据的情况。这通常是由于模型过于简单,无法捕捉训练数据中的复杂模式和关系。

这两种情况都会导致模型在实际应用中无法很好地泛化,因此需要采取相应的措施来防止和缓解过拟合和欠拟合。常见的应对方法包括:

- 增加训练样本数量
- 减少模型复杂度(比如调整网络层数、神经元个数等)
- 使用正则化技术(如L1/L2正则化、Dropout等)
- 调整超参数(如学习率、批量大小等)
- 特征工程(如特征选择、降维等)

通过合理的模型设计和超参数调优,我们可以寻找到一个恰当的模型复杂度,使其既能很好地拟合训练数据,又能在新数据上保持良好的泛化性能。这就是机器学习中的**bias-variance tradeoff**,也是我们在实际应用中需要权衡的一个关键点。

3. 核心算法原理和具体操作步骤

import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split# 生成数据
np.random.seed(42)
X = np.random.uniform(-5, 5, 500)
y = X**2 + 1 + np.random.normal(0, 1, 500)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 定义三种不同复杂度的模型
class UnderFitModel(nn.Module):def __init__(self):super(UnderFitModel, self).__init__()self.fc = nn.Linear(1, 1)def forward(self, x):return self.fc(x)class NormalFitModel(nn.Module):def __init__(self):super(NormalFitModel, self).__init__()self.fc1 = nn.Linear(1, 8)self.fc2 = nn.Linear(8, 1)self.activation = nn.ReLU()def forward(self, x):x = self.fc1(x)x = self.activation(x)x = self.fc2(x)return xclass OverFitModel(nn.Module):def __init__(self):super(OverFitModel, self).__init__()self.fc1 = nn.Linear(1, 32)self.fc2 = nn.Linear(32, 32)self.fc3 = nn.Linear(32, 1)self.activation = nn.ReLU()def forward(self, x):x = self.fc1(x)x = self.activation(x)x = self.fc2(x)x = self.activation(x)x = self.fc3(x)return x# 训练模型并记录误差
def train_and_evaluate(model, train_loader, test_loader):optimizer = torch.optim.SGD(model.parameters(), lr=0.005)criterion = nn.MSELoss()train_losses = []test_losses = []for epoch in range(100):model.train()train_loss = 0.0for inputs, targets in train_loader:optimizer.zero_grad()outputs = model(inputs)loss = criterion(outputs, targets)loss.backward()optimizer.step()train_loss += loss.item()train_loss /= len(train_loader)train_losses.append(train_loss)model.eval()test_loss = 0.0with torch.no_grad():for inputs, targets in test_loader:outputs = model(inputs)loss = criterion(outputs, targets)test_loss += loss.item()test_loss /= len(test_loader)test_losses.append(test_loss)return train_losses, test_losses# 训练三种模型并可视化
under_fit_model = UnderFitModel()
normal_fit_model = NormalFitModel()
over_fit_model = OverFitModel()under_fit_train_losses, under_fit_test_losses = train_and_evaluate(under_fit_model, train_loader, test_loader)
normal_fit_train_losses, normal_fit_test_losses = train_and_evaluate(normal_fit_model, train_loader, test_loader)
over_fit_train_losses, over_fit_test_losses = train_and_evaluate(over_fit_model, train_loader, test_loader)plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.plot(under_fit_train_losses, label='Under-fit Train Loss')
plt.plot(under_fit_test_losses, label='Under-fit Test Loss')
plt.plot(normal_fit_train_losses, label='Normal-fit Train Loss')
plt.plot(normal_fit_test_losses, label='Normal-fit Test Loss')
plt.plot(over_fit_train_losses, label='Over-fit Train Loss')
plt.plot(over_fit_test_losses, label='Over-fit Test Loss')
plt.xlabel('Epoch')
plt.ylabel('MSE Loss')
plt.title('Training and Test Loss Curves')
plt.legend()plt.subplot(1, 2, 2)
plt.scatter(X_test, y_test, label='True')
plt.scatter(X_test, under_fit_model(X_test).detach().numpy(), label='Under-fit Prediction')
plt.scatter(X_test, normal_fit_model(X_test).detach().numpy(), label='Normal-fit Prediction')
plt.scatter(X_test, over_fit_model(X_test).detach().numpy(), label='Over-fit Prediction')
plt.xlabel('x')
plt.ylabel('y')
plt.title('Test Set Predictions')
plt.legend()plt.show()

这个代码示例涵盖了我们之前讨论的各个步骤:

数据生成: 我们生成了一个抛物线形状的数据集,并使用train_test_split函数将其划分为训练集和测试集。
模型定义: 我们定义了三种不同复杂度的PyTorch模型,分别对应欠拟合、正常拟合和过拟合的情况。
训练与评估: 我们实现了一个train_and_evaluate函数,该函数负责训练模型并记录训练集和测试集上的损失。
可视化: 最后,我们使用matplotlib绘制了训练损失和测试损失的曲线图,以及在测试集上的预测结果。

欠拟合模型:训练误差和测试误差都较大,说明模型无法很好地拟合数据。在测试集上的预测结果也存在较大偏差。
正常拟合模型:训练误差和测试误差较为接近,说明模型的拟合效果较好。在测试集上的预测也比较准确。
过拟合模型:训练误差很小,但测试误差较大,说明模型在训练集上表现很好,但在新数据上泛化能力较差。在测试集上的预测结果存在一定偏差。
通过这个实例,我们可以直观地观察到不同复杂度模型在训练和泛化性能上的差异。欠拟合模型在训练集和测试集上的损失都较大,说明模型无法很好地拟合数据。正常拟合模型在训练集和测试集上的损失较为接近,说明模型具有较好的泛化能力。而过拟合模型在训练集上的损失很小,但在测试集上的损失较大,说明模型过于复杂,在新数据上泛化性能较差。

通过这种观察训练误差和测试误差的方法,我们可以及时发现模型存在的问题,并针对性地调整模型结构、添加正则化等手段来优化模型性能。这是机器学习和深度学习中非常基础和重要的实践技能。

21.过拟合和欠拟合示例

1. 背景介绍在机器学习和深度学习中，过拟合和欠拟合是两个非常重要的概念。过拟合指的是模型在训练数据上表现很好，但在新的测试数据上效果变差的情况。欠拟合则是指模型无法很好地拟合训练数据的情况。这两种情况都会导致模型无法很好地泛化&#xff…...

编程日记 2024/6/4 20:39:19

使用import语句导入模块

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 创建模块后，就可以在其他程序中使用该模块了。要使用模块需要先以模块的形式加载模块中的代码，这可以使用import语句实现。im…...

编程日记 2024/6/4 20:38:18

一台FreeBSD笔记本突然鼠标乱动=＞pf防火墙设置@FreeBSD

缘起一台FreeBSD的笔记本，突然鼠标乱动思考了下，可能原因有三： 1 无线鼠标干扰正巧没带鼠标，但是插着无线鼠标usb，不知道是不是别人的鼠标跟这个usb串台了。 2 触摸板机械故障也许是天热触摸板开始有故障了&…...

编程日记 2024/6/4 20:37:16

身份证OCR识别功能介绍

身份证OCR识别功能是一种基于光学字符识别（OCR）技术的解决方案，专门用于从身份证图像中快速、准确地提取和识别信息。以下是关于身份证OCR识别功能的详细介绍： 功能概述身份证OCR识别功能通过高分辨率的摄像头或扫描仪获取身份证…...

编程日记 2024/6/4 20:36:15

一文看懂:MES定义和功能是什么,以及在数字化工厂的应用

MES应该是继ERP之后制造企业信息化最热门的管理软件，它适应产品个性化与敏捷化制造需求，满足生产过程精益管理而产生和发展起来的信息系统。作为企业实现数字化与智能化的核心支撑技术与重要组成部分，MES在帮助制造企业走向数字化、智能化等…...

编程日记 2024/6/4 20:35:12

对 SQL 说“不”~

开发人员注意！ 您在当前的应用程序架构中是否面临这些问题？ 对 SQL 数据库的高吞吐量。SQL 数据库中的瓶颈。内存数据存储将是解决问题的方案。Redis 是市场上最受欢迎的内存数据存储和缓存选项。Redis 拥有广泛的生态系统，因为主要科技巨…...

编程日记 2024/6/4 20:32:09

【爱空间_登录安全分析报告】

前言由于网站注册入口容易被黑客攻击，存在如下安全问题： 暴力破解密码，造成用户信息泄露短信盗刷的安全问题，影响业务及导致用户投诉带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞 …...

编程日记 2024/6/4 20:31:08

web前端三大主流框架

一、介绍目前，前端开发领域的三大主流框架是： React：React是由Facebook开发并维护的开源JavaScript库，用于构建用户界面。它提供了一种声明式的组件化开发方式，能够高效地创建交互性的用户界面。React具有高性能、可…...

编程日记 2024/6/4 20:30:07

git获取的项目无法运行

一、Unsupported engine 问题：在使用命令npm install下载依赖项的时候就遇到了这个问题，有帖子说多试几次，其实这是提示node版本问题，版本的更新出现兼容性问题，多试几次也没用。解决方案： 更新node.js的…...

编程日记 2024/6/4 20:28:05

java 原生http服务器测试JS前端ajax访问实现跨域

后端 package Httpv3;import com.sun.net.httpserver.Headers; import com.sun.net.httpserver.HttpExchange; import com.sun.net.httpserver.HttpHandler; import com.sun.net.httpserver.HttpServer;import java.io.IOException; import java.io.OutputStream; import java…...

编程日记 2024/6/4 20:27:03

捋一捋C++中的逻辑运算(一)——表达式逻辑运算

注意，今天要谈的逻辑运算是C语言编程中的“与或非”逻辑运算，不是数学集合中的“交并补”逻辑运算。而编程中的逻辑运算又包括表达式逻辑运算和位逻辑运算，本章介绍表达式逻辑运算，下一章介绍位逻辑运算。目录一、几个基本的概…...

编程日记 2024/6/4 20:25:01

qcom 平台系统签名流程

security boot 平台的东东，oem 可定制的功能有限，只能参考平台文档，可以在高通的网站上搜索：Secure Boot Enablement，然后找对应平台的文档xxx-Secure Boot Enablement User Guide, step by step 操作即可开机校验流…...

编程日记 2024/6/4 20:22:58

从零开始实现自己的串口调试助手(5) -实现HEX显示/发送/接收

实现HEX显示: HEX 显示 -- 其实就是十六进制显示 --> a - 97(10) --> 61(16) 添加槽函数(bool): 实现槽函数: 注意: 注意QString 没有处理HEX显示的相关API 需要使用 toUtf-8 来转换位QByteArry 类型， 利用其中的API 来处理HEX格式(toHex fromHex) vo…...

编程日记 2024/6/4 20:21:57

【计算机毕设】基于SpringBoot的民宿在线预定平台设计与实现 - 源码免费（私信领取）

免费领取源码 ｜ 项目完整可运行 ｜ v：chengn7890 诚招源码校园代理！ 1. 研究目的本研究旨在设计并实现一个基于SpringBoot的民宿在线预定平台。通过信息化手段提高民宿预定效率，方便用户查询房源、预定房间、在线支付和…...

编程日记 2024/6/4 20:20:56

大数据—数据分析概论

一、什么是数据分析数据分析是指使用统计、数学、计算机科学和其他技术手段对数据进行清洗、转换、建模和解释的过程，以提取有用的信息、发现规律、支持决策和解决问题。数据分析可以应用于各种领域，包括商业、医学、工程、社会科学等。二、数据分析步…...

编程日记 2024/6/4 20:19:54

centos7下卸载MySQL，Oracle数据库

📑打牌 ： da pai ge的个人主页 🌤️个人专栏 ： da pai ge的博客专栏 ☁️宝剑锋从磨砺出，梅花香自苦寒来操作系统版本为CentOS 7 使⽤ MySQ…...

编程日记 2024/6/4 20:18:53

Spring解决循环依赖

Spring框架为了解决循环依赖问题，设计了一套三级缓存机制： 一级缓存singletonObjects:这个是最常规的缓存，用于存放完成初始化好的bean，如果某个bean已经在这个缓存了直接返回。二级缓存earlySigletonObjects:这个用于存放早期暴…...

编程日记 2024/6/4 20:17:51

RUST运算符重载

在 Rust 中，可以使用特征（traits）来实现运算符重载。运算符重载是通过实现相应的运算符特征（如 Add、Sub、Mul 等）来完成的。这些特征定义在 std::ops 模块中。下面是一个简单的示例，展示如何为一个自定义结…...

编程日记 2024/6/4 20:16:50

描述一下 Array.forEach() 循环和 Array.map() 方法之间的主要区别

Array.forEach() 和 Array.map() 都是 JavaScript 数组中常用的方法,但它们之间有一些重要的区别: 返回值:forEach()：没有返回值,它只是对数组中的每个元素执行提供的函数。map()：返回一个新的数组,其元素是通过对原数组的每个元素执行提供的函数后的结…...

编程日记 2024/6/4 20:14:48

在GEE中显示矢量或栅格数据的边界（包含样式设计）

需要保证最后显示的数据是一个 FeatureCollection 对象。如果数据是一个 Geometry 或 Image，我们也可以使用 style 方法来设置样式并将其添加到地图上。以下是针对不同类型对象的处理方式： 1 Geometry对象如果 table 是一个 Geometry 对象&#xff…...

编程日记 2024/6/4 20:13:47

GME-Qwen2-VL-2B效果实测：LaTeX公式截图转代码的准确率与效率

GME-Qwen2-VL-2B效果实测：LaTeX公式截图转代码的准确率与效率如果你经常需要处理学术论文或者技术文档，肯定遇到过这样的麻烦事：看到一篇PDF或者网页上有个特别复杂的数学公式，想在自己的文档里用，结果发现要么没提供…...

编程新知 2026/4/3 6:21:34

use-context-selector 与 Suspense 集成：实现数据加载的优雅处理

use-context-selector 与 Suspense 集成：实现数据加载的优雅处理【免费下载链接】use-context-selector React useContextSelector hook in userland 项目地址: https://gitcode.com/gh_mirrors/us/use-context-selector 在 React 18 的并发渲染时代&#x…...

编程新知 2026/4/3 4:19:27

Gemma-3-12b-it Streamlit应用实战：顶部像素控制面板CSS3定制详解

Gemma-3-12b-it Streamlit应用实战：顶部像素控制面板CSS3定制详解 1. 引言：从传统侧边栏到像素控制面板如果你用过Streamlit，肯定对那个默认的侧边栏不陌生。它很方便，但有时候也挺碍事——特别是当你想要一个全屏、沉浸式的对…...

编程新知 2026/4/3 3:45:02

基于YOLOv8深度学习的电梯内电动车检测系统（YOLOv8+YOLO数据集+UI界面+Python项目源码+模型）

一、项目介绍项目摘要随着城市化进程的加速，电梯已成为现代建筑中不可或缺的垂直交通工具。然而，电动车进入电梯并违规充电引发的火灾事故频发，对人民生命财产安全构成严重威胁。为解决这一问题，本系统基于YOLOv8深度学习算法…...

编程新知 2026/4/3 3:16:42

Mavlink协议解析：从Pixhawk飞控到QGC地面站的完整通信流程

Mavlink协议深度解析：构建Pixhawk与QGC的高效通信桥梁当Pixhawk飞控的LED指示灯开始规律闪烁，QGC地面站的地图上突然出现了一个蓝色圆点——这看似简单的连接背后，隐藏着一套精密的通信语言体系。Mavlink协议就像无人机系统的神经网络&#…...

编程新知 2026/4/3 2:56:22

Flink的反压机制

目录 1. 什么是反压？ 2. Flink 反压机制的演变第一代：基于 TCP 的传播（Flink 1.5 之前）第二代：基于信用制的反压（Flink 1.5+，当前版本） 3. 基于信用制的反压详解核心组件工作流程（对应上图）优势 4. 如何识别和处理反压？识别（通过 Flink Web UI） …...

编程新知 2026/4/3 1:34:51

第 2 章控制流知识点精讲

2.1 布尔值核心知识点布尔值是表示真假的两种状态，是控制流的基础。True：表示真、成立、肯定。False：表示假、不成立、否定。关键特性布尔值是 Python 的基本数据类型之一，类型为 bool。它们是关键字，必须大写。在数值…...

编程新知 2026/4/3 1:08:40

LSM303D六轴IMU驱动开发：I²C底层集成与100Hz高精度运动检测

1. LSM303D传感器驱动库深度解析：面向嵌入式系统的IC底层集成与高精度运动检测实现LSM303D是意法半导体（STMicroelectronics）推出的超低功耗、高精度六轴惯性测量单元（IMU），集成3轴加速度计与3轴磁力计于单…...

编程新知 2026/4/3 0:42:35

CDA Level-2 考试全攻略：从报名到备考的保姆级教程（含最新题库资源）

CDA Level-2 考试全攻略：从报名到备考的保姆级教程最近两年数据分析师认证热度持续攀升，CDA认证作为国内认可度较高的专业证书之一，Level-2考试通过率常年维持在40%左右。不同于Level-1的基础考核，Level-2更注重实际分析能力与统…...

编程新知 2026/4/2 23:12:57

手把手教你用FBRT-YOLO在VisDrone数据集上跑出SOTA：从环境配置到模型推理的保姆级教程

手把手教你用FBRT-YOLO在VisDrone数据集上跑出SOTA：从环境配置到模型推理的保姆级教程航拍图像目标检测一直是计算机视觉领域的难点，尤其是小目标检测问题。无人机拍摄的图像分辨率高、目标密集且尺寸小，传统检测算法往往难以兼顾精度和速度…...

编程新知 2026/4/2 22:15:55

1. 背景介绍

2. 核心概念与联系

3. 核心算法原理和具体操作步骤

相关文章：