当前位置：首页 > article >正文

机器学习的一百个概念（3）上采样

article 2026/2/16 6:48:02

前言

本文隶属于专栏《机器学习的一百个概念》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！

本专栏目录结构和参考文献请见[《机器学习的一百个概念》

ima 知识库

知识库广场搜索：

知识库	创建人
机器学习	@Shockang
机器学习数学基础	@Shockang
深度学习	@Shockang

正文

在这里插入图片描述

🎯 基础概念与应用场景

1.1 什么是上采样?

上采样(Oversampling)是机器学习中解决类别不平衡问题的关键技术之一。其核心思想是通过增加少数类样本的数量,使数据集中各类别的样本数量趋于平衡,从而提高模型对少数类的学习能力。

在这里插入图片描述

1.2 应用场景

上采样技术在以下场景中特别有价值:

🏦 金融风控
- 信用卡欺诈检测(欺诈样本占比<0.1%)
- 贷款违约预测(违约样本通常<5%)
🏥 医疗诊断
- 罕见疾病识别
- 医学图像异常检测
🔍 异常检测
- 工业设备故障预测
- 网络安全入侵检测
📱 用户行为分析
- 用户流失预警
- 精准营销响应预测

🚀 上采样技术的演进

2.1 技术发展历程

在这里插入图片描述

2.2 核心技术分类

传统采样方法
- Random Oversampling
- SMOTE及其变体
- ADASYN
现代智能采样方法
- 基于GAN的采样
- 自适应动态采样
- 深度学习结合采样

🛠 主流上采样方法详解

3.1 SMOTE算法原理

SMOTE(Synthetic Minority Over-sampling Technique)是最经典的上采样算法之一。其工作流程如下:

在这里插入图片描述

核心公式:
$X_{new} = X_i + \lambda \times (X_{knn} - X_i)$
其中:

$X_i$ 为原始少数类样本
$X_{knn}$ 为选择的近邻样本
$\lambda$ 为0到1之间的随机数

3.2 ADASYN算法

ADASYN(Adaptive Synthetic Sampling)是SMOTE的改进版本,其特点是根据样本分布自适应地生成新样本。

关键改进:

引入密度分布权重
自适应样本生成数量
关注难分样本

计算密度比:
$r_i = \frac{\Delta_i}{K}$
其中:

$\Delta_i$ 为K近邻中多数类样本数
$K$ 为近邻总数

3.3 基于GAN的上采样

生成对抗网络(GAN)在上采样中的应用:

在这里插入图片描述

优势:

生成样本质量高
可保持复杂特征
具有更好的泛化性

💡 实践应用与案例分析

4.1 信用卡欺诈检测案例

实验数据特征:

总样本量: 284,807
欺诈交易: 492 (0.17%)
正常交易: 284,315

性能对比:

方法	准确率	召回率	F1分数
原始数据	0.999	0.642	0.781
SMOTE	0.997	0.893	0.874
ADASYN	0.996	0.901	0.882
GAN采样	0.998	0.912	0.891

4.2 代码实现示例

from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split
import numpy as np# 创建SMOTE对象
smote = SMOTE(random_state=42)# 应用SMOTE
X_resampled, y_resampled = smote.fit_resample(X, y)# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X_resampled, y_resampled, test_size=0.2, random_state=42
)

📊 性能评估与优化建议

5.1 评估指标选择

在不平衡数据集中,应重点关注:

ROC曲线与AUC值
PR曲线(Precision-Recall)
F1分数
Cohen’s Kappa系数

5.2 交叉验证策略

在这里插入图片描述

5.3 参数优化建议

SMOTE参数调优:
- k_neighbors: 5-10
- sampling_strategy: auto/dict
- random_state: 固定随机种子
集成策略:
- Bagging与上采样结合
- Boosting与上采样结合
- 投票/堆叠集成

⚠️ 常见陷阱与解决方案

6.1 数据泄露问题

避免在整个数据集上进行上采样,正确流程:

在这里插入图片描述

6.2 过拟合防护

数据增强技术:
- 添加噪声
- 特征扰动
- 随机旋转/平移
正则化策略:
- L1/L2正则化
- Dropout
- Early Stopping

6.3 样本质量控制

异常检测:
- IsolationForest
- LocalOutlierFactor
- One-Class SVM
质量评估指标:
- 样本间距离分布
- 特征空间覆盖率
- 类内方差分析

🔮 总结与展望

7.1 技术选择建议

根据数据特征选择合适的上采样方法:

场景特征	推荐方法	原因
小数据集	SMOTE/ADASYN	实现简单,效果可控
高维数据	GAN/VAE	更好的特征学习能力
时序数据	时序SMOTE	保持时序特性
图像数据	条件GAN	保持视觉特征

7.2 未来发展趋势

🤖 与深度学习深度融合
- 自编码器结合
- 对抗生成网络优化
- 迁移学习应用
📈 自适应动态采样
- 在线学习支持
- 实时调整策略
- 多目标优化
🎯 可解释性增强
- 样本生成过程可视化
- 质量评估体系完善
- 决策依据透明化

7.3 实践建议

数据预处理
- 特征工程先行
- 异常值处理
- 标准化/归一化
采样策略
- 逐步增加采样比例
- 多种方法对比
- 交叉验证验证
模型选择
- 从简单模型开始
- 逐步增加复杂度
- 集成学习考虑

机器学习的一百个概念（3）上采样

前言本文隶属于专栏《机器学习的一百个概念》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！ 本专栏目录结构和参考文献请见[《机器学习的一百个概念》 ima 知识库知识库广场搜索&…...

编程日记 2026/2/16 6:48:02

Electron应用生命周期全解析：从启动到退出的精准掌控

一、Electron生命周期的核心特征 1.1 双进程架构的生命周期差异 Electron应用的生命周期管理具有明显的双进程特征： 主进程生命周期：贯穿应用启动到退出的完整周期渲染进程生命周期：与浏览器标签页相似但具备扩展能力进程间联动周期&#…...

编程日记 2025/12/12 4:09:32

AI渗透测试：网络安全的“黑魔法”还是“白魔法”？

引言：AI渗透测试，安全圈的“新魔法师” 想象一下，你是个网络安全新手，手里攥着一堆工具，正准备硬着头皮上阵。这时，AI蹦出来，拍着胸脯说：“别慌，我3秒扫完漏洞&#xff0…...

编程日记 2025/4/20 15:25:37

分秒计数器设计

一、在VsCode中写代码目录一、在VsCode中写代码二、在Quartus中创建工程与仿真 1、建立工程项目文件md_counter 2、打开项目文件，创建三个目录 3、打开文件trl，创建md_counter.v文件 4、打开文件tb，创建md_counter_tb.v文件 5、用VsCod…...

编程日记 2026/2/15 22:34:31

Flink介绍——发展历史

引入我们整个大数据处理里面的计算模式主要可以分为以下四种： 批量计算（batch computing） MapReduce Hive Spark Flink pig流式计算（stream computing） Storm SparkStreaming/StructuredStreaming Flink Samza交互计…...

编程日记 2026/2/16 19:56:59

12. STL的原理

目录 1. 容器、迭代器、算法什么是迭代器? 迭代器的作用？ 迭代器的类型？ 迭代器失效迭代器的实现细节： 2. 适配器什么是适配器？ 适配器种类： 3. 仿函数什么是仿函数？ 仿函数与算法和容器的…...

编程日记 2026/2/16 1:53:26

OSPFv3 的 LSA 详解

一、复习： OSPFv3 运行于 IPv6 协议上，所以是基于链路，而不是基于网段，它实现了拓扑和网络的分离。另外，支持一个链路上多个进程；支持泛洪范围标记和泛洪不识别的报文（ospfv2 的行为是丢弃&…...

编程日记 2026/2/15 16:12:18

python 原型链污染学习

复现SU的时候遇到一道python原型链污染的题，借此机会学一下参考： 【原型链污染】Python与Jshttps://blog.abdulrah33m.com/prototype-pollution-in-python/pydash原型链污染文章目录基础知识对父类的污染命令执行对子类的污染pydash原型链污染打污染的…...

编程日记 2026/2/16 1:53:36

Windows 图形显示驱动开发-WDDM 2.4功能-GPU 半虚拟化（十一）

注册表设置 GPU虚拟化标志 GpuVirtualizationFlags 注册表项用于设置半虚拟化 GPU 的行为。密钥位于： DWORD HKLM\System\CurrentControlSet\Control\GraphicsDrivers\GpuVirtualizationFlags 定义了以下位： 位描述0x1 为所有硬件适配器强制设置…...

编程日记 2025/11/24 21:49:22

入栈操作-出栈操作

入栈操作其入栈操作汇编代码流程解析如下： 出栈操作其出栈操作汇编代码流程解析如下：...

编程日记 2026/2/16 1:26:01

C++ 多态：面向对象编程的核心概念（一）

文章目录引言1. 多态的概念2. 多态的定义和实现2.1 实现多态的条件2.2 虚函数2.3 虚函数的重写/覆盖2.4 虚函数重写的一些其他问题2.5 override 和 final 关键字2.6 重载/重写/隐藏的对比 3. 纯虚函数和抽象类引言多态是面向对象编程的三大特性之一（封装、继承、…...

编程日记 2026/2/15 14:58:58

传统策略梯度方法的弊端与PPO的改进：稳定性与样本效率的提升

为什么传统策略梯度方法（如REINFORCE算法）在训练过程中存在不稳定性和样本效率低下的问题 1. 传统策略梯度方法的基本公式传统策略梯度方法的目标是最大化累积奖励的期望值。具体来说，优化目标可以表示为： max ⁡ θ J ( θ )…...

编程日记 2026/2/15 11:25:01

我的机器学习学习之路

学习python的初衷 • hi，今天给朋友们分享一下我是怎么从0基础开始学习机器学习的。 • 我是2023年9月开始下定决心要学python的，目的有两个，一是为了提升自己的技能和价值，二是将所学的知识应用到工作中去，提升工作…...

编程日记 2026/2/15 6:46:38

Spring Boot 的自动装配

Spring Boot 的自动装配（Auto Configuration）是其核心特性之一，通过智能化的条件判断和配置加载机制，极大简化了传统 Spring 应用的配置复杂度。其原理和实现过程可概括为以下几个关键点： 一、核心触发机制&#xff1a…...

编程日记 2026/2/13 7:15:40

Python数据可视化-第3章-图表辅助元素的定制

教材本书为《Python数据可视化》一书的配套内容，本章为第3章-图表辅助元素的定制本章主要介绍了图表辅助元素的定制，包括认识常用的辅助元素、设置坐标轴的标签、设置刻度范围和刻度标签、添加标题和图例、显示网格、添加参考线和参考区域、添加注释文…...

编程日记 2026/2/15 23:52:41

`git commit --amend` 详解：修改提交记录的正确方式

文章目录 git commit --amend 详解：修改提交记录的正确方式1. 修改提交信息2. 补充遗漏的文件3. 结合 --amend 进行交互式修改4. 已推送提交的修改总结 git commit --amend 详解：修改提交记录的正确方式 git commit --amend 用于修改最近一次的提交&…...

编程日记 2026/2/13 18:46:03

Linux系统下C语言fork函数使用案例

一、fork函数的作用生成一个子进程，异步执行某个任务； 二、子进程的作用 1、子进程能复制一份父进程的变量、函数； 2、子进程可以和父进程同时并发执行； 函数语法： pid_t fork() 说明：调用后返回一个进程…...

编程日记 2026/2/15 18:53:48

springboot实现异步导入Excel的注意点

springboot实现异步导入Excel 需求前言异步导入面临的问题实现异步如何导入大Excel文件避免OOM？异步操作后，如何通知导入结果？如何加快导入效率？将导入结果通知给用户后，如何避免重复通知？ 优化点完结撒花&…...

编程日记 2026/2/16 4:51:26

Linux练习——有关硬盘、联网、软件包的管理

1、将你的虚拟机的网卡模式设置为nat模式，给虚拟机网卡配置三个主机位分别为100、200、168的ip地址 #使用nmtui打开文本图形界面配置网络 [rootrhcsa0306 ~]# nmtui #使用命令激活名为 ens160 的 NetworkManager 网络连接 [rootrhcsa0306 ~]# nmcli c up ens160 #通…...

编程日记 2026/2/15 13:27:26

论文阅读：GS-Blur: A 3D Scene-Based Dataset for Realistic Image Deblurring

今天介绍一篇 2024 NeurIPS 的文章，是关于真实世界去模糊任务的数据集构建的工作，论文作者来自韩国首尔大学 Abstract 要训练去模糊网络，拥有一个包含成对模糊图像和清晰图像的合适数据集至关重要。现有的数据集收集模糊图像的方式主要有两…...

编程日记 2026/2/15 11:18:40

经典动态规划问题：爬楼梯的多种解法详解

引言今天我们要解决一个经典的算法问题——爬楼梯问题。这个问题看似简单，但蕴含了多种解法，从递归到动态规划，再到组合数学，每种方法都有其独特的思路和优化方式。本文将详细讲解四种解法，并通过代码和图解帮助大家…...

编程日记 2025/7/2 6:58:50

Kubernetes深度解析：云原生时代的容器编排引擎

一、背景与演进 1. 容器革命的必然产物 Kubernetes（K8s）诞生于2014年，是Google基于其内部Borg系统的开源实现。在传统单体应用向微服务架构转型的浪潮中，容器技术（如Docker）解决了应用打包和环境隔离问题…...

编程日记 2026/2/15 19:27:59

Cocos Creator Shader入门实战(七)：RGB不同算法效果的实现，及渲染技术、宏定义、属性参数的延伸配置

引擎：3.8.5 您好，我是鹤九日！ 回顾上篇文章，讲解了Cocos Shader如何通过setProperty动态设置材质的属性，以及设置属性时候的一些注意事项，比如： 一、CCEffect部分properties参数的设定后&…...

编程日记 2026/2/15 16:12:15

leetcode102 二叉树的层次遍历递归

(1) 找出重复的子问题。层次遍历是每一层的节点从左到右的遍历，所以在遍历的时候我们可以先遍历左子树，再遍历右子树。需要注意的是，在遍历左子树或者右子树的时候，涉及到向上或者向下遍历，为了让递归的过程中的同…...

编程日记 2026/2/14 7:50:51

大纲 1.什么是时间轮 2.HashedWheelTimer是什么 3.HashedWheelTimer的使用 4.HashedWheelTimer的运行流程 5.HashedWheelTimer的核心字段 6.HashedWheelTimer的构造方法 7.HashedWheelTimer添加任务和执行任务 8.HashedWheelTimer的完整源码 9.HashedWheelTimer的总结…...

编程日记 2026/2/14 7:17:08

算法学习记录：递归

递归算法的关键在于回复现场，dfs（）函数返回值、结束条件、它的作用。目录 1.综合练习 2. 二叉树的深搜 1.综合练习 39. 组合总和 - 力扣（LeetCode） 关键在画出的决策树当中，前面使用过的2、3，…...

编程日记 2026/2/15 20:56:39

启山智软实现b2c单商户商城对比传统单商户的优势在哪里？

启山智软实现 B2C 单商户商城具有以下对比优势： 技术架构方面先进的框架选型：基于 SpringCloud 等主流框架开发，是百万真实用户沉淀并检验的商城系统，技术成熟稳定，能应对高并发场景，保证系统在大流量访…...

编程日记 2026/2/14 9:06:47

可发1区的超级创新思路（python\matlab实现）：MPTS+Lconv+注意力集成机制的Transformer时间序列模型

首先声明，该模型为原创！原创！原创！且该思路还未有成果发表，感兴趣的小伙伴可以借鉴！应用场景该模型主要用于时间序列数据预测问题，包含功率预测、电池寿命预测、电机故障检测等等。一、模型整体架构（本文以光伏功率预测为例）本模型由多尺度特征提取模块（MPTS）…...

编程日记 2026/2/16 4:51:49

三、分类模块，通用组件顶部导航栏Navbar

1.封装通用组件顶部导航栏Navbar 不同效果 Component export struct MkNavbar {Prop title: string Prop leftIcon: ResourceStr $r("app.media.ic_public_left")ProprightIcon: ResourceStr $r("app.media.ic_public_more")PropshowLeftIcon: boolean…...

编程日记 2026/2/13 22:40:23

PHY——LAN8720A 寄存器读写 (二)

文章目录 PHY——LAN8720A 寄存器读写 (二)工程配置引脚初始化代码以太网初始化代码PHY 接口实现LAN8720 接口实现PHY 接口测试 PHY——LAN8720A 寄存器读写 (二) 工程配置这里以野火电子的 F429 开发板为例，配置以太网外设这里有一点需要注意原理图 RMII_TXD0…...

编程日记 2026/2/15 16:22:23

前言

ima 知识库

正文

🎯 基础概念与应用场景

1.1 什么是上采样?

1.2 应用场景

🚀 上采样技术的演进

2.1 技术发展历程

2.2 核心技术分类

🛠 主流上采样方法详解

3.1 SMOTE算法原理

3.2 ADASYN算法

3.3 基于GAN的上采样

💡 实践应用与案例分析

4.1 信用卡欺诈检测案例

4.2 代码实现示例

📊 性能评估与优化建议

5.1 评估指标选择

5.2 交叉验证策略

5.3 参数优化建议

⚠️ 常见陷阱与解决方案

6.1 数据泄露问题

6.2 过拟合防护

6.3 样本质量控制

🔮 总结与展望

7.1 技术选择建议

7.2 未来发展趋势

7.3 实践建议

相关文章：