机器学习的一百个概念(3)上采样
前言
本文隶属于专栏《机器学习的一百个概念》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!
本专栏目录结构和参考文献请见[《机器学习的一百个概念》
ima 知识库
知识库广场搜索:
| 知识库 | 创建人 |
|---|---|
| 机器学习 | @Shockang |
| 机器学习数学基础 | @Shockang |
| 深度学习 | @Shockang |
正文

🎯 基础概念与应用场景
1.1 什么是上采样?
上采样(Oversampling)是机器学习中解决类别不平衡问题的关键技术之一。其核心思想是通过增加少数类样本的数量,使数据集中各类别的样本数量趋于平衡,从而提高模型对少数类的学习能力。

1.2 应用场景
上采样技术在以下场景中特别有价值:
-
🏦 金融风控
- 信用卡欺诈检测(欺诈样本占比<0.1%)
- 贷款违约预测(违约样本通常<5%)
-
🏥 医疗诊断
- 罕见疾病识别
- 医学图像异常检测
-
🔍 异常检测
- 工业设备故障预测
- 网络安全入侵检测
-
📱 用户行为分析
- 用户流失预警
- 精准营销响应预测
🚀 上采样技术的演进
2.1 技术发展历程

2.2 核心技术分类
-
传统采样方法
- Random Oversampling
- SMOTE及其变体
- ADASYN
-
现代智能采样方法
- 基于GAN的采样
- 自适应动态采样
- 深度学习结合采样
🛠 主流上采样方法详解
3.1 SMOTE算法原理
SMOTE(Synthetic Minority Over-sampling Technique)是最经典的上采样算法之一。其工作流程如下:

核心公式:
X n e w = X i + λ × ( X k n n − X i ) X_{new} = X_i + \lambda \times (X_{knn} - X_i) Xnew=Xi+λ×(Xknn−Xi)
其中:
- X i X_i Xi 为原始少数类样本
- X k n n X_{knn} Xknn 为选择的近邻样本
- λ \lambda λ 为0到1之间的随机数
3.2 ADASYN算法
ADASYN(Adaptive Synthetic Sampling)是SMOTE的改进版本,其特点是根据样本分布自适应地生成新样本。
关键改进:
- 引入密度分布权重
- 自适应样本生成数量
- 关注难分样本
计算密度比:
r i = Δ i K r_i = \frac{\Delta_i}{K} ri=KΔi
其中:
- Δ i \Delta_i Δi 为K近邻中多数类样本数
- K K K 为近邻总数
3.3 基于GAN的上采样
生成对抗网络(GAN)在上采样中的应用:

优势:
- 生成样本质量高
- 可保持复杂特征
- 具有更好的泛化性
💡 实践应用与案例分析
4.1 信用卡欺诈检测案例
实验数据特征:
- 总样本量: 284,807
- 欺诈交易: 492 (0.17%)
- 正常交易: 284,315
性能对比:
| 方法 | 准确率 | 召回率 | F1分数 |
|---|---|---|---|
| 原始数据 | 0.999 | 0.642 | 0.781 |
| SMOTE | 0.997 | 0.893 | 0.874 |
| ADASYN | 0.996 | 0.901 | 0.882 |
| GAN采样 | 0.998 | 0.912 | 0.891 |
4.2 代码实现示例
from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split
import numpy as np# 创建SMOTE对象
smote = SMOTE(random_state=42)# 应用SMOTE
X_resampled, y_resampled = smote.fit_resample(X, y)# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X_resampled, y_resampled, test_size=0.2, random_state=42
)
📊 性能评估与优化建议
5.1 评估指标选择
在不平衡数据集中,应重点关注:
- ROC曲线与AUC值
- PR曲线(Precision-Recall)
- F1分数
- Cohen’s Kappa系数
5.2 交叉验证策略

5.3 参数优化建议
-
SMOTE参数调优:
- k_neighbors: 5-10
- sampling_strategy: auto/dict
- random_state: 固定随机种子
-
集成策略:
- Bagging与上采样结合
- Boosting与上采样结合
- 投票/堆叠集成
⚠️ 常见陷阱与解决方案
6.1 数据泄露问题
避免在整个数据集上进行上采样,正确流程:

6.2 过拟合防护
-
数据增强技术:
- 添加噪声
- 特征扰动
- 随机旋转/平移
-
正则化策略:
- L1/L2正则化
- Dropout
- Early Stopping
6.3 样本质量控制
-
异常检测:
- IsolationForest
- LocalOutlierFactor
- One-Class SVM
-
质量评估指标:
- 样本间距离分布
- 特征空间覆盖率
- 类内方差分析
🔮 总结与展望
7.1 技术选择建议
根据数据特征选择合适的上采样方法:
| 场景特征 | 推荐方法 | 原因 |
|---|---|---|
| 小数据集 | SMOTE/ADASYN | 实现简单,效果可控 |
| 高维数据 | GAN/VAE | 更好的特征学习能力 |
| 时序数据 | 时序SMOTE | 保持时序特性 |
| 图像数据 | 条件GAN | 保持视觉特征 |
7.2 未来发展趋势
-
🤖 与深度学习深度融合
- 自编码器结合
- 对抗生成网络优化
- 迁移学习应用
-
📈 自适应动态采样
- 在线学习支持
- 实时调整策略
- 多目标优化
-
🎯 可解释性增强
- 样本生成过程可视化
- 质量评估体系完善
- 决策依据透明化
7.3 实践建议
-
数据预处理
- 特征工程先行
- 异常值处理
- 标准化/归一化
-
采样策略
- 逐步增加采样比例
- 多种方法对比
- 交叉验证验证
-
模型选择
- 从简单模型开始
- 逐步增加复杂度
- 集成学习考虑
相关文章:
机器学习的一百个概念(3)上采样
前言 本文隶属于专栏《机器学习的一百个概念》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见[《机器学习的一百个概念》 ima 知识库 知识库广场搜索&…...
Electron应用生命周期全解析:从启动到退出的精准掌控
一、Electron生命周期的核心特征 1.1 双进程架构的生命周期差异 Electron应用的生命周期管理具有明显的双进程特征: 主进程生命周期:贯穿应用启动到退出的完整周期渲染进程生命周期:与浏览器标签页相似但具备扩展能力进程间联动周期&#…...
AI渗透测试:网络安全的“黑魔法”还是“白魔法”?
引言:AI渗透测试,安全圈的“新魔法师” 想象一下,你是个网络安全新手,手里攥着一堆工具,正准备硬着头皮上阵。这时,AI蹦出来,拍着胸脯说:“别慌,我3秒扫完漏洞࿰…...
分秒计数器设计
一、在VsCode中写代码 目录 一、在VsCode中写代码 二、在Quartus中创建工程与仿真 1、建立工程项目文件md_counter 2、打开项目文件,创建三个目录 3、打开文件trl,创建md_counter.v文件 4、打开文件tb,创建md_counter_tb.v文件 5、用VsCod…...
Flink介绍——发展历史
引入 我们整个大数据处理里面的计算模式主要可以分为以下四种: 批量计算(batch computing) MapReduce Hive Spark Flink pig流式计算(stream computing) Storm SparkStreaming/StructuredStreaming Flink Samza交互计…...
12. STL的原理
目录 1. 容器、迭代器、算法 什么是迭代器? 迭代器的作用? 迭代器的类型? 迭代器失效 迭代器的实现细节: 2. 适配器 什么是适配器? 适配器种类: 3. 仿函数 什么是仿函数? 仿函数与算法和容器的…...
OSPFv3 的 LSA 详解
一、复习: OSPFv3 运行于 IPv6 协议上,所以是基于链路,而不是基于网段,它实现了拓扑和网络的分离。另外,支持一个链路上多个进程;支持泛洪范围标记和泛洪不识别的报文(ospfv2 的行为是丢弃&…...
python 原型链污染学习
复现SU的时候遇到一道python原型链污染的题,借此机会学一下参考: 【原型链污染】Python与Jshttps://blog.abdulrah33m.com/prototype-pollution-in-python/pydash原型链污染 文章目录 基础知识对父类的污染命令执行对子类的污染pydash原型链污染打污染的…...
Windows 图形显示驱动开发-WDDM 2.4功能-GPU 半虚拟化(十一)
注册表设置 GPU虚拟化标志 GpuVirtualizationFlags 注册表项用于设置半虚拟化 GPU 的行为。 密钥位于: DWORD HKLM\System\CurrentControlSet\Control\GraphicsDrivers\GpuVirtualizationFlags 定义了以下位: 位描述0x1 为所有硬件适配器强制设置…...
入栈操作-出栈操作
入栈操作 其 入栈操作 汇编代码流程解析如下: 出栈操作 其 出栈操作 汇编代码流程解析如下:...
C++ 多态:面向对象编程的核心概念(一)
文章目录 引言1. 多态的概念2. 多态的定义和实现2.1 实现多态的条件2.2 虚函数2.3 虚函数的重写/覆盖2.4 虚函数重写的一些其他问题2.5 override 和 final 关键字2.6 重载/重写/隐藏的对比 3. 纯虚函数和抽象类 引言 多态是面向对象编程的三大特性之一(封装、继承、…...
传统策略梯度方法的弊端与PPO的改进:稳定性与样本效率的提升
为什么传统策略梯度方法(如REINFORCE算法)在训练过程中存在不稳定性和样本效率低下的问题 1. 传统策略梯度方法的基本公式 传统策略梯度方法的目标是最大化累积奖励的期望值。具体来说,优化目标可以表示为: max θ J ( θ )…...
我的机器学习学习之路
学习python的初衷 • hi,今天给朋友们分享一下我是怎么从0基础开始学习机器学习的。 • 我是2023年9月开始下定决心要学python的,目的有两个,一是为了提升自己的技能和价值,二是将所学的知识应用到工作中去,提升工作…...
Spring Boot 的自动装配
Spring Boot 的自动装配(Auto Configuration)是其核心特性之一,通过智能化的条件判断和配置加载机制,极大简化了传统 Spring 应用的配置复杂度。其原理和实现过程可概括为以下几个关键点: 一、核心触发机制:…...
Python数据可视化-第3章-图表辅助元素的定制
教材 本书为《Python数据可视化》一书的配套内容,本章为第3章-图表辅助元素的定制 本章主要介绍了图表辅助元素的定制,包括认识常用的辅助元素、设置坐标轴的标签、设置刻度范围和刻度标签、添加标题和图例、显示网格、添加参考线和参考区域、添加注释文…...
`git commit --amend` 详解:修改提交记录的正确方式
文章目录 git commit --amend 详解:修改提交记录的正确方式1. 修改提交信息2. 补充遗漏的文件3. 结合 --amend 进行交互式修改4. 已推送提交的修改总结 git commit --amend 详解:修改提交记录的正确方式 git commit --amend 用于修改最近一次的提交&…...
Linux系统下C语言fork函数使用案例
一、fork函数的作用 生成一个子进程,异步执行某个任务; 二、子进程的作用 1、子进程能复制一份父进程的变量、函数; 2、子进程可以和父进程同时并发执行; 函数语法: pid_t fork() 说明:调用后返回一个进程…...
springboot实现异步导入Excel的注意点
springboot实现异步导入Excel 需求前言异步导入面临的问题实现异步如何导入大Excel文件避免OOM?异步操作后,如何通知导入结果?如何加快导入效率?将导入结果通知给用户后,如何避免重复通知? 优化点完结撒花&…...
Linux练习——有关硬盘、联网、软件包的管理
1、将你的虚拟机的网卡模式设置为nat模式,给虚拟机网卡配置三个主机位分别为100、200、168的ip地址 #使用nmtui打开文本图形界面配置网络 [rootrhcsa0306 ~]# nmtui #使用命令激活名为 ens160 的 NetworkManager 网络连接 [rootrhcsa0306 ~]# nmcli c up ens160 #通…...
论文阅读:GS-Blur: A 3D Scene-Based Dataset for Realistic Image Deblurring
今天介绍一篇 2024 NeurIPS 的文章,是关于真实世界去模糊任务的数据集构建的工作,论文作者来自韩国首尔大学 Abstract 要训练去模糊网络,拥有一个包含成对模糊图像和清晰图像的合适数据集至关重要。现有的数据集收集模糊图像的方式主要有两…...
经典动态规划问题:爬楼梯的多种解法详解
引言 今天我们要解决一个经典的算法问题——爬楼梯问题。这个问题看似简单,但蕴含了多种解法,从递归到动态规划,再到组合数学,每种方法都有其独特的思路和优化方式。本文将详细讲解四种解法,并通过代码和图解帮助大家…...
Kubernetes深度解析:云原生时代的容器编排引擎
一、背景与演进 1. 容器革命的必然产物 Kubernetes(K8s)诞生于2014年,是Google基于其内部Borg系统的开源实现。在传统单体应用向微服务架构转型的浪潮中,容器技术(如Docker)解决了应用打包和环境隔离问题…...
Cocos Creator Shader入门实战(七):RGB不同算法效果的实现,及渲染技术、宏定义、属性参数的延伸配置
引擎:3.8.5 您好,我是鹤九日! 回顾 上篇文章,讲解了Cocos Shader如何通过setProperty动态设置材质的属性,以及设置属性时候的一些注意事项,比如: 一、CCEffect部分properties参数的设定后&…...
leetcode102 二叉树的层次遍历 递归
(1) 找出重复的子问题。 层次遍历是每一层的节点从左到右的遍历,所以在遍历的时候我们可以先遍历左子树,再遍历右子树。 需要注意的是,在遍历左子树或者右子树的时候,涉及到向上或者向下遍历,为了让递归的过程中的同…...
Netty源码—10.Netty工具之时间轮二
大纲 1.什么是时间轮 2.HashedWheelTimer是什么 3.HashedWheelTimer的使用 4.HashedWheelTimer的运行流程 5.HashedWheelTimer的核心字段 6.HashedWheelTimer的构造方法 7.HashedWheelTimer添加任务和执行任务 8.HashedWheelTimer的完整源码 9.HashedWheelTimer的总结…...
算法学习记录:递归
递归算法的关键在于回复现场,dfs()函数返回值、结束条件、它的作用。 目录 1.综合练习 2. 二叉树的深搜 1.综合练习 39. 组合总和 - 力扣(LeetCode) 关键在画出的决策树当中,前面使用过的2、3,…...
启山智软实现b2c单商户商城对比传统单商户的优势在哪里?
启山智软实现 B2C 单商户商城具有以下对比优势: 技术架构方面 先进的框架选型:基于 SpringCloud 等主流框架开发,是百万真实用户沉淀并检验的商城系统,技术成熟稳定,能应对高并发场景,保证系统在大流量访…...
可发1区的超级创新思路(python\matlab实现):MPTS+Lconv+注意力集成机制的Transformer时间序列模型
首先声明,该模型为原创!原创!原创!且该思路还未有成果发表,感兴趣的小伙伴可以借鉴! 应用场景 该模型主要用于时间序列数据预测问题,包含功率预测、电池寿命预测、电机故障检测等等。 一、模型整体架构(本文以光伏功率预测为例) 本模型由多尺度特征提取模块(MPTS)…...
三、分类模块,通用组件顶部导航栏Navbar
1.封装通用组件顶部导航栏Navbar 不同效果 Component export struct MkNavbar {Prop title: string Prop leftIcon: ResourceStr $r("app.media.ic_public_left")ProprightIcon: ResourceStr $r("app.media.ic_public_more")PropshowLeftIcon: boolean…...
PHY——LAN8720A 寄存器读写 (二)
文章目录 PHY——LAN8720A 寄存器读写 (二)工程配置引脚初始化代码以太网初始化代码PHY 接口实现LAN8720 接口实现PHY 接口测试 PHY——LAN8720A 寄存器读写 (二) 工程配置 这里以野火电子的 F429 开发板为例,配置以太网外设 这里有一点需要注意原理图 RMII_TXD0…...
