当前位置: 首页 > article >正文

WeightedRandomSampler 实战:解决PyTorch数据不平衡问题的关键技巧

1. 数据不平衡问题的真实困扰我清楚地记得第一次遇到数据不平衡问题时的场景。那是一个猫狗猪三分类项目原始数据集中猪的图片占了70%狗20%猫只有可怜的10%。训练出来的模型对猪的识别准确率高达95%但对猫的识别率连30%都不到——这简直是个猪类检测器数据不平衡在真实项目中太常见了金融欺诈检测中正常交易远多于欺诈交易医疗诊断中健康样本远多于患病样本。传统处理方法如欠采样丢掉多数类数据或过采样复制少数类数据都有明显缺陷前者浪费数据后者容易导致过拟合。PyTorch提供的WeightedRandomSampler就是解决这个痛点的利器。它通过给不同类别的样本分配不同采样权重让模型在训练时看到更多少数类样本实现数据分布的自动平衡。下面我会用最直白的方式带你彻底掌握这个神器。2. WeightedRandomSampler原理解析2.1 从抛硬币理解采样原理想象你有一枚神奇的硬币正面朝上的概率是90%反面只有10%。连续抛5次结果可能是[正面,正面,正面,正面,反面]。这就是WeightedRandomSampler的基本思想——通过权重控制每个样本被选中的概率。来看这个代码示例from torch.utils.data import WeightedRandomSampler # 权重列表[0的概率是10%1的概率是90%] samples list(WeightedRandomSampler([1, 9], 5, replacementTrue)) print(samples) # 可能输出[1, 0, 1, 1, 1]运行多次你会发现数字1出现的频率明显高于0每次结果都不完全相同这就是随机采样总样本数保持为5第二个参数2.2 权重计算的数学本质关键公式其实很简单某个样本被采样的概率 该样本权重 / 所有权重总和假设有三个类别的权重分别是[10,5,1.43]那么第一类采样概率 10 / (1051.43) ≈ 60.8%第二类采样概率 5 / 16.43 ≈ 30.4%第三类采样概率 1.43 / 16.43 ≈ 8.7%这样原本占比70%的第三类样本在采样后被压缩到了8.7%左右实现了数据平衡。3. 实战中的完整实现流程3.1 计算类别权重的三种方法方法一手动计算倒数权重import numpy as np from collections import Counter # 假设labels是包含所有样本标签的列表 label_counts Counter(labels) total_samples len(labels) class_weights {k: total_samples/v for k,v in label_counts.items()} # 为每个样本分配对应类别的权重 sample_weights [class_weights[label] for label in labels]方法二使用sklearn自动计算from sklearn.utils.class_weight import compute_sample_weight sample_weights compute_sample_weight(balanced, labels)方法三对数缩放适合极端不平衡数据import math class_weights {k: 1/math.log(v) for k,v in label_counts.items()}3.2 与DataLoader的集成技巧正确初始化Sampler后关键是要注意两个参数sampler WeightedRandomSampler( weightssample_weights, num_sampleslen(sample_weights)*2, # 通常设为原数据量的1-2倍 replacementTrue # 必须设为True才能实现过采样 ) train_loader DataLoader( datasettrain_dataset, batch_size32, samplersampler, # 使用sampler时不要加shuffle参数 num_workers4, pin_memoryTrue )常见踩坑点忘记设置replacementTrue会导致采样失败同时使用sampler和shuffle会造成冲突num_samples设置过小会导致欠采样4. 高级应用与效果调优4.1 动态权重调整策略在训练过程中我们可以根据模型表现动态调整权重。比如当模型对某个类别的识别率持续偏低时可以增加该类别的采样权重def dynamic_weight_adjustment(current_accuracy): if current_accuracy 0.5: return 2.0 # 加倍权重 elif current_accuracy 0.7: return 1.5 else: return 1.0 # 每个epoch后更新权重 for epoch in range(epochs): train_model() acc evaluate_model() new_weights [w * dynamic_weight_adjustment(acc) for w in sample_weights] train_loader.sampler.weights new_weights4.2 与其他技术的组合使用组合方案一WeightedRandomSampler 类别权重# 在损失函数中也加入类别权重 class_weights torch.FloatTensor([10,5,1.43]).to(device) criterion nn.CrossEntropyLoss(weightclass_weights)组合方案二采样器 数据增强transform transforms.Compose([ transforms.RandomHorizontalFlip(), transforms.RandomRotation(15), transforms.ToTensor() ])实测效果对比方法猫类准确率狗类准确率猪类准确率原始数据28%65%95%仅采样器72%85%89%采样器损失权重78%83%87%全方案组合82%86%88%5. 避坑指南与最佳实践5.1 必须避免的五个错误权重计算错误直接使用类别数量而非比例倒数# 错误写法 class_weights {k: v for k,v in label_counts.items()} # 正确写法 class_weights {k: total_samples/v for k,v in label_counts.items()}采样数量不合理num_samples小于数据集大小却设置replacementFalse内存泄漏问题在Windows系统下忘记设置num_workers0验证集污染在验证集上也使用采样器验证集应保持原始分布权重归一化缺失当各类别权重差异过大时应先做归一化处理5.2 性能优化技巧预计算权重在__init__中提前计算好所有样本权重避免每个epoch重复计算使用GPU加速将权重张量放到GPU上sample_weights torch.FloatTensor(sample_weights).to(device)批次平衡确保每个batch内都包含所有类别的样本batch_sampler BatchBalanceSampler(sampler, batch_size32, n_classes3)我在实际项目中发现对于特别大的数据集超过100万样本可以先用numpy计算权重再转换为torch张量速度能提升3-5倍。另外当类别数超过100时建议使用对数缩放而非直接倒数避免某些类别的权重过小。

相关文章:

WeightedRandomSampler 实战:解决PyTorch数据不平衡问题的关键技巧

1. 数据不平衡问题的真实困扰 我清楚地记得第一次遇到数据不平衡问题时的场景。那是一个猫狗猪三分类项目,原始数据集中猪的图片占了70%,狗20%,猫只有可怜的10%。训练出来的模型对猪的识别准确率高达95%,但对猫的识别率连30%都不到…...

云容笔谈多风格作品对比展示:从写实到水墨的东方美学演绎

云容笔谈多风格作品对比展示:从写实到水墨的东方美学演绎 最近在尝试用AI生成一些东方主题的图片,发现了一个挺有意思的现象:同一个主题,换一个风格词,出来的效果天差地别。这让我想起了“云容笔谈”这个系统&#xf…...

老牌代理软件的致命伤:用Python 3分钟自动化检测CCProxy溢出漏洞

Python自动化检测CCProxy漏洞的技术解析 漏洞背景与原理 CCProxy作为一款广泛使用的代理服务器软件,其6.2版本存在一个典型的栈溢出漏洞。这个漏洞的核心问题在于软件对用户输入数据的长度缺乏有效验证,导致攻击者可以通过构造超长字符串覆盖函数返回地址…...

告别手动配置,快马生成高效openclaw自动化安装脚本提升工作效率

最近在团队里搞开发环境标准化,遇到一个挺头疼的问题:每次有新同事入职,或者自己换电脑、重装系统,搭建 OpenClaw 这个开发环境都得折腾半天。手动去官网找下载链接、检查依赖、配置 IDE……一套流程下来,少说也得半小…...

SAP Smartform打印格式设置保姆级教程:从SPAD创建页格式到设备类型关联

SAP Smartform打印格式深度定制指南:从SPAD页格式创建到设备类型实战关联 在SAP项目实施过程中,报表打印格式的适配往往是最后一道工序,却直接影响着业务交付的专业度。当标准A4纸张无法满足特殊业务场景(如物流标签、发票联单或定…...

如何解决CKEditor编辑器粘贴Word文档时公式乱码的问题?

企业网站后台管理系统富文本编辑器插件集成项目记录 项目背景与需求分析 作为南京某集团公司项目负责人,我们近期在企业网站后台管理系统升级项目中遇到了一项关键需求:需要为现有的文章发布模块增加高级文档处理功能。具体需求如下: 功能需…...

3DDFA:如何用单张图片实现高精度三维人脸重建

3DDFA:如何用单张图片实现高精度三维人脸重建 【免费下载链接】3DDFA The PyTorch improved version of TPAMI 2017 paper: Face Alignment in Full Pose Range: A 3D Total Solution. 项目地址: https://gitcode.com/gh_mirrors/3d/3DDFA 3DDFA是一个基于Py…...

StructBERT情感分类模型在旅游评论分析中的创新应用

StructBERT情感分类模型在旅游评论分析中的创新应用 1. 引言 "这家酒店的海景房真的太棒了!早上醒来就能看到日出,就是WiFi信号有点不太稳定..." 如果你在旅游平台看到这样的评论,会怎么判断游客的整体体验?是正面还…...

完整指南:如何使用My-TODOs免费桌面待办工具提升工作效率

完整指南:如何使用My-TODOs免费桌面待办工具提升工作效率 【免费下载链接】My-TODOs A cross-platform desktop To-Do list. 跨平台桌面待办小工具 项目地址: https://gitcode.com/gh_mirrors/my/My-TODOs My-TODOs是一款基于PyQt-SiliconUI技术栈开发的跨平…...

Nunchaku-FLUX.1-dev多轮迭代生成:基于上一张图反馈优化下一轮提示词

Nunchaku-FLUX.1-dev多轮迭代生成:基于上一张图反馈优化下一轮提示词 1. 从单次生成到多轮迭代:AI绘画的新玩法 你有没有遇到过这种情况:用AI生成了一张图,感觉“有点那个意思了”,但离你心中完美的画面还差那么一点…...

重拾音乐自由:ncmdumpGUI让你的NCM文件重获新生 | 音乐格式转换与数字权利解放指南

重拾音乐自由:ncmdumpGUI让你的NCM文件重获新生 | 音乐格式转换与数字权利解放指南 【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换,Windows图形界面版本 项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 当你在旅途中想…...

CAD设计文档智能处理:Nanbeige 4.1-3B解析工程图纸说明文本

CAD设计文档智能处理:Nanbeige 4.1-3B解析工程图纸说明文本 1. 引言 如果你在制造业、建筑设计或者机械工程领域工作过,一定对CAD图纸旁边那几十页甚至上百页的技术说明文档不陌生。密密麻麻的文字里,藏着材料规格、工艺要求、公差标准、装…...

Grafbase Gateway部署指南:本地开发与生产环境的最佳实践

Grafbase Gateway部署指南:本地开发与生产环境的最佳实践 【免费下载链接】grafbase The GraphQL platform 项目地址: https://gitcode.com/gh_mirrors/gr/grafbase Grafbase Gateway是一个高性能、Rust驱动的GraphQL Federation网关,专为大规模、…...

SDXL 1.0电影级绘图工坊一文详解:512-1536px分辨率适配策略

SDXL 1.0电影级绘图工坊一文详解:512-1536px分辨率适配策略 1. 项目概述 SDXL 1.0电影级绘图工坊是一款基于Stable Diffusion XL Base 1.0模型的AI绘图工具,专门为RTX 4090显卡优化设计。该工具充分利用4090显卡的24G大显存,直接将完整模型…...

深入解析Cisco Firepower 2100系列:FDM与FMC管理FTD的实战对比

1. 认识Cisco Firepower 2100系列与FTD管理方式 如果你正在考虑部署Cisco Firepower 2100系列防火墙,或者已经在使用但对管理方式感到困惑,这篇文章就是为你准备的。Firepower 2100是思科推出的下一代防火墙硬件平台,它最大的特点就是可以运行…...

医疗健康领域的TFT实战:用Temporal Fusion Transformer预测疾病进展(含完整代码)

医疗健康领域的TFT实战:用Temporal Fusion Transformer预测疾病进展(含完整代码) 在医疗健康领域,时间序列预测技术正逐渐成为辅助临床决策的重要工具。从慢性病管理到术后康复监测,医护人员每天都需要处理大量随时间变…...

探索前沿技术趋势:2024年最具潜力的创新方向

1. 多模态AI的爆发式增长 2024年最让我兴奋的技术趋势,莫过于多模态AI的全面升级。简单来说,就是让AI能同时处理文字、图像、音频、视频等多种信息形式。这就像给AI装上了"全感官系统",让它更接近人类的认知方式。 去年我用过几个单…...

GPT-oss:20b性能实测:在普通设备上的响应速度与生成质量

GPT-oss:20b性能实测:在普通设备上的响应速度与生成质量 1. 开篇介绍 GPT-oss:20b是OpenAI推出的重量级开放模型,总参数量达到210亿(活跃参数36亿)。这个模型面向强推理、智能体任务以及多样化开发场景,经过专门优化…...

创业公司也能用的战略管理:拆解华为DSTE中的BLM与BEM,搞定从规划到考核

创业公司也能用的战略管理:拆解华为DSTE中的BLM与BEM,搞定从规划到考核 创业公司最不缺的就是想法和冲劲,但往往缺少一套系统的方法论,将零散的战略思考转化为可执行的行动计划。很多初创团队在战略管理上陷入两个极端&#xff1a…...

避开这些坑!大模型评测中90%人会犯的3个方法论错误

避开这些坑!大模型评测中90%人会犯的3个方法论错误 当你在GitHub上看到一个最新开源大模型的评测结果排名第一,是否立刻想把它集成到自己的产品中?别急——你可能正踩进大模型评测最常见的认知陷阱。去年我们团队在客户服务场景中测试了7个榜…...

LightOnOCR-2-1B实战案例:出版社古籍数字化项目OCR+校对辅助工具链

LightOnOCR-2-1B实战案例:出版社古籍数字化项目OCR校对辅助工具链 1. 项目背景与需求 古籍数字化是文化传承的重要工作,但传统OCR技术在古籍识别上面临巨大挑战。古籍文字往往存在以下特点: 字体多样:楷书、行书、草书等不同书…...

论文查重焦虑终结者:PaperXie 降重复 | AIGC 率功能全解析,让学术成果安全过关

paperxie-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/aippthttps://www.paperxie.cn/weight?type1https://www.paperxie.cn/weight?type1 毕业季的论文战场里,“重复率” 和 “AIGC 疑似度” 是悬在每一位本科生、研究生头顶的两把利剑。熬夜写完…...

达梦数据库大小写敏感问题实战:如何快速解决[-3209]报错(附CASE_SENSITIVE参数详解)

达梦数据库大小写敏感问题实战:如何快速解决[-3209]报错(附CASE_SENSITIVE参数详解) 在数据库迁移和运维过程中,达梦数据库的大小写敏感问题常常成为开发者的"隐形杀手"。特别是当项目从测试环境迁移到生产环境时&#…...

Score-based Model实战:从零开始理解并实现一个简单的生成模型(附PyTorch代码)

从理论到代码:Score-based Model生成模型实战指南 生成式AI正在重塑内容创作的边界,而Score-based Model作为扩散模型家族的重要成员,提供了一种全新的数据生成范式。与传统的GAN和VAE不同,它通过直接学习数据分布的梯度场&#x…...

设备指纹重构方案:突破AI编程工具试用限制的技术实现

设备指纹重构方案:突破AI编程工具试用限制的技术实现 【免费下载链接】cursor-free-vip [Support 0.45](Multi Language 多语言)自动注册 Cursor Ai ,自动重置机器ID , 免费升级使用Pro 功能: Youve reached your tria…...

Qwen3-0.6B-FP8模型压缩与量化原理:从FP32到FP8的演进之路

Qwen3-0.6B-FP8模型压缩与量化原理:从FP32到FP8的演进之路 1. 引言 如果你最近在关注大模型部署,可能会发现一个有趣的现象:一些模型的名字后面开始出现“FP8”这样的后缀。比如我们今天要聊的Qwen3-0.6B-FP8。这听起来有点技术&#xff0c…...

Python解释器下载安装全攻略:从官网到网盘,手把手教你避开常见坑

Python解释器下载安装全攻略:从官网到网盘,手把手教你避开常见坑 第一次接触Python编程时,下载安装解释器这个看似简单的步骤,往往会成为新手遇到的第一个"拦路虎"。记得我刚开始学习Python时,光是选择正确的…...

cv_resnet50_face-reconstruction多行业应用:数字人建模/法医复原/虚拟试妆场景解析

cv_resnet50_face-reconstruction多行业应用:数字人建模/法医复原/虚拟试妆场景解析 你有没有想过,一张普通的照片,能变成什么样子? 想象一下,你拍了一张自拍照,然后电脑不仅能认出这是你,还能…...

RocketMQ跨网络消费问题实战:如何解决内网外网不通导致的消费失败

RocketMQ跨网络消费难题全解析:从原理到实战的完整解决方案 在混合云与多机房架构日益普及的今天,消息队列作为分布式系统的核心组件,其跨网络通信能力直接影响着整个系统的可靠性。RocketMQ作为阿里巴巴开源的分布式消息中间件,凭…...

什么是初始访问权限?如何用它落实最小权限原则

所谓“初始访问权限”,是指员工在加入组织或转入新岗位时,系统自动赋予的一组预先定义的基础权限。它并不是给用户所有未来可能需要的权限,而是只提供完成当前工作所必须的最小权限,让员工可以立即开始工作,同时避免过…...