当前位置: 首页 > article >正文

从实例出发:宏平均、微平均与权重平均的计算与应用解析

1. 从混淆矩阵说起理解评估指标的基础在机器学习分类任务中我们经常需要评估模型的性能。这时候就离不开混淆矩阵这个基础工具。假设我们有一个二分类问题类别分别是是和否。混淆矩阵会告诉我们模型预测的正确和错误情况真正例(TP)实际为是预测也为是假正例(FP)实际为否预测为是假负例(FN)实际为是预测为否真负例(TN)实际为否预测也为否举个例子假设我们有个垃圾邮件分类器TP100正确识别100封垃圾邮件FP20把20封正常邮件误判为垃圾邮件FN30漏掉了30封垃圾邮件TN850正确识别850封正常邮件从这个矩阵我们可以计算出两个重要指标准确率(Precision)和召回率(Recall)。准确率关注的是预测为正例的样本中有多少是真的正例计算公式是TP/(TPFP)。召回率关注的是实际为正例的样本中有多少被正确预测出来计算公式是TP/(TPFN)。2. F1分数准确率和召回率的调和平均在实际应用中我们常常需要一个能同时反映准确率和召回率的综合指标这就是F1分数。F1分数是准确率和召回率的调和平均数计算公式为F1 2 * (precision * recall) / (precision recall)为什么要用调和平均而不是算术平均呢因为调和平均对极端值更敏感。如果一个指标很低会显著拉低整体分数。这符合我们的需求我们不希望一个模型在准确率很高但召回率很低或反之的情况下还能得到不错的评分。举个例子模型A准确率1.0召回率0.1 → F10.18模型B准确率0.5召回率0.5 → F10.5模型C准确率0.9召回率0.9 → F10.9可以看到虽然模型A的准确率完美但因为召回率太低F1分数反而最差。3. 多分类问题中的评估方法当问题扩展到多分类时我们需要考虑如何综合各个类别的表现。这就是宏平均、微平均和权重平均的用武之地。假设我们有一个三分类问题类别为A、B、C样本量分别为100、200、300混淆矩阵如下真实\预测ABCA702010B1515035C525270首先我们计算每个类别的指标类别APrecision70/(70155)0.78, Recall70/1000.7类别BPrecision150/(2015025)0.77, Recall150/2000.75类别CPrecision270/(1035270)0.86, Recall270/3000.93.1 宏平均(Macro-average)计算宏平均是最直观的方法先计算每个类别的指标然后取算术平均。macro_precision (0.78 0.77 0.86) / 3 ≈ 0.803 macro_recall (0.7 0.75 0.9) / 3 ≈ 0.783 macro_f1 2*(0.803*0.783)/(0.8030.783) ≈ 0.793宏平均的特点是平等对待每个类别无论样本量多少。这在类别不平衡时可能不太合理比如一个罕见病诊断模型罕见病类别只占1%但宏平均会给它与常见病相同的权重。3.2 微平均(Micro-average)计算微平均的思路是先把所有类别的TP、FP、FN加起来然后计算全局指标。总TP 70(A) 150(B) 270(C) 490 总FP (2010)(A) (1535)(B) (525)(C) 305030110 总FN (20155)(A) (203525)(B) (103525)(C) 408070190micro_precision 490 / (490 110) ≈ 0.817 micro_recall 490 / (490 190) ≈ 0.721 micro_f1 2*(0.817*0.721)/(0.8170.721) ≈ 0.766微平均更关注样本级别的表现大类别对结果影响更大。在我们的例子中类别C样本最多对微平均影响最大。3.3 权重平均(Weighted-average)计算权重平均是宏平均的加权版本权重通常是每个类别的样本比例。样本总数100200300600 权重A100/600≈0.167 权重B200/600≈0.333 权重C300/6000.5weighted_precision 0.78*0.167 0.77*0.333 0.86*0.5 ≈ 0.813 weighted_recall 0.7*0.167 0.75*0.333 0.9*0.5 ≈ 0.808 weighted_f1 (2*0.78*0.7/(0.780.7))*0.167 (2*0.77*0.75/(0.770.75))*0.333 (2*0.86*0.9/(0.860.9))*0.5 ≈ 0.812权重平均在类别不平衡时是个折中方案既考虑类别重要性又考虑样本分布。4. 实际应用场景分析4.1 何时使用宏平均宏平均适合以下场景所有类别同等重要无论样本量多少。比如在法律文本分类中贪污和盗窃类别虽然出现频率不同但法律上同等重要。小类别的表现特别关键。如医疗诊断中罕见病的识别虽然样本少但漏诊后果严重。类别分布可能变化。如果线上数据分布与训练时不同宏平均更稳定。我在一个客户投诉分类项目中就遇到过这种情况。虽然产品质量投诉占70%但安全隐患投诉虽然只占5%却需要同等重视。这时宏平均更能反映模型在各个类别上的均衡表现。4.2 何时使用微平均微平均更适合这些情况更关注整体正确率。如垃圾邮件过滤我们更在意整体有多少邮件被正确分类。大类别主导业务指标。在电商评论情感分析中中性评论占大多数对业务影响最大。样本量差异极大时。有个新闻分类项目体育新闻占60%科技新闻只占3%这时微平均更能反映模型在大多数样本上的表现。但要注意如果小类别特别重要微平均可能会掩盖问题。我曾经在一个金融风控项目中微平均很好看(99%)但仔细检查发现高风险客户识别率只有60%这就是微平均的盲区。4.3 何时使用权重平均权重平均是个不错的折中方案特别适合需要考虑类别重要性但又不完全忽略小类别。样本分布相对稳定能代表真实场景。需要单一指标来比较模型时。在社交媒体内容审核中我们最终选择了权重平均。因为虽然违规内容只占5%但完全忽略也不行。权重平均既考虑了普通内容的主体地位又给了违规内容适当权重。5. 实现代码示例让我们用Python的sklearn库实际计算一下这些指标。假设我们有以下真实标签和预测标签from sklearn.metrics import precision_score, recall_score, f1_score y_true [0, 1, 2, 0, 1, 2] # 0A, 1B, 2C y_pred [0, 2, 1, 0, 0, 1] # 宏平均 macro_precision precision_score(y_true, y_pred, averagemacro) macro_recall recall_score(y_true, y_pred, averagemacro) macro_f1 f1_score(y_true, y_pred, averagemacro) # 微平均 micro_precision precision_score(y_true, y_pred, averagemicro) micro_recall recall_score(y_true, y_pred, averagemicro) micro_f1 f1_score(y_true, y_pred, averagemicro) # 权重平均 weighted_precision precision_score(y_true, y_pred, averageweighted) weighted_recall recall_score(y_true, y_pred, averageweighted) weighted_f1 f1_score(y_true, y_pred, averageweighted)运行后会得到三组不同的指标值。在实际项目中我通常会同时计算这三种平均值然后根据业务需求选择最合适的一个作为主要评估指标其他作为参考。6. 常见误区与注意事项在多年实践中我发现有几个常见误区值得注意盲目选择微平均很多人默认使用微平均因为sklearn的默认参数就是micro。但在类别不平衡且小类别重要时这会严重误导评估。忽略业务背景曾经有个团队在医疗影像分类中追求高微平均结果发现模型几乎把所有样本都预测为最常见类别。虽然指标好看但完全没用。混淆宏平均和权重平均新手常把这两个搞混。记住宏平均是简单平均权重平均是加权平均。只看F1忽略其他F1虽然综合了准确率和召回率但有时需要单独看这两个指标。比如在垃圾邮件过滤中我们可能更看重高准确率减少误判可以接受稍低的召回率。测试集分布假设权重平均假设测试集分布与训练集相同。如果线上数据分布变化权重平均可能不准确。

相关文章:

从实例出发:宏平均、微平均与权重平均的计算与应用解析

1. 从混淆矩阵说起:理解评估指标的基础 在机器学习分类任务中,我们经常需要评估模型的性能。这时候就离不开混淆矩阵这个基础工具。假设我们有一个二分类问题,类别分别是"是"和"否"。混淆矩阵会告诉我们模型预测的正确和…...

如何高效获取Twitter社交数据:学术研究的实战指南

如何高效获取Twitter社交数据:学术研究的实战指南 【免费下载链接】getting-started-with-the-twitter-api-v2-for-academic-research A course on getting started with the Twitter API v2 for academic research 项目地址: https://gitcode.com/gh_mirrors/ge/…...

别再乱设target_frame了!深度解读ROS2 pointcloud_to_laserscan源码,搞懂tf转换与消息过滤器的正确用法

别再乱设target_frame了!深度解读ROS2 pointcloud_to_laserscan源码,搞懂tf转换与消息过滤器的正确用法 在机器人感知系统中,将三维点云数据转换为二维激光扫描数据是常见的降维处理手段。ROS2的pointcloud_to_laserscan功能包看似简单&…...

源码编译实战:定制rpath与interpreter实现高版本glibc程序向下兼容部署

1. 为什么需要高版本glibc程序向下兼容 最近在给客户部署AI推理服务时遇到一个典型问题:开发环境用的是Ubuntu 20.04(glibc 2.31),而生产环境是CentOS 7(glibc 2.17)。直接拷贝编译好的程序运行时&#xff…...

提升大语言模型对话体验:text-generation-webui全流程优化指南

提升大语言模型对话体验:text-generation-webui全流程优化指南 【免费下载链接】text-generation-webui A Gradio web UI for Large Language Models. Supports transformers, GPTQ, AWQ, EXL2, llama.cpp (GGUF), Llama models. 项目地址: https://gitcode.com/G…...

从Kaggle竞赛到真实业务:聊聊那些年我们用错的AI算法和开源库

从Kaggle竞赛到真实业务:聊聊那些年我们用错的AI算法和开源库 在数据科学社区里,Kaggle竞赛排行榜和真实业务需求之间,似乎永远隔着一道看不见的鸿沟。那些在竞赛中斩获高分的神奇模型,一旦放进生产环境,常常表现得像…...

FastAPI项目PyInstaller打包实战:避坑指南与最佳实践

1. 为什么需要打包FastAPI项目? 当你用FastAPI开发完一个Web应用后,最终需要部署到生产环境。传统方式要求服务器安装Python环境、配置依赖库,这个过程既繁琐又容易出错。PyInstaller的价值就在于能把整个项目打包成独立可执行文件&#xff0…...

反线性学习—— 不是“按顺序学完教材”,是“围绕目标把知识长出来”

反线性学习—— 不是“按顺序学完教材”,是“围绕目标把知识长出来”在传统的学习习惯中,我们往往有一种 “进度条强迫症”:只要书看完了、课听完了、笔记记满了,就觉得自己“学完了”。 但现实往往很残酷:当你合上书本…...

SecGPT-14B镜像免配置:内置模型路径固定,便于Docker volume持久化备份

SecGPT-14B镜像免配置:内置模型路径固定,便于Docker volume持久化备份 1. 镜像特点与核心价值 SecGPT-14B是一款专为网络安全领域优化的文本生成模型,基于Qwen2ForCausalLM架构开发。这个预置镜像的最大特点是开箱即用,无需用户…...

Fun-ASR参数配置攻略:热词列表、目标语言,这样设置准确率最高

Fun-ASR参数配置攻略:热词列表、目标语言,这样设置准确率最高 1. 为什么参数配置如此重要? 语音识别系统的准确率往往取决于两个关键因素:模型本身的性能和使用者的参数配置。Fun-ASR作为钉钉与通义实验室联合推出的企业级语音识别…...

OpenClaw节日应用:GLM-4.7-Flash驱动春节祝福邮件批量定制与发送

OpenClaw节日应用:GLM-4.7-Flash驱动春节祝福邮件批量定制与发送 1. 为什么需要自动化节日邮件? 每年春节前,我都会陷入同样的困境——需要给200多位合作伙伴发送祝福邮件。手动操作意味着:反复复制粘贴内容、检查收件人姓名、调…...

[深度解析] 突破壁垒:Free-NTFS-for-Mac实现跨平台文件系统无缝协作

[深度解析] 突破壁垒:Free-NTFS-for-Mac实现跨平台文件系统无缝协作 【免费下载链接】Free-NTFS-for-Mac Nigate,一款支持苹果芯片的Free NTFS for Mac小工具软件。NTFS R/W for macOS. Support Intel/Apple Silicon now. 项目地址: https://gitcode.c…...

3步实现风扇智能控制:Windows系统散热与噪音平衡全指南

3步实现风扇智能控制:Windows系统散热与噪音平衡全指南 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/f…...

深入解析 Promise 核心原理,从零手写实现到实战应用

1. Promise 基础概念与使用场景 1.1 什么是 Promise? 想象你点了一份外卖,商家给你一个取餐号而不是立即给你食物。这个取餐号就是 Promise,它代表一个未来才会完成的操作(外卖送达)。在 JavaScript 中,Pro…...

新手必须掌握的6个Python爬虫库,非常实用!

Python中有非常多用于网络数据采集的库,功能非常强大,有的用于抓取网页,有的用于解析网页,这里介绍6个最常用的库。 1. BeautifulSoup BeautifulSoup是最常用的Python网页解析库之一,可将 HTML 和 XML 文档解析为树形…...

如何永久保存微信聊天记录?免费开源工具WeChatMsg完整指南

如何永久保存微信聊天记录?免费开源工具WeChatMsg完整指南 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/W…...

炸锅!中科院分区永久停更,新锐分区接棒,科研圈要变天?

最近科研圈最大的瓜,莫过于中科院期刊分区的“换马甲”事件——运行22年的官方中科院分区正式谢幕,原团队转身推出“新锐期刊分区”,一石激起千层浪,不同立场的声音吵翻了论坛。今天就来梳理下整个事件的来龙去脉,拆解…...

如何让AI帮你读完100篇文献,并写出综述的核心内容?

对于每一位科研工作者而言,面对一个新的课题或研究方向,最让人望而生畏的往往不是实验本身,而是前期那如山般堆积的文献调研。当你需要在短时间内读完100篇甚至更多核心文献,并从中提炼出逻辑严密、观点独到的综述核心内容时&…...

DeepSeek-Coder-V2:开源代码助手如何超越商业模型实现90%代码生成准确率?

DeepSeek-Coder-V2:开源代码助手如何超越商业模型实现90%代码生成准确率? 【免费下载链接】DeepSeek-Coder-V2 项目地址: https://gitcode.com/GitHub_Trending/de/DeepSeek-Coder-V2 还在为代码编写效率低下而苦恼吗?作为开发者的你…...

如何从碎片化信息中构建系统性科研认知?

在科研工作中,我们常常面临这样一种困境:每天通过各种渠道接触到海量的学术信息,这些信息如同散落的拼图碎片,虽然珍贵,却难以自动拼凑成一幅完整的画面。对于许多科研人员而言,难以形成系统认知是一个巨大…...

如何使用USearch构建自动驾驶传感器数据的实时向量搜索系统

如何使用USearch构建自动驾驶传感器数据的实时向量搜索系统 【免费下载链接】usearch Fastest Open-Source Search & Clustering engine for Vectors & 🔜 Strings in C, C, Python, JavaScript, Rust, Java, Objective-C, Swift, C#, GoLang, and Wolfra…...

FFTW实战指南:从编译优化到音频信号处理

1. FFTW库简介与核心优势 FFTW(Fastest Fourier Transform in the West)是当前公认性能最优异的快速傅里叶变换开源库,其名称直译为"西方最快的傅里叶变换"。我在音频信号处理项目中首次接触这个库时,就被它惊人的运算…...

探索时序并行门控网络TPGN:RNN的崭新继任者

一种RNN的新继任者—时序并行门控网络TPGN,用于时间序列预测。 作为RNN的新继任者。 PGN通过设计的历史信息提取(HIE)层直接从以前的时间步捕获信息,并利用门通机制选择并将其与当前时间步信息融合。 这将信息传播路径减少到0(1)&…...

如何快速掌握深度学习调参技巧:tuning_playbook_zh_cn完全解析

如何快速掌握深度学习调参技巧:tuning_playbook_zh_cn完全解析 【免费下载链接】tuning_playbook_zh_cn 一本系统地教你将深度学习模型的性能最大化的战术手册。 项目地址: https://gitcode.com/gh_mirrors/tu/tuning_playbook_zh_cn tuning_playbook_zh_cn是…...

COMSOL声子晶体复能带模型与PDE模块:声学黑洞复能带模型及实虚能带绘制与二维结构分析

comsol声子晶体复能带模型 PDE模块 声学黑洞 复能带模型 实能带与虚能带的绘制 参考论文 前两个是论文图,后四个是模型及结果图。 可根据模型设置,进行其他二维结构的分析复能带这玩意儿搞声子晶体的肯定不陌生,但用COMSOL PDE模块手搓模型…...

COMSOL 物质传递建模仿真:氯气洗涤与液膜除氯的奇妙之旅

COMSOL物质传递建模仿真 comsol物质传递反应 氯气洗涤,液膜除氯 液膜交界面氯气浓度衰减在化工领域,物质传递与反应的模拟对于优化工艺、提高效率至关重要。今天咱就唠唠基于 COMSOL 的物质传递建模仿真,特别是围绕氯气洗涤以及液膜除氯这俩关…...

用Lumerical MODE的EME Solver设计硅基波导耦合器:一个完整案例解析

硅基光子集成中的EME Solver实战:定向耦合器设计与性能优化全解析 光子集成电路(PIC)设计领域,模式展开法(EME)因其在长距离波导结构仿真中的独特优势,正成为工程师验证器件性能的首选工具。尤其在硅基定向耦合器这类关键无源器件的设计中&am…...

破局MIDI控制困境:SendMIDI让命令行成为音乐创作的神经中枢

破局MIDI控制困境:SendMIDI让命令行成为音乐创作的神经中枢 【免费下载链接】SendMIDI Multi-platform command-line tool to send out MIDI messages 项目地址: https://gitcode.com/gh_mirrors/se/SendMIDI 在数字音乐制作的世界里,MIDI&#x…...

数据标注技术指南:高效标注与数据质量优化实践

数据标注技术指南:高效标注与数据质量优化实践 【免费下载链接】cvat Annotate better with CVAT, the industry-leading data engine for machine learning. Used and trusted by teams at any scale, for data of any scale. 项目地址: https://gitcode.com/Git…...

LVGL下拉列表控件lv_dropdown实战:从基础配置到高级定制(附完整代码示例)

LVGL下拉列表控件lv_dropdown实战:从基础配置到高级定制(附完整代码示例) 在嵌入式UI开发领域,LVGL(Light and Versatile Graphics Library)凭借其轻量级和高度可定制的特性,已成为许多开发者的…...