当前位置：首页 > article >正文

别再只盯着准确率了！用Python手把手教你画出分类模型的PR和ROC曲线（附代码）

article 2026/5/2 8:35:13

实战指南用Python绘制分类模型的PR与ROC曲线在机器学习项目中评估分类模型性能时很多开发者习惯性地依赖单一准确率指标这往往会导致对模型真实效果的误判。特别是在样本分布不均衡的场景下准确率可能给出极具误导性的乐观结果。本文将带你用Python实战演练两种更可靠的评估工具——PR曲线和ROC曲线通过可视化手段全面把握模型在不同阈值下的表现差异。1. 环境准备与数据加载首先确保你的Python环境已安装以下核心库# 基础数据处理与建模 import numpy as np import pandas as pd from sklearn.datasets import make_classification # 模型训练与评估 from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.ensemble import RandomForestClassifier # 评估指标与可视化 from sklearn.metrics import precision_recall_curve, roc_curve, auc import matplotlib.pyplot as plt import seaborn as sns我们使用make_classification生成模拟数据刻意构造样本不均衡场景# 生成1000个样本其中正类仅占20% X, y make_classification(n_samples1000, n_classes2, weights[0.8, 0.2], random_state42) # 划分训练集和测试集 X_train, X_test, y_train, y_test train_test_split( X, y, test_size0.3, random_state42) print(f正样本比例 - 训练集: {y_train.mean():.2%}, 测试集: {y_test.mean():.2%})提示实际项目中建议使用class_weightbalanced参数或过采样技术处理样本不均衡问题2. 训练基准分类模型我们选择逻辑回归和随机森林作为对比模型# 初始化模型逻辑回归设置class_weight以处理样本不均衡 lr LogisticRegression(class_weightbalanced, random_state42) rf RandomForestClassifier(class_weightbalanced_subsample, random_state42) # 训练模型 lr.fit(X_train, y_train) rf.fit(X_train, y_train) # 获取预测概率注意使用predict_proba而非predict lr_probs lr.predict_proba(X_test)[:, 1] # 正类的预测概率 rf_probs rf.predict_proba(X_test)[:, 1]关键点说明class_weight参数帮助模型关注少数类必须使用predict_proba获取概率值而非硬分类结果概率值将作为绘制曲线的阈值调节依据3. PR曲线绘制与解读PR曲线展示的是精确率(Precision)与召回率(Recall)之间的权衡关系def plot_pr_curve(y_true, y_probs, model_name): precision, recall, _ precision_recall_curve(y_true, y_probs) pr_auc auc(recall, precision) plt.plot(recall, precision, labelf{model_name} (AUC {pr_auc:.2f})) plt.xlabel(Recall) plt.ylabel(Precision) plt.title(PR Curve) plt.legend() plt.grid(True) plt.figure(figsize(10, 6)) plot_pr_curve(y_test, lr_probs, Logistic Regression) plot_pr_curve(y_test, rf_probs, Random Forest) # 添加基准线正样本比例 baseline y_test.mean() plt.axhline(ybaseline, colorgray, linestyle--, labelfBaseline ({baseline:.2%})) plt.legend() plt.show()PR曲线的关键特征特征解释实际意义曲线位置越靠近右上角越好模型在精确率和召回率间取得更好平衡AUC值曲线下面积(0-1)综合评估指标值越大性能越好基准线正样本比例随机猜测模型的性能水平典型应用场景欺诈检测关注少数类疾病筛查不能漏检病例推荐系统确保推荐内容精准4. ROC曲线绘制与对比分析ROC曲线展示的是真正率(TPR)与假正率(FPR)的关系def plot_roc_curve(y_true, y_probs, model_name): fpr, tpr, _ roc_curve(y_true, y_probs) roc_auc auc(fpr, tpr) plt.plot(fpr, tpr, labelf{model_name} (AUC {roc_auc:.2f})) plt.plot([0, 1], [0, 1], k--) # 随机猜测线 plt.xlabel(False Positive Rate) plt.ylabel(True Positive Rate) plt.title(ROC Curve) plt.legend() plt.grid(True) plt.figure(figsize(10, 6)) plot_roc_curve(y_test, lr_probs, Logistic Regression) plot_roc_curve(y_test, rf_probs, Random Forest) plt.show()ROC曲线与PR曲线的核心区别特性ROC曲线PR曲线关注点整体分类性能正类识别能力横坐标FPR (假正率)Recall (召回率)纵坐标TPR (真正率)Precision (精确率)样本不均衡影响相对稳定非常敏感适用场景均衡数据集不均衡数据集注意当正样本比例低于10%时优先参考PR曲线评估模型5. 高级技巧与实战建议5.1 多模型对比可视化将PR和ROC曲线组合展示更直观fig, (ax1, ax2) plt.subplots(1, 2, figsize(18, 6)) # PR曲线 for model, probs in [(LR, lr_probs), (RF, rf_probs)]: precision, recall, _ precision_recall_curve(y_test, probs) ax1.plot(recall, precision, labelf{model} (AUC{auc(recall, precision):.2f})) ax1.set_title(PR Curve Comparison) ax1.legend() # ROC曲线 for model, probs in [(LR, lr_probs), (RF, rf_probs)]: fpr, tpr, _ roc_curve(y_test, probs) ax2.plot(fpr, tpr, labelf{model} (AUC{auc(fpr, tpr):.2f})) ax2.plot([0, 1], [0, 1], k--) ax2.set_title(ROC Curve Comparison) ax2.legend() plt.show()5.2 阈值选择策略通过曲线确定最佳分类阈值# 寻找PR曲线上F1分数最大的阈值 def find_optimal_threshold(y_true, y_probs): precision, recall, thresholds precision_recall_curve(y_true, y_probs) f1_scores 2 * (precision * recall) / (precision recall 1e-8) optimal_idx np.argmax(f1_scores) return thresholds[optimal_idx], f1_scores[optimal_idx] lr_threshold, lr_f1 find_optimal_threshold(y_test, lr_probs) rf_threshold, rf_f1 find_optimal_threshold(y_test, rf_probs) print(f逻辑回归最佳阈值: {lr_threshold:.4f} (F1{lr_f1:.2f})) print(f随机森林最佳阈值: {rf_threshold:.4f} (F1{rf_f1:.2f}))5.3 实际应用中的陷阱常见问题与解决方案曲线波动剧烈检查样本量是否足够尝试使用平滑技术AUC值异常高验证是否存在数据泄露检查特征工程合理性测试集与训练集表现差异大确保数据分布一致考虑使用交叉验证在电商用户流失预测项目中我们发现当正样本比例低于5%时ROC曲线的AUC值仍然保持在0.85以上但PR曲线的AUC仅为0.3这提示模型的实际业务价值可能被高估。通过调整分类阈值和引入代价敏感学习最终将召回率从0.6提升到0.8虽然精确率有所下降但更符合业务需求。

别再只盯着准确率了！用Python手把手教你画出分类模型的PR和ROC曲线（附代码）

相关文章：

别再只盯着准确率了！用Python手把手教你画出分类模型的PR和ROC曲线（附代码）

用Python玩转Jetson Nano串口：一个脚本实现数据收发与回显测试

告别VSCode！用Qt Creator 10.0.1 + ROS Noetic打造你的专属机器人开发IDE（含Qt组件集成指南）

为AI智能体构建带权限的知识图谱记忆系统：架构、部署与实战

微软Bing视觉搜索优化：多模态AI与GPU加速实践

R数据报告自动化失效全复盘（Tidyverse 2.0迁移血泪实录）

MAA明日方舟自动化助手：5个步骤轻松实现全日常一键长草

双势阱系统与Boltzmann采样的同步机制研究

3步解决Dell G15笔记本过热问题：开源温度控制中心完全指南

大模型推理安全防护：PART方法与动态指纹技术解析

探索小红书内容宇宙：5个颠覆性方法深度挖掘数据价值

ncmdump：网易云音乐NCM文件无损解密转换终极指南

别再死记硬背时序参数了！用Verilog在FPGA上驱动VGA显示器（附800x480完整代码）

Orange Pi R1 Plus LTS金属外壳套件深度评测与应用指南

RLOO强化学习在数学推理中的应用与优化

从DIY 3D打印机到小型CNC：聊聊步进电机和伺服电机的实战应用与调参心得

用Python和akshare库5分钟搞定全市场LOF基金实时行情数据（附完整代码与CSV导出）

AI编程助手Sage：在代码生成前进行“计划层审查”的自动化同行评审工具

权限系统设计避坑指南：从MongoDB的RBAC到转转的‘混合模型’，我们踩过的那些雷

TTT3R：3D重建中的测试时训练技术解析

039、Agent的微调策略：使用自有数据优化模型表现

038、构建领域专属Agent：以客服、教育等场景为例

037、集成第三方API：扩展Agent的外部能力

ICRL框架：大模型工具调用的强化学习解决方案

考虑扰动的欠驱动船舶轨迹跟踪自适应滑模控制Matlab/simulink实现模型

告别提取码烦恼：baidupankey 如何让你秒速获取百度网盘资源

移动处理器能效优化：big.LITTLE架构解析与实践

Hyperf的生命周期的庖丁解牛

从NeuroScan到EGI：一个BCI研究员的7款脑电设备真实上手体验与避坑指南

qmcdump终极指南：一键解锁QQ音乐加密文件，实现跨平台音乐自由