当前位置：首页 > news >正文

Python:使用随机森林分类器进行模型评估：ROC 曲线与 AUC 指标计算

news 2026/5/21 6:34:32

前言

这段代码的目标是使用随机森林分类器（Random Forest Classifier）来进行二分类任务，并基于每个数据子集计算 ROC 曲线（Receiver Operating Characteristic Curve）以及 AUC（Area Under Curve）。

一、步骤

代码执行以下步骤：

数据预处理：按列选择目标变量和特征：每次循环时，从 newdata 数据中选择前14列作为特征（X），并选择第14列之后的某一列作为目标变量（y）。处理缺失值和无效值：通过将数据转换为数值类型，并删除包含 NaN 或无效值（如 -9999）的行，确保数据的干净和有效。数据标准化：使用 标准化（StandardScaler） 将特征矩阵 X 转换为标准化数据，使得数据的均值为0，标准差为1，从而确保每个特征对模型的贡献是均衡的。训练和验证数据集划分：在每轮循环中，数据被划分为训练集和验证集，比例为 2/5 和 3/5。此划分方式通过计算 split_index 和 train_index 来实现，后续用训练集训练模型，并在验证集上评估性能。模型训练与评估：训练：使用 RandomForestClassifier 对训练集数据进行训练。模型的参数包括 n_estimators=1000（树的数量）和 max_depth=None（树的深度不限制）。验证与 ROC 曲线计算：使用训练好的分类器在验证集上进行预测，并计算 ROC 曲线 和 AUC。ROC 曲线描绘了模型分类性能在不同决策阈值下的变化，AUC 是 ROC 曲线下的面积，表示模型的分类能力。通过 RocCurveDisplay.from_estimator 来计算并显示这些值。存储和平均化性能：曲线插值：为了绘制更平滑的ROC曲线，使用 np.interp 方法对每次计算得到的曲线进行插值，使其与均匀的 mean_fpr 对应。存储每轮（5次）的 TPR（True Positive Rate） 和 AUC，并计算所有折（fold）上的平均 TPR 和 AUC。绘制最终 ROC 曲线：最后，在单一的图表上绘制所有 5 次训练得到的 ROC 曲线，并标注每个模型的 AUC 值，显示在图例中。图表定制：为了符合出版标准，设置了图表的样式，包括坐标轴的宽度、字体大小、图例位置等。使用 Arial 字体 并调整了 ax1（绘制 ROC 曲线的轴）的刻度和标签样式。

代码的核心目的：

模型评估：使用随机森林分类器对数据进行训练，评估模型的分类性能。
ROC 和 AUC 计算：对每个模型计算并展示其 ROC 曲线 和 AUC，这些是评估分类模型性能的常用指标。
多次交叉验证：通过多次训练和评估（5次），保证模型在不同数据子集上的稳健性和泛化能力。
绘图和展示：生成一张带有多个模型 ROC 曲线的图，直观展示各个模型的表现。

代码

import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import RocCurveDisplay, auc
from sklearn.model_selection import StratifiedKFold
from sklearn.preprocessing import StandardScaler
import xgboost as xgb
import numpy as np
import pandas as pd
import os
from matplotlib.font_manager import FontProperties# 创建一个字体属性对象
font_prop = FontProperties(family='Arial', size=20)#%%读取数据 设置默认路径10
outdir='/DATA/'
random_state = np.random.RandomState(0)
fig1, ax1 = plt.subplots(1, 1, figsize=(8, 8))  # 这里设置为 1x1 只包含一个图
Factors= pd.read_excel('T.xlsx', sheet_name='Factors')
MSWEP=pd.read_excel('T.xlsx', sheet_name='MSWEP')
#%%
pres = ['A','B','C']
# 创建子目录（如果不存在）
label_dir = os.path.join(outdir, 'GPM')
os.makedirs(label_dir, exist_ok=True)
mean_fprs = []
mean_tprs = []
mean_aucs = []
std_aucs = []
Factorsnew=Factors.iloc[:, 0:14]
MSWEPdwi = MSWEP.iloc[:, 0:10] ** 0.5
newdata= pd.concat([Factorsnew, MSWEPdwi], axis=1)#根据字符串变量 pre_name 中存储的列名来获取对应的 DataFrame。这种方式可以动态地根据字符串变量来执行代码
for i in range(5):dwidata= pd.concat([newdata.iloc[:, 0:14], newdata.iloc[:, i+14]], axis=1)#根据字符串变量 pre_name 中存储的列名来获取对应的 DataFrame。这种方式可以动态地根据字符串变量来执行代码# 查找包含NaN值的索引dwidata = dwidata.apply(pd.to_numeric, errors='coerce') nan_indices = np.isnan(dwidata)# 删除包含NaN值的行dwidata= dwidata[~np.any(nan_indices, axis=1)]dwidata = dwidata.loc[~dwidata.isin([-9999]).any(axis=1)]y = pd.concat([dwidata.iloc[:, 13]], axis=1)X=pd.concat([dwidata.iloc[:, 0:13],dwidata.iloc[:, 14]], axis=1)scaler = StandardScaler()X= scaler.fit_transform(X)y=y.values#让y重新排列不再有原始序列，因为X标准化过后会生成新的序列y = y.ravel()#将 y 转换为一维数组形式n_splits = 5cv = StratifiedKFold(n_splits=n_splits)classifier = RandomForestClassifier(n_estimators=1000, max_depth=None,random_state=42)tprs = []aucs = []mean_fpr = np.linspace(0, 1, 100)fig, ax = plt.subplots(figsize=(6, 6))for fold, (train, test) in enumerate(cv.split(X, y)):classifier.fit(X[train], y[train])viz = RocCurveDisplay.from_estimator(classifier,X[test],y[test],name=f"ROC fold {fold}",alpha=0.3,lw=1.5,ax=ax,#plot_chance_level=(fold == n_splits - 1),)plt.close('all')ax.clear()  # 清空绘图区域 将上面的交叉验证图清除interp_tpr = np.interp(mean_fpr, viz.fpr, viz.tpr)interp_tpr[0] = 0.0tprs.append(interp_tpr)aucs.append(viz.roc_auc)mean_tpr = np.mean(tprs, axis=0)mean_tpr[-1] = 1.0mean_auc = auc(mean_fpr, mean_tpr)std_auc = np.std(aucs)mean_fprs.append(mean_fpr)mean_tprs.append(mean_tpr)mean_aucs.append(mean_auc)std_aucs.append(std_auc)# # Plot all ROC curves together after the loop
for i in range(len(mean_fprs)):ax1.plot(mean_fprs[i],mean_tprs[i],label=f"{pres[i]} (AUC = {mean_aucs[i]:.2f})",lw=2,alpha=0.8,)ax1.legend(loc="best",prop={'size': 10, 'family': 'Arial'}, frameon=False)
ax1.set_xlabel("False Positive Rate", fontsize=15, fontname='Times New Roman')
ax1.set_ylabel("True Positive Rate", fontsize=15, fontname='Times New Roman')
ax1.text(0.1, 1.2, '(a)', transform=ax1.transAxes, fontsize=20, va='top', fontproperties=font_prop)# 设置ax1的样式
ax1.spines['bottom'].set_linewidth(1.5)
ax1.spines['left'].set_linewidth(1.5)
ax1.spines['top'].set_linewidth(1.5)
ax1.spines['right'].set_linewidth(1.5)
ax1.tick_params(axis='both', width=1.5,labelsize=15)
ax1.set_ylim(0.7, 1.1)font = { 'size': 15, 'family':'Arial'} # xlabes
x1_label = ax1.get_xticklabels() 
[x1_label_temp.set_font(font) for x1_label_temp in x1_label]
x1_label = ax1.get_yticklabels() 
[x1_label_temp.set_font(font) for x1_label_temp in x1_label]del X
del yfig1.show()
print('done')

总结

这段代码的目的是通过 RandomForestClassifier 对数据进行训练并评估其分类性能，通过多轮训练、验证、计算 ROC 曲线和 AUC，最终生成一张汇总图，比较不同模型的表现。这种方法广泛应用于分类任务的模型评估，特别是在需要评估多个模型或参数组合
在这里插入图片描述

Python:使用随机森林分类器进行模型评估：ROC 曲线与 AUC 指标计算

前言

一、步骤

代码

总结

相关文章：

Python:使用随机森林分类器进行模型评估：ROC 曲线与 AUC 指标计算

数据库表约束完全指南：提升数据完整性和准确性

【JavaEE】多线程（6）

BERT和RoBERTa；双向表示与单向的简单理解

Pytorch使用手册-计算机视觉迁移学习教程（专题十三）

Jackson - Java对象与JSON相互转换

怎麼解決路由器IP地址衝突？

趣味数学 2.3.7 | 完全免费，无注册登录，简约纯净

Oracle ASM特性介绍和增删盘操作

深度优先搜索迷宫路径

多媒体技术的发展阶段----高中信息技术教资面试

行为型设计模式之《责任链模式》实践

中酱黑松露手工古法酱油，邂逅独特 “酱油红”

Java NIO channel

智能交通（8）——腾讯开悟智能交通信号灯调度赛道

ip所属地址是什么意思？怎么改ip地址归属地

攻防世界 ctf刷题新手区1-10

Node做一个自动删除指定文件和文件夹工具

陈若尧新歌《一来二去》陆续登陆全球音乐平台

【Docker】针对开发环境、测试环境、生产环境如何编排？

手把手教你用STM32F103C8T6和NTC热敏电阻DIY一个水温监测器（附完整代码）

多 Harness Control Plane 如何重塑企业云 Agent 架构

Qt QUdpSocket组播发送失败？别慌，这3个坑我帮你踩过了（附Windows/Linux代码）

终极指南：在Linux系统上安装与优化Realtek RTL8125 2.5GbE网卡驱动

GGCNN实战指南：基于深度学习的实时机器人抓取生成网络深度解析

告别串口助手！用手机APP和ESP-01S模块，5分钟搞定51单片机无线控制LED

UVM寄存器模型简化实践：提升芯片验证效率的封装与自动化方案

Pandas/NumPy数据处理中，科学计数法如何‘隐形’影响你的结果？附解决方案

别再纠结软件IIC了！用STM32硬件IIC驱动0.96寸OLED，实测代码稳定不掉线

HsMod终极指南：55项功能打造你的个性化炉石传说体验