当前位置：首页 > news >正文

【Python机器学习】模型评估与改进——在模型选择中使用评估指标

news 2025/7/7 6:44:21

我们通常希望，在使用GridSearchCV或cross_val_score进行模型选择时能够使用AUC等指标。scikit-learn提供了一种非常简单的实现方法，那就是scoring参数，它可以同时用于GridSearchCV和cross_val_score。你只需要提供一个字符串，用于描述想要使用的评估指标。

举例，我们想用AUC分数对digits数据集中“9与其他”任务上的SVM分类器进行评估。想要将分数从默认值修改为AUC，可以提供‘roc_auc’作为scoring参数的值：

print('Default scoring:{}'.format(cross_val_score(SVC(),digits.data,digits.target==9)))
explicit_accuracy=cross_val_score(SVC(),digits.data,digits.target==9,scoring='accuracy')
print('explicit accuracy score:{}'.format(explicit_accuracy))
roc_auc=cross_val_score(SVC(),digits.data,digits.target==9,scoring='roc_auc')
print('AUC score:{}'.format(roc_auc))

类似的，我们可以改变GridSearchCV中用于选择最佳参数的指标

digits=load_digits()
y=digits.target==9
X_train,X_test,y_train,y_test=train_test_split(digits.data,y,random_state=0)
param_grid={'gamma':[0.0001,0.01,0.1,1,10]}
grid=GridSearchCV(SVC(),param_grid=param_grid)
grid.fit(X_train,y_train)
print('Grid-Search with accuracy')
print('最好参数:{}'.format(grid.best_params_))
print('最好精度（accuracy）：{}'.format(grid.best_score_))
print('测试集AUC：{}'.format(roc_auc_score(y_test,grid.decision_function(X_test))))
print('测试集精度：{}'.format(grid.score(X_test,y_test)))

使用AUC评分来代替：

grid=GridSearchCV(SVC(),param_grid=param_grid,scoring='roc_auc')
grid.fit(X_train,y_train)
print('Grid-Search with AUC')
print('最好参数:{}'.format(grid.best_params_))
print('最好精度（accuracy）：{}'.format(grid.best_score_))
print('测试集AUC：{}'.format(roc_auc_score(y_test,grid.decision_function(X_test))))
print('测试集精度：{}'.format(grid.score(X_test,y_test)))

在使用精度时，选择的参数是gamma=0.0001，而使用AUC时选择的事gamma=0.01，在两种情况下，交叉验证精度与测试集精度时一致的。但是使用AUC时，对应的AUC更高，甚至对应的精度也更高。

对于分类问题，scoring参数最重要的取值包括：accuracy（默认值，精度），roc_auc（ROC曲线下方的面积），average_precision（准确率-召回率曲线下方的面积）、f1、f1_marco、f1_mirco、f1_weighted（ $f_{1}$ 分数及各种加权变体）。

对于回归问题，scoring参数最常用的取值包括：r2（ $R^{2}$ 分数）、mean_squared_error（均方误差）和mean_absolute_error（平均绝对误差）。

【Python机器学习】模型评估与改进——在模型选择中使用评估指标

相关文章：

【Python机器学习】模型评估与改进——在模型选择中使用评估指标

【C语言】union 关键字

电脑回收站删除的文件怎么恢复？5个恢复方法详解汇总！

mac 安装cnpm 淘宝镜像记录

ArcGIS Pro SDK （七）编辑 11 撤销重做

Excel 中的元素定位：相对定位、绝对定位和混合定位

Idea2024安装后点击无响应

如何提高实验室分析结果的准确性呢

Perl 格式化输出：提升代码可读性的技巧

JavaScript基础-函数（完整版）

AI开发者的新选择：Mojo编程语言

软考（高项）系统分析师--论软件开发模型及应用

同一天提档又撤档！电影《野孩子》宣布取消7月10日公映安排——浔川电影报

Shell编程之免交互

基于opencv的斜光测距及python实现

梯度下降算法

第5章：软件工程

cefsharp在splitContainer.Panel2中显示调试工具DevTools（非弹出式）含源代码

nginx部署多个项目；vue打包项目部署设置子路径访问；一个根域名（端口）配置多个子项目

02-部署LVS-DR群集

后进先出（LIFO）详解

第19节 Node.js Express 框架

线程与协程

ElasticSearch搜索引擎之倒排索引及其底层算法

ardupilot 开发环境eclipse 中import 缺少C++

Java面试专项一-准备篇

【分享】推荐一些办公小工具

【Nginx】使用 Nginx+Lua 实现基于 IP 的访问频率限制

R 语言科研绘图第 55 期 --- 网络图-聚类

破解路内监管盲区：免布线低位视频桩重塑停车管理新标准