当前位置：首页 > news >正文

机器学习第13天：模型性能评估指标

news 2026/2/9 3:54:20

☁️主页 Nowl

🔥专栏《机器学习实战》《机器学习》

📑君子坐而论道，少年起而行之

文章目录

交叉验证

保留交叉验证

k-折交叉验证

留一交叉验证

混淆矩阵

精度与召回率

介绍

精度

召回率

区别

使用代码

偏差与方差

介绍

区别

交叉验证

保留交叉验证

介绍

将数据集划分为两部分，训练集与测试集，这也是简单任务中常用的方法，其实没有很好地体现交叉验证的思想

使用代码

# 导入库
from sklearn.model_selection import train_test_split# 划分训练集与测试集，参数分别为总数据集，测试集的比例
train, test = train_test_split(data, test_size=0.2)

k-折交叉验证

介绍

将数据集划分为k个子集，每次采用k-1个子集作为训练集，剩下的一个作为测试集，然后再重新选择，使每一个子集都做一次测试集，所以整个过程总共训练k次，得到k组结果，最后将这k组结果取平均，得到最终结果，这就是交叉验证的思想

使用代码

# 导入库
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score# 设置K值，这里假设K=5
k_fold = KFold(n_splits=5, shuffle=True, random_state=42)# 初始化模型，这里以随机森林为例
model = RandomForestClassifier()# 使用K折交叉验证
scores = cross_val_score(model, X, y, cv=k_fold)

留一交叉验证

介绍

与k折验证思想一致，只是子集的数量和数据集的大小一样，往往在数据集较小的时候使用这种方法

混淆矩阵

介绍

在分类任务中，我们可以用混淆矩阵来判断模型的性能，混淆矩阵记录了A类被分为B类的次数，以下是一个动物识别任务的混淆矩阵，要知道cat被预测成了几次dog，那么就查看混淆矩阵的第1行第2列

使用代码

# 导入库
from sklearn.metrics import confusion_matrix# 打印混淆矩阵，参数为真实结果与预测结果
print(confusion_matrix(y, y_pred))

精度与召回率

介绍

要解释精度与召回率，我们先定义几个量

TP：模型预测为正且真实值为正的数量

FP：模型预测为正且真实值为负的数量

FN：模型预测为负且真实值为正的数量

精度

$\frac{TP}{TP+FP}$

精度就是模型正确预测的正类在所有预测为正类中的比例

召回率

$\frac{TP}{TP+FN}$

召回率就是模型正确预测的正类在所有正类中的比例

区别

可能还是有点混淆？其实精度高就是宁愿不预测，也不愿意预测错，召回率高就是宁愿预测错，也不愿意遗漏正类，我们具体来看两个场景

在地震预测中，我们是要提高召回率还是精度？显而易见，召回率，因为我们宁愿预测器错误地提醒我们，也不愿意当地震来临时它不报警

那么在食品检测中呢？当然要提高精度，因为我们宁愿健康的食品被误判为不合格，也不愿意有不合格的食品进入市场

召回率与精度两个指标不可兼得，我们要根据具体任务做出取舍

使用代码

# 导入库
from sklearn.metrics import precision_score, recall_score# 使用精度评估函数，参数是真实结果与预测结果
print(precision_score(y, y_pred))# 使用召回率评估函数，参数是真实结果与预测结果
print(recall_score(y, y_pred))

偏差与方差

介绍

偏差衡量一个模型预测结果和真实值的差距，偏差高往往代表模型欠拟合

方差衡量模型在不同数据集上预测的差异，方差高往往代表模型过拟合

区别

具有高偏差的模型对训练数据和新数据的表现都较差，因为它们未能捕捉到数据的复杂性。

具有高方差的模型在训练数据上可能表现得很好，但对新数据的泛化能力差，因为它们过于依赖于训练数据的细节。

结语

机器学习模型性能测量对于评估模型的质量、选择最佳模型、调整模型超参数以及在实际应用中预测新数据都具有重要意义。

评估模型质量： 通过性能测量，你可以了解模型在训练数据上的表现如何。这有助于判断模型是否足够复杂以捕捉数据中的模式，同时又不过度拟合训练数据。
选择最佳模型： 在比较不同模型时，性能测量是选择最佳模型的关键因素。你可以通过比较模型在相同任务上的性能指标来确定哪个模型更适合你的问题。
调整模型超参数： 通过观察模型在不同超参数设置下的性能，你可以调整超参数以提高模型的性能。性能测量可以指导你在超参数搜索空间中寻找最佳设置。
评估泛化能力： 模型在训练数据上表现良好并不一定意味着它在新数据上也能表现良好。性能测量帮助你评估模型的泛化能力，即模型对未见过的数据的预测能力。
支持业务决策： 在实际应用中，模型的性能直接关系到业务的决策。例如，在医疗领域，一个精确的疾病预测模型可能影响患者的治疗计划。
改进模型： 通过分析性能测量的结果，你可以识别模型的弱点，并采取相应的措施来改进模型，例如增加训练数据、特征工程、选择更合适的模型等。

觉得有用的话就订阅下本专栏吧，感谢阅读

机器学习第13天：模型性能评估指标

☁️主页 Nowl 🔥专栏《机器学习实战》《机器学习》 📑君子坐而论道，少年起而行之文章目录交叉验证保留交叉验证 k-折交叉验证留一交叉验证混淆矩阵精度与召回率介绍精度召回率区别使用代码偏差与方差介绍区…...

编程日记 2023/11/27 1:33:23

Elasticsearch基础优化

分片策略分片和副本得设计为ES提供支付分布式和故障转移得特性，但不意味着分片和副本是可以无限分配， 而且索引得分片完成分配后由于索引得路由机制，不能重新修改分片数（副本数可以动态修改） 一个分片得底层为一个l…...

编程日记 2023/11/27 1:32:20

【Amazon】通过直接连接的方式导入 KubeSphere集群至KubeSphere主容器平台

文章目录一、设置主集群方式一：使用 Web 控制台方式二：使用 Kubectl命令二、在主集群中设置代理服务地址方式一：使用 Web 控制台方式二：使用 Kubectl命令三、登录控制台验证四、准备成员集群方式一：使用 Web 控制台…...

编程日记 2023/11/27 1:31:19

三数之和问题

给你一个整数数组 nums ，判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k ，同时还满足 nums[i] nums[j] nums[k] 0 。请你返回所有和为 0 且不重复的三元组。注意：答案中不可以包含重复的三元组。示例 1&…...

编程日记 2023/11/27 1:30:18

【JavaEE】多线程 (2) --线程安全

目录 1. 观察线程不安全 2. 线程安全的概念 3. 线程不安全的原因 4. 解决之前的线程不安全问题 5. synchronized 关键字 - 监视器锁 monitor lock 5.1 synchronized 的特性 5.2 synchronized 使⽤⽰例 1. 观察线程不安全 package thread; public class ThreadDemo19 {p…...

编程日记 2023/11/27 1:28:14

关于点胶机那些事

总结一下点胶机技术要点： 1：不论多复杂的点胶机，简单点，可以简化为：1：运控 2：点胶，3：检测运控的目的就是负责把针头移到面板对应的胶路上，点胶即就是排胶&…...

编程日记 2023/11/27 1:26:13

Python | CAP - 累积精度曲线分析案例

CAP通常被称为“累积精度曲线”，用于分类模型的性能评估。它有助于我们理解和总结分类模型的鲁棒性。为了直观地显示这一点，我们在图中绘制了三条不同的曲线： 一个随机的曲线（random）通过使用随机森林分类器获得的曲线…...

编程日记 2023/11/27 1:24:10

ubuntu22.04安装swagboot遇到的问题

一、基本情况系统：u 22.04 python： 3.10 二、问题描述 swagboot官方提供的安装路径言简意赅:python3 -m pip install --user snagboot 当然安装python3和pip是基本常识，这里就不再赘述。可是在安装的时候出现如下提示说 Failed buildin…...

编程日记 2023/11/27 1:23:09

python每日一题——8无重复字符的最长子串

题目给定一个字符串 s ，请你找出其中不含有重复字符的最长子串的长度。示例 1: 输入: s “abcabcbb” 输出: 3 解释: 因为无重复字符的最长子串是 “abc”，所以其长度为 3。示例 2: 输入: s “bbbbb” 输出: 1 解释: 因为无重复字符的最长子串…...

编程日记 2023/11/27 1:22:08

【数据中台】开源项目（2）-Dbus数据总线

1 背景企业中大量业务数据保存在各个业务系统数据库中，过去通常的同步数据的方法有很多种，比如： 各个数据使用方在业务低峰期各种抽取所需数据（缺点是存在重复抽取而且数据不一致） 由统一的数仓平台通过sqoop到各个…...

编程日记 2023/11/27 1:21:07

职场快速赢得信任

俗话说的好，有人的地方就有江湖。国内不管是外企、私企、国企，职场环境都是变换莫测。这里主要分享下怎么在职场中快速赢取信任。 1、找到让自己全面发展的方法要知道，职场中话题是与他人交流的纽带，为了找到共同的话题&am…...

编程日记 2023/11/27 1:20:06

【SpringBoot3+Vue3】五【完】【实战篇】-前端（配合后端）

目录一、环境准备 1、创建Vue工程 2、安装依赖 2.1 安装项目所需要的vue依赖 2.2 安装element-plus依赖 2.2.1 安装 2.2.2 项目导入element-plus 2.3 安装axios依赖 2.4 安装sass依赖 3、目录调整 3.1 删除部分默认目录下文件 3.1.1 src/components下自动生成的…...

编程日记 2023/11/27 1:19:04

[LaTex]arXiv投稿攻略——jpg/png转pdf

一、将图片复制进ppt，右键单击图片选择设置图片格式，获取图片高度和宽度二、选择“设计-幻灯片大小-自定义幻灯片大小” 三、设置幻灯片大小为图片大小四、选择“最大化” 五、检查幻灯片大小是否与图像大小一致六、导出为PDF...

编程日记 2023/11/27 1:18:03

使用Pytorch从零开始构建GRU

门控循环单元 (GRU) 是 LSTM 的更新版本。让我们揭开这个网络的面纱并探索这两个兄弟姐妹之间的差异。您听说过 GRU 吗？门控循环单元（GRU）是更流行的长短期记忆（LSTM）网络的弟弟，也是循环神经网络&#x…...

编程日记 2023/11/27 1:17:02

【尚跑】2023宝鸡马拉松安全完赛，顺利PB达成

1、赛事背景千年宝地，一马当先！10月15日7时30分，吉利银河2023宝鸡马拉松在宝鸡市行政中心广场鸣枪开跑。不可忽视的是，这次赛事的卓越之处不仅在于规模和参与人数，还在于其精心的策划和细致入微的组织。为了确保每位…...

编程日记 2023/11/27 1:16:00

Mac nginx安装，通过源码安装教程

第一部分安装参考网址： https://blog.csdn.net/a1004084857/article/details/128512612； 以上步骤执行完，进入找到sbin目录，查看下面是不是有nginx可执行文件，如果有在当前sbin下执行./nginx,就会发现NGINX已启动第…...

编程日记 2023/11/27 1:15:00

TypeScript中的枚举是什么?

在TypeScript中，枚举（Enum）是一种用于定义一组有命名的常量值的数据类型。它们可以提供更具可读性和可维护性的代码。枚举的作用是为一组相关的值提供一个易于理解和使用的命名空间。它们可以用于代表一系列可能的选项、状态或标志&#xf…...

编程日记 2023/11/27 1:12:58

进程并发-信号量经典例题-面包师问题

1 题目描述面包师有很多面包和蛋糕，由N个销售人员销售。每个顾客进店后先取一个号，并且等着叫号。当一个销售人员空闲下来，就叫下一个号。试用信号量的P、V操作设计该问题的同步算法，给出所用共享变量（如果需要&…...

编程日记 2023/11/27 1:11:57

c语言练习12周（11~15）

编写double fun(int a[],int n)函数，计算返回评分数组a中，n个评委打分，去掉一个最高分去掉一个最低分之后的平均分题干编写double fun(int a[],int n)函数，计算返回评分数组a中，n个评委打分，去掉一…...

编程日记 2023/11/27 1:09:54

Java 实现视频转音频功能

在实际开发中，我们经常需要处理各种多媒体文件。本文将介绍如何使用 Java 语言实现将视频文件转换为音频文件的功能。我们将使用 FFmpeg 工具来进行视频转换操作，并通过 Java 的 ProcessBuilder 实现调用系统命令执行 FFmpeg 的功能。准备工作首先，我们需要确保系统中已安…...

编程日记 2023/11/27 1:08:53

conda相比python好处

Conda 作为 Python 的环境和包管理工具，相比原生 Python 生态（如 pip 虚拟环境）有许多独特优势，尤其在多项目管理、依赖处理和跨平台兼容性等方面表现更优。以下是 Conda 的核心好处： 一、一站式环境管理&#xff1a…...

编程新知 2025/11/29 6:54:19

模型参数、模型存储精度、参数与显存

模型参数量衡量单位 M：百万（Million） B：十亿（Billion） 1 B 1000 M 1B 1000M 1B1000M 参数存储精度模型参数是固定的，但是一个参数所表示多少字节不一定，需要看这个参数以什么…...

编程新知 2025/12/20 12:32:08

Vue2 第一节_Vue2上手_插值表达式{{}}_访问数据和修改数据_Vue开发者工具

文章目录 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染2. 插值表达式{{}}3. 访问数据和修改数据4. vue响应式5. Vue开发者工具--方便调试 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染准备容器引包创建Vue实例 new Vue()指定配置项 ->渲染数据准备一个容器,例如: …...

编程新知 2026/2/7 10:59:19

Springcloud：Eureka 高可用集群搭建实战（服务注册与发现的底层原理与避坑指南）

引言：为什么 Eureka 依然是存量系统的核心？ 尽管 Nacos 等新注册中心崛起，但金融、电力等保守行业仍有大量系统运行在 Eureka 上。理解其高可用设计与自我保护机制，是保障分布式系统稳定的必修课。本文将手把手带你搭建生产级 Eur…...

编程新知 2026/1/31 7:23:48

Psychopy音频的使用

Psychopy音频的使用本文主要解决以下问题： 指定音频引擎与设备；播放音频文件本文所使用的环境： Python3.10 numpy2.2.6 psychopy2025.1.1 psychtoolbox3.0.19.14 一、音频配置 Psychopy文档链接为Sound - for audio playback — Psy…...

编程新知 2026/1/31 15:09:31

React---day11

14.4 react-redux第三方库提供connect、thunk之类的函数以获取一个banner数据为例子 store： 我们在使用异步的时候理应是要使用中间件的，但是configureStore 已经自动集成了 redux-thunk，注意action里面要返回函数 import { configureS…...

编程新知 2026/1/19 2:13:24

Python基于历史模拟方法实现投资组合风险管理的VaR与ES模型项目实战

说明：这是一个机器学习实战项目（附带数据代码文档），如需数据代码文档可以直接到文章最后关注获取。 1.项目背景在金融市场日益复杂和波动加剧的背景下，风险管理成为金融机构和个人投资者关注的核心议题之一。VaR&…...

编程新知 2026/1/25 4:19:49

Python Einops库：深度学习中的张量操作革命

Einops（爱因斯坦操作库）就像给张量操作戴上了一副"语义眼镜"——让你用人类能理解的方式告诉计算机如何操作多维数组。这个基于爱因斯坦求和约定的库，用类似自然语言的表达式替代了晦涩的API调用，彻底改变了深度学习工程…...

编程新知 2025/10/16 12:04:52

HubSpot推出与ChatGPT的深度集成引发兴奋与担忧

上周三，HubSpot宣布已构建与ChatGPT的深度集成，这一消息在HubSpot用户和营销技术观察者中引发了极大的兴奋，但同时也存在一些关于数据安全的担忧。许多网络声音声称，这对SaaS应用程序和人工智能而言是一场范式转变。但向任何技…...

编程新知 2026/2/6 4:24:06

vue3 daterange正则踩坑

<el-form-item label"空置时间" prop"vacantTime"> <el-date-picker v-model"form.vacantTime" type"daterange" start-placeholder"开始日期" end-placeholder"结束日期" clearable :editable"fal…...

编程新知 2025/12/27 19:12:09

交叉验证

保留交叉验证

k-折交叉验证

留一交叉验证

混淆矩阵

精度与召回率

介绍

精度

召回率

区别

使用代码

偏差与方差

介绍

区别

结语

相关文章：