当前位置: 首页 > news >正文

模型评估与选择

2.1 经验误差与过拟合

错误率(error rate): 分类错误的样本数占样本总数的比例

精度(accuracy):1- 错误率

训练误差 / 经验误差:在训练集上的误差

泛化误差:在新样本上的误差

过拟合

欠拟合

2.2 评估方法

测试集:测试学习器对新样本的判别能力,以测试集上的“测试误差”作为泛化误差的近似

对数据集进行适当的处理,拆分成训练集和测试集,常用的处理方法:

2.2.1 留出法

直接将数据集划分为两个互斥的集合

2.2.2 交叉验证法

将数据集划分为k个大小相似的互斥子集。每次用k-1个子集的并集作为训练集,余下的子集作为测试集合,得到k组训练/测试集,从而进行k次训练和测试,最终返回这k个测试结果的均值。

2.2.4 调参与最终模型

2.3 性能度量

性能度量:衡量模型泛化能力的评价标准

2.3.1 错误率与精度

分类任务中最常用的两种性能度量:错误率,精度

错误率:分类错误的样本数占样本总数的比例

精度:分类正确的样本数占样本总数的比例


2.3.2 查准率,查全率与F1

“查准率” (精确率 precision)
“查全率”(召回率 recall)

对于二分类问题,可以将样例根据其真实类别与学习器预测类别的组合划分为:

  • 真正例(true positive):正例里面被预测为正例
  • 假正例(false positive):反例里面被预测为正例
  • 真反例(true negative):反例里面被预测为反例
  • 假反例(false negative):正例里面被预测为反例

令 TP,FP,TN,FN 分别表示其对应的样例数,则有

精确率与召回率 的定义如下:

“平衡点”(Break-Event Point):精确率 == 召回率时的取值

但是 BEP 过于简化,更常用的是F1度量:

2.3.3 ROC 与 AUC

与P-R曲线类似,我们根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要量的值,分别作为横、纵坐标做图。

ROC曲线的的横轴为:假正例率 FP

ROC曲线的的纵轴为:真正例率 TP

2.3.4 代价敏感错误率与代价曲线

代价敏感错误率
不同类型的错误所造成的后果或者代价是不同的,代价敏感错误率是基于非均等代价的。二分类代价矩阵:costij表示将第i类样本预测为第j类样本的代价。一般说来,costii=0;若将第0类判别为第1类所造成的损失更大,则cost01> cost10;在非均等错误代价下,我们希望的是最小化“总体代价”,这样“代价敏感”的错误率为:

2.4 比较检验

使用某种实验评估方法测得学习器的某个性能度量结果,然后对这些结果进行比较。

是直接取得性能度量的值比“大小”吗?

实际上比较复杂,涉及到几个重要因素:

  • 希望比较的是泛化能力。然而获得的是测试集上的性能,测试集也是样本,可能包括的不全;
  • 测试集上的性能与测试集本身的选择有很大关系,且不论使用不同大小的测试集会得到不同的结果,(即使使用相同大小的测试集,若包含的测试样例不同,测试结果也会有不同)
  • 机器学习算法本身具有一定的随机性,即便使用相同的参数设置在同一个测试集上多次运行,其结果也会有不同。


 

相关文章:

模型评估与选择

2.1 经验误差与过拟合 错误率(error rate): 分类错误的样本数占样本总数的比例 精度(accuracy):1- 错误率 训练误差 / 经验误差:在训练集上的误差 泛化误差:在新样本上的误差 过…...

有必要把共享服务器升级到VPS吗?

根据自己的需求来选择是否升级,虚拟专用服务器 (VPS) 是一种托管解决方案,它以低得多的成本提供专用服务器的大部分功能。使用 VPS,您的虚拟服务器将与在其上运行的其他虚拟服务器共享硬件服务器的资源。但是,与传统的共享托管&am…...

LLM代理应用实战:构建Plotly数据可视化代理

如果你尝试过像ChatGPT这样的LLM,就会知道它们几乎可以为任何语言或包生成代码。但是仅仅依靠LLM是有局限的。对于数据可视化的问题我们需要提供一下的内容 描述数据:模型本身并不知道数据集的细节,比如列名和行细节。手动提供这些信息可能很麻烦&#…...

大模型系列3--pytorch dataloader的原理

pytorch dataloader运行原理 1. 背景2. 环境搭建2.1. 安装WSL & vscode2.2. 安装conda & pytorch_gpu环境 & pytorch 2.112.3 命令行验证python环境2.4. vscode启用pytorch_cpu虚拟环境 3. 调试工具3.1. vscode 断点调试3.2. py-spy代码栈探测3.3. gdb attach3.4. …...

SQLServer 如何设置端口

在SQL Server中,可以通过以下步骤设置端口: 打开SQL Server配置管理器。可以在开始菜单中搜索“SQL Server配置管理器”来找到它。 在左侧导航窗格中,展开“SQL Server网络配置”节点。 选择你要配置的实例,如“SQL Server Netw…...

调整网络安全策略以适应不断升级的威胁形势

关键网络安全统计数据和趋势 当今数字时代网络安全的重要性...

(leetcode学习)9. 回文数

给你一个整数 x ,如果 x 是一个回文整数,返回 true ;否则,返回 false 。 回文数 是指正序(从左向右)和倒序(从右向左)读都是一样的整数。 例如,121 是回文,而…...

QT VTK 简单测试工程

目录 1 目录结构 2 文件源码 3 运行结果 4 报错及处理 使用编译好的VTK库进行测试 1 目录结构 2 文件源码 Pro文件 QT core guigreaterThan(QT_MAJOR_VERSION, 4): QT widgetsCONFIG c17# You can make your code fail to compile if it uses deprecated APIs. #…...

ES6 Generator函数的异步应用 (八)

ES6 Generator 函数的异步应用主要通过与 Promise 配合使用来实现。这种模式被称为 “thunk” 模式,它允许你编写看起来是同步的异步代码。 特性: 暂停执行:当 Generator 函数遇到 yield 表达式时,它会暂停执行,等待 …...

Navicat:打造高效数据库管理之道

1. 导言 1.1 介绍Navicat Navicat是一款功能强大的数据库管理工具,旨在帮助用户高效地管理多种类型的数据库,包括MySQL、PostgreSQL、Oracle、SQL Server等。通过Navicat,用户可以轻松地进行数据库的创建、编辑、备份、同步和调试等操作,极大地简化了数据库管理的复杂性。…...

Python和C++全球导航卫星系统和机器人姿态触觉感知二分图算法

🎯要点 🎯马尔可夫随机场网格推理学习 | 🎯二维伊辛模型四连网格模型推理 | 🎯统计物理学模型扰动与最大乘积二值反卷积 | 🎯受限玻尔兹曼机扰动和最大乘积采样 | 🎯视觉概率生成模型测试图像 &#x1f3…...

Unity 优化合集

1️⃣ 贴图优化 1. Read/Write Enable 这个属性勾选后允许你在运行时读取和写入纹理数据,这对于需要实时生成内容或者需要动态修改纹理的场合非常有用但在大部分情况下这是不必要的。如果打开这个属性,会使运行时贴图大小翻倍,内存中会额外…...

第九届MathorCup高校数学建模挑战赛-A题:基于数据驱动的城市轨道交通网络优化研究

目录 摘 要 一、 问题的提出 二、 基本假设 三、 符号说明 四、 问题分析 4.1 问题 1 的分析 4.2 问题 2 的分析 4.3 问题 3 的分析 4.4 问题 4 的分析 五、 问题 1 的模型建立与求解 5.1 问题分析 5.2 数据处理 5.2.1 数据统计 5.2.2 异常数据处理方法 5.2.3 剔除异常数据值 5…...

Spring webflux基础核心技术

一、 用操作符转换响应式流 1 、 映射响应式流元素 转换序列的最自然方式是将每个元素映射到一个新值。 Flux 和 Mono 给出了 map 操作符&#xff0c;具有 map(Function<T&#xff0c;R>) 签名的方法可用于逐个处理元素。 当操作符将元素的类型从 T 转变为 R 时&#xf…...

关闭Ubuntu烦人的apport

先来看让人绷不住的&#xff08;恼&#xff09; 我查半天apport是啥玩意发现就一错误报告弹窗&#xff0c;十秒钟给我弹一次一天给我内存弹爆了 就算我程序就算真的不停崩溃&#xff0c;也没你这傻比apport杀伤性强啊&#xff1f;&#xff1f;&#xff1f; 原则上是不建议关闭…...

海事无人机解决方案

海事巡察 海事巡察现状 巡查效率低下&#xff0c;存在视野盲区&#xff0c;耗时长&#xff0c;人力成本高。 海事的职能 统一管理水上交通安全和防治船舶污染。 管理通航秩序、通航环境。负责水域的划定和监督管理&#xff0c;维护水 上交通秩序&#xff1b;核定船舶靠泊安…...

Docker--在linux安装软件

Docker 引用Docker原因是在linux中安装软件 以前在linux中安装软件&#xff0c;是直接安装在linux操作系统上&#xff0c;软件和操作系统耦合度很高&#xff0c;不方便管理&#xff0c;因为linux版本不同&#xff0c;环境也就改变了 docker是一种容器技术&#xff0c;提供标…...

知识库与RAG

认识知识库的技术原理 第一步&#xff1a;&#x1f4d6;➡️&#x1f4c8;将文档的文本转换为向量&#xff0c;向量存储到向量数据库。第二步&#xff1a;&#x1f5e8;️➡️&#x1f50d;将用户的提问内容转换成向量&#xff0c;在向量数据库中检索相似的文本内容&#xff0…...

【2024最新】C++扫描线算法介绍+实战例题

扫描线介绍&#xff1a;OI-Wiki 【简单】一维扫描线&#xff08;差分优化&#xff09; 网上一维扫描线很少有人讲&#xff0c;可能认为它太简单了吧&#xff0c;也可能认为这应该算在差分里&#xff08;事实上讲差分的文章里也几乎没有扫描线的影子&#xff09;。但我认为&am…...

语言主要是一种交流工具,而不是思维工具?GPT5何去何从?

引言 在人工智能领域&#xff0c;特别是大语言模型&#xff08;LLM&#xff09;的发展中&#xff0c;语言和思维的关系一直是一个备受关注的话题。近期&#xff0c;麻省理工学院&#xff08;MIT&#xff09;在《Nature》杂志上发表了一篇题为《Language is primarily a tool f…...

DeepSeek总结的从 DuckDB 迁移到 chDB基准测试

来源: https://github.com/chdb-io/cookbook/tree/main/migration-from-duckdbBENCHMARK.md 迁移基准测试 —— 深度探讨 本文是从 DuckDB 迁移到 chDB指南的配套文档。指南的第 5 节将环境/场景/结果/摘要内联呈现&#xff1b;本文件则包含不适合指南风格流程的部分&#xf…...

从加密狗激活到平台注册:dSPACE MicroAutoBOX II 与 MATLAB 2016b 联调实战记录

从加密狗激活到平台注册&#xff1a;dSPACE MicroAutoBOX II 与 MATLAB 2016b 联调实战记录 在汽车电子控制单元&#xff08;ECU&#xff09;开发领域&#xff0c;dSPACE MicroAutoBOX II 作为一款实时硬件在环&#xff08;HIL&#xff09;测试平台&#xff0c;与 MATLAB/Simul…...

基于RK平台的智慧出行方案:从芯片选型到车规级开发的实战指南

1. 项目概述&#xff1a;当“智慧出行”遇上“RK平台”最近几年&#xff0c;如果你关注汽车电子或者物联网领域&#xff0c;一定对“智慧出行”这个词不陌生。它早已不是科幻电影里的概念&#xff0c;而是真真切切地走进了我们的生活&#xff0c;从智能座舱里流畅的语音交互、多…...

汽车12V电源防护:P6KE TVS二极管选型、设计与实战指南

1. 项目概述&#xff1a;汽车电源线上的“隐形保镖”在汽车电子系统的设计里&#xff0c;12V直流电源线是整车的能量动脉&#xff0c;从蓄电池到ECU&#xff08;发动机控制单元&#xff09;、从车身控制器到娱乐系统&#xff0c;几乎所有的电子模块都离不开它。但这条“动脉”所…...

如何快速实现浏览器隐身:puppeteer-extra-stealth的完整指南

如何快速实现浏览器隐身&#xff1a;puppeteer-extra-stealth的完整指南 【免费下载链接】puppeteer-extra &#x1f4af; Teach puppeteer new tricks through plugins. 项目地址: https://gitcode.com/gh_mirrors/pu/puppeteer-extra 你是否曾尝试使用Puppeteer进行网…...

3DS GBA硬件直通终极指南:用open_agb_firm获得原生游戏体验

3DS GBA硬件直通终极指南&#xff1a;用open_agb_firm获得原生游戏体验 【免费下载链接】open_agb_firm open_agb_firm is a bare metal app for running GBA homebrew/games using the 3DS builtin GBA hardware. 项目地址: https://gitcode.com/gh_mirrors/op/open_agb_fir…...

【AI Agent审计实战白皮书】:20年审计专家亲授7大高危场景识别法与合规落地路径

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;AI Agent审计的核心范式演进 传统软件系统审计聚焦于代码合规性、日志完整性与权限边界&#xff0c;而AI Agent的自主决策、多步推理与动态工具调用能力&#xff0c;正推动审计范式从静态验证转向“意图…...

Kali365 钓鱼平台突袭 Microsoft 365 用户:FBI 紧急预警新型 OAuth 令牌攻击链

近期&#xff0c;美国联邦调查局&#xff08;FBI&#xff09;联合网络安全与基础设施安全局&#xff08;CISA&#xff09;发布了一则编号为 I-052126-PSA 的私营行业通知&#xff0c;披露了一个正在暗处快速膨胀的威胁——名为 Kali365 的网络钓鱼即服务&#xff08;PhaaS&…...

JDeferred入门教程:从零开始构建高效异步Java应用

JDeferred入门教程&#xff1a;从零开始构建高效异步Java应用 【免费下载链接】jdeferred Java Deferred/Promise library similar to JQuery. 项目地址: https://gitcode.com/gh_mirrors/jd/jdeferred 想要掌握Java异步编程的终极秘诀吗&#xff1f;JDeferred库为您提供…...

3步掌握React Easy Crop:从零到精通的图像裁剪完整指南

3步掌握React Easy Crop&#xff1a;从零到精通的图像裁剪完整指南 【免费下载链接】react-easy-crop A React component to crop images/videos with easy interactions 项目地址: https://gitcode.com/gh_mirrors/re/react-easy-crop 你是否在为React应用中的图片裁剪…...