数据分析系列--⑦RapidMiner模型评价(基于泰坦尼克号案例含数据集)
一、前提
二、模型评估
1.改造⑥
2.Cross Validation算子说明
2.1Cross Validation 的作用
2.1.1 模型评估
2.1.2 减少过拟合
2.1.3 数据利用
2.2 Cross Validation 的工作原理
2.2.1 数据分割
2.2.2 迭代训练与测试
2.2.3 结果汇总
2.2.4 Cross Validation 的参数
2.2.5 Cross Validation 的流程
2.2.6 示例
2.2.7 总结
3 实践
4 结果说明
5 决策依据
一、前提
请确保已有第⑥小节中所完成的模型,没有可以点击数据分析系列--⑥RapidMiner构建决策树(泰坦尼克号案例含数据)
链接学习.
二、模型评估
1.改造⑥
⑥小节完成后的模型如下,复制粘贴保存为EvaluatingTheTitanicModel.


2.Cross Validation算子说明

在RapidMiner中,Cross Validation又称为交叉验证,用于评估模型的性能和泛化能力。它是一种统计方法,通过将数据集分成多个子集来训练和测试模型,从而减少过拟合和评估偏差。
2.1Cross Validation 的作用
2.1.1 模型评估
- 交叉验证通过多次训练和测试模型,提供更可靠的性能评估(如准确率、精确率、召回率等)。
- 与简单的训练-测试分割相比,交叉验证能更全面地反映模型的表现。
2.1.2 减少过拟合
- 通过多次使用不同的训练和测试子集,交叉验证可以检测模型是否过拟合训练数据。
2.1.3 数据利用
- 交叉验证充分利用所有数据,既用于训练也用于测试,适合数据量较少的情况。
2.2 Cross Validation 的工作原理
2.2.1 数据分割
- 将数据集分成 \( k \) 个大小相似的子集(称为“折”或“folds”)。
- 例如,\( k=10 \) 表示 10 折交叉验证。
2.2.2 迭代训练与测试
- 每次迭代中,选择一个子集作为测试集,其余 \( k-1 \) 个子集作为训练集。
- 训练模型并在测试集上评估性能。
2.2.3 结果汇总
- 所有迭代完成后,计算性能指标的平均值,作为模型的最终评估结果。
2.2.4 Cross Validation 的参数
在 RapidMiner 中,Cross Validation 算子有以下关键参数:
2.2.4.1 Number of folds(折数)
- 决定将数据集分成多少个子集。常见值为 5 或 10。
2.2.4.2 Sampling type(采样类型)
- 决定如何分割数据,例如分层采样(Stratified Sampling)可以保持类别分布。
2.2.4.3 Use local random seed(使用本地随机种子)
- 控制数据分割的随机性,确保结果可重复。
2.2.5 Cross Validation 的流程
在 RapidMiner 中,Cross Validation 算子的典型流程如下:
1. 将数据集连接到 Cross Validation 算子的输入端口。
2. 在 Cross Validation 算子内部:
- 将模型(如决策树、逻辑回归等)放入 Training 子流程。
- 将性能评估算子(如 Performance)放入 Testing 子流程。
3. 运行流程后,Cross Validation 会输出模型的平均性能指标。
2.2.6 示例
假设使用 5 折交叉验证评估决策树模型:
1. 数据集被分成 5 个子集。
2. 进行 5 次迭代:
- 每次使用 4 个子集训练模型,1 个子集测试模型。
3. 最终输出 5 次测试的平均准确率、F1 分数等。
2.2.7 总结
Cross Validation 算子的主要作用是:
- 提供更可靠的模型性能评估。
- 减少过拟合风险。
- 充分利用数据,特别适合小数据集。
它是模型开发和评估中不可或缺的工具,帮助确保模型在实际应用中的稳定性和泛化能力。
3 实践






4 结果说明
这是一个混淆矩阵,根据混淆矩阵可知如下结果:


5 决策依据



Ending, congratulations, you're done.
相关文章:
数据分析系列--⑦RapidMiner模型评价(基于泰坦尼克号案例含数据集)
一、前提 二、模型评估 1.改造⑥ 2.Cross Validation算子说明 2.1Cross Validation 的作用 2.1.1 模型评估 2.1.2 减少过拟合 2.1.3 数据利用 2.2 Cross Validation 的工作原理 2.2.1 数据分割 2.2.2 迭代训练与测试 2.2.3 结果汇总 …...
19 压测和常用的接口优化方案
高并发的平台应用,项目上线前离不开一个重要步骤就是压测,压测对于编码中的资源是否问题的排查,性能的调优都是离不开的。测试还要做测试报告,出具了测试报告给到运维团队才能上线。 压测的测试报告主要有以下几个方面:1.响应时间…...
gentoo中利用ollama运行DeepSeek-R1
一、安装ollama gentoo linux中 1.安装步骤: Step1. #cd /usr/local/src Step2. #wget2 -o -V https://ollama.com/install.sh Setp3. #sh ./install.sh 2.ollama完成安装。查看ollama版本: 3.查看ollama服务运行状态: 二、安装…...
远程连接-简化登录
vscode通过ssh连接远程服务器免密登录(图文)_vscode ssh-CSDN博客...
PHP中配置 variables_order详解
variables_order 是 PHP 配置文件 php.ini 中的一项配置指令,决定了 PHP 在处理请求时,哪些类型的变量将被注册到全局变量空间(如 $GLOBALS)中,以及这些变量的顺序。理解和正确配置 variables_order 对于开发和维护安全…...
为什么推荐将静态资源放在CDN上?
1. CDN 是什么? CDN(Content Delivery Network)是一种分布式网络,由地理上分散的服务器节点组成。其主要功能是将静态资源缓存到各地的边缘服务器上,从而将内容更快地传递给用户。当用户请求资源时,CDN 会…...
【NEXT】网络编程——上传文件(不限于jpg/png/pdf/txt/doc等),或请求参数值是file类型时,调用在线服务接口
最近在使用华为AI平台ModelArts训练自己的图像识别模型,并部署了在线服务接口。供给客户端(如:鸿蒙APP/元服务)调用。 import核心能力: import { http } from kit.NetworkKit; import { fileIo } from kit.CoreFileK…...
工作总结:压测篇
前言 压测是测试需要会的一项技能,作为开发,有点时候也要会一点压测。也是被逼着现学现卖的。 一、压测是什么,以及压测工具的选择 压测,即压力测试,是一种性能测试手段,通过模拟大量用户同时访问系统&am…...
MySQL基本架构SQL语句在数据库框架中的执行流程数据库的三范式
MySQL基本架构图: MySQL主要分为Server层和存储引擎层 Server层: 连接器:连接客户端,获取权限,管理连接 查询缓存(可选):在执行查询语句之前会先到查询缓存中查看是否执行过这条语…...
CSS 中调整元素大小的全面指南
CSS 中调整元素大小的全面指南 1. 原始尺寸(固有尺寸)示例代码:图像的固有尺寸 2. 设置具体的尺寸示例代码:设置固定宽度和高度 3. 使用百分比示例代码:使用百分比设置宽度 4. 使用百分比作为外边距和内边距示例代码&a…...
Hive存储系统全面测试报告
引言 在大数据时代,数据存储和处理技术的重要性日益凸显。Apache Hive作为一个基于Hadoop的数据仓库工具,因其能够提供类SQL查询功能(HiveQL)而广受欢迎。Hive的设计初衷是为了简化大数据集的查询和管理,它允许用户通…...
minimind - 从零开始训练小型语言模型
大语言模型(LLM)领域,如 GPT、LLaMA、GLM 等,虽然它们效果惊艳, 但动辄10 Bilion庞大的模型参数个人设备显存远不够训练,甚至推理困难。 几乎所有人都不会只满足于用Lora等方案fine-tuing大模型学会一些新的…...
前端知识速记—JS篇:箭头函数
前端知识速记—JS篇:箭头函数 什么是箭头函数? 箭头函数是 ES6 引入的一种新的函数书写方式,其语法更为简洁,常用于替代传统的函数表达式。箭头函数的基本语法如下: const functionName (parameters) > {// 函数…...
小程序的协同工作与发布
1.小程序API的三大分类 2.小程序管理的概念,以及成员管理两个方面 3.开发者权限说明以及如何维护项目成员 4.小程序版本...
计算机网络 笔记 网络层 3
IPv6 IPv6 是互联网协议第 6 版(Internet Protocol Version 6)的缩写,它是下一代互联网协议,旨在解决 IPv4 面临的一些问题,以下是关于 IPv6 的详细介绍: 产生背景: 随着互联网的迅速发展&…...
python 语音识别
目录 一、语音识别 二、代码实践 2.1 使用vosk三方库 2.2 使用SpeechRecognition 2.3 使用Whisper 一、语音识别 今天识别了别人做的这个app,觉得虽然是个日记app 但是用来学英语也挺好的,能进行语音识别,然后矫正语法,自己说的时候 ,实在不知道怎么说可以先乱说,然…...
事务02之锁机制
锁机制 文章目录 锁机制一:MySQL锁的由来与分类1:锁机制的分类 二:共享锁与排他锁1:共享锁(S锁)2:排他锁(X锁)3:锁的释放 二:表级别锁1:元数据锁(了解)2:意向锁3…...
Python NumPy(10):NumPy 统计函数
1 NumPy 统计函数 NumPy 提供了很多统计函数,用于从数组中查找最小元素,最大元素,百分位标准差和方差等。 1.1 numpy.amin() 和 numpy.amax() numpy.amin() 用于计算数组中的元素沿指定轴的最小值。 numpy.amin(a, axisNone, outNone, keep…...
[Spring] Gateway详解
🌸个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 🏵️热门专栏: 🧊 Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 🍕 Collection与…...
TCP三次握手和四次挥手面试题
TCP标志位TCP序列号、确认号三次握手 三次握手过程为什么不是两次握手?为什么不是四次握手? 为什么超时重传?如何处理丢包 为什么需要超时重传?如何处理丢包? 四次挥手 四次挥手过程为什么需要四次挥手为什么四次挥手,…...
使用openAI与Deepseek的感受
今天简单介绍下使用OpenAI和DeepSeek的感觉,有些地方可能存在不准确的地方,望指正: 从2023年的秋冬到现在2025年的1月间,OpenAI和DeepSeek我都用它们来帮我,当然更多的是OpenAI,但整体感受如下:…...
FFmpeg(7.1版本)在Ubuntu18.04上的编译
一、从官网上下载FFmpeg源码 官网地址:Download FFmpeg 点击Download Source Code 下载源码到本地电脑上 二、解压包 tar -xvf ffmpeg-7.1.tar.xz 三、配置configure 1.准备工作 安装编译支持的软件 ① sudo apt-get install nasm //常用的汇编器,…...
为AI聊天工具添加一个知识系统 之80 详细设计之21 符号逻辑 之1
本文要点 要点 前面我们讨论了本项目中的正则表达式。现在我们将前面讨论的正则表达式视为狭义的符号文本及其符号规则rule(认识的原则--认识上认识对象的约束),进而在更广泛的视角下将其视为符号逻辑及其符号原则principle(知识…...
【C++】类和对象(5)
目录 一、构造函数补充1、初始化列表 二、类型转换三、static成员四、友元1、友元函数2、友元类 五、内部类六、匿名对象 一、构造函数补充 对于之前讲解的构造函数,还有一些更深层次的内容要进行补充,接下来进行补充内容的讲解。 1、初始化列表 在我…...
FPGA|使用quartus II通过AS下载POF固件
1、将开发板设置到AS下载挡位,或者把下载线插入到AS端口 2、打开quartus II,选择Tools→Programmer→ Mode选择Active Serial Programming 3、点击左侧Add file…,选择 .pof 文件 →start 4、勾选program和verify(可选࿰…...
H. Mad City
题目链接:Problem - H - Codeforces 题目大意:给定一个带环的图, 以及a, b两点 判断再图上不断的移动, b想不与a相遇, a想捉到b, 并且二者只能移动一步。 若b跑不掉 NO 否则YES. 具体题目看链接 输入: …...
Nginx前端后端共用一个域名如何配置
在 Nginx 中配置前端和后端共用一个域名的情况,通常是通过路径或子路径将请求转发到不同的服务。以下是一个示例配置,假设: 前端静态文件在 /var/www/frontend/。 后端 API 服务运行在 http://127.0.0.1:5000。 域名是 example.comÿ…...
27.Word:财务软件应用的书稿【10】
目录 NO1.2 NO3 NO5.6 NO7.8 NO9 存在页码链接关系,只是页码格式不同 NO1.2 另存为/F12:考生文件夹布局→页面设置对话框→页边距:上下内外/装订线→纸张大小→布局:页眉页脚 NO3 样式的应用:超快速❗ 开…...
AI编程:如何编写提示词
这是小卷对AI编程工具学习的第2篇文章,今天讲讲如何编写AI编程的提示词,并结合实际功能需求案例来进行开发 1.编写提示词的技巧 好的提示词应该是:目标清晰明确,具有针对性,能引导模型理解问题 下面是两条提示词的对…...
记一次STM32编译生成BIN文件过大的问题(基于STM32CubeIDE)
文章目录 问题描述解决方法更多拓展 问题描述 最近在一个项目中使用了 STM32H743 单片机(基于 STM32CubeIDE GCC 开发),它的内存分为了 DTCMRAM RAM_D1 RAM_D2 …等很多部分。其中 DTCM 的速度是比通常的内存要快的,缺点是不支持…...
