当前位置：首页 > news >正文

【机器学习300问】34、决策树对于数值型特征如果确定阈值？

news 2025/12/20 8:51:44

还是用之前的猫狗二分类任务举例（这个例子出现在【机器学习300问】第33问中），我们新增一个数值型特征（体重），下表是数据集的详情。如果想了解更多决策树的知识可以看看我之前的两篇文章：

【机器学习300问】28、什么是决策树？http://t.csdnimg.cn/Tybfj

【机器学习300问】33、决策树是如何进行特征选择的？http://t.csdnimg.cn/iaxSA 这里我就不赘述啦，直接进入正题。

如果我选择用体重特征作为根节点的决策策略，那么我们会面临这样一个问题。

一、什么阈值才能更好的区分数据集？

所用到的工具还是信息增益，我们可以将一些列可能比较不错的能区分数据集的阈值列举出来，例如，在连续数值区间上，可以测试每个唯一值或者每隔一定步长选取值作为潜在的阈值，画出下面这样的一幅图。

首先，遍历数据集中所有猫和狗的体重值
对于每一个可能的体重阈值，将样本集划分为两个子集：一组是体重低于该阈值的动物，另一组是体重等于或高于该阈值的动物
计算划分前的数据集的信息熵以及每个子集的信息熵，并根据子集内样本数目的比例加权求和得到条件熵（就像下面这幅图中所示）
通过比较不同阈值下所对应的信息增益，选择信息增益最大的那个阈值作为分割点

在这个例子中我们最终选定了，体重<=9，作为最合适的阈值，因为此时的信息增益最大。

二、如何停止决策树的分叉？

这里再讲一个知识点，虽然这个知识点和题目无关（偷笑），但因为讲到了信息增益所以补充一个通过信息增益停止构建决策树防止过拟合的方法。决策树停止分叉（即停止生长或停止构建子节点）的常见条件包括但不限于以下几种：

最大深度限制：预先设定一个整数值，作为决策树的最大允许深度。当当前节点所在的分支达到这个深度时，无论当前节点的信息增益或其他指标如何，都不再进行分割。
最小节点样本数：规定每个内部节点（非叶子节点）所包含的最少样本数量，若某节点划分后某个子节点中的样本数量小于这个阈值，则不再继续分割。
信息增益阈值：设置一个信息增益的最小值，如果某个特征划分数据集后的信息增益低于此阈值，则停止该节点的进一步划分。
叶子节点数目限制：可以设定决策树允许的最大叶子节点数量，当到达这个数量时停止构建新节点。
无更多可分特征：所有特征都已经被用于划分，并且当前节点下的样本已经无法通过剩余特征得到更优的划分结果。

【机器学习300问】34、决策树对于数值型特征如果确定阈值？

还是用之前的猫狗二分类任务举例（这个例子出现在【机器学习300问】第33问中），我们新增一个数值型特征（体重），下表是数据集的详情。如果想了解更多决策树的知识可以看看我之前的两篇文章： 【机器…...

编程日记 2024/3/17 0:17:44

计算机二级（Python）真题讲解每日一题：《绘制雪花》

在横线处填写代码，完成如下功能‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬…...

编程日记 2024/3/17 0:15:42

Rust 的 Arc＜Mutex＜T＞＞的用法示例源代码

在 Rust 中，Arc<Mutex<T>> 是一种组合类型，它结合了 Arc（原子引用计数）和 Mutex（互斥锁）。Arc 用于在多个所有者之间共享数据，而 Mutex 用于确保在任意时刻只有一个线程可以访问被保…...

编程日记 2024/3/17 0:13:41

【NR 定位】3GPP NR Positioning 5G定位标准解读（十六）-UL-AoA 定位

前言 3GPP NR Positioning 5G定位标准：3GPP TS 38.305 V18 3GPP 标准网址：Directory Listing /ftp/ 【NR 定位】3GPP NR Positioning 5G定位标准解读（一）-CSDN博客【NR 定位】3GPP NR Positioning 5G定位标准解读（…...

编程日记 2024/3/17 0:08:36

如何理解闭包

闭包是编程语言中一个重要的概念，特别是在函数式编程中常常会遇到。以下是对闭包的理解： 1. 定义：闭包是一种函数，它引用了在其定义范围之外的自由变量（非全局变量），并且这些引用的变量在函数被调用时仍然保持活跃状态。2. 构成：闭包通常由两部分组成：内部函数（函…...

编程日记 2024/3/17 0:07:35

python知识点总结(一)

这里写目录标题一、什么是WSGI,uwsgi,uWSGI1、WSGI2、uWSGI3、uwsgi 二、python中为什么没有函数重载？三、Python中如何跨模块共享全局变量?四、内存泄露是什么?如何避免?五、谈谈lambda函数作用?六、写一个函数实现字符串反转，尽可能写出你知道的所…...

编程日记 2024/3/17 0:06:34

【Poi-tl Documentation】区块对标签显示隐藏改造

前置说明： <dependency><groupId>com.deepoove</groupId><artifactId>poi-tl</artifactId><version>1.12.1</version> </dependency>模板： 删除行表格测试.docx 改造前测试效果 package run.siyuan…...

编程日记 2024/3/17 0:04:33

第十四届蓝桥杯三国游戏

一开始的思路就是想着暴力，但是呢，如果真的用暴力一个一个列的话，连30%的数据都搞定不了，所以这里需要考虑别的办法。这道题的思路就是贪心。我们这样想：既然要满足至少一个国X>YZ，那么我们何不变成…...

编程日记 2024/3/17 0:03:31

数据结构——通讯录项目

1.通讯录的介绍顺序表是通讯录的底层结构。通讯录是将顺序表的类型替换成结构体类型来储存用户数据，通过运用顺序表结构来实现的。用户数据结构： typedef struct PersonInfo {char name[12];char sex[10];int age;char tel[11];char addr[100]; }…...

编程日记 2024/3/17 0:02:30

学点Java打小工_Day4_数组_冒泡排序

1 数组基本概念程序算法数据结构算法：解决程序的流程步骤数据结构：将数据按照某种特定的结构来存储设计良好的数据结构会导致良好的算法。 ArrayList、LinkedList 数组是最简单的数据结构。数组：存放同一种类型数据的集合，在…...

编程日记 2024/3/17 0:01:30

内存分配方式？

内存分配方式主要有三种： 静态存储区分配：这种方式在程序编译的时候就已经分配好内存，并且这块内存在程序的整个运行期间都存在。全局变量和静态变量通常就是在静态存储区分配的。这种分配方式效率高，因为内存在程序开始执行前就已…...

编程日记 2024/3/17 0:00:29

文章目录摘要Abstract文献阅读题目引言模型架构编码器和解码器堆栈AttentionPosition-wise Feed-Forward NetworksEmbeddings and SoftmaxPositional Encoding 实验数据实验结果深度学习TransformerEncoderDecoder 总结摘要本周阅读了Transformer的开山之作《Attention Is…...

编程日记 2024/3/16 23:56:26

函数连续性和Lipschitz连续性

摘要： 直观上，Lipschitz连续性的含义是函数图像的变化速度有一个全局的上限，即函数的增长速率不会无限增加。这种性质确保了函数在任何地方都不会过于陡峭，有助于分析函数的行为，并且在优化、动力系统理论、机器学习等…...

编程日记 2024/3/16 23:55:24

Qt 鼠标滚轮示例

1.声明 void wheelEvent(QWheelEvent *event) override;2.实现（方便复制、测试起见用静态变量） #include <mutex> void MainWindow::wheelEvent(QWheelEvent *event) {static QLabel *label new QLabel("Zoom Level: 100%", this);st…...

编程日记 2024/3/16 23:53:22

【Unity】进度条和血条的三种做法

前言在使用Unity开发的时候，进度条和血条是必不可少的，本篇文章将简单介绍一下几种血条的制作方法。 1.使用Slider Slider组件由两部分组成：滑动区域和滑块。滑动区域用于显示滑动条的背景，而滑块则表示当前的数值位置。用户可…...

编程日记 2024/3/16 23:52:21

多人聊天室（epoll - Linux网络编程）

文章目录零、效果展示一、服务器代码二、客户端代码三、知识点1.connect()2.socket()3.bind()4.send()5.recv() 四、改进方向五、跟练视频零、效果展示一个服务器作为中转站，多个客户端之间可以相互通信。至少需要启动两个客户端。三个客户端互相通信一、服务…...

编程日记 2024/3/16 23:50:19

vite配置

"vite": "^5.1.4" resolve.alias：配置别名 1、执行npm install -D types/node 或者 yarn add types/node -D 2、以下配置代表访问src时可以用“”代替 resolve: {alias: {"": path.resolve(__dirname, "./src"),},}, 使…...

编程日记 2024/3/16 23:48:18

服务器生产环境问题解决思路

游戏服务器开发节奏比较快，版本迭代很频繁，有一些项目甚至出现了周更新（每周准时停服更新维护）。由于功能开发时间短，研发人员本身技术能力等原因，线上出现bug很常见。笔者经历过的游戏项目，一年到头没几次更新不出现bug的（当然，配置问题也算bug）。那当出现bug，我们…...

编程日记 2024/3/16 23:45:15

鸿蒙Harmony应用开发—ArkTS声明式开发（容器组件：Column）

沿垂直方向布局的容器。说明： 该组件从API Version 7开始支持。后续版本如有新增内容，则采用上角标单独标记该内容的起始版本。子组件可以包含子组件。接口 Column(value?: {space?: string | number}) 从API version 9开始，该接口…...

编程日记 2024/3/16 23:42:12

LLM之RAG实战（三十）| 探索RAG语义分块策略

在LLM之RAG实战（二十九）| 探索RAG PDF解析解析文档后，我们可以获得结构化或半结构化的数据。现在的主要任务是将它们分解成更小的块来提取详细的特征，然后嵌入这些特征来表示它们的语义，其在RAG中的位置如图1所示&…...

编程日记 2024/3/16 23:41:11

谷歌浏览器插件

项目中有时候会用到插件 sync-cookie-extension1.0.0：开发环境同步测试 cookie 至 localhost，便于本地请求服务携带 cookie 参考地址：https://juejin.cn/post/7139354571712757767 里面有源码下载下来，加在到扩展即可使用FeHelp…...

编程新知 2025/8/16 3:55:30

如何在看板中体现优先级变化

在看板中有效体现优先级变化的关键措施包括：采用颜色或标签标识优先级、设置任务排序规则、使用独立的优先级列或泳道、结合自动化规则同步优先级变化、建立定期的优先级审查流程。其中，设置任务排序规则尤其重要，因为它让看板视觉上直观地体…...

编程新知 2025/12/17 23:21:43

LeetCode - 394. 字符串解码

题目 394. 字符串解码 - 力扣（LeetCode） 思路使用两个栈：一个存储重复次数，一个存储字符串遍历输入字符串： 数字处理：遇到数字时，累积计算重复次数左括号处理：保存当前状态&a…...

编程新知 2025/12/19 4:12:14

【服务器压力测试】本地PC电脑作为服务器运行时出现卡顿和资源紧张（Windows/Linux）

要让本地PC电脑作为服务器运行时出现卡顿和资源紧张的情况，可以通过以下几种方式模拟或触发： 1. 增加CPU负载运行大量计算密集型任务，例如： 使用多线程循环执行复杂计算（如数学运算、加密解密等）。运行图…...

编程新知 2025/11/30 10:30:15

MySQL用户和授权

开放MySQL白名单可以通过iptables-save命令确认对应客户端ip是否可以访问MySQL服务： test: # iptables-save | grep 3306 -A mp_srv_whitelist -s 172.16.14.102/32 -p tcp -m tcp --dport 3306 -j ACCEPT -A mp_srv_whitelist -s 172.16.4.16/32 -p tcp -m tcp -…...

编程新知 2025/8/25 19:12:45

听写流程自动化实践，轻量级教育辅助

随着智能教育工具的发展，越来越多的传统学习方式正在被数字化、自动化所优化。听写作为语文、英语等学科中重要的基础训练形式，也迎来了更高效的解决方案。这是一款轻量但功能强大的听写辅助工具。它是基于本地词库与可选在线语音引擎构建，…...

编程新知 2025/12/10 2:13:51

C语言中提供的第三方库之哈希表实现

一. 简介前面一篇文章简单学习了C语言中第三方库（uthash库）提供对哈希表的操作，文章如下： C语言中提供的第三方库uthash常用接口-CSDN博客本文简单学习一下第三方库 uthash库对哈希表的操作。二. uthash库哈希表操作示例 u…...

编程新知 2025/11/9 14:40:17

C++_哈希表

本篇文章是对C学习的哈希表部分的学习分享相信一定会对你有所帮助~ 那咱们废话不多说，直接开始吧！ 一、基础概念 1. 哈希核心思想： 哈希函数的作用：通过此函数建立一个Key与存储位置之间的映射关系。理想目标：实现…...

编程新知 2025/12/18 17:44:26

【实施指南】Android客户端HTTPS双向认证实施指南

🔐 一、所需准备材料证书文件（6类核心文件） 类型格式作用 Android端要求 CA根证书 .crt/.pem 验证服务器/客户端证书合法性需预置到Android信任库服务器证书 .crt 服务器身份证明客户端需持有以验证服务器客户端证书 .crt 客户端身份…...

编程新知 2025/9/15 14:56:23

Appium下载安装配置保姆教程（图文详解）

目录一、Appium软件介绍 1.特点 2.工作原理 3.应用场景二、环境准备安装 Node.js 安装 Appium 安装 JDK 安装 Android SDK 安装Python及依赖包三、安装教程 1.Node.js安装 1.1.下载Node 1.2.安装程序 1.3.配置npm仓储和缓存 1.4. 配置环境 1.5.测试Node.j…...

编程新知 2025/12/15 1:09:11

【机器学习300问】34、决策树对于数值型特征如果确定阈值？

一、什么阈值才能更好的区分数据集？

二、如何停止决策树的分叉？

相关文章：

【机器学习300问】34、决策树对于数值型特征如果确定阈值？

计算机二级（Python）真题讲解每日一题：《绘制雪花》

Rust 的 Arc＜Mutex＜T＞＞的用法示例源代码

【NR 定位】3GPP NR Positioning 5G定位标准解读（十六）-UL-AoA 定位

如何理解闭包

python知识点总结(一)

【Poi-tl Documentation】区块对标签显示隐藏改造

第十四届蓝桥杯三国游戏

数据结构——通讯录项目

学点Java打小工_Day4_数组_冒泡排序

内存分配方式？

2024/3/17周报

函数连续性和Lipschitz连续性

Qt 鼠标滚轮示例

【Unity】进度条和血条的三种做法

多人聊天室（epoll - Linux网络编程）

vite配置

服务器生产环境问题解决思路

鸿蒙Harmony应用开发—ArkTS声明式开发（容器组件：Column）

LLM之RAG实战（三十）| 探索RAG语义分块策略

谷歌浏览器插件

如何在看板中体现优先级变化

LeetCode - 394. 字符串解码

【服务器压力测试】本地PC电脑作为服务器运行时出现卡顿和资源紧张（Windows/Linux）

MySQL用户和授权

听写流程自动化实践，轻量级教育辅助

C语言中提供的第三方库之哈希表实现

C++_哈希表

【实施指南】Android客户端HTTPS双向认证实施指南

Appium下载安装配置保姆教程（图文详解）