当前位置：首页 > news >正文

机器学习——决策树（笔记）

news 2026/2/10 13:17:51

一、认识决策树

1. 介绍

2. 决策树生成过程

二、sklearn中的决策树

1. tree.DecisionTreeClassifier（分类树）

（1）模型基本参数

（2）模型属性

（3）接口

2. tree.DecisionTreeRegressor（回归树）

3. tree.export_graphviz（将生成的决策树导出为DOT格式，画图专用）

4. 其他（补充）

三、决策树的优缺点

1. 优点

2. 缺点

一、认识决策树

1. 介绍

决策树（Decision Tree）是一种非参数的有监督学习方法，它能够从一系列 有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。决策树算法容易理解，适用各种数据，在解决各种问题时都有良好表现，尤其是以树模型为核心的各种集成算法，在各个行业和领域都有广泛的应用。

2. 决策树生成过程

上面这组数据集为 一系列已知物种以及所属类别的数据。我们现在的目标是，将动物们分为哺乳类和非哺乳类。根据已经收集到的数据，决策树算法可以算出了下面的这棵决策树：

假如我们现在发现了一种新物种 A，它是冷血动物，体表带鳞片，并且不是胎生，我们就可以通过这棵决策树来判断它的 所属类别。

涉及关键概念：节点

① 根节点：没有进边，有出边。包含最初的，针对特征的提问。

② 中间节点：既有进边也有出边，进边只有一条，出边可以有很多条。都是针对特征的提问。

③ 叶子节点：有进边，没有出边，每个叶子节点都是一个类别标签。

④ 子节点和父节点：在两个相连的节点中，更接近根节点的是父节点，另一个是子节点。

二、sklearn中的决策树

涉及模块：sklearn.tree

1. tree.DecisionTreeClassifier（分类树）

（1）模型基本参数

（2）模型属性

（3）接口

2. tree.DecisionTreeRegressor（回归树）

重要参数：criterion

回归树衡量分枝质量的指标，支持的标准有三种：

① 输入“mse”使用均方误差mean squared error（MSE），父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准，这种方法通过使用叶子节点的均值来最小化 L2损失。

② 输入“friedman_mse”，使用费尔德曼均方误差，这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差。

③ 输入“mae”使用绝对平均误差MAE （mean absolute error），这种指标使用叶节点的中值来最小化 L1损失。

3. tree.export_graphviz（将生成的决策树导出为DOT格式，画图专用）

4. 其他（补充）

① 信息熵的计算比基尼系数缓慢一些，因为基尼系数的计算不涉及对数。另外，因为信息熵对不纯度更加敏感，所以信息熵作为指标时，决策树的生长会更加“精细”，因此对于高维数据或者噪音很多的数据，信息熵很容易过拟合，基尼系数在这种情况下效果往往比较好。

② random_state用来设置分枝中的随机模式的参数，默认None，在高维度时随机性会表现更明显，低维度的数据（比如鸢尾花数据集），随机性几乎不会显现。输入任意整数，会一直长出同一棵树，让模型稳定下来。

③ splitter也是用来控制决策树中的随机选项的，有两种输入值，输入“best”，决策树在分枝时虽然随机，但是还是会优先选择更重要的特征进行分枝（重要性可以通过属性feature_importances_查看），输入“random”，决策树在分枝时会更加随机，树会因为含有更多的不必要信息而更深更大，并因这些不必要信息而降低对训练集的拟合。

④ 在不加限制的情况下，一棵决策树会生长到衡量不纯度的指标最优，或者没有更多的特征可用为止，这样的决策树往往会过拟合。为了让决策树有更好的泛化性，需要要对决策树进行剪枝。剪枝策略对决策树的影响巨大，正确的剪枝策略是优化决策树算法的核心。

三、决策树的优缺点

1. 优点

    ① 易于理解和解释，因为树木可以画出来被看见。

    ② 需要很少的数据准备。其他很多算法通常都需要数据规范化，需要创建虚拟变量并删除空值等。但 sklearn中的决策树模块不支持对缺失值的处理。

    ③ 使用树的成本（比如说，在预测数据的时候）是用于训练树的数据点的数量的对数，相比于其他算法，这是一个很低的成本。

    ④ 能够同时处理数字和分类数据，既可以做回归又可以做分类。其他技术通常专门用于分析仅具有一种变量类型的数据集。

    ⑤ 能够处理多输出问题，即含有多个标签的问题（注意与一个标签中含有多种标签分类的问题区别开）

    ⑥ 是一个白盒模型，结果很容易能够被解释。如果在模型中可以观察到给定的情况，则可以通过布尔逻辑轻松解释条件。相反，在黑盒模型中（例如，在人工神经网络中），结果可能更难以解释。

    ⑦ 可以使用统计测试验证模型，这让我们可以考虑模型的可靠性。即使其假设在某种程度上违反了生成数据的真实模型，也能够表现良好。

2. 缺点

    ① 决策树学习者可能创建过于复杂的树，这些树不能很好地推广数据。这称为过度拟合。修剪，设置叶节点所需的最小样本数或设置树的最大深度等机制是避免此问题所必需的。

    ② 决策树可能不稳定，数据中微小的变化可能导致生成完全不同的树，这个问题需要通过集成算法来解决。

    ③ 决策树的学习是基于贪婪算法，它靠优化局部最优（每个节点的最优）来试图达到整体的最优，但这种做法不能保证返回全局最优决策树。这个问题也可以由集成算法来解决，在随机森林中，特征和样本会在分枝过程中被随机采样。

    ④ 有些概念很难学习，因为决策树不容易表达它们，例如 XOR，奇偶校验或多路复用器问题。

    ⑤ 如果标签中的某些类占主导地位，决策树学习者会创建偏向主导类的树。因此，建议在拟合决策树之前平衡数据集。

机器学习——决策树（笔记）

目录一、认识决策树 1. 介绍 2. 决策树生成过程二、sklearn中的决策树 1. tree.DecisionTreeClassifier（分类树） （1）模型基本参数 （2）模型属性 （3）接口 2. tree.Decision…...

编程日记 2024/7/16 1:49:27

翁恺-C语言程序设计-08-1. 求一批整数中出现最多的个位数字

08-1. 求一批整数中出现最多的个位数字给定一批整数，分析每个整数的每一位数字，求出现次数最多的个位数字。例如给定3个整数1234、2345、3456，其中出现最多次数的数字是3和4，均出现了3次。输入格式： 输入在第1行中…...

编程日记 2024/7/16 1:48:26

ROM修改进阶教程------深度解析小米设备锁机型不解锁bl 刷写特殊类固件的步骤

在玩机过程中会遇到很多自己机型忘记密码或者手机号不用导致机型出现账号锁。无法正常使用。那么此类机型如果无法正常售后解锁。只能通过第三方渠道。例如在早期小米机型有强解bl锁资源。然后刷入完美解锁包。这种可以登陆新账号。但后期新机型只能通过修改分区来屏蔽原设备锁…...

编程日记 2024/7/16 1:43:22

论文翻译 | LEAST-TO-MOST：从最少到最多的提示使大型语言模型中的复杂推理成为可能

摘要思维链提示（Chain-of-thought prompting）在多种自然语言推理任务上展现了卓越的性能。然而，在需要解决的问题比提示中展示的示例更难的任务上，它的表现往往不佳。为了克服从简单到困难的泛化挑战，我们提出了一种新…...

编程日记 2024/7/16 1:41:20

【区块链 + 智慧政务】都江堰区块链公共服务应用平台 | FISCO BCOS应用案例

都江堰区块链公共服务应用平台是四川开源观科技有限公司运用 FISCO BCOS 区块链技术为都江堰市建设的市级区块链节点平台，该平台上线运营一年以来已在政务服务、社区养老和慈善公益领域落地 3 个应用，上链数据超过 30 万条。区块链政务服务应用&am…...

编程日记 2024/7/16 1:40:19

Python从0到100（三十九）：数据提取之正则（文末免费送书）

前言： 零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Pyth…...

编程日记 2024/7/16 1:36:14

redis redisson（仅供自己参考）

redis 通过setnx实现的分布式锁有问题如图： 解决的新的工具为（闪亮登场）：redisson redisson可重入锁的原理实现语言lua： 加锁实现脚本语言： 释放锁的脚本语言： 加锁的lua -- 首先判断这个锁…...

编程日记 2024/7/16 1:34:12

【C语言初阶】探索编程基础：深入理解分支与循环语句的奥秘

📝个人主页🌹：Eternity._ ⏩收录专栏⏪：C语言 “ 登神长阶 ” 🤡往期回顾🤡：C语言入门 🌹🌹期待您的关注 🌹🌹 ❀分支与循环语句 📒1.…...

编程日记 2024/7/16 1:32:10

ERP基础知识

ERP 一、概述 ERP是Event-related Potentials的简称。外加一种特定的刺激，作用于感觉系统或脑的某一部位，在给予刺激或撤销刺激时，或和当某种心理因素出现时在脑区所产生的电位变化，成为事件相关电位，是一种特殊…...

编程日记 2024/7/16 1:30:08

C++是否可以使用.获取union、struct中的成员变量的地址

C可以使用.获取union、struct中的成员变量的地址示例代码如下所示 #include <stdio.h> #include <stdint.h>struct u128 { uint64_t v64; uint64_t v0; };int main() {union { unsigned __int128 ui; struct u128 s; } union_temp_m128;void* p1 &union_te…...

编程日记 2024/7/16 1:28:06

【前端】包管理器：npm、Yarn 和 pnpm 的全面比较

前端开发中的包管理器：npm、Yarn 和 pnpm 的全面比较在现代前端开发中，包管理器是开发者必不可少的工具。它们不仅能帮我们管理项目的依赖，还能极大地提高开发效率。本文将详细介绍三种主流的前端包管理器：npm、Yarn 和 pnpm&am…...

编程日记 2024/7/16 1:25:02

C++ 类和对象赋值运算符重载

前言： 在上文我们知道数据类型分为自定义类型和内置类型，当我想用内置类型比较大小是非常容易的但是在C中成员变量都是在类(自定义类型)里面的，那我想给类比较大小那该怎么办呢？这时候运算符重载就出现了一运算符重载概念&…...

编程日记 2024/7/16 1:24:01

【Python实战因果推断】35_双重差分6

目录 Strict Exogeneity No Time Varying Confounders No Feedback No Carryover and No Lagged Dependent Variable Strict Exogeneity 严格的外生性假设是一个相当技术性的假设，通常用固定效应模型的残差来表示： 严格的异质性说明： 这…...

编程日记 2024/7/16 1:23:00

【HarmonyOS】关于官方推荐的组件级路由Navigation的心得体会

前言最近因为之前的630版本有点忙，导致断更了几天，现在再补上。换换脑子。目前内测系统的华为应用市场，各种顶级APP陆续都放出来beta版本了，大体上都完成了主流程的开发。欣欣向荣的气息。学习思路关于学习HarmonyOS的问题…...

编程日记 2024/7/16 1:19:56

Spring中事件监听器

实现ApplicationListener接口 Configuration public class A48 {public static void main(String[] args) {AnnotationConfigApplicationContext context new AnnotationConfigApplicationContext(A48.class);context.getBean(MyService.class).doBusiness();context.close()…...

编程日记 2024/7/16 1:15:52

一、认识决策树

1. 介绍

2. 决策树生成过程

二、sklearn中的决策树

1. tree.DecisionTreeClassifier（分类树）

（1）模型基本参数

（2）模型属性

（3）接口

2. tree.DecisionTreeRegressor（回归树）

3. tree.export_graphviz（将生成的决策树导出为DOT格式，画图专用）

4. 其他（补充）

三、决策树的优缺点

1. 优点

2. 缺点

相关文章：