当前位置：首页 > news >正文

机器学习（三）——决策树（附核心思想、重要算法、概念（信息熵、基尼指数、剪枝处理）及Python源码）

news 2026/2/9 7:57:33

关于
1 基本流程
2 划分属性的选择
- 2.1 方法一：依据信息增益选择
- 2.2 方法二：依据增益率选择
- 2.3 方法三：依据基尼指数选择
3 剪枝处理：防止过拟合
- 3.1 预剪枝
- 3.2 后剪枝
4 连续与缺失值
- 4.1 连续值处理
- 4.2 缺失值处理
5 多变量决策树
X 案例代码
- X.1 分类任务
- - X.1.1 源码
  - X.1.2 数据集（鸢尾花数据集）
  - X.1.3 模型效果
- X.2 回归任务
- - X.2.1 源码
  - X.2.2 数据集（糖尿病数据集）
  - X.2.3 模型效果

关于

本文是基于西瓜书（第四章）的学习记录。讲解决策树的重要概念（划分属性的选择、剪枝处理、连续值和缺失值的处理、多变量决策树等）、核心流程，附Python分类和回归实现代码。
西瓜书电子版：百度网盘分享链接

1 基本流程

决策树是一种模仿人类决策过程的机器学习算法，它通过树状结构来进行决策。

决策树结构：
- 根节点：每个结点包含的样本集合根据属性测试的结果被划分到子结点中，根结点包含样本全集。
- 内部节点：代表属性测试。
- 叶节点：对应决策结果。
决策过程：从根节点开始，通过一系列的测试（属性值的判断）到达叶节点，完成决策。
算法流程：

决策树的生成是一个递归过程，有三种情形会导致递归返回：
- 当前结点包含的样本全属于同一类别，无需划分；
- 当前属性集为空，或是所有样本在所有属性上取值相同，无法划分；
- 当前结点包含的样本集合为空，不能划分；

2 划分属性的选择

在决策树学习中，选择最优的划分属性是关键，这有助于提高样本集合的纯度，即分支结点所包含的样本尽可能属于同一类别。
下面是三种常见的划分属性选择方法：

2.1 方法一：依据信息增益选择

简述：
- 首先计算数据集D的信息熵；
- 然后对于每个属性a，考虑将其作为划分属性划分后得到的各个子集，计算各子集的信息熵；
- 然后利用下面的信息增益公式计算依据属性a划分的信息增益；
- 最后选择增益最大的属性进行划分然后进行下一轮选择（如果不结束）。
重要概念：
- 信息熵：衡量样本集合D纯度的指标，计算公式为
  $-\sum_{k=1}^{|D|} p_k \log_2 p_k$ 其中 $p_k$ 是第k类样本所占的比例。 $E n t (D)$ 值越小，纯度越高。
- 信息增益：使用属性a进行划分所获得的纯度提升，计算公式为
  $\sum_{v=1}^{V} \frac{|D_v|}{|D|} Ent(D_v)$ 其中 $D_v$ 是在属性a上取值为v的样本子集。
- ID3算法：以信息增益为准则选择划分属性，是决策树学习的经典算法之一。
案例：

2.2 方法二：依据增益率选择

简述：方法一的信息增益准则对可取值数目较多的属性有所偏好，所以考虑不直接使用信息增益，而是使用“增益率”来选择最优划分属性。其实就在每个属性的信息增益基础上除以 $I V (a)$ ，得到的结果就是增益率，基于此选择（但是增益率又会偏好可取值数目少的属性，所以先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的）。
重要概念：
- 增益率：减少信息增益对可取值数目较多属性的偏好，计算公式为 $\frac{Gain(D, a)}{IV(a)}$ 其中 $I V (a)$ 是属性a的固有值，计算公式如下。
- $I V (a)$ ：这是属性a的固有值，a的可能取值越多，该值越大，起计算公式如下：
  $\mathrm{IV}(a)=-\sum_{v=1}^V\frac{|D^v|}{|D|}\log_2\frac{|D^v|}{|D|}$
- C4.5算法：使用增益率选择最优划分属性，是ID3算法的改进版。

2.3 方法三：依据基尼指数选择

简述：流程和方法一一致，但是选择的指标是基尼指数
重要概念：
- 基尼指数：度量数据集纯度的指标（反映了从数据集D 中随机抽取两个样本，其类别标记不一致的概率.因此,Gini(D)越小，则数据集D 的纯度越高），计算公式为 $\sum_{k=1}^{|D|} p_k^2$
  属性a划分后的基尼指数计算公式为： $\mathrm{GiniIndex}(D,a)=\sum_{v=1}^V\frac{|D^v|}{|D|}\mathrm{Gini}(D^v) .$
- CART算法：使用基尼指数选择划分属性，适用于分类和回归任务。

3 剪枝处理：防止过拟合

剪枝是决策树学习中对付过拟合的主要手段，通过剪枝可以降低过拟合的风险。剪枝策略有预剪枝和后剪枝两种

3.1 预剪枝

在这里插入图片描述

预剪枝：在生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分
优点：这不仅降低了过拟合的风险，还显著减少了决策树的训练时间开销和测试时间开销
缺点：预剪枝基于“贪心”本质禁止这些分支展开，给预剪枝决策树带来了欠拟合的风险
决策树桩：只有一层划分的决策树

3.2 后剪枝

在这里插入图片描述

后剪枝：先从训练集生成一棵完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。
后剪枝决策树通常比预剪枝决策树保留了更多的分支.
优点：后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树
缺点：但后剪枝过程是在生成完全决策树之后进行的，并且要自底向上地对树中的所有非叶结点进行逐一考察，因此其训练时间开销比未剪枝决策树和预剪枝决策树都要大得多.

4 连续与缺失值

4.1 连续值处理

必要性：现实学习任务中常会遇到连续属性，有必要讨论如何在决策树学习中使用连续属性.
连续属性离散化：使用二分法处理连续属性，按照某个划分点的值将连续属性的值划分为两个子集，选择最优的划分点以最大化信息增益。
划分点的选择：对于包含n个不同值的某个属性，可以得到n-1个划分点，根据划分点可以将取值范围划分为两个区间
核心逻辑：得到某个属性的划分点集合之后就可以按照信息增益的大小选择出最合适的划分点构造一个划分节点。
连续数据划分点和离散数据的区别：与离散属性不同，若当前结点划分属性为连续属性，该属性还可作为其后代结点的划分属性
示例：

4.2 缺失值处理

必要性：一部分样本得属性缺少值，直接丢弃会造成信息丢失
要解决的问题：
- 如何在属性值缺失的情况下进行划分属性选择给定划分属性？——将前文的信息增益公式推广后执行类似流程。
- 若样本在该属性上的值缺失,如何对样本进行划分？——同时划分到子节点，不过进行权重调整，直观地看就是将同一个样本以不同的概率划分到不同的子节点去
权重调整：对缺失值样本进行权重调整后进行划分，确保模型能够从不完整样本中学习。

5 多变量决策树

背景：
- 分类意味着找到分类边界
- 决策树分类边界的特点：由若干个与坐标轴平行的分段组成
  - 优点：可解释性强
  - 缺点：需要很多段，学习代价大
多变量决策树
- 优点：能够实现斜划分（使用属性的线性组合进行测试，允许分类边界不是轴平行的），简化模型复杂度。
- 改变：在非叶节点上实现斜划分，不再是寻找一个最优划分属性，而是试图建立一个合适的线性分类器

X 案例代码

X.1 分类任务

X.1.1 源码

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report
import seaborn as sns# 1. 加载数据集
iris = load_iris()
X, y = iris.data, iris.target
print("此时X，y的数据类型为：", type(X), type(y), '\n')# 2. 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("此时X_train，y_train的数据类型为：", type(X_train), type(y_train), '\n')
print("X_train的前10条数据展示：")
print(pd.DataFrame(X_train).head(10).to_string(index=False, justify='left'), '\n')# 3. 构建并训练决策树分类模型
model = DecisionTreeClassifier(random_state=42)
model.fit(X_train, y_train)# 4. 预测测试集上的目标变量
y_pred = model.predict(X_test)# 5. 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print("模型准确率：", accuracy)print("分类报告：")
print(classification_report(y_test, y_pred))# 6. 绘制混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(8, 6))
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues', xticklabels=iris.target_names, yticklabels=iris.target_names)
plt.xlabel('Predicted Labels')
plt.ylabel('True Labels')
plt.title('Confusion Matrix for Iris Dataset')
plt.tight_layout()
plt.show()# 可选：将结果保存到DataFrame中以便进一步分析
results = pd.DataFrame({'Actual': y_test,'Predicted': y_pred
})
print("模型预测结果：")
print(results.head())

X.1.2 数据集（鸢尾花数据集）

鸢尾花数据集是机器学习领域中最著名的数据集之一，常被用于分类算法的测试和演示。
概览
- 样本数量：150个样本
- 特征数量：4个特征
- 标签种类数量：3个类别，每个类别有50个样本
特征描述
- 萼片长度 (sepal length)：花萼的长度，单位为厘米。
- 萼片宽度 (sepal width)：花萼的宽度，单位为厘米。
- 花瓣长度 (petal length)：花瓣的长度，单位为厘米。
- 花瓣宽度 (petal width)：花瓣的宽度，单位为厘米。
目标变量是鸢尾花的种类，共有三种：
1. Iris setosa
2. Iris versicolor
3. Iris virginica
使用
- 可以使用 sklearn.datasets.load_iris() 函数来加载这个数据集，并查看其详细信息。

X.1.3 模型效果

在这里插入图片描述

X.2 回归任务

X.2.1 源码

import pandas as pd
from matplotlib import pyplot as plt
from sklearn import datasets
from sklearn.tree import DecisionTreeRegressor, export_text
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score# 加载糖尿病数据集
diabetes = datasets.load_diabetes()# 提取特征和标签
X = diabetes.data
y = diabetes.target
print("此时X，y的数据类型为：", type(X), type(y), '\n')# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("此时X_train，y_train的数据类型为：", type(X_train), type(y_train), '\n')
print("X_train的前10条数据展示：")
print(pd.DataFrame(X_train).head(10).to_string(index=False, justify='left'), '\n')# 创建决策树回归模型
regressor = DecisionTreeRegressor(random_state=42)# 训练模型
regressor.fit(X_train, y_train)# 进行预测
y_pred = regressor.predict(X_test)# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)print(f"均方误差(MSE): {mse}")
print(f"决定系数(R^2): {r2}", '\n')# 查看决策树的结构
tree_rules = export_text(regressor, feature_names=diabetes.feature_names)
print(tree_rules)# 绘制实际值和预测值的折线图
plt.figure(figsize=(12, 6))
plt.plot(y_test, label='Actual', marker='o', color='blue')
plt.plot(y_pred, label='Predicted', marker='x', color='red', linestyle='--')
plt.title('Actual vs Predicted Values')
plt.xlabel('Sample Index')
plt.ylabel('Target Value')
plt.legend()
plt.tight_layout()
plt.show()

X.2.2 数据集（糖尿病数据集）

糖尿病数据集包含442名患者的10项生理特征，目标是预测一年后疾病水平的定量测量值。这些特征经过了标准化处理，使得每个特征的平均值为零，标准差为1。
概览
- 样本数量：442个样本
- 特征数量：10个特征
- 目标变量：1个目标变量（一年后疾病水平的定量测量值）
特征描述
1. 年龄 (age)：患者年龄（已标准化）
2. 性别 (sex)：患者性别（已标准化）
3. 体质指数 (bmi)：身体质量指数（已标准化）
4. 血压 (bp)：平均动脉压（已标准化）
5. S1：血清测量值1（已标准化）
6. S2：血清测量值2（已标准化）
7. S3：血清测量值3（已标准化）
8. S4：血清测量值4（已标准化）
9. S5：血清测量值5（已标准化）
10. S6：血清测量值6（已标准化）
目标变量
- 一年后疾病水平的定量测量值：这是模型需要预测的目标变量。
使用
- 可以使用 sklearn.datasets.load_diabetes() 函数来加载这个数据集，并查看其详细信息。

X.2.3 模型效果

在这里插入图片描述

机器学习（三）——决策树（附核心思想、重要算法、概念（信息熵、基尼指数、剪枝处理）及Python源码）

目录关于1 基本流程2 划分属性的选择2.1 方法一：依据信息增益选择2.2 方法二：依据增益率选择2.3 方法三：依据基尼指数选择 3 剪枝处理：防止过拟合3.1 预剪枝3.2 后剪枝 4 连续与缺失值4.1 连续值处理4.2 缺失值处理 5 多变量决策…...

编程日记 2024/11/7 12:58:26

良心无广，这五款电脑软件堪称必备，最后一个比快播都猛

来吧，直接上狠货！ 哔哔音乐这是一个基于哔哩哔哩开发的电脑听歌软件，众所周知！B站其实就是一个巨大的曲库，啥歌各种版本都能在这里找到。所以如果依托B站开发听歌软件，那就是真的香，而且软件…...

编程日记 2024/11/7 12:57:24

Vue3中实现原生CSS完成圆形按钮点击粒子效果和定点旋转动画

效果： 源码： <script setup> import { ElMessage } from "element-plus"; const isClick () > {ElMessage.success(Clicked); }; </script><template><button click"isClick" class"button">…...

编程日记 2024/11/7 12:56:23

百度网盘服务器开小差了

有会员，新上传文件到百度网盘，分享链接， 别人打开链接，显示【服务器开小差了，请稍后重试~】，保存不了试了几个都不行，文件是视频MP4 可行的方法是百度网盘加好友，然后在聊天页面单…...

编程日记 2024/11/7 12:55:22

数据分析师招聘要求

在当今数据驱动的世界中，数据分析师的角色变得愈发重要，他们被赋予从海量数据中提炼洞察的关键任务。数据分析师的招聘要求反映了这个职位多方面的需求，从教育背景到技能，再到软技能和行业特有的知识。本文将详细探讨这些要求&…...

编程日记 2024/11/7 12:54:21

【C语言】实战-力扣题库：回文链表

题目描述给你一个单链表的头节点 head ，请你判断该链表是否为回文链表。如果是，返回 true ；否则，返回 false 。提示： 链表中节点数目在范围[1, 105] 内0 < Node.val < 9 进阶：你能否用 O(n) 时间…...

编程日记 2024/11/7 12:51:19

Centos安装Minio

文章目录 1 远程下载二进制文件2 创建目录：文件存储、日志3 授权执行4 启动5 创建配置文件6 注册服务并开机自启7 创建key附录参考文档 1 远程下载二进制文件 [rootlocalhost bin]# cd /opt/package [rootlocalhost package]# wget https://dl.min.io/server/minio…...

编程日记 2024/11/7 12:50:18

二叉树的基本概念和底层实现

1. 树型结构 1.1 认识树在学习二叉树之前我们需要了解一下树型结构树是一种非线性的数据结构,它是由n个结点组成的一个有层次关系的集合,看起来像个倒挂的树,也就是根朝上,枝叶朝下. 特点: 1. 根结点没有前驱结点 2. 除了根结点外其他的结点被分为互不相交的集合,每个集合又…...

编程日记 2024/11/7 12:49:16

GIF图片格式详解（三）

gif历史部分介绍请参考上一篇《GIF图片格式详解（一）》， 格式部分详解参考《GIF图片格式详解（二）》或直接访问博客地址：https://blog.whatsroot.xyz/2023/12/16/all-about-gif/ 本篇介绍下用于处理gif图…...

编程日记 2024/11/7 12:48:15

类和对象相关题

文章目录 1. 求123...n2. 计算是这一年的第几天3. 求两个日期之间的天数4. 算出第n天是几月几号5. 计算一个日期加上若干天后是什么日期 1. 求123…n 求123…n，要求不能使用乘除法、for、while、if、else、switch、case等关键字及条件判断语句（A?B:C&a…...

编程日记 2024/11/7 12:47:14

Word大珩助手：超大数字怎么读？35位数字？69位数字？

俄罗斯日前对谷歌开出了20000000000000000000000000000000000（35位数字）美元的罚款这一数字远超全球GDP总和，消息一出很快就登上热搜。面对这样一个庞大的数字，人们不禁好奇，这样的数字该如何读出来？ …...

编程日记 2024/11/7 12:45:11

阿里云k8s-master部署CNI网络插件遇到的问题

问题按照网络上的部署方法 cd /opt/k8s # 下载 calico-kube-controllers配置文件，可能会网络超时 curl https://docs.projectcalico.org/manifests/calico.yaml -O kubectl apply -f calico.yaml 试了很多次都不行，k8s-master都是Not ready的状态 ca…...

编程日记 2024/11/7 12:44:10

前言本文对lwip的主要线程tcpip_thread进行分析。正文 tcpip_thread是lwip最主要的线程，其创建在tcpip_init函数中 sys_thread_new(TCPIP_THREAD_NAME, tcpip_thread, NULL, TCPIP_THREAD_STACKSIZE, TCPIP_THREAD_PRIO);tcpip_init函数被TCPIP_Init函数调用。…...

编程日记 2024/11/7 12:42:06

求猫用宠物空气净化器推荐，有没有吸毛强、噪音小的产品

自从成为铲屎官，真的和当妈没有区别了。家里的毛孩子成天掉毛，我就跟在它屁股后面默默收拾，一举一动都要时刻关注。最近换季，家里还多了不少浮毛，全飘在空气中，阳光照射下非常明显。我妈看到后各种吐槽&a…...

编程日记 2024/11/7 12:41:04

pycharm中python控制台出现CommandNotFoundError: No command ‘conda run‘.

1、错误现象 pycharm中打开python控制台出现CommandNotFoundError: No command conda run.的错误。 2、背景 conda是4.6版本，在Anaconda Prompt可以正常运行虚拟环境。 3、解决方法更新conda版本，基本命令，会自动更新到最新版本。 con…...

编程日记 2024/11/7 12:38:01

架构师备考-架构基本概念

目录基本概念架构设计与生命周期需求分析设计阶段实现阶段构件组装阶段部署阶段后开发阶段动态软件体系结构体系结构恢复与重建软件架构设计的重要性基本概念软件架构（Software Architecture）设计主要关注软件构件的结构、属性和…...

编程日记 2024/11/7 12:35:58

信奥赛C++知识点

参加信息学奥林匹克竞赛（信奥赛）所需学习的C知识点，以下是一个详细的知识点列表： 一、C语言基础程序结构头文件：包含必要的头文件，如<iostream>用于输入输出。命名空间：使用using …...

编程日记 2024/11/7 12:34:57

高并发内存池扩展 -- 处理大内存,优化释放时需要传入空间大小,加入定长内存池,存放映射关系的容器的锁机制,优化性能(基数树,优势,优化前后对比)

目录高并发内存池扩展测试大内存介绍代码优化释放时需要传入空间大小介绍赋值代码加入定长内存池引入介绍代码存放映射关系的容器锁机制写入读取优化性能引入基数树单级基数树两级基数树三级基数树优势引入代码优化前后…...

编程日记 2024/11/7 12:27:51

Composite(组合)

1)意图将对象组合成树型结构以表示“部分-整体”的层次结构。Composite 使得用户对单个对象和组合对象的使用具有一致性。 2)结构组合模式的结构如图 7-33 所示。其中: Component 为组合中的对象声明接口;在适当情况下实现所有类共有接口的默认行为;声明一个接口用于访问…...

编程日记 2024/11/7 12:25:49

有Bootloader，为什么还要BROM?

有Bootloader，为什么还要BROM? 不少硬件平台都提供类似Boot ROM或者PBL(高通平台)固化的一段程序，出厂后用户一定不能修改。BROM可以引导Bootloader程序。大家知道，每个可启动的平台都会在存储设备，例如EMMC/NAND/UFS保存Bootloa…...

编程日记 2024/11/7 12:23:47

eNSP-Cloud(实现本地电脑与eNSP内设备之间通信)

说明： 想象一下，你正在用eNSP搭建一个虚拟的网络世界，里面有虚拟的路由器、交换机、电脑（PC）等等。这些设备都在你的电脑里面“运行”，它们之间可以互相通信，就像一个封闭的小王国。但是&#…...

编程新知 2026/2/8 4:37:17

OpenLayers 可视化之热力图

注：当前使用的是 ol 5.3.0 版本，天地图使用的key请到天地图官网申请，并替换为自己的key 热力图（Heatmap）又叫热点图，是一种通过特殊高亮显示事物密度分布、变化趋势的数据可视化技术。采用颜色的深浅来显示…...

编程新知 2025/12/9 21:15:58

【杂谈】-递归进化：人工智能的自我改进与监管挑战

递归进化：人工智能的自我改进与监管挑战文章目录递归进化：人工智能的自我改进与监管挑战1、自我改进型人工智能的崛起2、人工智能如何挑战人类监管？3、确保人工智能受控的策略4、人类在人工智能发展中的角色5、平衡自主性与控制力6、总结与…...

编程新知 2025/12/9 0:22:01

【Linux】shell脚本忽略错误继续执行

在 shell 脚本中，可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行，可以在脚本开头添加 set e 命令来取消该设置。举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令，并忽略错误 rm somefile…...

编程新知 2025/9/11 15:27:32

云计算——弹性云计算器（ECS）

弹性云服务器：ECS 概述云计算重构了ICT系统，云计算平台厂商推出使得厂家能够主要关注应用管理而非平台管理的云平台，包含如下主要概念。 ECS（Elastic Cloud Server）：即弹性云服务器，是云计算…...

编程新知 2025/8/16 21:50:27

Appium+python自动化（十六）- ADB命令

简介 Android 调试桥(adb)是多种用途的工具，该工具可以帮助你你管理设备或模拟器的状态。 adb ( Android Debug Bridge)是一个通用命令行工具，其允许您与模拟器实例或连接的 Android 设备进行通信。它可为各种设备操作提供便利，如安装和调试…...

编程新知 2026/1/21 18:20:51

使用 SymPy 进行向量和矩阵的高级操作

在科学计算和工程领域，向量和矩阵操作是解决问题的核心技能之一。Python 的 SymPy 库提供了强大的符号计算功能，能够高效地处理向量和矩阵的各种操作。本文将深入探讨如何使用 SymPy 进行向量和矩阵的创建、合并以及维度拓展等操作，并通过具体…...

编程新知 2026/2/8 21:52:30

C#学习第29天：表达式树（Expression Trees）

目录什么是表达式树？ 核心概念 1.表达式树的构建 2. 表达式树与Lambda表达式 3.解析和访问表达式树 4.动态条件查询表达式树的优势 1.动态构建查询 2.LINQ 提供程序支持： 3.性能优化 4.元数据处理 5.代码转换和重写适用场景代码复杂性…...

编程新知 2025/10/20 9:03:01

HTML前端开发：JavaScript 获取元素方法详解

作为前端开发者，高效获取 DOM 元素是必备技能。以下是 JS 中核心的获取元素方法，分为两大系列： 一、getElementBy... 系列传统方法，直接通过 DOM 接口访问，返回动态集合（元素变化会实时更新）。…...

编程新知 2025/10/6 18:44:24

Qt的学习(一)

1.什么是Qt Qt特指用来进行桌面应用开发（电脑上写的程序）涉及到的一套技术Qt无法开发网页前端，也不能开发移动应用。客户端开发的重要任务：编写和用户交互的界面。一般来说和用户交互的界面，有两种典型风格&…...

编程新知 2026/2/8 18:10:17

目录

关于

1 基本流程

2 划分属性的选择

2.1 方法一：依据信息增益选择

2.2 方法二：依据增益率选择

2.3 方法三：依据基尼指数选择

3 剪枝处理：防止过拟合

3.1 预剪枝

3.2 后剪枝

4 连续与缺失值

4.1 连续值处理

4.2 缺失值处理

5 多变量决策树

X 案例代码

X.1 分类任务

X.1.1 源码

X.1.2 数据集 （鸢尾花数据集）

X.1.3 模型效果

X.2 回归任务

X.2.1 源码

X.2.2 数据集（糖尿病数据集）

X.2.3 模型效果

相关文章：

X.1.2 数据集（鸢尾花数据集）