当前位置：首页 > article >正文

机器学习（3）——决策树

article 2026/2/8 9:32:25

文章目录

1. 决策树基本原理
- 1.1. 什么是决策树？
- 1.2. 决策树的基本构成：
- 1.3. 核心思想
2. 决策树的构建过程
- 2.1. 特征选择
- 2.1.1. 信息增益（ID3）
- 2.1.2. 基尼不纯度（CART）
- 2.1.3. 均方误差（MSE）
- 2.2. 节点划分
- 2.3. 停止条件：
3. 决策树的剪枝（防止过拟合）
4. 决策树的优缺点
5. 常见决策树算法
6. 样例代码：
7. 归纳

1. 决策树基本原理

1.1. 什么是决策树？

决策树（Decision Tree）是一种非参数的监督学习算法，适用于分类和回归任务。其核心思想是通过一系列规则（if-then结构）对数据进行递归划分，最终形成一棵树形结构，实现预测或分类。

1.2. 决策树的基本构成：

根节点（Root Node）：代表整个数据集，选择第一个最优特征进行分裂。
内部节点（Internal Nodes）：代表对某个特征的判断，用来决定如何分裂数据。
叶子节点（Leaf Nodes）：存放最终的预测结果，表示分类或回归结果。

1.3. 核心思想

目标：构建一棵树，使得每个分支节点代表一个特征判断，每个叶子节点代表一个预测结果。
关键问题：
- 如何选择划分特征？（特征选择准则）
- 何时停止划分？（防止过拟合）

2. 决策树的构建过程

决策树的构建是一个递归分割（Recursive Partitioning）的过程

2.1. 特征选择

选择最佳特征：在每一步分裂中，算法会选择一个最优的特征来进行数据划分。

常用的准则：

信息增益（Information Gain, ID3算法）
信息增益比（Gain Ratio, C4.5算法）
基尼不纯度（Gini Impurity, CART算法）
均方误差（MSE, 回归树）

2.1.1. 信息增益（ID3）

衡量使用某特征划分后信息不确定性减少的程度。
计算公式： $信息增益 = H (D) - H (D ∣ A)$
- H(D)：数据集的熵（不确定性）。
- H(D∣A)：在特征 A划分后的条件熵。

2.1.2. 基尼不纯度（CART）

衡量数据集的不纯度，越小越好，表示数据集越纯。
计算公式：
$\text{Gini}(D) = 1 - \sum_{k=1}^{K} p_k^2$
- $p_k$ ：数据集中第 $k$ 类样本的比例。

2.1.3. 均方误差（MSE）

用于回归问题，计算预测值与真实值的差异。
计算公式： $\frac {1}{n}\sum(y_i − \hat y_i) ^2$
- $y_i$ 是实际值， $\hat y_i$ 是预测值。

2.2. 节点划分

分类任务：选择使信息增益最大（或基尼不纯度最小）的特征进行划分。
回归任务：选择使均方误差（MSE）最小的特征进行划分。

2.3. 停止条件：

当前节点所有样本属于同一类别（纯度100%）。
所有特征已用完，或继续划分无法显著降低不纯度。
达到预设的最大深度（max_depth）或最小样本数（min_samples_split）。

3. 决策树的剪枝（防止过拟合）

决策树容易过拟合（训练集表现好，测试集差）。为了防止过拟合，我们通常会使用剪枝技术。

预剪枝（Pre-pruning）：在训练时提前停止（如限制树深度）。
后剪枝（Post-pruning）：先训练完整树，再剪掉不重要的分支（如C4.5的REP方法）。

4. 决策树的优缺点

✅ 优点
- 可解释性强：规则清晰，易于可视化（if-then结构）。
- 无需数据标准化：对数据分布无严格要求。
- 可处理混合类型数据（数值型+类别型）。
- 适用于小规模数据。
❌ 缺点
- 容易过拟合（需剪枝或限制树深度）。
- 对噪声敏感（异常值可能导致树结构不稳定）。
- 不稳定性：数据微小变化可能导致完全不同的树。
- 不适合高维稀疏数据（如文本数据）。

5. 常见决策树算法

算法	适用任务	特征选择准则	特点
ID3	分类	信息增益	只能处理离散特征，容易过拟合
C4.5	分类	信息增益比	可处理连续特征，支持剪枝
CART	分类/回归	基尼不纯度（分类）均方误差（回归）	二叉树结构，Scikit-learn默认实现
CHAID	分类	卡方检验	适用于类别型数据

6. 样例代码：

# 导入必要的库
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
from sklearn.tree import plot_tree# 加载鸢尾花数据集
data = load_iris()
X = data.data
y = data.target# 将数据分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 创建决策树分类器
clf = DecisionTreeClassifier(criterion='gini', max_depth=3, random_state=42)# 训练决策树
clf.fit(X_train, y_train)# 预测测试集
y_pred = clf.predict(X_test)# 输出准确率
print(f"Accuracy: {accuracy_score(y_test, y_pred):.4f}")# 可视化决策树
plt.figure(figsize=(12, 8))
plot_tree(clf, filled=True, feature_names=data.feature_names, class_names=data.target_names)
plt.show()

7. 归纳

决策树的核心：递归划分数据，选择最优特征，构建树结构。

关键问题：
- 如何选择划分特征？（信息增益、基尼不纯度）
- 如何防止过拟合？（剪枝、限制树深度）
适用场景：
- 需要可解释性的任务（如金融风控）。
- 小规模、低维数据分类/回归

机器学习（3）——决策树

文章目录 1. 决策树基本原理1.1. 什么是决策树？1.2. 决策树的基本构成：1.3. 核心思想 2. 决策树的构建过程2.1. 特征选择2.1.1. 信息增益（ID3）2.1.2. 基尼不纯度（CART）2.1.3. 均方误差（MSE&…...

编程日记 2025/9/11 17:46:39

Redis常用数据结构和应用场景

一、前言 Redis提供了多种数据结构，每种结构对应不同的应用场景。本文对部分常用的核心数据结构和典型使用场景作出介绍。二、String（字符串） 特点：二进制安全，可存储文本、数字、序列化对象等。场景： 缓…...

编程日记 2026/2/4 23:28:52

【转载翻译】使用Open3D和Python进行点云处理

转自个人博客：【转载翻译】使用Open3D和Python进行点云处理转载自：Point Cloud Processing with Open3D and Python 本文由 Carlos Melo 发布于2024年2月12日本文很适合初学者对三维处理、点云处理以及Open3D库进行初步了解另外，本文是基于…...

编程日记 2026/2/7 2:16:37

用户登录不上linux服务器

一般出现这种问题，重新用root用户修改lsy用户的密码即可登录，但是当修改了还是登录不了的时候，去修改一个文件用root才能修改， 然后在最后添加上改用户的名字，例如原本是只有user的，现在我加上了lsy了&a…...

编程日记 2026/2/7 8:02:36

SQL 全文检索原理

全文检索(Full-Text Search)是SQL中用于高效搜索文本数据的技术，与传统的LIKE操作或简单字符串比较相比，它能提供更强大、更灵活的文本搜索能力。基本概念全文检索的核心思想是将文本内容分解为可索引的单元(通常是词或词组)，然后建立倒排…...

编程日记 2025/11/26 22:49:48

dcsdsds

我将为您在页面顶部添加欢迎内容，同时保持整体风格的一致性。以下是修改后的代码，主要修改了模板部分和对应的样式： vue 复制 <template><div class"main-wrapper"><div class"…...

编程日记 2025/9/10 21:50:10

FISCO BCOS区块链Postman接口测试：高级应用与实战技巧 [特殊字符]

引言：为什么Postman是FISCO BCOS测试的利器？在区块链开发领域，接口测试是确保系统稳定性和安全性的关键环节。作为国产领先的联盟链平台，FISCO BCOS在金融、政务、供应链等多个领域得到广泛应用。而Postman作为一款功能强大的API测试工具，凭借其直观的图形界面和丰富的测…...

编程日记 2025/11/26 1:39:34

KWDB创作者计划—KWDB场景化创新实践：多模态数据融合与边缘智能的突破性应用

引言：AIoT时代的数据库范式重构在工业物联网设备数量突破千亿、边缘计算节点覆盖率达75%的2025年，传统数据库面临多模态数据处理效率低下、边缘端算力利用率不足、跨域数据协同困难等核心挑战。KWDB（KaiwuDB Community Edition）通…...

编程日记 2025/9/11 6:28:10

风暴之眼：在AI重构的数字世界重绘职业坐标系

硅谷的某个深夜，GitHub Copilot在程序员的注视下自动生成出完美代码，这个场景正在全球数百万开发者的屏幕上同步上演。当AI生成的代码通过图灵测试，当机器学习模型开始理解业务需求，一个根本性命题浮出水面：在人类亲手…...

编程日记 2025/11/26 5:38:08

主机协议端口安全

FTP RDP SSH Rsync 渗透基础 | 黑客常用端口利用总结 - ZM思 - 博客园 (cnblogs.com)...

编程日记 2025/9/10 14:57:34

matplotlib数据展示

目录一、绘制直方图 1、简单直方图 2、绘制横向直方图 3、绘制堆叠直方图 4、对比直方图二、折线图与散点图三、绘制饼图四、雷达图 1、简单雷达图 2、多层雷达图五、总和在前面的学习中，我们能够使用一些库进行数据的整合，收集&#x…...

编程日记 2026/1/29 12:06:54

MySQL 面经

1、什么是 MySQL？ MySQL 是一个开源的关系型数据库，现在隶属于 Oracle 公司。是我们国内使用频率最高的一种数据库，我本地安装的是比较新的 8.0 版本。 1.1 怎么删除/创建一张表？ 可以使用 DROP TABLE 来删除表，使用…...

编程日记 2026/1/28 4:45:47

vLLM实战：多机多卡大模型分布式推理部署全流程指南

1. 环境准备与基础配置 1.1 系统要求依赖组件： # 基础工具安装 sudo apt-get install -y lsof git-lfs nvidia-cuda-toolkit1.2 虚拟环境配置使用conda创建隔离环境，避免依赖冲突： conda create -n vllm python3.10 -y conda activate…...

编程日记 2025/9/10 4:44:47

贪心算法 day08（加油站+单调递增的数字+坏了的计算机）

目录 1.加油站 2.单调递增的数字 3.坏了的计算器 1.加油站链接：. - 力扣（LeetCode） 思路： gas[index] - cost[index]，ret 表示的是在i位置开始循环时剩余的油量 a到达的最大路径假设是f那么我们可以得出 a b …...

编程日记 2026/2/7 11:46:21

String类基本使用

文章目录 1. String类的理解和创建对象2. 创建String对象的两种方式3. 两种创建String对象的区别4. 测试5. 字符串的特性6. String 类的常见方法 1. String类的理解和创建对象 String 对象用于保存字符串，也就是一组字符序列字符串常量对象是用双引号括起的字符序列…...

编程日记 2026/2/7 3:18:38

华为机试—火车进站

题目火车站一共有 n 辆火车需要入站，每辆火车有一个编号，编号为 1 到 n。同时，也有火车需要出站，由于火车站进出共享一个轨道，所以后入站的火车需要先出站。换句话说，对于某一辆火车，只有在它…...

编程日记 2026/2/3 4:40:07

Python数组（array）学习之旅：数据结构的奇妙冒险

Python数组学习之旅：数据结构的奇妙冒险第一天：初识数组的惊喜阳光透过窗帘缝隙洒进李明的房间，照亮了他桌上摊开的笔记本和笔记本电脑。作为一名刚刚转行的金融分析师，李明已经坚持学习Python编程一个月了。他的眼睛因为昨晚熬夜编程而微微发红，但脸上却挂着期待的微…...

编程日记 2026/2/5 10:20:37

spark-core编程2

Key-Value类型： foldByKey 当分区内计算规则和分区间计算规则相同时，aggregateByKey 就可以简化为 foldByKey combineByKey 最通用的对 key-value 型 rdd 进行聚集操作的聚集函数（aggregation function）。类似于aggregate()&…...

编程日记 2026/2/5 0:54:55

AIDD-人工智能药物设计-大语言模型在医学领域的革命性应用

Nat. Rev. Bioeng. | 大语言模型在医学领域的革命性应用大型语言模型（LLMs），如 ChatGPT，因其对人类语言的理解与生成能力而备受关注。尽管越来越多研究探索其在临床诊断辅助、医学教育等任务中的应用，但关于其发展、…...

编程日记 2026/2/7 0:14:55

Windows 系统中安装 Git 并配置 GitHub 账户

由于电脑重装系统，重新配置了git. 以下是在 Windows 系统中安装 Git 并配置 GitHub 账户的详细步骤： 1. 安装 Git 访问 Git 官网下载页面下载 Windows 版本的 Git 安装程序运行安装程序，使用默认选项即可 2. 配置 Git 用户信息打开命令…...

编程日记 2026/2/7 5:16:48

QQ风格客服聊天窗口

QQ风格客服聊天窗口展示引入方式展示引入方式 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title&g…...

编程日记 2026/2/6 21:56:10

fastadmin后端添加页面,自主控制弹出框关闭,关闭父页面弹框

Form.api.bindevent($(“form[roleform]”), (data, ret) > { 重写绑定事件,返回false即可注意:只有返回code1才能拦截,其他值不进行拦截 add: function () {//获取当前search里面的type值var type location.search.split(type)[1];Form.api.bindevent($("form[role…...

编程日记 2026/1/9 8:53:40

leetcode572 另一棵树的子树

1.与100、101解法相同递归： class Solution { private:bool compare(TreeNode* p, TreeNode* q){if(!p && !q) return true;else if(!p || !q) return false;else if(p->val ! q->val) return false;bool leftside compare(p->left, q->lef…...

编程日记 2025/12/15 17:52:04

MCU刷写——Hex文件格式详解及Python代码

工作之余来写写关于MCU的Bootloader刷写的相关知识，以免忘记。今天就来聊聊Hex这种文件的格式，我是分享人M哥，目前从事车载控制器的软件开发及测试工作。学习过程中如有任何疑问，可底下评论！如果觉得文章内容在工作学习中有帮助到你，麻烦点赞收藏评论+关注走一波！感谢…...

编程日记 2026/2/7 9:03:32

ubnetu 服务器版本常用端口和开放的端口对应的应用

1. 使用 netstat 查看端口与进程 netstat 是查看网络连接和监听端口的常用工具。通过以下命令可以列出所有开放的TCP/UDP端口及其关联的进程： sudo netstat -tulnp参数解析： -t：显示TCP端口。 -u：显示UDP端口。 -l&#xff1…...

编程日记 2026/2/8 0:38:37

汇舟问卷：国外问卷调查技巧有哪些，具体该怎么操作

大家好，我是汇舟问卷，今天咱们就聊聊国外问卷答题的技巧和操作步骤，保你听完立马能上手！ 一、答题前先创建人设 1，进题时先瞄两眼问题，快速判断问卷主题，再定人设。比如遇到奶粉问卷&#xff…...

编程日记 2026/1/20 1:30:19

DeepSeek的神经元革命：穿透搜索引擎算法的下一代内容基建

DeepSeek的神经元革命：穿透搜索引擎算法的下一代内容基建 ——从语义网络到价值共识的范式重构一、搜索引擎的“内容饥渴症”与AI的基建使命 2024年Q1数据显示，百度索引网页总数突破3500亿，但用户点击集中在0.78%的高价值页面。这种“数据…...

编程日记 2025/11/4 6:16:44

C++标识符：检查是否和保留字冲突

1. 基础知识最基本的要求： 字母、数字、下划线组成， 并且不能是数字开头。禁忌1： C 关键字不能用做标识符。它们是： alignas alignof asm auto bool break case catch char char16_t char32_t class const constexpr const_…...

编程日记 2026/2/8 2:11:42

《Python星球日记》第27天：Seaborn 可视化

名人说：路漫漫其修远兮，吾将上下而求索。—— 屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder😊） 专栏：《Python星球日记》，限时特价订阅中ing 目录一、Seabor…...

编程日记 2026/2/6 2:10:15

自动驾驶技术-相机_IMU时空标定

自动驾驶技术-相机_IMU时空标定时间延迟时间延迟参考链接1、2 相机主要分为全局和卷帘快门相机，从触发到成像的过程包括：复位时间、AE()曝光时间、读出时间全局快门如下图所示卷帘快门如下图所示相机录制视频时，为了保持固定频率&am…...

编程日记 2026/2/3 4:43:24