当前位置：首页 > news >正文

分类算法——决策树详解

news 2026/2/9 3:25:06

决策树的底层原理

决策树是一种常用的分类和回归算法，其基本原理是通过一系列的简单决策，将数据集划分为多个子集，从而实现分类。决策树的核心思想是通过树形结构表示决策过程，节点代表特征，边代表决策，叶子节点代表类别。

下面是一个决策树例子（用挑选好西瓜来举例，最终结果为判断是好瓜还是坏瓜）：

1. 决策树的基本结构

根节点：表示整个数据集。
内部节点：表示根据某一特征进行的决策。
叶子节点：表示最终的分类结果或回归值。

决策树的构建

决策树的构建过程通常采用递归的方式，核心步骤包括特征选择、数据划分和停止条件。

2. 特征选择

在每个节点上，需要选择一个特征来划分数据集，常用的特征选择标准包括：

信息增益：基于香农信息论，信息增益是划分前后信息的不确定性减少量。公式为：

$IG(D,A)=H(D)-\sum_{v\in A}^{} \frac{\left | D_{v} \right |}{\left | D \right |}H(D_{v})$

其中，H(D) 为数据集 D 的熵， $D_{v}$ 为特征 A 取值为 v 的子集。
信息增益率：为了解决信息增益偏向于选择取值较多的特征的问题，信息增益率在信息增益的基础上进行归一化：

$GainRatio(D,A)= \frac{IG(D,A)}{H(A)}$
基尼指数：主要用于 CART（Classification and Regression Trees）算法，计算某个特征的基尼指数，公式为：

$Gini(D)=1-\sum_{i=1}^{C}p_{i}^{2}$

其中， $p_{i}$ 为类 $i$ 在数据集 D 中的比例。

3. 数据划分

根据选择的特征，将数据集划分为多个子集。对于连续特征，通常会选取一个阈值，将数据集分为小于阈值和大于阈值两部分；对于分类特征，则根据每个取值进行划分。

4. 停止条件

决策树的构建过程需要设定停止条件，常见的条件包括：

达到最大深度。
节点样本数低于某一阈值。
信息增益或基尼指数的减少低于某一阈值。

决策树的剪枝

为了解决过拟合问题，决策树通常会进行剪枝，分为预剪枝和后剪枝：

预剪枝：在树的构建过程中，实时评估当前分裂的效果，决定是否继续分裂。
后剪枝：先构建完整的树，再从叶子节点向上进行剪枝，去掉一些不必要的分支。

决策树的算法

决策树的构建算法主要有 ID3、C4.5、CART 等。

ID3：使用信息增益作为特征选择的标准，适用于分类任务。
C4.5：改进了 ID3，使用信息增益率作为标准，支持连续特征和缺失值。
CART：使用基尼指数进行特征选择，支持分类和回归任务。

决策树的优缺点

优点：

直观易懂：决策树模型易于理解和可视化。
无需特征缩放：对特征的缩放和归一化不敏感。
适用性广：可以处理分类和回归问题，且对数据类型没有强要求。

缺点：

过拟合：决策树容易在训练数据上过拟合，尤其是深度较大的树。
不稳定性：对训练数据的微小变化敏感，可能导致树的结构有较大差异。
偏向于某些特征：使用信息增益时，可能偏向于选择取值较多的特征。

决策树的实现

在 Python 中，使用 scikit-learn 库可以非常方便地实现决策树。以下是一个基本的实现示例：

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn import tree
import matplotlib.pyplot as plt# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 构建决策树模型
clf = DecisionTreeClassifier(criterion='gini', max_depth=3)
clf.fit(X_train, y_train)# 预测
y_pred = clf.predict(X_test)# 可视化决策树
plt.figure(figsize=(12, 8))
tree.plot_tree(clf, filled=True, feature_names=iris.feature_names, class_names=iris.target_names)
plt.show()

决策树的应用

决策树广泛应用于金融、医疗、市场分析等多个领域，如：

信用评分：评估客户的信用风险。
医学诊断：帮助医生进行疾病预测和诊断。
客户分类：根据客户特征进行市场细分。

总结

决策树是一种强大的分类和回归模型，通过树形结构进行决策。其构建过程包括特征选择、数据划分、剪枝等步骤，易于理解和实现，但需注意过拟合和模型稳定性的问题。在实际应用中，可以根据具体场景选择合适的决策树算法和参数设置。

分类算法——决策树详解

决策树的底层原理决策树是一种常用的分类和回归算法，其基本原理是通过一系列的简单决策，将数据集划分为多个子集，从而实现分类。决策树的核心思想是通过树形结构表示决策过程，节点代表特征，边代表决策，叶子…...

编程日记 2024/11/1 19:06:17

C# 编程基础：深入解析构造函数与析构函数

在C#中，构造函数和析构函数是特殊的成员函数，它们分别在对象创建和销毁时自动调用。构造函数构造函数是一个在创建对象时自动调用的特殊方法，用于初始化对象的状态。它可以有参数，也可以没有参数。一个类可以有一个或多个构造…...

编程日记 2024/11/1 19:05:16

中国大学慕课视频资源分析

右键查看视频信息关注点在 urls 这个参数，仔细分析就会发现其实是由若干个.ts拓展名和一个.m3u8拓展名的视频文件，每一个.ts视频文件的时长在10秒钟左右。中国大学MOOC将课程的视频文件拆分成若干个这样的.ts片段，并且用.m3u8记录这些片段…...

编程日记 2024/11/1 19:04:15

简单的kafkaredis学习之redis

简单的kafka&redis学习之redis 2. Redis 2.1 什么是Redis Redis是一种面向 “Key-Value” 数据类型的内存数据库，可以满足我们对海量数据的快速读写需求，Redis是一个 NoSQL 数据库，NoSQL的全称是not only sql，不仅仅是SQL&…...

编程日记 2024/11/1 19:03:14

前端性能优化全攻略：提升用户体验，加速页面加载

在当今互联网时代，用户对于网页的加载速度和性能要求越来越高。快速响应的网页不仅能提升用户体验，还能提高网站的搜索引擎排名和转化率。因此，前端性能优化成为了前端开发中至关重要的一环。本文将深入探讨前端性能优化的原则、方法以及如何…...

编程日记 2024/11/1 19:00:10

手机玩亚托莉：我挚爱的时光！手机推gal、躺床玩漫改gal教程

亚托莉：我挚爱的时光是一款视觉与情感交织的好游戏。游戏背景设定在因为不明原因导致全球海平面上升之后的未来，在全球大多数地方都被海洋淹没城市才是相对环境的情况下，在一场事故失去了一条腿的男主斑鸠夏生却选择了放弃城市，转…...

编程日记 2024/11/1 18:57:08

metasploit/modules/evasion 有哪些模块，以及具体使用案例

Metasploit框架的evasion模块用于生成绕过安全检测的有效载荷。以下是一些常见的evasion模块及其使用案例： 1. 通用Evasion模块 windows/meterpreter/reverse_tcp_rc4：使用RC4加密的反向TCP Meterpreter会话。 set PAYLOAD windows/meterpreter/reverse…...

编程日记 2024/11/1 18:56:06

网络安全入门文档-虚拟机配置篇

前言虚拟机作为网络安全渗透测试中常见的工具。通常被用来安装kali系统简单解释一下，目前操作系统分为三类 windows、linux、mac linux又有两个小类，分别是RedHat、Debian 而我们要安装的kali就是基于Debian的操作系统。简单来说。虚拟机和系统是两个…...

编程日记 2024/11/1 18:52:02

class 041 最大公约数、同余原理

1. 辗转相除法对下面的证明过程有什么问题和怀疑的直接随便找两个数字自己写一遍就行了. 1.1 利用辗转相除法计算最大公约数直接记忆这段代码公式就行了(具体的证明过程直接去看左程云老师写的就行了). public static long gcd(long a, long b) { // Greatest Common Di…...

编程日记 2024/11/1 18:49:59

token的创建与解析，并配合拦截器使用

场景： 进行web应用开发时，往往需要对当前用户进行身份判断，此时可以使用token技术 1.导入依赖 <dependency><groupId>io.jsonwebtoken</groupId><artifactId>jjwt-impl</artifactId><scope>runtime<…...

编程日记 2024/11/1 18:47:57

Oracle 数据库历史备份数据恢复验证

Oracle ASM 管理的数据库历史备份数据恢复至单实例数据库简介： 验证 ASM 管理的数据库的历史备份恢复至单实例数据库（主要目的在于验证历史备份是否可用的一次恢复演练） 一、恢复演练系统选择根据数据库情况选择恢复测试的环境。此次恢…...

编程日记 2024/11/1 18:46:56

【网络面积篇】TCP断开连接（笔记）

目录一. 四次挥手 （1）过程描述 （2）为什么是四次挥手？ 二、相关问题 1. 第一次挥手丢失了，会发生什么？ 2. 第二次挥手丢失了，会发生什么？ 补充：close …...

编程日记 2024/11/1 18:45:55

下跌多少才能涨回来？

文章目录上涨下跌函数关系函数图形数学分析上涨下跌函数关系最近炒股很热，对于股票来说，有个很重要的参数涨跌幅，那么下跌多少才能涨回来？这个不需要太深的知识就可以计算出来，下跌和上涨不是等价的，下跌…...

编程日记 2024/11/1 18:42:53

【AAOS】【源码分析】CarSystemUI -- CarSystemBar

CarSystemBar不像Android手机那样固定的顶部“状态栏”和底部“导航栏”，而是将StatusBar和NavigationBar都统称为SystemBar，可以通过如下配置为每侧最多配置一个“系统栏”。 packages/apps/Car/SystemUI/res/values/config.xml<!-- Configure which system bars should …...

编程日记 2024/11/1 18:40:50

[供应链] 邀请招标

1.邀请招标定义邀请招标(Invitation to Bid by Request) 也称为有限竞争性招标(limited Competitive Bidding)或选择性招标(Selected Bidding) 邀请招标的采购方式下，采购人(如政府机构、企业或其他组织)不是公开发布招标信息，而是根据供应商或承包商…...

编程日记 2024/11/1 18:37:46

VS2017+Qt5.12.9+CMake3.30.2编译VTK 9.2.0

一.准备工作 vs2017，QT，Cmake自行下载准备， VTK下载地址 1.官网下载 2.github下载二.编译VTK源码 1.个人习惯创建以下目录，一个源码目录，Build为vs解决方案输出目录和编译输出以及中间生成文件目录 2.cmake基础…...

编程日记 2024/11/1 18:36:44

Java线程CPU占用过高如何排查?

使用ps命令查看java进程详细信息： ps aux | grep java使用top命令查看系统进程占用情况 top使用jstack命令导出Java进程的堆栈信息 jstack pid | grep tid -A 10 "java.lang.Thread.State" > gc.log找出占用cpu最高的线程id： top -Hp -d 1 …...

编程日记 2024/11/1 18:35:43

uniapp推送配置流程

Dcloud Dcloud注册账号个推了解即可注册个推账号 ios配置流程需配置含有推送的描述文件以及p8证书配置推送证书 ios证书配置报技术错误（参数错误） TeamID-苹果开发者账号唯一的ID 安卓需配置多厂商小米手机需要配置小米厂商华为手机则需…...

编程日记 2024/11/1 18:34:41

qt QPicture详解

1、概述 QPicture类是Qt框架中的一个重要图形类，它主要用于记录和回放QPainter的绘图指令。这个类能够跨平台、无分辨率依赖地绘制图形，非常适合用于实现打印预览和图像操作等场景。QPicture可以将绘图操作序列化为一种独立于平台的格式，保存…...

编程日记 2024/11/1 18:32:39

ScheduledFuture Source Code Analysis

ScheduledFuture Overview is a delayed result-bearing action, 可以被cancel.通常是在ScheduledExecutorService里面schedule一个task, 然后ScheduledFuture是其task执行接受后的返回结果。 Code Analysis 继承于两个接口： extends Delayed, Future一些继承ch…...

编程日记 2024/11/1 18:31:38

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向深度学习与微纳光子学的结合主要集中在以下几个方向： 逆向设计通过神经网络快速预测微纳结构的光学响应，替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。特征提取与优化从复杂的光学数据中自…...

编程新知 2026/2/8 15:03:04

RocketMQ延迟消息机制

两种延迟消息 RocketMQ中提供了两种延迟消息机制指定固定的延迟级别通过在Message中设定一个MessageDelayLevel参数，对应18个预设的延迟级别指定时间点的延迟级别通过在Message中设定一个DeliverTimeMS指定一个Long类型表示的具体时间点。到了时间点后&#xf…...

编程新知 2026/2/8 21:59:25

Java 语言特性(面试系列1)

一、面向对象编程 1. 封装（Encapsulation） 定义：将数据（属性）和操作数据的方法绑定在一起，通过访问控制符（private、protected、public）隐藏内部实现细节。示例： public …...

编程新知 2025/10/6 4:03:40

.Net框架，除了EF还有很多很多......

文章目录 1. 引言2. Dapper2.1 概述与设计原理2.2 核心功能与代码示例基本查询多映射查询存储过程调用 2.3 性能优化原理2.4 适用场景 3. NHibernate3.1 概述与架构设计3.2 映射配置示例Fluent映射XML映射 3.3 查询示例HQL查询Criteria APILINQ提供程序 3.4 高级特性3.5 适用场…...

编程新知 2026/2/1 19:26:16

centos 7 部署awstats 网站访问检测

一、基础环境准备（两种安装方式都要做） bash # 安装必要依赖 yum install -y httpd perl mod_perl perl-Time-HiRes perl-DateTime systemctl enable httpd # 设置 Apache 开机自启 systemctl start httpd # 启动 Apache二、安装 AWStats&#xff0…...

编程新知 2026/1/23 8:33:56

《Playwright：微软的自动化测试工具详解》

Playwright 简介:声明内容来自网络，将内容拼接整理出来的文档 Playwright 是微软开发的自动化测试工具，支持 Chrome、Firefox、Safari 等主流浏览器，提供多语言 API（Python、JavaScript、Java、.NET）。它的特点包括&a…...

编程新知 2025/7/23 15:00:00

质量体系的重要

质量体系是为确保产品、服务或过程质量满足规定要求，由相互关联的要素构成的有机整体。其核心内容可归纳为以下五个方面： 🏛️ 一、组织架构与职责质量体系明确组织内各部门、岗位的职责与权限，形成层级清晰的管理网络&#xf…...

编程新知 2025/10/24 9:13:44

Map相关知识

数据结构二叉树二叉树，顾名思义，每个节点最多有两个“叉”，也就是两个子节点，分别是左子节点和右子节点。不过，二叉树并不要求每个节点都有两个子节点，有的节点只有左子节点，有的节点只有…...

编程新知 2026/2/4 16:21:14

Spring AI与Spring Modulith核心技术解析

Spring AI核心架构解析 Spring AI（https://spring.io/projects/spring-ai）作为Spring生态中的AI集成框架，其核心设计理念是通过模块化架构降低AI应用的开发复杂度。与Python生态中的LangChain/LlamaIndex等工具类似，但特别为多语…...

编程新知 2025/12/14 17:38:21

Docker 本地安装 mysql 数据库

Docker: Accelerated Container Application Development 下载对应操作系统版本的 docker ；并安装。基础操作不再赘述。打开 macOS 终端，开始 docker 安装mysql之旅第一步 docker search mysql 》〉docker search mysql NAME DE…...

编程新知 2026/2/6 21:43:26