当前位置：首页 > news >正文

【机器学习】从理论到实践：决策树算法在机器学习中的应用与实现

news 文章来源：https://blog.csdn.net/qq_61024956/article/details/139840125 2025/5/9 4:12:48

📝个人主页：哈__

期待您的关注

📕引言

⛓决策树的基本原理

1. 决策树的结构

2. 信息增益

熵的计算公式

信息增益的计算公式

3. 基尼指数

4. 决策树的构建

🤖决策树的代码实现

1. 数据准备

2. 决策树模型训练

3. 决策树的可视化

4. 决策树的解释

🍎决策树在机器学习中的应用

1. 分类任务

2.决策树在回归任务中的应用

3. 特征选择

4. 异常检测

🎇决策树的优缺点

优点

缺点

💡决策树的改进方法

剪枝

集成方法

随机森林

梯度提升树

总结

📕引言

决策树是一种广泛应用于分类和回归任务的监督学习算法。它通过将数据集划分成不同的子集来做出决策，直观且易于理解。在本篇文章中，我们将深入剖析决策树的原理，并通过具体的代码实例展示其在机器学习中的应用。

⛓决策树的基本原理

1. 决策树的结构

决策树由节点和边组成，其中每个节点表示数据集的某个特征，每条边表示特征的某个值所对应的分支。决策树的最顶端称为根节点，叶节点代表决策结果。以下是一个简单的决策树示例图：

2. 信息增益

决策树的构建过程依赖于一个重要概念：信息增益。信息增益用于衡量某个特征在划分数据集时所带来的纯度提升。常用的纯度度量包括熵、基尼指数等。

熵的计算公式

熵（Entropy）用于衡量数据集的不确定性，其计算公式为：

$H(S) = -\sum_{i=1}^{c} p_i \log_2 p_i$

其中， $S$ 是数据集， $c$ 是类别数， $p_i$ 是第 $i$ 类的概率。

信息增益的计算公式

信息增益（Information Gain）用于衡量选择某个特征进行数据划分时，数据集纯度的提升，其计算公式为：

$IG(S, A) = H(S) - \sum_{v \in \text{values}(A)} \frac{|S_v|}{|S|}$ I

其中， $A$ 是特征， $S_v$ 是根据特征 $A$ 的值 $v$ 划分的数据子集。

3. 基尼指数

基尼指数（Gini Index）是另一种常用的纯度度量方法，用于衡量数据集的不纯度，其计算公式为：

$Gini(S) = 1 - \sum_{i=1}^{c} p_i^2$

其中， $p_i$ 是第 $i$ 类的概率。

4. 决策树的构建

决策树的构建过程可以归纳为以下步骤：

选择最佳特征进行数据集划分：选择使得信息增益最大化或基尼指数最小化的特征。
根据特征值划分数据集：将数据集根据选定特征的不同取值划分为若干子集。
递归构建子树：在每个子集上递归构建子树，直到满足停止条件（如所有样本属于同一类别或特征用尽）。

以下是决策树构建过程的伪代码：
函数 BuildTree(data, features):如果 data 中所有实例属于同一类别:返回该类别如果 features 为空或 data 为空:返回 data 中出现次数最多的类别选择使信息增益最大的特征 A创建节点 node，并将其标记为特征 A对于特征 A 的每个可能取值 v:子数据集 sub_data = 由 data 中特征 A 的值为 v 的实例构成如果 sub_data 为空:在 node 上创建叶节点，标记为 data 中出现次数最多的类别否则:在 node 上创建子节点，并将子节点连接到 BuildTree(sub_data, features \ {A})返回 node

🤖决策树的代码实现

接下来，我们通过具体代码展示如何在Python中实现决策树，并应用于分类任务。

1. 数据准备

我们使用一个简单的数据集来演示决策树的构建过程。

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris# 加载Iris数据集
data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(df.drop(columns=['target']), df['target'], test_size=0.3, random_state=42)

2. 决策树模型训练

我们使用Scikit-Learn中的DecisionTreeClassifier来训练决策树模型。

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score# 初始化决策树分类器
clf = DecisionTreeClassifier(criterion='entropy', max_depth=3, random_state=42)# 训练模型
clf.fit(X_train, y_train)# 预测
y_pred = clf.predict(X_test)# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'决策树模型的准确率: {accuracy:.2f}')

3. 决策树的可视化

我们可以使用Scikit-Learn的export_graphviz函数和graphviz库来可视化决策树。

from sklearn.tree import export_graphviz
import graphviz# 导出决策树
dot_data = export_graphviz(clf, out_file=None, feature_names=data.feature_names,  class_names=data.target_names,  filled=True, rounded=True,  special_characters=True)  # 使用graphviz渲染决策树
graph = graphviz.Source(dot_data)  
graph.render("decision_tree")  # 生成决策树的PDF文件

4. 决策树的解释

在实际应用中，决策树的解释能力非常重要。我们可以通过以下方式解读决策树的结果：

特征重要性：决策树可以计算每个特征的重要性，反映其在树中进行决策时的重要程度。

import matplotlib.pyplot as plt
import numpy as npfeature_importances = clf.feature_importances_
features = data.feature_namesindices = np.argsort(feature_importances)plt.figure(figsize=(10, 6))
plt.title("Feature Importances")
plt.barh(range(len(indices)), feature_importances[indices], align="center")
plt.yticks(range(len(indices)), [features[i] for i in indices])
plt.xlabel("Relative Importance")
plt.show()

决策路径：我们可以追踪决策树在做出某个预测时的决策路径。

sample_id = 0  # 样本索引
node_indicator = clf.decision_path(X_test)
leaf_id = clf.apply(X_test)sample_path = node_indicator.indices[node_indicator.indptr[sample_id]:node_indicator.indptr[sample_id + 1]]
print(f'样本 {sample_id} 的决策路径：')
for node_id in sample_path:if leaf_id[sample_id] == node_id:print(f'--> 叶节点 {node_id}')else:print(f'--> 节点 {node_id}, 判断特征：{features[clf.tree_.feature[node_id]]}, 阈值：{clf.tree_.threshold[node_id]:.2f}')

🍎决策树在机器学习中的应用

决策树在机器学习中有广泛的应用，主要体现在以下几个方面：

1. 分类任务

决策树在分类任务中应用广泛，如垃圾邮件分类、疾病诊断等。以下是使用决策树进行分类任务的示例代码：
from sklearn.datasets import load_wine
from sklearn.metrics import classification_report# 加载葡萄酒数据集
wine_data = load_wine()
X_wine = wine_data.data
y_wine = wine_data.target# 划分训练集和测试集
X_train_wine, X_test_wine, y_train_wine, y_test_wine = train_test_split(X_wine, y_wine, test_size=0.3, random_state=42)# 训练决策树分类器
wine_clf = DecisionTreeClassifier(criterion='gini', max_depth=5, random_state=42)
wine_clf.fit(X_train_wine, y_train_wine)# 预测
y_pred_wine = wine_clf.predict(X_test_wine)# 评估模型
print(classification_report(y_test_wine, y_pred_wine, target_names=wine_data.target_names))
2.决策树在回归任务中的应用

决策树同样适用于回归任务，例如房价预测、股票价格预测等。决策树回归模型通过将数据集划分为若干区域，并对每个区域内的样本进行平均来进行预测。以下是一个使用决策树进行回归任务的示例代码：
from sklearn.datasets import load_boston
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error# 加载波士顿房价数据集
boston = load_boston()
X_boston = boston.data
y_boston = boston.target# 划分训练集和测试集
X_train_boston, X_test_boston, y_train_boston, y_test_boston = train_test_split(X_boston, y_boston, test_size=0.3, random_state=42)# 初始化决策树回归器
regressor = DecisionTreeRegressor(criterion='mse', max_depth=5, random_state=42)# 训练模型
regressor.fit(X_train_boston, y_train_boston)# 预测
y_pred_boston = regressor.predict(X_test_boston)# 计算均方误差
mse = mean_squared_error(y_test_boston, y_pred_boston)
print(f'决策树回归模型的均方误差: {mse:.2f}')
3. 特征选择

决策树可以用于特征选择，通过计算特征的重要性来筛选出对预测结果影响最大的特征。这在高维数据集的处理上尤其有用。
# 计算特征重要性
feature_importances = regressor.feature_importances_
features = boston.feature_names# 打印特征重要性
for name, importance in zip(features, feature_importances):print(f'Feature: {name}, Importance: {importance:.2f}')
4. 异常检测

决策树还可以用于异常检测，通过构建深度较大的树来识别数据集中异常点。较深的叶节点通常对应于异常样本。
from sklearn.ensemble import IsolationForest# 初始化隔离森林模型
iso_forest = IsolationForest(n_estimators=100, contamination=0.1, random_state=42)# 训练模型
iso_forest.fit(X_train_boston)# 预测异常
anomalies = iso_forest.predict(X_test_boston)
print(f'异常样本数量: {sum(anomalies == -1)}')

🎇决策树的优缺点

优点

直观易懂：决策树的结构类似于人类的决策过程，易于理解和解释。
无需特征缩放：决策树对数据的缩放不敏感，不需要进行特征归一化或标准化。
处理缺失值：决策树能够处理数据集中的缺失值。
非线性关系：决策树能够捕捉数据中的非线性关系。

缺点

容易过拟合：决策树在训练数据上表现良好，但在测试数据上可能表现不佳，需要通过剪枝等方法进行优化。
对噪声敏感：决策树对数据中的噪声较为敏感，容易导致模型不稳定。
偏向于多值特征：决策树在选择特征时偏向于取值较多的特征，可能导致偏差。

💡决策树的改进方法

剪枝

剪枝是通过删除决策树中的一些节点来减少模型的复杂度，防止过拟合。剪枝方法主要包括预剪枝和后剪枝。

预剪枝：在构建决策树的过程中，通过限制树的最大深度、最小样本数等参数来防止树的过度生长。
后剪枝：在决策树构建完成后，通过评估子树的重要性来剪除不重要的子树。

集成方法

集成方法通过结合多个决策树的预测结果来提高模型的稳定性和准确性，常见的集成方法包括随机森林和梯度提升树。

随机森林

随机森林通过构建多棵决策树，并对每棵树的预测结果进行投票来获得最终结果，有效减少了单棵决策树的过拟合问题。
from sklearn.ensemble import RandomForestRegressor# 初始化随机森林回归器
rf_regressor = RandomForestRegressor(n_estimators=100, max_depth=5, random_state=42)# 训练模型
rf_regressor.fit(X_train_boston, y_train_boston)# 预测
rf_y_pred = rf_regressor.predict(X_test_boston)# 计算均方误差
rf_mse = mean_squared_error(y_test_boston, rf_y_pred)
print(f'随机森林回归模型的均方误差: {rf_mse:.2f}')
梯度提升树

梯度提升树通过逐步构建多个决策树，每棵树都在之前所有树的基础上进行改进，从而提高模型的准确性。
from sklearn.ensemble import GradientBoostingRegressor# 初始化梯度提升回归器
gb_regressor = GradientBoostingRegressor(n_estimators=100, max_depth=3, random_state=42)# 训练模型
gb_regressor.fit(X_train_boston, y_train_boston)# 预测
gb_y_pred = gb_regressor.predict(X_test_boston)# 计算均方误差
gb_mse = mean_squared_error(y_test_boston, gb_y_pred)
print(f'梯度提升回归模型的均方误差: {gb_mse:.2f}')

总结

本文详细介绍了决策树的基本原理、构建过程及其在机器学习中的应用。通过详细的代码示例，我们展示了如何使用决策树进行分类和回归任务，并探讨了决策树的优缺点及其改进方法。希望通过本文的介绍，读者能够更深入地理解决策树算法，并能在实际应用中灵活运用这一强大的工具。

无论是在特征选择、分类任务、回归任务还是异常检测中，决策树都展现出了其独特的优势和广泛的应用前景。通过不断优化和改进，决策树将在更多的机器学习任务中发挥重要作用。

【机器学习】从理论到实践：决策树算法在机器学习中的应用与实现

📝个人主页：哈__ 期待您的关注目录 📕引言 ⛓决策树的基本原理 1. 决策树的结构 2. 信息增益熵的计算公式信息增益的计算公式 3. 基尼指数 4. 决策树的构建 🤖决策树的代码实现 1. 数据准备 2. 决策树模型训练 3.…...

编程日记 2024/6/21 5:57:04

Zookeeper 集群节点故障剔除、切换、恢复原理

Zookeeper 集群节点故障剔除、切换、恢复原理 zookeeper 集群节点故障时，如何剔除节点，如果为领导节点如何处理，如何进行故障恢复的，实现原理? 在 Zookeeper 集群中，当节点故障时，集群需要自动剔除故障节点并进行故障恢复，确保集群的高可用性和一致性。具体来说，…...

编程日记 2024/6/21 5:56:03

解决帝国cms栏目管理拼音乱码的问题

帝国CMS7.5版本utf-8版网站后台增加栏目生成乱码的问题怎么解决 1、需要改一个函数，并且增加一个处理文件，方法如下： 修改e/class/connect.php文件，找到ReturnPinyinFun函数，如未修改文件在4533-4547行，将…...

编程日记 2024/6/21 5:55:01

Git快速入门

一快速使用 1.1 初始化什么是版本库呢？版本库又名仓库，可以简单理解成一个目录，这个目录里面的所有文件都可以被Git管理起来，每个文件的修改、删除，Git都能跟踪，以便任何时刻都可以追踪历史&#xff0…...

编程日记 2024/6/21 5:51:57

【18.0】JavaScript---事件案例

【18.0】JavaScript—事件案例【一】开关灯事件【介绍】设置一个按钮，按下按钮触发事件，来回切换圆形图片的颜色【分析】图片设置：设置成圆形的图片背景颜色：设置红绿两个颜色，来回切换按钮设置：点击…...

编程日记 2024/6/21 5:50:56

推荐系统三十六式学习笔记：原理篇.矩阵分解12|如果关注排序效果，那么这个模型可以帮到你

目录矩阵分解的不足贝叶斯个性化排序AUC构造样本目标函数训练方法总结矩阵分解在推荐系统中的地位非常崇高。它既有协同过滤的血统，又有机器学习的基因，可以说是非常优秀了；但即便如此，传统的矩阵分解无论是在处理显式反馈&…...

编程日记 2024/6/21 5:48:54

Kafka之ISR机制的理解

文章目录 Kafka的基本概念什么是ISRISR的维护机制ISR的作用ISR相关配置参数同步过程示例代码总结 Kafka中的ISR（In-Sync Replicas同步副本）机制是确保数据高可用性和一致性的核心组件。 Kafka的基本概念在Kafka中，数据被组织成主题&#xf…...

编程日记 2024/6/21 5:47:52

如何设计一个点赞系统

首先我们定义出一个点赞系统需要对外提供哪些接口： 1.用户对特定的消息进行点赞； 2.用户查看自己发布的某条消息点赞数量以及被哪些人赞过； 3.用户查看自己给哪些消息点赞过； 这里假设每条消息都有一个message_id, 每一个用户都…...

编程日记 2024/6/21 5:46:49

对象存储测试工具-s3cmd

一、环境安装官网：https://s3tools.org/s3cmd 下载安装包：https://s3tools.org/download GitHub：https://github.com/s3tools/s3cmd/releases 本文安装包：https://github.com/s3tools/s3cmd/releases/download/v2.0.2/s3cmd-2.0…...

编程日记 2024/6/21 5:45:48

OpenCV--图像色彩空间及转换

图像色彩空间及转换 python代码和笔记 python代码和笔记 import cv2 色彩空间，基础：RGB或BGR OpenCV中： 一、HSV(HSB)：用的最多， Hue：色相-色彩(0-360)，红色：0，绿色&…...

编程日记 2024/6/21 5:44:46

RIP解决不连续子网问题

#交换设备 RIP解决不连续子网问题一、不连续子网的概念相同主网下的子网，被另一个主网分割，例如下面实验拓扑在某公司的网络整改项目中，原先R1 和RS 属于同一主网络 10.0.0.0/8，现被 R2、R3、R4 分离，整网采用了 …...

编程日记 2024/6/21 5:43:45

动态轮换代理IP是什么？有什么用？

如果您要处理多个在线帐户，选择正确的代理类型对于实现流畅的性能至关重要。但最适合这项工作的代理类型是什么？ 为了更好地管理不同平台上的多个账户并优化成本，动态住宅代理IP通常作用在此。一、什么是轮换代理？ 轮换代理充当…...

编程日记 2024/6/21 5:42:43

MAC配置VScode中C++项目debug环境

文章目录配置步骤问题解决Unable to start debugging. LLDB exited unexpectedly with exit code 137 (0x89). 配置步骤在Mac上配置VS Code以进行C调试涉及几个步骤： 安装必要的工具: 确保您已经安装了Visual Studio Code和C插件。检查是否安装了Clang&#xf…...

编程日记 2024/6/21 5:41:42

CREATE CAST源码分析 CREATE CAST用法 CREATE CAST —— 定义一个用户自定义的类型转换用法如下： CREATE CAST (source_type AS target_type)WITH FUNCTION function_name [ (argument_type [, ...]) ][ AS ASSIGNMENT | AS IMPLICIT ]CREATE CAST (source_type…...

编程日记 2024/6/21 5:40:41

解锁5G新营销：视频短信的优势与全方位推广策略

随着5G时代的全面来临，企业的数字化转型步伐日益加快，视频短信作为新兴的数字营销工具，正逐步展现出其巨大的潜力。视频短信群发以其独特的形式和内容，将图片、文字、视频、声音融为一体，为用户带来全新的直观感受&…...

编程日记 2024/6/21 5:39:39

视频监控平台功能：国外的硬盘录像机NVR通过ISUP协议(原ehome协议)接入AS-V1000视频平台

目录一、背景说明二、ISUP协议介绍 1、海康ISUP协议概述 2、ISUP协议支持主码流和子码流切换 （1）灵活配置和个性化 （2）适应不同网络带宽，提高使用体验 3、海康ehome相关文章三、ISUP协议接入说明 1、平台侧…...

编程日记 2024/6/21 5:36:35

PostgreSQL查询用户

在 PostgreSQL 中，可以通过查询系统表来确定当前用户是否是超级管理员（超级用户）。具体来说，可以使用 pg_roles 系统表，该表包含数据库中所有角色的信息。以下是查询当前用户是否是超级用户的 SQL 语句： …...

编程日记 2024/6/21 5:34:29

力扣1539.第k个缺失的正整数

力扣1539.第k个缺失的正整数占位运算只要n<k ，k;最终k就是结果 class Solution {public:int findKthPositive(vector<int>& arr, int k) {for(int n : arr){if(n < k) k ;else break;}return k;}};...

编程日记 2024/6/21 5:32:25

如何快速解决屏幕适配问题

下面将利用postcss插件快速解决屏幕适配问题。仅用少量代码，新手均可快速使用。 Step1. 安装 npm install postcss-px-to-viewport-8-plugin --save-dev Step2. 新建 postcss.config.js 文件，做基础配置 module.exports {plugins: {postcss-px-to-v…...

编程日记 2024/6/21 5:30:22

Go基础编程 - 09 - 通道（channel）

通道（channel） 1. 声明2. channel的操作3. 无缓冲通道4. 有缓冲通道5. 如何优雅的从通道循环取值6. 单向通道7. 异常总结上一篇：结构体 Go语言的并发模式：不要通过共享内存来通信，而应该通过通信来共享内存。 Go语言…...

编程日记 2024/6/21 5:29:21

[SAP ABAP] 数据类型

1.基本数据类型示例1 默认定义的基本数据类型是CHAR数据类型输出结果: 示例2 STRING数据类型用于存储任何长度可变的字符串输出结果: 示例3 DATE数据类型用于存储日期信息，并且可以存储8位数字输出结果: 提示Tips：日期和时间类型的变量可以直接进…...

编程日记 2024/6/21 5:28:20

什么是Vue开发技术

概述 Vue.js 是一个用于构建用户界面的渐进式框架，它设计得非常灵活，可以轻松地被集成到任何项目中。 vue是视图的发音，其目的是帮助开发者易于上手，提供强大的功能构建复杂的应用程序示例以下是vue基本的语法概述声明式渲…...

编程日记 2024/6/21 5:27:18

【QT】

通信服务端实现 widget.h文件 #ifndef WIDGET_H #define WIDGET_H #include <QWidget> #include <QTcpServer>//服务器类 #include <QMessageBox>//消息 #include <QTcpServer> #include <QList> #include <QTcpSocket> QT_BEGIN_NAMESPAC…...

编程日记 2024/6/21 5:26:17

【转载】使用 .NET Upgrade Assistant（升级助手）升级 .NET 老旧版本项目

使用 .NET Upgrade Assistant（升级助手）升级 .NET 老旧版本项目：https://blog.csdn.net/ChaITSimpleLove/article/details/134711604...

编程日记 2024/6/21 5:25:15

SpringBoot如何自定义启动Banner 以及自定义启动项目控制台输出信息类似于若依启动大佛制作教程

前言 Spring Boot 项目启动时会在控制台打印出一个 banner，下面演示如何定制这个 banner。若依也会有相应的启动动画 _ooOoo_o8888888o88" . "88(| -_- |)O\ /O____/---\____. \\| |// ./ \\||| : |||// \/ _||||| -:- |||||- \| | \\…...

编程日记 2024/6/21 5:24:14

访问控制列表(Access Control Lists，ACL)与哈希查找的爱恨情怨

访问控制列表（Access Control Lists，ACL）与哈希查找什么是访问控制列表ACL？直接说ACL是干啥的ACL概念为什么需要ACLACL类型ACL匹配机制使用例子哈希查找什么是哈希查找？哈希查找的基本原理哈希查找的步骤哈希查找在…...

编程日记 2024/6/21 5:23:11

一文讲清楚分销裂变是什么？怎么做好分销裂变？【附案例】

在数字化营销日益盛行的今天，分销裂变作为一种高效的推广手段，受到了越来越多企业的青睐。那么，分销裂变究竟是什么？我们又该如何做好分销裂变呢？林叔将从定义、方法以及案例分析三个方面进行阐述。一、分销裂变是什…...

编程日记 2024/6/21 5:22:10

Mybatis Plus 详解 IService、BaseMapper、自动填充、分页查询功能

结构直接看目录前言 MyBatis-Plus 是一个 MyBatis 的增强工具，在 MyBatis 的基础上只做增强不做改变，为简化开发、提高效率而生。愿景我们的愿景是成为 MyBatis 最好的搭档，就像魂斗罗中的 1P、2P，基友搭配，效…...

编程日记 2024/6/21 5:20:06

鸿蒙开发组件：【FA模型的Context】

FA模型的Context FA模型下只有一个Context。Context中的所有功能都是通过方法来提供的，它提供了一些featureAbility中不存在的方法，相当于featureAbility的一个扩展和补全。接口说明 FA模型下使用Context，需要通过featureAbility下的接口…...

编程日记 2024/6/21 5:19:04

Linux下手动修改服务器时间（没网环境下）

在客户服务器上更新程序时，发现服务器时间不对，现在应该是下午13:44:00，但服务器却显示为：21:40:53，所有是不对的。 date解决办法： 1、由于服务器是没有网的，只能手动设置时间，输入…...

编程日记 2024/6/21 5:18:01

📕引言

⛓决策树的基本原理

1. 决策树的结构

2. 信息增益

熵的计算公式

信息增益的计算公式

3. 基尼指数

4. 决策树的构建

🤖决策树的代码实现

1. 数据准备

2. 决策树模型训练

3. 决策树的可视化

4. 决策树的解释

🍎决策树在机器学习中的应用

1. 分类任务

2.决策树在回归任务中的应用

3. 特征选择

4. 异常检测

🎇决策树的优缺点

优点

缺点

💡决策树的改进方法

剪枝

集成方法

随机森林

梯度提升树

总结

相关文章：