当前位置：首页 > news >正文

机器学习算法决策树

news 2026/5/18 18:49:26

决策树的介绍

决策树是一种常见的分类模型，在金融风控、医疗辅助诊断等诸多行业具有较为广泛的应用。决策树的核心思想是基于树结构对数据进行划分，这种思想是人类处理问题时的本能方法。例如在婚恋市场中，女方通常会先询问男方是否有房产，如果有房产再了解是否有车产，如果有车产再看是否有稳定工作……最后得出是否要深入了解的判断。

决策树的主要优点：

具有很好的解释性，模型可以生成可以理解的规则。
可以发现特征的重要程度。
模型的计算复杂度较低。

决策树的主要缺点：

模型容易过拟合，需要采用减枝技术处理。
不能很好利用连续型特征。
预测能力有限，无法达到其他强监督模型效果。
方差较高，数据分布的轻微改变很容易造成树结构完全不同。

由于决策树模型中自变量与因变量的非线性关系以及决策树简单的计算方法，使得它成为集成学习中最为广泛使用的基模型。梯度提升树，XGBoost以及LightGBM等先进的集成模型都采用了决策树作为基模型，在广告计算、CTR预估、金融风控等领域大放异彩，同时决策树在一些明确需要可解释性或者提取分类规则的场景中被广泛应用，而其他机器学习模型在这一点很难做到。例如在医疗辅助系统中，为了方便专业人员发现错误，常常将决策树算法用于辅助病症检测。

决策树的应用

通过sklearn实现决策树分类

import numpy as np
import matplotlib.pyplot as pltfrom sklearn import datasetsiris = datasets.load_iris()
X = iris.data[:,2:]
y = iris.targetplt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.scatter(X[y==2,0],X[y==2,1])plt.show()

from sklearn.tree import DecisionTreeClassifiertree = DecisionTreeClassifier(max_depth=2,criterion="entropy")
tree.fit(X,y)

依据模型绘制决策树的决策边界

def plot_decision_boundary(model,axis):x0,x1 = np.meshgrid(np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1),np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100)).reshape(-1,1))X_new = np.c_[x0.ravel(),x1.ravel()]y_predict = model.predict(X_new)zz = y_predict.reshape(x0.shape)from matplotlib.colors import ListedColormapcustom_map = ListedColormap(["#EF9A9A","#FFF59D","#90CAF9"])plt.contourf(x0,x1,zz,linewidth=5,cmap=custom_map)plot_decision_boundary(tree,axis=[0.5,7.5,0,3])
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.scatter(X[y==2,0],X[y==2,1])
plt.show()

实战：

Step: 库函数导入

import numpy as np ## 导入画图库
import matplotlib.pyplot as plt
import seaborn as sns## 导入决策树模型函数
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree

Step: 训练模型

## 构造数据集
x_fearures = np.array([[-1, -2], [-2, -1], [-3, -2], [1, 3], [2, 1], [3, 2]])
y_label = np.array([0, 1, 0, 1, 0, 1])## 调用决策树回归模型
tree_clf = DecisionTreeClassifier()## 调用决策树模型拟合构造的数据集
tree_clf = tree_clf.fit(x_fearures, y_label)

Step: 数据和模型可视化

plt.figure()
plt.scatter(x_fearures[:,0],x_fearures[:,1], c=y_label, s=50, cmap='viridis')
plt.title('Dataset')
plt.show()import graphviz
dot_data = tree.export_graphviz(tree_clf, out_file=None)
graph = graphviz.Source(dot_data)
graph.render("pengunis")

Step:模型预测

x_fearures_new1 = np.array([[0, -1]])
x_fearures_new2 = np.array([[2, 1]])## 在训练集和测试集上分布利用训练好的模型进行预测
y_label_new1_predict = tree_clf.predict(x_fearures_new1)
y_label_new2_predict = tree_clf.predict(x_fearures_new2)print('The New point 1 predict class:\n',y_label_new1_predict)
print('The New point 2 predict class:\n',y_label_new2_predict)

ID3 决策树

ID3 树是基于信息增益构建的决策树

熵在信息论中代表随机变量不确定度的度量。
熵越大，数据的不确定性度越高

import numpy as np
import matplotlib.pyplot as pltdef entropy(p):return -p*np.log(p)-(1-p)*np.log(1-p)x = np.linspace(0.01,0.99,200)
plt.plot(x,entropy(x))
plt.show()

信息增益

信息熵是一种衡量数据混乱程度的指标，信息熵越小，则数据的“纯度”越高

ID3算法步骤

计算每个特征的信息增益
使用信息增益最大的特征将数据集 S 拆分为子集
使用该特征（信息增益最大的特征）作为决策树的一个节点
使用剩余特征对子集重复上述（1，2，3）过程

C4.5 决策树

信息增益率计算公式

如果某个特征的特征值种类较多，则其内在信息值就越大。特征值种类越多，除以的系数就越大。

如果某个特征的特征值种类较小，则其内在信息值就越小

C4.5算法优缺点

优点：分类规则利于理解，准确率高
缺点
- 在构造过程中，需要对数据集进行多次的顺序扫描和排序，导致算法的低效
- C4.5只适合于能够驻留内存的数据集，当数据集非常大时，程序无法运行
无论是ID3还是C4.5最好在小数据集上使用，当特征取值很多时最好使用C4.5算法。

CART 分类决策树

Cart模型是一种决策树模型，它即可以用于分类，也可以用于回归

（1）决策树生成：用训练数据生成决策树，生成树尽可能大

（2）决策树剪枝：基于损失函数最小化的剪枝，用验证数据对生成的数据进行剪枝。

分类和回归树模型采用不同的最优化策略。Cart回归树使用平方误差最小化策略，Cart分类生成树采用的基尼指数最小化策略。

Criterion这个参数正是用来决定模型特征选择的计算方法的。sklearn提供了两种选择：

输入”entropy“，使用信息熵（Entropy）
输入”gini“，使用基尼系数（Gini Impurity）

基尼指数：

信息增益（ID3）、信息增益率值越大（C4.5），则说明优先选择该特征。
基尼指数值越小（cart），则说明优先选择该特征。

剪枝

剪枝是决策树学习算法对付过拟合的主要手段。

在决策树学习中，为了尽可能正确分类训练样本，结点划分过程将不断重复，有时会造成决策树分支过多，这时就可能因训练样本学得"太好"了，以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合

决策树的构建过程是一个递归的过层，所以必须确定停止条件，否则过程将不会停止，树会不停生长。

先剪枝和后剪枝

先剪枝就是提前结束决策树的增长。
后剪枝是在决策树生长完成之后再进行剪枝的过程。

预剪枝使决策树的很多分支没有展开，不单降低了过拟合风险，还显著减少了决策树的训练、测试时间开销。
后剪枝比预剪枝保留了更多的分支。一般情况下，后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝。

机器学习算法决策树

决策树的介绍

决策树的应用

ID3 决策树

C4.5 决策树

CART 分类决策树

剪枝

相关文章：

机器学习算法决策树

ssh和sftp服务分离

Bootstrap学习三

第77讲用户管理功能实现

锐捷（十九）锐捷设备的接入安全

【MySQL题】——基础概念论述（二）

Spring Boot + flowable 快速实现工作流

（已解决）LaTeX Error: File `svproc.cls‘ not found. （用Springer LNCS 会议Proceedings模板）

Spring Boot 自定义指标

安全的接口访问策略

最佳视频转换器软件：2024年视频格式转换的选择

深入理解 Nginx 插件及功能优化指南

鸿蒙（HarmonyOS）项目方舟框架（ArkUI）之Blank组件

InternLM大模型实战-4.XTuner大模型低成本微调实战

【SpringBoot篇】解决Redis分布式锁的误删问题和原子性问题

蓝桥杯Web应用开发-CSS3 新特性【练习三：文本阴影】

LRU缓存

ncc匹配提速总结

人力资源智能化管理项目（day06:员工管理）

Java实现数据可视化的智慧河南大屏 JAVA+Vue+SpringBoot+MySQL

通过环境变量管理多个 Taotoken API Key 以实现访问控制

ESP32 Arduino IDE 看门狗实战：从硬件看门狗到Task Watchdog Timer的配置与避坑指南

Netscape 浏览器：互联网时代的先驱者

会话包装器设计：提升API连接弹性与可观测性的工程实践

Web NFC技术入门：在浏览器中实现NFC标签读写与信息管理

PIC单片机入门实战：基于F1评估板的开发环境搭建与核心外设应用

3分钟彻底移除Windows Defender：释放30%系统性能的实战指南

如何彻底释放惠普OMEN游戏本性能：终极免费硬件控制工具指南

AI智能体容器化开发实践：基于AgentBox构建安全可复现的沙盒环境

DDrawCompat：让经典DirectX游戏在现代Windows系统上重获新生的兼容神器