当前位置：首页 > news >正文

数据挖掘——决策树分类

news 2026/2/9 5:37:33

数据挖掘——决策树分类

决策树分类
- Hunt算法
- 信息增益
- 增益比率
- 基尼指数
- 连续数据
- 总结

决策树分类

树状结构，可以很好的对数据进行分类；

决策树的根节点到叶节点的每一条路径构建一条规则；
具有互斥且完备的特点，即每一个样本均被且只能被一条路径所覆盖；
只要提供的数据量足够庞大真实，通过数据挖掘模式，就可以构造决策树。

Hunt算法

设 $D_t$ 是与节点相关联的训练记录集
算法步骤:

如果 $D_t$ 中所有记录都属于同一个类 $y_t$ ,则t是叶节点，用 $y_t$ 标记。
如果 $D_t$ 中包含属于多个类的记录,则选择一个属性测试条件，将记录划分成较小的子集
对于测试条件的每个输出，创建一个子结点，并根据测试结果将 $D_t$ 中的记录分布到子结点中。然后，对于每个子结点，递归地调用该算法。

Hunt算法采用贪心策略构建决策树

在选择划分数据的属性时，采取一系列局部最优决策来构造决策树。

决策树归纳的设计问题

如何分裂训练记录？
- 怎样为不同类型的属性指定测试条件？
- 怎样评估每种测试条件？
如何停止分裂过程？

怎样为不同类型的属性指定测试条件？

依赖于属性的类型
- 标称
- 序数
- 连续
依赖于划分的路数
- 多路划分
- 二元划分

怎样选择最佳划分？
选择最佳划分的度量通常是根据划分后子节点纯性的程度。
纯性的程度越高，类分布就越倾斜，划分结果越好。
在这里插入图片描述

信息增益

熵的定义如下：
$\operatorname{Entropy}(S)=-\sum_{i=1}^{c} p_{i} \log \left(p_{i}\right)$
信息增益定义如下：
$\operatorname{Gain}(S, A)=\operatorname{Entropy}(S)-\sum_{v \in A} \frac{\left|S_{v}\right|}{|S|} \operatorname{Entropy}\left(S_{v}\right)$

信息增益表示的是：得知特征X的信息而使得分类Y的信息的不确定性减少的程度，如果某个特征的信息增益比较大，就表示该特征对结果的影响较大。

举例说明:
在这里插入图片描述

增益比率

信息增益问题：取值比较多的特征比取值少的特征信息增益大
解决方案：使用增益率，K越大，SplitINFO越大，增益率被平衡
${{GainRATIO_{split}}}=\frac{\text { GAIN }_{\text {split }}}{\text { SplitINFO}}$
$SplitINFO=-\sum_{n=1}^{k} \frac{n_{i}}{n} \log \frac{n_{i}}{n}$

增益率准则对可取值数目较少的属性有偏好，因此C4.5算法并不是直接选择增益率最大的属性作为分支标准，而是先从侯选属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的属性。

基尼指数

在这里插入图片描述

连续数据

二元划分： $（ A < v ） or （ A \geq v ）$
- 考虑所有的划分点，选择一个最优划分点v
多路划分： $v_i≤A<v_{i+1} （i=1,…,k）$

总结

决策树是一种构建分类（回归）模型的非参数方法
不需要昂贵的的计算代价
决策树相对容易解释
决策树是学习离散值函数的典型代表
决策数对于噪声的干扰具有相当好的鲁棒性
冗余属性不会对决策树的准确率造成不利影响
数据碎片问题：随着树的生长，可能导致叶结点记录数太少，对于叶结点代表的类，不能做出具有统计意义的判决
子树可能在决策树中重复多次，使决策树过于复杂
决策树无法学习特征之间的线性关系，难以完成特征构造

数据挖掘——决策树分类

数据挖掘——决策树分类

决策树分类

Hunt算法

信息增益

增益比率

基尼指数

连续数据

总结

相关文章：

数据挖掘——决策树分类

Pytorch单、多GPU和CPU训练模型保存和加载

Karate 介绍与快速示例(API测试自动化、模拟、性能测试与UI自动化工具)

Pytest 高级用法：间接参数化

第07章存储管理（一）

Go语言的的设计模式（Design Patterns）核心知识

js函数预览图片：支持鼠标和手势拖拽缩放

用QT实现端口扫描工具1

设计模式结构型适配器模式（Adapter Pattern）与常见技术框架应用解析

vue 项目集成 electron 和 electron 打包及环境配置

vscode如何离线安装插件

计算机网络常见面试题及解答

举例说明AI模型怎么聚类,最后神经网络怎么保存

HarmonyOS NEXT应用开发实战(一)：边学边玩，从零开发一款影视APP

STM32G0B1 can Error_Handler 解决方法

使用 `llama_index` 构建智能问答系统：多种文档切片方法的评估

【大模型】7 天 AI 大模型学习

软件工程大复习之（四）——面向对象与UML

【Linux】shell命令

ValuesRAG：以检索增强情境学习强化文化对齐

【HarmonyOS 5.0】DevEco Testing：鸿蒙应用质量保障的终极武器

srs linux

Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决

手机平板能效生态设计指令EU 2023/1670标准解读

在 Spring Boot 项目里，MYSQL中json类型字段使用

Chrome 浏览器前端与客户端双向通信实战

深度剖析 DeepSeek 开源模型部署与应用：策略、权衡与未来走向

ubuntu系统文件误删(/lib/x86_64-linux-gnu/libc.so.6)修复方案 [成功解决]

LLaMA-Factory 微调 Qwen2-VL 进行人脸情感识别（二）

企业大模型服务合规指南：深度解析备案与登记制度