当前位置：首页 > news >正文

决策树划分属性依据

news 2026/2/10 13:42:05

划分依据

- 基尼系数
- 基尼系数的应用
- 信息熵
- 信息增益
- 信息增益的使用
- 信息增益准则的局限性

最近在学习项目的时候经常用到随机森林，所以对决策树进行探索学习。

基尼系数

基尼系数用来判断不确定性或不纯度，数值范围在0~0.5之间，数值越低，数据集越纯。
基尼系数的计算：
假设数据集有K个类别，类别K在数据集中出现的概率为Pk，则基尼系数为：
在这里插入图片描述
上式是用来求某个节点的基尼系数，要求某个属性的基尼系数用下面的公式：

最后选择基尼系数最小的属性进行划分即可。

基尼系数的应用

在决策树中，假如某个节点的基尼系数就是0，此时被分类到这个节点的数据集是纯的，意思就是按照此叶节点的父节点的分类方法来说，此叶节点都是同一个类别的，不需要再次分裂决策。

信息熵

信息熵和基尼系数作用相同，都是用来度量样本集合纯度的指标。
计算方法：
在这里插入图片描述
Pk是当前样本集合中第k类样本所占比例，Ent(D)(信息熵)越小，集合D的纯度越高。

这里约定当Pk为0时Ent(D)=0；

信息增益

计算公式：在这里插入图片描述
假设现在对集合D使用属性a来进行划分，属性a有v个取值，也就是有v个节点，上式中Dv是第v个节点就是取值为v的样本个数。

信息增益的使用

信息增益越大，说明使用属性a来划分所获得的纯度提升越大，决策树越好。

信息增益准则的局限性

从上面的公式可以看出，信息增益偏好可取值数目较多的属性，假如某个属性可取值达到了n，也就是每个样本都不一样，比如“编号”属性，那可以计算出这个属性的信息增益接近1，选择这样的属性来划分很可能不具有泛化能力。
改进：
使用增益率在这里插入图片描述
对于这个公式，当属性a的可取值越多时，则IV(a)会越大，增益率变小，进行了平衡。同样的，增益率准则也有局限，它对可取值较少的属性又有所偏好。

最终：先找出信息增益高于平均水平的属性，再从中选择增益率最高的即可。

决策树划分属性依据

划分依据

基尼系数

基尼系数的应用

信息熵

信息增益

信息增益的使用

信息增益准则的局限性

相关文章：

决策树划分属性依据

短视频利器 ffmpeg （2）

【计算机毕业设计】基于Springboot的智能物流管理系统【源码+lw+部署文档】

【2024】LeetCode HOT 100——图论

解析Java中1000个常用类：Currency类，你学会了吗？

5.x86游戏实战-CE定位基地址

istitle()方法——判断首字母是否大写其他字母小写

Linux实用命令练习

刷题——二叉搜索树与双向链表

【Linux】进程优先级 | 环境变量

最新手动迁移WordPress方法

ChatGPT在程序开发中的应用：提升生产力的秘密武器

AI与Python共舞：如何利用深度学习优化推荐系统？

URLSearchParams: 浏览器中的查询字符串处理利器

2024最新初级会计职称题库来啦！！！

Stirling PDF 部署 - 强大的PDF Web在线编辑工具箱

大数据面试题之MapReduce(3)

[leetcode]squares-of-a-sorted-array. 有序数组的平方

使用Spring Boot和Spring Data JPA进行数据库操作

《昇思25天学习打卡营第17天 | 昇思MindSporeCycleGAN图像风格迁移互换》

大数据学习栈记——Neo4j的安装与使用

【入坑系列】TiDB 强制索引在不同库下不生效问题

【Linux】C语言执行shell指令

SpringCloudGateway 自定义局部过滤器

华为云Flexus+DeepSeek征文｜DeepSeek-V3/R1 商用服务开通全流程与本地部署搭建

Spring AI与Spring Modulith核心技术解析

Element Plus 表单(el-form)中关于正整数输入的校验规则

Web 架构之 CDN 加速原理与落地实践

让回归模型不再被异常值“带跑偏“，MSE和Cauchy损失函数在噪声数据环境下的实战对比

C++：多态机制详解