数据挖掘——决策树分类
数据挖掘——决策树分类
- 决策树分类
- Hunt算法
- 信息增益
- 增益比率
- 基尼指数
- 连续数据
- 总结
决策树分类
树状结构,可以很好的对数据进行分类;
- 决策树的根节点到叶节点的每一条路径构建一条规则;
- 具有互斥且完备的特点,即每一个样本均被且只能被一条路径所覆盖;
- 只要提供的数据量足够庞大真实,通过数据挖掘模式,就可以构造决策树。

Hunt算法
设 D t D_t Dt是与节点相关联的训练记录集
算法步骤:
- 如果 D t D_t Dt中所有记录都属于同一个类 y t y_t yt,则t是叶节点,用 y t y_t yt标记。
- 如果 D t D_t Dt中包含属于多个类的记录,则选择一个属性测试条件,将记录划分成较小的子集
- 对于测试条件的每个输出,创建一个子结点,并根据测试结果将 D t D_t Dt中的记录分布到子结点中。然后,对于每个子结点,递归地调用该算法。
Hunt算法采用贪心策略构建决策树
- 在选择划分数据的属性时,采取一系列局部最优决策来构造决策树。
决策树归纳的设计问题
- 如何分裂训练记录?
- 怎样为不同类型的属性指定测试条件?
- 怎样评估每种测试条件?
- 如何停止分裂过程?
怎样为不同类型的属性指定测试条件?
-
依赖于属性的类型
- 标称
- 序数
- 连续
-
依赖于划分的路数
- 多路划分
- 二元划分
怎样选择最佳划分?
选择最佳划分的度量通常是根据划分后子节点纯性的程度。
纯性的程度越高,类分布就越倾斜,划分结果越好。

信息增益
熵的定义如下:
Entropy ( S ) = − ∑ i = 1 c p i log ( p i ) \operatorname{Entropy}(S)=-\sum_{i=1}^{c} p_{i} \log \left(p_{i}\right) Entropy(S)=−i=1∑cpilog(pi)
信息增益定义如下:
Gain ( S , A ) = Entropy ( S ) − ∑ v ∈ A ∣ S v ∣ ∣ S ∣ Entropy ( S v ) \operatorname{Gain}(S, A)=\operatorname{Entropy}(S)-\sum_{v \in A} \frac{\left|S_{v}\right|}{|S|} \operatorname{Entropy}\left(S_{v}\right) Gain(S,A)=Entropy(S)−v∈A∑∣S∣∣Sv∣Entropy(Sv)
信息增益表示的是:得知特征X的信息而使得分类Y的信息的不确定性减少的程度,如果某个特征的信息增益比较大,就表示该特征对结果的影响较大。
举例说明:




增益比率
信息增益问题:取值比较多的特征比取值少的特征信息增益大
解决方案:使用增益率,K越大,SplitINFO越大,增益率被平衡
G a i n R A T I O s p l i t = GAIN split SplitINFO {{GainRATIO_{split}}}=\frac{\text { GAIN }_{\text {split }}}{\text { SplitINFO}} GainRATIOsplit= SplitINFO GAIN split
S p l i t I N F O = − ∑ n = 1 k n i n log n i n SplitINFO=-\sum_{n=1}^{k} \frac{n_{i}}{n} \log \frac{n_{i}}{n} SplitINFO=−n=1∑knnilognni
增益率准则对可取值数目较少的属性有偏好,因此C4.5算法并不是直接选择增益率最大的属性作为分支标准,而是先从侯选属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的属性。
基尼指数

连续数据
- 二元划分: ( A < v ) o r ( A ≥ v ) (A<v)or (A≥v) (A<v)or(A≥v)
- 考虑所有的划分点,选择一个最优划分点v
- 多路划分: v i ≤ A < v i + 1 ( i = 1 , … , k ) v_i≤A<v_{i+1} (i=1,…,k) vi≤A<vi+1(i=1,…,k)

总结
- 决策树是一种构建分类(回归)模型的非参数方法
- 不需要昂贵的的计算代价
- 决策树相对容易解释
- 决策树是学习离散值函数的典型代表
- 决策数对于噪声的干扰具有相当好的鲁棒性
- 冗余属性不会对决策树的准确率造成不利影响
- 数据碎片问题:随着树的生长,可能导致叶结点记录数太少,对于叶结点代表的类,不能做出具有统计意义的判决
- 子树可能在决策树中重复多次,使决策树过于复杂
- 决策树无法学习特征之间的线性关系,难以完成特征构造
相关文章:
数据挖掘——决策树分类
数据挖掘——决策树分类 决策树分类Hunt算法信息增益增益比率基尼指数连续数据总结 决策树分类 树状结构,可以很好的对数据进行分类; 决策树的根节点到叶节点的每一条路径构建一条规则;具有互斥且完备的特点,即每一个样本均被且…...
Pytorch单、多GPU和CPU训练模型保存和加载
Pytorch多GPU训练模型保存和加载 在多GPU训练中,模型通常被包装在torch.nn.DataParallel或torch.nn.parallel.DistributedDataParallel中,这会在模型的参数名前加上module前缀。因此,在保存模型时,需要使用model.module.state_di…...
Karate 介绍与快速示例(API测试自动化、模拟、性能测试与UI自动化工具)
Karate是一个将API测试自动化、模拟、性能测试甚至UI自动化结合到一个统一框架中的开源工具。 Karate使用Gherkin 的BDD语法,是语言中性的,即使是非程序员也很容易。断言和HTML报告是内置的,支持并行运行测试以提高速度Karate 是用Java语言编写, 可以在Java 项目项目中运行…...
Pytest 高级用法:间接参数化
文章目录 1. 引言2. 基础概念2.1 Fixture2.2 参数化 3. 代码实例3.1 基础设置3.2 测试用例示例示例 1:基础的间接参数化示例 2:通过 request 获取参数值示例 3:多参数组合测试示例 4:部分间接参数化 4. 最佳实践5. 总结参考资料 1…...
第07章 存储管理(一)
一、磁盘简介 1.1 名称称呼 磁盘/硬盘/disk是同一个东西,不同于内存的是容量比较大。 1.2 类型 机械:机械硬盘即是传统普通硬盘,主要由:盘片,磁头,盘片转轴及控制电机,磁头控制器࿰…...
Go语言的 的设计模式(Design Patterns)核心知识
Go语言的设计模式(Design Patterns)核心知识 Go语言(Golang)是一种静态类型、编译型的编程语言,自2009年由Google正式推出以来,因其高效的性能、卓越的并发能力以及简洁的语法受到广泛欢迎。在软件开发中&…...
js函数预览图片:支持鼠标和手势拖拽缩放
对之前的方式改进:原生js实现图片预览控件,支持丝滑拖拽,滚轮放缩,放缩聚焦_js图片预览-CSDN博客 /*** 图片预览函数,调用后自动预览图片* param {图片地址} imgurl*/ function openImagePreview(imgurl) {if (!imgurl…...
用QT实现 端口扫描工具1
安装在线QT,尽量是完整地自己进行安装,不然会少包 参考【保姆级图文教程】QT下载、安装、入门、配置VS Qt环境-CSDN博客 临时存储空间不够。 Windows系统通常会使用C盘来存储临时文件。 修改临时文件存储位置 打开系统属性: 右键点击“此电…...
设计模式 结构型 适配器模式(Adapter Pattern)与 常见技术框架应用 解析
适配器模式(Adapter Pattern)是一种结构型设计模式,它允许将一个类的接口转换成客户端所期望的另一个接口,从而使原本因接口不兼容而无法一起工作的类能够协同工作。这种设计模式在软件开发中非常有用,尤其是在需要集成…...
vue 项目集成 electron 和 electron 打包及环境配置
vue electron 开发桌面端应用 安装 electron npm i electron -D记得加上-D,electron 需添加到devDependencies,如果添加到dependencies后面运行可能会报错 根目录创建electron文件夹,在electron文件夹创建main.js(或者backgrou…...
vscode如何离线安装插件
在没有网络的时候,如果要安装插件,就会麻烦一些,需要通过离线安装的方式进行。下面记录如何在vscode离线安装插件。 一、下载离线插件 在一台能联网的电脑中,下载好离线插件,拷贝到无法联网的电脑上。等待安装。 vscode插件商店地址:https://marketplace.visualstudio.co…...
计算机网络常见面试题及解答
以下是计算机网络中常见的面试题及解答,按主题分类: --- ## **一、基础概念** ### **1. OSI 七层模型和 TCP/IP 模型的区别是什么?** **答:** - **OSI 七层模型:** - 应用层、表示层、会话层、传输层、网络层、数…...
举例说明AI模型怎么聚类,最后神经网络怎么保存
举例说明怎么聚类,最后神经网络怎么保存 目录 举例说明怎么聚类,最后神经网络怎么保存K - Means聚类算法实现神经元特征聚类划分成不同专家的原理和过程 特征提取: 首先,需要从神经元中提取有代表性的特征。例如,对于一个多层感知机(MLP)中的神经元,其权重向量可以作为特…...
HarmonyOS NEXT应用开发实战(一):边学边玩,从零开发一款影视APP
引言 学习一项技能,最好也最快的办法就是动手实战。通过自己给自己找项目练习,不仅能够激发兴趣,还能从开发实战中不断总结经验。这种学习方法是最为高效的。今天,我们将通过开发一款名为“爱影家”的影视APP,来学习H…...
STM32G0B1 can Error_Handler 解决方法
问题现象 MCU上电,发送0x13帧数据固定进入 Error_Handler 硬件介绍 MCU :STM32G0B1 can:NSI1042 tx 接TX RX 接RX 折腾了一下午,无解,问题依旧; 对比测试 STM32G431 手头有块G431 官方评估版CAN 模块; 同样的…...
使用 `llama_index` 构建智能问答系统:多种文档切片方法的评估
使用 llama_index 构建智能问答系统:多种文档切片方法的评估 代码优化与解析1. **代码结构优化**2. **日志管理**3. **环境变量管理**4. **模型初始化**5. **提示模板更新**6. **问答函数优化**7. **索引构建与查询引擎**8. **节点解析器测试** 总结 在现代自然语言…...
【大模型】7 天 AI 大模型学习
7 天 AI 大模型学习 Day 2 今天是 7 天AI 大模型学习的第二天 😄,今天我将会学习 Transformer 、Encoder-based and Decoder-Based LLMs 等 。如果有感兴趣的,就和我一起开始吧 ~ 课程链接 :2025年快速吃透AI大模型&am…...
软件工程大复习之(四)——面向对象与UML
4.1 面向对象概述 面向对象(OO)是一种编程范式,它将数据和处理数据的方法封装在对象中。面向对象的主要概念包括: 对象:实例化的数据和方法的集合。类:对象的蓝图或模板。封装:隐藏对象的内部…...
【Linux】shell命令
目录 shell的基本命令 shell - 贝壳 外在保护工具 用户、shell、内核、硬件之间的关系 解析器的分类: shell命令格式 history -历史记录查询 修改环境变量的值: shell中的特殊字符 通配符 管道 | 输入输出重定向 命令置换符 shell的基本命…...
ValuesRAG:以检索增强情境学习强化文化对齐
随着大型语言模型(LLMs)的迅猛发展,其在各个领域展现出强大的能力。然而,训练数据中西方中心主义的倾向,使得 LLMs 在文化价值观一致性方面面临严峻挑战,这一问题在跨文化场景中尤为突出,可能导…...
C++三大隐藏坑:初始化列表、隐式转换、static成员你真的用对了吗?
📅 2026 C 系列笔记C面向对象构造函数 目录 1. 再探构造函数——初始化列表 哪些成员必须用初始化列表? C11 成员变量缺省值 2. 类型转换与 explicit 3. static 静态成员 1. 再探构造函数——初始化列表 之前写构造函数时,我习惯在函…...
为什么DeepMind放弃通用智能路径,而华为盘古、通义千问坚持AGI架构?——基于17家机构2023–2024技术路线图的逆向推演(含未公开专利链分析)
第一章:AGI研发的国际竞争格局 2026奇点智能技术大会(https://ml-summit.org) 全球通用人工智能(AGI)研发已进入国家战略竞速阶段,美、中、欧、日、韩等主要经济体正通过顶层政策设计、大规模算力基建投入与前沿基础模型研究形成…...
Cursor Free VIP:三步解锁AI编程神器的终极指南
Cursor Free VIP:三步解锁AI编程神器的终极指南 【免费下载链接】cursor-free-vip [Support 0.45](Multi Language 多语言)自动注册 Cursor Ai ,自动重置机器ID , 免费升级使用Pro 功能: Youve reached your trial req…...
银行数据中心基础设施建设与运维管理【2.1】
4. 4. 2 常用设备 UPS 系统中, 常用的设备和装置包括 UPS 输入配电柜、 UPS 主机、 UPS 输出配电柜和电池等。 1. UPS 输入配电柜 UPS 输入配电柜是为 UPS 主机提供交流配电的电器装置, 如图 4⁃38 所示。 图 4⁃38 UPS 输入配电柜 由于在上游的低压配电柜内已经有 UPS 系…...
OpenClaw 这样卸载才够干净,全程 5 大步
大家好,这里是小凡 AI 研习社,我是小凡。 之前在《安装教程》和《安装教程补充版》中,我们详细讲解了 OpenClaw 的安装流程,本节课就来完整介绍它的卸载方法。 一、哪些地方有 OpenClaw 的相关内容? OpenClaw 要想卸…...
发现一款超好用的 Markdown 一键排版工具
作为一名经常写技术文章的博主,排版一直是让我头疼的问题。最近发现了一款在线排版工具,用了一段时间后觉得非常不错,分享给大家! 一、为什么需要排版工具? 在内容创作时代,优质内容是王道,而精…...
Linux小白看过来:手把手教你用命令行在Ubuntu 16.04搞定MATLAB 2021b
Linux命令行实战:Ubuntu 16.04安装MATLAB 2021b全指南 第一次在Linux系统上安装专业软件?别担心,命令行操作其实比图形界面更高效。本文将带你用终端命令完成MATLAB 2021b的完整安装过程,每个步骤都会解释背后的原理,让…...
药品说明书查询系统源码 本地数据库 PHP版本
内容目录一、详细介绍二、效果展示1.部分代码2.效果图展示一、详细介绍 药品说明书查询系统源码 本地数据库 PHP版本 使用的是大佬YMXuan的数据库,数据库大小442MB PHP版本7.0以上即可,兼容手机端显示查询。 使用方法:将数据库文件drugs.db 和PHP文件…...
OP-TEE安全存储深度解析(一):密钥体系与文件加密流程
1. OP-TEE安全存储的核心价值 第一次接触OP-TEE的安全存储功能时,我完全被它的精妙设计震撼到了。想象一下,你的手机里存着指纹、人脸识别模板这些极度敏感的数据,如果这些信息被普通应用程序随意读取,后果简直不堪设想。而OP-TEE…...
用Java Stream一行代码搞定彩票随机选号(双色球/大乐透)
用Java Stream一行代码搞定彩票随机选号(双色球/大乐透) 每次路过彩票站,总忍不住想试试手气。但机选号码总感觉少了点参与感?不如用Java Stream API自己写个随机选号器,既锻炼编码能力又能享受"定制化"选号…...
