当前位置: 首页 > news >正文

数据挖掘——决策树分类

数据挖掘——决策树分类

  • 决策树分类
    • Hunt算法
    • 信息增益
    • 增益比率
    • 基尼指数
    • 连续数据
    • 总结

决策树分类

树状结构,可以很好的对数据进行分类;

  • 决策树的根节点到叶节点的每一条路径构建一条规则;
  • 具有互斥且完备的特点,即每一个样本均被且只能被一条路径所覆盖;
  • 只要提供的数据量足够庞大真实,通过数据挖掘模式,就可以构造决策树。
    在这里插入图片描述

Hunt算法

D t D_t Dt是与节点相关联的训练记录集
算法步骤:

  1. 如果 D t D_t Dt中所有记录都属于同一个类 y t y_t yt,则t是叶节点,用 y t y_t yt标记。
  2. 如果 D t D_t Dt中包含属于多个类的记录,则选择一个属性测试条件,将记录划分成较小的子集
  3. 对于测试条件的每个输出,创建一个子结点,并根据测试结果将 D t D_t Dt中的记录分布到子结点中。然后,对于每个子结点,递归地调用该算法。

Hunt算法采用贪心策略构建决策树

  • 在选择划分数据的属性时,采取一系列局部最优决策来构造决策树。

决策树归纳的设计问题

  • 如何分裂训练记录?
    • 怎样为不同类型的属性指定测试条件?
    • 怎样评估每种测试条件?
  • 如何停止分裂过程?

怎样为不同类型的属性指定测试条件?

  • 依赖于属性的类型

    • 标称
    • 序数
    • 连续
  • 依赖于划分的路数

    • 多路划分
    • 二元划分

怎样选择最佳划分?
选择最佳划分的度量通常是根据划分后子节点纯性的程度。
纯性的程度越高,类分布就越倾斜,划分结果越好。
在这里插入图片描述

信息增益

熵的定义如下:
Entropy ⁡ ( S ) = − ∑ i = 1 c p i log ⁡ ( p i ) \operatorname{Entropy}(S)=-\sum_{i=1}^{c} p_{i} \log \left(p_{i}\right) Entropy(S)=i=1cpilog(pi)
信息增益定义如下:
Gain ⁡ ( S , A ) = Entropy ⁡ ( S ) − ∑ v ∈ A ∣ S v ∣ ∣ S ∣ Entropy ⁡ ( S v ) \operatorname{Gain}(S, A)=\operatorname{Entropy}(S)-\sum_{v \in A} \frac{\left|S_{v}\right|}{|S|} \operatorname{Entropy}\left(S_{v}\right) Gain(S,A)=Entropy(S)vASSvEntropy(Sv)

信息增益表示的是:得知特征X的信息而使得分类Y的信息的不确定性减少的程度,如果某个特征的信息增益比较大,就表示该特征对结果的影响较大。

举例说明:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

增益比率

信息增益问题:取值比较多的特征比取值少的特征信息增益大
解决方案:使用增益率,K越大,SplitINFO越大,增益率被平衡
G a i n R A T I O s p l i t = GAIN  split  SplitINFO {{GainRATIO_{split}}}=\frac{\text { GAIN }_{\text {split }}}{\text { SplitINFO}} GainRATIOsplit= SplitINFO GAIN split 
S p l i t I N F O = − ∑ n = 1 k n i n log ⁡ n i n SplitINFO=-\sum_{n=1}^{k} \frac{n_{i}}{n} \log \frac{n_{i}}{n} SplitINFO=n=1knnilognni

增益率准则对可取值数目较少的属性有偏好,因此C4.5算法并不是直接选择增益率最大的属性作为分支标准,而是先从侯选属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的属性。

基尼指数

在这里插入图片描述

连续数据

  • 二元划分 ( A < v ) o r ( A ≥ v ) (A<v)or (A≥v) A<vorAv
    • 考虑所有的划分点,选择一个最优划分点v
  • 多路划分 v i ≤ A < v i + 1 ( i = 1 , … , k ) v_i≤A<v_{i+1} (i=1,…,k) viA<vi+1i=1,,k
    在这里插入图片描述

总结

  1. 决策树是一种构建分类(回归)模型的非参数方法
  2. 不需要昂贵的的计算代价
  3. 决策树相对容易解释
  4. 决策树是学习离散值函数的典型代表
  5. 决策数对于噪声的干扰具有相当好的鲁棒性
  6. 冗余属性不会对决策树的准确率造成不利影响
  7. 数据碎片问题:随着树的生长,可能导致叶结点记录数太少,对于叶结点代表的类,不能做出具有统计意义的判决
  8. 子树可能在决策树中重复多次,使决策树过于复杂
  9. 决策树无法学习特征之间的线性关系,难以完成特征构造

相关文章:

数据挖掘——决策树分类

数据挖掘——决策树分类 决策树分类Hunt算法信息增益增益比率基尼指数连续数据总结 决策树分类 树状结构&#xff0c;可以很好的对数据进行分类&#xff1b; 决策树的根节点到叶节点的每一条路径构建一条规则&#xff1b;具有互斥且完备的特点&#xff0c;即每一个样本均被且…...

Pytorch单、多GPU和CPU训练模型保存和加载

Pytorch多GPU训练模型保存和加载 在多GPU训练中&#xff0c;模型通常被包装在torch.nn.DataParallel或torch.nn.parallel.DistributedDataParallel中&#xff0c;这会在模型的参数名前加上module前缀。因此&#xff0c;在保存模型时&#xff0c;需要使用model.module.state_di…...

Karate 介绍与快速示例(API测试自动化、模拟、性能测试与UI自动化工具)

Karate是一个将API测试自动化、模拟、性能测试甚至UI自动化结合到一个统一框架中的开源工具。 Karate使用Gherkin 的BDD语法,是语言中性的,即使是非程序员也很容易。断言和HTML报告是内置的,支持并行运行测试以提高速度Karate 是用Java语言编写, 可以在Java 项目项目中运行…...

Pytest 高级用法:间接参数化

文章目录 1. 引言2. 基础概念2.1 Fixture2.2 参数化 3. 代码实例3.1 基础设置3.2 测试用例示例示例 1&#xff1a;基础的间接参数化示例 2&#xff1a;通过 request 获取参数值示例 3&#xff1a;多参数组合测试示例 4&#xff1a;部分间接参数化 4. 最佳实践5. 总结参考资料 1…...

第07章 存储管理(一)

一、磁盘简介 1.1 名称称呼 磁盘/硬盘/disk是同一个东西&#xff0c;不同于内存的是容量比较大。 1.2 类型 机械&#xff1a;机械硬盘即是传统普通硬盘&#xff0c;主要由&#xff1a;盘片&#xff0c;磁头&#xff0c;盘片转轴及控制电机&#xff0c;磁头控制器&#xff0…...

Go语言的 的设计模式(Design Patterns)核心知识

Go语言的设计模式&#xff08;Design Patterns&#xff09;核心知识 Go语言&#xff08;Golang&#xff09;是一种静态类型、编译型的编程语言&#xff0c;自2009年由Google正式推出以来&#xff0c;因其高效的性能、卓越的并发能力以及简洁的语法受到广泛欢迎。在软件开发中&…...

js函数预览图片:支持鼠标和手势拖拽缩放

对之前的方式改进&#xff1a;原生js实现图片预览控件&#xff0c;支持丝滑拖拽&#xff0c;滚轮放缩&#xff0c;放缩聚焦_js图片预览-CSDN博客 /*** 图片预览函数&#xff0c;调用后自动预览图片* param {图片地址} imgurl*/ function openImagePreview(imgurl) {if (!imgurl…...

用QT实现 端口扫描工具1

安装在线QT&#xff0c;尽量是完整地自己进行安装&#xff0c;不然会少包 参考【保姆级图文教程】QT下载、安装、入门、配置VS Qt环境-CSDN博客 临时存储空间不够。 Windows系统通常会使用C盘来存储临时文件。 修改临时文件存储位置 打开系统属性&#xff1a; 右键点击“此电…...

设计模式 结构型 适配器模式(Adapter Pattern)与 常见技术框架应用 解析

适配器模式&#xff08;Adapter Pattern&#xff09;是一种结构型设计模式&#xff0c;它允许将一个类的接口转换成客户端所期望的另一个接口&#xff0c;从而使原本因接口不兼容而无法一起工作的类能够协同工作。这种设计模式在软件开发中非常有用&#xff0c;尤其是在需要集成…...

vue 项目集成 electron 和 electron 打包及环境配置

vue electron 开发桌面端应用 安装 electron npm i electron -D记得加上-D&#xff0c;electron 需添加到devDependencies&#xff0c;如果添加到dependencies后面运行可能会报错 根目录创建electron文件夹&#xff0c;在electron文件夹创建main.js&#xff08;或者backgrou…...

vscode如何离线安装插件

在没有网络的时候,如果要安装插件,就会麻烦一些,需要通过离线安装的方式进行。下面记录如何在vscode离线安装插件。 一、下载离线插件 在一台能联网的电脑中,下载好离线插件,拷贝到无法联网的电脑上。等待安装。 vscode插件商店地址:https://marketplace.visualstudio.co…...

计算机网络常见面试题及解答

以下是计算机网络中常见的面试题及解答&#xff0c;按主题分类&#xff1a; --- ## **一、基础概念** ### **1. OSI 七层模型和 TCP/IP 模型的区别是什么&#xff1f;** **答&#xff1a;** - **OSI 七层模型&#xff1a;** - 应用层、表示层、会话层、传输层、网络层、数…...

举例说明AI模型怎么聚类,最后神经网络怎么保存

举例说明怎么聚类,最后神经网络怎么保存 目录 举例说明怎么聚类,最后神经网络怎么保存K - Means聚类算法实现神经元特征聚类划分成不同专家的原理和过程 特征提取: 首先,需要从神经元中提取有代表性的特征。例如,对于一个多层感知机(MLP)中的神经元,其权重向量可以作为特…...

HarmonyOS NEXT应用开发实战(一):边学边玩,从零开发一款影视APP

引言 学习一项技能&#xff0c;最好也最快的办法就是动手实战。通过自己给自己找项目练习&#xff0c;不仅能够激发兴趣&#xff0c;还能从开发实战中不断总结经验。这种学习方法是最为高效的。今天&#xff0c;我们将通过开发一款名为“爱影家”的影视APP&#xff0c;来学习H…...

STM32G0B1 can Error_Handler 解决方法

问题现象 MCU上电&#xff0c;发送0x13帧数据固定进入 Error_Handler 硬件介绍 MCU :STM32G0B1 can:NSI1042 tx 接TX RX 接RX 折腾了一下午&#xff0c;无解&#xff0c;问题依旧&#xff1b; 对比测试 STM32G431 手头有块G431 官方评估版CAN 模块&#xff1b; 同样的…...

使用 `llama_index` 构建智能问答系统:多种文档切片方法的评估

使用 llama_index 构建智能问答系统&#xff1a;多种文档切片方法的评估 代码优化与解析1. **代码结构优化**2. **日志管理**3. **环境变量管理**4. **模型初始化**5. **提示模板更新**6. **问答函数优化**7. **索引构建与查询引擎**8. **节点解析器测试** 总结 在现代自然语言…...

【大模型】7 天 AI 大模型学习

7 天 AI 大模型学习 Day 2 今天是 7 天AI 大模型学习的第二天 &#x1f604;&#xff0c;今天我将会学习 Transformer 、Encoder-based and Decoder-Based LLMs 等 。如果有感兴趣的&#xff0c;就和我一起开始吧 &#xff5e; 课程链接 &#xff1a;2025年快速吃透AI大模型&am…...

软件工程大复习之(四)——面向对象与UML

4.1 面向对象概述 面向对象&#xff08;OO&#xff09;是一种编程范式&#xff0c;它将数据和处理数据的方法封装在对象中。面向对象的主要概念包括&#xff1a; 对象&#xff1a;实例化的数据和方法的集合。类&#xff1a;对象的蓝图或模板。封装&#xff1a;隐藏对象的内部…...

【Linux】shell命令

目录 shell的基本命令 shell - 贝壳 外在保护工具 用户、shell、内核、硬件之间的关系 解析器的分类&#xff1a; shell命令格式 history -历史记录查询 修改环境变量的值&#xff1a; shell中的特殊字符 通配符 管道 | 输入输出重定向 命令置换符 shell的基本命…...

ValuesRAG:以检索增强情境学习强化文化对齐

随着大型语言模型&#xff08;LLMs&#xff09;的迅猛发展&#xff0c;其在各个领域展现出强大的能力。然而&#xff0c;训练数据中西方中心主义的倾向&#xff0c;使得 LLMs 在文化价值观一致性方面面临严峻挑战&#xff0c;这一问题在跨文化场景中尤为突出&#xff0c;可能导…...

从 GitCode 口袋工具 v1.0.2 看 Flutter 应用的用户体验设计:如何优雅地展示用户与仓库详情?

Flutter 应用的用户体验设计&#xff1a;以 GitCode 口袋工具为例解析详情页的最佳实践 在移动应用开发领域&#xff0c;用户体验(UX)设计的重要性日益凸显。作为一款基于 Flutter 框架开发的开源工具&#xff0c;GitCode 口袋工具 v1.0.2 版本在用户详情页和仓库详情页的设计上…...

告别手动翻页!用幻影联动+DLL插件,5分钟搞定通达信分时指标全板块自动预警

通达信全自动分时监控系统&#xff1a;5步构建智能预警工作流 盯着屏幕手动翻页的时代该结束了。每天开盘后&#xff0c;短线交易者往往需要同时监控数十甚至上百只个股的分时走势&#xff0c;寻找符合特定技术形态的交易机会。这种高强度的人工盯盘不仅效率低下&#xff0c;还…...

低成本GPU部署方案:Ostrakon-VL扫描终端显存优化与Smart Resizing详解

低成本GPU部署方案&#xff1a;Ostrakon-VL扫描终端显存优化与Smart Resizing详解 1. 项目背景与核心价值 在零售与餐饮行业数字化转型浪潮中&#xff0c;视觉识别技术正发挥着越来越重要的作用。然而传统解决方案往往面临两大痛点&#xff1a;一是工业级UI设计过于沉闷&…...

别再死记硬背了!用Python+Matplotlib动态演示5G NR调度中的时隙(Slot)与微时隙(Mini-Slot)

用Python动态可视化5G NR调度中的时隙与微时隙机制 在5G NR系统中&#xff0c;时隙&#xff08;Slot&#xff09;和微时隙&#xff08;Mini-Slot&#xff09;的调度机制是理解无线资源分配的关键。但对于许多开发者而言&#xff0c;协议文档中抽象的时间单位描述往往难以形成直…...

Windows上安装Android应用的终极指南:APK Installer完整教程

Windows上安装Android应用的终极指南&#xff1a;APK Installer完整教程 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 在Windows电脑上直接安装Android应用曾经是件复…...

5步掌握FanControl:Windows智能风扇控制终极指南

5步掌握FanControl&#xff1a;Windows智能风扇控制终极指南 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/fa/FanC…...

从网卡到GPU:拆解Linux PCIe驱动框架,看`pci_driver`结构体如何统一管理五花八门的硬件

从网卡到GPU&#xff1a;拆解Linux PCIe驱动框架的核心设计哲学 在Linux内核的世界里&#xff0c;PCIe设备驱动开发就像一场精心编排的交响乐——无论乐器是网卡、GPU还是NVMe SSD&#xff0c;指挥家pci_driver结构体都能让它们和谐共处。这种"一套框架管理百样硬件"…...

3个技术方案解决米哈游游戏启动器的核心痛点:Starward架构解析

3个技术方案解决米哈游游戏启动器的核心痛点&#xff1a;Starward架构解析 【免费下载链接】Starward Game Launcher for miHoYo - 米家游戏启动器 项目地址: https://gitcode.com/gh_mirrors/st/Starward 对于同时游玩《原神》、《崩坏&#xff1a;星穹铁道》、《绝区零…...

从Transformer到Turing++:AGI技术路线图深度拆解(含12个被低估的底层瓶颈:世界模型稀疏性、跨模态信用分配、反事实因果引擎)

第一章&#xff1a;AGI技术路线图&#xff1a;从当前AI到通用智能 2026奇点智能技术大会(https://ml-summit.org) 当前人工智能系统在特定任务上已展现出超越人类的表现&#xff0c;但其本质仍是窄域智能&#xff08;Narrow AI&#xff09;——依赖大量标注数据、固定分布假设…...

终极游戏存档备份方案:Ludusavi让你的游戏进度永不丢失 [特殊字符]

终极游戏存档备份方案&#xff1a;Ludusavi让你的游戏进度永不丢失 &#x1f3ae; 【免费下载链接】ludusavi Backup tool for PC game saves 项目地址: https://gitcode.com/gh_mirrors/lu/ludusavi 你是否曾因系统重装、硬盘故障或意外删除而失去宝贵的游戏进度&#…...