当前位置：首页 > news >正文

【机器学习】13. 决策树

news 2026/2/10 17:24:50

决策树的构造

策略：从上往下学习通过recursive divide-and-conquer process（递归分治过程）

首先选择最好的变量作为根节点，给每一个可能的变量值创造分支。
然后将样本放进子集之中，从每个分支的节点拓展一个。
最后：对每个分支进行递归重复，只使用到达该分支的样本
停止递归：如果所有的样本都有着相同的类别，为这个类创建一个叶节点

信息增益（基于熵）

熵衡量的是这个集合相对于类的纯度。

熵越小，数据集的纯度就越大

熵也用于信号压缩，信息论和物理学。

定义

Entropy H(S)
$-\sum_iP_i*log_2P_i$
$P_i$ 代表属于类别i的样本比例

举例

假设现在有 2 个类别， yes 和 no，这个集合中有9个yes，5个no 交叉熵的计算如下
$-\frac{9}{14}log_2\frac{9}{14} - \frac{5}{14}log_2 \frac{5}{14} = 0.94 bits$

熵是用比特来测量的
在计算熵的时候，我们会假设 $log_20 =0$
H(S) 的范围是[0,1]
- 当H(S) = 0 的时候，S的所有元素都属于相同的类，即这个集合是纯净的，拥有最小的Entropy(熵)
- 当H(S) = 1 的时候，有相同数量的yes和no（假设是两类），即最小的纯净度，最大的Entropy.

信息增益

信息增益度量使用属性划分训练示例集所导致的熵减少。
它是两个熵的差：增益= T1-T2
T1为分裂前与父节点相关联的样本集合S的熵
T2是S中剩余的熵，在S被属性分割后
差值越大，信息增益越高
最好的属性是信息增益最高的属性
- 它减少了父节点的熵

案例

选择outlook作为根节点，以此分出3个子集，各自有5，4，5个样本。
$I(\frac{9}{14},\frac{5}{14})$
$\frac{5}{14}H(S_1)+\frac{4}{14}H(S_2)+\frac{5}{14}H(S_3)$

修剪决策树

如果我们生长决策树来完美地分类训练集，树可能会变得过于具体，并过度拟合数据。
过拟合-训练daddata的精度高，但新数据的精度低
树变得太具体了，主要是记忆数据，而不是提取模式
在决策树中什么时候会发生过拟合？
- 训练数据太小->没有足够的代表性示例来构建一个可以在新数据上很好地泛化的模型
- 训练数据中的噪音，例如标签错误的例子
使用树修剪来避免过拟合

两个主要策略

pre-pruning
- 在它达到完美分类训练数据的点之前，尽早停止生长树
post-pruning
- 让树完全生长，让它完美地覆盖训练数据，然后修剪它
在实践中优先考虑后修剪
不同的后剪枝方法：
- 子树替换
- 子树的提升
- 将树转换为规则，然后修剪它们
修剪多少？使用验证集来决定

通过子树替换的修剪思想

自下而上-从树的底部到根部

每个非叶节点都是修剪的候选节点，对于每个节点：
移除根在它上面的子树
用class=majority类的例子替换它候选节点
比较新树和旧树通过计算两者的验证集的精度
如果新树的精度更好或与旧树的精度相同，保持新树（即修剪候选节点）

总结

非常流行的ML技术
自上而下的学习使用递归的分治过程
易于实现
可解释的
制作的树很容易被非专家和客户可视化和理解
可解释性增加了在实践中使用机器学习模型的信任
使用修剪来防止过拟合
选择最佳属性-信息增益、增益比等

【机器学习】13. 决策树

决策树的构造策略：从上往下学习通过recursive divide-and-conquer process（递归分治过程） 首先选择最好的变量作为根节点，给每一个可能的变量值创造分支。然后将样本放进子集之中，从每个分支的节点拓展一个。最后&a…...

编程日记 2024/10/26 13:19:59

《a16z : 2024 年加密货币现状报告》解析

加密社原文链接：State of Crypto 2024 - a16z crypto译者：AI翻译官，校对：翻译小组当我们两年前第一次发布年度加密状态报告的时候，情况跟现在很不一样。那时候，加密货币还没成为政策制定者关心的大事。比…...

编程日记 2024/10/26 13:15:53

Laravel 使用Simple QrCode 生成PNG遇到问题

最近因项目需求，需要对qrcode 进行一些简单修改，发现一些问题，顺便记录一下目前最新的版本是4.2，在环境是 PHP8 ，laravel11 的版本默认下载基本是4.0以上的如下列代码 QrCode::format(png)->generate(test);这样…...

编程日记 2024/10/26 13:13:51

一站式学习 Shell 脚本语法与编程技巧，踏出自动化的第一步

文章目录 1. 初识 Shell 解释器1.1 Shell 类型1.2 Shell 的父子关系 2. 编写第一个 Shell 脚本3. Shell 脚本语法3.1 脚本格式3.2 注释3.2.1 单行注释3.2.2 多行注释 3.3 Shell 变量3.3.1 系统预定义变量（环境变量）printenv 查看所有环境变量set 查看所有…...

编程日记 2024/10/26 13:05:43

原来的代码 Override Transactional(rollbackFor Exception.class) public void batchAddQuestionsToBank(List<Long> questionIdList, Long questionBankId, User loginUser) {// 参数校验ThrowUtils.throwIf(CollUtil.isEmpty(questionIdList), ErrorCode.PARAMS_ERR…...

编程日记 2024/10/26 13:02:40

机器视觉运动控制一体机在DELTA并联机械手视觉上下料应用

市场应用背景 DELTA并联机械手是由三个相同的支链所组成，每个支链包含一个转动关节和一个移动关节，具有结构紧凑、占地面积小、高速高灵活性等特点，可在有限的空间内进行高效的作业，广泛应用于柔性上下料、包装、分拣、装配等需要…...

编程日记 2024/10/26 13:01:39

RHCE-web篇

一.web服务器 Web 服务器是一种软件或硬件系统，用于接收、处理和响应来自客户端（通常是浏览器）的 HTTP 请求。它的主要功能是存储和提供网站内容，比如 HTML 页面、图像、视频等。 Web 服务器的主要功能处理请求&#xf…...

编程日记 2024/10/26 12:58:36

Java - 人工智能；SpringAI

一、人工智能（Artificial Intelligence，缩写为AI） 人工智能（Artificial Intelligence，缩写为AI）是一门新的技术科学，旨在开发、研究用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统…...

编程日记 2024/10/26 12:54:31

MFC开发，给对话框添加定时器

定时器简介定时器的主要功能是设置以毫秒为单位的定时周期，然后进行连续定时或单次定时。定时器是用于设置有规律的去触发某种动作所用的，这种场景也是软件中经常可以用到的，比如用户设置规定时间推送提示的功能，又比如程序定…...

编程日记 2024/10/26 12:49:26

LED灯珠：技术、类型与选择指南

目录 1. LED灯珠的类型 2. LED灯珠技术 3. 如何选择LED灯珠 4. 相关案例和使用情况 5. 结论 LED（Light Emitting Diode）灯珠是一种半导体发光器件，通过电流在固体半导体中流动时，其工作原理是电子与空穴的结合，通过…...

编程日记 2024/10/26 12:46:23

C语言二刷

const #include<stdio.h> int main() {const int amount 100;int price 0;scanf("%d", &price);int change amount - price;printf("找您%d元\n", change);return 0; } 浮点数类型输入输出float（单精度）%f%f %l…...

编程日记 2024/10/26 12:45:22

C++模块化程序设计举例

1、模块1 在main.cpp里输入下面的程序： #include "stdio.h" //使能printf()函数 #include <stdlib.h> //使能exit(); #include "Static_Variable.h" //argc 是指命令行输入参数的个数; //argv[]存储了所有的命令行参数; //argv[0]通常…...

编程日记 2024/10/26 12:44:21

毕业设计选题：基于Python的招聘信息爬取和可视化平台

开发语言：Python框架：djangoPython版本：python3.7.7数据库：mysql 5.7数据库工具：Navicat11开发软件：PyCharm 系统展示采集的数据列表招聘数据大屏摘要本系统通过对网络爬虫的分析，研究智…...

编程日记 2024/10/26 12:40:16

机器人学习仿真框架

机器人学习仿真框架一般包含（自底向上）： 3D仿真物理引擎：对现实世界的模拟仿真机器人仿真平台：用于搭建工作场景，以实现agent与环境的交互学习学习算法框架集合：不同的策略学习算法的实现算法测…...

编程日记 2024/10/26 12:39:13

力扣每日一题打卡 3180. 执行操作可获得的最大总奖励 I

给你一个整数数组 rewardValues，长度为 n，代表奖励的值。最初，你的总奖励 x 为 0，所有下标都是未标记的。你可以执行以下操作任意次 ： 从区间 [0, n - 1] 中选择一个未标记的下标 i。如果 rewardValues[i] 大于…...

编程日记 2024/10/26 12:38:12

NVR录像机汇聚管理EasyNVR多品牌NVR管理工具/设备视频报警功能详解

在科技日新月异的今天，视频监控系统作为现代社会的“第三只眼”，正以前所未有的方式深刻影响着我们的生活与社会结构。从公共场所的安全监控到个人生活的记录分享，视频监控系统以其独特的视角和功能，为社会带来了诸多好处&#xf…...

编程日记 2024/10/26 12:36:10

springboot073车辆管理系统设计与实现(论文+源码)_kaic.zip

车辆管理系统摘要随着信息技术在管理上越来越深入而广泛的应用，管理信息系统的实施在技术上已逐步成熟。本文介绍了车辆管理系统的开发全过程。通过分析车辆管理系统管理的不足，创建了一个计算机管理车辆管理系统的方案。文章介绍了车辆管理系统的系统…...

编程日记 2024/10/26 12:32:07

2024.10月22日- MySql的补充知识点

1、什么是数据库事务？ 数据库事务: 是数据库管理系统执行过程中的一个逻辑单位，由一个有限的数据库操作序列构成，这些操作要么全部执行,要么全部不执行，是一个不可分割的工作单位。 2、Mysql事务的四大特性是什么？ …...

编程日记 2024/10/26 12:25:58

Java中的对象——生命周期详解

1. 对象的创建 1.1 使用 new 关键字执行过程：当使用 new 关键字创建对象时，JVM 会为新对象在堆内存中分配一块空间，并调用对应的构造器来初始化对象。示例代码： MyClass obj new MyClass(); 内存变化：JVM 在堆…...

编程日记 2024/10/26 12:23:55

vue文件报Cannot find module ‘webpack/lib/RuleSet‘错误处理

检查 Node.js 版本：这个问题可能与 Node.js 的版本有关。你可以尝试将 Node.js 的版本切换到 12 或更低。如果没有安装 nvm（Node Version Manager），可以通过以下命令安装： curl -o- https://raw.githubusercontent.co…...

编程日记 2024/10/26 12:21:52

【Linux】shell脚本忽略错误继续执行

在 shell 脚本中，可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行，可以在脚本开头添加 set e 命令来取消该设置。举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令，并忽略错误 rm somefile…...

编程新知 2025/9/11 15:27:32

FFmpeg 低延迟同屏方案

引言在实时互动需求激增的当下，无论是在线教育中的师生同屏演示、远程办公的屏幕共享协作，还是游戏直播的画面实时传输，低延迟同屏已成为保障用户体验的核心指标。FFmpeg 作为一款功能强大的多媒体框架，凭借其灵活的编解码、数据…...

编程新知 2025/11/4 6:26:59

Debian系统简介

目录 Debian系统介绍 Debian版本介绍 Debian软件源介绍软件包管理工具dpkg dpkg核心指令详解安装软件包卸载软件包查询软件包状态验证软件包完整性手动处理依赖关系 dpkg vs apt Debian系统介绍 Debian 和 Ubuntu 都是基于 Debian内核的 Linux 发行版&#xff…...

编程新知 2026/2/1 13:41:09

IGP（Interior Gateway Protocol，内部网关协议）

IGP（Interior Gateway Protocol，内部网关协议） 是一种用于在一个自治系统（AS）内部传递路由信息的路由协议，主要用于在一个组织或机构的内部网络中决定数据包的最佳路径。与用于自治系统之间通信的 EGP&…...

编程新知 2025/10/12 11:54:26

c++ 面试题(1)-----深度优先搜索（DFS）实现

操作系统：ubuntu22.04 IDE:Visual Studio Code 编程语言：C11 题目描述地上有一个 m 行 n 列的方格，从坐标 [0,0] 起始。一个机器人可以从某一格移动到上下左右四个格子，但不能进入行坐标和列坐标的数位之和大于 k 的格子。例…...

编程新知 2026/1/10 10:16:16

Cinnamon修改面板小工具图标

Cinnamon开始菜单-CSDN博客设置模块都是做好的，比GNOME简单得多！ 在 applet.js 里增加 const Settings imports.ui.settings;this.settings new Settings.AppletSettings(this, HTYMenusonichy, instance_id); this.settings.bind(menu-icon, menu…...

编程新知 2026/1/31 14:56:22

自然语言处理——循环神经网络

自然语言处理——循环神经网络循环神经网络应用到基于机器学习的自然语言处理任务序列到类别同步的序列到序列模式异步的序列到序列模式参数学习和长程依赖问题基于门控的循环神经网络门控循环单元（GRU）长短期记忆神经网络（LSTM&#xff09…...

编程新知 2026/2/4 11:21:40

企业如何增强终端安全？

在数字化转型加速的今天，企业的业务运行越来越依赖于终端设备。从员工的笔记本电脑、智能手机，到工厂里的物联网设备、智能传感器，这些终端构成了企业与外部世界连接的 “神经末梢”。然而，随着远程办公的常态化和设备接入的爆炸式…...

编程新知 2026/1/29 9:14:58

初学 pytest 记录

安装 pip install pytest用例可以是函数也可以是类中的方法 def test_func():print()class TestAdd: # def __init__(self): 在 pytest 中不可以使用__init__方法 # self.cc 12345 pytest.mark.api def test_str(self):res add(1, 2)assert res 12def test_int(self):r…...

编程新知 2026/2/8 21:57:26

JVM 内存结构详解

内存结构运行时数据区： Java虚拟机在运行Java程序过程中管理的内存区域。程序计数器： 线程私有，程序控制流的指示器，分支、循环、跳转、异常处理、线程恢复等基础功能都依赖这个计数器完成。每个线程都有一个程序计数…...

编程新知 2026/2/6 3:24:58