当前位置：首页 > news >正文

吃瓜教程3|决策树

news 2026/2/8 20:58:54

ID3算法

假定当前样本集合D中第k类样本所占比例为pk，则样本集合D的信息熵定义为

信息增益

C4.5算法

ID3算法存在一个问题，就是偏向于取值数目较多的属性，因此C4.5算法使用了“增益率”（gain ratio）来选择划分属性

CART算法

使用属性α划分后的基尼指数为

剪枝处理

* 预剪枝（prepruning）：在构造的过程中先评估，再考虑是否分支。  
* 后剪枝（post-pruning）：在构造好一颗完整的决策树后，自底向上，评估分支的必要性。

评估指的是性能度量，即决策树的泛化性能。

连续值与缺失值处理

连续值

* 首先将α的所有取值按升序排列，所有相邻属性的均值作为候选划分点（n-1个，n为α所有的取值数目）。  
* 计算每一个划分点划分集合D（即划分为两个分支）后的信息增益。  
* 选择最大信息增益的划分点作为最优划分点。

缺失值

假定为样本集中的每一个样本都赋予一个权重，根节点中的权重初始化为1，则定义：

通过在样本集D中选取在属性α上没有缺失值的样本子集，计算在该样本子集上的信息增益，最终的信息增益等于该样本子集划分后信息增益乘以样本子集占样本集的比重。即：

对于（2）：若该样本子集在属性α上的值缺失，则将该样本以不同的权重（即每个分支所含样本比例）划入到所有分支节点中。该样本在分支节点中的权重变为：

多变量决策树

对于高维数据空间，决策树形成的分类边界有一个特点：轴平行，引入多变量决策树实现斜划分，分裂节点变为k1*x1+k2*x2+...

吃瓜教程3|决策树

ID3算法假定当前样本集合D中第k类样本所占比例为pk，则样本集合D的信息熵定义为信息增益 C4.5算法 ID3算法存在一个问题，就是偏向于取值数目较多的属性，因此C4.5算法使用了“增益率”（gain ratio）来选择划分属性 CA…...

编程日记 2023/10/30 21:29:29

springboot动态数据源【非伪数据源】

说明：本文章的数据源不是在配置文件中配置两个或多个数据源，在业务方面对这些数据源来回切换，本文章中的数据源是可以动态添加，修改，切换的，废话不多说。先看工程图： 1.pom.xml文件 <?x…...

编程日记 2023/10/30 21:27:25

如何改善设备综合效率（OEE）并提高工厂的生产力

在现代制造业中，提高设备综合效率（Overall Equipment Efficiency，OEE）是企业追求高效生产和优化生产能力的重要目标之一。OEE是一个关键的绩效指标，可以帮助企业评估设备的利用效率、生产效率和质量水平。本文将从三个…...

编程日记 2023/10/30 21:26:24

一文接入Android阿里Sophix热更新

最近公司项目渐趋成熟，已经不需要经常更新版本，并且更新版本对客户的影响特别大，但是日常维护难免需要更新代码，因此热修复的技术，就比较迫切了。经过一段时间的对比，我们最终决定使用阿里的Sophix方案&am…...

编程日记 2023/10/30 21:25:23

【高阶数据结构】并查集和图

目录 1.数据结构--并查集 2.数据结构--图 1.图的基础概念 2.图的简单实现 2.1.邻接矩阵的图实现 2.2.邻接表的图实现 2.3.图的DFS和BFS 2.4.最小生成树 2.4.1.Kruskal(克鲁斯卡尔算法) 2.4.2.Prim（普里姆算法） 2.5.最短路径 2.5.1.Dijkstra(…...

编程日记 2023/10/30 21:24:22

Git 提交时提示 GPG 签名错误

本来应该一切都是正常的，但今天提交的时候提示 GPG 签名错误。错误的信息就是 GPG 签名失败。 gpg: skipped "942395299055675C": No secret key gpg: signing failed: No secret key error: gpg failed to sign the data fatal: failed to write commi…...

编程日记 2023/10/30 21:22:18

vite+vue3实现 tomcat 的本地部署

背景： 很多开发小伙伴在本地开发完前端项目后，碍于服务端环境配置麻烦，想先试试在本地部署，已开发好的前端项目，由于很多文章都是文字性描述，不太直观，为了给大多数新手提供一个教程&#xff0c…...

编程日记 2023/10/30 21:21:18

windows10 docker playwright 难点在于windows下docker的安装，以及官方hub被墙的困难。 wsl2 wsl2 ubuntu docker git clone https://gitee.com/lineuman/lcs_playwright.git npm install npx playwright test docker端口怎么映射到主机上面？ 设置重…...

编程日记 2023/10/30 21:20:16

php框架路由实现

在PHP中也有很多框架（如Laravel、CodeIgniter）提供了路由功能。下面是一个简单的PHP路由实现原理和示例代码： 路由实现原理： 客户端发起请求，请求的URL会被传递给Web服务器。Web服务器将请求传递给PHP解释器&#xff…...

编程日记 2023/10/30 21:18:15

在CentOS 7中手工打造和运行xml文件配置的Servlet，然后使用curl、浏览器、telnet等三种工具各自测试

下载Openjdk并配置环境变量 https://jdk.java.net/java-se-ri/11-MR2是官网下载Openjdk 11的地方。 sudo wget https://download.java.net/openjdk/jdk11.0.0.1/ri/openjdk-11.0.0.1_linux-x64_bin.tar.gz下载openjdk 11。 sudo mkdir -p /usr/openjdk11创建目录&#xff…...

编程日记 2023/10/30 21:17:14

单例模式.

目录 ♫什么是单例模式 ♫饿汉式单例模式 ♫懒汉式单例模式 ♫单例模式的线程安全问题 ♪原子性 ♪内存可见性与指令重排序 ♫什么是单例模式单例模式是一种设计模式，通过巧用Java的现有语法，实现一个只能被创建一个实例的类，并提供一个全…...

编程日记 2023/10/30 21:16:13

2023年MathorCup高校数学建模挑战赛大数据挑战赛赛题浅析

比赛时长为期7天的妈杯大数据挑战赛如期开赛，为了帮助大家更好的选题，首先给大家带来赛题浅析，为了方便大家更好的选题。赛道 A：基于计算机视觉的坑洼道路检测和识别 A题，图像处理类题目。这种题目的难度数模独一档…...

编程日记 2023/10/30 21:14:11

c++小惊喜——stringstream

当需要读取一行字符串时，我们通常会有将这个字符串分开的想法 #include<iostream> #include<sstream> using namespace std;int main() {string str;getline(cin, str);stringstream ssin(str);string s[10];int cnt 0;while (ssin >> s[cnt]) …...

编程日记 2023/10/30 21:12:08

ubuntu 18.04 编译安装flexpart 10.4（2023年） —— 筑梦之路

2023年10月29日环境说明操作系统版本：ubuntu 18.04 python版本：3.6.9 gcc版本：7.5.0 编译安装路径：/usr/local cmake: 3.10.2 所需要的源码包我已经打包放到我的资源。 2021年1月份已经写过一篇Ubuntu 编译安装的帖子F…...

编程日记 2023/10/30 21:11:07

深度学习（生成式模型）——DDIM：Denoising Diffusion Implicit Models

文章目录前言为什么DDPM的反向过程与前向过程步数绑定DDIM如何减少DDPM反向过程步数DDIM的优化目标DDIM的训练与测试前言上一篇博文介绍了DDIM的前身DDPM。DDPM的反向过程与前向过程步数一一对应，例如前向过程有1000步，那么反向过程也需要有1000步&a…...

编程日记 2023/10/30 21:10:05

HashMap的遍历方式 -- 好几次差点记不起来总结了一下

public class HashMapDemo {public static void main(String[] args) {// 创建一个HashMap并添加一些键值对Map<String, Integer> hashMap new HashMap<>();hashMap.put("Alice", 25);hashMap.put("Bob", 30);hashMap.put("Charlie"…...

编程日记 2023/10/30 21:09:04

PostgreSQL 两表关联更新sql

PostgreSQL两表关联更新SQL如下： UPDATE user SET username ft.name, age ft.age FROM userinfo WHERE user.id ft.id; user 要更新的表 userinfo数据来源表...

编程日记 2023/10/30 21:08:03

R2R 的一些小tip

批次间控制器(Run-to-run Controller)，以应对高混合生产的挑战。将最优配方参数与各种工业特征相关联的模型是根据历史数据离线训练的。预测的最优配方参数在线用于调整工艺条件。批次控制(R2R control)是一种先进的工艺控制技术，可在运行(如批次或晶圆…...

编程日记 2023/10/30 21:07:01

UML中类之间的六种主要关系

UML中类之间的六种主要关系: 继承（泛化）（Inheritance、Generalization）, 实现（Realization），关联（Association)，聚合（Aggregation），组…...

编程日记 2023/10/30 21:06:00

机器学习-朴素贝叶斯之多项式模型

多项式模型： 记住一定用于离散的对象，不能是连续的于高斯分布相反，多项式模型主要适用于离散特征的概率计算，切sklearn的多项式模型不接受输入负值因为多项式不接受负值的输入，所以样本数据的特征为数值型数据&…...

编程日记 2023/10/30 21:05:00

突破不可导策略的训练难题：零阶优化与强化学习的深度嵌合

强化学习（Reinforcement Learning, RL）是工业领域智能控制的重要方法。它的基本原理是将最优控制问题建模为马尔可夫决策过程，然后使用强化学习的Actor-Critic机制（中文译作“知行互动”机制），逐步迭代求解…...

编程新知 2026/2/5 4:17:42

基于服务器使用 apt 安装、配置 Nginx

🧾 一、查看可安装的 Nginx 版本首先，你可以运行以下命令查看可用版本： apt-cache madison nginx-core输出示例： nginx-core | 1.18.0-6ubuntu14.6 | http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages ng…...

编程新知 2026/1/9 12:53:59

2.Vue编写一个app

1.src中重要的组成 1.1main.ts // 引入createApp用于创建应用 import { createApp } from "vue"; // 引用App根组件 import App from ./App.vue;createApp(App).mount(#app)1.2 App.vue 其中要写三种标签 <template>  </template>…...

编程新知 2026/1/31 6:04:01

Maven 概述、安装、配置、仓库、私服详解

目录 1、Maven 概述 1.1 Maven 的定义 1.2 Maven 解决的问题 1.3 Maven 的核心特性与优势 2、Maven 安装 2.1 下载 Maven 2.2 安装配置 Maven 2.3 测试安装 2.4 修改 Maven 本地仓库的默认路径 3、Maven 配置 3.1 配置本地仓库 3.2 配置 JDK 3.3 IDEA 配置本地 Ma…...

编程新知 2026/2/8 1:58:01

大语言模型（LLM）中的KV缓存压缩与动态稀疏注意力机制设计

随着大语言模型（LLM）参数规模的增长，推理阶段的内存占用和计算复杂度成为核心挑战。传统注意力机制的计算复杂度随序列长度呈二次方增长，而KV缓存的内存消耗可能高达数十GB（例如Llama2-7B处理100K token时需50GB内存&a…...

编程新知 2026/1/28 1:40:03

JVM 内存结构详解

内存结构运行时数据区： Java虚拟机在运行Java程序过程中管理的内存区域。程序计数器： 线程私有，程序控制流的指示器，分支、循环、跳转、异常处理、线程恢复等基础功能都依赖这个计数器完成。每个线程都有一个程序计数…...

编程新知 2026/2/6 3:24:58

推荐 github 项目:GeminiImageApp(图片生成方向，可以做一定的素材)

推荐 github 项目:GeminiImageApp(图片生成方向，可以做一定的素材) 这个项目能干嘛? 使用 gemini 2.0 的 api 和 google 其他的 api 来做衍生处理简化和优化了文生图和图生图的行为(我的最主要) 并且有一些目标检测和切割(我用不到) 视频和 imagefx 因为没 a…...

编程新知 2026/1/25 10:41:07

认识CMake并使用CMake构建自己的第一个项目

1.CMake的作用和优势跨平台支持：CMake支持多种操作系统和编译器，使用同一份构建配置可以在不同的环境中使用简化配置：通过CMakeLists.txt文件，用户可以定义项目结构、依赖项、编译选项等，无需手动编写复杂的构建脚本…...

编程新知 2026/2/7 19:54:51

Elastic 获得 AWS 教育 ISV 合作伙伴资质，进一步增强教育解决方案产品组合

作者：来自 Elastic Udayasimha Theepireddy (Uday), Brian Bergholm, Marianna Jonsdottir 通过搜索 AI 和云创新推动教育领域的数字化转型。我们非常高兴地宣布，Elastic 已获得 AWS 教育 ISV 合作伙伴资质。这一重要认证表明，Elastic 作为 …...

编程新知 2026/2/7 16:38:17

xmind转换为markdown

文章目录解锁思维导图新姿势：将XMind转为结构化Markdown 一、认识Xmind结构二、核心转换流程详解1.解压XMind文件（ZIP处理）2.解析JSON数据结构3：递归转换树形结构4：Markdown层级生成逻辑三、完整代码解锁思维导图新…...

编程新知 2025/12/15 17:19:38

吃瓜教程3|决策树

ID3算法

C4.5算法

CART算法

剪枝处理

连续值与缺失值处理

多变量决策树

相关文章：

吃瓜教程3|决策树

springboot动态数据源【非伪数据源】

如何改善设备综合效率（OEE）并提高工厂的生产力

一文接入Android阿里Sophix热更新

【高阶数据结构】并查集和图

Git 提交时提示 GPG 签名错误

vite+vue3实现 tomcat 的本地部署

docker+playwright

php框架路由实现

在CentOS 7中手工打造和运行xml文件配置的Servlet，然后使用curl、浏览器、telnet等三种工具各自测试

单例模式.

2023年MathorCup高校数学建模挑战赛大数据挑战赛赛题浅析

c++小惊喜——stringstream

ubuntu 18.04 编译安装flexpart 10.4（2023年） —— 筑梦之路

深度学习（生成式模型）——DDIM：Denoising Diffusion Implicit Models

HashMap的遍历方式 -- 好几次差点记不起来总结了一下

PostgreSQL 两表关联更新sql

R2R 的一些小tip

UML中类之间的六种主要关系

机器学习-朴素贝叶斯之多项式模型

突破不可导策略的训练难题：零阶优化与强化学习的深度嵌合

基于服务器使用 apt 安装、配置 Nginx

2.Vue编写一个app

Maven 概述、安装、配置、仓库、私服详解

大语言模型（LLM）中的KV缓存压缩与动态稀疏注意力机制设计

JVM 内存结构详解

推荐 github 项目:GeminiImageApp(图片生成方向，可以做一定的素材)

认识CMake并使用CMake构建自己的第一个项目

Elastic 获得 AWS 教育 ISV 合作伙伴资质，进一步增强教育解决方案产品组合

xmind转换为markdown