当前位置：首页 > news >正文

机器学习入门教学——决策树

news 2026/2/9 5:31:21

1、简介

决策树算法是一种归纳分类算法，它通过对训练集的学习，挖掘出有用的规则，用于对新数据进行预测。
决策树算法属于监督学习方法。
决策树归纳的基本算法是贪心算法，自顶向下来构建决策树。
- 贪心算法：在每一步选择中都采取在当前状态下最好/优的选择。
简单来说，决策树就是做决策的树，类似于流程图的结构，其中每个内部节点代表一个属性上的“判断”，每个分支代表测试的结果，每个叶节点代表一个测试结果，从根到叶的路径代表分类规则。
决策树的结构：

2、原理

决策树希望通过每次分支节点的“决策”使结果变得更纯粹。也就是通过层层筛选，让是否批准分成“批准”和“拒绝”的单一子集。
举个简单的例子：
- 使用模型快速判断银行是否给客户放贷。数据经过下列分类之后，最终只剩下单一的子集。
- 模型需要学习哪些特征和相应的正确阈值才能最好地分割数据，即有工作、有房子、信誉，应该选择哪些，应该选择何值。所以，在决策树的生成过程中，分割方法即属性选择的度量是关键。

2.1、基尼系数

基尼系数(Gini Index)是决策树学习中常用的一种划分评价指标。
基尼系数计算公式：（一减去所有类别概率的平方）
上述二分分类问题中，公式为：
含义：基尼系数衡量了一个数据集合的不确定性。
例如：
- （基尼系数随概率的变化）
在决策树中，基尼系数最小意味着分割后子集合的纯度最高。所以，选择基尼系数最小的属性，来作为决策树下一级分类的标准即可。

2.2、生成过程

计算公式：

2.2.1、选择第一个分类标准

首先根据贷款结果计算基尼系数。
- 可以看出这个基尼系数非常大。
再以有无工作来计算基尼系数。
- 计算以工作为分类标准的基尼系数需要通过加权的方式求和得到该标准最终的基尼系数。
以此类推，可以计算出以房子和信誉为分类标准的基尼系数。
其中，以房子为分类标准的基尼系数最小，所以选择它为标准来构建决策树。

2.2.2、选择下一个分类标准

根据上述分类，左边已经是一个单一子集，不需要再进行分类。我们对右边的子集进行分类。
首先根据贷款结果计算基尼系数。
再计算出以工作和信誉为分类标准的基尼系数（只在没有房子的客户中）。
其中，以工作为分类标准的基尼系数最小，所以选择它为标准来构建决策树。
此时，所有的叶节点都是单一子集，分类完成。

机器学习入门教学——决策树

1、简介决策树算法是一种归纳分类算法，它通过对训练集的学习，挖掘出有用的规则，用于对新数据进行预测。决策树算法属于监督学习方法。决策树归纳的基本算法是贪心算法，自顶向下来构建决策树。贪心算法：在每一步选择…...

编程日记 2023/9/10 23:37:21

文献阅读：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

文献阅读：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 1. 文章简介2. 具体方法3. 实验结果 1. 数学推理 1. 实验设计2. 实验结果3. 消解实验4. 鲁棒性考察 2. 常识推理 1. 实验设计2. 实验结果 3. 符号推理 1. 实验设计2. 实验结果 4.…...

编程日记 2023/9/10 23:36:20

从零开发一款ChatGPT VSCode插件

‍本文作者是360奇舞团开发工程师引言 OpenAI发布了ChatGPT，就像是给平静许久的互联网湖面上扔了一颗重磅炸弹，刹那间所有人都在追捧学习它。究其原因，它其实是一款真正意义上的人工智能对话机器人。它使用了深度学习技术，通过大…...

编程日记 2023/9/10 23:35:18

go基础09-Go语言的字符串类型

字符串类型是现代编程语言中最常使用的数据类型之一。在Go语言的先祖之一C语言当中，字符串类型并没有被显式定义，而是以字符串字面值常量或以’\0’结尾的字符类型（char）数组来呈现的： #define GOAUTHERS "Rober…...

编程日记 2023/9/10 23:34:16

【C++模拟实现】手撕AVL树

【C模拟实现】手撕AVL树目录【C模拟实现】手撕AVL树AVL树的介绍（百度百科）AVL树insert函数的实现代码验证是否为AVL树AVL树模拟实现的要点易忘点AVL树的旋转思路作者：爱写代码的刚子时间：2023.9.10 前言：本篇博客将…...

编程日记 2023/9/10 23:33:15

如何重置 docker中的mariadb的root

停止 Mariadb 容器：运行以下命令停止正在运行的 Mariadb 容器： docker stop <container_name>将 <container_name> 替换为你的 Mariadb 容器的名称或容器ID。删除 Mariadb 容器：运行以下命令删除已停止的 Mariadb 容器&#x…...

编程日记 2023/9/10 23:32:12

设计模式系列-原型模式

一、上篇回顾上篇创建者模式中，我们主要讲述了创建者的几类实现方案，和创建者模式的应用的场景和特点，创建者模式适合创建复杂的对象，并且这些对象的每个组成部分的详细创建步骤可以是动态的变化的，但是每个对象的组…...

编程日记 2023/9/10 23:31:11

家用电脑可以用做服务器吗

家用电脑的结构与服务器的结构是相同的，家用电脑是可以用来搭建服务器使用。但使用家用电脑做服务器在稳定性会比服务器差很多 1.家用电脑没有公网IP，网络运营商分配的IP重启路由之后是会变化，不固定。服务器运行是需要有固定IP让人连接访问。…...

编程日记 2023/9/10 23:30:09

CRM软件管理系统的基本功能

CRM管理系统是企业运营的重要工具，它可以帮助企业管理客户关系，提升销售效率，大幅提高客户转化率，实现业绩增长。那么，CRM管理系统一般包含哪些功能呢？下面我们就来说说。 1、销售自动化销售自动化顾名思…...

编程日记 2023/9/10 23:29:08

手机喊话应用实现思路

手机要是动一下，就喊话“摇摇零线，摇摇零线”，是不是比较酷， 这里实现一下手机翻转一下，播放声音的效果， 通过sensor识别到手机的运动状况，然后播放音频， public class MainActivi…...

编程日记 2023/9/10 23:28:07

【ARM CoreLink 系列 3 -- CCI-550 控制器介绍】

文章目录 CCI FamilyCCI-550 简介CCI-550 功能CCI-550 Interfaces Snoop filter 使用背景CCI-550 Snoop filter 上篇文章：ARM CoreLink 系列 2 – CCI-400 控制器简介 CCI Family CCI-550 简介 Arm CoreLink CCI-550 Cache Coherent Interconnect 扩展了 CoreLink…...

编程日记 2023/9/10 23:27:05

最长递增子序列 -- 动规

300. 最长递增子序列注意「⼦序列」和「⼦串」的区别，⼦串⼀定是连续的，⽽⼦序列不⼀定是连续的。 class LengthOfLIS:"""300. 最长递增子序列https://leetcode.cn/problems/longest-increasing-subsequence/description/""&q…...

编程日记 2023/9/10 23:26:04

linux 进程管理命令

进程管理命令查看进程命令 ps命令显示系统上运行的进程列表 # 查看系统中所有正在运行的系统ps aux# 获取占用内存资源最多的10个进程，可以使用如下命令组合：ps aux|head -1;ps aux|grep -v PID|sort -rn -k 4|head# 获取占用CPU资源最多的10个进程&am…...

编程日记 2023/9/10 23:25:03

第一章：计算机网络和因特网

什么是因特网具体构成描述互联网是一个世界范围的计算机网络，即一个互联了遍及世界数十亿计算机设备的网络，这些被连接的设备被称为主机或者端系统。端系统通过通信链路（communication link）和分组交换机（packet s…...

编程日记 2023/9/10 23:24:02

Android后退堆栈

修改代码现在的ItemClick使得用户单击其中一个项目时就会跳转，现在要修改其使得在一个小屏幕设备上才会这样做，在一个大屏幕设备上运行用户选择一个训练项目时在右边的片段显示响应的信息。希望片段处理后退的方式：假设用户在手机上运行这…...

编程日记 2023/9/10 23:22:59

网络原理（一）网络基础，包括IP ，网络相关的定义

网络基础，包括IP ，网络相关的定义网络基础冲突域广播域DNSNATNAPT 网络基础以下图片是书上的网图。什么是IP地址？ IP地址（Internet Protocol Address）是指互联网协议地址，又译为网际协议地址。P地址是…...

编程日记 2023/9/10 23:21:58

Python语义分割与街景识别（2）：环境搭建

前言本文主要用于记录我在使用python做图像识别语义分割训练集的过程，由于在这一过程中踩坑排除BUG过多，因此也希望想做这部分内容的同学们可以少走些弯路。本文是python语义分割与街景识别的第二篇，关于环境搭建的内容。这个部分是整个流…...

编程日记 2023/9/10 23:20:56

stm32(GD32,apm32),开优化后需要特别注意的地方

提到优化就不得不提及 volatile 使用场景 1：中断服务程序中修改的供其它程序检测的变量，需要加volatile； : 2：多任务环境下各任务间共享的标志，应该加volatile； 3：并行设备的硬件寄存器&#x…...

编程日记 2023/9/10 23:19:52

LLVM 与代码混淆技术

项目源码什么是 LLVM LLVM 计划启动于2000年，开始由美国 UIUC 大学的 Chris Lattner 博士主持开展，后来 Apple 也加入其中。最初的目的是开发一套提供中间代码和编译基础设施的虚拟系统。 LLVM 命名最早源自于底层虚拟机（Low Level Virtu…...

编程日记 2023/9/10 23:18:51

R语言---使用runway进行机器学习模型性能的比较

R语言—使用runway进行机器学习模型性能的比较 #dataloadrm(list=ls())#librarylibrary(dcurves)library(gtsummary)library(tidyverse)library(mlr3verse)library(tidyverse)library(data.table)</...

编程日记 2023/9/10 23:17:49

k8s从入门到放弃之Ingress七层负载

k8s从入门到放弃之Ingress七层负载在Kubernetes（简称K8s）中，Ingress是一个API对象，它允许你定义如何从集群外部访问集群内部的服务。Ingress可以提供负载均衡、SSL终结和基于名称的虚拟主机等功能。通过Ingress，你可…...

编程新知 2025/9/7 0:12:53

AtCoder 第409场初级竞赛 A~E题解

A Conflict 【题目链接】原题链接：A - Conflict 【考点】枚举【题目大意】找到是否有两人都想要的物品。【解析】遍历两端字符串，只有在同时为 o 时输出 Yes 并结束程序，否则输出 No。【难度】 GESP三级【代码参考】 #i…...

编程新知 2025/12/16 4:45:38

P3 QT项目----记事本（3.8）

3.8 记事本项目总结项目源码 1.main.cpp #include "widget.h" #include <QApplication> int main(int argc, char *argv[]) {QApplication a(argc, argv);Widget w;w.show();return a.exec(); } 2.widget.cpp #include "widget.h" #include &q…...

编程新知 2026/2/1 6:56:36

EtherNet/IP转DeviceNet协议网关详解

一，设备主要功能疆鸿智能JH-DVN-EIP本产品是自主研发的一款EtherNet/IP从站功能的通讯网关。该产品主要功能是连接DeviceNet总线和EtherNet/IP网络，本网关连接到EtherNet/IP总线中做为从站使用，连接到DeviceNet总线中做为从站使用。在自动…...

编程新知 2026/1/31 6:53:51

多模态大语言模型arxiv论文略读（108）

CROME: Cross-Modal Adapters for Efficient Multimodal LLM ➡️ 论文标题：CROME: Cross-Modal Adapters for Efficient Multimodal LLM ➡️ 论文作者：Sayna Ebrahimi, Sercan O. Arik, Tejas Nama, Tomas Pfister ➡️ 研究机构: Google Cloud AI Re…...

编程新知 2026/2/1 6:11:51

Linux C语言网络编程详细入门教程：如何一步步实现TCP服务端与客户端通信

文章目录 Linux C语言网络编程详细入门教程：如何一步步实现TCP服务端与客户端通信前言一、网络通信基础概念二、服务端与客户端的完整流程图解三、每一步的详细讲解和代码示例1. 创建Socket（服务端和客户端都要）2. 绑定本地地址和端口&#x…...

编程新知 2025/10/31 21:54:15

【Go语言基础【12】】指针：声明、取地址、解引用

文章目录零、概述：指针 vs. 引用（类比其他语言）一、指针基础概念二、指针声明与初始化三、指针操作符1. &：取地址（拿到内存地址）2. *：解引用（拿到值） 四、空指针&am…...

编程新知 2025/6/21 2:18:57

CRMEB 中 PHP 短信扩展开发：涵盖一号通、阿里云、腾讯云、创蓝

目前已有一号通短信、阿里云短信、腾讯云短信扩展扩展入口文件文件目录 crmeb\services\sms\Sms.php 默认驱动类型为：一号通 namespace crmeb\services\sms;use crmeb\basic\BaseManager; use crmeb\services\AccessTokenServeService; use crmeb\services\sms\…...

编程新知 2025/10/5 5:38:24

LRU 缓存机制详解与实现（Java版） + 力扣解决

📌 LRU 缓存机制详解与实现（Java版） 一、📖 问题背景在日常开发中，我们经常会使用缓存（Cache） 来提升性能。但由于内存有限，缓存不可能无限增长，于是需要策略决定&am…...

编程新知 2025/11/28 20:47:33

[大语言模型]在个人电脑上部署ollama 并进行管理,最后配置AI程序开发助手.

ollama官网: 下载 https://ollama.com/ 安装查看可以使用的模型 https://ollama.com/search 例如 https://ollama.com/library/deepseek-r1/tags # deepseek-r1:7bollama pull deepseek-r1:7b改token数量为409622 16384 ollama命令说明 ollama serve #&#xff1a…...

编程新知 2026/1/31 4:37:53