当前位置: 首页 > article >正文

机器学习与深度学习06-决策树02

目录

    • 前文回顾
    • 5.决策树中的熵和信息增益
    • 6.什么是基尼不纯度
    • 7.决策树与回归问题
    • 8.随机森林是什么

前文回顾

上一篇文章地址:链接

5.决策树中的熵和信息增益

熵和信息增益是在决策树中用于特征选择的重要概念,它们帮助选择最佳特征进行划分。

  1. 熵(Entropy):熵是信息论中用来度量不确定性或混乱程度的概念。在决策树中,熵被用来度量一个节点的不纯度,即该节点包含多少不同类别的样本,熵的计算公式为,对于节点t, p i p_i pi表示类别i在节点t中的样本比例

E n t r o p y ( t ) = − ∑ i = 1 c p i log ⁡ 2 ( p i ) Entropy(t) = - \sum_{i = 1}^{c} p_i \log_2(p_i) Entropy(t)=i=1cpilog2(pi)
其中,c表示类别的数量。熵的值在0和1之间,越接近0表示节点越纯净,越接近1表示节点的不纯度越高。

  1. 信息增益(Information Gain):信息增益用于选择最佳特征来划分数据集。它衡量了通过选择某个特征进行划分后,父节点的熵减少了多少,即子节点的不纯度相对于父节点而言减少了多少, 信息增益的计算公式为
    I n f o r m a t i o n G a i n ( D , A ) = E n t r o p y ( D ) − ∑ v ∈ V a l u e s ( A ) ∣ D v ∣ ∣ D ∣ E n t r o p y ( D v ) Information \ Gain(D, A) = Entropy(D) - \sum_{v \in Values(A)} \frac{|D_v|}{|D|} Entropy(D_v) Information Gain(D,A)=Entropy(D)vValues(A)DDvEntropy(Dv)
    其中,D是父节点的数据集,A是要划分的特征, V a l u e s ( A ) Values(A) Values(A)是特征A的取值集合, D v D_v Dv是特征A取值为v时的子节点数据集,信息增益的目标是选择使得信息增益最大的特征来进行划分,因为最大的信息增益意味着划分后的子节点更纯净,不确定性更低。因此,信息增益可以帮助决策树选择最能有效地划分数据的特征,从而构建更加有用的决策树模型
    需要注意的是,信息增益在选择特征时有一定的偏向性,它倾向于选择取值较多的特征,因此在某些情况下可能不适用。为了解决这个问题,基尼不纯度(Gini Impurity)是另一种可选的划分准则,它在某些情况下更适用于特征选择。在实际应用中,可以根据具体问题和数据集选择适当的划分准则

6.什么是基尼不纯度

基尼不纯度是一种用于决策树中的划分准则,它用来度量一个节点的不纯度或混乱程度,基尼不纯度越低,表示节点的纯度越高,即该节点包含的样本更倾向于属于同一类别。与信息增益不同,基尼不纯度不依赖于对数,计算相对较为简单。基尼不纯度的计算公式为,对于节点t, p i p_i pi表示类别i在节点t中的样本比例
G i n i ( t ) = 1 − ∑ i = 1 c ( p i ) 2 Gini(t) = 1 - \sum_{i = 1}^{c} (p_i)^2 Gini(t)=1i=1c(pi)2
其中,c表示类别的数量。基尼不纯度的值在0和1之间,越接近0表示节点越纯净,越接近1表示节点的不纯度越高,与信息增益相比,基尼不纯度有一些不同之处:

  1. 计算方式:信息增益使用对数计算,而基尼不纯度使用平方计算。这意味着基尼不纯度对误分类的惩罚相对较小,因此更偏向于选择具有最大基尼不纯度下降的特征
  2. 取值范围:信息增益的取值范围在0到1之间,而基尼不纯度的取值范围也在0到1之间,但通常基尼不纯度的值略高于信息增益
  3. 应用场景:基尼不纯度在某些情况下更适用于特征选择。特别是在处理多分类问题(类别数较多)时,基尼不纯度通常表现更好,因为它偏向于选择取值较少的特征,可以降低树的复杂度

在选择划分特征时,可以根据具体问题和数据集的特点选择使用信息增益或基尼不纯度。通常情况下,它们都是有效的划分准则,但在不同情况下可能表现出不同的优势。机器学习库(如Scikit-Learn)通常提供了两者的选项,以便根据问题需求进行选择

7.决策树与回归问题

决策树是一种用于分类和回归问题的机器学习模型,它们的主要区别在于应用的问题类型和输出变量的性质。

  1. 分类问题:在分类问题中,目标是将输入数据分为预定义的类别或标签中的一个。决策树用于解决分类问题时,每个叶子节点代表一个类别,模型通过从根节点到叶子节点的路径来确定数据点的类别。例如,可以使用决策树来判断电子邮件是垃圾邮件还是正常邮件、患者是否患有某种疾病等
  2. 回归问题:在回归问题中,目标是预测一个连续的数值输出,而不是分类标签。决策树用于解决回归问题时,每个叶子节点代表一个数值,模型通过从根节点到叶子节点的路径来预测数据点的数值输出。例如,可以使用决策树来预测房屋价格、股票价格等连续性输出
  3. 主要区别:主要区别在于输出变量的性质。分类问题的输出是离散的类别标签,而回归问题的输出是连续的数值。决策树的构建和评估方法在两种问题中基本相同,但叶子节点的表示和预测方式不同
  4. 将决策树应用于回归问题:要将决策树应用于回归问题,需要对其进行一些适应性修改

以下是一些将决策树用于回归问题的关键点:

  1. 叶子节点的表示:在回归决策树中,叶子节点不再代表类别标签,而代表数值。通常,叶子节点的数值是该节点中所有训练样本的目标变量值的平均值
  2. 划分准则:在回归决策树中,常用的划分准则包括均方误差(Mean Squared Error)和平均绝对误差(Mean Absolute Error)。划分时选择使均方误差或平均绝对误差最小化的特征和取值
  3. 剪枝:与分类决策树类似,回归决策树也可以进行剪枝操作,以减小树的复杂度,提高泛化能力
  4. 评估指标:在回归问题中,通常使用均方误差、平均绝对误差、决定系数(R-squared)等指标来评估模型的性能

8.随机森林是什么

随机森林(Random Forest)是一种集成学习算法,用于改进单个决策树模型的性能。是一种强大且广泛应用的机器学习方法,随机森林的核心思想是通过构建多个决策树,并将它们的预测结果结合起来,来提高整体模型的性能和鲁棒性,以下是随机森林是如何改进单个决策树模型性能的主要方式

  1. 随机抽样(Bootstrap抽样):在构建每棵决策树时,随机森林从训练数据中使用有放回抽样(Bootstrap抽样)来创建不同的训练子集。这意味着每棵树使用的数据集都是略有不同的,从而增加了模型的多样性
  2. 随机特征选择:在每次分裂决策树节点时,随机森林不考虑所有特征,而是从所有特征中随机选择一个子集用于分裂。这样可以防止某些特征在模型中占据主导地位,增加了模型的多样性,同时也提高了计算效率
  3. 多数投票或平均:当随机森林中的所有决策树都构建完成后,它们的预测结果会被结合起来。对于分类问题,采用多数投票的方式,即每棵树投票选择类别,最终选择得票最多的类别作为模型的预测结果。对于回归问题,采用平均的方式,即将所有树的预测结果取平均值作为最终预测值
  4. 降低过拟合风险:由于随机森林的每个决策树都是在不同的子集上训练的,因此它们具有较高的多样性,降低了过拟合的风险。这意味着即使训练数据中存在噪声或异常值,随机森林也能够产生稳健的预测
  5. 高性能:随机森林通常在处理大规模数据集时表现良好,因为每棵决策树可以并行构建,从而提高了训练速度。此外,它们通常不需要太多的超参数调整,使其易于使用

总的来说,随机森林通过组合多个决策树,利用随机性和投票策略,改进了单个决策树的性能,提高了模型的泛化能力和鲁棒性,适用于各种机器学习任务,包括分类、回归和特征选择

相关文章:

机器学习与深度学习06-决策树02

目录 前文回顾5.决策树中的熵和信息增益6.什么是基尼不纯度7.决策树与回归问题8.随机森林是什么 前文回顾 上一篇文章地址:链接 5.决策树中的熵和信息增益 熵和信息增益是在决策树中用于特征选择的重要概念,它们帮助选择最佳特征进行划分。 熵&#…...

Netty 实战篇:构建简易注册中心,实现服务发现与调用路由

本文将为前面构建的轻量级 RPC 框架添加“服务注册与发现”功能,支持多服务节点动态上线、自动感知与调用路由,为构建真正可扩展的分布式系统打好基础。 一、背景:为什么需要注册中心? 如果每个客户端都硬编码连接某个 IP/端口的…...

微信小程序(uniapp)对接腾讯云IM

UniApp 对接腾讯云 IM(即时通讯)完整指南 一、项目背景与需求分析 随着社交场景的普及,即时通讯功能已成为移动应用的标配。腾讯云 IM(Tencent IM,即 TIM)提供稳定可靠的即时通讯服务,支持单聊…...

使用摄像头推流+VLC软件拉流

一、作用 使用摄像头创建rtsp链接,并使用VLC软件拉流显示。 二、步骤 1、安装FFmpeg库 下载地址:https://ffmpeg.org/download.htmlFFmpeg库的下载参考之前的博客,下载Win64版本即可:https://blog.csdn.net/beijixingcd/artic…...

python魔法函数

Python 中的魔法方法(Magic Methods),也称为特殊方法(Special Methods)或双下方法(Dunder Methods),是以双下划线 __ 开头和结尾的方法。它们用于定义类的行为,例如运算符…...

XCUITest 是什么

XCUITest(全称 Xcode UI Test)是苹果官方提供的 iOS/macOS UI 自动化测试框架,集成在 Xcode 开发工具中,专门用于测试 Swift/Objective-C 开发的应用程序。 1. XCUITest 的核心特点 ✅ 官方支持:苹果原生框架&#xf…...

使用k8s服务进行端口代理

创建registry-service.yaml 使用无Selector的Service Endpoints模式 vi registry-service.yaml编辑以下内容 apiVersion: v1 kind: Service metadata:name: registry-service spec:type: NodePortports:- name: httpprotocol: TCPport: 81 # Service内部端口targ…...

灌水论坛系统总体设计文档

一、实验题目 灌水论坛系统 二、实验目的 旨在通过一个相对完整且功能丰富的Web应用实例,全面地实践和巩固Web开发所需的各项核心技术和工程方法,从而提升其综合应用能力和解决实际开发问题的能力。它不仅仅是完成一个软件,更是一个学习、…...

Mac M1编译OpenCV获取libopencv_java490.dylib文件

Window OpenCV下载地址 https://opencv.org/releases/OpenCV源码下载 https://github.com/opencv/opencv/tree/4.9.0 https://github.com/opencv/opencv_contrib/tree/4.9.0OpenCV依赖 brew install libjpeg libpng libtiff cmake3 ant freetype构建open CV cmake -G Ninja…...

使用 Let‘s Encrypt 和 Certbot 为 Cloudflare 托管的域名申请 SSL 证书

一、准备工作 1. 确保域名解析在 Cloudflare 确保你的域名 jessi53.com 和 www.jessi53.com 的 DNS 记录已经正确配置在 Cloudflare 中,并且状态为 Active。 2. 安装 Certbot 在你的服务器上安装 Certbot 和 Cloudflare 插件。以下是基于 Debian/Ubuntu 和 Cent…...

【Python进阶】元编程、并发

目录 🌟 前言🏗️ 技术背景与价值🩹 当前技术痛点🛠️ 解决方案概述👥 目标读者说明🧠 一、技术原理剖析📊 核心架构图解💡 核心作用讲解🔧 关键技术模块说明⚖️ 技术选型对比🛠️ 二、实战演示⚙️ 环境配置要求💻 核心代码实现案例1:元类实现ORM框架…...

网络协议:[0-RTT 认证 ]

1. 为什么要 0-RTT 认证 降低延迟:SOCKS5 在无认证时需要 2 RTT(握手+请求),若加用户名/密码又要 3 RTT;0-RTT 通过合并步骤,目标是把握手+认证+请求都压缩到 1 RTT。 IE…...

单例模式的类和静态方法的类的区别和使用场景

单例模式的类和使用静态方法的类在功能上都能提供全局访问的能力,但它们在实现方式、特性和使用场景上存在差异,下面从多个方面进行比较: 1. 实现方式 单例模式的类 单例模式确保一个类只有一个实例,并提供一个全局访问点。通常…...

flowable中流程变量的概念(作用域)

核心概念:流程变量(Process Variables) 流程变量是 Flowable 工作流引擎中用于存储、传递和共享与业务流程相关的数据的机制。你可以将它们理解为附着在流程实例(或执行流、任务)上的键值对(Key-Value&…...

【基础算法】模拟算法

文章目录 算法简介1. 多项式输出解题思路代码实现 2. 蛇形方阵解题思路代码实现 3. 字符串的展开解题思路代码实现 算法简介 模拟,顾名思义,就是题目让你做什么你就做什么,考察的是将思路转化成代码的代码能力。 这类题一般较为简单&#xf…...

项目 react+taro 编写的微信 小程序,什么命令,可以减少console的显示

在 Taro 项目中,为了减少 console 的显示(例如 console.log、console.info 等),可以通过配置 terser-webpack-plugin 来移除生产环境中的 console 调用。 配置步骤: 修改 index.js 文件 在 mini.webpackChain 中添加 …...

Android 开发 Kotlin 全局大喇叭与广播机制

在 Android 开发中,广播机制就像一个神通广大的 “消息快递员”,承担着在不同组件间传递信息的重任。Kotlin 语言的简洁优雅更使其在广播机制的应用中大放异彩。今天,就让我们一同深入探索 Android 开发中 Kotlin 全局大喇叭与广播机制的奥秘…...

微信小程序关于截图、录屏拦截

1.安卓 安卓: 在需要禁止的页面添加 onShow() {if (wx.setVisualEffectOnCapture) {wx.setVisualEffectOnCapture({visualEffect: hidden,complete: function(res) {}})}},// 页面隐藏和销毁时需要释放防截屏录屏设置onHide() {if (wx.setVisualEffectOnCapture) {w…...

基于51单片机的音乐盒键盘演奏proteus仿真

地址: https://pan.baidu.com/s/1tZCAxQQ7cvyzBfztQpk0UA 提取码:1234 仿真图: 芯片/模块的特点: AT89C52/AT89C51简介: AT89C51 是一款常用的 8 位单片机,由 Atmel 公司(现已被 Microchip 收…...

【unity游戏开发——编辑器扩展】EditorUtility编辑器工具类实现如文件操作、进度条、弹窗等操作

注意:考虑到编辑器扩展的内容比较多,我将编辑器扩展的内容分开,并全部整合放在【unity游戏开发——编辑器扩展】专栏里,感兴趣的小伙伴可以前往逐一查看学习。 文章目录 前言一、确认弹窗1、确认弹窗1.1 主要API1.2 示例 2、三按钮…...

WPF中自定义消息弹窗

WPF 自定义消息弹窗开发笔记 一、XAML 布局设计 文件&#xff1a;MessageInfo.xaml <Window x:Class"AutoFeed.UserControls.MessageInfo"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsoft.…...

Android之ListView

1&#xff1a;简单列表(ArrayAdapter) 1&#xff1a;运行的结果&#xff1a; 2&#xff1a;首先在MyListView里面创建一个按钮&#xff0c;点击的时候进行跳转。 这里让我吃惊的是&#xff0c;Button里面可以直接设置onClick .java里面的方法。 也即是点击这个按钮之后就会去…...

查服务器信息 常用的一些命令 =^^ =

本文主要记录Linux系统的各项指令工具 目录 一、系统基础信息 1. 操作系统与内核信息 2. 主机名与 IP 二、CPU 和内存使用 1. CPU 与内存占用情况&#xff08;动态监控&#xff09; 2. 只看 CPU 与内存用量 三、磁盘与文件系统 1. 磁盘空间使用情况 2. 磁盘 inode 使用…...

PS裁剪后像素未删除?5步解决“删除裁剪像素”失效问题

在Photoshop中遇到“删除裁剪的像素”功能失效的问题时&#xff0c;可能涉及软件设置、版本兼容性或操作流程错误。以下是具体原因和解决方案&#xff1a; 一、常见原因分析 未正确勾选“删除裁剪的像素”选项 在裁剪工具属性栏中&#xff0c;需手动勾选该选项才能永久删除裁剪…...

《Spring Cloud Gateway 快速入门:从路由到自定义 Filter 的完整教程》​

1.网关介绍 在前面的学习中&#xff0c;我们通过Eureka和Nacos解决了辅助注册&#xff0c;使用Spring Cloud LoadBalance解决了负载均衡的问题&#xff0c;使用OpenFeign解决了远程调用的问题。 但是当前的所有微服务的接口都是直接对外暴露的&#xff0c;外部是可以直接访问…...

第3节 Node.js 创建第一个应用

Node.js 非常强大&#xff0c;只需动手写几行代码就可以构建出整个HTTP服务器。事实上&#xff0c;我们的Web应用以及对应的Web服务器基本上是一样的。 在我们创建Node.js第一个"Hello, World!"应用前&#xff0c;让我们先了解下Node.js应用是由哪几部分组成的&…...

我们来学mysql -- “数据备份还原”sh脚本

数据备份&还原 说明执行db_backup_cover.sh脚本 说明 环境准备&#xff1a;来源数据库(服务器A)&#xff1b;目标数据库(服务器B)dbInfo.sh脚本记录基本信息 来源库、目标库的ip、port及执行路径 # MySQL 客户端和 mysqldump 的路径 MYSQL_CLIENT"/work/oracle/mysql…...

mkcert实现本地https

​​1.下载 mkcert​​ 从 mkcert GitHub 发布页 下载适用于 Windows 的版本&#xff08;如 mkcert-v1.4.4-windows-amd64.exe&#xff09;。 ​​安装 mkcert​​ 以管理员身份运行命令提示符&#xff08;CMD&#xff09;&#xff0c;执行以下命令安装并信任本地 CA&#xff…...

【排序算法】快速排序详解--附详细流程代码

快速排序算法 介绍 快速排序&#xff08;Quick Sort&#xff09;是一种高效的分治排序算法&#xff0c;由英国计算机科学家 Tony Hoare 于 1960 年提出。它是实际应用中最常用的排序算法之一。快速排序的基本思想是&#xff1a;选择一个"基准"&#xff08;pivot&am…...

Kerberos面试内容整理-会话密钥的协商与使用

在 Kerberos 认证过程中,**会话密钥(Session Key)**扮演着关键角色。会话密钥是由 KDC 临时生成并分发给通信双方用于当前会话的对称加密密钥。与用户密码这类长期密钥不同,会话密钥的生命周期很短,仅在特定的认证会话或服务访问期间有效。这种设计大幅提升了安全性:长期…...