【机器学习算法介绍】(3)决策树
决策树是一种常见的机器学习算法,用于分类和回归任务。它模拟了人类决策过程,通过一系列的问题来引导决策。决策树的构建涉及三个主要步骤:特征选择、树的构建和树的剪枝。
1. 特征选择
特征选择是决策树构建过程中的第一步,目的是选出最优特征并决定该特征在树的哪个节点上进行划分。常用的特征选择方法有:
-
信息增益:最常用的特征选择方法之一,主要用于ID3算法。信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。
I G ( Y ∣ X ) = H ( Y ) − H ( Y ∣ X ) IG(Y|X) = H(Y) - H(Y|X) IG(Y∣X)=H(Y)−H(Y∣X)
其中, H ( Y ) H(Y) H(Y) 是类别Y的熵, H ( Y ∣ X ) H(Y|X) H(Y∣X) 是给定特征X后类别Y的条件熵。
-
信息增益比:C4.5决策树算法使用的特征选择方法。它是信息增益和特征熵的比值,用于减少对具有较多值的特征的偏好。
G a i n _ r a t i o ( Y ∣ X ) = I G ( Y ∣ X ) H ( X ) Gain\_ratio(Y|X) = \frac{IG(Y|X)}{H(X)} Gain_ratio(Y∣X)=H(X)IG(Y∣X)
-
基尼指数:CART(Classification and Regression Trees)决策树使用的特征选择方法。基尼指数反映了从数据集中随机选取两个样本,其类别标签不一致的概率。
G i n i ( Y ) = 1 − ∑ i = 1 n p i 2 Gini(Y) = 1 - \sum_{i=1}^{n}p_i^2 Gini(Y)=1−i=1∑npi2
其中, p i p_i pi 是选择第i个类的概率。
2. 树的构建
从根节点开始,使用特征选择方法选出最优特征,根据该特征的不同取值分裂出子节点,然后对子节点递归地重复这个过程,直到满足停止条件,例如:
- 所有的样本都属于同一类别,无需继续划分。
- 没有剩余特征可用于进一步划分。
- 达到树的最大深度或节点包含的样本数量少于预定阈值。
3. 树的剪枝
为了防止过拟合,需要对决策树进行剪枝。剪枝可以分为预剪枝和后剪枝:
- 预剪枝:在决策树生成过程中,对每个节点在划分前先评估是否继续划分带来的性能提升,如果不显著,则停止划分并将当前节点标记为叶节点。
- 后剪枝:先从训练集生成一棵完整的决策树,然后从底部开始,尝试将每个节点替换为叶节点,如果替换后模型性能没有显著下降,则进行替换,以此来简化决策树的结构。
应用场景
决策树是一种非常流行且强大的机器学习算法,因其模型的可解释性强、实现简单和效果不错而被广泛应用于各个领域。以下是决策树在实际中的一些典型应用场景:
1. 客户关系管理
决策树可以帮助企业根据客户的历史数据分析客户的行为,预测客户可能的流失、购买倾向等,从而帮助企业制定相应的客户关系管理策略。
2. 信贷审批
在金融行业中,决策树被用于评估贷款申请者的信用风险,通过分析申请者的财务状况、历史信用记录等信息来决定是否批准贷款。
3. 医疗诊断
医疗领域中,决策树可以根据患者的各项检查结果来辅助医生进行疾病诊断,例如根据患者的症状、实验室检测结果等信息来预测患者可能患有的疾病。
4. 营销策略
决策树可以分析顾客的购买历史、偏好、响应历史广告或促销活动的情况,从而帮助企业制定更有效的营销策略,提高营销活动的转化率。
5. 故障诊断
在制造业和设备维护中,决策树可以根据设备的运行数据和历史故障记录来预测设备可能出现的故障类型,帮助进行预防性维护。
6. 股票市场分析
通过分析历史股票数据,包括价格变动、交易量、经济指标等因素,决策树可以帮助投资者预测股票价格的涨跌,辅助做出投资决策。
7. 文本分类
决策树也可以应用于文本数据,如自动将文档分类到预定义的主题类别中,或是用于垃圾邮件的识别。
注意事项
尽管决策树在多个领域都有广泛应用,但它也有一些局限性,比如容易过拟合、对于非线性问题表现不佳、对缺失数据敏感等。在实际应用中,通常会通过集成方法如随机森林(Random Forest)或梯度提升决策树(Gradient Boosting Decision Trees, GBDT)来克服这些缺点,进一步提升模型的性能和稳定性。
相关文章:
【机器学习算法介绍】(3)决策树
决策树是一种常见的机器学习算法,用于分类和回归任务。它模拟了人类决策过程,通过一系列的问题来引导决策。决策树的构建涉及三个主要步骤:特征选择、树的构建和树的剪枝。 1. 特征选择 特征选择是决策树构建过程中的第一步,目的…...
算法之查找
1、顺序查找: package com.arithmetic.search; //顺序查找 //sequentialSearch 方法接收一个整数数组和一个目标元素作为参数,并使用顺序查找的方式在数组中查找目标元素。 //它通过循环遍历数组元素,逐个与目标元素比较,如果找到…...
LInux脚本学习
1.注释 #单行注释 以 # 字符开头就是单行注释 当然第一行除外,比较特殊 2.多行注释 3.Shell文件的作用 Shell文件就是linux命令集 4.sh脚本的执行方式 bash xxx.sh 5.新建的文件会没有执行权限 #为文件赋予执行权限 chmod ux xxx.sh 6.编写规范 #!/bin/bash #…...
JavaWeb基础(计网 socket 数据库 JDBC lombok Mybatis JUnit Maven)
本文用于检验学习效果,忘记知识就去文末的链接复习 1. 网络基础 1.1 计网基础 区分设备:IP地址 区分网络:网络地址 网络互联:路由器 主机上进程间通信:端口 http是常用的协议,基于TCP协议 TCP VS U…...
【HBase】
什么是HBase HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据。 访问层次(数据…...
Vue3:使用Pinia存储、读取、修改数据
一、存储数据 Pinia插件中,存储数据的配置项是state count.ts import {defineStore} from piniaexport const useCountStore defineStore(count,{// 真正存储数据的地方state(){return {sum:6}} })loveTalk.ts import {defineStore} from piniaexport const use…...
基于 Quartz.NET 可视化任务调度平台 QuartzUI
一、简介 QuartzUI 是基于 Quartz.NET3.0 的定时任务 Web 可视化管理,Docker 打包开箱即用、内置 SQLite 持久化、语言无关、业务代码零污染、支持 RESTful 风格接口、傻瓜式配置、异常请求邮件通知等。 二、部署 QuartzUI 从 2022 年到现在没有提交记录…...
前端三剑客 —— CSS (第三节)
目录 上节回顾: 1.CSS使用有以下几种样式; 2.选择器 1.基本选择器 2.包含选择器 3.属性选择器 [] 4.伪类选择器 : 5.伪元素选择器 ::before :after 3.常见样式的使用 常见样式参考表 一些特殊样式 媒体查询 自定义字体 变换效果 translate&…...
C# 系统学习(异步编程)
在C#中,异步编程是一种优化程序性能的关键技术,特别是在处理I/O密集型操作(如网络请求、数据库查询、文件读写等)时,能够有效避免由于长时间等待而导致的线程阻塞,从而提高应用的响应速度和资源利用率。asy…...
前端工程师————CSS学习
选择器分类 选择器分为基础选择器和复合选择器 基础选择器包括:标签选择器,类选择器,id选择器,通配符选择器标签选择器 类选择器 语法:.类名{属性1: 属性值;} 类名可以随便起 多类名使用方式&am…...
C# 登录界面代码
背景 MVVM 是一种软件架构模式,用于创建用户界面。它将用户界面(View)、业务逻辑(ViewModel)和数据模型(Model)分离开来,以提高代码的可维护性和可测试性。 MainWindow 类是 View&a…...
点云的Python均值采样
一、代码 Python import numpy as np import open3d as o3ddef mean_sampling(point_cloud, num_samples=None, depth=None, method=knn, k=10):"""对点云进行均值下采样。:param point_cloud: Open3D PointCloud对象:param num_samples: (仅当method=knn时使…...
xss-labs 11-13通关记录
前言 最近复习xss知识,整理一下xss的绕过思路。 level11 观察测试: 1.四个隐藏参数标签 2.全部get传参一遍发现t_sort可赋值,使用的是get传参 3.针对t_sort测试过滤的字符 t_sort< > & ; " 检测到他除了<>,别的全部过滤。 因为…...
Unity类银河恶魔城学习记录12-2 p124 Character Stats UI源代码
Alex教程每一P的教程原代码加上我自己的理解初步理解写的注释,可供学习Alex教程的人参考 此代码仅为较上一P有所改变的代码 【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili UI_Statslot.cs using System.Collections; using System.Collections.Gen…...
技术揭秘:如何打造完美互动的充电桩硬件与服务平台?
充电桩平台全套源码地址 https://gitee.com/chouleng/cdzkjjh.git 这张图像是一个系统或服务的架构图。以下是对图中各个部分的描述: 前端: 位于图像的顶部,颜色为浅绿色。用户服务端: 紧邻前端,颜色为淡黄色。设备服…...
【Django学习笔记(四)】JavaScript 语言介绍
JavaScript 语言介绍 前言正文1、JavaScript 小案例2、代码位置2.1 在当前 HTML 文件中2.2 在其他 js 文件中 3、代码注释3.1 HTML的注释3.2 CSS的注释3.3 Javascript的注释 4、变量 & 输出4.1 字符串4.2 数组4.3 对象(python里的字典) 5、条件语句6、函数7、DOM7.1 根据 I…...
IO和NIO的主要区别在哪里?
Java 中的 IO(输入/输出)和 NIO(新输入/输出)都是处理输入和输出操作的方式,它们的主要区别在于如何处理数据的读写。 阻塞与非阻塞: IO是阻塞的,这意味着当一个线程调用read()或write()时,该线…...
爬虫部署平台crawlab使用说明
Crawlab 是一个基于 Go 语言的分布式网络爬虫管理平台,它支持 Python、Node.js、Jar、EXE 等多种类型的爬虫。 Crawlab 提供了一个可视化的界面,并且可以通过简单的配置来管理和监控爬虫程序。 以下是 Crawlab 的一些主要优点: 集中管理&am…...
uniapp uni.scss中使用@mixin混入,在文件引入@include 样式不生效 Error: Undefined mixin.(踩坑记录一)
问题: 在uni.scss文件定义mixin 2. 在vue文件引入: 3. 出现报错信息: 4. 问题思考: 是不是需要引入uni.scss ? 答案不需要 uni.scss是一个特殊文件,在代码中无需 import 这个文件即可在scss代码中使用这里的样式变量。uni-app的…...
Redis的5大常见数据类型的用法
上一篇文章我们讲了Redis的10大应用场景,这一篇文章就针对Redis的常用数据结构进行一个说明,通过示例的形式演示每一种数据结构如何使用。 当涉及Redis的数据操作时,不同数据类型对应的不同数据结构,如下就对5大常用的数据类型进行…...
新手入门:用快马平台生成第一个labelimg式图像标注demo
今天想和大家分享一个特别适合计算机视觉新手的小项目——用InsCode(快马)平台快速搭建一个简易版的图像标注工具。这个工具类似labelimg的核心功能,但更轻量级,能帮助理解数据标注的基本流程。 项目背景理解 图像标注是计算机视觉的基础环节,…...
RWKV7-1.5B-g1a多场景落地:HR部门用它自动生成岗位JD要点与面试问题清单
RWKV7-1.5B-g1a多场景落地:HR部门用它自动生成岗位JD要点与面试问题清单 1. 为什么HR部门需要AI助手 招聘工作中有大量重复性文案工作,比如: 为不同岗位编写职位描述(JD)设计结构化面试问题整理岗位核心能力要求制作候选人评估标准 传统方…...
解决Beyond Compare 5授权问题的完整方案:BCompare_Keygen工具使用指南
解决Beyond Compare 5授权问题的完整方案:BCompare_Keygen工具使用指南 【免费下载链接】BCompare_Keygen Keygen for BCompare 5 项目地址: https://gitcode.com/gh_mirrors/bc/BCompare_Keygen 当你在使用Beyond Compare 5进行文件比较或同步操作时&#x…...
ESP8266 KiCAD库零基础上手:高效配置开源硬件设计工具指南
ESP8266 KiCAD库零基础上手:高效配置开源硬件设计工具指南 【免费下载链接】kicad-ESP8266 Schematic symbols and PCB footprints for ESP8266 modules 项目地址: https://gitcode.com/gh_mirrors/ki/kicad-ESP8266 在开源硬件设计领域,KiCAD库&…...
MySQL 8.0迁移后表名报错?别急着改my.cnf,先搞懂lower_case_table_names这个坑
MySQL 8.0表名大小写陷阱:从踩坑到系统化解决方案 当数据库管理员小李将公司核心业务系统从MySQL 5.7迁移到8.0版本后,系统突然开始频繁报错"表不存在",而实际上这些表明明就在数据库中。这个看似简单的表象背后,隐藏着…...
从‘画图’到‘造芯’:模拟版图工程师必须懂的CMOS工艺那些事儿
从‘画图’到‘造芯’:模拟版图工程师必须懂的CMOS工艺那些事儿 当你第一次打开PDK文档,面对密密麻麻的设计规则表格时,是否感觉像在解读天书?作为模拟版图工程师,我们每天都在与纳米级的几何图形打交道,但…...
Onekey:3分钟搞定Steam游戏清单下载的终极神器
Onekey:3分钟搞定Steam游戏清单下载的终极神器 【免费下载链接】Onekey Onekey Steam Depot Manifest Downloader 项目地址: https://gitcode.com/gh_mirrors/one/Onekey 还在为复杂的Steam游戏清单获取流程而烦恼吗?Onekey作为一款专业的Steam D…...
华硕笔记本性能困境突破:G-Helper工具的全方位优化方案
华硕笔记本性能困境突破:G-Helper工具的全方位优化方案 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other models 项目地…...
3大核心功能让你轻松掌握League-Toolkit英雄联盟辅助工具
3大核心功能让你轻松掌握League-Toolkit英雄联盟辅助工具 【免费下载链接】League-Toolkit 兴趣使然的、简单易用的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League-Toolkit是一款基…...
企业级Java SMB客户端:jcifs-ng深度架构解析与实战指南
企业级Java SMB客户端:jcifs-ng深度架构解析与实战指南 【免费下载链接】jcifs-ng A cleaned-up and improved version of the jCIFS library 项目地址: https://gitcode.com/gh_mirrors/jc/jcifs-ng jcifs-ng是一个经过彻底重构和优化的Java SMB客户端库&am…...
