当前位置: 首页 > article >正文

机器学习_13 决策树知识总结

决策树是一种直观且强大的机器学习算法,广泛应用于分类和回归任务。它通过树状结构的决策规则来建模数据,易于理解和解释。今天,我们就来深入探讨决策树的原理、实现和应用。

一、决策树的基本概念

1.1 决策树的工作原理

决策树是一种基于树结构的模型,通过一系列的决策规则将数据划分为不同的类别或预测目标值。它的基本工作流程如下:

  1. 根节点:从整个数据集开始。

  2. 分支节点:根据某个特征的值将数据集分割成多个子集。

  3. 叶子节点:最终的预测结果,包含类别标签(分类问题)或目标值(回归问题)。

  4. 预测:对于新样本,从根节点开始,根据特征值沿着树的分支向下遍历,直到到达叶子节点,叶子节点的值即为预测结果。

1.2 决策树的优势

  • 易于理解和解释:决策树的规则直观,易于可视化。

  • 处理多种数据类型:可以处理数值型和分类型数据。

  • 无需特征缩放:对特征的尺度不敏感,不需要进行标准化或归一化。

1.3 决策树的局限性

  • 容易过拟合:如果树的深度过大,可能会过度拟合训练数据,导致泛化能力差。

  • 对数据敏感:对数据中的噪声和异常值较为敏感。

  • 计算复杂度高:尤其是当特征数量较多时,训练时间可能会较长。

二、决策树的构建与划分准则

2.1 划分准则

在构建决策树时,选择合适的划分准则至关重要。常见的划分准则包括:

  • 信息增益(Information Gain):基于信息论的概念,选择使熵(Entropy)减少最多的特征进行划分。信息增益越大,表示划分后的数据更加纯净。

  • 基尼不纯度(Gini Impurity):衡量节点的纯度,选择使基尼不纯度降低最多的特征进行划分。基尼不纯度越低,表示节点的纯度越高。

  • 均方误差(Mean Squared Error, MSE):用于回归问题,选择使均方误差最小的特征进行划分。

2.2 如何选择最佳划分准则

  • 信息增益:偏向于选择取值较多的特征,适合特征数量较少的情况。

  • 基尼不纯度:计算简单,适合处理多分类问题,对特征的选择较为平衡。

  • 均方误差:适用于回归问题,能够有效衡量预测值与真实值之间的差异。

三、决策树的实现与案例

3.1 Python实现

以下是使用Python和Scikit-Learn库实现决策树分类的代码示例:

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree# 加载鸢尾花数据集
iris = datasets.load_iris()
X = iris.data
y = iris.target# 创建并拟合决策树分类器
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X, y)# 可视化决策树
plt.figure(figsize=(12, 8))
tree.plot_tree(clf,feature_names=iris.feature_names,class_names=iris.target_names.tolist(),filled=True,rounded=True)
plt.show()

3.2 案例分析

假设我们有一组数据,记录了患者的年龄、性别、症状和是否患有某种疾病。我们希望通过决策树模型预测患者是否患病。

  • 数据准备:收集患者的年龄、性别、症状等特征,以及是否患病的标签。

  • 模型训练:使用决策树分类器拟合数据,选择合适的划分准则(如基尼不纯度)。

  • 模型评估:通过可视化决策树,理解模型的决策规则;计算准确率、召回率等指标,评估模型性能。

  • 预测应用:根据模型预测新患者的患病概率,为医疗诊断提供参考。

四、决策树的优化与剪枝

4.1 过拟合问题

决策树容易过拟合,尤其是在树的深度较大时。为了避免过拟合,可以采取以下方法:

  • 限制树的深度:设置最大深度参数(max_depth),控制树的生长。

  • 增加最小样本数:设置每个叶子节点的最小样本数(min_samples_leaf)和分裂节点的最小样本数(min_samples_split),防止过度细分。

  • 剪枝:通过剪枝操作减少树的复杂度,提高泛化能力。

4.2 剪枝方法

  • 预剪枝(Pre-pruning):在树生长过程中提前停止,例如设置最大深度或最小样本数。

  • 后剪枝(Post-pruning):先让树完全生长,然后剪掉一些分支。常见的后剪枝方法包括成本复杂度剪枝(Cost-Complexity Pruning)。

五、决策树的评估指标

5.1 常用评估指标

  • 准确率(Accuracy):预测正确的样本数占总样本数的比例。

  • 精确率(Precision):预测为正类的样本中实际为正类的比例。

  • 召回率(Recall):实际为正类的样本中预测为正类的比例。

  • F1分数:精确率和召回率的调和平均值,综合考虑了精确率和召回率。

通过这些评估指标,我们可以全面地评价决策树模型的性能,选择最适合问题的模型。


👏觉得文章对自己有用的宝子可以收藏文章并给小编点个赞!

👏想了解更多统计学、数据分析、数据开发、数据治理、机器学习算法、深度学习等有关知识的宝子们,可以关注小编,希望以后我们一起成长!

 

相关文章:

机器学习_13 决策树知识总结

决策树是一种直观且强大的机器学习算法,广泛应用于分类和回归任务。它通过树状结构的决策规则来建模数据,易于理解和解释。今天,我们就来深入探讨决策树的原理、实现和应用。 一、决策树的基本概念 1.1 决策树的工作原理 决策树是一种基于…...

Linux 命令行编辑快捷键

初学者在Linux命令窗口(终端)敲命令时,肯定觉得通过输入一串一串的字符的方式来控制计算是效率很低。 但是Linux命令解释器(Shell)是有很多快捷键的,熟练掌握可以极大的提高操作效率。 下面列出最常用的快捷…...

智能马达保护器:为工业电机安全运行保驾护航

在工业生产中,电动机作为核心动力设备,其稳定运行直接关系到生产效率与安全性。然而,复杂的工况环境、频繁启停和突发负载变化,常导致电机面临过载、缺相、短路等故障风险。安科瑞智能马达保护器凭借其智能化、高精度、多功能的设…...

-bash:/usr/bin/rm: Argument list too long 解决办法

问题概述 小文件日志太多导致无法使用rm命令,因为命令行参数列表的长度超过了系统允许的最大值。 需要删除/tmp目录下的所有文件,文件数量比较多。 ls -lt /tmp | wc -l 5682452 解决方法如下: 使用find -exec 遍历,然后执行删…...

深度集成DeepSeek大模型:WebSocket流式聊天实现

目录 5分钟快速接入DeepSeek大模型:WebSocket实时聊天指南创建应用开发后端代码 (Python/Node.js)结语 5分钟快速接入DeepSeek大模型:WebSocket实时聊天指南 创建应用 访问DeepSeek官网 前往 DeepSeek官网。如果还没有账号,需要先注册一个。…...

Python函数的函数名250217

函数名其实就是一个变量,这个变量就是代指函数而已函数也可以被哈希,所以函数名也可以当作集合中的元素,也可作为字典的key值 # 将函数作为字典中的值,可以避免写大量的if...else语句 def fun1():return 123 def fun2():return 4…...

QT基础二、信号和槽

一、什么是信号和槽? 1、简述 在Qt框架中,信号和槽(Signals and Slots) 是一种用于对象间通信的机制。它是一种非常强大且灵活的设计模式,广泛应用于事件驱动编程中。信号和槽机制允许对象之间以松耦合的方式进行交互…...

MongoDB between ... and ... 操作

个人博客地址:​​​​​​​MongoDB between ... and ... 操作 | 一张假钞的真实世界 MongoDB中类似SQL的between and操作可以采用如下语法: db.collection.find( { field: { $gt: value1, $lt: value2 } } );...

C++虚函数:解锁多态的“动态密码

C虚函数:解锁多态的“动态密码” 开篇小故事:遥控器的“智能按钮” 假设你有一个万能遥控器,上面只有一个“开关”按钮: 按下时,电视会开机,空调会制冷,电灯会亮起。同一个按钮,却…...

【深度学习】计算机视觉(CV)-目标检测-Faster R-CNN —— 高精度目标检测算法

1.什么是 Faster R-CNN? Faster R-CNN(Region-based Convolutional Neural Network) 是 目标检测(Object Detection) 领域的一种 双阶段(Two-Stage) 深度学习方法,由 Ross Girshick…...

Blazor-父子组件传递任意参数

在我们从父组件传参数给子组件时,可以通过子组件定义的[Parameter]特性的公开属性进行传值,但是当我们需要传递多个值的时候,就需要通过[Parameter]特性定义多个属性,有没有更简便的方式? 我们可以使用定义 IDictionar…...

【原创】vue-element-admin-plus完成编辑页面中嵌套列表功能

前言 vue-element-admin-plus对于复杂业务的支持程度确实不怎么样,我这里就遇到了编辑页面中还要嵌套列表的真实案例,比如字典,主字典嵌套子信息,类似于一个树状结构。目前vue-element-admin-plus给出的例子是无法满足这个需求的…...

【深度学习】计算机视觉(CV)-目标检测-DETR(DEtection TRansformer)—— 基于 Transformer 的端到端目标检测

1.什么是 DETR? DETR(DEtection TRansformer) 是 Facebook AI(FAIR)于 2020 年提出的 端到端目标检测算法,它基于 Transformer 架构,消除了 Faster R-CNN、YOLO 等方法中的 候选框(…...

DeepSeek教unity------MessagePack-02

内置支持类型: 对象序列化 MessagePack for C# 可以序列化你自己定义的公共类或结构体类型。默认情况下,可序列化的类型必须用 [MessagePackObject] 属性进行注解,成员需要用 [Key] 属性进行注解。键可以是索引(整数)…...

【达梦数据库】disql工具参数绑定

前言 在达梦数据库的使用过程中尽管管理工具很好用,但是命令行工具还是有着得天独厚的优势,但是在参数绑定方面就没有管理工具做的更加完美,现在就汇总下disql 工具参数绑定的常用几种方式 disql 参数绑定 使用 ? select * from v$dm_in…...

H5应用抓包及调试技巧

由于图片和格式解析问题,可前往 阅读原文 在现代移动互联网时代,H5 应用以其跨平台、轻量化、快速迭代的特性,成为移动开发的重要一环。然而,随着功能的复杂化和用户体验要求的提升,H5应用的调试也面临着诸多挑战&…...

Django后台新建管理员

在 Django 中,新建管理员用户通常涉及使用 Django 自带的命令行工具 manage.py。以下是具体步骤: 前提条件 Django 项目已创建:确保你已经创建了一个 Django 项目和应用。数据库已迁移:确保你已经运行了 python manage.py migra…...

输入网址到网页显示,发生了什么?

从今天起,我准备在网上输出自己的八股了 浏览器解析URL: 根据URL解析 请求协议(http),请求的服务器(www.baidu.com),请求的文件路径(可以省略),解…...

Coredump-N:sprintf写越界

最近遇到一个sanitizer检查出来的问题; unsigned long abc = 0xffffffffffffffff; char link[8] = {0}; sprintf(link, "%u", abc);这段代码存在潜在问题。 数据类型不匹配: abc 是一个 unsigned long 类型...

自学Java-面向对象高级(final、单例类、枚举类、抽象类、接口)

自学Java-面向对象高级(final、单例类、枚举类、抽象类、接口) 一、final关键字1、认识final关键字2、final修饰变量的注意3、常量 二、单例类(设计模式)1、设计模式的概念2、单例设计模式3、单例类有很多形式4、懒汉式单例类5、小…...

[LeetCode力扣hot100]-二叉树相关手撕题

简单 94.中序遍历 就说左子树-根-右子树顺序,之前也有二叉树相关的文章,基本上递归为主,这里用栈等方式实现下。 用到:栈 注意上面给出节点的基本结构,如左右,val指等 /*** Definition for a binary t…...

docker下部署kong+consul+konga 报错问题处理

前言: 由于在docker下部署一些项目比较特殊,特别是网络这一块,如果没有搞清楚,是很容易出问题的。 先上docker-compose 编排 这里的docker-compose for kong可以在 kong-compose 获取代码 version: 3.9x-kong-config:&kong…...

网络优化工作流程

DT路测 移动测试(Drive Test) CQT 定点测试(通信质量测试) DT 测试不能体现实际话务质量:回音、串音等网络问题不能通过 DT 测试发现,因此 CQT 拨打测试是 DT 测试很好的补充,也是目前室内外测…...

[题解]2024CCPC重庆站-小 C 的神秘图形

Sources:K - 小 C 的神秘图形Abstract:给定正整数 n ( 1 ≤ n ≤ 1 0 5 ) n(1\le n\le 10^5) n(1≤n≤105),三进制字符串 n 1 , n 2 ( ∣ n 1 ∣ ∣ n 2 ∣ n ) n_1,n_2(|n_1||n_2|n) n1​,n2​(∣n1​∣∣n2​∣n),按如下方法…...

React入门 - 0.React简介

React入门 - React简介 A Brief Introduction to React By JacksonML 1. 关于React React是一个知名的Web框架。众所周知,jQuery, Angular, Vue等框架都曾闪亮登场,并且,都仍然在全球市场占有一席之地。React这个颇有担当的新锐&#xff0…...

hive全量迁移脚本

#!/bin/bash #场景:数据在同一库下,并且hive是内部表(前缀的hdfs地址是相同的)#1.读取一个文件,获取表名#echo "时间$dt_jian_2-------------------------" >> /home/hadoop/qianyi_zengliang/rs.txt#…...

SpringCloud系列教程:微服务的未来(二十四)Direct交换机、Topic交换机、声明队列交换机

前言 在现代消息队列系统中,交换机是实现消息传递和路由的核心组件。本文将重点探讨三种常见的交换机类型:Direct交换机、Topic交换机和声明队列交换机。通过对这三种交换机的详细分析,我们将学习它们的工作原理、应用场景以及如何在实际项目…...

Sojson高级加密技术科普

1. 引言 什么是Sojson? Sojson是一款用于JavaScript代码加密与混淆的工具,它能够有效保护前端代码的知识产权,避免开发者的心血被随意窃取。 为什么需要代码加密? 在当今的互联网环境下,代码被轻易复制、篡改或逆向…...

mysql多主集群 galera cluster for mysql 8安装配置启动重启集群

[TOC] 一、安装mysql 1、安装 系统环境: Ubuntu 18.04 64位 MySQL 8.0.19 下载MySQL APT安装配置包 首先访问 https://dev.mysql.com/downloads/repo/apt/ 获取配置包下载地址 wget https://dev.mysql.com/get/mysql-apt-config_0.8.14-1_all.deb sudo dpkg -i mysq…...

gitte远程仓库修改后,本地没有更新,本地与远程仓库不一致

问题 :gitte远程仓库修改后,本地没有更新,本地与远程仓库不一致 现象: [cxqiZwz9fjj2ssnshikw14avaZ rpc]$ git push Username for https://gitee.com: beihangya Password for https://beihangyagitee.com: To https://gitee.c…...