当前位置: 首页 > news >正文

24/8/8算法笔记 决策树构建鸢尾花

决策树是一种由算法自动设计的模型。在机器学习中,构建决策树的过程通常遵循以下步骤:

  1. 特征选择:算法会评估每个特征,并选择一个特征作为节点分裂的依据。这个选择基于某种准则,如信息增益(ID3算法)或Gini不纯度(CART算法)。

  2. 最佳分裂点确定:算法会计算每个特征的所有可能分裂点,并选择一个使得不纯度最小(或信息增益最大)的分裂点。

  3. 递归分裂:在选择了特征和分裂点后,算法会递归地对数据集的每个子集重复上述过程,直到满足停止条件。

  4. 停止条件:停止条件可以是多种因素,例如:

    • 数据集的不纯度低于某个阈值。
    • 达到预设的最大树深度。
    • 节点中的样本数量低于某个阈值。
    • 没有更多的特征可以用来分裂。
  5. 剪枝:为了防止过拟合,算法可能会采用剪枝技术来减少树的复杂度。这包括预剪枝(在生长过程中限制树的大小)和后剪枝(先生长整棵树,然后从底部剪除不必要的分支)。

  6. 输出模型:最终,算法会输出一个决策树模型,该模型可以通过一系列的问题(特征和分裂点)来对新的数据点进行分类。

首先导入库和数据,分割数据集,创建 DecisionTreeClassifier 的实例并使用训练集数据对其进行训练。预测分数

import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn import datasets
import graphviz
from sklearn.model_selection import train_test_split
from sklearn import treeiris = datasets.load_iris()
X = iris['data']
y = iris['target']feature_names = iris['feature_names']X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state =256)model = DecisionTreeClassifier()
model.fit(X_train,y_train)print('测试数据得分',model.score(X_test,y_test))print('算法预测结果',model.predict(X_test))
print('真实结果    ',y_test)

#逻辑斯蒂回归中,手动计算过概率
model.predict_proba(X_test)

构建决策树

dot_data = tree.export_graphviz(model,filled=True,rounded=True,feature_names=feature_names)graphviz.Source(dot_data)

我们可以分析出构建的决策树使用了以下特征和策略:

  1. 特征选择:决策树使用了鸢尾花数据集中的以下特征:

    • petal length (cm):花瓣长度
    • petal width (cm):花瓣宽度
    • sepal width (cm):萼片宽度
  2. 分裂准则:决策树的每个节点都基于某个特征的阈值进行分裂,例如 "petal length (cm) <= 2.45" 表示如果花瓣长度小于或等于2.45厘米,则按照这个条件进行数据的分裂。

  3. Gini不纯度:每个节点都显示了Gini不纯度值,这是衡量数据集纯度的指标。Gini不纯度越低,表示数据集的纯度越高。例如,一个节点显示 "gini = 0.666" 表示该节点的不纯度较高,而 "gini = 0.0" 表示该节点的样本全部属于同一类别。

  4. 样本数量:每个节点都显示了该节点下的样本数量,例如 "samples = 120" 表示该节点下有120个样本。

  5. 类别分布:每个节点都显示了该节点下各个类别的样本数量,例如 "value = [39, 39, 42]" 表示该节点下有39个样本属于第一类,39个样本属于第二类,42个样本属于第三类。

  6. 递归分裂:决策树通过递归的方式进行分裂,直到满足停止条件,例如Gini不纯度降至0(所有样本属于同一类别)或者达到预设的最大深度。

  7. 停止条件:当一个节点的Gini不纯度降至0,或者样本数量很少时,分裂会停止。例如,"gini = 0.0" 表示该节点下的所有样本都属于同一类别,不需要进一步分裂。

  8. 特征重要性:从截图中可以看出,花瓣长度和宽度的特征在多个节点中被用作分裂准则,这表明这些特征对于分类可能更为重要。

  9. 树的深度:从截图中可以看出,树的深度相对较浅,这意味着模型可能没有过拟合,但也可能没有捕捉到数据的所有特征。

  10. 预测结果:最终,每个叶节点都会给出一个预测结果,通常是多数投票的结果。

相关文章:

24/8/8算法笔记 决策树构建鸢尾花

决策树是一种由算法自动设计的模型。在机器学习中&#xff0c;构建决策树的过程通常遵循以下步骤&#xff1a; 特征选择&#xff1a;算法会评估每个特征&#xff0c;并选择一个特征作为节点分裂的依据。这个选择基于某种准则&#xff0c;如信息增益&#xff08;ID3算法&#xf…...

数据库扩展新篇章:主流分库分表中间件全解析

摘要&#xff1a; 随着企业数据量的激增&#xff0c;传统的单体数据库架构已经无法满足日益增长的性能需求和数据管理复杂性。分库分表技术作为解决这一问题的有效手段&#xff0c;通过将数据水平或垂直地分散到多个数据库中&#xff0c;提高了系统的扩展性和处理能力。本文将详…...

python看图片猜价格游戏,frame 和PhotoImage的使用

import tkinter.messagebox import tkinter import randomwindow tkinter.Tk()window.geometry(800x400)window.title(猜数字游戏)good_price random.randint(10, 100) input_price random.randint(1, 100)def sumit():global good_priceif entry.get() "" or en…...

未来展望:等保测评在网络安全领域的持续创新与发展

在数字化浪潮席卷全球的今天&#xff0c;网络安全已成为维护国家安全、社会稳定和经济发展的关键基石。作为网络安全保障体系的核心组成部分&#xff0c;等级保护测评&#xff08;简称“等保测评”&#xff09;在应对日益复杂多变的网络威胁中发挥着不可替代的作用。展望未来&a…...

构建深度学习驱动的多目标检测系统:YOLO模型及应用

随着计算机视觉技术的飞速发展&#xff0c;多目标检测在各种实际应用中发挥着越来越重要的作用。本文将j简单介绍如何构建一个基于深度学习的多目标检测系统&#xff0c;包括数据准备、模型训练、UI界面开发和部署的完整流程。如有部署的想法&#xff0c;想要&#xff08;UI界面…...

算法刷题笔记 染色法判定二分图(染色法例题 C++实现)

文章目录 题目描述二分图介绍和基本思路实现代码&#xff08;C&#xff09; 题目描述 给定一个n个点m条边的无向图&#xff0c;图中可能存在重边和自环。请你判断这个图是否是二分图。 输入格式 第一行包含两个整数n和m。接下来m行&#xff0c;每行包含两个整数u和v&#xf…...

在Ubuntu上安装OpenBLAS和Eigen

安装 openblas 直接使用 apt-get 命令即可安装&#xff1a; sudo apt-get install libopenblas-dev检查是否安装成功&#xff0c;可以用下面的示例代码 example.cpp&#xff1a; #include <stdio.h> #include <stdlib.h> #include "cblas.h"int main(…...

Vue前端面试基础(一)

Vue面试题目详解可以涵盖多个方面&#xff0c;从基础知识到高级特性&#xff0c;再到实际应用和性能优化等。以下是一些常见的Vue面试题目及其详解&#xff1a; 1. Vue双向绑定原理 详解&#xff1a; Vue的双向绑定原理是通过数据劫持结合发布者-订阅者模式实现的。Vue在内部…...

使用Gitlab实现monorepo多项目CICD

CI/CD是什么 CI/CD&#xff08;Continuous Intergration/Continuous Delpoy&#xff09;&#xff0c;即持续集成/持续部署&#xff0c;或称为持续集成/持续交付&#xff0c;作为一套面向开发和运维团队的解决方案&#xff0c;CI/CD 主要解决集成新代码和向用户频繁交付应用的问…...

设计模式实战:银行账户管理系统的设计与实现

问题描述 设计一个银行账户管理系统,支持不同类型的账户(如储蓄账户、支票账户)进行存取款操作,并能够在账户余额发生变化时通知相关观察者(如用户、银行系统)。系统需要确保账户操作的灵活性和可扩展性。 设计分析 策略模式 策略模式定义了一系列算法,并将每个算法…...

⭕️【论文阅读】《Interactive Class-Agnostic Object Counting》

[2309.05277] Interactive Class-Agnostic Object Counting (arxiv.org) code&#xff1a; cvlab-stonybrook/ICACount: [ICCV23] Official Pytorch Implementation of Interactive Class-Agnostic Object Counting (github.com) 目录 Abstract Abstract 我们提出了一个新…...

高效的编程学习方法和技巧

编程小白如何成为大神&#xff1f;大学新生的最佳入门攻略 编程已成为当代大学生的必备技能&#xff0c;但面对众多编程语言和学习资源&#xff0c;新生们常常感到迷茫。如何选择适合自己的编程语言&#xff1f;如何制定有效的学习计划&#xff1f;如何避免常见的学习陷阱&…...

sublime text插件开发

手工开发了一些ST的py插件&#xff0c;记录过程中遇到的一些问题。 ST3/ST4 begin_edit问题 报错&#xff1a; begin_edit() missing 2 required positional arguments: edit_token and cmdST3时已经不能直接调view.begin_edit方法了&#xff0c;需要通过runCommandTextComm…...

【Linux网络】网络层协议:IP

本篇博客整理了 TCP/IP 分层模型中网络层的 IP 协议&#xff0c;旨在让读者更加深入理解网络协议栈的设计和网络编程。 目录 一、网络层 二、IP 报头 1&#xff09;报头与有效载荷的分离 2&#xff09;有效载荷的上交 3&#xff09;源 IP 与目的 IP 4&#xff09;生存时间…...

分布式接口文档聚合,Solon 是怎么做的?

1、分布式接口文档聚合&#xff0c;是什么&#xff1f; 如果你有 “22” 个不同的服务&#xff08;比如微服务&#xff09;&#xff0c;每个服务都有自己的接口文档。每个服务的文档各自打开&#xff0c;估计你会觉得很麻烦的&#xff1f; 再如果&#xff0c;它们是用 openap…...

多尺度病理图像纹理特征作为肺腺癌预后预测的新指标|文献精读·24-08-09

小罗碎碎念 这一期推文分享的文献是2022年发表于 Journal of Translational Medicine 的一篇文章&#xff0c;目前IF6.1。 这篇文章值得刚入门病理AI领域的老师/同学仔细研读&#xff0c;因为思路清晰&#xff0c;该讲到的流程基本都涉及了&#xff0c;详细讲述了病理图像的各种…...

RAG+Agent项目实践系列:基于本地菜谱知识库的大语言模型RAG+Agent的解决方案设计和实现

RAG+Agent项目实践系列:基于本地菜谱知识库的大语言模型RAG+Agent的解决方案设计和实现 为 A 项目构建一个基于菜谱知识库的问答机器人,由业务方提供一系列菜谱知识库和公司概况介绍材料,根据这些知识库要求实现一个问答机器人: 实现用户对于机器人自我身份和公司情况的回…...

JupyterNotebook添加Anaconda中已有的虚拟环境

比如&#xff0c;在Acaconde中存在一个我已经配置好的虚拟环境pose,现在我想在Jupyter中使用它 那么可以使用ipython kernel install --user --name 你要添加的环境 添加到Jupyter中。 对于Jupyter中已有的代码&#xff0c;就可以在Kernel - chanage kernel中改变内核。...

利用vscode-icons-js在Vue3项目中实现文件图标展示

背景&#xff1a; 在开发文件管理系统或类似的项目时&#xff0c;我们常常需要根据文件类型展示对应的文件图标&#xff0c;这样可以提高用户体验。本文将介绍如何在Vue3项目中利用vscode-icons-js库&#xff0c;实现类似VSCode的文件图标展示效果。 先看效果&#xff1a; 一…...

某赛通电子文档安全管理系统 CDGAuthoriseTempletService1 SQL注入漏洞复现(XVE-2024-19611)

0x01 产品简介 某赛通电子文档安全管理系统(简称:CDG)是一款电子文档安全加密软件,该系统利用驱动层透明加密技术,通过对电子文档的加密保护,防止内部员工泄密和外部人员非法窃取企业核心重要数据资产,对电子文档进行全生命周期防护,系统具有透明加密、主动加密、智能…...

云原生核心技术 (7/12): K8s 核心概念白话解读(上):Pod 和 Deployment 究竟是什么?

大家好&#xff0c;欢迎来到《云原生核心技术》系列的第七篇&#xff01; 在上一篇&#xff0c;我们成功地使用 Minikube 或 kind 在自己的电脑上搭建起了一个迷你但功能完备的 Kubernetes 集群。现在&#xff0c;我们就像一个拥有了一块崭新数字土地的农场主&#xff0c;是时…...

Cursor实现用excel数据填充word模版的方法

cursor主页&#xff1a;https://www.cursor.com/ 任务目标&#xff1a;把excel格式的数据里的单元格&#xff0c;按照某一个固定模版填充到word中 文章目录 注意事项逐步生成程序1. 确定格式2. 调试程序 注意事项 直接给一个excel文件和最终呈现的word文件的示例&#xff0c;…...

学校招生小程序源码介绍

基于ThinkPHPFastAdminUniApp开发的学校招生小程序源码&#xff0c;专为学校招生场景量身打造&#xff0c;功能实用且操作便捷。 从技术架构来看&#xff0c;ThinkPHP提供稳定可靠的后台服务&#xff0c;FastAdmin加速开发流程&#xff0c;UniApp则保障小程序在多端有良好的兼…...

Typeerror: cannot read properties of undefined (reading ‘XXX‘)

最近需要在离线机器上运行软件&#xff0c;所以得把软件用docker打包起来&#xff0c;大部分功能都没问题&#xff0c;出了一个奇怪的事情。同样的代码&#xff0c;在本机上用vscode可以运行起来&#xff0c;但是打包之后在docker里出现了问题。使用的是dialog组件&#xff0c;…...

laravel8+vue3.0+element-plus搭建方法

创建 laravel8 项目 composer create-project --prefer-dist laravel/laravel laravel8 8.* 安装 laravel/ui composer require laravel/ui 修改 package.json 文件 "devDependencies": {"vue/compiler-sfc": "^3.0.7","axios": …...

Android第十三次面试总结(四大 组件基础)

Activity生命周期和四大启动模式详解 一、Activity 生命周期 Activity 的生命周期由一系列回调方法组成&#xff0c;用于管理其创建、可见性、焦点和销毁过程。以下是核心方法及其调用时机&#xff1a; ​onCreate()​​ ​调用时机​&#xff1a;Activity 首次创建时调用。​…...

《C++ 模板》

目录 函数模板 类模板 非类型模板参数 模板特化 函数模板特化 类模板的特化 模板&#xff0c;就像一个模具&#xff0c;里面可以将不同类型的材料做成一个形状&#xff0c;其分为函数模板和类模板。 函数模板 函数模板可以简化函数重载的代码。格式&#xff1a;templa…...

AI+无人机如何守护濒危物种?YOLOv8实现95%精准识别

【导读】 野生动物监测在理解和保护生态系统中发挥着至关重要的作用。然而&#xff0c;传统的野生动物观察方法往往耗时耗力、成本高昂且范围有限。无人机的出现为野生动物监测提供了有前景的替代方案&#xff0c;能够实现大范围覆盖并远程采集数据。尽管具备这些优势&#xf…...

【JVM】Java虚拟机(二)——垃圾回收

目录 一、如何判断对象可以回收 &#xff08;一&#xff09;引用计数法 &#xff08;二&#xff09;可达性分析算法 二、垃圾回收算法 &#xff08;一&#xff09;标记清除 &#xff08;二&#xff09;标记整理 &#xff08;三&#xff09;复制 &#xff08;四&#xff…...

多模态图像修复系统:基于深度学习的图片修复实现

多模态图像修复系统:基于深度学习的图片修复实现 1. 系统概述 本系统使用多模态大模型(Stable Diffusion Inpainting)实现图像修复功能,结合文本描述和图片输入,对指定区域进行内容修复。系统包含完整的数据处理、模型训练、推理部署流程。 import torch import numpy …...