当前位置：首页 > news >正文

深入理解Scikit-learn：决策树与随机森林算法详解

news 2026/5/23 10:24:11

用sklearn实现决策树与随机森林

1. 简介

决策树和随机森林是机器学习中的两种强大算法。决策树通过学习数据特征与标签之间的规则来进行预测，而随机森林则是由多棵决策树组成的集成算法，能有效提高模型的稳定性和准确性。

2. 安装sklearn

首先，确保安装了scikit-learn库。如果没有安装，可以使用以下命令进行安装：

pip install scikit-learn

3. 导入必要的库

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import matplotlib.pyplot as plt
from sklearn import tree

4. 加载数据集

我们将使用一个示例数据集来展示决策树和随机森林的实现。这里我们使用sklearn自带的iris数据集。

from sklearn.datasets import load_iris# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target# 分割数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

5. 决策树分类器

5.1 训练决策树模型

# 初始化决策树分类器
dt_classifier = DecisionTreeClassifier(random_state=42)# 训练模型
dt_classifier.fit(X_train, y_train)

5.2 模型预测与评估

# 进行预测
y_pred_dt = dt_classifier.predict(X_test)# 评估模型
accuracy_dt = accuracy_score(y_test, y_pred_dt)
conf_matrix_dt = confusion_matrix(y_test, y_pred_dt)
class_report_dt = classification_report(y_test, y_pred_dt)print(f"决策树分类器准确率: {accuracy_dt}")
print("决策树分类器混淆矩阵:\n", conf_matrix_dt)
print("决策树分类器分类报告:\n", class_report_dt)

5.3 可视化决策树

plt.figure(figsize=(20,10))
tree.plot_tree(dt_classifier, filled=True, feature_names=iris.feature_names, class_names=iris.target_names)
plt.show()

6. 随机森林分类器

6.1 训练随机森林模型

# 初始化随机森林分类器
rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42)# 训练模型
rf_classifier.fit(X_train, y_train)

6.2 模型预测与评估

# 进行预测
y_pred_rf = rf_classifier.predict(X_test)# 评估模型
accuracy_rf = accuracy_score(y_test, y_pred_rf)
conf_matrix_rf = confusion_matrix(y_test, y_pred_rf)
class_report_rf = classification_report(y_test, y_pred_rf)print(f"随机森林分类器准确率: {accuracy_rf}")
print("随机森林分类器混淆矩阵:\n", conf_matrix_rf)
print("随机森林分类器分类报告:\n", class_report_rf)

7. 比较与总结

决策树和随机森林各有优缺点。决策树简单易理解，但容易过拟合；随机森林通过集成多棵决策树提高了模型的稳定性和泛化能力。通过上述步骤，我们可以看到在相同的数据集上，随机森林通常比单棵决策树表现更好。

8. 进一步阅读

scikit-learn Documentation: Decision Trees
scikit-learn Documentation: Random Forests

通过这篇教程，你应该已经掌握了如何使用sklearn实现和评估决策树与随机森林分类器。如果有任何问题或进一步的需求，请随时告诉我！

深入理解Scikit-learn：决策树与随机森林算法详解

用sklearn实现决策树与随机森林 1. 简介决策树和随机森林是机器学习中的两种强大算法。决策树通过学习数据特征与标签之间的规则来进行预测，而随机森林则是由多棵决策树组成的集成算法，能有效提高模型的稳定性和准确性。 2. 安装sklearn 首先&#…...

编程日记 2024/7/16 5:55:24

AutoHotKey自动热键(十一)下载SciTE4AutoHotkey-Plus的中文增强版脚本编辑器

关于AutoHotkey的专用编辑器, SciTE4AutoHotkey是一个免费的基于 SciTE 的 AutoHotkey 脚本编辑器,除了 DBGp 支持, 它还为 AutoHotkey 提供了语法高亮, 调用提示, 参数信息和自动完成, 以及其他拥有的编辑特性和辅助工具.XDebugClient 是一个基于 .NET Framework 2.0 的简单开…...

编程日记 2024/7/16 5:54:23

Halcon与C++之间的数据转换

HALCON的HTuple类型(元组)功能很强大，可以表示INT、double、string等多种类型数据。当元组中只有一个成员时，HTuple也可表示原子类型 1. haclon -> C //HTuple转int HTuple hTuple 1; int data1 hTuple[0].I(); // data1 1//HTuple转do…...

编程日记 2024/7/16 5:53:23

MybatisPlus 一些技巧

查询简化 SimpleQuery 有工具类 com.baomidou.mybatisplus.extension.toolkit.SimpleQuery 对 selectList 查询后的结果进行了封装，使其可以通过 Stream 流的方式进行处理，从而简化了 API 的调用。方法 list() 支持对一个列表提取某个字段&#xff…...

编程日记 2024/7/16 5:52:22

定制化服务发现：Eureka中服务实例偏好的高级配置

定制化服务发现：Eureka中服务实例偏好的高级配置在微服务架构中，服务实例的智能管理和优化是保证系统高效运行的关键。Eureka作为Netflix开源的服务注册与发现框架，提供了丰富的配置选项来满足不同场景下的需求。服务实例偏好配置允许开发者…...

编程日记 2024/7/16 5:51:20

【实战场景】MongoDB迁移的那些事

【实战场景】MongoDB迁移的那些事开篇词：干货篇【MongoDB迁移的方法】：1. 基于mongodump和mongorestore的迁移一、迁移前准备二、使用mongodump备份数据三、使用mongorestore还原数据四、注意事项 2. 基于MongoDB复制集的迁移一、迁移前准备二、配置新复…...

编程日记 2024/7/16 5:49:19

为什么要使用加密软件？

一、保护数据安全：加密软件通过复杂的加密算法对敏感数据进行加密处理，使得未经授权的人员即使获取了加密数据，也无法轻易解密和获取其中的内容。这极大地提高了数据在存储、传输和使用过程中的安全性。二、遵守法律法规：在许多国…...

编程日记 2024/7/16 5:48:18

k8s学习笔记——dashboard安装

重装了k8s集群后，重新安装k8s的仪表板，发现与以前安装不一样的地方。主要是镜像下载的问题，由于网络安全以及国外网站封锁的原因，现在很多镜像按照官方提供的仓库地址都下拉不下来，导致安装失败。我查了好几天&#xf…...

编程日记 2024/7/16 5:47:17

AI艺术创作：掌握Midjourney和DALL-E的技巧与策略

AI艺术创作：掌握Midjourney和DALL-E的技巧与策略 AI艺术创作正逐渐成为艺术家和创意工作者们探索新表达方式的重要工具。Midjourney和DALL-E是两款领先的AI绘画工具，它们各有独特的功能和优势。本文将详细介绍如何掌握这两款工具的使用技巧，…...

编程日记 2024/7/16 5:45:15

在Mac上免费恢复误删除的Word文档

Microsoft Word for Mac是一个有用的文字处理应用程序，它与Microsoft Office套件捆绑在一起。该软件的稳定版本包括 Word 2019、2016、2011 等。 Word for Mac 与 Apple Pages 兼容;这允许在不同的操作系统版本中使用Word文档，而不会遇到任何麻烦。与…...

编程日记 2024/7/16 5:44:14

HarmonyOS 屏幕适配设计

1. armonyOS 屏幕适配设计 1.1. 像素单位 （1）px (Pixels) px代表屏幕上的像素点，是手机屏幕分辨率的单位，即屏幕物理像素单位。 （2）vp (Viewport Percentage) vp是视口百分比单位，基于…...

编程日记 2024/7/16 5:43:13

Netfilter之连接跟踪（Connection Tracking）和反向 SNAT（Reverse SNAT）

连接跟踪（Connection Tracking） 连接跟踪是 Netfilter 框架中的一个功能，用于跟踪网络连接的状态和元数据。它使防火墙能够识别和处理数据包属于哪个连接，并在双向通信中正确匹配请求和响应数据包。工作原理建立连接&#xf…...

编程日记 2024/7/16 5:42:12

Linux下使用vs code离线安装各种插件

Linux下使用vs code离线安装各种插件 （1）手动下载插件插件市场 -> 搜索插件名 -> 右边栏 Download Extension （2）寻找安装目录 whereis code一般会出现两个目录，选择右边那个/usr/share/code code: /usr/b…...

编程日记 2024/7/16 5:41:11

【常见开源库的二次开发】基于openssl的加密与解密——Base58比特币钱包地址——算法分析（三）

目录： 目录： 一、base58(58进制) 1.1 什么是base58？ 1.2 辗转相除法 1.3 base58输出字节数： 二、源码分析： 2.1源代码： 2.2 算法思路介绍： 2.2.1 Base58编码过程： 2.1.2 Base58解码过…...

编程日记 2024/7/16 5:40:10

Linux操作系统——数据库

数据库 sun solaris gnu 1、分类： 大型中型小型 ORACLE MYSQL/MSSQL SQLITE DBII powdb 关系型数据库 2、名词： DB 数据库 select update database DBMS 数据…...

编程日记 2024/7/16 5:39:09

【数据结构与算法】希尔排序：基于插入排序的高效排序算法

💓 博客主页：倔强的石头的CSDN主页 📝Gitee主页：倔强的石头的gitee主页 ⏩ 文章专栏：《数据结构与算法》期待您的关注目录一、引言二、基本原理三、实现步骤四、C语言实现五、性能分析 1. 时间复杂度…...

编程日记 2024/7/16 5:38:08

关于正点原子的alpha开发板的启动函数（汇编，自己的认识）

我傻逼了，这里的注释还是不要用； 全部换成 /* */ 这里就分为两块，一部分是复位中断部分，第二部分就是IRQ部分（中断部分最重要） 我就围绕着两部分来展开我的认识首先声明全局 .global_start 在 ARM 架…...

编程日记 2024/7/16 5:37:07

Deep Layer Aggregation【方法部分解读】

摘要：视觉识别需要跨越从低到高的层次、从小到大的尺度以及从精细到粗略的分辨率的丰富表示。即使卷积网络的特征层次很深，单独的一层信息也不足够：复合和聚合这些表示可以改进对“是什么”和“在哪里”的推断。架构上的努力正在探索网络骨干的许多维度，设计更深或更宽的架…...

编程日记 2024/7/16 5:34:05

大数据面试SQL题-笔记01【运算符、条件查询、语法顺序、表连接】

大数据面试SQL题复习思路一网打尽！(文档见评论区)_哔哩哔哩_bilibiliHive SQL 大厂必考常用窗口函数及相关面试题大数据面试SQL题-笔记01【运算符、条件查询、语法顺序、表连接】大数据面试SQL题-笔记02【...】目录 01、力扣网-sql题 1、高频SQL50题&#xff08…...

编程日记 2024/7/16 5:33:04

零基础自学爬虫技术该从哪里开始入手？

零基础自学爬虫技术可以从以下几个方面入手： 一、学习基础编程语言 Python 是爬虫开发的首选语言，因此首先需要学习 Python 编程语言的基础知识。这包括： 语法基础：学习 Python 的基本语法，如变量定义、数据类型、控…...

编程日记 2024/7/16 5:32:03

功能子图检测技术在集成电路设计中的应用与优化

1. 功能子图检测技术概述在集成电路设计领域，功能子图检测是一项基础而关键的技术。简单来说，它就像是在一堆乐高积木搭建的复杂结构中，找出那些功能相同但拼法可能不同的组件模块。这项技术的核心任务是判断一个给定的子图Q是否是目标图G的…...

编程新知 2026/5/23 9:57:39

在fnOS飞牛NAS上部署宝塔+NocoBase低（零）代码平台的方法

在fnOS飞牛NAS上部署宝塔NocoBase低（零）代码平台的方法温馨提醒：本文全文免费，严禁盗用、二次收费行为！ 更新日志： 2026/03/29 首次发布 2026/05/22 1、新增通过systemd托管进程，实现重启后自…...

编程新知 2026/5/23 9:48:37

Maya glTF插件完整教程：从安装到Web 3D模型转换的终极指南

Maya glTF插件完整教程：从安装到Web 3D模型转换的终极指南【免费下载链接】maya-glTF glTF 2.0 exporter for Autodesk Maya 项目地址: https://gitcode.com/gh_mirrors/ma/maya-glTF 你是否正在寻找将Maya中的3D模型转换为现代Web应用所需格式的解决方案&a…...

编程新知 2026/5/23 9:32:45

【 linux 】来完成一个进度条吧

c语言是有缓冲区的，缓冲区刷新有三种方式，输入\n，程序结束后自动刷新，fflush（stdout）手动刷新。效果展示视觉上#是逐个往后加的，这是视觉欺骗。事实是每次#都是从头开始的，只不过计算…...

编程新知 2026/5/23 9:20:27

Linux服务器安全加固实战：SSH+防火墙+权限最小化三重防护

1. 这不是“加个密码就完事”的安全，而是让服务器真正扛住真实攻击的第一道防线很多人以为 Linux 安全加固就是改个 root 密码、关掉 telnet、再装个 fail2ban 就算交差了。我去年帮一家做跨境电商 SaaS 的客户做渗透复测时，他们运维同事就是这么干的——…...

编程新知 2026/5/23 9:01:18

嵌入式JavaScript混合开发：C与JS高效互调实践指南

1. 项目概述：当嵌入式遇上JavaScript最近几年，在嵌入式开发圈子里，一个老话题又有了新热度：用JavaScript来写嵌入式应用。这听起来有点“跨界”，毕竟传统印象里，嵌入式是C/C的天下，讲究的是对硬…...

编程新知 2026/5/23 7:29:32

深度学习-基于YOLOv8的香蕉成熟度检测系统 YOLOV8预训练模型如何训练香蕉成熟度检测数据集

深度学习-基于YOLOv8的香蕉成熟度检测系统，包括全部源码完整标注的数据集训练好的模型及训练结果项目运行教程内含 10000 张数据集，包括 [‘freshripe’, ‘freshunripe’, ‘overripe’, ‘ripe’, ‘rotten’, ‘unripe’]，6 类本项目…...

编程新知 2026/5/23 7:03:18

Triangle Splatting：可微分渲染中的三角形基元优化技术

1. Triangle Splatting：可微分渲染中的三角形基元革命在计算机图形学领域，三角形作为最基础的几何基元，长期以来一直是实时渲染管线的核心支柱。这种简单而强大的几何单元能够高效地表示复杂表面，得益于GPU硬件中专门的三角形处理…...

编程新知 2026/5/23 5:06:01

LEO卫星自愈网络：动态抗干扰与信号合并算法实践

1. 项目概述：LEO卫星自愈网络的设计挑战与创新方案在近地轨道（LEO）卫星通信领域，我们正面临着一个关键的技术矛盾：一方面，LEO卫星凭借其低延迟特性成为下一代全球通信网络的核心组成部分；另一方…...

编程新知 2026/5/23 4:59:54

AI如何重塑移动App开发：从功能交付到智能服务的范式跃迁

1. 项目概述：当手机App开发不再只是“写代码”，而变成一场数据驱动的智能进化“How AI and ML are Turning the Mobile App Development Industry into a Smart Industry?”——这个标题不是一句空泛的行业口号，而是我过去三年深度参与17个中…...

编程新知 2026/5/23 3:32:04