当前位置：首页 > news >正文

集成学习方法之随机森林-入门

news 2026/2/9 15:47:40

1、什么是集成学习方法

集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型，各自独立地学习和作出预测。这些预测最后结合成组合预测，因此优于任何一个单分类的做出预测。

2、什么是随机森林

在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。
在这里插入图片描述

例如, 如果你训练了5个树, 其中有4个树的结果是True, 1个数的结果是False, 那么最终投票结果就是True

在这里插入图片描述

3、随机森林原理过程

学习算法根据下列算法而建造每棵树：

用N来表示训练用例（样本）的个数，M表示特征数目。
- 1、一次随机选出一个样本，重复N次，（有可能出现重复的样本）
- 2、随机去选出m个特征, m <<M，建立决策树
  - 采取bootstrap抽样

可以按下面例子理解：
随机：随机生成的训练集和特征值

两个随机
- 训练集随机 - N个样本中随机有放回的抽样N个
  - bootstrap 随机有放回抽样
    [1, 2, 3, 4, 5]
    新的树的训练集
    [2, 2, 3, 1, 5]
- 特征随机 - 从M个特征中随机抽取m个特征
  - M >> m
  - 降维

3.1、为什么采用BootStrap抽样

为什么要随机抽样训练集？
- 如果不进行随机抽样，每棵树的训练集都一样，那么最终训练出的树分类结果也是完全一样的
为什么要有放回地抽样？
- 如果不是有放回的抽样，那么每棵树的训练样本都是不同的，都是没有交集的，这样每棵树都是“有偏的”，都是绝对“片面的”（当然这样说可能不对），也就是说每棵树训练出来都是有很大的差异的；而随机森林最后分类取决于多棵树（弱分类器）的投票表决。

3.2 、API

class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, bootstrap=True, random_state=None, min_samples_split=2)
随机森林分类器
n_estimators：integer，optional（default = 10）森林里的树木数量120,200,300,500,800,1200
- criteria：string，可选（default =“gini”）分割特征的测量方法
- max_depth：integer或None，可选（默认=无）树的最大深度 5,8,15,25,30
- max_features="auto”,每个决策树的最大特征数量
  - If “auto”, then max_features=sqrt(n_features).
  - If “sqrt”, then max_features=sqrt(n_features) (same as “auto”).
  - If “log2”, then max_features=log2(n_features).
  - If None, then max_features=n_features.
- bootstrap：boolean，optional（default = True）是否在构建树时使用放回抽样
- min_samples_split:节点划分最少样本数
- min_samples_leaf:叶子节点的最小样本数
超参数：n_estimator, max_depth, min_samples_split,min_samples_leaf

3.3 代码

随机森林去进行预测

# 随机森林去进行预测
rf = RandomForestClassifier()param = {"n_estimators": [120,200,300,500,800,1200], "max_depth": [5, 8, 15, 25, 30]}# 超参数调优
gc = GridSearchCV(rf, param_grid=param, cv=2)gc.fit(x_train, y_train)print("随机森林预测的准确率为：", gc.score(x_test, y_test))

4、总结

在当前所有算法中，具有极好的准确率
能够有效地运行在大数据集上，处理具有高维特征的输入样本，而且不需要降维
能够评估各个特征在分类问题上的重要性

集成学习方法之随机森林-入门

1、什么是集成学习方法集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型，各自独立地学习和作出预测。这些预测最后结合成组合预测，因此优于任何一个单分类的做出预测。 2、什么是随机森林在机器学习中&…...

编程日记 2023/10/24 5:49:29

blender怎么在一个面上对半切割（不影响别的面）

1进入编辑模式 2.在面选择模式下，选中该物体需要切割成两半的面。 3.按K这个快捷键（切记，必须得用快捷键，不用的话没办法调出第一个绿色切割点），将切割点移动到需要切割的起始边，按住Shift键不放…...

编程日记 2023/10/24 5:48:27

vue3中使用vue3-pdf-app和使用浏览器内置的PDF插件浏览器PDF文件

文章目录先准备一个PDF使用浏览器内置的PDF插件预览PDF在HTML中使用浏览器插件预览PDFVscode使用插件发布服务后直接通过URL地址访问PDF可使用的浏览器在vue3项目中预览PDF文件vue3项目也是可以通过URL地址访问文件的vue3中使用浏览器内置的PDF插件预览PDF代码如下所示&#…...

编程日记 2023/10/24 5:47:26

fastadmin 后台添加视频

做个记录,字段自行对照解决 1.add.html <div class"form-group"><label class"control-label col-xs-12 col-sm-2">{:__(Video)}:</label><div class"col-xs-12 col-sm-8"><div class"input-group">&l…...

编程日记 2023/10/24 5:46:25

TFHE 的全同态模结构（FHE Module Structure）

参考文献： [CGGI20] Chillotti I, Gama N, Georgieva M, et al. TFHE: fast fully homomorphic encryption over the torus[J]. Journal of Cryptology, 2020, 33(1): 34-91.[BGGJ20] Boura C, Gama N, Georgieva M, et al. Chimera: Combining ring-lwe-based ful…...

编程日记 2023/10/24 5:45:24

rapidocr_paddle[gpu]：GPU端推理库来了

简介 rapidocr_paddle系列包是基于PaddlePaddle框架作为推理引擎的，支持CPU和GPU上推理。值得说明的是，这个包和PaddleOCR相比，代码基本都是一样的，只不过这个库将里面核心推理代码抽了出来，更加精简而已。推荐GPU上…...

编程日记 2023/10/24 5:44:23

PKU 概率论+数理统计+建模期中考复习总结

目录计算条件概率计算概率（放回与不放回）生成随机数算法Linear Congruential Method判断是否是full period Uniformity (test of frequency)1.Chi-Square testmethodreminderexample 2.Kolmogorov-Sminov testmethodexample Independence (test of auto…...

编程日记 2023/10/24 5:43:23

Kubernetes技术与架构-网络 3

Kubernetes集群支持为Pod或者Service申请IPV4或者IPV6的地址空间。 kube-apiserver --service-cluster-ip-range<IPv4 CIDR>,<IPv6 CIDR> kube-controller-manager --cluster-cidr<IPv4 CIDR>,<IPv6 CIDR> --service-cluster-ip-range<IPv4 CI…...

编程日记 2023/10/24 5:42:22

pycharm转移缓存目录

原来的缓存目录为C:\Users\86176\AppData\Local\JetBrains，各种配置文件、缓存文件随着pycharm的使用堆积在这里，导致C盘逐渐爆满。因此需要将缓存目录转移至D盘。首先需要了解缓存目录的知识。 PyCharm 和其他 JetBrains 的 IDE 通常会有两个关键的目…...

编程日记 2023/10/24 5:41:21

python 2组list绘制拟合曲线、计算拟合方程 R^2

import matplotlib.pyplot as plt import numpy as np # plt.rcParams[font.family] SimHei # 指定使用中文字体，例如宋体（SimHei）def Curve_Fitting(x, y, deg):parameter np.polyfit(x, y, deg) #拟合deg次多项式p np.poly1d(paramet…...

编程日记 2023/10/24 5:40:20

Vue单页面应用（SPA）怎么做SEO

在Vue单页面应用（SPA）中，由于内容的动态加载和路由切换，搜索引擎可能无法直接获取和索引页面的内容。不过，你可以采取一些策略来优化SEO，使你的Vue单页面应用在搜索引擎中更好地被索引和展示： 1：使用预渲染（Prerendering）或服务器端渲染（Server-Side Rendering，SS…...

编程日记 2023/10/24 5:39:19

简述【关系型数据库】

“关系型数据库”是博主在复习时做题遇到的知识点，用于简单扫盲关系型数据库简称RDBMS，是依据关系模型来创建的数据库所谓“关系模型”就是“一对一、一对多、多对多”等关系模型。关系模型就是指二维表格模型，因而一个关系型数据库就是由二…...

编程日记 2023/10/24 5:38:17

LVS之DR模式（最常见的LVS负载方式，直接路由模式）

一、LVS-DR模式的数据流向 1、负载均衡器lvs调度器：只负责请求和转发到后端的真实服务器，但是响应结果，由后端服务器直接转发给客户端，不需要经过调度器的处理，减轻lvs调度器的负担，提高性能和稳定性二、…...

编程日记 2023/10/24 5:37:16

006：vue使用lottie-web实现web动画

文章目录 1. 简介2. 优点3. 效果4. 安装使用5. lottie-web 常用方法6. Lottie-web 常用的事件 1. 简介官方介绍：Lottie 是一个库，可以解析使用AE制作的动画（需要用bodymovie导出为json格式）,支持web、ios、android、flutter和re…...

编程日记 2023/10/24 5:36:15

Java NIO

Java NIO 一，介绍 Java NIO（New IO）是 JDK 1.4 引入的一组新的 I/O API，用于支持非阻塞式 I/O 操作。相比传统的 Java IO API，NIO 提供了更快、更灵活的 I/O 操作方式，可以用于构建高性能网络应用程序。 …...

编程日记 2023/10/24 5:35:14

人机交互中的数字与文字

人机交互是指人类与计算机系统之间进行信息交流和操作的过程。在人机交互中，数字和文字被广泛应用于界面设计、输入输出、交流和信息展示等方面。数字在人机交互中常用于表示数据、数量和参数等信息。通过数字，我们可以输入和输出各种数值，进…...

编程日记 2023/10/24 5:34:14

C++11新特性之十六：std::tie

在c 11标准库中，加入了std::tie，在c 14中改进，方便使用。其与std::tuple关系密切， 主要目的是方便地使用std::tuple。 std::tie函数的作用就是从元素引用中生成一个std::tuple元组，其在头文件<tuple>中定义&…...

编程日记 2023/10/24 5:33:12

今天是1024节日，作为一个程序员，我想表达我对Java和詹姆斯·高斯林（James Gosling）的感激之情

今天是1024节日我感谢Java感谢詹姆斯高斯林今天是1024节日，作为一个程序员，我想表达我对Java和詹姆斯高斯林（James Gosling）的感激之情。Java是一门伟大的编程语言，而詹姆斯高斯林是它的创造者之一。首先&#xf…...

编程日记 2023/10/24 5:31:09

众和策略：华为汽车概念活跃，圣龙股份斩获12板，华峰超纤涨10%

华为轿车概念23日盘中再度生动，到发稿，华峰超纤涨超10%，佛山照明、圣龙股份、隆基机械、银宝山新等涨停，赛力斯涨近6%。值得注意的是，圣龙股份已接连12个交易日涨停。昨日晚间，圣龙股份宣布前三季度成果…...

编程日记 2023/10/24 5:30:08

关于一篇“范式详解”博文的批注

本篇文章是对于下面这个链接中的文章的批注。这篇文章详细讲述了第一、二、三范式和BCNF范式，希望我的这篇文章能帮助您更好的理解这篇优秀的博文详解第一范式、第二范式、第三范式、BCNF范式-CSDN博客 “范式”批注这样理解范式的概念：一张数据表的表…...

编程日记 2023/10/24 5:29:06

利用ngx_stream_return_module构建简易 TCP/UDP 响应网关

一、模块概述 ngx_stream_return_module 提供了一个极简的指令： return <value>;在收到客户端连接后，立即将 <value> 写回并关闭连接。<value> 支持内嵌文本和内置变量（如 $time_iso8601、$remote_addr 等）&a…...

编程新知 2025/9/21 0:49:02

Appium+python自动化（十六）- ADB命令

简介 Android 调试桥(adb)是多种用途的工具，该工具可以帮助你你管理设备或模拟器的状态。 adb ( Android Debug Bridge)是一个通用命令行工具，其允许您与模拟器实例或连接的 Android 设备进行通信。它可为各种设备操作提供便利，如安装和调试…...

编程新知 2026/1/21 18:20:51

MVC 数据库

MVC 数据库引言在软件开发领域，Model-View-Controller（MVC）是一种流行的软件架构模式，它将应用程序分为三个核心组件：模型（Model）、视图（View）和控制器（Controller）。这种模式有助于提高代码的可维护性和可扩展性。本文将深入探讨MVC架构与数据库之间的关系，以…...

编程新知 2025/10/30 4:58:11

如何在看板中有效管理突发紧急任务

在看板中有效管理突发紧急任务需要：设立专门的紧急任务通道、重新调整任务优先级、保持适度的WIP（Work-in-Progress）弹性、优化任务处理流程、提高团队应对突发情况的敏捷性。其中，设立专门的紧急任务通道尤为重要，这能…...

编程新知 2026/2/3 22:50:06

【android bluetooth 框架分析 04】【bt-framework 层详解 1】【BluetoothProperties介绍】

1. BluetoothProperties介绍 libsysprop/srcs/android/sysprop/BluetoothProperties.sysprop BluetoothProperties.sysprop 是 Android AOSP 中的一种系统属性定义文件（System Property Definition File），用于声明和管理 Bluetooth 模块相…...

编程新知 2025/11/22 12:02:51

【JavaSE】绘图与事件入门学习笔记

-Java绘图坐标体系坐标体系-介绍坐标原点位于左上角，以像素为单位。在Java坐标系中,第一个是x坐标,表示当前位置为水平方向，距离坐标原点x个像素;第二个是y坐标，表示当前位置为垂直方向，距离坐标原点y个像素。坐标体系-像素 …...

编程新知 2025/12/19 20:46:15

Element Plus 表单(el-form)中关于正整数输入的校验规则

目录 1 单个正整数输入1.1 模板1.2 校验规则 2 两个正整数输入（联动）2.1 模板2.2 校验规则2.3 CSS 1 单个正整数输入 1.1 模板 <el-formref"formRef":model"formData":rules"formRules"label-width"150px"…...

编程新知 2025/11/10 19:08:45