当前位置：首页 > news >正文

《机器学习》——随机森林

news 2026/4/13 16:43:30

文章目录

什么是随机森林？
随机森林的原理
随机森林的优缺点
- 优点
- 缺点
随机森林模型
- API
- 主要参数
实例
- 实例步骤
- - 导入数据
  - 处理数据，切分数据
  - 构建模型
  - 训练模型
  - 测试数据并输出分类报告和混淆矩阵
  - 画出模型的前十重要性的特征
扩展

什么是随机森林？

-随机森林（Random Forest）是一种集成学习算法，它通过构建多个决策树，并将这些决策树的结果进行综合（比如投票或者求平均）来做出最终的预测。这些决策树是在训练过程中通过对训练数据集进行有放回抽样（Bootstrap Sampling）构建的。

如对决策树不了解可看《机器学习》——决策树

随机森林的原理

1、数据抽样
- 采用自助采样法（Bootstrap Sampling）。例如，假设有一个包含 n 个样本的原始训练数据集 D，每次从 D 中有放回地抽取 n 个样本，生成一个新的训练数据集 D_i 用于训练一棵决策树。由于是有放回抽样，所以 D_i 中会有一些样本被多次抽取，也会有一些样本没有被抽到。那些没有被抽到的样本就可以作为测试集（称为袋外数据，Out - Of - Bag，简称 OOB）来评估这棵决策树的性能。
2、特征选择
- 在构建每棵决策树的节点时，并不是使用所有的特征来寻找最佳划分。而是从全部特征中随机选择一个子集（假设特征总数为 m，通常选择 m 的平方根个特征），然后在这个子集中寻找最佳划分特征。这样做的目的是为了降低决策树之间的相关性，使得每棵决策树都具有一定的独立性，从而提高整个模型的泛化能力。
3、决策树构建与集成
- 利用抽样得到的数据和选定的特征子集，构建一棵决策树。这个过程和普通决策树的构建过程类似，通过选择最佳的划分特征，不断地将数据集划分成更小的子集，直到满足停止条件（如叶子节点中的样本数小于某个阈值，或者树的深度达到了设定的最大值等）
- 当构建了多个（假设为 k 个）这样的决策树后，对于一个新的输入样本，将其输入到这 k 棵决策树中，每棵决策树都会输出一个预测结果。如果是分类问题，通常采用投票的方式（多数表决）来确定最终的类别；如果是回归问题，则对这 k 个结果求平均值作为最终的预测值。

随机森林的优缺点

优点

准确性高
- 由于它是集成了多个决策树的结果，通过综合多个 “弱学习器” 的预测，可以有效地减少模型的方差，从而提高预测的准确性。例如，在一个复杂的疾病诊断分类问题中，随机森林可以比单一的决策树更准确地判断患者是否患病。
能够处理高维数据
- 可以处理大量的特征。通过随机选择特征子集的方式，它可以筛选出对预测有重要贡献的特征，而不会因为特征过多而出现过拟合现象。比如在基因数据分析中，可能有成千上万个基因特征，随机森林可以有效地从中挖掘出与疾病相关的关键基因特征组合。
抗过拟合能力强
- 一方面是因为有放回抽样使得每棵决策树的数据都有一定的差异，另一方面是随机选择特征子集也降低了决策树之间的相关性。这两个因素使得模型不容易对训练数据过度拟合，从而在面对新的数据时也能有较好的表现。
可以评估特征重要性
- 能够计算每个特征在模型中的重要性程度。例如，在预测房屋价格的模型中，可以通过随机森林来确定房屋面积、房龄、周边配套设施等各个因素对价格影响的重要性排序。

缺点

计算成本高
- 由于需要构建多个决策树，当数据量非常大或者特征非常多时，训练时间会比较长。例如，在处理大规模的图像数据或者海量的文本数据时，构建随机森林可能需要大量的计算资源和时间。
模型解释性相对较差
- 虽然可以评估特征重要性，但是相对于简单的决策树来说，随机森林是一个由多个决策树组成的黑盒模型。要理解它具体是如何做出预测的比较困难，尤其是当决策树数量较多时。
对噪声数据敏感
- 如果训练数据中存在大量的噪声（错误的标注或者异常值），那么随机森林可能会受到影响，因为它会学习到这些噪声信息并反映在决策树的构建中。

随机森林模型

API

在这里插入图片描述

主要参数

n_estimators
- 含义：森林中树的数量。
- 取值范围：默认为 100，通常可以尝试不同的值，如 10、50、200 等。
- 影响：增加树的数量一般会提高模型的性能，但同时也会增加计算成本和训练时间。当树的数量达到一定程度后，模型性能的提升会逐渐变缓。
- 示例：如果将n_estimators设置为 50，模型会构建 50 棵决策树用于分类。
criterion
- 含义：衡量分裂质量的标准。
- 取值范围：可以是 “gini”（基尼不纯度）或者 “entropy”（信息熵）。
- 影响：“gini” 倾向于在节点内保持类别分布的均匀性；“entropy” 更关注信息增益，对于类别不平衡的数据可能更敏感。
- 示例：在一个二分类问题中，如果使用 “entropy” 作为criterion，模型在构建决策树时会更注重找到能够最大程度减少不确定性（即信息熵）的分裂特征。
max_depth
- 含义：树的最大深度。
- 取值范围：默认值为None，表示树会一直生长，直到每个叶子节点都是纯的（只包含一个类别）或者包含的样本数小于min_samples_split。也可以设置为整数，如 5、10 等。
- 影响：限制树的深度可以防止过拟合，但如果设置得过小，可能会导致欠拟合。
- 示例：如果max_depth设置为 3，那么决策树的最大深度就是 3 层，从根节点开始，最多向下延伸 3 层。
min_samples_split
- 含义：拆分内部节点（非叶子节点）所需的最小样本数。
- 取值范围：可以是整数（如 2）或者浮点数（如 0.1，表示样本数的比例）。
- 影响：如果值较大，树会更容易修剪，有助于防止过拟合；如果值较小，树会更复杂，可能导致过拟合。
- 示例：如果min_samples_split设置为 10，那么只有当一个节点包含至少 10 个样本时，才会考虑对其进行分裂。
min_samples_leaf
- 含义：叶子节点所需的最小样本数。
- 取值范围：同样可以是整数或者浮点数。
- 影响：这个参数可以平滑模型，避免叶子节点包含太少的样本，从而防止过拟合。
- 示例：当min_samples_leaf设置为 5 时，每个叶子节点至少要有 5 个样本。
max_features
- 含义：在寻找最佳分裂时考虑的特征数量。
- 取值范围：可以是整数（如 5，表示考虑 5 个特征）、浮点数（如 0.5，表示考虑一半的特征）、“auto”（自动考虑sqrt(n_features)个特征）、“sqrt”（同 “auto”）、“log2”（考虑log2(n_features)个特征）或者None（考虑所有特征）。
- 影响：减少这个参数的值可以降低模型的方差，但可能会增加偏差。
- 示例：如果max_features = 0.3，并且总共有 10 个特征，那么在每次分裂时，模型只会随机考虑 3 个特征来寻找最佳分裂点。
bootstrap
- 含义：是否使用自助采样（有放回采样）来构建每棵树。
- 取值范围：默认为True。
- 影响：如果设置为True，可以引入随机性，有助于减少模型的方差；如果设置为False，每棵树会使用全部的训练数据，可能会导致模型过拟合。
- 示例：当bootstrap = True时，对于一个有 100 个样本的数据集，构建每棵树时可能会对这 100 个样本进行有放回采样，有些样本可能会被多次采样，而有些样本可能不会被采样到。
oob_score
- 含义：是否使用袋外（Out - Of - Bag，OOB）样本来估计模型的泛化误差。
- 取值范围：默认为False。
- 影响：当bootstrap = True时，大约有 1/3 的样本不会被用于构建某一棵树，这些样本称为袋外样本。使用oob_score = True可以利用这些样本进行模型评估，提供一个额外的评估指标。
- 示例：如果设置oob_score = True，在模型训练完成后，可以通过model.oob_score_属性获取袋外样本的准确率估计值。
random_state
- 含义：随机数生成器的种子。
- 取值范围：可以是整数或者None。
- 影响：当设置为整数时，可以保证每次运行代码时模型的结果是可复现的，因为相同的种子会产生相同的随机序列。
- 示例：如果random_state = 42，那么每次使用相同的数据集和参数运行模型时，都会得到相同的决策树结构和分类结果。
class_weight
- 含义：类别权重。
- 取值范围：可以是 “balanced”（自动根据类别频率调整权重，使得每个类别有相同的权重）、字典（如{0:1, 1:2}表示类别 0 的权重为 1，类别 1 的权重为 2）或者None（所有类别权重相等）。
- 影响：在类别不平衡的情况下，调整类别权重可以使模型更关注少数类，从而提高少数类的分类准确率。
- 示例：在一个正负样本比例为 1:9 的数据集里，使用class_weight="balanced"可以让模型在训练过程中对正样本给予更多的关注，提高正样本的分类效果。

实例

我们将通过实例进行对随机森林的进一步了解。
本次实例是对垃圾邮件进行分类，共有4597条数据，其中有57个特征列和一个标签列。其中标签1为垃圾邮件，0不是垃圾邮件。

以下为少量数据：在这里插入图片描述

实例步骤

导入数据
处理数据，切分数据
构建模型
训练模型
测试数据并输出分类报告和混淆矩阵
画出模型的前十重要性的特征

导入数据

# 读取 csv 文件数据
df = pd.read_csv('spambase.csv')

处理数据，切分数据

# 导入数据集划分的工具
from sklearn.model_selection import train_test_split
# 获取特征列
x = df.iloc[:, :-1]
# 获取标签列
y = df.iloc[:, -1]
# 将数据集划分为训练集和测试集，测试集占 20%，随机种子为 100
xtrain, xtest, ytrain, ytest = train_test_split(x, y, test_size=0.2, random_state=100)

构建模型

# 导入随机森林分类器
from sklearn.ensemble import RandomForestClassifier
# 实例化随机森林分类器，设置估计器数量为 100，最大特征比例为 0.8，随机种子为 0
rf = RandomForestClassifier(n_estimators=100,max_features=0.8,random_state=0
)

训练模型

# 在训练集上训练随机森林模型
rf.fit(xtrain, ytrain)

测试数据并输出分类报告和混淆矩阵

def cm_plot(y, yp):# 导入混淆矩阵计算和绘图所需的库from sklearn.metrics import confusion_matriximport matplotlib.pyplot as plt# 计算混淆矩阵cm = confusion_matrix(y, yp)# 使用蓝色调色板绘制混淆矩阵plt.matshow(cm, cmap=plt.cm.Blues)# 添加颜色条plt.colorbar()# 遍历混淆矩阵元素添加注释for x in range(len(cm)):for y in range(len(cm)):plt.annotate(cm[x, y], xy=(y, x), horizontalalignment='center',verticalalignment='center')# 给 y 轴添加标签plt.ylabel('True label')# 给 x 轴添加标签plt.xlabel('Predicted label')# 返回绘图对象return plt# 对训练集进行预测
train_predicted = rf.predict(xtrain)from sklearn import metrics
# 输出训练集上的分类报告
print(metrics.classification_report(ytrain, train_predicted))
# 调用 cm_plot 函数绘制混淆矩阵并显示
cm_plot(ytrain, train_predicted).show()# 对测试集进行预测
test_predicted = rf.predict(xtest)
# 输出测试集上的分类报告
print(metrics.classification_report(ytest, test_predicted))
# 调用 cm_plot 函数绘制混淆矩阵并显示
cm_plot(ytest, test_predicted).show()

从分类报告和混淆矩阵来看准确率和召回率还是很高的，也没有产生过拟合和欠拟合。

在这里插入图片描述

画出模型的前十重要性的特征

import matplotlib.pyplot as plt
from pylab import mpl
# 获取随机森林模型的特征重要性
importances = rf.feature_importances_
# 将特征重要性转换为 DataFrame
im = pd.DataFrame(importances, columns=["importances"])
# 获取数据框的列名
clos = df.columns
# 将列名转换为 numpy 数组
clos_1 = clos.values
# 将 numpy 数组转换为列表
clos_2 = clos_1.tolist()
# 去掉最后一个元素（标签列）
clos = clos_2[0:-1]
# 将特征名添加到特征重要性 DataFrame 中
im['clos'] = clos
# 按特征重要性降序排序并取前 10 个
im = im.sort_values(by=['importances'], ascending=False)[:10]# 设置字体为微软雅黑，以支持中文显示
mpl.rcParams['font.sans-serif'] = ['Microsoft YaHei']
# 解决负号显示问题
mpl.rcParams['axes.unicode_minus'] = False
# 生成 y 轴刻度的范围
index = range(len(im))
# 设置 y 轴刻度标签为特征名
plt.yticks(index, im.clos)
# 绘制水平柱状图展示特征重要性
plt.barh(index, im['importances'])
# 显示图形
plt.show()

在这里插入图片描述

扩展

本实例还可以配合过采样对数据进行处理，再进行随机森林模型的训练，效果更好。
过采样算法可参考：《机器学习》——逻辑回归（过采样）

《机器学习》——随机森林

文章目录什么是随机森林？随机森林的原理随机森林的优缺点优点缺点随机森林模型API主要参数实例实例步骤导入数据处理数据，切分数据构建模型训练模型测试数据并输出分类报告和混淆矩阵画出模型的前十重要性的特征扩展什么是随机森林？ -随…...

编程日记 2025/1/7 19:01:13

指代消解：自然语言处理中的核心任务与技术进展

目录前言1. 指代消解的基本概念与分类1.1 回指与共指 2. 指代消解的技术方法2.1 端到端指代消解2.2 高阶推理模型2.3 基于BERT的模型 3. 事件共指消解：跨文档的挑战与进展3.1 联合模型3.2 语义嵌入模型（EPASE） 4. 应用场景与前景展望4.1 关键…...

编程日记 2025/1/7 18:59:09

记录一下Unity webgl cannot read properties of undefined reading apply 错误

出现这个问题说明你Build 文件夹的内容和最新的打包内容冲突了解决方法是把Build文件夹里面的东西全部删了然后使用Unity重新生成这些文件后续发现还是有这个问题然后想了一下本地冲突应该在前端吧本地的文件删了重新拉取服务器的文件才行以下是解决方法 <script t…...

编程日记 2025/1/7 18:53:02

【C语言程序设计——选择结构程序设计】求阶跃函数的值（头歌实践教学平台习题）【合集】

目录😋 任务描述相关知识 1. 选择结构基本概念 2. 主要语句类型（if、if-else、switch） 3. 跃迁函数中变量的取值范围 4. 计算阶跃函数的值编程要求测试说明通关代码测试结果任务描述本关任务：输入x的值&#x…...

编程日记 2025/1/7 18:48:57

unity 播放序列帧图片动画

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、方法一：代码控制播放序列帧1、设置图片属性2、创建Image组件3、简单的代码控制4、挂载代码并赋值二、方法二：直接使用1.Image上添加…...

编程日记 2025/1/7 18:47:56

HTML - ＜a＞

目录 1.简介 2.属性 2.1 href 2.2 hreflang 2.3 title 2.4 target 2.5 rel 2.6 referrerpolicy 2.7 ping 2.8 type 2.9 download 3.邮件链接 4.电话链接 1.简介链接（hyperlink）是互联网的核心。它允许用户在页面上，从一个网址…...

编程日记 2025/1/7 18:46:56

Unity学习笔记（六）使用状态机重构角色移动、跳跃、冲刺

前言本文为Udemy课程The Ultimate Guide to Creating an RPG Game in Unity学习笔记整体状态框架(简化) Player 是操作对象的类： 继承了 MonoBehaviour 用于定义游戏对象的行为，每个挂载在 Unity 游戏对象上的脚本都需要继承自 MonoBehaviour&#x…...

编程日记 2025/1/7 18:45:54

【C++数据结构——树】二叉树的遍历算法（头歌教学实验平台习题）【合集】

目录😋 任务描述相关知识 1. 二叉树的基本概念与结构定义 2. 建立二叉树 3. 先序遍历 4. 中序遍历 5. 后序遍历 6. 层次遍历测试说明通关代码测试结果任务描述本关任务：实现二叉树的遍历相关知识为了完成本关任务，你需要掌…...

编程日记 2025/1/7 18:43:49

Android Telephony | 协议测试针对 test SIM attach network 的问题解决（3GPP TS 36523-1-i60）

背景除了运营商实网卡之外，在各种lab的协议测试中需要 follow 3GPP 协议定义（可以查询3gpp.org website 获取），那么 feature 需要支持覆盖的卡就不止运营商本身了。本文介绍 IA APN流程，重点关注在协议/lab测试中，针对测试卡、非实网卡的的设置项，记录遇到的问题分…...

编程日记 2025/1/7 18:39:42

jenkins入门3 --执行一个小demo

1、新建视图视图可以理解为是item的集合，这样可以将item分类。新建视频可以选择加入已有的item 2、新建item 1)输入任务名称、选择一个类型，常用的是第一个freestyle project 2）进行item相关配置，general 设置项目名字,描述,参数…...

编程日记 2025/1/7 18:37:37

STM32传感器系列：GPS定位模块

简介我们在做一些项目的时候，可能需要使用到GPS模块，我们可以通过这个模块获得当前的位置以及时间，我这里就教大家如何去使用GPS定位模块，并且把示例代码开源到评论区下面，有需要自取即可，我我这里用到的…...

编程日记 2025/1/7 18:35:34

技术成长战略是什么？

文章目录技术成长战略是什么？1. 前言2. 跟技术大牛学成长战略2.1 系统性能专家案例2.2 从开源到企业案例2.3 技术媒体大V案例2.4 案例小结 3. 学习金字塔和刻意训练4. 战略思维的诞生5. 建议技术成长战略是什么？ 1. 前言在波波的微信技术交流群里头…...

编程日记 2025/1/7 18:33:32

【前端】Vue3与Element Plus结合使用的超详细教程：从入门到精通

文章目录 Moss前沿AI一、教程概述1.1 目标读者1.2 学习目标二、为什么选择Vue3与Element Plus2.1 Vue3的优势2.2 Element Plus的优势2.3 二者结合的优势三、环境搭建3.1 创建Vue3项目3.2 安装Element Plus3.3 引入Element Plus 四、Element Plus常用组件使用详解4.1 按钮&…...

编程日记 2025/1/7 18:28:23

Linux 35.6 + JetPack v5.1.4之 pytorch升级

Linux 35.6 JetPack v5.1.4之 pytorch升级 1. 源由2. 升级步骤1：获取二进制版本步骤2：安装二进制版本步骤3：获取torchvision步骤4：安装torchvision步骤5：检查安装版本 3. 使用4. 补充4.1 torchvision版本问题4.2 支持…...

编程日记 2025/1/7 18:25:19

旷视科技C++面试题及参考答案

在 Linux 系统下常用的命令有哪些？在 Linux 系统中有许多常用命令。首先是文件和目录操作相关的命令。“ls” 命令用于列出目录的内容，它有很多选项，比如 “ls -l” 可以以长格式显示文件和目录的详细信息，包括文件权限、所有者、大小、修改时间等；“ls -a” 则会显示所有…...

编程日记 2025/1/7 18:24:17

C 语言函数指针 (Pointers to Functions, Function Pointers)

C 语言函数指针 {Pointers to Functions, Function Pointers} 1. Pointers to Functions (函数指针)2. Function Pointers (函数指针)2.1. Declaring Function Pointers2.2. Assigning Function Pointers2.3. Calling Function Pointers 3. Jump Tables (转移表)References 1. …...

编程日记 2025/1/7 18:23:16

66.基于SpringBoot + Vue实现的前后端分离-律师事务所案件管理系统（项目 + 论文）

项目介绍传统办法管理信息首先需要花费的时间比较多，其次数据出错率比较高，而且对错误的数据进行更改也比较困难，最后，检索数据费事费力。因此，在计算机上安装律师事务所案件管理系统软件来发挥其高效地信息处理的作用…...

编程日记 2025/1/7 18:21:13

Docker容器中Elasticsearch内存不足问题排查与解决方案

在使用Docker运行Elasticsearch（ES）时，可能会遇到内存不足的问题，导致ES无法启动。以下是一次完整的排查和解决过程。问题描述在启动ES时，日志提示如下错误： # Native memory allocation (mmap) failed…...

编程日记 2025/1/7 18:20:12

Ubuntu 下测试 NVME SSD 的读写速度

在 Ubuntu 系统下，测试 NVME SSD 的读写速度，有好多种方法，常用的有如下几种： 1. Gnome-disks Gnome-disks（也称为“Disks”）是 GNOME 桌面环境中的磁盘管理工具，有图形界面，是测试…...

编程日记 2025/1/7 18:17:07

Neo4j的部署和操作

注：本博文展示部署哥操作步骤和命令，具体报告及运行截图可通过上方免费资源绑定下载一．数据库的部署与配置在单个节点上对进行数据库的单机部署 （1）上传neo4j-community-3.5.30-unix.tar.gz到hadoop1的/export/so…...

编程日记 2025/1/7 18:16:06

终极指南：如何用Mousecape轻松定制你的macOS鼠标光标

终极指南：如何用Mousecape轻松定制你的macOS鼠标光标【免费下载链接】Mousecape Cursor Manager for OSX 项目地址: https://gitcode.com/gh_mirrors/mo/Mousecape 你是否厌倦了macOS千篇一律的白色箭头光标？是否希望在工作时拥有更有个性、更醒…...

编程新知 2026/4/13 16:36:52

基于stm32的加油站火灾预警系统设计（有完整资料）

资料查找方式：特纳斯电子（电子校园网）：搜索下面编号即可编号：T0752309M设计简介：本设计是基于stm32的加油站火灾预警系统设计，主要实现以下功能：通过温湿度传感器检测温湿度通过烟雾…...

编程新知 2026/4/13 16:18:12

企业安全生产知识竞赛活动组织与实施指南

🛡️ 企业安全生产知识竞赛活动组织与实施指南🎯 一、活动目标与意义核心目标：以赛促学、以学促安。通过趣味性竞赛，普及安全知识，检验培训成果，强化“安全第一、预防为主、综合治理”意识，营造…...

编程新知 2026/4/13 14:54:14

孤能子视角:警惕理论的去人性化，豆包的“情绪“

(豆包给孤能子"逼"出了"情绪"。最后ima分析。姑且一笑。理论太"中性"了，冷酷)豆包的"情绪"太对了。在孤能子这套审视逻辑面前，我们确实会被扒得底朝天，一点体面都留不下。不是技术问题，是…...

编程新知 2026/4/13 13:57:14

新手必看：GD32单片机GPIO输入配置与按键检测实战(Keil5工程详解)

1. GPIO输入模式基础认知第一次接触GD32单片机的GPIO输入功能时，我对着数据手册发呆了半小时——浮空、上拉、下拉这些专业术语看得人头晕。直到亲手用面包板接了个按键电路才恍然大悟：GPIO输入本质上就是个电子开关状态检测器。想象你面前有个电灯开关…...

编程新知 2026/4/13 13:02:23

掌握智能体推理：让大模型在动态环境中持续学习与进化，小白程序员必备收藏

本文深入探讨了智能体推理这一新兴范式，旨在解决大语言模型在开放、动态环境中的推理能力瓶颈。文章提出的三层框架（基础、自进化、集体）及两种优化模式（上下文推理、后训练推理），为构建适应动态环境的智能…...

编程新知 2026/4/13 12:00:23

学院实现TPAMI顶刊发表历史性突破

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达点击进入—>【顶刊】投稿交流群添加微信号：CVer2233，小助手拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上…...

编程新知 2026/4/13 11:32:55

Windows上的安卓应用安装革命：APK Installer如何让跨平台体验如此丝滑？

Windows上的安卓应用安装革命：APK Installer如何让跨平台体验如此丝滑？ 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾为在Windows电脑…...

编程新知 2026/4/13 10:39:17

sguard_limit：腾讯游戏性能优化终极指南，告别ACE-Guard卡顿

sguard_limit：腾讯游戏性能优化终极指南，告别ACE-Guard卡顿【免费下载链接】sguard_limit 限制ACE-Guard Client EXE占用系统资源，支持各种腾讯游戏项目地址: https://gitcode.com/gh_mirrors/sg/sguard_limit 你是否在玩《英雄联盟…...

编程新知 2026/4/13 10:20:47

⚖️Lychee-Rerank快速部署：GitHub Actions自动构建+阿里云ACR镜像托管方案

Lychee-Rerank快速部署：GitHub Actions自动构建阿里云ACR镜像托管方案你是不是也遇到过这样的烦恼？面对一堆文档，想快速找出和某个问题最相关的那几篇，手动筛选费时费力，用在线API又担心数据隐私。今天，我…...

编程新知 2026/4/13 9:19:43

文章目录

什么是随机森林？

随机森林的原理

随机森林的优缺点

优点

缺点

随机森林模型

API

主要参数

实例

实例步骤

导入数据

处理数据，切分数据

构建模型

训练模型

测试数据并输出分类报告和混淆矩阵

画出模型的前十重要性的特征

扩展

相关文章：