当前位置：首页 > news >正文

机器学习之随机森林算法实现和特征重要性排名可视化

news 2026/4/8 23:37:17

随机森林算法实现和特征重要性排名可视化

1 随机森林算法

1.1 概念

是一种基于树模型的集成学习方法，它通过在训练过程中构建多棵决策树，并对这些树的预测结果进行投票或平均，从而提高预测的准确性和稳定性。

1.2 主要特点

集成学习：随机森林通过组合多棵决策树来提高预测性能。每棵树都是一个弱学习器，随机森林将这些弱学习器集成为一个强学习器。
随机性：在构建每棵树时，随机森林采用了两种随机性：
- 样本随机性：从原始数据集中随机有放回地抽取一定比例的样本（通常为全部样本的约63.2%）来训练每棵树。
- 特征随机性：在每棵树的节点分裂时，从所有特征中随机选择一部分特征进行考虑。
抗过拟合：由于随机森林在构建每棵树时引入了随机性，使得模型具有很好的抗过拟合能力。
泛化能力：随机森林在很多问题上都有很好的表现，适用于分类和回归任务。
特征重要性评估：随机森林可以提供特征重要性的评估，有助于理解数据特征对模型预测的影响。

1.3 优缺点

优点
- 准确率高，抗噪声能力强
- 能处理高维度数据
- 易实现并行化计算
缺点
- 对时间、空间有一定要求

1.4 步骤

从原始数据集中随机有放回地抽取N个样本。
在每个节点分裂时，从所有特征中随机选择k个特征，然后选择最优的特征和分裂点。
重复步骤1和步骤2，直到达到预设的树的数量或深度。
对于分类问题，采用多数投票法来确定最终类别；对于回归问题，采用平均值来确定最终预测值。

1.5 函数及参数

1.5.1 函数导入

from sklearn.ensemble import RandomForestClassifier

1.5.2 参数

n_estimators: 决策树的数量，默认为100。增加数量可以提高性能，但也会使训练时间增加。
criterion: 衡量分裂质量的函数。默认是“gini”用于基尼不纯度，另一个选项是“entropy”用于信息增益。
max_depth: 树的最大深度。如果为None，则节点会扩展直到所有叶子都是纯的或者直到所有叶子包含小于min_samples_split个样本。限制树深度可以防止过拟合。
min_samples_split: 内部节点再划分所需的最小样本数，默认为2。
min_samples_leaf: 叶子节点最少样本数，默认为1。
min_weight_fraction_leaf: 叶子节点最小的权重分数，默认为0，即不考虑权重。
max_features: 寻找最佳分割时要考虑的特征数量。可以是特征数量的整数，或者小数表示的百分比，或者“auto”（特征数量的平方根），“sqrt”，“log2”。
max_leaf_nodes: 以最优的方式使用最大叶子节点数来增长树。如果为None，则叶子节点数量不受限制。
bootstrap: 是否在构建树时使用放回抽样，默认为True。
oob_score: 是否使用袋外样本来估计泛化精度，默认为False。
n_jobs: 并行运行工作的数量。如果为-1，则使用所有处理器。
random_state: 控制构建树时随机性的种子（用于 reproducibility）。
verbose: 控制树构建过程的冗余度。
warm_start: 当设置为True时，重用之前的解决方案以适应新数据，并在增加新的树时保留现有的树。
class_weight: 用于标定不同类别的权重，可以是一个字典或者“balanced”，默认为None。

这些参数中，n_estimators, max_depth, min_samples_split, min_samples_leaf, 和 max_features 是最常调整的超参数，以优化随机森林模型的表现。在使用随机森林时，通常需要通过交叉验证来选择这些参数的最佳值。

1.6 特征重要性排名

RandomForestClassifier().feature_importances_，返回值为ndarray数组

2 实际代码测试

数据：

在这里插入图片描述

可以看到各个率都很高
代码展示：

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix
from pylab import mpl
from sklearn.preprocessing import StandardScalerdata = pd.read_csv('creditcard.csv')
a = data[['Amount']]
b = data['Amount']
# z标准化处理Amount，再存Amount中
scaler = StandardScaler()
data['Amount'] = scaler.fit_transform(data[['Amount']])
# 删除time列
data = data.drop(['Time'],axis=1)
# 特征数据x,删除class列
x = data.drop(['Class'],axis=1)
# class为标签结果列
y = data.Classrfc = RandomForestClassifier(n_estimators=120,max_features=0.8,random_state=314,n_jobs=-1)
x_tr,x_te,y_tr,y_te = \train_test_split(x, y, test_size=0.2,random_state=314)
np.random.seed(seed=4)
# 随机种子
x_tr['Class'] = y_tr
data_tr = x_tr
pt_eg = data_tr[data_tr['Class'] == 0]
ng_eg = data_tr[data_tr['Class'] == 1]
pt_eg = pt_eg.sample(len(ng_eg))
data_c = pd.concat([pt_eg,ng_eg])
x_data_c = data_c.drop(['Class'],axis=1)
y_data_c = data_c['Class']
rfc.fit(x_data_c,y_data_c)
x_tr_pr = rfc.predict(x_data_c)
print(metrics.classification_report(y_data_c ,x_tr_pr))
x_te_pr = rfc.predict(x_te)
print(metrics.classification_report(y_te,x_te_pr))
# 排名
importances = rfc.feature_importances_
im = pd.DataFrame(importances,columns=['importances'])
clos = data.columns
clos_1 = clos.values
clos_2 = clos_1.tolist()
clos = clos_2[0:-1]
im['clos'] = clos
im = im.sort_values(by=['importances'],ascending=False)[:10]
# 中文
mpl.rcParams["font.sans-serif"] = ['Microsoft YaHei']
mpl.rcParams['axes.unicode_minus'] = False
index = range(len(im))
plt.yticks(index,im.clos)
plt.barh(index,im["importances"])
plt.show()

运行结果：
在这里插入图片描述

在这里插入图片描述

机器学习之随机森林算法实现和特征重要性排名可视化

随机森林算法实现和特征重要性排名可视化目录随机森林算法实现和特征重要性排名可视化1 随机森林算法1.1 概念1.2 主要特点1.3 优缺点1.4 步骤1.5 函数及参数1.5.1 函数导入1.5.2 参数 1.6 特征重要性排名 2 实际代码测试 1 随机森林算法 1.1 概念是一种基于树模型的集成学…...

编程日记 2025/1/9 20:34:41

网络安全图谱以及溯源算法

本文提出了一种网络攻击溯源框架，以及一种网络安全知识图谱，该图由六个部分组成，G <H，V，A，E，L，S，R>。 1|11.知识图网络知识图由六个部分组成&#xff0c…...

编程日记 2025/1/9 20:33:39

单片机-外部中断

中断是指 CPU 在处理某一事件 A 时，发生了另一事件 B，请求 CPU 迅速去处理(中断发生)；CPU 暂时停止当前的工作(中断响应)， 转去处理事件 B(中断服务)；待 CPU 将事件 B 处理完毕后，再回到原来事件 A 被中断的…...

编程日记 2025/1/9 20:32:38

《解锁计算机视觉智慧：编程实现图片场景文字描述的开源宝藏》

《解锁计算机视觉智慧：编程实现图片场景文字描述的开源宝藏》一、MiniGPT-4：小模型撬动大视觉理解（一）项目概览（二）核心亮点（三）上手体验二、ClipCap-Chinese：中文场景…...

编程日记 2025/1/9 20:31:37

onLoad 生命周期函数是否执行取决于跳转的方式和小程序的页面栈管理机制

文章目录 1. 页面跳转方式2. 你的场景分析3. 页面生命周期4. 总结5. 建议在微信小程序中，页面跳转时， onLoad 生命周期函数是否执行取决于跳转的方式和小程序的页面栈管理机制。以下是详细说明： 1. 页面跳转方式微信小程序提供了多种页面…...

编程日记 2025/1/9 20:27:28

Visio 画阀门符号：电动阀的画法

本篇文章介绍阀门，很多朋友在利用Visio绘画管道流程简图时，需要进行阀门符号的绘画，而Visio提供的阀门符号种类并不是很齐全。本篇文章给出电动阀的画法： 下图是液动阀的符号： 首先，找到“更多形状”中的…...

编程日记 2025/1/9 20:26:27

OOM排查思路

K8S 容器的云原生生态，改变了服务的交付方式，自愈能力和自动扩缩等功能简直不要太好用。有好的地方咱要夸，不好的地方咱也要说，真正的业务是部署于容器内部，而容器之外，又有一逻辑层 Pod 。对于容器和…...

编程日记 2025/1/9 20:25:26

《Spring Framework实战》10：4.1.4.2.详细的依赖和配置

欢迎观看《Spring Framework实战》视频教程集合 <list/>、<set/>、<map/>和<props/>元素分别设置Java集合类型list、set、map和properties的属性和参数。以下示例显示了如何使用它们： <bean id"moreComplexObject" class&qu…...

编程日记 2025/1/9 20:23:21

网络安全-XSS跨站脚本攻击（基础篇）

漏洞扫描的原理 1.跨站脚本攻击介绍 xss跨站脚本攻击： xSS 全称（Cross site Scripting ）跨站脚本攻击，是最常见的Web应用程序安全漏洞之一，位于OWASP top 10 2013/2017年度分别为第三名和第七名，XSS是指攻…...

编程日记 2025/1/9 20:21:18

Git的学习和常见问题

文章目录 1.初始化配置2.新建仓库3.添加和提交文件4.git reset 回退版本5.git diff 查看差异6.git rm 删除文件7.文件 .gitigonre8.克隆远程仓库9.将已有的本地仓库关联到远程仓库10.分支的基本操作11.解决合并冲突配置问题最近基于GeekHour的视频学习Git，记录了一…...

编程日记 2025/1/9 20:19:15

Flink源码解析之：Flink on k8s 客户端提交任务源码分析

Flink on k8s 客户端提交任务源码分析当我们需要在代码中提交Flink job到kubernetes上时，需要如何做呢？要引入什么第三方依赖？需要提供什么内容？flink是如何将job提交到k8s上的？经过了什么样的流程，内部有…...

编程日记 2025/1/9 20:15:09

STLG_02_02_MS SQL - SSMS的安装和使用

SQL Server Management Studio (SSMS) 是 Microsoft 提供的一个集成环境，用于管理、开发和维护 SQL Server 数据库和 Analysis Services 数据库。一、安装 SSMS 下载 SSMS: 访问 Microsoft 官方网站的 SSMS 下载页面。选择适合你操作系统的版本进行下载。SSMS 支持…...

编程日记 2025/1/9 20:14:07

git 常用命令和本地合并解决冲突

目录一、常用命令二、本地可视化合并分支解决冲突一、常用命令最近，使用mac电脑，无法直接使用小乌龟进行可视化操作，现在记录一些常用命令。拉取： git clone <git url> 仅拉起某个单独分支： git clo…...

编程日记 2025/1/9 20:10:04

ThinkPHP 8高效构建Web应用-获取请求对象

【图书介绍】《ThinkPHP 8高效构建Web应用》-CSDN博客《2025新书 ThinkPHP 8高效构建Web应用编程与应用开发丛书夏磊清华大学出版社教材书籍 9787302678236 ThinkPHP 8高效构建Web应用》【摘要书评试读】- 京东图书使用VS Code开发ThinkPHP项目-CSDN博客编程与应用开…...

编程日记 2025/1/9 20:03:57

机器人技术：ModbusTCP转CCLINKIE网关应用

在当今自动化生产与智能制造领域，ModbusTCP转CC-LinkIE网关KJ-MTCPZ-CCIES的应用正日益成为提升生产效率、实现设备间高效通信的重要技术手段。这一转换技术不仅打破了不同通信协议间的壁垒，还为机器人产品的应用提供了更为广阔的舞台。ModbusTCP作为一种…...

编程日记 2025/1/9 20:02:56

C语言的语法

C语言的语法与应用探讨 C语言作为一种高效的程序设计语言，自1970年代问世以来，一直在科学计算、系统编程、嵌入式系统等领域中扮演着重要角色。本文将深入探讨C语言的基本语法、数据结构、控制结构以及其在实际应用中的重要性。一、C语言基础 1.1 数…...

编程日记 2025/1/9 20:01:54

ElasticsearchJavaClient工具类分析

最近升级了Elasticsearch版本，从7.X升级到8.X的变化还是比较大的，原来7版本用的是RestHighLevelClient，8.X弃用RestHighLevelClient转而支持ElasticsearchClient，并且api调用方式经过建造者模式的改造，变成了链式调用。…...

编程日记 2025/1/9 19:59:52

Docker-文章目录

为什么互联网公司离不开Docker容器化，它到底解决了什么问题？ VMware下Centos7安装步骤 Windows安装Docker Linux安装Docker Docker快速安装Tomcat 在docker中对MySQL快速部署与初始数据利用Dockerfile构建自定义镜像 Dockerfile基础指令 Docker…...

编程日记 2025/1/9 19:57:50

docker安装codeserver 运行vite项目（linux）

估计很多人遇到了codeserver安装后执行vite项目有proxy路径的问题我这边去掉了路径代理直接端口访问防火墙记得打开 8089 和 5173端口 code-server路径服务器ip:8089 项目路径服务器ip:5173 docker安装codeserver（linux） mkdir -p ~/.config dock…...

编程日记 2025/1/9 19:56:49

Electron快速入门——跨平台桌面端应用开发框架

个人简介 👀个人主页： 前端杂货铺 🙋‍♂️学习方向： 主攻前端方向，正逐渐往全干发展 📃个人状态： 研发工程师，现效力于中国工业软件事业 🚀人生格言： 积跬步…...

编程日记 2025/1/9 19:55:48

【.NET 9 容器化配置终极指南】：90%开发者忽略的5个生产级配置陷阱与自动修复方案

第一章：.NET 9 容器化配置的核心演进与生产就绪定义.NET 9 将容器化支持从“可运行”推向“生产就绪”，其核心演进体现在配置生命周期管理、启动时验证机制和原生容器镜像优化三大维度。与早期版本依赖外部脚本或手动环境适配不同，.NET 9 内置…...

编程新知 2026/4/8 22:44:41

5步掌握抖音无水印下载终极指南：从零到批量处理高效方案【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback sup…...

编程新知 2026/4/8 22:42:29

系统自动启动管理，文件粉碎、软件卸载、WIFI密码查看、硬盘测速、系统优化等

有人言，改变世界需要惊天动地的创举。但仍有人坚信“蝴蝶效应”的浪漫：微小的振翅，亦可能掀起巨澜。当每一个产品都选择做正确而非容易的事，当每一次迭代都坚守初心而非盲从潮流，科技便会慢慢褪去繁复与喧嚣&#xff0…...

编程新知 2026/4/8 22:38:29

高光谱成像基础（十二）光谱重建（Spectral Reconstruction）卸

认识Pass层级结构 Pass范围从上到下一共分为5个层级： 模块层级：单个.ll或.bc文件调用图层级：函数调用的关系。函数层级：单个函数。基本块层级：单个代码块。例如C语言中{}括起来的最小代码。指令层级：单…...

编程新知 2026/4/8 22:34:27

Redis持久化：从AOF到RDB，如何实现数据不丢失？耐

Qt是一个跨平台C图形界面开发库，利用Qt可以快速开发跨平台窗体应用程序，在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置，实现图形化开发极大的方便了开发效率，本笔记将重点介绍QSpinBox数值微调组件的常用方法及灵活应用。…...

编程新知 2026/4/8 22:05:47

网盘直链解析工具：突破下载限制的技术方案与实践指南

网盘直链解析工具：突破下载限制的技术方案与实践指南【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云…...

编程新知 2026/4/8 21:13:16

Visual Studio 2022 版本对决：Community、Professional 与 Enterprise 全方位深度解析

Visual Studio 2022 是微软旗舰级集成开发环境（IDE）的新版本，也是该系列首个原生 64 位版本。它提供三个主要版本：Community（社区版）、Professional（专业版） 和 Enterprise&#xff…...

编程新知 2026/4/8 20:12:29

cgm-remote-monitor容器化部署：使用Docker快速部署你的血糖监控系统

cgm-remote-monitor容器化部署：使用Docker快速部署你的血糖监控系统【免费下载链接】cgm-remote-monitor nightscout web monitor 项目地址: https://gitcode.com/gh_mirrors/cg/cgm-remote-monitor cgm-remote-monitor是一款开源的血糖远程监控系统&#x…...

编程新知 2026/4/8 19:27:26

nuScenes 全景分割：Panoptic nuScenes 完整实现指南

nuScenes 全景分割：Panoptic nuScenes 完整实现指南【免费下载链接】nuscenes-devkit The devkit of the nuScenes dataset. 项目地址: https://gitcode.com/gh_mirrors/nu/nuscenes-devkit Panoptic nuScenes 是 nuScenes 数据集的重要扩展，提供…...

编程新知 2026/4/8 18:20:38

深入Java多线程进阶：从锁策略到并发工具全解析

带你深入了解更高级的多线程知识，包括各种锁策略、CAS机制、synchronized原理、JUC工具类等核心内容。这些知识是成为Java高级开发者的必经之路，也是面试中经常考察的重点。1. 常见的锁策略乐观锁 vs 悲观锁这是两种截然不同的并发控制思路：悲…...

编程新知 2026/4/8 17:45:45