当前位置: 首页 > news >正文

【MATLAB】使用梯度提升树在回归预测任务中进行特征选择(深度学习的数据集处理)

1.梯度提升树在神经网络的应用

        使用梯度提升树进行特征选择的好处在于可以得到特征的重要性分数,从而识别出对目标变量预测最具影响力的特征。这有助于简化模型并提高其泛化能力,减少过拟合的风险,并且可以加快模型训练和推理速度。此外,特征选择可以帮助理解数据,并为进一步的特征工程提供指导,有效地提高模型的预测性能。
        梯度提升树(GBT)是一种强大的监督学习算法,常用于回归和分类问题。通过利用多棵决策树的集成学习方式,GBT 能够捕获非线性关系、处理复杂的数据结构,并对特征之间的相互作用进行建模。因此,使用梯度提升树进行特征选择可以帮助构建更简洁、高效的模型,提高预测准确性,同时保持较好的解释性。

通俗点讲就是,用科学、合理的方法去除掉数据集中不需要的特征。常用在回归预测任务的数据集处理中(也就是N个输入特征,一个输出特征)。

2.代码实现

这一部分主要是进行环境设置。关闭了 MATLAB 的警告信息显示,关闭所有先前打开的图形窗口,清除了 MATLAB 工作区中的所有变量,并清空命令窗口。

warning off % 关闭警告信息显示
close all % 关闭所有图形窗口
clear % 清除工作区变量
clc % 清空命令窗口

这里是用 readtable 函数从名为 "01.csv" 的CSV文件中读取数据并将其存储在变量 data 中。如果数据文件不包含表头,则需要使用 readmatrix 函数。

data = readtable('01.csv'); % 如果数据文件不包含表头,请使用readmatrix函数

这段代码将数据拆分为特征和目标变量。其中 X 存储假设前 2000 行数据的前 6 列是特征,y 存储假设前 2000 行数据的最后一列是目标变量。

X = data{1:2000, 1:6}; % 假设前6列是特征
y = data{1:2000, 7};   % 假设最后一列是目标变量

这部分使用 fitensemble 函数构建了一个包含 100 棵树的 LSBoost 集成模型,用于回归任务。

ens = fitensemble(X, y, 'LSBoost', 100, 'Tree', 'Type', 'regression');

在这个部分中,计算了特征的重要性得分,并将其进行了归一化处理。然后将其显示出来。

featureImportance = predictorImportance(ens);
normalizedFeatureImportance = featureImportance / sum(featureImportance);
disp(normalizedFeatureImportance);

这一部分可视化了特征重要性得分,通过绘制条形图展示各个特征的重要性。

bar(normalizedFeatureImportance);
xlabel('特征');
ylabel('重要性得分');
title('特征重要性');

这一部分代码输出了最重要的四个特征,并重新设置了图表横坐标。(笔者的数据集格式为6个输入一个输出的风力发电机功率数据集)

topFeaturesNames = {'湿度', '真实风速', '气象风速', '风向', '温度', '气压'};
disp('最重要的特征是:');
disp(topFeaturesNames(topFeatures));
xticklabels(topFeaturesNames);

 3.运行结果

        运行结果如下(以笔者的风力发电机数据集为例):

 4.完整代码

%% 清空环境变量
warning off % 关闭警告信息显示
close all % 关闭所有图形窗口
clear % 清除工作区变量
clc % 清空命令窗口
% 读取CSV文件
data = readtable('01.csv'); % 如果数据文件不包含表头,请使用readmatrix函数% 将数据拆分为特征和目标变量
X = data{1:2000, 1:6}; % 假设前6列是特征
y = data{1:2000, 7};   % 假设最后一列是目标变量ens = fitensemble(X, y, 'LSBoost', 100, 'Tree', 'Type', 'regression');% 计算特征的重要性分数
featureImportance = predictorImportance(ens);
% 将特征的重要性得分归一化处理
normalizedFeatureImportance = featureImportance / sum(featureImportance);
disp(normalizedFeatureImportance);% 可视化特征重要性
bar(normalizedFeatureImportance);
xlabel('特征');
ylabel('重要性得分');
title('特征重要性');% 根据得分排序特征
[sortedImportance, sortedIdx] = sort(normalizedFeatureImportance, 'descend');
topFeatures = sortedIdx(1:4); % 选择最重要的四个特征% 输出最重要的特征
topFeaturesNames = {'湿度', '真实风速', '气象风速', '风向', '温度', '气压'};
disp('最重要的特征是:');
disp(topFeaturesNames(topFeatures));
% 重新设置图表横坐标
xticklabels(topFeaturesNames);

相关文章:

【MATLAB】使用梯度提升树在回归预测任务中进行特征选择(深度学习的数据集处理)

1.梯度提升树在神经网络的应用 使用梯度提升树进行特征选择的好处在于可以得到特征的重要性分数,从而识别出对目标变量预测最具影响力的特征。这有助于简化模型并提高其泛化能力,减少过拟合的风险,并且可以加快模型训练和推理速度。此外&…...

神经网络 | 基于多种神经网络模型的轴承故障检测

Hi,大家好,我是半亩花海。本文主要源自《第二届全国技能大赛智能制造工程技术项目比赛试题(样题) 模块 E 工业大数据与人工智能应用》,基于给出的已知轴承状态的振动信号样本,对数据进行分析,建…...

matplot画3D图的时候报错

使用matplot画3D图的时候,报这个错。 ERROR: Could not find a version that satisfies the requirement mpl_toolkits (from versions: none) ERROR: No matching distribution found for mpl_toolkits 要使用升级命令升级matplot而不是安装 pip install --upgr…...

如何使用LNMP让网站顺利工作?

如何使用LNMP让网站顺利工作? 1. Nginx的安装和部署 2. nginxphpmysql 3. nginx php-fpm安装配置 4. Nginx配置性能优化的方法 5. 如何使用Nginx实现限制各种恶意访问...

最新AI系统ChatGPT网站H5系统源码,支持Midjourney绘画局部编辑重绘,GPT语音对话+ChatFile文档对话总结+DALL-E3文生图

一、前言 SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美,那么如何搭建部署AI创作ChatGPT?小编这里写一个详细图文教程吧。已支持GPT…...

多维时序 | MATLAB实现基于CNN-LSSVM卷积神经网络-最小二乘支持向量机多变量时间序列预测

多维时序 | MATLAB实现基于CNN-LSSVM卷积神经网络-最小二乘支持向量机多变量时间序列预测 目录 多维时序 | MATLAB实现基于CNN-LSSVM卷积神经网络-最小二乘支持向量机多变量时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.MATLAB实现基于CNN-LSSVM卷积神经…...

使用NLTK进行自然语言处理:英文和中文示例

Natural Language Toolkit(NLTK)是一个强大的自然语言处理工具包,提供了许多有用的功能,可用于处理英文和中文文本数据。本文将介绍一些基本的NLTK用法,并提供代码示例,展示如何在英文和中文文本中应用这些…...

学习Spring的第十六天

AOP底层两种生成Proxy的方式 我来解释这两种方式 1 目标类有接口 , 调用JDK的动态代理实现 2 目标类没有接口 , 用Cglib实现 , 即生成目标类的子类 , 来实现动态代理 , 所以要求目标类不能时final修饰的 . (若有接口 , 也可用Cglib方式实现 , 需要手动配置<aop: config pr…...

学习笔记-01

学习笔记记录了我在学习官方文档过程中记的要点&#xff0c;可以参考学习。 go build *.go 文件 编译 go run *.go 执行 go mod init 生成依赖管理文件 gofmt -w *.go 格式换名称的大小写用来控制方法的可见域主方法及包命名规范 package main //注意package的命名&#xff0…...

opensatck中windows虚拟机CPU核数显示异常问题处理

文章目录 一、问题描述二、元数据信息三、以32核的实例模版为例3.1 单槽位32核3.2 双槽位32核 总结 一、问题描述 openstack创建windows虚拟机的时候&#xff0c;使用普通的实例模版会出现CPU数量和实例模版不一致的问题。需要定制元数据才可以正常显示。 帖子&#xff1a;htt…...

Camunda流程引擎数据库架构

&#x1f496;专栏简介 ✔️本专栏将从Camunda(卡蒙达) 7中的关键概念到实现中国式工作流相关功能。 ✔️文章中只包含演示核心代码及测试数据&#xff0c;完整代码可查看作者的开源项目snail-camunda ✔️请给snail-camunda 点颗星吧&#x1f618; &#x1f496;数据库架构…...

Leetcode21:合并两个有序链表

一、题目描述 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例&#xff1a; 输入&#xff1a;l1 [1,2,4], l2 [1,3,4] 输出&#xff1a;[1,1,2,3,4,4]输入&#xff1a;l1 [], l2 [] 输出&#xff1a;[]输入&#…...

深度学习驱动下的自然语言处理进展及其应用前景

文章目录 每日一句正能量前言技术进步应用场景挑战与前景自然语言处理技术当前面临的挑战未来的发展趋势和前景 伦理和社会影响实践经验后记 每日一句正能量 一个人若想拥有聪明才智&#xff0c;便需要不断地学习积累。 前言 自然语言处理&#xff08;NLP&#xff09;是一项正…...

Zookeeper相关面试准备问题

Zookeeper介绍 Zookeeper从设计模式角度来理解&#xff0c;是一个基于观察者模式设计的分布式服务管理框架&#xff0c;它负责存储和管理大家都关心的数据&#xff0c;然后接受观察者的注册&#xff0c;一旦这些数据的状态发生了变化&#xff0c;Zookeeper就负责通知已经在Zoo…...

SpringBoot整理-性能优化

Spring Boot性能优化通常涉及到多个方面,包括代码优化、数据库交互、资源使用和系统配置等。下面是一些常见的优化建议: 代码层面的优化:使用合适的数据结构和算法。减少不必要的对象创建,避免内存泄漏。对于重复使用的对象,考虑使用对象池。数据库优化:优化SQL查询,避免复…...

数据库管理-第146期 最强Oracle监控EMCC深入使用-03(20240206)

数据库管理145期 2024-02-06 数据库管理-第146期 最强Oracle监控EMCC深入使用-03&#xff08;20240206&#xff09;1 概览2 性能中心3 性能中心-Exadata总结 数据库管理-第146期 最强Oracle监控EMCC深入使用-03&#xff08;20240206&#xff09; 作者&#xff1a;胖头鱼的鱼缸&…...

QT上位机:串口调试助手

前言 上位机的简单编写可以帮我们测试并完善平台&#xff0c;QT作为一款跨平台的GUI开发框架&#xff0c;提供了非常丰富的常用串口api。本文先从最简单的串口调试助手开始&#xff0c;编写平台软件的串口控制界面 工程配置 QT 串口通信基于QT的QSerialPort类&#xff0c;先在…...

Netty核心原理与基础实战(二)——详解Bootstrap

接上篇&#xff1a;Netty核心原理与基础实战&#xff08;一&#xff09; 1 Bootstrap基础概念 Bootstrap类是Netty提供的一个便利的工厂类&#xff0c;可以通过它来完成Netty的客户端或服务端的Netty组件的组装&#xff0c;以及Netty程序的初始化和启动执行。Netty的官方解释是…...

C语言常见面试题:C语言中如何进行比较运算?

在C语言中&#xff0c;比较运算用于比较两个值的大小关系。比较运算符包括等于&#xff08;&#xff09;、不等于&#xff08;!&#xff09;、大于&#xff08;>&#xff09;、小于&#xff08;<&#xff09;、大于等于&#xff08;>&#xff09;和小于等于&#xff0…...

学习总结14

# 【CSGRound1】天下第一 ## 题目背景 天下第一的 cbw 以主席的身份在 8102 年统治全宇宙后&#xff0c;开始了自己休闲的生活&#xff0c;并邀请自己的好友每天都来和他做游戏。由于 cbw 想要显出自己平易近人&#xff0c;所以 zhouwc 虽然是一个蒟蒻&#xff0c;也有能和 c…...

Java 8 Optional搭配flatMap,如何优雅地避免NPE链式调用?一个完整案例讲透

Java 8 Optional搭配flatMap&#xff1a;彻底解决嵌套对象空指针问题的工程实践 在Java开发中&#xff0c;处理多层嵌套对象的属性访问时&#xff0c;空指针异常&#xff08;NullPointerException&#xff09;就像房间里的大象——人人都知道存在&#xff0c;却常常选择视而不见…...

9大网盘下载限速破解终极指南:LinkSwift让你告别龟速下载烦恼

9大网盘下载限速破解终极指南&#xff1a;LinkSwift让你告别龟速下载烦恼 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 &#xff0c;支持 百度网盘 / 阿里云盘 / 中国移动云盘…...

Seraphine:英雄联盟智能BP与战绩分析工具终极指南

Seraphine&#xff1a;英雄联盟智能BP与战绩分析工具终极指南 【免费下载链接】Seraphine 英雄联盟战绩查询工具 项目地址: https://gitcode.com/gh_mirrors/se/Seraphine 还在为英雄联盟排位赛的BP阶段感到焦虑吗&#xff1f;面对30秒的英雄选择倒计时&#xff0c;你是…...

终极显卡驱动清理指南:Display Driver Uninstaller (DDU) 完全使用教程

终极显卡驱动清理指南&#xff1a;Display Driver Uninstaller (DDU) 完全使用教程 【免费下载链接】display-drivers-uninstaller Display Driver Uninstaller (DDU) a driver removal utility / cleaner utility 项目地址: https://gitcode.com/gh_mirrors/di/display-driv…...

Android系统安全漏洞深度剖析:从Stagefright到权限提升攻击链

1. 从Stagefright到MediaServer&#xff1a;一场持续的安全风暴2015年的夏天&#xff0c;对于Android生态圈的安全工程师和开发者来说&#xff0c;绝对称得上是一个“多事之秋”。如果你当时正负责某个移动应用的安全审计&#xff0c;或者正在为自家公司的设备进行固件加固&…...

开源首发:DocCenter — AI 时代的 HTML工作台深度解析

Tags&#xff1a;Python aiohttp 开源项目 AI工具 前端工程 工具分享 Claude ChatGPT 专栏&#xff1a;「工具开源」/「DocCenter」 一、痛点&#xff1a;AI 时代的文档散落病 过去一年&#xff0c;我每天被 AI 生成的 HTML 文件淹没。 Claude artifacts 一天 20 个、ChatGPT…...

深入Android系统源码:screencap命令背后,SurfaceFlinger如何“画”出一张图?

深入Android系统源码&#xff1a;screencap命令背后&#xff0c;SurfaceFlinger如何“画”出一张图&#xff1f; 当我们轻敲adb shell screencap -p /sdcard/screenshot.png命令时&#xff0c;手机屏幕上瞬间闪现的内容便被永久定格。这个看似简单的操作背后&#xff0c;却隐藏…...

英伟达汽车计算平台:从芯片到生态的自动驾驶全栈解决方案

1. 从GTC 2021看英伟达的汽车野心&#xff1a;不止于芯片的生态战争上周的GTC 2021大会信息量爆炸&#xff0c;光是汽车相关的发布就足以让整个行业消化好一阵子。作为一名长期跟踪汽车电子与自动驾驶技术演进的老兵&#xff0c;我习惯在每次大型技术发布会后&#xff0c;把那些…...

工业物联网实战:连接老旧设备与数据孤岛的三步走策略

1. 工业物联网的“孤岛”困境与连接之道在工业自动化领域干了十几年&#xff0c;我亲眼见证了从最初的继电器逻辑控制&#xff0c;到PLC、DCS&#xff0c;再到如今炙手可热的工业物联网&#xff08;IIoT&#xff09;的整个演进过程。一个最深刻的感受是&#xff1a;技术浪潮总是…...

大型语言模型开发的环境成本与优化策略

1. 语言模型开发的环境成本全景图当我们惊叹于ChatGPT流畅的对话能力或Midjourney惊人的图像生成质量时&#xff0c;很少有人会思考这些AI能力背后的环境代价。事实上&#xff0c;大型语言模型的开发正悄然成为数字时代的"高碳产业"——训练一个130亿参数的模型所产生…...