机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
一、引言
在实际应用中,特征选择作为机器学习和数据挖掘领域的重要环节,对于提高模型性能和减少计算开销具有关键影响。特征选择是从原始特征集中选择最相关和最具区分力的特征子集,以提高模型的泛化能力和可解释性。
特征选择在实践中具有以下重要性:
-
提高模型性能:通过选择最相关的特征子集,可以减少冗余和噪声特征的干扰,从而提高模型的预测准确性和泛化能力。 -
减少计算开销:特征选择可以降低模型训练和推断过程中的计算复杂度,加快模型的训练速度和实时预测效率。 -
提高模型解释性:通过选择具有较高可解释性的特征,可以增强对模型内部机制的理解,并为决策提供更清晰的解释和依据。
特征选择方法可以分为三大类:过滤式方法、包裹式方法和嵌入式方法。过滤式方法独立于任何具体的学习算法,通过对特征进行评估和排序来选择特征子集。包裹式方法直接使用学习算法来评估特征子集的性能。嵌入式方法将特征选择融入到学习算法中,通过优化算法的目标函数来同时选择特征和训练模型。
总之,特征选择在机器学习和数据挖掘任务中扮演着重要的角色,能够提高模型性能、减少计算开销,并增强模型的可解释性。通过合理选择合适的特征选择方法,可以进一步优化实际应用中的模型训练和预测效果。
二、递归特征消除算法概述
2.1 算法原理
递归特征消除算法(Recursive Feature Elimination, RFE)是一种基于模型的特征选择方法,通过反复训练模型和剔除最不重要特征的方式来选择最优的特征子集。
具体步骤如下:
-
首先,用训练数据训练一个初始模型,并计算每个特征的重要性得分(例如,使用模型的系数、特征对目标变量的影响等)。 -
然后,根据特征重要性得分对特征进行排序,从中选择得分最低的若干个特征作为待剔除的特征。 -
在剩余的特征上重新训练模型,并计算新的特征重要性得分。 -
如果特征数量达到预设的目标或者所有特征都被剔除完毕,停止算法;否则,回到第2步。 -
最终,选择剩余的特征作为最终的特征子集。
递归特征消除算法通过反复迭代剔除最不重要的特征,逐步降低特征子集的维度,直到达到预定的目标特征数量。这样做的好处是可以保留对目标变量预测具有重要贡献的特征,同时减少冗余和噪声特征的干扰。
2.2 工作流程
递归特征消除算法的工作流程如下:
-
初始化:选择一个合适的学习算法作为基础模型,并设定目标特征数量。 -
特征重要性评估:使用基础模型对原始特征进行训练,并计算特征的重要性得分。 -
特征排序:根据得分对特征进行排序,选择得分最低的若干个特征作为待剔除的特征。 -
特征剔除:从特征集中剔除待剔除的特征,得到新的特征子集。 -
判断停止条件:如果特征数量达到预设的目标或者所有特征都被剔除完毕,跳转到步骤7;否则,继续下一步。 回到步骤2:在新的特征子集上重新进行特征重要性评估和特征剔除。 -
结束算法:选择剩余的特征作为最终的特征子集。
递归特征消除算法通过不断剔除特征,直至达到预设目标,从而选择出最佳的特征子集。这个过程是基于模型的特征选择方法中的一种重要实现方式,能够有效地提高模型性能和减少特征维度的影响。
三、示例与代码实现
-
「数据集准备」
library(survival)
head(gbsg)
结果展示:
pid age meno size grade nodes pgr er hormon rfstime status
1 132 49 0 18 2 2 0 0 0 1838 0
2 1575 55 1 20 3 16 0 0 0 403 1
3 1140 56 1 40 3 3 0 0 0 1603 0
4 769 45 0 25 3 1 0 4 0 177 0
5 130 65 1 30 2 5 0 36 1 1855 0
6 1642 48 0 52 2 11 0 0 0 842 1
-
「示例数据集介绍」
> str(gbsg)
'data.frame': 686 obs. of 10 variables:
$ age : int 49 55 56 45 65 48 48 37 67 45 ...
$ meno : int 0 1 1 0 1 0 0 0 1 0 ...
$ size : int 18 20 40 25 30 52 21 20 20 30 ...
$ grade : int 2 3 3 3 2 2 3 2 2 2 ...
$ nodes : int 2 16 3 1 5 11 8 9 1 1 ...
$ pgr : int 0 0 0 0 0 0 0 0 0 0 ...
$ er : int 0 0 0 4 36 0 0 0 0 0 ...
$ hormon : int 0 0 0 0 1 0 0 1 1 0 ...
$ rfstime: int 1838 403 1603 177 1855 842 293 42 564 1093 ...
$ status : Factor w/ 2 levels "0","1": 1 2 1 1 1 2 2 1 2 2 ...
age:患者年龄
meno:更年期状态(0表示未更年期,1表示已更年期)
size:肿瘤大小
grade:肿瘤分级
nodes:受累淋巴结数量
pgr:孕激素受体表达水平
er:雌激素受体表达水平
hormon:激素治疗(0表示否,1表示是)
rfstime:复发或死亡时间(以天为单位)
status:事件状态(0表示被截尾,1表示事件发生)
-
「数据预处理」
data <- gbsg
# 分割数据集为特征和标签
features <- data[, c("age", "meno", "size", "grade", "nodes", "pgr", "er", "hormon")]
labels <- data$status
# 对特征数据进行预处理(例如归一化)
preprocessed_features <- scale(features)
# 划分训练集和测试集
set.seed(123)
train_indices <- sample(x = 1:nrow(data), size = 0.7 * nrow(data), replace = FALSE)
test_indices <- sample(setdiff(1:nrow(data), train_indices), size = 0.3 * nrow(data), replace = FALSE)
train_features <- preprocessed_features[train_indices, ]
train_labels <- labels[train_indices]
test_features <- preprocessed_features[test_indices, ]
test_labels <- labels[test_indices]
-
「安装和加载必要的R软件包」
install.packages("caret")
library(caret)
-
「模型拟合」
rfProfile <- rfe(train_features, train_labels,
sizes = c(1:8),
rfeControl = rfeControl(functions = rfFuncs))
rfProfile
plot(rfProfile, type = c("o", "g"))
结果展示:
Recursive feature selection
Outer resampling method: Bootstrapped (25 reps)
Resampling performance over subset size:
Variables RMSE Rsquared MAE RMSESD RsquaredSD MAESD Selected
1 0.5401 0.02005 0.4742 0.04158 0.02388 0.021952
2 0.5168 0.03063 0.4574 0.01733 0.02087 0.015997
3 0.5023 0.04217 0.4533 0.01358 0.02116 0.011811
4 0.4955 0.04681 0.4531 0.01010 0.01670 0.009401
5 0.4870 0.06166 0.4506 0.01024 0.02139 0.008108
6 0.4870 0.06795 0.4445 0.01205 0.02557 0.009362
7 0.4819 0.07893 0.4426 0.01155 0.02468 0.008790 *
8 0.4826 0.07541 0.4457 0.01207 0.02717 0.009006
The top 5 variables (out of 7):
nodes, pgr, age, er, size
从结果中可以看出,当特征为7个时,RMSE最低,表示模型的预测性能最好,与实际观测值的接近程度最高。从7个特征中选出最优特征的前五个分别是nodes, pgr, age, er, size。
-
「模型评估」
postResample(predict(rfProfile, test_features), test_labels)
结果展示:
RMSE Rsquared MAE
0.47191001 0.08849481 0.43901291
这个结果看起来不行,不过没关系,我们的结果是分类变量,并非是连续变量,而RMSE、Rsquared和MAE都是适用于结果变量是连续变量的评估指标。当结果变量是分类变量时,在临床医学中应该使用适合的评估指标,如分类准确率、灵敏度、特异度等。
四、实验结果与讨论
-
「特征选择结果分析」: 在递归特征消除算法中,通过不断剔除特征,最终选择出了一个最优的特征子集。对于特征选择结果的分析可以从以下几个方面进行:
-
特征重要性排序:根据特征的重要性得分进行排序,可以观察到哪些特征被认为是最重要的。通常情况下,得分较高的特征更加相关,对模型的预测性能有较大的贡献。 -
特征剔除情况:观察在不同迭代步骤中特征的剔除情况。某些特征可能在早期的迭代中就被剔除了,而有些特征可能一直保留到最后。这可以帮助我们判断哪些特征可能是冗余或者噪声的。 -
特征数目变化:记录每一步剔除特征后剩余的特征数目的变化情况。可以观察到随着特征的剔除,特征数目逐渐减少,达到预设的目标特征数目。
-
「最优特征对模型性能的影响」: 递归特征消除算法的目标是选择出最佳的特征子集,以提高模型的性能。可以通过比较使用全量特征和最优特征子集在同一模型上的性能来评估选择结果的影响。
-
模型性能指标:主要关注模型的预测性能指标,例如准确率、召回率、F1值等。比较使用全量特征和最优特征子集在相同验证集上的性能指标,观察是否有明显的提升。 -
模型复杂度:随着特征数目的减少,模型的复杂度也会相应减小。可以观察模型的参数数量或复杂度的变化情况,判断是否存在过拟合或欠拟合的情况。 -
训练时间和资源消耗:特征剔除过程中,模型的训练时间和资源消耗可能会减少,因为训练数据的维度减小了。可以比较全量特征和最优特征子集的训练时间和资源消耗情况。
五、改进和注意事项
5.1 改进递归特征消除算法的效率:
-
并行化计算:可以通过使用并行计算来加速特征选择过程。将数据集分成多个子集,每个子集上运行一个特征选择过程,并最后合并结果。 -
提前停止准则:在特征选择过程中,可以设置一个提前停止准则,当剩余特征数目达到一定阈值时,停止进一步的迭代。这样可以节省计算资源。 -
特征采样:在大规模数据集中,可以对原始数据进行采样,然后在采样数据上进行特征选择。这样可以减小特征选择的计算量。
5.2 注意过拟合问题:
-
递归特征消除算法有可能选择了不具有统计显著性的特征,导致模型出现过拟合的问题。因此,在应用该算法时,需要采用合适的评估指标和交叉验证方法,以准确评估特征选择结果的泛化能力。 -
可以尝试使用正则化技术,如L1正则化(Lasso)或L2正则化(Ridge),在进行特征选择时加入惩罚项,以避免过度依赖某些特征,从而提高模型的泛化性能。 -
在特征选择过程中,可以监控模型在训练集和验证集上的性能变化。如果模型在训练集上的性能持续提升,但在验证集上的性能开始下降,可能存在过拟合问题。
六、总结:
「递归特征消除算法具有以下优势」:
-
自动选择最佳特征子集,减少了数据维度,提高了模型的解释性和泛化性能。 -
可以通过特征重要性排序,帮助我们理解数据集的特征结构,揭示潜在的相关关系。 -
通过减小特征数目,可以加快训练时间和降低计算资源消耗。
「递归特征消除算法适用于以下场景」:
-
特征数量较多,需要降维的情况,例如基因表达数据、图像处理等。 -
想要简化模型复杂度,并且保留最重要的特征。 -
需要理解数据集的特征重要性排序,以及特征与目标变量之间的关系。
「对未来研究的展望」:
-
改进特征选择算法的效率和准确性,使其适用于大规模、高维度的数据集。 -
结合不同的特征选择方法,如过滤法、包装法和嵌入法,以获得更好的特征子集。 -
考虑特征之间的交互作用,将特征选择与特征工程相结合,以提高模型的预测性能。 -
探索自适应的特征选择算法,根据数据集的特点和模型的需求,自动调整特征选择的策略。 -
在不同领域中应用特征选择算法,例如医疗、金融、图像识别等,以解决实际问题。
*「未经许可,不得以任何方式复制或抄袭本篇文章之部分或全部内容。版权所有,侵权必究。」
相关文章:
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
一、引言 在实际应用中,特征选择作为机器学习和数据挖掘领域的重要环节,对于提高模型性能和减少计算开销具有关键影响。特征选择是从原始特征集中选择最相关和最具区分力的特征子集,以提高模型的泛化能力和可解释性。 特征选择在实践中具有以…...
学生成绩管理系统V1.0
某班有最多不超过30人(具体人数由键盘输入)参加某门课程的考试,用一维数组作函数参数编程实现如下学生成绩管理: (1)录入每个学生的学号和考试成绩; (2)计算课程的总分…...

嵌入式:ARM Day1
1. 思维导图 2.作业一 3.作业2...

Android 网络协议与网络编程
一、TCP/IP协议 Transmission Control Protocol/Internet Protocol的简写,中译名为传输控制协议/因特网互联 协议,是Internet最基本的协议、Internet国际互联网络的基础,由网络层的IP协议和传输层的TCP 协议组成。协议采用了4层的层级结构。…...

【讯飞星火认知大模型】大模型之星火手机助理
目录 1. 讯飞星火认知大模型介绍 2. API 申请 3. 星火手机助理 4. 效果展示 1. 讯飞星火认知大模型介绍 讯飞星火认知大模型是科大讯飞自研的基于深度学习的自然语言处理模型,它可以理解和生成中文,执行多种任务,如问答、翻译、写作、编…...
centos中的swap.img可以删除吗
swap.img 是 CentOS 系统中的交换分区文件,用于辅助内存管理。交换分区在系统内存不足时用于存储不常用的数据,而不是直接写入硬盘。一般情况下,不建议删除交换分区文件,因为它对系统的正常运行非常重要。 如果您真的希望删除交换…...

Java多线程编程中的线程死锁
Java多线程编程中的线程死锁 在多线程编程中,线程死锁是一种常见的问题,它发生在两个或多个线程互相等待对方释放资源的情况下,导致程序无法继续执行。本文将介绍线程死锁的概念、产生原因、示例以及如何预防和解决线程死锁问题。 线程死…...

在浏览器中使用javascript打印HTML中指定Div带背景图片内容生成PDF电子证书查询的解决方案
在浏览器中使用javascript打印HTML中指定Div带背景图片内容生成PDF电子证书查询的解决方案 一、指定内容打印二、背景图片打印1.CSS背景图片设置2.div相对定位居中 三、完整案例展示1.CSS样式表2.HTML容器构建 一、指定内容打印 要调用浏览器中的打印功能,并指定需…...

【Redis实践篇】使用Redisson 优雅实现项目实践过程中的5种场景
文章目录 1.前言2.使用方式1. 添加Redisson依赖:2. 配置Redis连接信息3. 使用场景3.1. 分布式锁3.2. 限流器(Rate Limiter)3.3. 可过期的对象(Expirable Object)3.4. 信号量(Semaphore)3.5. 分布…...

污水处理厂人员定位方案介绍
污水处理厂人员定位在现代化的污水处理厂中具有重要的意义,它可以带来多方面的优势和好处: 安全管理: 污水处理厂通常涉及到各种危险环境和设备,如化学品、高压设备等。人员定位系统可以追踪人员的位置,确保他们不会进…...
约数个数(质因子分解)
思路: (1)由数论基本定理,任何一个正整数x都能写作,其中p1,p2..pk为x的质因子。 (2)由此可以推断,要求一个数约数的个数,注意到约数就是p1,p2...pk的一种组合ÿ…...

【QT】 QSS样式表设计一文了解
很高兴在雪易的CSDN遇见你 ,给你糖糖 欢迎大家加入雪易社区-CSDN社区云 前言 本文分享QT界面设计中的QSS样式技术,主要从**、**和**方面展开,希望对各位小伙伴有所帮助!学会了QSS样式设计,就可以开动你的审美&#…...

9-AJAX-1入门
AJAX 目录 AJAX 概念和 axios 使用认识 URLURL 查询参数常用请求方法和数据提交HTTP协议-报文接口文档案例 - 用户登录form-serialize 插件 01.AJAX 概念和 axios 使用 目标 了解 AJAX 概念并掌握 axios 库基本使用 讲解 什么是 AJAX ? mdn 使用浏览器的 XMLHttpRequest…...
ssh免密登录
客户端 第一步:生成密钥 ssh-keygen -t rsa 第二步:从“~/.ssh/id_rsa.pub”拷贝公钥 服务器端 填写公钥 打开authorized_keys,并把刚刚的公钥填进去 重启服务 sudo systemctl restart sshd...

全球公链周进展-2023/8/14
Tokenview每周周一准时更新全球公链最新进展,致力于为全球公链爱好者整合最新项目进展。 过去一周,明星项目动态如下: 第 115 次以太坊核心开发者共识会议总结 以太坊客户端 Geth v1.12.1版本发布,聚焦Cancun硬分叉 以太坊Holesk…...
python装饰器详解,python装饰器笔记心得
装饰器 装饰器是程序开发中经常会用到的一个功能,用好了装饰器,开发效率如虎添翼,所以这也是Python面试中必问的问题。但对于好多初次接触这个知识的人来讲,这个功能有点绕,自学时直接绕过去了,然后面试问…...

【C语言】每日一题(寻找数组的中心下标)
寻找数组的中心下标,链接奉上 方法 暴力循环前缀和 暴力循环 思路: 依旧是我们的老朋友,暴力循环。 1.可以利用外层for循环,循环变量为数组下标,在循环内分别求出下标左边与右边的sum 2.在边界时讨论&…...
centos 安装 nginx配置ssl 和 获取用户真实ip
安装所需环境 nginx 是用 C语言开发的,建议在Linux上使用,如果是windows用户,也可以使用windows版本。 一. gcc 安装 安装 nginx 需要先将官网下载的源码进行编译,编译依赖 gcc 环境,如果有 gcc 环境,则不…...

RocketMQ 消息消费 轮询机制 PullRequestHoldService
1. 概述 先来看看 RocketMQ 消费过程中的轮询机制是啥。首先需要补充一点消费相关的前置知识。 1.1 消息消费方式 RocketMQ 支持多种消费方式,包括 Push 模式和 Pull 模式 Pull 模式:用户自己进行消息的拉取和消费进度的更新Push 模式:Broker…...

springboot 数据库版本升级管理常用解决方案
目录 一、前言 1.1 单独执行初始化sql 1.2 程序自动执行 二、数据库版本升级管理问题 三、spring 框架sql自动管理机制 3.1 jdbcTemplate 方式 3.1.1 创建数据库 3.1.2 创建 springboot 工程 3.1.3 初始化sql脚本 3.1.4 核心配置类 3.1.5 执行sql初始化 3.2 配置文…...

Appium+python自动化(十六)- ADB命令
简介 Android 调试桥(adb)是多种用途的工具,该工具可以帮助你你管理设备或模拟器 的状态。 adb ( Android Debug Bridge)是一个通用命令行工具,其允许您与模拟器实例或连接的 Android 设备进行通信。它可为各种设备操作提供便利,如安装和调试…...

黑马Mybatis
Mybatis 表现层:页面展示 业务层:逻辑处理 持久层:持久数据化保存 在这里插入图片描述 Mybatis快速入门 : QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this); }Widget::~Widget() {delete ui; }//解释这串代码,写上注释 当然可以!这段代码是 Qt …...

【网络安全产品大调研系列】2. 体验漏洞扫描
前言 2023 年漏洞扫描服务市场规模预计为 3.06(十亿美元)。漏洞扫描服务市场行业预计将从 2024 年的 3.48(十亿美元)增长到 2032 年的 9.54(十亿美元)。预测期内漏洞扫描服务市场 CAGR(增长率&…...

UE5 学习系列(三)创建和移动物体
这篇博客是该系列的第三篇,是在之前两篇博客的基础上展开,主要介绍如何在操作界面中创建和拖动物体,这篇博客跟随的视频链接如下: B 站视频:s03-创建和移动物体 如果你不打算开之前的博客并且对UE5 比较熟的话按照以…...
【ROS】Nav2源码之nav2_behavior_tree-行为树节点列表
1、行为树节点分类 在 Nav2(Navigation2)的行为树框架中,行为树节点插件按照功能分为 Action(动作节点)、Condition(条件节点)、Control(控制节点) 和 Decorator(装饰节点) 四类。 1.1 动作节点 Action 执行具体的机器人操作或任务,直接与硬件、传感器或外部系统…...
oracle与MySQL数据库之间数据同步的技术要点
Oracle与MySQL数据库之间的数据同步是一个涉及多个技术要点的复杂任务。由于Oracle和MySQL的架构差异,它们的数据同步要求既要保持数据的准确性和一致性,又要处理好性能问题。以下是一些主要的技术要点: 数据结构差异 数据类型差异ÿ…...
【Web 进阶篇】优雅的接口设计:统一响应、全局异常处理与参数校验
系列回顾: 在上一篇中,我们成功地为应用集成了数据库,并使用 Spring Data JPA 实现了基本的 CRUD API。我们的应用现在能“记忆”数据了!但是,如果你仔细审视那些 API,会发现它们还很“粗糙”:有…...
LeetCode - 199. 二叉树的右视图
题目 199. 二叉树的右视图 - 力扣(LeetCode) 思路 右视图是指从树的右侧看,对于每一层,只能看到该层最右边的节点。实现思路是: 使用深度优先搜索(DFS)按照"根-右-左"的顺序遍历树记录每个节点的深度对于…...

Elastic 获得 AWS 教育 ISV 合作伙伴资质,进一步增强教育解决方案产品组合
作者:来自 Elastic Udayasimha Theepireddy (Uday), Brian Bergholm, Marianna Jonsdottir 通过搜索 AI 和云创新推动教育领域的数字化转型。 我们非常高兴地宣布,Elastic 已获得 AWS 教育 ISV 合作伙伴资质。这一重要认证表明,Elastic 作为 …...