机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
一、引言
在实际应用中,特征选择作为机器学习和数据挖掘领域的重要环节,对于提高模型性能和减少计算开销具有关键影响。特征选择是从原始特征集中选择最相关和最具区分力的特征子集,以提高模型的泛化能力和可解释性。
特征选择在实践中具有以下重要性:
-
提高模型性能:通过选择最相关的特征子集,可以减少冗余和噪声特征的干扰,从而提高模型的预测准确性和泛化能力。 -
减少计算开销:特征选择可以降低模型训练和推断过程中的计算复杂度,加快模型的训练速度和实时预测效率。 -
提高模型解释性:通过选择具有较高可解释性的特征,可以增强对模型内部机制的理解,并为决策提供更清晰的解释和依据。
特征选择方法可以分为三大类:过滤式方法、包裹式方法和嵌入式方法。过滤式方法独立于任何具体的学习算法,通过对特征进行评估和排序来选择特征子集。包裹式方法直接使用学习算法来评估特征子集的性能。嵌入式方法将特征选择融入到学习算法中,通过优化算法的目标函数来同时选择特征和训练模型。
总之,特征选择在机器学习和数据挖掘任务中扮演着重要的角色,能够提高模型性能、减少计算开销,并增强模型的可解释性。通过合理选择合适的特征选择方法,可以进一步优化实际应用中的模型训练和预测效果。
二、递归特征消除算法概述
2.1 算法原理
递归特征消除算法(Recursive Feature Elimination, RFE)是一种基于模型的特征选择方法,通过反复训练模型和剔除最不重要特征的方式来选择最优的特征子集。
具体步骤如下:
-
首先,用训练数据训练一个初始模型,并计算每个特征的重要性得分(例如,使用模型的系数、特征对目标变量的影响等)。 -
然后,根据特征重要性得分对特征进行排序,从中选择得分最低的若干个特征作为待剔除的特征。 -
在剩余的特征上重新训练模型,并计算新的特征重要性得分。 -
如果特征数量达到预设的目标或者所有特征都被剔除完毕,停止算法;否则,回到第2步。 -
最终,选择剩余的特征作为最终的特征子集。
递归特征消除算法通过反复迭代剔除最不重要的特征,逐步降低特征子集的维度,直到达到预定的目标特征数量。这样做的好处是可以保留对目标变量预测具有重要贡献的特征,同时减少冗余和噪声特征的干扰。
2.2 工作流程
递归特征消除算法的工作流程如下:
-
初始化:选择一个合适的学习算法作为基础模型,并设定目标特征数量。 -
特征重要性评估:使用基础模型对原始特征进行训练,并计算特征的重要性得分。 -
特征排序:根据得分对特征进行排序,选择得分最低的若干个特征作为待剔除的特征。 -
特征剔除:从特征集中剔除待剔除的特征,得到新的特征子集。 -
判断停止条件:如果特征数量达到预设的目标或者所有特征都被剔除完毕,跳转到步骤7;否则,继续下一步。 回到步骤2:在新的特征子集上重新进行特征重要性评估和特征剔除。 -
结束算法:选择剩余的特征作为最终的特征子集。
递归特征消除算法通过不断剔除特征,直至达到预设目标,从而选择出最佳的特征子集。这个过程是基于模型的特征选择方法中的一种重要实现方式,能够有效地提高模型性能和减少特征维度的影响。
三、示例与代码实现
-
「数据集准备」
library(survival)
head(gbsg)
结果展示:
pid age meno size grade nodes pgr er hormon rfstime status
1 132 49 0 18 2 2 0 0 0 1838 0
2 1575 55 1 20 3 16 0 0 0 403 1
3 1140 56 1 40 3 3 0 0 0 1603 0
4 769 45 0 25 3 1 0 4 0 177 0
5 130 65 1 30 2 5 0 36 1 1855 0
6 1642 48 0 52 2 11 0 0 0 842 1
-
「示例数据集介绍」
> str(gbsg)
'data.frame': 686 obs. of 10 variables:
$ age : int 49 55 56 45 65 48 48 37 67 45 ...
$ meno : int 0 1 1 0 1 0 0 0 1 0 ...
$ size : int 18 20 40 25 30 52 21 20 20 30 ...
$ grade : int 2 3 3 3 2 2 3 2 2 2 ...
$ nodes : int 2 16 3 1 5 11 8 9 1 1 ...
$ pgr : int 0 0 0 0 0 0 0 0 0 0 ...
$ er : int 0 0 0 4 36 0 0 0 0 0 ...
$ hormon : int 0 0 0 0 1 0 0 1 1 0 ...
$ rfstime: int 1838 403 1603 177 1855 842 293 42 564 1093 ...
$ status : Factor w/ 2 levels "0","1": 1 2 1 1 1 2 2 1 2 2 ...
age:患者年龄
meno:更年期状态(0表示未更年期,1表示已更年期)
size:肿瘤大小
grade:肿瘤分级
nodes:受累淋巴结数量
pgr:孕激素受体表达水平
er:雌激素受体表达水平
hormon:激素治疗(0表示否,1表示是)
rfstime:复发或死亡时间(以天为单位)
status:事件状态(0表示被截尾,1表示事件发生)
-
「数据预处理」
data <- gbsg
# 分割数据集为特征和标签
features <- data[, c("age", "meno", "size", "grade", "nodes", "pgr", "er", "hormon")]
labels <- data$status
# 对特征数据进行预处理(例如归一化)
preprocessed_features <- scale(features)
# 划分训练集和测试集
set.seed(123)
train_indices <- sample(x = 1:nrow(data), size = 0.7 * nrow(data), replace = FALSE)
test_indices <- sample(setdiff(1:nrow(data), train_indices), size = 0.3 * nrow(data), replace = FALSE)
train_features <- preprocessed_features[train_indices, ]
train_labels <- labels[train_indices]
test_features <- preprocessed_features[test_indices, ]
test_labels <- labels[test_indices]
-
「安装和加载必要的R软件包」
install.packages("caret")
library(caret)
-
「模型拟合」
rfProfile <- rfe(train_features, train_labels,
sizes = c(1:8),
rfeControl = rfeControl(functions = rfFuncs))
rfProfile
plot(rfProfile, type = c("o", "g"))
结果展示:
Recursive feature selection
Outer resampling method: Bootstrapped (25 reps)
Resampling performance over subset size:
Variables RMSE Rsquared MAE RMSESD RsquaredSD MAESD Selected
1 0.5401 0.02005 0.4742 0.04158 0.02388 0.021952
2 0.5168 0.03063 0.4574 0.01733 0.02087 0.015997
3 0.5023 0.04217 0.4533 0.01358 0.02116 0.011811
4 0.4955 0.04681 0.4531 0.01010 0.01670 0.009401
5 0.4870 0.06166 0.4506 0.01024 0.02139 0.008108
6 0.4870 0.06795 0.4445 0.01205 0.02557 0.009362
7 0.4819 0.07893 0.4426 0.01155 0.02468 0.008790 *
8 0.4826 0.07541 0.4457 0.01207 0.02717 0.009006
The top 5 variables (out of 7):
nodes, pgr, age, er, size
从结果中可以看出,当特征为7个时,RMSE最低,表示模型的预测性能最好,与实际观测值的接近程度最高。从7个特征中选出最优特征的前五个分别是nodes, pgr, age, er, size。
-
「模型评估」
postResample(predict(rfProfile, test_features), test_labels)
结果展示:
RMSE Rsquared MAE
0.47191001 0.08849481 0.43901291
这个结果看起来不行,不过没关系,我们的结果是分类变量,并非是连续变量,而RMSE、Rsquared和MAE都是适用于结果变量是连续变量的评估指标。当结果变量是分类变量时,在临床医学中应该使用适合的评估指标,如分类准确率、灵敏度、特异度等。
四、实验结果与讨论
-
「特征选择结果分析」: 在递归特征消除算法中,通过不断剔除特征,最终选择出了一个最优的特征子集。对于特征选择结果的分析可以从以下几个方面进行:
-
特征重要性排序:根据特征的重要性得分进行排序,可以观察到哪些特征被认为是最重要的。通常情况下,得分较高的特征更加相关,对模型的预测性能有较大的贡献。 -
特征剔除情况:观察在不同迭代步骤中特征的剔除情况。某些特征可能在早期的迭代中就被剔除了,而有些特征可能一直保留到最后。这可以帮助我们判断哪些特征可能是冗余或者噪声的。 -
特征数目变化:记录每一步剔除特征后剩余的特征数目的变化情况。可以观察到随着特征的剔除,特征数目逐渐减少,达到预设的目标特征数目。
-
「最优特征对模型性能的影响」: 递归特征消除算法的目标是选择出最佳的特征子集,以提高模型的性能。可以通过比较使用全量特征和最优特征子集在同一模型上的性能来评估选择结果的影响。
-
模型性能指标:主要关注模型的预测性能指标,例如准确率、召回率、F1值等。比较使用全量特征和最优特征子集在相同验证集上的性能指标,观察是否有明显的提升。 -
模型复杂度:随着特征数目的减少,模型的复杂度也会相应减小。可以观察模型的参数数量或复杂度的变化情况,判断是否存在过拟合或欠拟合的情况。 -
训练时间和资源消耗:特征剔除过程中,模型的训练时间和资源消耗可能会减少,因为训练数据的维度减小了。可以比较全量特征和最优特征子集的训练时间和资源消耗情况。
五、改进和注意事项
5.1 改进递归特征消除算法的效率:
-
并行化计算:可以通过使用并行计算来加速特征选择过程。将数据集分成多个子集,每个子集上运行一个特征选择过程,并最后合并结果。 -
提前停止准则:在特征选择过程中,可以设置一个提前停止准则,当剩余特征数目达到一定阈值时,停止进一步的迭代。这样可以节省计算资源。 -
特征采样:在大规模数据集中,可以对原始数据进行采样,然后在采样数据上进行特征选择。这样可以减小特征选择的计算量。
5.2 注意过拟合问题:
-
递归特征消除算法有可能选择了不具有统计显著性的特征,导致模型出现过拟合的问题。因此,在应用该算法时,需要采用合适的评估指标和交叉验证方法,以准确评估特征选择结果的泛化能力。 -
可以尝试使用正则化技术,如L1正则化(Lasso)或L2正则化(Ridge),在进行特征选择时加入惩罚项,以避免过度依赖某些特征,从而提高模型的泛化性能。 -
在特征选择过程中,可以监控模型在训练集和验证集上的性能变化。如果模型在训练集上的性能持续提升,但在验证集上的性能开始下降,可能存在过拟合问题。
六、总结:
「递归特征消除算法具有以下优势」:
-
自动选择最佳特征子集,减少了数据维度,提高了模型的解释性和泛化性能。 -
可以通过特征重要性排序,帮助我们理解数据集的特征结构,揭示潜在的相关关系。 -
通过减小特征数目,可以加快训练时间和降低计算资源消耗。
「递归特征消除算法适用于以下场景」:
-
特征数量较多,需要降维的情况,例如基因表达数据、图像处理等。 -
想要简化模型复杂度,并且保留最重要的特征。 -
需要理解数据集的特征重要性排序,以及特征与目标变量之间的关系。
「对未来研究的展望」:
-
改进特征选择算法的效率和准确性,使其适用于大规模、高维度的数据集。 -
结合不同的特征选择方法,如过滤法、包装法和嵌入法,以获得更好的特征子集。 -
考虑特征之间的交互作用,将特征选择与特征工程相结合,以提高模型的预测性能。 -
探索自适应的特征选择算法,根据数据集的特点和模型的需求,自动调整特征选择的策略。 -
在不同领域中应用特征选择算法,例如医疗、金融、图像识别等,以解决实际问题。
*「未经许可,不得以任何方式复制或抄袭本篇文章之部分或全部内容。版权所有,侵权必究。」
相关文章:
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
一、引言 在实际应用中,特征选择作为机器学习和数据挖掘领域的重要环节,对于提高模型性能和减少计算开销具有关键影响。特征选择是从原始特征集中选择最相关和最具区分力的特征子集,以提高模型的泛化能力和可解释性。 特征选择在实践中具有以…...
学生成绩管理系统V1.0
某班有最多不超过30人(具体人数由键盘输入)参加某门课程的考试,用一维数组作函数参数编程实现如下学生成绩管理: (1)录入每个学生的学号和考试成绩; (2)计算课程的总分…...

嵌入式:ARM Day1
1. 思维导图 2.作业一 3.作业2...

Android 网络协议与网络编程
一、TCP/IP协议 Transmission Control Protocol/Internet Protocol的简写,中译名为传输控制协议/因特网互联 协议,是Internet最基本的协议、Internet国际互联网络的基础,由网络层的IP协议和传输层的TCP 协议组成。协议采用了4层的层级结构。…...

【讯飞星火认知大模型】大模型之星火手机助理
目录 1. 讯飞星火认知大模型介绍 2. API 申请 3. 星火手机助理 4. 效果展示 1. 讯飞星火认知大模型介绍 讯飞星火认知大模型是科大讯飞自研的基于深度学习的自然语言处理模型,它可以理解和生成中文,执行多种任务,如问答、翻译、写作、编…...
centos中的swap.img可以删除吗
swap.img 是 CentOS 系统中的交换分区文件,用于辅助内存管理。交换分区在系统内存不足时用于存储不常用的数据,而不是直接写入硬盘。一般情况下,不建议删除交换分区文件,因为它对系统的正常运行非常重要。 如果您真的希望删除交换…...

Java多线程编程中的线程死锁
Java多线程编程中的线程死锁 在多线程编程中,线程死锁是一种常见的问题,它发生在两个或多个线程互相等待对方释放资源的情况下,导致程序无法继续执行。本文将介绍线程死锁的概念、产生原因、示例以及如何预防和解决线程死锁问题。 线程死…...

在浏览器中使用javascript打印HTML中指定Div带背景图片内容生成PDF电子证书查询的解决方案
在浏览器中使用javascript打印HTML中指定Div带背景图片内容生成PDF电子证书查询的解决方案 一、指定内容打印二、背景图片打印1.CSS背景图片设置2.div相对定位居中 三、完整案例展示1.CSS样式表2.HTML容器构建 一、指定内容打印 要调用浏览器中的打印功能,并指定需…...

【Redis实践篇】使用Redisson 优雅实现项目实践过程中的5种场景
文章目录 1.前言2.使用方式1. 添加Redisson依赖:2. 配置Redis连接信息3. 使用场景3.1. 分布式锁3.2. 限流器(Rate Limiter)3.3. 可过期的对象(Expirable Object)3.4. 信号量(Semaphore)3.5. 分布…...

污水处理厂人员定位方案介绍
污水处理厂人员定位在现代化的污水处理厂中具有重要的意义,它可以带来多方面的优势和好处: 安全管理: 污水处理厂通常涉及到各种危险环境和设备,如化学品、高压设备等。人员定位系统可以追踪人员的位置,确保他们不会进…...
约数个数(质因子分解)
思路: (1)由数论基本定理,任何一个正整数x都能写作,其中p1,p2..pk为x的质因子。 (2)由此可以推断,要求一个数约数的个数,注意到约数就是p1,p2...pk的一种组合ÿ…...

【QT】 QSS样式表设计一文了解
很高兴在雪易的CSDN遇见你 ,给你糖糖 欢迎大家加入雪易社区-CSDN社区云 前言 本文分享QT界面设计中的QSS样式技术,主要从**、**和**方面展开,希望对各位小伙伴有所帮助!学会了QSS样式设计,就可以开动你的审美&#…...

9-AJAX-1入门
AJAX 目录 AJAX 概念和 axios 使用认识 URLURL 查询参数常用请求方法和数据提交HTTP协议-报文接口文档案例 - 用户登录form-serialize 插件 01.AJAX 概念和 axios 使用 目标 了解 AJAX 概念并掌握 axios 库基本使用 讲解 什么是 AJAX ? mdn 使用浏览器的 XMLHttpRequest…...
ssh免密登录
客户端 第一步:生成密钥 ssh-keygen -t rsa 第二步:从“~/.ssh/id_rsa.pub”拷贝公钥 服务器端 填写公钥 打开authorized_keys,并把刚刚的公钥填进去 重启服务 sudo systemctl restart sshd...

全球公链周进展-2023/8/14
Tokenview每周周一准时更新全球公链最新进展,致力于为全球公链爱好者整合最新项目进展。 过去一周,明星项目动态如下: 第 115 次以太坊核心开发者共识会议总结 以太坊客户端 Geth v1.12.1版本发布,聚焦Cancun硬分叉 以太坊Holesk…...
python装饰器详解,python装饰器笔记心得
装饰器 装饰器是程序开发中经常会用到的一个功能,用好了装饰器,开发效率如虎添翼,所以这也是Python面试中必问的问题。但对于好多初次接触这个知识的人来讲,这个功能有点绕,自学时直接绕过去了,然后面试问…...

【C语言】每日一题(寻找数组的中心下标)
寻找数组的中心下标,链接奉上 方法 暴力循环前缀和 暴力循环 思路: 依旧是我们的老朋友,暴力循环。 1.可以利用外层for循环,循环变量为数组下标,在循环内分别求出下标左边与右边的sum 2.在边界时讨论&…...
centos 安装 nginx配置ssl 和 获取用户真实ip
安装所需环境 nginx 是用 C语言开发的,建议在Linux上使用,如果是windows用户,也可以使用windows版本。 一. gcc 安装 安装 nginx 需要先将官网下载的源码进行编译,编译依赖 gcc 环境,如果有 gcc 环境,则不…...

RocketMQ 消息消费 轮询机制 PullRequestHoldService
1. 概述 先来看看 RocketMQ 消费过程中的轮询机制是啥。首先需要补充一点消费相关的前置知识。 1.1 消息消费方式 RocketMQ 支持多种消费方式,包括 Push 模式和 Pull 模式 Pull 模式:用户自己进行消息的拉取和消费进度的更新Push 模式:Broker…...

springboot 数据库版本升级管理常用解决方案
目录 一、前言 1.1 单独执行初始化sql 1.2 程序自动执行 二、数据库版本升级管理问题 三、spring 框架sql自动管理机制 3.1 jdbcTemplate 方式 3.1.1 创建数据库 3.1.2 创建 springboot 工程 3.1.3 初始化sql脚本 3.1.4 核心配置类 3.1.5 执行sql初始化 3.2 配置文…...

AI Agent与Agentic AI:原理、应用、挑战与未来展望
文章目录 一、引言二、AI Agent与Agentic AI的兴起2.1 技术契机与生态成熟2.2 Agent的定义与特征2.3 Agent的发展历程 三、AI Agent的核心技术栈解密3.1 感知模块代码示例:使用Python和OpenCV进行图像识别 3.2 认知与决策模块代码示例:使用OpenAI GPT-3进…...

Python:操作 Excel 折叠
💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖 本博客的精华专栏: 【自动化测试】 【测试经验】 【人工智能】 【Python】 Python 操作 Excel 系列 读取单元格数据按行写入设置行高和列宽自动调整行高和列宽水平…...
Golang dig框架与GraphQL的完美结合
将 Go 的 Dig 依赖注入框架与 GraphQL 结合使用,可以显著提升应用程序的可维护性、可测试性以及灵活性。 Dig 是一个强大的依赖注入容器,能够帮助开发者更好地管理复杂的依赖关系,而 GraphQL 则是一种用于 API 的查询语言,能够提…...

DIY|Mac 搭建 ESP-IDF 开发环境及编译小智 AI
前一阵子在百度 AI 开发者大会上,看到基于小智 AI DIY 玩具的演示,感觉有点意思,想着自己也来试试。 如果只是想烧录现成的固件,乐鑫官方除了提供了 Windows 版本的 Flash 下载工具 之外,还提供了基于网页版的 ESP LA…...

第一篇:Agent2Agent (A2A) 协议——协作式人工智能的黎明
AI 领域的快速发展正在催生一个新时代,智能代理(agents)不再是孤立的个体,而是能够像一个数字团队一样协作。然而,当前 AI 生态系统的碎片化阻碍了这一愿景的实现,导致了“AI 巴别塔问题”——不同代理之间…...

相机从app启动流程
一、流程框架图 二、具体流程分析 1、得到cameralist和对应的静态信息 目录如下: 重点代码分析: 启动相机前,先要通过getCameraIdList获取camera的个数以及id,然后可以通过getCameraCharacteristics获取对应id camera的capabilities(静态信息)进行一些openCamera前的…...
【HarmonyOS 5 开发速记】如何获取用户信息(头像/昵称/手机号)
1.获取 authorizationCode: 2.利用 authorizationCode 获取 accessToken:文档中心 3.获取手机:文档中心 4.获取昵称头像:文档中心 首先创建 request 若要获取手机号,scope必填 phone,permissions 必填 …...

如何更改默认 Crontab 编辑器 ?
在 Linux 领域中,crontab 是您可能经常遇到的一个术语。这个实用程序在类 unix 操作系统上可用,用于调度在预定义时间和间隔自动执行的任务。这对管理员和高级用户非常有益,允许他们自动执行各种系统任务。 编辑 Crontab 文件通常使用文本编…...
苹果AI眼镜:从“工具”到“社交姿态”的范式革命——重新定义AI交互入口的未来机会
在2025年的AI硬件浪潮中,苹果AI眼镜(Apple Glasses)正在引发一场关于“人机交互形态”的深度思考。它并非简单地替代AirPods或Apple Watch,而是开辟了一个全新的、日常可接受的AI入口。其核心价值不在于功能的堆叠,而在于如何通过形态设计打破社交壁垒,成为用户“全天佩戴…...

通过MicroSip配置自己的freeswitch服务器进行调试记录
之前用docker安装的freeswitch的,启动是正常的, 但用下面的Microsip连接不上 主要原因有可能一下几个 1、通过下面命令可以看 [rootlocalhost default]# docker exec -it freeswitch fs_cli -x "sofia status profile internal"Name …...