当前位置：首页 > article >正文

SELA框架：融合MCTS与LLM的智能AutoML新范式

article 2026/5/24 6:51:44

1. SELA框架当MCTS的“棋手”思维遇上LLM的“专家”直觉在数据科学项目里最耗时的往往不是敲代码而是做决策。面对一个新的表格数据集从数据清洗、特征工程到模型选型、调参每一步都像站在一个岔路口背后是无数种可能的组合。传统的自动化机器学习AutoML工具比如AutoGluon或Auto-Sklearn像是一套精密的自动化流水线它们依赖预设的算法库和基于元学习或贝叶斯优化的搜索策略在庞大的配置空间里寻找一个不错的解。这套方法很有效但它更像是在一个已知的迷宫里按照固定规则寻路对于路径“为什么”这么走缺乏一种更高层次的、基于任务理解的“策略性”规划。这就是SELA一个结合了蒙特卡洛树搜索与大语言模型的AutoML框架出现的背景。它试图解决的不是“搜索更快”而是“搜索更聪明”。你可以把它想象成一位同时具备两种能力的“超级助理”一边是像顶尖围棋AIAlphaGo那样的“棋手”思维即蒙特卡洛树搜索MCTS擅长在不确定的环境中通过模拟和评估来规划长远步骤另一边是像经验丰富的数据科学家那样的“专家”直觉即大语言模型LLM能够理解数据描述、任务目标并生成具有逻辑性的操作建议Insights。SELA的核心创新就在于让这位“棋手”学会了阅读任务说明书LLM生成的Insights并用它来指导每一步的“落子”即选择具体的特征工程或模型训练动作。我最初接触这个框架时最让我好奇的是它的成本。毕竟每次调用LLM生成代码或建议都不是免费的而MCTS又需要进行多次模拟Rollout。如果为了提升一点点模型性能代价是天文数字的API调用费用那这技术也只能停留在论文里。但SELA的设计显然考虑到了这一点它通过一种“状态保存与加载”的机制巧妙地避免了重复劳动从而将单次机器学习任务的预估成本控制在了极低的水平例如使用DeepSeek-V2.5模型在10次模拟迭代下成本约为0.05美元。这对于希望将AutoML应用于大量中小型任务或者进行快速原型验证的团队和个人开发者来说是一个非常有吸引力的特性。2. 核心架构拆解MCTS如何与LLM协同“解题”要理解SELA为什么有效我们需要深入它的工作流程。它不是一个简单的“LLM生成代码然后执行”的循环而是一个将规划、模拟、评估和回溯紧密结合的搜索系统。2.1 双引擎驱动规划树与实验器SELA的架构可以清晰地分为两个主要部分规划器Planner和实验器Executor。规划器由MCTS算法驱动负责构建和探索一个“机器学习任务规划树”实验器则通常基于一个成熟的代码生成与执行框架在论文中用的是Data Interpreter负责将树中的每个“节点”即一个具体的计划步骤转化为可执行的Python代码并运行它得到结果如模型在验证集上的分数。MCTS构建的规划树是核心数据结构。树的根节点Root Node代表整个机器学习任务的起点。从根节点出发第一层子节点通常对应机器学习流程的几个宏观阶段例如探索性数据分析EDA数据预处理特征工程模型训练与评估这只是一个初始的、粗略的骨架。LLM的“专家直觉”在这里首次发挥作用。SELA会调用一个特定的提示Insight Proposal Prompt将数据集的基本信息描述、元数据、前几行数据喂给LLM要求它为上述每一个任务阶段生成至少5个具体、多样且可独立实施的“洞察”Insight。例如对于“特征工程”阶段LLM可能会建议“对数值型特征进行多项式变换如平方、立方以捕捉非线性关系。”“针对时间序列字段创建滞后特征lag features和滚动统计量如7天均值。”“对高基数分类变量进行目标编码Target Encoding。”“基于领域知识创建特征交互项如‘收入’除以‘家庭人数’得到‘人均收入’。”“使用主成分分析PCA进行降维并保留解释95%方差的成分。”这些LLM生成的Insights会被作为“候选动作”填充到MCTS树中对应阶段的子节点下。于是一棵静态的任务阶段树就变成了一棵充满各种可能的具体操作路径的动态搜索树。2.2 四步搜索循环选择、扩展、模拟、回溯有了这棵丰富的树MCTS的经典四步循环就开始了。这个过程非常像一位棋手在思考选择Selection从根节点开始MCTS使用一种权衡“探索”与“利用”的策略通常是UCT算法沿着树向下选择子节点。它会倾向于选择那些历史表现好高分的节点利用但也会给访问次数少的节点机会探索以防止陷入局部最优。这个选择过程会一直持续到一个“叶节点”尚未完全展开的节点。扩展Expansion当到达一个叶节点时如果该节点代表的步骤例如“进行特征工程”还有未尝试过的LLM InsightSELA就会从中随机选择一个或按策略选择一个创建一个新的子节点。这个新节点就代表了一个更具体的操作比如“进行特征工程创建多项式特征”。模拟Simulation从新扩展的节点开始SELA需要快速评估这条路径的潜力。它不会完整执行到最终模型而是采用一种“快速推演”策略。在论文的案例中SELA会基于当前节点及其祖先节点定义的完整计划例如EDA - 预处理 - “创建时间差分特征” - “训练SVM模型”让实验器Data Interpreter生成并执行对应的代码。代码运行后会在一个较小的验证集或通过交叉验证上得到一个性能分数Score例如F1分数或负RMSE。这个分数就是本次模拟的回报。回溯Backpropagation模拟得到的分数会沿着刚刚走过的路径从叶节点一直回溯更新到根节点。路径上每个节点的“访问次数”和“累计得分”都会被更新。一个节点得分越高、被访问次数越多它在后续的选择阶段就越容易被“利用”。这个循环会重复进行很多次例如k10次模拟。每一次循环MCTS都对不同技术路径的“价值”有了更深的了解并逐渐将搜索资源集中在更有希望的路径上。2.3 状态保存降低成本的秘密武器这里有一个关键细节极大地影响了成本效益。在传统的、简单的“LLM-Agent”循环中每次尝试可能都会从头开始生成相似的代码例如每次模拟都重新生成“读取数据”、“处理缺失值”的代码造成大量的令牌Token浪费。SELA通过其底层的实验器框架如Data Interpreter实现了状态保存与加载。具体来说当MCTS选择了一条路径进行模拟时实验器执行代码并产生结果如处理后的数据、训练好的模型。SELA会保存这个“实验状态”。如果后续的模拟路径的前面部分与之前某次模拟相同例如都采用了相同的数据预处理和特征工程步骤那么实验器可以直接加载之前的状态只执行后续不同的部分例如尝试不同的模型。这就避免了为相同的操作步骤反复生成和解释代码显著减少了需要发送给LLM的上下文长度和新生成的代码量从而直接降低了API调用成本。这也是为什么在论文的成本分析中SELA的成本$0.05低于其基础实验器Data Interpreter单独运行的成本$0.07的原因之一。3. 实战评估SELA在表格数据上的表现究竟如何论文在20个公开的表格数据集上对SELA进行了全面测试涵盖了回归、二分类、多分类任务。竞争对手包括两个经典的AutoML库AutoGluon, Auto-Sklearn和两个同为LLM驱动的自动化框架AIDE, Data Interpreter。评估指标主要有两个排名Rank和归一化分数Normalized Score, NS%。3.1 性能排名分析稳定性的胜利看排名表5时我们关注两个值“Avg. Rank”平均排名和“Best Rank”最佳排名。平均排名反映了框架在不同数据集上表现的稳定性最佳排名则体现了其冲击最高性能的潜力。SELA在“最佳排名”上表现极为突出平均最佳排名为2.7位列所有方法之首。这意味着在多次运行中SELA至少有一次能够找到非常接近最优解的方案。相比之下传统强队AutoGluon的平均最佳排名为4.4而另一个LLM框架Data Interpreter为6.4。这直接证明了SELA所采用的MCTS搜索策略在探索高质量解决方案方面具有显著优势。在“平均排名”上SELA4.8与AutoGluon4.4非常接近且明显优于Auto-Sklearn7.6、AIDE7.8和Data Interpreter8.8。这说明SELA不仅偶尔能“超常发挥”其常规表现也相当稳定可靠没有出现某些方法在部分数据集上严重“翻车”的情况。注意排名评估中一个常见的陷阱是只关注“最佳”结果。在实际项目中我们往往更看重框架的稳定性和可重复性。SELA在两项排名上的均衡表现表明它既具备探索顶尖性能的能力又能提供稳定的输出质量这对于生产环境的可信度至关重要。3.2 归一化分数解读绝对性能的较量归一化分数NS%是一个将不同数据集、不同评估指标RMSE F1的结果标准化到[0,100]区间的指标100分代表当前数据集上所有参与比较方法中的最佳性能。它更直观地反映了模型的绝对性能。从表6的整体NS%来看SELA在“平均NS%”53.3和“最佳NS%”54.7上均略微领先于AutoGluon53.2, 53.2是参与比较的方法中最高的。虽然领先幅度不大但考虑到AutoGluon是经过多年优化的、集成度极高的成熟框架而SELA是一个较新的、基于LLM的探索性框架能取得这样的成绩已经非常令人印象深刻。深入看具体数据集能发现更多细节在部分数据集上优势明显例如在smoker-status吸烟状态预测数据集上SELA的最佳NS%达到了91.5远超其他方法第二名DI为81.5。在jasmine、segment、icr等数据集上SELA也取得了最佳或接近最佳的成绩。揭示不同方法的特性AutoGluon表现非常稳健在大多数数据集上都能拿到80分以上的高分但冲击极限的能力稍弱。AIDE和Data Interpreter这类纯LLM驱动的方法表现波动较大在某些数据集上可能表现优异如titanic上AIDE最佳NS%为83.7但在另一些上可能失灵如kick数据集上DI仅4.2。SELA则通过MCTS的引导一定程度上平滑了这种波动。3.3 不同LLM基座的影响能力与成本的权衡SELA的“大脑”——LLM——是可以替换的。论文测试了GPT-4o、Claude 3.5 Sonnet和DeepSeek-V2.5三种不同的模型作为Insight生成和代码执行的基础。结果表7显示能力更强的LLM确实能带来更好的性能。使用GPT-4o的SELA取得了最好的平均NS%62.3和最佳排名1.5。Claude 3.5 Sonnet和DeepSeek-V2.5紧随其后。这个结论非常直观一个更聪明、代码生成能力更强的“专家”自然能提出更好的建议写出更可靠的代码。然而这里必须结合成本来看。GPT-4o的API调用费用远高于DeepSeek-V2.5。论文中给出的成本分析是基于DeepSeek-V2.5的单任务约$0.05。如果换成GPT-4o成本可能会成倍增加。因此在实际应用中这成了一个典型的“性能-成本”权衡问题。对于追求极致性能且预算充足的场景GPT-4o是首选而对于需要大规模、低成本自动化处理大量任务的场景DeepSeek-V2.5这类性价比高的模型则是更务实的选择。SELA框架的价值在于它提供了一个上层搜索优化策略使得即使使用能力稍弱的LLM也能通过更聪明的搜索来弥补单次建议质量的不足从而获得不错的整体效果。4. 从案例研究看SELA的决策过程论文附录E提供了一个关于GesturePhaseSegmentationProcessed手势相位分割数据集的详细案例完美展示了SELA的搜索树是如何生长和决策的。我们以此为例拆解它的思考过程。初始规划根节点Node 0SELA或者说其底层的LLM首先制定了一个通用的、高层次的机器学习计划共7个步骤从EDA到最终生成测试集预测。这是一个合理的、标准的流程模板。第一层探索特征工程的不同思路MCTS开始搜索。它首先在“特征工程”这个阶段进行扩展。LLM为这个阶段生成了多个Insights于是树中出现了多个子节点Node 0-0: 创建表征整体运动强度的特征如速度和加速度的矢量幅度。Node 0-1: 生成基于时间的特征如连续帧之间的差值以捕捉运动变化率。Node 0-2: 创建表征身体部位间空间关系的特征如手与头部的距离。Node 0-3: 应用特征选择技术如RFE。Node 0-4: 创建交互特征如速度与加速度的乘积。模拟与评估SELA开始对不同的特征工程思路进行模拟。例如它模拟了Node 0-1时间差分特征并在模拟中尝试了不同的模型。记录显示当Node 0-1与“训练SVM模型”Node 0-1-1这个子动作结合时在验证集上取得了0.694的高分Score。同时它也模拟了Node 0-0矢量幅度特征与“训练神经网络”Node 0-0-2的结合得分为0.659。而Node 0-3特征选择路径的模拟得分较低0.516。回溯与聚焦高分结果会通过回溯机制提升其父节点Node 0-1和Node 0的“价值”。在后续的搜索中MCTS会更倾向于探索与“时间差分特征”Node 0-1相关的路径。我们看到搜索树在Node 0-2空间关系特征下也进行了更深度的探索尝试了SVM模型Node 0-2-1并进一步探索了集成方法Node 0-2-1-2但得分0.652仍略低于Node 0-1-1。最终决策经过多轮模拟本例中生成29个独特代码SELA选择得分最高的节点Node 0-1-1作为最佳解决方案。这条路径对应着“进行特征工程生成时间差分特征 - 训练一个使用RBF核的SVM模型”。这个决策不是瞎猜的而是MCTS通过多次模拟、评估和回溯基于实际性能数据做出的。这个案例清晰地表明SELA不是在随机组合技术栈而是在进行一种基于反馈的、定向的搜索。它用LLM来生成可能的技术选项拓宽搜索广度然后用MCTS来模拟这些选项的效果并根模拟结果智能地分配后续的搜索资源增加搜索深度最终收敛到一个经过“实践检验”的优秀方案上。5. 工程实践启示与潜在挑战基于对SELA框架的剖析和评估我们可以总结出一些对实际工程应用有价值的启示同时也必须正视其当前的局限性。5.1 核心优势与适用场景超越黑箱的“可解释性”搜索与传统AutoML的“黑箱”优化不同SELA的搜索树和案例研究提供了一种理解其决策过程的窗口。你可以看到它考虑了哪些特征工程方案、尝试了哪些模型以及为什么最终选择了某条路径。这对于需要模型可解释性或希望从AutoML过程中学习经验的数据科学家来说具有额外价值。灵活的任务定义只要LLM能够理解任务描述SELA理论上可以处理任何形式的机器学习任务不局限于表格数据。其框架不绑定于特定的算法库通过更换实验器可以适配不同的执行环境。优异的探索能力在资源模拟次数允许的情况下SELA在寻找顶尖解决方案Best Rank方面表现出色。适用于那些模型性能提升一点就能带来巨大业务价值且愿意为此投入适量计算资源的场景如竞赛、关键模型研发。良好的成本控制通过状态复用机制将单任务成本控制在极低水平使得基于LLM的自动化方案具备了大规模应用的可行性。5.2 实操注意事项与常见问题模拟次数k的权衡参数kMCTS的模拟/滚动次数直接决定了搜索的广度和深度也线性影响计算时间和成本。k太小搜索不充分可能找不到好方案k太大成本增加收益递减。在实践中需要根据数据集复杂度、任务重要性和预算进行调节。论文中多用k10这是一个不错的起点。提示工程的质量至关重要SELA的“智慧”源头是LLM而LLM的表现严重依赖提供给它的提示Prompt。TASK_PROMPT、INSTRUCTION_PROMPT和INSIGHT_PROPOSAL_PROMPT的设计需要精心打磨。模糊或引导性不足的提示会导致LLM生成无关或低质的Insights将整个搜索带偏。对实验器稳定性的依赖SELA依赖于底层的代码执行器如Data Interpreter能够正确、稳定地执行生成的代码。如果实验器本身容易在复杂数据处理或模型训练中出错那么MCTS得到的模拟分数就是不可靠的会导致错误的回溯和决策。确保实验器环境的鲁棒性是前提。计算资源与时间虽然单次任务API成本低但MCTS的模拟是串行或需要协调的。完成一次包含k次模拟的任务总耗时是单次实验时间的k倍以上。对于耗时很长的训练任务如大规模深度学习总时间成本可能变得不可接受。这更适用于中小型表格数据的快速建模。5.3 未来优化方向思考从我个人的实践经验来看SELA这类框架代表了AutoML一个很有前景的方向。要让它更实用有几个可能的优化点并行化模拟MCTS的模拟步骤本质上是独立的可以并行执行以大幅减少总时间。这需要更复杂的任务调度和状态管理。集成先验知识允许用户输入领域特定的约束或偏好例如“禁止使用逻辑回归”、“优先考虑可解释模型”将这些作为提示的一部分或搜索时的过滤条件让搜索更贴合业务需求。元学习加速让SELA能够从过往类似任务的成功搜索路径中学习初始化新的搜索树实现“热启动”从而减少不必要的探索。更精细的成本控制允许用户为不同阶段的LLM调用设置不同的模型或预算上限例如Insight生成用大模型代码生成用小模型进一步优化成本效益比。SELA框架将基于搜索的规划和基于理解的生成相结合为自动化机器学习打开了一扇新的大门。它不再仅仅是参数优化器而是一个能够进行策略性思考的“AI协作者”。尽管目前它在绝对性能上对传统AutoML尚未形成碾压性优势且在实际部署中需考虑延迟和稳定性但其展现出的灵活性和探索能力无疑为那些需要快速迭代、尝试多种可能性、并希望理解自动化决策过程的场景提供了一个强有力的新工具。对于数据科学团队而言它或许不是要完全替代AutoGluon这样的工具而是成为一个在特定场景下如创新方案探索、复杂特征工程构思的补充和增强。

SELA框架：融合MCTS与LLM的智能AutoML新范式

相关文章：

SELA框架：融合MCTS与LLM的智能AutoML新范式

量子软件不稳定测试检测：基于机器学习的自动化解决方案

范畴论视角下的机器学习系统：从代数结构到工程实践

机器学习赋能密度泛函理论：构建半局域交换关联泛函攻克强关联体系

量子机器学习在基因组分类中的实践：特征映射与模型选择指南

基于群论的双曲空间统计建模：从莫比乌斯分布到高效算法

Midjourney对比度黄金公式：Contrast = f(–sref, –style, –iw) × 0.942（基于12,846张生成图回归验证）

从零搭建一个疫情数据看板：用Python(pymysql+Flask+ECharts)实战全流程

自动驾驶、机器人导航都在用：实战调参卡尔曼滤波的Q和R（Python/OpenCV示例）

基于Hugging Face BART模型构建文本摘要服务：从原理到部署实战

构建全球生活便利度指数：多维数据驱动的发展评估框架

智能电表数据填补技术对比：从Holt-Winters到Time-MoE的实战指南

子黎曼几何与庞特里亚金原理：约束系统时间最优控制

条件期望与奇异值分解：概率论与矩阵分析中的最优逼近原理

IEMOCAP数据集预处理实战：用Python和Librosa搞定语音情感识别的数据准备

Atmosphère系统架构深度解析：分层安全模型与模块化设计哲学

内存访问向量技术如何提升CPU性能模拟精度

FlexNet Publisher Host ID获取与验证全指南

基于CNN的口腔鳞状细胞癌智能检测系统开发

LLM在硬件验证中的应用与FLAG框架解析

Cortex-R5不可中断事务机制与内存类型配置详解

用while循环语句求和

用for循环语句求和

用if…elseif…end语句输出成绩等级

基于Hugging Face与Gradio的智能问答系统构建实战

机器学习赋能系统综述：SyROCCo项目实战解析与NLP应用指南

多目标优化模型MO-OBAM：在数据匿名化中权衡隐私保护与数据效用

MO-OBAM模型参数调优实战：平衡数据匿名化中的隐私保护与信息损失

社区检测技术演进与HPMOCD多目标优化实践

Keil ULINK强制全片擦除与CRC校验实践