当前位置：首页 > article >正文

清华大学车辆学院团队推出大模型微调领域的新型强化学习算法——STAPO

article 2026/3/14 13:03:37

清华大学车辆学院团队推出大模型微调领域的新型强化学习算法近日清华大学车辆学院李克强院士、李升波教授课题组与滴滴自动驾驶部门联合提出了用于大模型微调训练的 STAPOSpurious-Token-Aware Policy Optimization算法旨在解决强化学习RL训练过程中常见的策略熵失稳和性能震荡衰退难题。以六个基准测试AIME24、AIME25、AMC23、MATH500、Minerva 和 OlympiadBench和三个大模型Qwen3 1.7B、8B 和 14B的实验表明STAPO 超越了GRPO、20-Entropy 和 JustRL等算法达到基准测试任务的SOTA性能。这为以词元token为基本要素的大模型训练技术提供了全新设计方案包括自动驾驶汽车、具身智能机器人的VLM和VLA等模型。该研究的创新在于通过碰撞概率与香农熵的上下界分析从数学层面揭示了词元级策略梯度的范数不仅取决于词元生成概率而且还和词元生成熵token-level generation entropy呈现负相关联系这为大模型强化学习算法的设计提供了全新的理论支撑。首次定义了“虚假词元 (spurious token)”的概念即虽然出现在正确回答中但对推理过程几乎无贡献甚至为负的词元。通过构建涵盖策略梯度范数、生成熵变化方向和学习潜力的三维度分析框架建立了以“低”生成概率、“低”生成熵、“正”优势函数为准则的虚假词元判别条件。为进一步提升以词元为基本要素的大模型推理性能提出了虚假词元剔除机制Silencing Spurious Tokens, S2T将该机制与组优势目标函数相结合进行策略梯度计算所衍生的STAPO算法实现了策略熵稳定性和收敛性能的综合提升典型测试场景超越了主流的Baseline算法。算法演化路径目前强化学习正成为自动驾驶端到端模型、机器人具身智能模型、语言类多模态模型的重要训练算法尤其是在大规模神经网络的微调Fine-tuning阶段具有提升场景泛化性、对齐人机偏好度、增强逻辑推理性能的潜在价值。在大模型强化学习领域学界已演化出两大算法设计范式一是以GRPO、DAPO等为代表的全量词元范式主张数据的全面性和多样性以提升训练效率二是以20-Entropy和本研究提出的STAPO为代表的部分词元范式前者筛选前20%的优势词元进行训练而STAPO则通过剔除极少数虚假词元仅0.01%确保数据纯洁度和训练稳定性。这种从“全量覆盖”向“精细筛选”的范式演进正成为提升模型训练效率与逻辑推理连贯性的关键。STAPO算法原理STAPO算法的核心原理是降低虚假词元对优化的影响同时尽量保留策略对真实错误的纠错能力所采用的方案是剔除虚假词元的S2T机制。S2T机制本质是一个二值掩码函数用于在神经网络反向传播时选择性屏蔽落入破坏性区域的词元梯度。当某个词元同时满足优势函数为正A^i0\hat{A}_i0A^i0、生成概率较低πθ(yi,t)τp\pi_\theta(y_{i,t})\tau_pπθ(yi,t)τp和生成熵较低Htτh\mathcal{H}_t\tau_hHtτh的条件时将其判定为虚假词元并剔除其余情况则保留正常梯度计算。Ii,tS2T{0,if A^i0∧πθ(yi,t)τp∧Htτh1,otherwise. \mathbb{I}^{\text{S2T}}_{i,t} \begin{cases} 0, \text{if } \hat{A}_i 0 \land \pi_\theta(y_{i,t}) \tau_p \land \mathcal{H}_t \tau_h \\ 1, \text{otherwise} \end{cases}.Ii,tS2T{0,1,ifA^i0∧πθ(yi,t)τp∧Htτhotherwise.结合组优势目标函数STAPO算法的总体更新目标定义为JSTAPO(θ)E[∑i,tIi,tS2T⋅min⁡(ρi,tA^i,clip(ρi,t,1−ϵlow,1ϵhigh)A^i)∑i,tIi,tS2T]ρi,t(θ)πθ(yi,t∣x,yi,t)πθold(yi,t∣x,yi,t),A^iR(x,yi)−mean({Rj})std({Rj}), \begin{aligned} \mathcal{J}_{\text{STAPO}}(\theta) \mathbb{E} \left[ \frac{\sum_{i,t} \mathbb{I}^{\text{S2T}}_{i,t} \cdot \min \left( \rho_{i,t} \hat{A}_{i}, \text{clip}(\rho_{i,t}, 1-\epsilon_{\text{low}}, 1\epsilon_{\text{high}}) \hat{A}_{i} \right)}{\sum_{i,t}\mathbb{I}^{\text{S2T}}_{i,t}} \right] \\ \rho_{i,t}(\theta) \frac{\pi_\theta(y_{i,t} \mid \boldsymbol{x}, \boldsymbol{y}_{i,t})}{\pi_{\theta_{\text{old}}}(y_{i,t} \mid \boldsymbol{x}, \boldsymbol{y}_{i,t})} \quad , \quad \hat{A}_i \frac{R(\boldsymbol{x}, \boldsymbol{y}_i) - \text{mean}(\{R_j\})}{\text{std}(\{R_j\})}, \end{aligned}JSTAPO(θ)ρi,t(θ)E∑i,tIi,tS2T∑i,tIi,tS2T⋅min(ρi,tA^i,clip(ρi,t,1−ϵlow,1ϵhigh)A^i)πθold(yi,t∣x,yi,t)πθ(yi,t∣x,yi,t),A^istd({Rj})R(x,yi)−mean({Rj}),其中πθ(yi,t)\pi_\theta(y_{i,t})πθ(yi,t)为当前策略对第ttt个词元的生成概率Ht\mathcal{H}_tHt为该位置的词元生成熵。典型任务测试结果研究团队在Qwen3 1.7B、8B 和 14B Base模型上开展系统评测并在六个数学推理基准上与GRPO、20-Entropy、JustRL等大模型强化学习算法进行对比。结果表明STAPO在训练阶段展现出超越Baseline的策略熵稳定性并在不同评测参数设置下均取得SOTA性能1ρT\rho_{\mathrm{T}}ρT1.0、top-p1.0参数黑色字体平均提升7.13%2ρT\rho_{\mathrm{T}}ρT0.7、top-p0.9 参数灰色字体平均提升3.69%。研究团队进一步对准确率AIME24 Acc32、策略熵Entropy和训练奖励Training Reward等关键指标进行了可视化分析。如下图所示相较于20-Entropy、JustRL算法STAPO的策略熵更加平滑、波动更小体现出更加稳定的探索能力相较于GRPO算法STAPO的策略熵不会退化为零保持了良好的探索能力与此同时STAPO的准确率与训练奖励也获得了更加优异的表现。这一研究还展示了训练过程出现的虚假词元案例。如下图所示低概率的虚假词元通常表现为语义不当、计算错误、格式混乱等形式这类词元容易被训练算法局部放大并干扰整体推理路径相比之下高概率的候选词元更有助于保持语义一致性与推理链条的连贯性。下一步研究团队将推动STAPO算法用于物理世界的具身智能大模型聚焦于自动驾驶端到端模型的微调训练任务以提升高级别自动驾驶系统面向未知场景的泛化能力。

清华大学车辆学院团队推出大模型微调领域的新型强化学习算法——STAPO

相关文章：

清华大学车辆学院团队推出大模型微调领域的新型强化学习算法——STAPO

洛谷：P1424 小鱼的航程（改进版）

往期精彩|EBioMedicine：MRI脑年龄异质性、认知、遗传学与阿尔茨海默病神经病理学之间的关系

ARM指令流水线的分类与比较（ARM处理器指令系统——指令流水线，中篇）

Jellyfin在Android上的实战指南：打造你的开源家庭媒体中心

基于FPGA的以太网设计（五）：ARP协议状态机实战与板级调试

SER5 Pro迷你主机实战：ESXi+虚拟机打造高效All in One家庭服务器

C++内存池在Tick级交易系统中的5大致命缺陷：从L3缓存未命中到NUMA跨节点延迟，如何72小时内重构？

【自然语言处理】从编译器视角看NLP：分层架构的共性与技术迁移路径

IEEE期刊分区大洗牌：2025年这些1区期刊跌到2区，你的论文还值钱吗？

Temenos T24核心系统开发实战：JBase Basic语言从入门到精通

告别自签名警告：基于acme.sh为宝塔面板部署免费IP SSL证书实战

Flutter 三方库 flutter_auto_localizations 的鸿蒙化适配指南 - 国际化研发的减速带切除术、在鸿蒙端实现多语言代码自动生成实战

Flutter 三方库 shelf_open_api 的鸿蒙化适配指南 - 契约驱动的开发美学、在鸿蒙端实现 Shelf 的 OpenAPI 自动生成实战

【ZERO-PAD】基于微雪RP2040-ZERO与QMK的模块化桌面宏键盘DIY全攻略

nanobot效果展示：Qwen3-4B在QQ中执行netstat -tuln并解释监听端口含义

全栈可视化开发新选择网易 CodeWave 开发效率拉满

2024年企业级网络架构实战：跨地域OSPF与BGP混合组网解析

EPLAN端子排自定义：从零搭建到高效维护

KART-RERANK模型压缩与加速：面向边缘设备的部署实践

OFA图像描述系统快速部署指南：一键启动Web服务，零配置使用AI描述图片

DDR5内存上电初始化全解析：从RESET信号到稳定工作的完整流程（附时序图）

Ubuntu 20.04下WireShark安装后无法抓包？3步搞定权限问题

从理论到代码：YALMIP工具箱在双层优化中的完整工作流（含KKT条件自动生成技巧）

【人工智能技术全景解析】从LLM到AI Agent：核心架构与多模态应用实践

腾讯优图AI解析实测：上传图片自动识别文字、表格、公式、印章

Qwen3-ForcedAligner高并发实践：基于Node.js的异步处理服务

阿里CosyVoice2快速入门：5步实现高质量语音合成与克隆

记录我重写了 Agent 的 Plan 系统：为什么 Replan 是可进化 Agent 的关键

数据智能体目前能做到多少准确率？