当前位置: 首页 > article >正文

清华大学车辆学院团队推出大模型微调领域的新型强化学习算法——STAPO

清华大学车辆学院团队推出大模型微调领域的新型强化学习算法近日清华大学车辆学院李克强院士、李升波教授课题组与滴滴自动驾驶部门联合提出了用于大模型微调训练的 STAPOSpurious-Token-Aware Policy Optimization算法旨在解决强化学习RL训练过程中常见的策略熵失稳和性能震荡衰退难题。以六个基准测试AIME24、AIME25、AMC23、MATH500、Minerva 和 OlympiadBench和三个大模型Qwen3 1.7B、8B 和 14B的实验表明STAPO 超越了GRPO、20-Entropy 和 JustRL等算法达到基准测试任务的SOTA性能。这为以词元token为基本要素的大模型训练技术提供了全新设计方案包括自动驾驶汽车、具身智能机器人的VLM和VLA等模型。该研究的创新在于通过碰撞概率与香农熵的上下界分析从数学层面揭示了词元级策略梯度的范数不仅取决于词元生成概率而且还和词元生成熵token-level generation entropy呈现负相关联系这为大模型强化学习算法的设计提供了全新的理论支撑。首次定义了“虚假词元 (spurious token)”的概念即虽然出现在正确回答中但对推理过程几乎无贡献甚至为负的词元。通过构建涵盖策略梯度范数、生成熵变化方向和学习潜力的三维度分析框架建立了以“低”生成概率、“低”生成熵、“正”优势函数为准则的虚假词元判别条件。为进一步提升以词元为基本要素的大模型推理性能提出了虚假词元剔除机制Silencing Spurious Tokens, S2T将该机制与组优势目标函数相结合进行策略梯度计算所衍生的STAPO算法实现了策略熵稳定性和收敛性能的综合提升典型测试场景超越了主流的Baseline算法。算法演化路径目前强化学习正成为自动驾驶端到端模型、机器人具身智能模型、语言类多模态模型的重要训练算法尤其是在大规模神经网络的微调Fine-tuning阶段具有提升场景泛化性、对齐人机偏好度、增强逻辑推理性能的潜在价值。在大模型强化学习领域学界已演化出两大算法设计范式一是以GRPO、DAPO等为代表的全量词元范式主张数据的全面性和多样性以提升训练效率二是以20-Entropy和本研究提出的STAPO为代表的部分词元范式前者筛选前20%的优势词元进行训练而STAPO则通过剔除极少数虚假词元仅0.01%确保数据纯洁度和训练稳定性。这种从“全量覆盖”向“精细筛选”的范式演进正成为提升模型训练效率与逻辑推理连贯性的关键。STAPO算法原理STAPO算法的核心原理是降低虚假词元对优化的影响同时尽量保留策略对真实错误的纠错能力所采用的方案是剔除虚假词元的S2T机制。S2T机制本质是一个二值掩码函数用于在神经网络反向传播时选择性屏蔽落入破坏性区域的词元梯度。当某个词元同时满足优势函数为正A^i0\hat{A}_i0A^i​0、生成概率较低πθ(yi,t)τp\pi_\theta(y_{i,t})\tau_pπθ​(yi,t​)τp​和生成熵较低Htτh\mathcal{H}_t\tau_hHt​τh​的条件时将其判定为虚假词元并剔除其余情况则保留正常梯度计算。Ii,tS2T{0,if A^i0∧πθ(yi,t)τp∧Htτh1,otherwise. \mathbb{I}^{\text{S2T}}_{i,t} \begin{cases} 0, \text{if } \hat{A}_i 0 \land \pi_\theta(y_{i,t}) \tau_p \land \mathcal{H}_t \tau_h \\ 1, \text{otherwise} \end{cases}.Ii,tS2T​{0,1,​ifA^i​0∧πθ​(yi,t​)τp​∧Ht​τh​otherwise​.结合组优势目标函数STAPO算法的总体更新目标定义为JSTAPO(θ)E[∑i,tIi,tS2T⋅min⁡(ρi,tA^i,clip(ρi,t,1−ϵlow,1ϵhigh)A^i)∑i,tIi,tS2T]ρi,t(θ)πθ(yi,t∣x,yi,t)πθold(yi,t∣x,yi,t),A^iR(x,yi)−mean({Rj})std({Rj}), \begin{aligned} \mathcal{J}_{\text{STAPO}}(\theta) \mathbb{E} \left[ \frac{\sum_{i,t} \mathbb{I}^{\text{S2T}}_{i,t} \cdot \min \left( \rho_{i,t} \hat{A}_{i}, \text{clip}(\rho_{i,t}, 1-\epsilon_{\text{low}}, 1\epsilon_{\text{high}}) \hat{A}_{i} \right)}{\sum_{i,t}\mathbb{I}^{\text{S2T}}_{i,t}} \right] \\ \rho_{i,t}(\theta) \frac{\pi_\theta(y_{i,t} \mid \boldsymbol{x}, \boldsymbol{y}_{i,t})}{\pi_{\theta_{\text{old}}}(y_{i,t} \mid \boldsymbol{x}, \boldsymbol{y}_{i,t})} \quad , \quad \hat{A}_i \frac{R(\boldsymbol{x}, \boldsymbol{y}_i) - \text{mean}(\{R_j\})}{\text{std}(\{R_j\})}, \end{aligned}JSTAPO​(θ)ρi,t​(θ)​E​∑i,t​Ii,tS2T​∑i,t​Ii,tS2T​⋅min(ρi,t​A^i​,clip(ρi,t​,1−ϵlow​,1ϵhigh​)A^i​)​​πθold​​(yi,t​∣x,yi,t​)πθ​(yi,t​∣x,yi,t​)​,A^i​std({Rj​})R(x,yi​)−mean({Rj​})​,​其中πθ(yi,t)\pi_\theta(y_{i,t})πθ​(yi,t​)为当前策略对第ttt个词元的生成概率Ht\mathcal{H}_tHt​为该位置的词元生成熵。典型任务测试结果研究团队在Qwen3 1.7B、8B 和 14B Base模型上开展系统评测并在六个数学推理基准上与GRPO、20-Entropy、JustRL等大模型强化学习算法进行对比。结果表明STAPO在训练阶段展现出超越Baseline的策略熵稳定性并在不同评测参数设置下均取得SOTA性能1ρT\rho_{\mathrm{T}}ρT​1.0、top-p1.0参数黑色字体平均提升7.13%2ρT\rho_{\mathrm{T}}ρT​0.7、top-p0.9 参数灰色字体平均提升3.69%。研究团队进一步对准确率AIME24 Acc32、策略熵Entropy和训练奖励Training Reward等关键指标进行了可视化分析。如下图所示相较于20-Entropy、JustRL算法STAPO的策略熵更加平滑、波动更小体现出更加稳定的探索能力相较于GRPO算法STAPO的策略熵不会退化为零保持了良好的探索能力与此同时STAPO的准确率与训练奖励也获得了更加优异的表现。这一研究还展示了训练过程出现的虚假词元案例。如下图所示低概率的虚假词元通常表现为语义不当、计算错误、格式混乱等形式这类词元容易被训练算法局部放大并干扰整体推理路径相比之下高概率的候选词元更有助于保持语义一致性与推理链条的连贯性。下一步研究团队将推动STAPO算法用于物理世界的具身智能大模型聚焦于自动驾驶端到端模型的微调训练任务以提升高级别自动驾驶系统面向未知场景的泛化能力。

相关文章:

清华大学车辆学院团队推出大模型微调领域的新型强化学习算法——STAPO

清华大学车辆学院团队推出大模型微调领域的新型强化学习算法 近日,清华大学车辆学院李克强院士、李升波教授课题组与滴滴自动驾驶部门联合提出了用于大模型微调训练的 STAPO(Spurious-Token-Aware Policy Optimization)算法,旨在解…...

洛谷:P1424 小鱼的航程(改进版)

题目描述有一只小鱼,它平日每天游泳 250 公里,周末休息(实行双休日),假设从周 x 开始算起,过了 n 天以后,小鱼一共累计游泳了多少公里呢?输入格式输入两个正整数 x,n,表示从周 x 算起…...

往期精彩|EBioMedicine:MRI脑年龄异质性、认知、遗传学与阿尔茨海默病神经病理学之间的关系

摘要总结:该研究基于大样本、多中心、多模态神经影像数据,深入探讨了认知正常老年人群中脑龄异质性与阿尔茨海默病(AD)神经病理、认知表现及遗传背景之间的复杂关系。研究通过构建结构和功能MRI脑龄预测模型,将个体划分…...

ARM指令流水线的分类与比较(ARM处理器指令系统——指令流水线,中篇)

本文声明:内容来源于网络,进行整合/再创作;部分内容由AI辅助生成。ARM微处理器主要包含3级指令流水线、5级指令流水线、7级指令流水线、8级指令流水线和13级指令流水线这5个流水线。本节着重讲述3级、5级指令流水线。3级指令流水线到ARM7为止…...

Jellyfin在Android上的实战指南:打造你的开源家庭媒体中心

1. 为什么选择Jellyfin?从零开始认识你的开源媒体管家 如果你和我一样,家里攒了一堆电影、电视剧、音乐和家庭照片,分散在电脑硬盘、NAS甚至旧手机里,每次想找个片子看都得折腾半天,那你一定需要个“媒体中心”。市面上…...

基于FPGA的以太网设计(五):ARP协议状态机实战与板级调试

1. 从仿真到上板:ARP状态机调试的“最后一公里” 上一篇文章我们详细拆解了ARP接收和发送模块的Verilog代码实现,相信你已经对状态机的每个状态跳转和数据流处理有了清晰的认识。代码写完了,仿真波形看起来也完美无缺,是不是感觉大…...

SER5 Pro迷你主机实战:ESXi+虚拟机打造高效All in One家庭服务器

1. 为什么选择SER5 Pro作为你的家庭服务器核心? 如果你和我一样,是个喜欢折腾但又怕麻烦的家庭技术爱好者,那么一台小巧、安静、性能又够用的迷你主机,绝对是打造家庭数字中枢的绝佳选择。我前前后后用过好几款迷你主机&#xff0…...

C++内存池在Tick级交易系统中的5大致命缺陷:从L3缓存未命中到NUMA跨节点延迟,如何72小时内重构?

第一章:Tick级交易系统内存池的性能悖论与重构动因在毫秒乃至微秒级响应要求的Tick级交易系统中,内存池本应是降低GC压力、规避堆分配抖动的核心基础设施。然而实践中却频繁观测到一种反直觉现象:启用定制化内存池后,订单匹配延迟…...

【自然语言处理】从编译器视角看NLP:分层架构的共性与技术迁移路径

1. 引言:当编译器工程师遇上自然语言 大家好,我是老张,一个在AI和编译器领域摸爬滚打了十多年的老码农。这些年,我见过不少工程师朋友,一提到自然语言处理(NLP),就觉得那是另一个世界…...

IEEE期刊分区大洗牌:2025年这些1区期刊跌到2区,你的论文还值钱吗?

IEEE期刊分区洗牌:科研价值锚点迁移下的理性应对指南 又到了年底,对于很多科研工作者,尤其是计算机、电子、通信等领域的学者和研究生来说,除了年终总结,还有一件牵动神经的大事——中科院期刊分区表的更新。这几天&am…...

Temenos T24核心系统开发实战:JBase Basic语言从入门到精通

1. 初识T24与JBase Basic:银行IT人的新起点 如果你刚加入一家银行的科技部门,或者被分配去维护那个听起来就很高大上的“核心系统”,那么“Temenos T24”这个名字很快就会成为你日常的一部分。别紧张,我第一次接触它的时候也是一头…...

告别自签名警告:基于acme.sh为宝塔面板部署免费IP SSL证书实战

1. 为什么你的宝塔面板总被浏览器“嫌弃”? 每次打开宝塔面板,看到浏览器地址栏那个刺眼的红色“不安全”警告,或者那个需要你手动点击“高级”->“继续前往”的提示,是不是感觉特别不专业?心里还会犯嘀咕&#xff…...

Flutter 三方库 flutter_auto_localizations 的鸿蒙化适配指南 - 国际化研发的减速带切除术、在鸿蒙端实现多语言代码自动生成实战

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.csdn.net Flutter 三方库 flutter_auto_localizations 的鸿蒙化适配指南 - 国际化研发的减速带切除术、在鸿蒙端实现多语言代码自动生成实战 前言 【里程碑达成:我们已跨越 150 篇大关&…...

Flutter 三方库 shelf_open_api 的鸿蒙化适配指南 - 契约驱动的开发美学、在鸿蒙端实现 Shelf 的 OpenAPI 自动生成实战

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.csdn.net Flutter 三方库 shelf_open_api 的鸿蒙化适配指南 - 契约驱动的开发美学、在鸿蒙端实现 Shelf 的 OpenAPI 自动生成实战 前言 在进行 Flutter for OpenHarmony 的端侧微服务开发、或是为鸿…...

【ZERO-PAD】基于微雪RP2040-ZERO与QMK的模块化桌面宏键盘DIY全攻略

【ZERO-PAD】基于微雪RP2040-ZERO与QMK的模块化桌面宏键盘DIY全攻略 大家好,最近在捣鼓桌面快捷键盘,发现很多成品要么太贵,要么功能固定不够好玩。于是,我找到了立创开源平台上一个叫【ZERO-PAD】的项目,它完美解决了…...

nanobot效果展示:Qwen3-4B在QQ中执行netstat -tuln并解释监听端口含义

nanobot效果展示:Qwen3-4B在QQ中执行netstat -tuln并解释监听端口含义 1. 引言:当AI助手遇上系统命令 想象一下,你正在管理一台服务器,需要快速查看哪些端口正在监听网络连接。你打开终端,输入熟悉的 netstat -tuln …...

全栈可视化开发新选择 网易 CodeWave 开发效率拉满

一、什么是网易智企- CodeWave? 网易智企- CodeWave 是网易数智基于自研智能开发底座和 NASL 全栈编程语言打造的企业级应用研发平台,也是国内唯一的「全栈」可视化开发平台。它区别于传统 AI 编码工具仅聚焦代码层提效的局限,实现了数据、页面、逻辑和流程的一体化设计与交付…...

2024年企业级网络架构实战:跨地域OSPF与BGP混合组网解析

1. 为什么你的企业网络需要OSPF与BGP混合组网? 如果你是一家正在快速扩张的集团企业IT负责人,或者是一名负责网络架构的工程师,你一定遇到过这样的烦恼:总部和分公司之间的网络连接,要么慢得像蜗牛,要么三天…...

EPLAN端子排自定义:从零搭建到高效维护

1. 为什么你需要自定义端子排?从“能用”到“好用”的必经之路 我刚入行那会儿,接手一个改造项目,图纸里的端子排简直是一场灾难。端子编号东一个西一个,有的页面上是“X1:1”,下一页就跳到了“X1:5”,中间…...

KART-RERANK模型压缩与加速:面向边缘设备的部署实践

KART-RERANK模型压缩与加速:面向边缘设备的部署实践 最近在折腾一个很有意思的项目,就是把一个原本在云端跑得挺好的排序模型,想办法塞到资源紧张的边缘设备里去。这个模型叫KART-RERANK,原本是用来做搜索结果精排的,…...

OFA图像描述系统快速部署指南:一键启动Web服务,零配置使用AI描述图片

OFA图像描述系统快速部署指南:一键启动Web服务,零配置使用AI描述图片 1. 项目介绍:让图片“开口说话”的智能工具 你有没有遇到过这样的场景?手头有一堆图片,需要为它们配上文字说明,但自己写又耗时费力&…...

DDR5内存上电初始化全解析:从RESET信号到稳定工作的完整流程(附时序图)

DDR5内存上电初始化:硬件工程师的实战手册与深度时序剖析 当一块全新的DDR5内存条插入主板,或者一个嵌入式系统的电源开关被按下,一场精密而有序的“交响乐”便在芯片内部悄然奏响。对于硬件工程师和嵌入式开发者而言,理解这场“交…...

Ubuntu 20.04下WireShark安装后无法抓包?3步搞定权限问题

Ubuntu 20.04下WireShark权限问题深度解析:从原理到实战的完整指南 你是否也曾在Ubuntu上兴致勃勃地打开WireShark,准备一探网络流量的究竟,却被一句冷冰冰的“You don‘t have permission to capture on that device”浇了个透心凉&#xff…...

从理论到代码:YALMIP工具箱在双层优化中的完整工作流(含KKT条件自动生成技巧)

从理论到代码:YALMIP工具箱在双层优化中的完整工作流(含KKT条件自动生成技巧) 如果你正在研究能源系统、博弈论或者供应链管理,很可能已经遇到了一个让人头疼的数学问题——双层优化。它像是一个嵌套的决策游戏,上层领…...

【人工智能技术全景解析】从LLM到AI Agent:核心架构与多模态应用实践

1. 从“超级大脑”到“全能助手”:LLM如何成为AI Agent的基石 如果你最近用过豆包、文心一言或者ChatGPT这类聊天机器人,你可能会惊叹于它们流畅的对话和丰富的知识。但你可能也发现了,它们更像一个“超级大脑”——你问,它答&…...

腾讯优图AI解析实测:上传图片自动识别文字、表格、公式、印章

腾讯优图AI解析实测:上传图片自动识别文字、表格、公式、印章 前言 你有没有遇到过这样的烦恼?领导发来一份扫描的合同PDF,让你把里面的关键信息整理成表格;或者收到一份满是公式和图表的研究报告,需要把内容提取出来…...

Qwen3-ForcedAligner高并发实践:基于Node.js的异步处理服务

Qwen3-ForcedAligner高并发实践:基于Node.js的异步处理服务 1. 引言 语音识别和强制对齐技术在现代AI应用中扮演着越来越重要的角色,特别是当我们需要处理大量音频数据并为每个词或字符标注精确的时间戳时。Qwen3-ForcedAligner-0.6B作为一个强大的强制…...

阿里CosyVoice2快速入门:5步实现高质量语音合成与克隆

阿里CosyVoice2快速入门:5步实现高质量语音合成与克隆 1. 引言 想象一下,你手头有一段3秒钟的录音,可能是同事的问候,也可能是你自己的声音。现在,你想让这个声音为你朗读一份全新的产品介绍,或者用四川话…...

记录我重写了 Agent 的 Plan 系统:为什么 Replan 是可进化 Agent 的关键

摘要Agent 项目都在讲"自主规划",但落到工程上,往往是开场列一份 Todo,或者让模型临场改主意。我最近在维护SkillLite 的时候遇到一个在更底层的事:把"重新规划"做成一个可观测、可度量、可沉淀为进化信号的系…...

数据智能体目前能做到多少准确率?

📐 2026 年行业实测数据 主流厂商技术路线准确率对比引言"准确率"是衡量数据智能体能力的核心指标,也是企业选型时最关心的问题。95% 的准确率意味着什么?为什么有些厂商声称 99%,实际使用却频频出错?不同技…...