当前位置: 首页 > article >正文

OPD为何如此高效?中科大揭开参数动力学密码,后训练提速3倍

只跑到约 10% 训练进度OPD 已能恢复约 80% 的最终推理性能EffOPD 顺势把后训练提速到约 3 倍。虽然 LLMs 的推理能力依靠强化学习RL得到了大幅提升但 RL 训练过程往往漫长、昂贵且充满试错同时在多任务融合、能力迁移等场景中MixRL 的效果也常常不够理想。因此近年来各类工业级大模型越来越多地采用On-Policy DistillationOPD作为后训练和模型融合的重要范式让学生模型在自身分布上生成样本并从更强的教师模型中获得稠密监督从而以更低成本获得和 RL 相当的性能提升。然而OPD 为何如此高效至今仍缺乏清晰解释。现有研究通常将其优势归因于更稠密、更稳定的监督信号。但这类以优化目标为中心的解释仍然较为宏观无法刻画其底层参数更新动态也难以回答一个更根本的问题OPD 究竟在参数空间中做对了什么它为什么能比 RL更加高效论文标题Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation论文链接http://arxiv.org/abs/2605.11739代码链接https://github.com/caiyuchen-ustc/EffOPD近期中国科学技术大学团队从参数更新动态出发发现 OPD 的高效并不只是“监督更密集”这么简单而是源于参数空间中的一种foresight / 预见性。论文将其总结为两个核心规律第一OPD 知道“哪里值得更新”。在相同更新范数下OPD 相比 RL 能带来更高的推理性能提升。进一步分析发现RL 会在底层、顶层等低收益区域产生大量冗余更新而 OPD 能在训练早期识别这些低边际收益模块并将更新更集中地分配到对推理更关键的中间层模块。第二OPD 知道“该往哪里走”。谱分析显示OPD 的参数更新具有更强的低秩集中性其主导子空间在训练早期就已与最终模型高度对齐。更直观地说通过对更新参数进行适当缩放OPD 在约 10% 训练进度时就能恢复约 80% 的最终推理性能。这说明 OPD 早期已经找到主要优化方向后续训练更多是在沿着该方向继续放大更新。换言之OPD 的高效是因为它更早完成了两件事选对模块走对方向。基于这一发现团队进一步提出 EffOPD既然 OPD 早期已经锁定高质量更新方向就可以沿当前方向进行自适应外推跳过大量不必要的中间训练步骤。实验显示EffOPD 在 1.5B 到 32B 多个模型规模平均实现约 3× 训练加速。〓 图1. Overview简而言之这项工作的意义在于1. 揭示了 OPD 高效性的底层参数动力学机制训练早期即形成“模块选择”和“方向锁定”的双重预见性2. 提出即插即用的 EffOPD 加速算法无需额外模块、复杂超参或人工干预3. 为大模型后训练、模型融合和小模型蒸馏提供了新思路高效训练的关键可能不是更长时间探索而应赋予正确更新方向更大的关注权重。这项工作也是 AlphaRL 团队在参数动力学方向上的进一步探索。团队此前曾发现RL 训练过程中的参数更新具有高度可预测的低维结构相关解读可参考本公众号此前文章如果RL可预测我们还需要把训练跑满吗中科大揭示参数更新的线性秘密。实验〓 图2. RL 与 OPD 参数更新效率对比在本篇工作中作者首先沿用 AlphaRL [1] 的参数动力学分析思路研究 OPD 与 RL 在模块层面的差异。具体来说论文关注训练带来的参数增量随后将该更新按比例缩放后加回 base model以比较在相同更新规模下RL 和 OPD 分别能带来多少性能提升。结果显示见图 2(a)OPD 在相同更新范数下能获得更高的推理收益。进一步地作者比较了训练过程中不同 checkpoint 的更新范数与性能关系发现 OPD 在整个训练轨迹中都能用更小的参数更新达到相近甚至更高性能。这说明OPD 的优势并非来自 RL 后期冗余更新的累积而是从训练早期开始就形成了更紧凑、更任务相关的更新模式。换言之OPD 从一开始就更会把力气用在刀刃上。〓 图3. 不同架构组件中的功能贡献与更新分布接下来作者进一步分析 OPD 与 RL 的 norm 差异具体来自哪些模块。 论文将模型参数划分为 Embedding、MLP 和 Attention 三类。首先作者将训练后模型的 Embedding 替换回 base model 的 Embedding同时保持其他模块不变结果发现性能几乎不受影响 (图3(a))说明 Embedding 更新对 reasoning gain 的贡献很小。因此作者将重点放在 MLP 和 Attention 上并采用滑动窗口干预以第 l 层为中心将 l-8 到 l8 层的对应模块更新注入 base model观察性能恢复情况。结果显示中间层更新对推理性能恢复最关键这与已有研究结论一致 [2]。进一步比较各层更新 norm 可以发现见图3(b)在中间层这些高收益区域RL 和 OPD 都能进行较有效的更新但在底层和顶层等低收益区域RL 会产生明显更大的冗余更新而 OPD 的更新 norm 显著更小。这说明OPD 的优势并不是学习了一套全新的更新机制而是能更准确地区分高收益与低收益参数区域并抑制外围层中的无效更新。作者将其总结为 OPD 在模块层面的前瞻性即 Property 1: Functional Redundancy Avoidance功能冗余规避。前述分析表明OPD 在模块层面具有明显的“前瞻性”。接下来作者进一步从几何视角研究 OPD 参数更新的内在结构并提出第二个核心性质Early Low-Rank Lock-in早期低秩锁定。具体来说作者和此前工作一样对参数更新矩阵进行 SVD 分解并引入四个几何指标来刻画其谱结构谱范数、谱范数 / Frobenius 范数比、有效秩以及 Top-1% 子空间范数比。前两个指标衡量主导奇异方向有多强后两个指标衡量更新能量是否集中在少数方向上。结果显示见表 1相比 RLOPD 的更新具有更强的低秩集中性。尽管 OPD 的整体更新范数更小但它会将更大比例的更新能量集中到少数主导方向上。值得一提的是在团队此前关于 AlphaRL [1] 的工作中作者们已经发现 RL 相比 SFT 具有更强的低秩集中性而本篇工作进一步表明在后训练范式内部OPD 相比 RL 还能表现出更强的方向集中与结构约束。这自然引出一个问题OPD 的低秩集中性是否正是其高效性的来源为回答这一点作者进一步设计了两个受控实验分别考察主导子空间的方向质量与尾部子空间的边际贡献。〓 图4. 低秩空间分析首先作者使用 Top-k% 奇异分量构造主子空间更新。结果发现见图 4(b)两种方法仅使用 10% 的秩就能恢复完整模型超过 95% 的推理性能说明主子空间确实是 reasoning gain 的主要载体。随后作者进一步考察尾部方向即由最后 k% 奇异分量构成的。与主子空间不同尾部子空间对性能恢复贡献十分有限如图 4(b)例如在 Qwen2.5-1.5B-DeepSeek 上仅保留 10% 主子空间即可显著恢复性能而即使保留 50% 尾部子空间收益仍然有限。有趣的是RL 在尾部方向上略优于 OPD但代价是其尾部子空间 norm 约为 OPD 的 1.6 到 2.5 倍性能提升却很小。换言之RL 将大量更新幅度分配给了低边际收益的尾部方向而 OPD 更倾向于把更新集中到真正有效的主方向上。这也从几何层面解释了前述 Property 1: Functional Redundancy Avoidance为什么在达到相近推理性能时OPD 所需的整体更新 norm 更小。〓 图5. 训练过程中的子空间演化与权重缩放分析接下来作者进一步验证 OPD 是否会在训练早期锁定更新方向。首先作者通过 PCA 和 t-SNE 可视化 Rank-1 更新方向发现见图5aRL 在不同 checkpoint 间变化更大而 OPD 轨迹更紧凑、平滑说明其更新方向更稳定。进一步地作者计算每个训练步骤的 Top-k 子空间与最终 checkpoint 子空间的余弦相似度。如图 5b结果显示OPD 在训练早期就与最终方向高度对齐且波动明显小于 RL说明其主导更新方向更早稳定下来。那么早期 OPD 与最终模型的性能差距来自哪里作者通过模块级范数缩放进行验证见图5c保留早期 checkpoint 的更新方向仅将 MLP 和 Attention 的更新 norm 缩放到最终 checkpoint 的大小。结果发现仅 10% 训练进度的 OPD checkpoint 就能恢复约 80% 的最终性能并进一步降低与教师模型的 KL 散度。这说明OPD 早期已经找到了有效方向后续训练主要是在这些方向上继续放大更新幅度。作者这一现象被总结为 Early Low-Rank Lock-in早期低秩锁定。加速算法前述分析表明OPD 在训练早期就已经建立了高度稳定、且与最终 checkpoint 对齐的更新方向后续训练更多是在这一方向上继续放大更新幅度而不是反复探索新的优化路径。基于这一观察作者提出了一个即插即用的加速框架 EffOPD。其核心思想非常直观既然 OPD 已经提前判断出了有效更新方向就可以沿着这个方向多走几步从而跳过部分中间训练过程。具体来说EffOPD 会在训练到等指数间隔 checkpoint 时触发外推。对于当前 checkpoint方法首先利用当前 checkpoint 与上一个 checkpoint 之间的参数差来估计局部更新方向随后EffOPD 沿着该方向生成 5 个不同步长的候选模型为了避免过度外推带来的性能退化EffOPD 会随机抽取 50 个训练样本构造轻量验证集并依次测试这些候选模型。如果候选模型性能不下降则接受该外推一旦性能下降就立即停止继续外推。如果第一个候选模型就失败EffOPD 会自动退化为普通 OPD。因此EffOPD 可以被简单理解为提前判断 OPD 的更新方向然后沿这个方向自适应多走几步。这种设计既利用了 OPD 早期方向锁定的特性又通过轻量验证机制避免了盲目外推使其能够在不引入额外训练模块和复杂超参的情况下实现稳定的训练加速。〓 图6. 不同蒸馏方法在代码生成与数学推理任务上的性能对比可以发现相比于 vanilla OPDEffOPD 的加速效果是非常明显的对于Qwen3-4B-Non-ThinkingEffOPD 在第 4-6 个 step 就已经收敛而 vanilla 则需要约 40 个 step加速高达 8-10 倍。此外相比 AlphaOPD 和 ExOPD 这类采用固定或受限外推策略的加速方法EffOPD 通过轻量验证集自适应选择外推幅度能够更灵活地匹配当前训练阶段的有效更新方向。因此EffOPD 在加速稳定性和最终性能上均表现出更优的整体效果。参考文献[1] On Predictability of Reinforcement Learning Dynamics for Large Language Models[2] Locating and editing factual associations in gpt, 2023更多阅读#投 稿 通 道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·

相关文章:

OPD为何如此高效?中科大揭开参数动力学密码,后训练提速3倍

只跑到约 10% 训练进度,OPD 已能恢复约 80% 的最终推理性能,EffOPD 顺势把后训练提速到约 3 倍。虽然 LLMs 的推理能力依靠强化学习(RL)得到了大幅提升,但 RL 训练过程往往漫长、昂贵且充满试错;同时&#…...

FanControl:重新定义Windows风扇控制,告别恼人噪音与散热烦恼

FanControl:重新定义Windows风扇控制,告别恼人噪音与散热烦恼 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/…...

OpenClaw API限速机制解析与工程化应对方案

1. 这不是服务器崩了,是OpenClaw在“礼貌地拒客”你刚把OpenClaw集成进自己的数据采集流程,跑通第一个API调用,返回200,心里一热;第二轮批量请求发出去,不到三秒,控制台炸出一行红字&#xff1a…...

低空飞行器降噪气动智能反向设计系统已融合人工智能AI软件平台

低空飞行器降噪气动智能反向设计大模型系统已融合人工智能AI软件平台一、系统概述本系统专为低空飞行器在城市低空飞行、近地通航及密集空域作业等场景量身打造。针对当前行业内气动噪声突出、降噪设计迭代缓慢、正向构型试错成本高昂、流噪耦合计算复杂以及合规降噪难度大等核…...

终极QQ空间备份指南:用GetQzonehistory永久保存你的青春记忆

终极QQ空间备份指南:用GetQzonehistory永久保存你的青春记忆 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 你是否也曾担心多年积累的QQ空间说说会随着时间消失&#xff1f…...

如何在RK35XX设备上部署稳定高效的Ubuntu系统?

如何在RK35XX设备上部署稳定高效的Ubuntu系统? 【免费下载链接】ubuntu-rockchip Ubuntu for Rockchip RK35XX Devices 项目地址: https://gitcode.com/gh_mirrors/ub/ubuntu-rockchip 想要在Rockchip RK35XX系列开发板上获得接近原生Ubuntu的体验吗&#xf…...

算力运维迎革命! OpsAMAX 上线,AI 让服务器集群运维 “零门槛”

算力时代,大模型、生物医药、智能制造等领域的飞速发展,让 HPC、AI 服务器集群成为核心生产力。但算力越强、集群越复杂,运维难题就越突出:告警刷屏找不到故障根因、老专家经验没法传承、异构设备管不动、故障停机拖垮业务进度………...

如何5分钟免费掌握Windows风扇控制:终极散热优化指南

如何5分钟免费掌握Windows风扇控制:终极散热优化指南 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/fa/…...

5分钟搞定专业照片水印:Semi-Utils让你的摄影作品瞬间升级

5分钟搞定专业照片水印:Semi-Utils让你的摄影作品瞬间升级 【免费下载链接】semi-utils 一个批量添加相机机型和拍摄参数的工具,后续「可能」添加其他功能。 项目地址: https://gitcode.com/gh_mirrors/se/semi-utils 还在为照片添加水印而烦恼吗…...

3DS Pokémon ROM 编辑器 pk3DS:新手入门完全指南

3DS Pokmon ROM 编辑器 pk3DS:新手入门完全指南 【免费下载链接】pk3DS Pokmon (3DS) ROM Editor & Randomizer 项目地址: https://gitcode.com/gh_mirrors/pk/pk3DS pk3DS 是一款功能强大的任天堂 3DS 平台 Pokmon 系列游戏 ROM 编辑器和随机化工具&…...

如何轻松实现U校园智能刷课?这个Python工具让你5分钟搞定

如何轻松实现U校园智能刷课?这个Python工具让你5分钟搞定 【免费下载链接】AutoUnipus U校园脚本,支持全自动答题,百分百正确 2024最新版 项目地址: https://gitcode.com/gh_mirrors/au/AutoUnipus 还在为U校园网课的手动答题烦恼吗?AutoUnipus这…...

Unity Package Manager缓存失效排错指南

1. 这不是“删库跑路”,而是Unity包管理器的静默失效现场 刚接手一个老项目,打开Unity编辑器就弹出红色报错: Library/PackageCache/com.unity.xxxxxx not found 。点开Project窗口,原本该显示的Package图标全灰了,I…...

5分钟搞定Windows风扇控制:Fan Control终极免费散热优化方案

5分钟搞定Windows风扇控制:Fan Control终极免费散热优化方案 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trend…...

企业级应用如何利用 Taotoken 实现多模型智能路由与成本控制

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 企业级应用如何利用 Taotoken 实现多模型智能路由与成本控制 对于需要稳定、高效调用大模型的企业开发团队而言,直接对…...

如何通过DeepEval解决LangChain应用的可观测性与评估难题

如何通过DeepEval解决LangChain应用的可观测性与评估难题 【免费下载链接】deepeval The LLM Evaluation Framework 项目地址: https://gitcode.com/GitHub_Trending/de/deepeval DeepEval作为专业的LLM评估框架,为LangChain开发者提供了从测试到生产监控的完…...

BotW Save Manager:打破平台壁垒的《塞尔达传说:旷野之息》存档转换神器

BotW Save Manager:打破平台壁垒的《塞尔达传说:旷野之息》存档转换神器 【免费下载链接】BotW-Save-Manager BOTW Save Manager for Switch and Wii U 项目地址: https://gitcode.com/gh_mirrors/bo/BotW-Save-Manager 你是否曾在Switch和WiiU之…...

深度解析OBS Mac虚拟摄像头插件的架构设计与性能优化

深度解析OBS Mac虚拟摄像头插件的架构设计与性能优化 【免费下载链接】obs-mac-virtualcam ARCHIVED! This plugin is officially a part of OBS as of version 26.1. See note below for info on upgrading. 🎉🎉🎉Creates a virtual webcam…...

LRCGET:告别手动搜索,实现本地音乐歌词批量下载的完整指南

LRCGET:告别手动搜索,实现本地音乐歌词批量下载的完整指南 【免费下载链接】lrcget Utility for mass-downloading LRC synced lyrics for your offline music library. 项目地址: https://gitcode.com/gh_mirrors/lr/lrcget 你是否拥有大量本地音…...

如何快速解决Cursor试用限制:终极完整指南

如何快速解决Cursor试用限制:终极完整指南 【免费下载链接】go-cursor-help 解决Cursor在免费订阅期间出现以下提示的问题: Your request has been blocked as our system has detected suspicious activity / Youve reached your trial request limit. / Too many …...

Unity半透明模型单面显示问题的四大解决方案

1. 这个问题到底在烦谁?——从美术交接现场说起Unity里模型导入后“只有一面能看见,翻过去就变透明”,这事儿我见过太多次了。不是程序员写错了Shader,也不是美术导出时漏了法线,而是Unity默认的Front Face Culling&am…...

突破macOS与Android文件传输瓶颈:OpenMTP的完整用户指南 [特殊字符]

突破macOS与Android文件传输瓶颈:OpenMTP的完整用户指南 🚀 【免费下载链接】openmtp OpenMTP - Advanced Android File Transfer Application for macOS 项目地址: https://gitcode.com/gh_mirrors/op/openmtp 还在为macOS和Android设备间的文件…...

Unity AssetBundle全生命周期管理实战:打包、上传、加载与卸载闭环指南

1. 这不是“打包完就完事”的流程,而是一条必须闭环的资源生命线在Unity项目做到中后期,你大概率会遇到这几个扎心时刻:打包后安装包体积突然暴涨300MB,美术说“就加了5张贴图”,程序查了一天发现是某张HDR天空盒被错误…...

三分钟永久备份你的QQ空间:告别数据丢失的终极解决方案

三分钟永久备份你的QQ空间:告别数据丢失的终极解决方案 【免费下载链接】QZoneExport QQ空间导出助手,用于备份QQ空间的说说、日志、私密日记、相册、视频、留言板、QQ好友、收藏夹、分享、最近访客为文件,便于迁移与保存 项目地址: https:…...

3步快速掌握罗技鼠标宏:PUBG压枪新手完全指南

3步快速掌握罗技鼠标宏:PUBG压枪新手完全指南 【免费下载链接】logitech-pubg PUBG no recoil script for Logitech gaming mouse / 绝地求生 罗技 鼠标宏 项目地址: https://gitcode.com/gh_mirrors/lo/logitech-pubg 还在为《绝地求生》中难以控制的武器后…...

AssetStudio深度解析:Unity资源二进制结构与离线反编译原理

1. 这不是“又一个Unity资源查看器”,而是一把能拆开Unity游戏包的手术刀AssetStudio这个名字,第一次见的人常误以为是Unity官方出的配套工具——毕竟带个“Studio”后缀,界面又长得挺像Unity编辑器。但其实它和Unity Technologies毫无关系&a…...

DAG方法与自变量筛选 【9天实用统计学公益训练营Day3-3】

关注公众号的朋友都知道,郑老师我之前连续4年开设了“30天学会医学统计学”,从理论到实操,一步一步教会大家统计学、SPSS课程。2026年,我们对这门课程进行全新升级!课程时间大幅度缩短,内容大幅度提升&…...

Unity工业级机械仿真:刚体约束链与运动学反解实战

1. 这不是“玩具模型”,而是一套可投产验证的机械运动逻辑沙盒在Unity里做机械结构仿真,很多人第一反应是“做个动画演示”——齿轮转得漂亮、连杆动得丝滑、液压缸伸缩带点粒子特效,导出个MP4发给客户就算交付。但MGS-Machinery这个项目完全…...

ColabFold终极指南:5分钟免费预测蛋白质三维结构

ColabFold终极指南:5分钟免费预测蛋白质三维结构 【免费下载链接】ColabFold Making Protein folding accessible to all! 项目地址: https://gitcode.com/gh_mirrors/co/ColabFold 想要探索蛋白质的神秘世界却苦于没有高性能计算设备?ColabFold为…...

对比直接使用官方api与通过taotoken接入后的网络连接稳定性体验

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 对比直接使用官方 API 与通过 Taotoken 接入后的网络连接稳定性体验 1. 引言 在开发基于大语言模型的应用程序时,一个…...

本地AI工具炸场!一周GitHub星标破万,云端AI正在向你的电脑迁移

2026年5月中旬,三个开源项目突然火了: Hermes Agent,连续3天登顶OpenRouter调用量榜首,累计消耗6.72万亿tokens ds4.c,Redis之父Salvatore Sanfilippo专为DeepSeek V4 Flash打造的推理引擎,发布不到一周获2600+星 DeepSeek-TUI,终端AI编程工具,上线四个月获3700+星,…...