当前位置: 首页 > article >正文

Meta:扩散模型轨迹概率高效优化

标题dTRPO: Trajectory Reduction in Policy Optimization of Diffusion Large Language Models来源arXiv, 2603.18806v1摘要扩散大语言模型diffusion Large language ModelsdLLM为语言生成引入了一种新的范式这反过来又为将它们与人类偏好相匹配带来了新的挑战。在这项工作中我们的目标是通过降低轨迹概率计算的成本来改进dLLM的策略优化从而实现规模化的离线策略训练。我们证明i在参考策略正则化下新的未屏蔽令牌的概率比是中间扩散状态的概率比的无偏估计以及ii整个轨迹的概率可以用重新计算的单个前向通过来有效地估计通过将这两个轨迹缩减策略集成到策略优化目标中我们提出了轨迹缩减策略优化dTRPO。我们在7B dLLM上跨指令评估dTRPO跟踪和推理基准。结果表明它大大提高了最先进的dLLM的核心性能在STEM任务上实现了高达9.6%的增益在编码任务上实现了高达4.3%的增益在推理跟踪任务上实现了高达3.0%的增益。此外dTRPO由于其离线、单向前性质而表现出强大的训练效率并通过高质量输出实现了提高的生成效率。️文章简介研究问题如何在扩散大语言模型dLLM的策略优化中以极低的计算成本准确估计复杂的生成轨迹概率从而实现可扩展的离线训练主要贡献论文提出了 dTRPO 方法通过理论证明将轨迹概率比简化为新解掩码 token 的乘积仅需单次前向传播即可完成高效的离线策略优化。重点思路状态缩减策略利用分块注意力机制证明在每个生成块中仅采样一个时间步即可无偏估计整个扩散轨迹的对数概率将计算量从多步降低为单步。比率缩减策略在参考策略正则化下推导出当前策略与参考策略的转移概率比中依赖于调度表的系数会相互抵消仅保留新解掩码 token 的分类概率比。构建 dTRPO 目标函数将上述两种缩减策略集成到直接偏好优化DPO框架中设计出新损失函数使其能够像自回归模型一样通过单次前向传播计算偏好损失。推理对齐调度采用与推理时解码策略一致的基于置信度的解掩码调度器确保训练时的概率估计分布与实际生成过程相匹配提升稳定性。分析总结性能显著提升在 7B 参数模型上的实验显示dTRPO 在 STEM 任务上提升高达 9.6%编码任务提升 4.3%指令遵循任务提升 3.0%大幅缩小了与自回归模型的差距。训练效率极高该方法完全基于离线数据每个训练样本仅需 4 次前向传播策略与参考模型各两次计算成本与传统自回归模型的 DPO 训练相当远低于在线强化学习方法。通用性与鲁棒性该方法不仅适用于分块扩散模型也适用于长块扩散模型如 LLaDA且对投影函数选择和超参数设置表现出较强的鲁棒性。生成质量优化相比其他基线方法dTRPO 生成的回答更简洁准确同时在保持高吞吐量的前提下显著减少了无效生成导致的推理延迟。个人观点论文打破了扩散模型策略优化必须依赖昂贵多步 rollout 的固有认知通过数学推导将复杂的轨迹概率估计坍缩为简单的 token 级概率比。附录

相关文章:

Meta:扩散模型轨迹概率高效优化

📖标题:dTRPO: Trajectory Reduction in Policy Optimization of Diffusion Large Language Models 🌐来源:arXiv, 2603.18806v1 🌟摘要 扩散大语言模型(diffusion Large language Models,dLL…...

新手必看!圣女司幼幽-造相Z-Turbo开箱即用,3步生成精美古风人像

新手必看!圣女司幼幽-造相Z-Turbo开箱即用,3步生成精美古风人像 你是不是也遇到过这样的烦恼:脑子里构思好了一位仙气飘飘的古风角色,但要么自己不会画,要么用普通AI工具生成的效果总差那么点意思——衣服质感像塑料&…...

C++ 智能指针循环引用问题剖析

C智能指针循环引用问题剖析 在现代C开发中,智能指针是管理动态内存的重要工具,能够有效避免内存泄漏。当多个智能指针相互引用时,可能形成循环依赖,导致资源无法释放。本文将深入剖析循环引用的成因、影响及解决方案,…...

AutoMdxBuilder: 零基础高效制作专业MDX词典的自动化解决方案

AutoMdxBuilder: 零基础高效制作专业MDX词典的自动化解决方案 【免费下载链接】AutoMdxBuilder Automatically make mdx dictionaries 项目地址: https://gitcode.com/gh_mirrors/au/AutoMdxBuilder 当语言教师李老师第三次因为图片路径错误导致MDX词典(一种…...

解锁3大核心能力:写给复古游戏爱好者的FBNeo实战指南

解锁3大核心能力:写给复古游戏爱好者的FBNeo实战指南 【免费下载链接】FBNeo FinalBurn Neo - We are Team FBNeo. 项目地址: https://gitcode.com/gh_mirrors/fb/FBNeo 在数字娱乐日新月异的今天,复古游戏依然是无数玩家心中不可替代的经典。Fin…...

鸿蒙原生实战:智感握姿 – 左右手自动适配新闻列表

基于鸿蒙原生手持感知能力,实现设备握持姿态实时识别,左手持机图片居左、右手持机图片居右,配合流畅布局动画,打造更贴合单手操作习惯的新闻阅读体验。 效果说明 请求手持握姿势检测权限,授权成功即可识别左右手姿态…...

会呼吸的防水:如何告别“闷热背包”的尴尬?

传统防水背包常被诟病为“塑料雨衣”——外部雨水进不来,内部汗气出不去。现代防水技术的真正突破,在于实现了“防水”与“透气”的完美平衡。这背后,是一场关于微孔薄膜的智慧博弈。 透气性原理:分子尺度的精妙设计优质防水膜的关…...

异质图对比学习在推荐系统中的实践:从理论到应用

1. 异质图对比学习:推荐系统的新引擎 第一次听说"异质图对比学习"这个词时,我正被公司推荐系统的冷启动问题折磨得焦头烂额。传统协同过滤在新用户面前就像个盲人,而基于内容的推荐又总是陷入"推荐相似商品"的怪圈。直到…...

Binary Ninja:开源二进制逆向工程的Python解决方案

Binary Ninja:开源二进制逆向工程的Python解决方案 【免费下载链接】deprecated-binaryninja-python Deprecated Binary Ninja prototype written in Python 项目地址: https://gitcode.com/gh_mirrors/de/deprecated-binaryninja-python 你是否曾面对一个陌…...

Win11Debloat:如何快速优化Windows 11系统,提升性能与隐私保护

Win11Debloat:如何快速优化Windows 11系统,提升性能与隐私保护 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes …...

B站硬核会员智能答题:AI驱动的高效通关解决方案

B站硬核会员智能答题:AI驱动的高效通关解决方案 【免费下载链接】bili-hardcore bilibili 硬核会员 AI 自动答题脚本,直接调用 B 站 API,非 OCR 实现 项目地址: https://gitcode.com/gh_mirrors/bi/bili-hardcore B站硬核会员身份象征…...

OpenXR Toolkit完全指南:3步让你的VR游戏性能提升50%

OpenXR Toolkit完全指南:3步让你的VR游戏性能提升50% 【免费下载链接】OpenXR-Toolkit A collection of useful features to customize and improve existing OpenXR applications. 项目地址: https://gitcode.com/gh_mirrors/op/OpenXR-Toolkit 想要在不升级…...

373. Java IO API - 文件存储属性

文章目录373. Java IO API - 文件存储属性📏 示例:检查文件存储的空间使用情况⚙️ 解释🔍 确定 MIME 类型📂 示例:获取文件 MIME 类型⚠️ 重要注意事项🛠️ 示例:自定义文件类型探测器&#x…...

Obsidian 完全指南:从入门到精通

一、简介 Obsidian 是一款基于 Markdown 的本地知识管理工具,以双向链接和插件生态著称。 什么是 Obsidian Obsidian 是一款基于本地 Markdown 文件的知识管理和笔记工具。所有笔记以纯文本 .md 文件存储在本地,数据完全由用户掌控,无需依赖云端服务。也可以平替Typora。 …...

OpCore-Simplify:智能配置黑苹果EFI的自动化工具开源方案

OpCore-Simplify:智能配置黑苹果EFI的自动化工具开源方案 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify OpCore-Simplify是一款专为黑苹果…...

告别VIM原生补全:用coc.nvim + Node.js打造媲美VSCode的智能开发环境

告别VIM原生补全:用coc.nvim Node.js打造媲美VSCode的智能开发环境 在编辑器领域,VIM以其高效的键盘操作和强大的定制能力赢得了无数开发者的青睐。然而,对于那些习惯了现代IDE如VSCode、IntelliJ的开发者来说,VIM原生的代码补全…...

用快马AI十分钟打造高保真电商交互原型,验证你的UI-UX-Pro-Max设计

最近在做一个电商项目,需要快速验证产品详情页的交互设计。作为设计师,我一直在寻找能快速把设计稿变成可交互原型的工具。尝试了InsCode(快马)平台后,发现它特别适合做这种高保真原型验证。下面分享下我的具体操作流程和心得: 明…...

5分钟快速部署:GTA5最强免费防护菜单YimMenu终极指南

5分钟快速部署:GTA5最强免费防护菜单YimMenu终极指南 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/yi/YimMe…...

三月七小助手:5分钟搞定星穹铁道每日任务,终极自动化工具完全指南

三月七小助手:5分钟搞定星穹铁道每日任务,终极自动化工具完全指南 【免费下载链接】March7thAssistant 崩坏:星穹铁道全自动 三月七小助手 项目地址: https://gitcode.com/gh_mirrors/ma/March7thAssistant 你是否还在为《崩坏&#x…...

MusePublic艺术创作引擎保姆级教程:从安装到生成高清艺术图

MusePublic艺术创作引擎保姆级教程:从安装到生成高清艺术图 1. 准备工作与环境搭建 在开始使用MusePublic艺术创作引擎前,我们需要确保系统环境满足基本要求。这个轻量化的艺术创作工具对硬件配置相对友好,但仍有几个关键点需要注意。 1.1…...

SQL检查开发提效:sql-lint让数据库操作更可靠

SQL检查开发提效:sql-lint让数据库操作更可靠 【免费下载链接】sql-lint An SQL linter 项目地址: https://gitcode.com/gh_mirrors/sq/sql-lint 当你在深夜排查线上SQL错误时,当团队因SQL风格不统一争论时,当执行DELETE语句忘记WHERE…...

【多机器人路径规划】基于MRPP或MAPF的多机器人路径规划算法研究附matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。👇 关注我领取海量matlab电子书和数学建模资料🍊个人信条:格物致知,完整Matl…...

面试复盘之WHERE和HAVING的区别以及MySQL的索引

where是在数据分组之前进行过滤执行流程 FROM → WHERE → GROUP BY → HAVING → SELECT → ORDER BY示例 SELECT * FROM employee WHERE salary > 5000;含义:先从表中筛选出 salary > 5000 的记录,再返回结果。 HAVING 关键字 HAVING 的作用…...

基于stm32的通信系统,sim800c与服务器通信,无线通信监测,远程定位,服务器通信系统...

基于stm32的通信系统,sim800c与服务器通信,无线通信监测,远程定位,服务器通信系统,gps,sim800c,心率,温度,stm32 由STM32F103ZET6单片机核心板电路、DS18B20温度传感器电…...

告别暴力搜索!用DiffDock的扩散模型5分钟搞定分子对接,效率提升12倍

5分钟颠覆传统:DiffDock如何用扩散模型重构分子对接效率天花板 在药物研发的漫长链条中,分子对接就像一把精准的钥匙开锁过程——需要找到小分子配体与靶标蛋白最契合的三维结合方式。传统方法如同盲人摸象,耗费数小时在亿万种可能中暴力搜索…...

告别命令行!Auto-py-to-exe可视化打包Python程序的完整指南

1. 为什么需要可视化打包工具? 每次用PyInstaller打包Python程序时,最头疼的就是记不住那一长串命令行参数。上周我帮同事打包一个数据分析工具,光是调试--add-data参数就花了半小时,最后发现是路径写错了斜杠方向。这种经历让我意…...

单电阻采样 基于单电阻采样的相电流重构算法 keil完整工程。 单电阻采样 f103的单电阻...

单电阻采样 基于单电阻采样的相电流重构算法 keil完整工程。 单电阻采样 f103的单电阻,完整工程,带文档,带硬件资料。 f3平台的单电阻完整工程,代码详细注释。 还有微芯的单电阻smo代码加文档 具体如截图请看下一、工程概述 本工程…...

如何突破音频收听限制?打造个人离线音频库的完整方案

如何突破音频收听限制?打造个人离线音频库的完整方案 【免费下载链接】xmly-downloader-qt5 喜马拉雅FM专辑下载器. 支持VIP与付费专辑. 使用GoQt5编写(Not Qt Binding). 项目地址: https://gitcode.com/gh_mirrors/xm/xmly-downloader-qt5 作为音频爱好者&a…...

零代码玩转华为云DeepSeek:用Witsy打造专属AI客服的完整避坑指南

零代码玩转华为云DeepSeek:用Witsy打造专属AI客服的完整避坑指南 当电商客服每天需要处理上千条重复咨询,当教育机构的课程顾问被基础问题占满工作时间,传统人工服务模式正面临前所未有的效率瓶颈。据行业调研数据显示,接入智能客…...

从视频到标签:一条龙搞定YOLOv5自动标注(附OpenCV抽帧与LabelImg修正全流程)

从视频到标签:YOLOv5自动标注全流程实战指南 当你面对数小时的监控视频或行车记录仪素材,需要快速提取其中的车辆、行人等目标时,手动标注每一帧显然不现实。这套基于YOLOv5的自动标注方案,能帮你将标注效率提升10倍以上。下面我将…...