当前位置: 首页 > article >正文

WAM-202512:Motus架构分析【MoT、UniDiffuser 风格的调度器支持在多种建模模式之间灵活、利用光流(Optical Flow) 学习潜在动作(Latent Actions)】

Motus 模型架构详细分析基于论文 Motus: A Unified Latent Action World Model 与项目源码的综合分析目录Motus 模型架构详细分析目录1. 总体概述2. 整体架构总览3. 三大专家模块详解3.1 视频生成专家 (Video Generation Expert / VGM)3.2 理解专家 (Understanding Expert)3.3 动作专家 (Action Expert)4. Mixture-of-Transformers (MoT) 三模态联合注意力每层计算流程技术实现细节5. 训练与推理机制5.1 Flow Matching 训练5.2 ODE 推理去噪6. 数据金字塔与三阶段训练流水线六层数据金字塔三阶段训练流水线7. 五种建模模式切换8. 关键设计细节与创新点8.1 架构层面8.2 训练层面8.3 数据层面8.4 推理层面9. 参数统计总结附录 A: WAN 自注意力 MoT 修改详解A.1 原生 WAN 自注意力A.2 MoT 修改后的自注意力附录 B: 项目代码结构附录 C: 完整数据流示例 (训练步)附录 D: 关键超参数汇总1. 总体概述Motus 是一个统一的潜在动作世界模型(Unified Latent Action World Model),由清华大学机器学习研究组(thu-ml)提出。其核心理念是:通用具身智能体应当作为一个统一系统运行,而非由理解、世界建模和控制等孤立模型拼凑而成。Motus 通过以下关键创新解决了当前方法的碎片化问题:Mixture-of-Transformers (MoT)架构,将三个专家模块整合到统一的自注意力框架中UniDiffuser 风格的调度器,支持在多种建模模式之间灵活切换利用光流(Optical Flow)学习潜在动作(Latent Actions),提取像素级 “delta action”三阶段训练流水线+六层数据金字塔,实现大规模动作预训练实验结果表明,Motus 在仿真环境中比 X-VLA 提升 15%,比 π₀.₅ 提升 45%,在真实场景中提升 11%~48%。2. 整体架构总览Motus 由三个核心专家模块组成,通过30 层统一的 MoT 联合自注意力层进行深度融合:输出层输出头MoT 三模态联合层 ×30编码器层输入层[B, 48, T', H', W']首帧图像First Frame[B, C, H, W]目标视频帧Video Frames[B, T, C, H, W]机器人状态State[B, 14]动作序列Actions[B, T×4, 14]语言指令LanguageVLM图像VLM ImagesWAN VAE(Wan2.2-VAE)Patch Embedding48 → 3072D状态编码器StateEncoder动作编码器ActionEncoderT5 文本嵌入(预编码)Qwen3-VL 嵌入(冻结)三模态联合自注意力WAN Self-AttnVideo + Action + UnderstandingWAN 交叉注意力Video ← T5 TextVideo FFN(AdaLN调制)Action FFN(AdaLN调制)Understanding FFN(LayerNorm)Video Head+ UnpatchifyAction Decoder(含Register令牌)预测视频帧Predicted Frames[B, T, C, H, W]预测动作Predicted Actions[B, T×4, 14]Action Tokens[B, seq, 1024D]Understanding Tokens[B, seq, 512D]下一层3. 三大专家模块详解3.1 视频生成专家 (Video Generation Expert / VGM)基础模型: Wan2.2-TI2V-5B(约 50 亿参数)核心组件:

相关文章:

WAM-202512:Motus架构分析【MoT、UniDiffuser 风格的调度器支持在多种建模模式之间灵活、利用光流(Optical Flow) 学习潜在动作(Latent Actions)】

Motus 模型架构详细分析 基于论文 Motus: A Unified Latent Action World Model 与项目源码的综合分析 目录 Motus 模型架构详细分析 目录 1. 总体概述 2. 整体架构总览 3. 三大专家模块详解 3.1 视频生成专家 (Video Generation Expert / VGM) 3.2 理解专家 (Understanding Ex…...

从Discord小白到出图高手:我的Midjourney提示词工作流搭建实录(附Notion模板)

从Discord新手到Midjourney创作高手:我的高效工作流搭建全记录 第一次在Discord里输入/imagine命令时,我的手都在抖。看着公共频道里不断刷新的精美图片,既兴奋又茫然——那些复杂的提示词到底该怎么写?生成的图片又该存在哪里&am…...

WAM-202603:Fast-WAM【世界动作模型:训练时保留视频协同训练,推理时跳过未来生成】

Fast-WAM: Do World Action Models Need Test-time Future Imagination? Fast-WAM:世界动作模型需要在测试时进行未来想象吗? Tianyuan Yuan , Zibin Dong , Yicheng Liu , Hang Zhao 1,2 IIIS, Tsinghua University Galaxea AI IIIS,清华大学 Galaxea AI https://yuanti…...

RTX 4060笔记本跑PyTorch报错?手把手教你搞定CUDA算力不兼容(附详细诊断脚本)

RTX 4060笔记本运行PyTorch报错全攻略:从诊断到完美兼容 刚拿到搭载RTX 4060显卡的新笔记本,迫不及待想跑个深度学习模型试试性能,结果迎面就是一盆冷水——PyTorch报错提示"sm_89不兼容"。这种挫败感我太熟悉了,去年第…...

XUnity AutoTranslator完整指南:让外语游戏瞬间变母语体验

XUnity AutoTranslator完整指南:让外语游戏瞬间变母语体验 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 还在为外语游戏中的生涩文字而烦恼吗?XUnity AutoTranslator是一款革命性…...

生产环境排雷指南:如何用YourKit Profiler远程诊断线上Java服务的内存泄漏(含Docker容器内配置)

生产环境排雷指南:如何用YourKit Profiler远程诊断线上Java服务的内存泄漏(含Docker容器内配置) 当线上Java服务的内存曲线像心电图一样持续攀升时,每个运维工程师的血压都会同步飙升。上周我们某个核心微服务就经历了这样的惊魂…...

3步完成Degrees of Lewdity视觉大升级:DoL-Lyra美化整合包终极指南

3步完成Degrees of Lewdity视觉大升级:DoL-Lyra美化整合包终极指南 【免费下载链接】DOL-CHS-MODS Degrees of Lewdity 整合 项目地址: https://gitcode.com/gh_mirrors/do/DOL-CHS-MODS 你是否对Degrees of Lewdity的原版像素画面感到审美疲劳?想…...

GitHub中文化插件技术方案:基于DOM突变观测与正则匹配的实时界面翻译系统

GitHub中文化插件技术方案:基于DOM突变观测与正则匹配的实时界面翻译系统 【免费下载链接】github-chinese GitHub 汉化插件,GitHub 中文化界面。 (GitHub Translation To Chinese) 项目地址: https://gitcode.com/gh_mirrors/gi/github-chinese …...

MCPFlow:为AI代理构建结构化工作流编排与安全执行框架

1. 项目概述:MCPFlow,为AI代理构建结构化工作流 如果你正在开发基于Model Context Protocol(MCP)的工具,并且希望让像Cursor或GitHub Copilot这样的AI代理能够以更可控、更安全的方式使用你的工具,那么你很…...

NVIDIA Nemotron Nano V2 VL:轻量级视觉语言模型边缘计算实践

1. 项目概述NVIDIA Nemotron Nano V2 VL是英伟达最新推出的轻量级视觉语言模型,专为边缘计算设备优化设计。这个7B参数的模型在保持高性能的同时,显著降低了计算资源需求,使其能够在Jetson系列开发板等嵌入式设备上流畅运行。我在实际测试中发…...

E-Hentai下载器终极指南:如何一键批量下载画廊图片

E-Hentai下载器终极指南:如何一键批量下载画廊图片 【免费下载链接】E-Hentai-Downloader Download E-Hentai archive as zip file 项目地址: https://gitcode.com/gh_mirrors/eh/E-Hentai-Downloader 你是否曾经面对E-Hentai上数百张图片的精彩画廊感到无从…...

终极Windows任务栏透明化工具TranslucentTB:完整Docker开发环境搭建最佳实践

终极Windows任务栏透明化工具TranslucentTB:完整Docker开发环境搭建最佳实践 【免费下载链接】TranslucentTB A lightweight utility that makes the Windows taskbar translucent/transparent. 项目地址: https://gitcode.com/gh_mirrors/tr/TranslucentTB …...

DoL-Lyra构建系统深度解析:从自动化打包到个性化游戏体验

DoL-Lyra构建系统深度解析:从自动化打包到个性化游戏体验 【免费下载链接】DOL-CHS-MODS Degrees of Lewdity 整合 项目地址: https://gitcode.com/gh_mirrors/do/DOL-CHS-MODS 为什么我们需要一个现代化的游戏模组构建系统? 如果你是一位Degree…...

基于Next.js与OpenAI API构建本地化AI文本精炼助手Refiner

1. 项目概述:一个基于AI的文本精炼助手 如果你经常需要写邮件、写文档,或者像我一样,英语不是母语,在写一些重要的英文内容时总会担心语法对不对、语气合不合适,那你肯定会对这个项目感兴趣。今天要聊的,是…...

STM32F0 ADC+DMA采集多路传感器数据,我踩过的坑和最佳实践都在这了

STM32F0 ADCDMA采集多路传感器数据的工程实践指南 在嵌入式物联网终端开发中,ADC多通道采集是获取环境数据的核心技术。去年开发智能农业监测节点时,我需要在STM32F072上同时采集土壤湿度、光照强度和电池电压,最初采用轮询方式导致系统响应…...

别再折腾Python环境了!用Miniconda在Windows上5分钟搞定纯净虚拟环境(保姆级图文)

5分钟在Windows搭建Python纯净开发环境:Miniconda终极指南 刚接触Python时,最让人头疼的莫过于环境配置。记得我第一次尝试安装TensorFlow时,系统里同时存在三个不同版本的Python,每次运行脚本都像开盲盒——永远不知道会调用哪个…...

罗技PUBG鼠标宏开源项目:基于Lua脚本的后坐力控制技术实现指南

罗技PUBG鼠标宏开源项目:基于Lua脚本的后坐力控制技术实现指南 【免费下载链接】logitech-pubg PUBG no recoil script for Logitech gaming mouse / 绝地求生 罗技 鼠标宏 项目地址: https://gitcode.com/gh_mirrors/lo/logitech-pubg 在战术竞技类游戏中&a…...

保姆级教程:用SysML参数图搞定系统可靠性仿真(以电动牙刷为例)

从零构建电动牙刷可靠性模型:SysML参数图实战指南 当你第一次接触SysML参数图时,是否曾被那些抽象的约束方程和绑定连接器搞得一头雾水?作为MBSE(基于模型的系统工程)中最强大的分析工具之一,参数图能够将…...

2026终极指南:轻松重置JetBrains IDE试用期,告别30天限制烦恼

2026终极指南:轻松重置JetBrains IDE试用期,告别30天限制烦恼 【免费下载链接】ide-eval-resetter 项目地址: https://gitcode.com/gh_mirrors/id/ide-eval-resetter 你是否曾在项目关键时刻,被JetBrains IDE弹出的"试用期已到期…...

告别双系统!Win11 + WSL2 + Ubuntu 20.04 打造轻量ROS开发环境(含MobaXterm配置)

Win11 WSL2 Ubuntu 20.04 构建高效ROS开发环境全指南 在机器人操作系统(ROS)开发领域,Linux环境长期以来都是不二之选。然而,对于习惯Windows生态的开发者而言,频繁切换操作系统或忍受虚拟机性能损耗成为开发效率的瓶…...

5分钟快速上手BetterGI:免费解放你的原神游戏时间!

5分钟快速上手BetterGI:免费解放你的原神游戏时间! 【免费下载链接】better-genshin-impact 📦BetterGI 更好的原神 - 自动拾取 | 自动剧情 | 全自动钓鱼(AI) | 全自动七圣召唤 | 自动伐木 | 自动刷本 | 自动采集/挖矿/锄地 | 一条龙 | 全连…...

DS4Windows完整指南:让PlayStation手柄在Windows上获得完美游戏体验

DS4Windows完整指南:让PlayStation手柄在Windows上获得完美游戏体验 【免费下载链接】DS4Windows Like those other ds4tools, but sexier 项目地址: https://gitcode.com/gh_mirrors/ds/DS4Windows 你是否想在Windows电脑上使用PlayStation手柄获得原生游戏…...

GitHub中文界面插件:3步解锁中文GitHub体验

GitHub中文界面插件:3步解锁中文GitHub体验 【免费下载链接】github-chinese GitHub 汉化插件,GitHub 中文化界面。 (GitHub Translation To Chinese) 项目地址: https://gitcode.com/gh_mirrors/gi/github-chinese 对于许多中文开发者来说&#…...

AlwaysOnTop窗口置顶工具:三分钟掌握多任务效率翻倍技巧

AlwaysOnTop窗口置顶工具:三分钟掌握多任务效率翻倍技巧 【免费下载链接】AlwaysOnTop Make a Windows application always run on top 项目地址: https://gitcode.com/gh_mirrors/al/AlwaysOnTop 你是否经常需要在多个窗口间来回切换,导致工作效…...

Nuclei SDK实战指南:从环境搭建到项目定制,加速RISC-V嵌入式开发

1. 从零开始:Nuclei SDK 是什么,以及为什么你需要它如果你正在或即将使用基于 Nuclei RISC-V 内核的芯片或 FPGA 评估板进行开发,那么 Nuclei SDK 就是你绕不开的“瑞士军刀”。简单来说,它是一个专为 Nuclei 处理器家族打造的软件…...

别再手动敲代码了!揭秘通达信自选股.blk文件格式,用Pandas轻松搞定数据对接

用Python自动化管理通达信自选股:从Pandas到.blk文件的无缝对接 在量化投资和股票分析领域,效率就是一切。想象一下这样的场景:你精心设计的Python选股策略刚刚跑出一组优质股票代码,却需要手动一个个输入到通达信软件中——这不仅…...

SAGE框架:实现AI智能体终身学习的自进化技能库

1. 项目背景与核心价值在人工智能领域,智能体的自主学习和持续进化能力一直是研究热点。传统强化学习智能体往往针对单一任务进行训练,缺乏跨任务的知识迁移能力。SAGE框架的创新之处在于构建了一个可动态扩展的技能库,使智能体能够像人类一样…...

别再只盯着R²了!用Python手把手教你做回归模型的F检验(附完整代码)

别再只盯着R了!用Python手把手教你做回归模型的F检验(附完整代码) 在数据科学项目中,我们常常陷入一个误区:只要R足够高,模型就是好的。但你是否遇到过这样的情况——R达到0.9的模型,在实际预测…...

终极SOCD清理指南:5步实现游戏键盘零冲突优化方案

终极SOCD清理指南:5步实现游戏键盘零冲突优化方案 【免费下载链接】socd Key remapper for epic gamers 项目地址: https://gitcode.com/gh_mirrors/so/socd 在激烈的电子竞技对决中,每一个按键都至关重要。你是否曾在游戏中同时按下左右方向键时…...

DoL-Lyra整合包:5分钟快速打造个性化游戏美化的终极指南

DoL-Lyra整合包:5分钟快速打造个性化游戏美化的终极指南 【免费下载链接】DOL-CHS-MODS Degrees of Lewdity 整合 项目地址: https://gitcode.com/gh_mirrors/do/DOL-CHS-MODS Degrees of Lewdity中文版整合包(DOL-CHS-MODS)是一个革命…...