当前位置：首页 > article >正文

2026: VLA 将死，WAM 当立 ? ? ? ? ?【视频预训练＞VLM预训练：来自视频的物理动态先验，对机器人控制比语义先验更关键】

article 2026/5/3 5:31:33

2026年以来具身智能圈子里最热的争论已经不是哪家VLA刷了多少分而是一个更根本的问题我们给机器人选的这条路 , 它真的对吗 ?主流 VLA(Vision-Language-Action) 模型的套路大家都熟了—拿一个在海量图文数据上预训练好的VLM当底座再用机器人数据做post-training , 让模型学会输出动作。从 RT-2 到 πo 再到 πo.5, 这套范式确实 work, 也确实能做出语义泛化——你给它看没见过的物体只要VLM的语义先验够强模型多半能认出来然后执行 ”抓起来放到那儿之类的操作。但问题出在哪呢 ?VLA 能认出 Taylor Swift 的脸却解不开一根鞋带。这不是段子这是NVIDIA团队一个很尖锐的观察。VLM预训练教会了模型什么是什么,却没教会它世界怎么动。你要机器人叠一件没见过款式的衣服、用没练过的工具完成操作光靠语义理解远远不够——它缺的是对物理世界因果关系的建模。mimic-video 的作者把问题说到了根上视觉-语言预训练只能捕获语义先验而对物理因果性完全失明。视频预训练才是正确的起点。NVIDIA 的 Jim Fan 更是把World Action Model称为机器人领域的GPT-2时刻,一个全新的预训练范式模型预测的不再是下一个词而是下一个物理状态。他还给了一个很有意思的生物学论证猿类几乎没有语言能力却能换刹车片因为它们大脑皮层中视觉和物理理解占据了绝对主导。01.先理解核心矛盾VLA到底缺了什么?在展开三条路线之前值得先厘清一个概念框架。一个理想的自主具身智能体 (AutonomousEmbodied Agent)本质上需要两个互补的能力P r ( a ∣ l , o ) Pr(a|l,o)Pr(a∣l,o)— 给定语言指令和观测输出动作。这是“策略”。P r ( o ∣ l , a ) Pr(o|l,a)Pr(o∣l,a)— 给定语言和动作预测世界会变成什么样。这是“世界模型”。传统VLA只做第一个—输入图像和文本输出动作 token。世界模型只做第二个输入当前状态和动作预——测未来观测。WAM要做的事情是把两者融合起来让模型既能想象世界的未来演化又能从这个想象中提取出应该执行的动作。下面三列对比图讲得很清楚Action Model理解图像但不能生成图像World Model能生成图像但不能生成动作Action World Model 两样都会。因为视频预训练和VLM预训练带来的东西本质上不一样。VLM的预训练数据是图文对——静态的、离散的、语义层面的。而视频数据天然包含了时间连续性、物体运动轨迹、接触变形、因果关系——这些在静态图片里根本看不到的信息。一个在海量视频上训练过的模型它见过水怎么流、布怎么折、物体怎么滑落。这些物理先验是 VLM 永远学不到的。DreamZero 的 NVIDIA 团队提供了一个很刺痛的实证预训练 VLA 不管收到什么指令都倾向于执行 pick- and- place 动作。它们不是真正理解了任务语义而是过拟合了训练数据中最常见的行为模式。在多样化的评估任务上最好的预训练 VLA只达到27.4 % 2 7 . 4 \%27.4%的任务进度而 DreamZero 达到了62.2% ——超过两倍。理解了这一点三条路线的分歧就自然浮现了——它们都认同视频预训练视觉 - 语言预训练 , 但在怎么用视频这个问题上走了完全不同的路。02. 路线一两阶段解耦派代表工作 UniPi→VPP→Vidar→mimic-video→LAPA2.1 开山之作UniPi(NeurIPS 2023)它提出了一个极其重要的方向用视频作为通用接口—不同机器人、不同环境共享同一个像素空间天然支持跨本体迁移。2.2 加速之作VPP(ICML2025 Spotlight)VPP 首先确认了一个后来被mimic-video 反复强调的关键洞见策略性能与视频预测质量直接正相关。再到 25 年mimic-video 提出了三个关键创新第一 Partial Denoising;第二独立的 flow schedule;第三也是最有意义的发现V ideo QualityPolicy Quality 。;还有一个违反直觉的发现值得深思解耦训练居然比端到端训练效果更好。这条路线上还有两个值得关注的工作一、Vidar 聚焦双臂操作二、LAPA(ICLR 2025) 走了一条更独特的路03. 路线二端到端联合生成派代表工作PAD→VideoVLA→WorldVLA→Cosmos Policy→DreamZeroPAD(NeurIPS 2024) 建立了基础洞察图像预测和动作生成共享相同的去噪动力学VideoVLA(NeurIPS 2025) 把这个思路扩展到CogVideoX-5B;达摩院的WorldVLA探索了Chameleon 架构下的理解生成大统一范式提出了action attention masking 机制Cosmos Policy是我近期最喜欢的工作它的核心洞察简洁到优美它基于 Cosmos-Predict2B,对预训练backbone 做了零架构修改—— 这在所有WAM工作中是最minimalist 的方案DreamZero 是目前的集大成者把整条路线上所有关键问题都给出了一份答案。自回归架构保持原生帧率解决了双向扩散的video-action 对齐问题多样化非重复数据优于重复示教( 33 % ( 3 3 \%(33%$ 5 0 % )$ ,颠覆了传统VLA 的数据收集范式3 0 分钟 play data 迁移到全新机器人保持零样本泛化14 B 模型通过六层优化栈跑到 7 Hz (2×GB200)架构选择为什么选自回归而非双向 ? 这是一个被很多 WAM工作忽略的问题。数据利用不需要重复示教泛化能力超过VLA两倍跨本体迁移30分钟适配新机器人实时性14B模型跑到7Hz04. 路线三统一多功能模型派——一个模型干四件事代表工作UVA→UWM→UWM→LingBot−VA→MotusUWM: 独立时间步的优雅设计训练时无需任何特殊处理一个统一的loss 函数搞定一切。UVA: 轻量级的务实方案。关键效率洞察推过速度和纯动作 Diffusion Policy 相当。LingBot-VA : 逐 token 的边想边做。LingBot- VA 与 UVA/UWM 的关键区别在于时间粒度。UVA 和 UWM 都是 chunk-level 的先— 想一段未来视频再生成一段动作。LingBot -VA 是 token-level 的自回归—每个时间步先预测下一帧视频latent, 再基于这个预测解码出动作。更接近边想边做边纠错的直觉。Motus: 最惊艳的实验结论Motus 来自朱军老师团队它用光流(opticalflow) 作为跨本体的通用运动表征。DPFlow 从任意视频中提取像素级位移然后用卷积 VAE 压缩为本体无关的 latent actions。这意味着任何视频都能用—YouTube 烹饪视频、第一人称人类操作、合成数据、多种机器人数据不需要动作标注。三专家 MoT 架构融合了 Qwen3-VL-2B ( 语义理解)、Wan2.2-5B ( 视频生成)和轻量动作专家通过共享 multi-head self-attention 交互配合一个从web 数据到机器人数据的六层数据金字塔做三阶段渐进训练。在 RoboTwin 2.0 的 50 任务多任务训练中随着任务数量增加 Motus 的平均成功率持续上升而πo.5 则持续下降。最终 Motus 达到 87.0% (比 πo.5 高出 45 个百分点)。在真实机器人上AC-One 平台上 Motus 做咖啡研磨达到92%——πo.5只有8%。这个结果非常惊艳Motus学到的是共享的world knowledge—任务越多共享知识越丰富每个任务都受益。而VLA更像是在每个任务的 action 模式上独立拟合任务一多就互相干扰。这让人想到一个类比GPT-3之前NLP也是多任务不如单任务,直到模型和数据规模跨过某个阈值multi-task 才开始mutual beneficial。WAM 路线是不是也走到了这个拐点 ?05. 一些问题与共识(1) Video QualityPolicyQuality, 这个等式的边界在哪?mimic-video 证明了视频预测质量和策略性能强相关。但这是不是意味着视频生成的天花板就是机器人操控的天花板?如果是那VAE的信息瓶颈— 特别是插 USB线、旋螺丝这类需要亚毫米精度的任务会不会成为不可逾越的限制目前没有人系统性地回答过。(2)解耦vs 端到端到底是哲学问题还是工程问题?mimic-cideo 说解耦更好DereamZero说端到端更好。我倾向于认为这是 scale-dependent 的数据少时别动视频backbone, 数据够了再端到端。但这只是直觉不是证据。而且这两个结论来自完全不同的实验设置—2B vs 14 B, 不同数据集不同评估协议。严格来说它们不可比。(3)推理速度是不是死穴?DreamZero 的 7Hz 方案工程上已经非常 impressive, 但需要 2 块 GB200。对比之下 VLA 在消费级 GPU 上就能跑 20 Hz 。对灵巧操作、接物、避障这些高动态场景7Hz可能仍然不够。不过UVA在推理时跳过视频生成头速度和纯 Diffusion Policy 相当mimic-video 的partial denoising 大幅降低了计算开销 DreamZero-Flash 的1步去噪仅损失 9% 性能。提取视频先验但不付全部计算代价——这些优雅的中间方案可能是工程落地的关键。(4) VAE 的信息瓶颈目前大多数工作在latent space操作这主要是计算效率考量。但一个潜在风险是 VAE下采样的信息损失——特别是插USB线、旋开小螺丝这类需要极高空间精度的任务。目前还没有工作系统性地回答这个问题但直觉上随着任务精度要求提升这个天花板迟早会出现。(5)共识视频预训练VLM预训练三条路线的研究者在这一点上高度一致。来自视频的物理动态先验对机器人控制比语义先验更关键。这不是说语义理解不重要当然— 重要机器人需要理解把杯子放到杯垫上是什么意思。但语义理解已经被解决得相当好了真正的瓶颈在物理层面的泛化。NE-Time 指出尽管WAM理论优势明确“相比于VLM 初始化的 VLA, 该方向尚不主流”——部分原因是微调SOTA视频模型(如Wan) 的计算成本超过了 VLM-based VLA 微调。范式革命的 conviction 在增强但基础设施还没跟上。06. 往更远处看WAM 这条路线最大的长期价值可能不在于任何单一的技术创新而在于它打开了一个全新的scaling story。VLA的scaling受限于机器人数据——每条轨迹都要真实操作或高质量仿真昂贵且有限。WAM可以同时吃机器人数据和互联网视频——后者几乎无限。你的模型能从烹饪视频里学蛋液怎么流从篮球视频里学弹跳轨迹从木工视频里学切割力学。这些知识全部可以迁移。Motus 已经在 50 任务上展示了这个 scaling 行为DreamZero 证明了多样化数据优于重复示教Vidar用20分钟适配新任务。如果这个趋势持续机器人训练的 bottleneck 就不再是采集了多少条示教轨迹 , 而是视频基座模型见过多少种物理现象。这将是一个完全不同的游戏。2026年的具身智能正在从让VLM学会动手转向让视频模型学会动手。这个范式转移能走多远让我们拭目以待…2026: VLA 将死WAM 当立 ? ? ? ? ?

2026: VLA 将死，WAM 当立 ? ? ? ? ?【视频预训练＞VLM预训练：来自视频的物理动态先验，对机器人控制比语义先验更关键】

相关文章：

2026: VLA 将死，WAM 当立 ? ? ? ? ?【视频预训练＞VLM预训练：来自视频的物理动态先验，对机器人控制比语义先验更关键】

Modbus从裸机到RTOS的C语言扩展实践（2024最新ARM Cortex-M7实测方案）

【C语言TSN协议调试工具实战宝典】：20年嵌入式专家亲授5大核心调试场景与3类硬件级故障规避法则

工业C验证工具选型终极对比：CBMC vs. ESBMC vs. Frama-C（基于217个真实SOC固件模块的量化基准测试）

从‘777’警告到精准授权：聊聊Linux文件权限设计的哲学与最佳实践

从开发到上线：如何用Oracle Data Pump（expdp/impdp）安全高效地同步测试库与生产库的表结构？

别再乱接线了！搞懂数据采集卡的RSE、NRSE和DIFF模式，实测避坑（以USB-3113为例）

抖音无水印下载终极指南：5步轻松保存高清视频和直播回放

AMD Ryzen处理器终极调校指南：免费开源硬件调试神器SMUDebugTool完整使用教程

Twinkle Tray终极指南：Windows显示器亮度调节神器使用技巧与问题解决

别再傻等下载了！手把手教你用本地GGUF文件快速创建Ollama模型（附Modelfile配置详解）

终极iOS设备降级工具：Legacy-iOS-Kit完整使用指南与性能优化

DLSSTweaks深度解析：解锁NVIDIA DLSS隐藏性能的终极攻略

UnrealPakViewer：解决虚幻引擎Pak文件分析难题的专业级工具

Unity里用梯度下降法搞定机械臂逆运动学（附完整C#脚本）

神经拟态语音检测芯片：低功耗与高精度的技术突破

Linux与Xeon处理器在数字内容创作中的技术演进

跨行业数据要素可信流通体系建设：打破信任壁垒的完整工程方法论（WORD）

别再只用图片识别了！用Vuforia Object Scanner给玩具小车做个AR互动（Unity 2022保姆级教程）

VSCode、PyCharm、MobaXterm、CMD：四款远程连接工具，我该Pick谁？

MCP协议调试利器：mcpdog CLI工具实战指南

手把手教你给TMS320F28377D项目‘体检’：如何用CCS的Profiler验证TMU库是否真的生效了？

Android USB Accessory开发实战：从硬件连接到应用交互的全流程解析

观察聚合平台在多模型同时调用时的服务稳定性表现

MLLM与3D部件级理解：语言驱动3D交互系统解析

wxappUnpacker深度解析：从二进制包到可读源码的逆向工程之旅

AI多模态分子设计：ODesign技术解析与应用实践

TranslucentTB终极解决方案：5种方法快速修复Microsoft.UI.Xaml依赖问题

【6】为什么有了 HTTP/1.1 ，还要 HTTP/2 和 HTTP/3

2026届毕业生推荐的AI学术助手解析与推荐