当前位置: 首页 > article >正文

2026: VLA 将死,WAM 当 立 ? ? ? ? ?【视频预训练>VLM预训练:来自视频的物理动态先验,对机器人控制比语义先验更关键】

2026年以来具身智能圈子里最热的争论已经不是 哪家VLA刷了多少分而是一个更根本的问题我们给机器人选的 这条路 , 它真的对吗 ?主流 VLA(Vision-Language-Action) 模型的套 路大家都熟了—拿一个在海量图文数据上预训练 好的VLM当底座再用机器人数据做post-training , 让模型学会输出动作。从 RT-2 到 πo 再到 πo.5, 这套范式确实 work, 也确 实能做出语义泛化——你给它看没见过的物体只 要VLM的语义先验够强模型多半能认出来然后 执行 ”抓起来放到那儿之类的操作。但问题出在哪呢 ?VLA 能认出 Taylor Swift 的脸却解不开一根鞋 带。这不是段子这是NVIDIA团队一个很尖锐的观 察。VLM预训练教会了模型什么是什么,却没教会它世界怎么动。你要机器人叠一件没见过款式的衣服、用没练过的工具完成操作光靠语义理解远远不够——它缺的是对物理世界因果关系的建模。mimic-video 的作者把问题说到了根上视觉-语言预训练只能捕获语义先验而对物理因果性完全失明。视频预训练才是正确的起点。NVIDIA 的 Jim Fan 更 是 把World Action Model称为机器人领域的GPT-2时刻,一个全新的预训 练范式模型预测的不再是下一个词而是下一个物理状态。他还给了一个很有意思的生物学论证猿类几乎没有语言能力却能换刹车片因为它们大脑皮层中视觉和物理理解占据了绝对主导。01.先理解核心矛盾VLA到底缺了什么?在展开三条路线之前值得先厘清一个概念框架。一个理想的自主具身智能体 (AutonomousEmbodied Agent)本质上需要两个互补的能力P r ( a ∣ l , o ) Pr(a|l,o)Pr(a∣l,o)— 给定语言指令和观测输出动作。这是“策略”。P r ( o ∣ l , a ) Pr(o|l,a)Pr(o∣l,a)— 给定语言和动作预测世界会变成什么样。这是“世界模型”。传统VLA只做第一个—输入图像和文本输出动 作 token。世界模型只做第二个 输入当前状态和动作预——测未来观测。WAM要做的事情是把两者融合起来让模型既能想象世界的未来演化又能从这个想象中提取出应该执行的动作。下面三列对比图讲得很清楚Action Model理解图像但不能生成图像World Model能生成图像但不能生成动作Action World Model 两样都会。因为视频预训练和VLM预训练带来的东西本质上 不一样。VLM的预训练数据是图文对——静态的、离散的、 语义层面的。而视频数据天然包含了时间连续性、物体运动轨迹、接触变形、因果关系——这些在静态图片里根本看不到的信息。一个在海量视频上训练过的模型它见过水怎么流、布怎么折、物体怎么滑落。这些物理先验是 VLM 永远学不到的。DreamZero 的 NVIDIA 团队提供了一个很刺痛的实证 预训练 VLA 不管收到什么指令都倾向于执行 pick- and- place 动 作 。它们不是真正理解了任务语义而是过拟合了训练数据中最常见的行为模式。在多样化的评估任务上最好的预训练 VLA只达到27.4 % 2 7 . 4 \%27.4%的任务进度而 DreamZero 达到了62.2% ——超过两倍。理解了这一点三条路线的分歧就自然浮现了——它们都认同 视频预训练 视觉 - 语言预训练 , 但在 怎么用视频 这个问题上走了完全不同的路。02. 路线一两阶段解耦派代表工作 UniPi→VPP→Vidar→mimic-video→LAPA2.1 开山之作UniPi(NeurIPS 2023)它提出了一个极其重要的方向用视频作为通用接口—不同机器人、不同环境共享同一个像素空间天然支持跨本体迁移。2.2 加速之作VPP(ICML2025 Spotlight)VPP 首先确认了一个后来被mimic-video 反复强调的关键洞见策略性能与视频预测质量直接正相关。再到 25 年mimic-video 提出了三个关键创新第 一 Partial Denoising;第二独立的 flow schedule;第三也是最有意义的发现V ideo QualityPolicy Quality 。;还有一个违反直觉的发现值得深思解耦训练居然比端到端训练效果更好。这条路线上还有两个值得关注的工作一、Vidar 聚焦双臂操作二、LAPA(ICLR 2025) 走了一条更独特的路03. 路线二端到端联合生成派代表工作PAD→VideoVLA→WorldVLA→Cosmos Policy→DreamZeroPAD(NeurIPS 2024) 建立了基础洞察图像预 测和动作生成共享相同的去噪动力学VideoVLA(NeurIPS 2025) 把这个思路扩展到CogVideoX-5B;达摩院的WorldVLA探索了Chameleon 架构下的理解生成大统一范式提出了action attention masking 机制Cosmos Policy是我近期最喜欢的工作它的核心 洞察简洁到优美它基于 Cosmos-Predict2B,对 预训练backbone 做了零架构修改—— 这在所有WAM工作中是最minimalist 的方案DreamZero 是目前的集大成者把整条路线上所有关键问题都给出了一份答案。自回归架构保持原生帧率解决了双向扩散的video-action 对 齐 问 题多 样 化 非 重 复 数 据 优 于 重 复 示 教( 33 % ( 3 3 \%(33%$ 5 0 % )$ ,颠覆了传统VLA 的数据收集范 式3 0 分 钟 play data 迁移到全新机器人保持零样本泛化14 B 模 型 通 过 六 层 优 化 栈 跑 到 7 Hz (2×GB200)架构选择为什么选自回归而非双向 ? 这是一个被很多 WAM工作忽略的问题。数据利用不需要重复示教泛化能力超过VLA两倍跨本体迁移30分钟适配新机器人实时性14B模型跑到7Hz04. 路线三统一多功能模型派——一个模型干四件事代表工作UVA→UWM→UWM→LingBot−VA→MotusUWM: 独立时间步的优雅设计训练时无需任何特殊处理 一个统一的loss 函数搞定一切。UVA: 轻量级的务实方案。关键效率洞察推过速度和纯动作 Diffusion Policy 相当。LingBot-VA : 逐 token 的边想边做。LingBot- VA 与 UVA/UWM 的关键区别在于时 间粒度。UVA 和 UWM 都是 chunk-level 的 先— 想一段 未来视频再生成一段动作。LingBot -VA 是 token-level 的自回归—每个时间步先预测下一帧视频latent, 再基于这个预测 解码出动作。更接近边想边做边纠错的直觉。Motus: 最惊艳的实验结论Motus 来自朱军老师团队它用光流(opticalflow) 作为跨本体的通用运动表征。DPFlow 从任意视频中提取像素级位移然后用卷 积 VAE 压缩为本体无关的 latent actions。这意味着任何视频都能用—YouTube 烹饪视频、 第一人称人类操作、合成数据、多种机器人数据不需要动作标注。三专家 MoT 架构融合了 Qwen3-VL-2B ( 语义理解)、Wan2.2-5B ( 视频生成)和轻量动作专家通过共享 multi-head self-attention 交互配合一个从web 数据到机器人数据的六层数据金字塔做 三阶段渐进训练。在 RoboTwin 2.0 的 50 任务多任务训练中随着任务数量增加 Motus 的平均成功率持续上升而πo.5 则持续下降。最终 Motus 达到 87.0% (比 πo.5 高出 45 个百分点)。在真实机器人上AC-One 平台上 Motus 做咖啡研磨达到92%——πo.5只有8%。这个结果非常惊艳Motus学到的是共享的world knowledge—任务越多共享知识越丰富每个任务都受益。而VLA更像是在每个任务的 action 模式上独立拟合任务一多就互相干扰。这让人想到一个类比GPT-3之前NLP也是多任务不如单任务,直到 模型和数据规模跨过某个阈值multi-task 才开始mutual beneficial。WAM 路线是不是也走到了这个拐点 ?05. 一些问题与共识(1) Video QualityPolicyQuality, 这个等式的边界在哪?mimic-video 证明了视频预测质量和策略性能强相关。但这是不是意味着视频生成的天花板就是机器人操控的天花板?如果是那VAE的信息瓶颈— 特别是插 USB线、旋螺丝这类需要亚毫米精度的任务会不会成为不可逾越的限制目前没有人系统性地回答过。(2)解耦vs 端到端到底是哲学问题还是工程问题?mimic-cideo 说解耦更好DereamZero说端到端更好。我倾向于认为这是 scale-dependent 的数据少时别动视频backbone, 数据够了再端到端。但这只是直觉不是证据。而且这两个结论来自完全不同的实验设置—2B vs 14 B, 不同数据集不同评估协议。严格来说它们 不可比。(3)推理速度是不是死穴?DreamZero 的 7Hz 方案工程上已经非常 impressive, 但需要 2 块 GB200。对比之下 VLA 在消费级 GPU 上就能跑 20 Hz 。对灵巧操作、接物、避障这些高动态场景7Hz可 能仍然不够。不过UVA在推理时跳过视频生成头速度和纯 Diffusion Policy 相当mimic-video 的partial denoising 大 幅 降 低 了 计 算 开 销 DreamZero-Flash 的1步去噪仅损失 9% 性能。提取视频先验但不付全部计算代价——这些优雅的中间方案可能是工程落地的关键。(4) VAE 的信息瓶颈目前大多数工作在latent space操作这主要是计 算效率考量。但一个潜在风险是 VAE下采样的信息损失——特别 是插USB线、旋开小螺丝这类需要极高空间精度的 任务。目前还没有工作系统性地回答这个问题但直觉上随着任务精度要求提升这个天花板迟早会出现。(5)共识视频预训练VLM预训练三条路线的研究者在这一点上高度一致。来自视频的物理动态先验对机器人控制比语义先验更关键。这不是说语义理解不重要 当然— 重要机器人需要理解把杯子放到杯垫上是什么意思。但语义理 解已经被解决得相当好了真正的瓶颈在物理层面 的泛化。NE-Time 指出尽管WAM理论优势明确“相比于VLM 初始化的 VLA, 该方向尚不主流”——部分原 因是微调SOTA视频模型(如Wan) 的计算成本超 过了 VLM-based VLA 微调。范式革命的 conviction 在增强但基础设施还没跟上。06. 往更远处看WAM 这条路线最大的长期价值可能不在于任何单 一的技术创新而在于它打开了一个全新的scaling story。VLA的scaling受限于机器人数据——每条轨迹都要真实操作或高质量仿真昂贵且有限。WAM可以同时吃机器人数据和互联网视频——后者几乎无限。你的模型能从烹饪视频里学蛋液怎么流从篮球视频里学弹跳轨迹从木工视频里学切割力学。这些知识全部可以迁移。Motus 已经在 50 任务上展示了这个 scaling 行为DreamZero 证明了多样化数据优于重复示教Vidar用20分钟适配新任务。如果这个趋势持续机器人训练的 bottleneck 就不再是 采集了多少条示教轨迹 , 而是 视频基座模型见过多少种物理现象 。这将是一个完全不同的游戏。2026年的具身智能正在从让VLM学会动手转 向让视频模型学会动手。这个范式转移能走多远让我们拭目以待…2026: VLA 将死WAM 当 立 ? ? ? ? ?

相关文章:

2026: VLA 将死,WAM 当 立 ? ? ? ? ?【视频预训练>VLM预训练:来自视频的物理动态先验,对机器人控制比语义先验更关键】

2026年以来,具身智能圈子里最热的争论已经不是 哪家VLA刷了多少分,而是一个更根本的问题: 我们给机器人选的 " 这条路 ", 它真的对吗 ? 主流 VLA(Vision-Language-Action) 模型的套 路大家都熟了—拿一个在海量图文数据上预训练…...

Modbus从裸机到RTOS的C语言扩展实践(2024最新ARM Cortex-M7实测方案)

更多请点击: https://intelliparadigm.com 第一章:Modbus从裸机到RTOS的C语言扩展实践(2024最新ARM Cortex-M7实测方案) 在基于STM32H7系列(Cortex-M7 480 MHz)的工业边缘控制器上,将裸机Modb…...

【C语言TSN协议调试工具实战宝典】:20年嵌入式专家亲授5大核心调试场景与3类硬件级故障规避法则

更多请点击: https://intelliparadigm.com 第一章:TSN协议调试工具的核心架构与设计哲学 TSN(Time-Sensitive Networking)协议调试工具并非传统网络抓包器的简单增强,而是面向确定性通信闭环验证的系统级工程产物。其…...

工业C验证工具选型终极对比:CBMC vs. ESBMC vs. Frama-C(基于217个真实SOC固件模块的量化基准测试)

更多请点击: https://intelliparadigm.com 第一章:工业C验证工具选型终极对比:CBMC vs. ESBMC vs. Frama-C(基于217个真实SOC固件模块的量化基准测试) 在嵌入式安全关键系统中,C语言静态验证工具的可靠性直…...

从‘777’警告到精准授权:聊聊Linux文件权限设计的哲学与最佳实践

从‘777’警告到精准授权:Linux文件权限设计的哲学与最佳实践 在数字世界的安全防线中,Linux文件权限系统就像一座精密的城堡防御体系。每当看到新手管理员随手输入chmod 777时,总让我想起中世纪城堡守卫随意放下吊桥的场景——便捷却危机四伏…...

从开发到上线:如何用Oracle Data Pump(expdp/impdp)安全高效地同步测试库与生产库的表结构?

Oracle Data Pump实战:测试库与生产库表结构同步的工程化实践 在敏捷开发流程中,数据库表结构的变更如同呼吸般频繁。每当新功能进入测试阶段,如何确保表结构变更能准确无误地从开发环境传递到测试环境?当预发布验证通过后&#x…...

别再乱接线了!搞懂数据采集卡的RSE、NRSE和DIFF模式,实测避坑(以USB-3113为例)

数据采集卡输入模式实战指南:RSE、NRSE与DIFF的精准选择与避坑策略 实验室里那台价值不菲的振动传感器突然输出异常波形时,大多数工程师的第一反应是检查传感器本身——但真正的问题往往藏在那些不起眼的接线端子之间。数据采集卡的输入模式选择&#xf…...

抖音无水印下载终极指南:5步轻松保存高清视频和直播回放

抖音无水印下载终极指南:5步轻松保存高清视频和直播回放 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback sup…...

AMD Ryzen处理器终极调校指南:免费开源硬件调试神器SMUDebugTool完整使用教程

AMD Ryzen处理器终极调校指南:免费开源硬件调试神器SMUDebugTool完整使用教程 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. …...

Twinkle Tray终极指南:Windows显示器亮度调节神器使用技巧与问题解决

Twinkle Tray终极指南:Windows显示器亮度调节神器使用技巧与问题解决 【免费下载链接】twinkle-tray Easily manage the brightness of your monitors in Windows from the system tray 项目地址: https://gitcode.com/gh_mirrors/tw/twinkle-tray Twinkle T…...

别再傻等下载了!手把手教你用本地GGUF文件快速创建Ollama模型(附Modelfile配置详解)

别再傻等下载了!手把手教你用本地GGUF文件快速创建Ollama模型(附Modelfile配置详解) 当你已经下载好GGUF模型文件,却因为网络问题无法从Ollama官方拉取模型时,那种等待的煎熬感我深有体会。特别是在内网环境或网络不稳…...

终极iOS设备降级工具:Legacy-iOS-Kit完整使用指南与性能优化

终极iOS设备降级工具:Legacy-iOS-Kit完整使用指南与性能优化 【免费下载链接】Legacy-iOS-Kit An all-in-one tool to restore/downgrade, save SHSH blobs, jailbreak legacy iOS devices, and more 项目地址: https://gitcode.com/gh_mirrors/le/Legacy-iOS-Kit…...

DLSSTweaks深度解析:解锁NVIDIA DLSS隐藏性能的终极攻略

DLSSTweaks深度解析:解锁NVIDIA DLSS隐藏性能的终极攻略 【免费下载链接】DLSSTweaks Tweak DLL for NVIDIA DLSS, force DLAA on DLSS-supported titles, tweak scaling ratios & DLSS 3.1 presets, override DLSS versions without overwriting game files. …...

UnrealPakViewer:解决虚幻引擎Pak文件分析难题的专业级工具

UnrealPakViewer:解决虚幻引擎Pak文件分析难题的专业级工具 【免费下载链接】UnrealPakViewer 查看 UE4 Pak 文件的图形化工具,支持 UE4 pak/ucas 文件 项目地址: https://gitcode.com/gh_mirrors/un/UnrealPakViewer 在虚幻引擎开发过程中&#…...

Unity里用梯度下降法搞定机械臂逆运动学(附完整C#脚本)

Unity梯度下降法实现机械臂逆运动学:从数学原理到代码实战 在游戏开发和机器人仿真领域,机械臂的运动控制一直是个既基础又复杂的课题。当我们需要让机械臂末端执行器精准到达某个目标位置时,传统的前向运动学方法往往力不从心——给定关节角…...

神经拟态语音检测芯片:低功耗与高精度的技术突破

1. 神经拟态语音活动检测芯片的技术突破在万物互联时代,语音交互正成为人机交互的重要入口。传统语音激活检测方案通常面临两大技术瓶颈:一是持续监听带来的高功耗问题,典型方案功耗在毫瓦级别;二是复杂环境下的语音识别率下降。P…...

Linux与Xeon处理器在数字内容创作中的技术演进

1. Linux与Xeon处理器在数字内容创作中的技术演进2003年那个夏天,当我在RFX烧烤派对上第一次听到"Linux"这个词时,没人能预料到这个开源操作系统会彻底改变好莱坞的创作方式。当时作为数字动画师的我,正深陷SGI工作站和IRIX系统构建…...

跨行业数据要素可信流通体系建设:打破信任壁垒的完整工程方法论(WORD)

写在前面:这是一份关于跨行业数据要素可信流通空间与数据产品标准化交付体系的详细设计方案拆解。方案的核心命题很清晰:在国家大力推进数据要素市场化配置的政策背景下,如何从技术和制度两个维度,真正解决跨行业数据"不敢流…...

别再只用图片识别了!用Vuforia Object Scanner给玩具小车做个AR互动(Unity 2022保姆级教程)

用Vuforia Object Scanner打造玩具小车的AR互动世界(Unity 2022实战指南) 当孩子们把玩具小车推过地板时,你是否想过让这些静态模型在数字世界"活"起来?通过Vuforia的Object Scanner技术,我们不仅能识别平面…...

VSCode、PyCharm、MobaXterm、CMD:四款远程连接工具,我该Pick谁?

四款远程开发工具深度横评:找到你的生产力倍增器 在远程开发成为主流的今天,选择合适的工具就像为工匠挑选趁手的凿子——它直接决定了你的工作效率和舒适度。作为一位经历过无数个深夜调试的老兵,我深刻体会到工具选型的重要性。VSCode、PyC…...

MCP协议调试利器:mcpdog CLI工具实战指南

1. 项目概述:一个专为MCP协议设计的“猎犬”如果你在开发基于MCP(Model Context Protocol)的应用,或者正在构建一个需要与多种AI模型、工具或数据源进行复杂交互的智能体,那么你很可能遇到过这样的困境:协议…...

手把手教你给TMS320F28377D项目‘体检’:如何用CCS的Profiler验证TMU库是否真的生效了?

手把手教你给TMS320F28377D项目"体检":如何用CCS的Profiler验证TMU库是否真的生效了? 在嵌入式DSP开发中,性能优化往往决定着产品的核心竞争力。TMS320F28377D作为TI新一代高性能DSP,其内置的三角函数加速单元&#xff…...

Android USB Accessory开发实战:从硬件连接到应用交互的全流程解析

Android USB Accessory开发实战:从硬件连接到应用交互的全链路指南 当你想让Android设备与外部硬件深度交互时,USB Accessory模式可能是最可靠的选择。想象一下这样的场景:你的智能咖啡机通过USB连接手机后自动弹出控制界面,或者工…...

观察聚合平台在多模型同时调用时的服务稳定性表现

观察聚合平台在多模型同时调用时的服务稳定性表现 1. 测试背景与目标 在实际业务场景中,开发者经常需要同时调用多种大模型能力来完成复杂任务。例如,一个智能客服系统可能同时需要文本生成、意图识别和情感分析等不同模型协同工作。这种多模型并发调用…...

MLLM与3D部件级理解:语言驱动3D交互系统解析

1. 项目背景与核心价值在3D交互领域,传统系统往往需要用户具备专业建模软件操作技能,这无形中筑起了技术门槛。Part-X-MLLM的诞生直击这一痛点——它让语言成为连接人类创意与3D世界的桥梁。去年我在参与一个智能家居设计项目时,就深刻体会到…...

wxappUnpacker深度解析:从二进制包到可读源码的逆向工程之旅

wxappUnpacker深度解析:从二进制包到可读源码的逆向工程之旅 【免费下载链接】wxappUnpacker forked from https://github.com/qwerty472123/wxappUnpacker 项目地址: https://gitcode.com/gh_mirrors/wxappu/wxappUnpacker 微信小程序逆向工程与源码还原技术…...

AI多模态分子设计:ODesign技术解析与应用实践

1. 项目背景与核心价值在药物研发和材料科学领域,分子设计一直是个耗时费力的过程。传统方法通常需要化学家们反复试错,既消耗资源又效率低下。而ODesign项目的出现,正在彻底改变这一局面。这个项目最吸引我的地方在于它突破了传统分子设计的…...

TranslucentTB终极解决方案:5种方法快速修复Microsoft.UI.Xaml依赖问题

TranslucentTB终极解决方案:5种方法快速修复Microsoft.UI.Xaml依赖问题 【免费下载链接】TranslucentTB A lightweight utility that makes the Windows taskbar translucent/transparent. 项目地址: https://gitcode.com/gh_mirrors/tr/TranslucentTB Trans…...

【6】为什么有了 HTTP/1.1 ,还要 HTTP/2 和 HTTP/3

写在前面 打开一个电商首页时,浏览器表面上像是在拿一份 HTML。可真正发生的事远不止这一件:样式、脚本、图片、字体、接口数据,会一批批接着发出去。页面越复杂,请求越多;请求一多,协议的短板就会一起冒出…...

2026届毕业生推荐的AI学术助手解析与推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 让AIGC工具专门用来削减人工智能生成内容的可被认清的特性,这类工具借助重构句式…...