当前位置：首页 > article >正文

世界模型EP01：DreamZeroDreamDojo 世界模型与机器人智能的新范式

article 2026/5/7 19:08:04

发布时间：2026年3月18日 06:30世界模型这个概念，从2024年偶尔听到，到如今已经非常热门。延续之前的三个系列科普，Robot Data EP10 Robot Data第一季访谈总结，和Human Data 总结篇：Human Data—The “Key” to Robot Data，以及Robot Foundation model系列，2026年上半年，石麻笔记会对世界模型做一个系列科普。世界模型第一篇，我们有幸邀请到DreamZero和DreamDojo两个工作的参与者，高深远博士。他目前是香港科技大学的PhD，主要的研究方向是interactive world model以及相关课题。他同时也是英伟达研究院GEAR的成员，与Yuke Zhu和Jim Fan合作。📋 本文目录World model路线分类什么叫world action model（WAM）？自动驾驶和机器人的world model的区别Dreamzero的方法介绍DreamDojo方法介绍DreamZero和DreamDojo如何联动怎么看3D数据数据怎么进一步迭代world model怎么和RL结合1. World model路线分类对"world model"这个概念来说，这个名词最早应该是从做RL的人那里来的。因为在强化学习里，需要有一个model，对环境进行建模，而这个环境就可以理解为world。简单来说，world model本质上是一个state transition function：输入是action和state，输出是下一个state。它和policy是一种互补关系。可以理解为，你把action交给world model，world model告诉你下一个state；这个state再交给policy，policy再输出新的action，如此反复，与world model持续交互。我开始做world model，是因为当时在上海AI Lab做intern。那时候特斯拉已经做出了一些world model的工作。我一开始做的是自动驾驶数据合成，当时正好image diffusion、video diffusion刚出来一些工作。我在用diffusion做自动驾驶数据合成时，就在想，既然可以用diffusion做数据生成，为什么不直接做一个world model？于是我们开始做world model。从流派上讲，world model在最抽象的层面就是一个action-conditioned的状态转移方程。但action可以有多种模态表示，state的表示形式也可以有很多种。Video Generation Model-Pixel Space目前最主流的是基于video generation的world model，因为这种方式最scalable，完全data-driven，也得益于video diffusion的发展。JEPAJEPA这一类的方法，是Lecun一直在推的。他的核心观点是：state不应该表示在pixel space，而应该表示在latent space。原因在于，他认为预测pixel对decision making并不合理。他喜欢举例说，人进入一个新房间时，不可能精确预测每一个像素；在街上行走做决策时，也不会去预测每个人的脸长什么样。这些低层次的细节既几乎不可能预测，也与决策无关。让模型去预测这些内容，只是在消耗容量，去拟合本质上无法预测、也无助于决策的东西。因此，过于low-level的信息不应该成为world model的预测目标。他的想法是构造一个更具语义性的latent space，在这个空间中进行预测，只保留对decision making有用的信息。这个latent space可以通过unsupervised方法，或者借助其他task的监督来构造，使其对决策更有帮助，同时避免预测低层细节。这是Lecun他们那一派的思路。JEPA里提到的EMB模型，可以参考专访Yilun Du：基于EBM和视频生成的具身智能研究路线Dynamics Model另外一类是dynamics model。其实world model和forward dynamics model在定义上基本一致。北美一些学者在推的dynamics model，核心区别在于state的表示方式。他们会把state表示为高度抽象的结构，比如key points，或者graph结构，用来表示物体状态及其与手的关系。这种表示既不是latent space，也不是video的pixel space，而是非常抽象的结构化表示，可能包含key points或物理属性。这种方法的好处在于，早期或传统robotics很喜欢这种高度抽象的表示。因为它便于few-shot或zero-shot迁移，可以快速把人的demonstration迁移到新任务上。但在我看来，这类方法通常需要很多假设，例如对物体材料属性的假设，以及较强的归纳偏置。它本质上不是一个完全data-driven的方法，虽然在小样本场景下可能很有用，但难以充分受益于大规模数据，因为其中加入了大量人工prior。Yunzhu在Dynamics Model方向上有很多探索，可以参考之前的访谈对话李昀烛：通用操作新解法——基于学习的动力学模型3D World Model还有一类是李飞飞World Lab为代表的3D路线。我认为这种方法有优点也有缺点。它的流程是把next state prediction拆成几个阶段：首先显式地用3D表示重建整个世界；重建完成后，如果改变动作或视角，再进行生成和render，从而得到下一个observation。也就是说，它把next state prediction分解为"重建"和"render"两个步骤。优点是因为显式进行了3D重建，空间一致性可以做得非常强。但render这一步是单独处理的，因此整个流程不是纯end-to-end。简单来说，3D世界重建好之后，如果有行人行走、车辆运动、液体流动等动态过程，这些dynamics需要单独再去模拟。可以通过rule-based方法，也可以通过learning方法，但世界重建和dynamics模拟是decouple的，不是统一的端到端建模。整体而言，这种dynamics的模拟方式不算特别scalable。基于物理引擎的World Model还有一类world model，是英伟达等在推的基于物理引擎的world model。物理引擎本身就具备world model的功能：给它action，它就能模拟出下一个state。优点是physics可以非常精确，例如完全符合牛顿定律。但问题在于，它很难做到足够diverse。引入新的物体通常需要手工设计assets。不过这点也在改善，现在有很多3D generation方法可以自动生成大量assets和场景。总体来看，这一类方法在pipeline上和李飞飞那种3D路线类似：先进行重建，再用某种方式模拟dynamics，最后render出结果，并不是一个纯end-to-end的方法。Genesis也是这条路线，可以参考之前的访谈 Genesis 发布：全新机器人物理引擎——它会变革机器人仿真吗？2. 什么叫world action model（WAM）？这是一个非常好的问题。我们之所以称它为world action model，是为了强调模型同时预测action的能力。像DreamZero以及一系列类似的工作，本质上也可以看作world model。传统意义上的world model可以理解为一个state transition function：输入是state和action，输出是下一个state。在这种框架下，作为条件输入的action可以有多种不同形式。DreamZero其实是把world model和如何根据未来state的预测decode出action的inverse dynamics model组合到了一个模型中。如果把它看作一种world model，那么其中的ac

世界模型EP01：DreamZeroDreamDojo 世界模型与机器人智能的新范式

相关文章：

世界模型EP01：DreamZeroDreamDojo 世界模型与机器人智能的新范式

多模态检索增强技术在图像生成中的应用与优化

LLM PDF Translator：基于版面分析与大模型的文档翻译工具部署与实战

机器人控制中心开发指南：Electron串口通信与数据可视化实践

如何让老旧电视复活：Android原生电视直播应用完整指南

Web3资产组合SDK实战：从多链聚合到DApp开发全解析

体验 Taotoken 官方价折扣活动对个人开发者月度账单的切实影响

基于Nostr协议的私信机器人框架：构建去中心化社交自动化服务

Magentic：用Python装饰器实现LLM结构化输出与函数调用

游戏开发者的图像格式困境？Tacent View一站式解决所有专业纹理处理需求

BL602 RISC-V微控制器逆向工程与WiFi协议栈分析

Reloaded-II 下载卡顿终极解决方案：3个技巧让你的Mod安装快如闪电 [特殊字符]

2026届毕业生推荐的六大AI论文工具实测分析

从PACS抓取的DICOM文件在SimpleITK中shape突变？深度拆解Transfer Syntax隐式VR转换陷阱

别再让Maven打包的jar包名又长又乱了！finalName标签的3种实战用法（含变量技巧）

揭秘OLAP数据库预计算技术

基于Axon.MCP.Server构建AI Agent工具：.NET 8实现MCP协议实战

别再为MIR7和MIRO搞混了！详解SAP发票校验的差异与实战增强配置

WarcraftHelper完全指南：5分钟让经典魔兽在现代电脑上重获新生

抖音无水印视频下载终极指南：3分钟实现高清视频保存

小红书无水印下载神器：从入门到精通的完整指南

多模态大模型优化与量化部署实战

告别TabControl！用Prism区域管理重构你的WPF导航，模块化开发真香了

终极指南：如何用VideoDownloadHelper快速下载网页视频的完整教程

CASEMOVE：终极CS2物品管理桌面应用完整指南

多模态大语言模型架构设计与工程实践

别再折腾环境了！用Anaconda新建Python环境，5分钟搞定JSBSim与AirSim联调

告别触摸屏！用3个GPIO按键玩转LVGL界面：ESP32平台IO环境下的精简配置法

Switch系统加速终极指南：5大技巧让游戏加载快如闪电

Sunshine游戏串流主机：打造你的个人云游戏服务器