当前位置: 首页 > article >正文

世界模型EP01:DreamZeroDreamDojo 世界模型与机器人智能的新范式

发布时间:2026年3月18日 06:30世界模型这个概念,从2024年偶尔听到,到如今已经非常热门。延续之前的三个系列科普,Robot Data EP10 Robot Data第一季访谈总结,和Human Data 总结篇:Human Data—The “Key” to Robot Data,以及Robot Foundation model系列,2026年上半年,石麻笔记会对世界模型做一个系列科普。世界模型第一篇,我们有幸邀请到DreamZero和DreamDojo两个工作的参与者,高深远博士。他目前是香港科技大学的PhD,主要的研究方向是interactive world model以及相关课题。他同时也是英伟达研究院GEAR的成员,与Yuke Zhu和Jim Fan合作。📋 本文目录World model路线分类什么叫world action model(WAM)?自动驾驶和机器人的world model的区别Dreamzero的方法介绍DreamDojo方法介绍DreamZero和DreamDojo如何联动怎么看3D数据数据怎么进一步迭代world model怎么和RL结合1. World model路线分类对"world model"这个概念来说,这个名词最早应该是从做RL的人那里来的。因为在强化学习里,需要有一个model,对环境进行建模,而这个环境就可以理解为world。简单来说,world model本质上是一个state transition function:输入是action和state,输出是下一个state。它和policy是一种互补关系。可以理解为,你把action交给world model,world model告诉你下一个state;这个state再交给policy,policy再输出新的action,如此反复,与world model持续交互。我开始做world model,是因为当时在上海AI Lab做intern。那时候特斯拉已经做出了一些world model的工作。我一开始做的是自动驾驶数据合成,当时正好image diffusion、video diffusion刚出来一些工作。我在用diffusion做自动驾驶数据合成时,就在想,既然可以用diffusion做数据生成,为什么不直接做一个world model?于是我们开始做world model。从流派上讲,world model在最抽象的层面就是一个action-conditioned的状态转移方程。但action可以有多种模态表示,state的表示形式也可以有很多种。Video Generation Model-Pixel Space目前最主流的是基于video generation的world model,因为这种方式最scalable,完全data-driven,也得益于video diffusion的发展。JEPAJEPA这一类的方法,是Lecun一直在推的。他的核心观点是:state不应该表示在pixel space,而应该表示在latent space。原因在于,他认为预测pixel对decision making并不合理。他喜欢举例说,人进入一个新房间时,不可能精确预测每一个像素;在街上行走做决策时,也不会去预测每个人的脸长什么样。这些低层次的细节既几乎不可能预测,也与决策无关。让模型去预测这些内容,只是在消耗容量,去拟合本质上无法预测、也无助于决策的东西。因此,过于low-level的信息不应该成为world model的预测目标。他的想法是构造一个更具语义性的latent space,在这个空间中进行预测,只保留对decision making有用的信息。这个latent space可以通过unsupervised方法,或者借助其他task的监督来构造,使其对决策更有帮助,同时避免预测低层细节。这是Lecun他们那一派的思路。JEPA里提到的EMB模型,可以参考 专访Yilun Du:基于EBM和视频生成的具身智能研究路线Dynamics Model另外一类是dynamics model。其实world model和forward dynamics model在定义上基本一致。北美一些学者在推的dynamics model,核心区别在于state的表示方式。他们会把state表示为高度抽象的结构,比如key points,或者graph结构,用来表示物体状态及其与手的关系。这种表示既不是latent space,也不是video的pixel space,而是非常抽象的结构化表示,可能包含key points或物理属性。这种方法的好处在于,早期或传统robotics很喜欢这种高度抽象的表示。因为它便于few-shot或zero-shot迁移,可以快速把人的demonstration迁移到新任务上。但在我看来,这类方法通常需要很多假设,例如对物体材料属性的假设,以及较强的归纳偏置。它本质上不是一个完全data-driven的方法,虽然在小样本场景下可能很有用,但难以充分受益于大规模数据,因为其中加入了大量人工prior。Yunzhu在Dynamics Model方向上有很多探索,可以参考之前的访谈 对话李昀烛:通用操作新解法——基于学习的动力学模型3D World Model还有一类是李飞飞World Lab为代表的3D路线。我认为这种方法有优点也有缺点。它的流程是把next state prediction拆成几个阶段:首先显式地用3D表示重建整个世界;重建完成后,如果改变动作或视角,再进行生成和render,从而得到下一个observation。也就是说,它把next state prediction分解为"重建"和"render"两个步骤。优点是因为显式进行了3D重建,空间一致性可以做得非常强。但render这一步是单独处理的,因此整个流程不是纯end-to-end。简单来说,3D世界重建好之后,如果有行人行走、车辆运动、液体流动等动态过程,这些dynamics需要单独再去模拟。可以通过rule-based方法,也可以通过learning方法,但世界重建和dynamics模拟是decouple的,不是统一的端到端建模。整体而言,这种dynamics的模拟方式不算特别scalable。基于物理引擎的World Model还有一类world model,是英伟达等在推的基于物理引擎的world model。物理引擎本身就具备world model的功能:给它action,它就能模拟出下一个state。优点是physics可以非常精确,例如完全符合牛顿定律。但问题在于,它很难做到足够diverse。引入新的物体通常需要手工设计assets。不过这点也在改善,现在有很多3D generation方法可以自动生成大量assets和场景。总体来看,这一类方法在pipeline上和李飞飞那种3D路线类似:先进行重建,再用某种方式模拟dynamics,最后render出结果,并不是一个纯end-to-end的方法。Genesis也是这条路线,可以参考之前的访谈 Genesis 发布:全新机器人物理引擎——它会变革机器人仿真吗?2. 什么叫world action model(WAM)?这是一个非常好的问题。我们之所以称它为world action model,是为了强调模型同时预测action的能力。像DreamZero以及一系列类似的工作,本质上也可以看作world model。传统意义上的world model可以理解为一个state transition function:输入是state和action,输出是下一个state。在这种框架下,作为条件输入的action可以有多种不同形式。DreamZero其实是把world model和如何根据未来state的预测decode出action的inverse dynamics model组合到了一个模型中。如果把它看作一种world model,那么其中的ac

相关文章:

世界模型EP01:DreamZeroDreamDojo 世界模型与机器人智能的新范式

发布时间:2026年3月18日 06:30 世界模型这个概念,从2024年偶尔听到,到如今已经非常热门。延续之前的三个系列科普,Robot Data EP10 Robot Data第一季访谈总结,和Human Data 总结篇:Human Data—The “Key” to Robot Data,以及Robot Foundation model系列,2026年上半年…...

多模态检索增强技术在图像生成中的应用与优化

1. 技术背景与核心价值 在视觉内容创作领域,如何实现精准可控的图像生成一直是行业痛点。传统文本到图像(Text-to-Image)模型虽然能够根据文字描述生成图像,但在处理复杂场景时常常出现细节偏差、语义误解等问题。多模态检索增强技…...

LLM PDF Translator:基于版面分析与大模型的文档翻译工具部署与实战

1. 项目概述与核心价值 最近在折腾一个挺有意思的项目,叫 LLM PDF Translator。简单来说,它就是一个能帮你把整本PDF文档,从一种语言翻译成另一种语言,并且 最大程度保留原始排版格式 的工具。这玩意儿解决了一个很实际的痛点&a…...

机器人控制中心开发指南:Electron串口通信与数据可视化实践

1. 项目概述:一个桌面端的机器人控制中心最近在机器人开发社区里,一个名为hicoldcat/openclaw-control-center-desktop的项目引起了我的注意。乍一看这个名字,你可能会觉得它只是一个普通的桌面应用,但当你深入进去,会…...

如何让老旧电视复活:Android原生电视直播应用完整指南

如何让老旧电视复活:Android原生电视直播应用完整指南 【免费下载链接】mytv-android 使用Android原生开发的视频播放软件 项目地址: https://gitcode.com/gh_mirrors/my/mytv-android 还在为家中老旧Android电视无法流畅观看直播而烦恼吗?面对那…...

Web3资产组合SDK实战:从多链聚合到DApp开发全解析

1. 项目概述:一次关于“包”的SDK黑客松实战 最近在GitHub上看到一个挺有意思的项目,叫“Bags-SDK-hackathon”。光看标题,可能有点摸不着头脑,这“Bags”和“SDK”是怎么扯上关系的?是做一个装东西的包的SDK吗&#x…...

体验 Taotoken 官方价折扣活动对个人开发者月度账单的切实影响

体验 Taotoken 官方价折扣活动对个人开发者月度账单的切实影响 1. 个人开发者的典型模型调用场景 个人开发者或小型项目在日常开发中,通常会涉及以下几种模型调用场景:代码补全、文档生成、简单问答系统原型开发等。这些场景下,开发者往往需…...

基于Nostr协议的私信机器人框架:构建去中心化社交自动化服务

1. 项目概述:一个去中心化社交的自动化信使最近在捣鼓Nostr协议,想实现一些自动化交互,比如自动回复、关键词监控或者简单的机器人服务。在GitHub上翻找时,遇到了一个挺有意思的项目:dhalsim/nostr-dm-agent。光看名字…...

Magentic:用Python装饰器实现LLM结构化输出与函数调用

1. 项目概述:Magentic,让LLM成为你的Python函数 如果你正在用Python构建AI应用,大概率绕不开一个核心问题:如何优雅、可靠地将大语言模型(LLM)的“非结构化”文本输出,转换成你代码里可以直接使…...

游戏开发者的图像格式困境?Tacent View一站式解决所有专业纹理处理需求

游戏开发者的图像格式困境?Tacent View一站式解决所有专业纹理处理需求 【免费下载链接】tacentview An image and texture viewer for tga, png, apng, exr, dds, pvr, ktx, ktx2, astc, pkm, qoi, gif, hdr, jpg, tif, ico, webp, and bmp files. Uses Dear ImGui…...

BL602 RISC-V微控制器逆向工程与WiFi协议栈分析

1. BL602 RISC-V微控制器逆向工程实战去年拿到Pinecone开发板时,我就被BL602这颗RISC-V架构的WiFiBLE双模芯片吸引了。作为ESP32的竞品,它最大的特点就是采用了完全开源的RISC-V指令集,但配套SDK却充满了闭源二进制文件。这让我想起了早些年逆…...

Reloaded-II 下载卡顿终极解决方案:3个技巧让你的Mod安装快如闪电 [特殊字符]

Reloaded-II 下载卡顿终极解决方案:3个技巧让你的Mod安装快如闪电 🚀 【免费下载链接】Reloaded-II Universal .NET Core Powered Modding Framework for any Native Game X86, X64. 项目地址: https://gitcode.com/gh_mirrors/re/Reloaded-II Re…...

2026届毕业生推荐的六大AI论文工具实测分析

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 顺着学术写作需求一天天增长的趋势,AI论文工具变成了研究者提高效率的关键辅助办…...

从PACS抓取的DICOM文件在SimpleITK中shape突变?深度拆解Transfer Syntax隐式VR转换陷阱

更多请点击: https://intelliparadigm.com 第一章:从PACS抓取的DICOM文件在SimpleITK中shape突变?深度拆解Transfer Syntax隐式VR转换陷阱 DICOM Transfer Syntax 与像素数据布局的隐式耦合 当从PACS系统(如Orthanc或DCM4CHEE&a…...

别再让Maven打包的jar包名又长又乱了!finalName标签的3种实战用法(含变量技巧)

优雅定制Maven构建产物:finalName标签的深度实践指南 每次在服务器上部署Java应用时,看到那些带着冗长版本号的jar包名称,你是否感到一丝烦躁?当运维同事抱怨"这个jar包名太复杂,脚本里写起来麻烦"时&#x…...

揭秘OLAP数据库预计算技术

揭秘OLAP数据库预计算技术OLAP数据库通常通过预计算技术将复杂查询的响应时间从分钟级压缩至毫秒级,其核心逻辑在于‌以空间换时间‌:提前计算并存储聚合结果(如SUM、AVG),避免实时扫描原始数据并进行计算。增量物化视…...

基于Axon.MCP.Server构建AI Agent工具:.NET 8实现MCP协议实战

1. 项目概述与核心价值最近在折腾AI Agent开发,特别是想给Claude Desktop或者Cursor这类工具加上自定义的“工具箱”,让它们能直接操作我的本地数据库、调用内部API,或者读取特定格式的日志文件。市面上通用的MCP(Model Context P…...

别再为MIR7和MIRO搞混了!详解SAP发票校验的差异与实战增强配置

SAP发票校验实战指南:MIRO与MIR7的核心差异与增强配置解析 每次月末对账时,财务部门的张经理总会遇到一个奇怪现象——明明上个月已经处理过的采购订单,在MIR7事务码中又出现了待开票数据。而使用MIRO录入日常发票时,系统却能准确…...

WarcraftHelper完全指南:5分钟让经典魔兽在现代电脑上重获新生

WarcraftHelper完全指南:5分钟让经典魔兽在现代电脑上重获新生 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还在为《魔兽争霸3》在Wind…...

抖音无水印视频下载终极指南:3分钟实现高清视频保存

抖音无水印视频下载终极指南:3分钟实现高清视频保存 【免费下载链接】douyin_downloader 抖音短视频无水印下载 win编译版本下载:https://www.lanzous.com/i9za5od 项目地址: https://gitcode.com/gh_mirrors/dou/douyin_downloader 你是否曾经想…...

小红书无水印下载神器:从入门到精通的完整指南

小红书无水印下载神器:从入门到精通的完整指南 【免费下载链接】XHS-Downloader 小红书(XiaoHongShu、RedNote)链接提取/作品采集工具:提取账号发布、收藏、点赞、专辑作品链接;提取搜索结果作品、用户链接&#xff1b…...

多模态大模型优化与量化部署实战

1. 项目背景与核心价值 在当下AI技术快速迭代的浪潮中,大型语言模型(LLM)正从单一文本处理向多模态融合方向演进。OmniVinci项目正是针对这一趋势提出的创新解决方案,它通过架构优化与量化部署技术,显著提升了多模态大…...

告别TabControl!用Prism区域管理重构你的WPF导航,模块化开发真香了

重构WPF导航架构:Prism区域管理的模块化实践指南 当你的WPF应用从简单的工具演变为复杂系统时,传统的导航实现方式往往会成为技术债务的重灾区。那些曾经看似高效的TabControl和ContentControl绑定,如今却让代码库变得臃肿不堪。每次新增功能…...

终极指南:如何用VideoDownloadHelper快速下载网页视频的完整教程

终极指南:如何用VideoDownloadHelper快速下载网页视频的完整教程 【免费下载链接】VideoDownloadHelper Chrome Extension to Help Download Video for Some Video Sites. 项目地址: https://gitcode.com/gh_mirrors/vi/VideoDownloadHelper 还在为无法保存网…...

CASEMOVE:终极CS2物品管理桌面应用完整指南

CASEMOVE:终极CS2物品管理桌面应用完整指南 【免费下载链接】casemove A dedicated desktop app that enables you to move items in and out of storage units in CS2. 项目地址: https://gitcode.com/gh_mirrors/ca/casemove 作为一名CS2玩家,你…...

多模态大语言模型架构设计与工程实践

1. 项目背景与核心价值 去年在做一个跨模态检索项目时,我深刻体会到传统单模态模型的局限性——当用户同时输入图片和文字描述时,系统往往只能处理其中一种信息。这促使我开始探索多模态大语言模型(LLM)的架构设计,最终…...

别再折腾环境了!用Anaconda新建Python环境,5分钟搞定JSBSim与AirSim联调

别再折腾环境了!用Anaconda新建Python环境,5分钟搞定JSBSim与AirSim联调 无人机仿真开发中最令人头疼的莫过于环境配置问题。当你兴致勃勃地准备尝试JSBSim与AirSim的联调时,却可能被各种依赖冲突、库版本不兼容等问题绊住脚步。特别是当遇到…...

告别触摸屏!用3个GPIO按键玩转LVGL界面:ESP32平台IO环境下的精简配置法

告别触摸屏!用3个GPIO按键玩转LVGL界面:ESP32平台IO环境下的精简配置法 在嵌入式UI开发中,触摸屏虽然交互直观,但成本和功耗往往成为制约因素。想象一下,你正在设计一款智能家居控制面板或工业HMI设备,预算…...

Switch系统加速终极指南:5大技巧让游戏加载快如闪电

Switch系统加速终极指南:5大技巧让游戏加载快如闪电 【免费下载链接】Atmosphere-stable 大气层整合包系统稳定版 项目地址: https://gitcode.com/gh_mirrors/at/Atmosphere-stable 想要让你的Switch游戏加载速度提升50%吗?厌倦了漫长的等待和卡顿…...

Sunshine游戏串流主机:打造你的个人云游戏服务器

Sunshine游戏串流主机:打造你的个人云游戏服务器 【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine 在当今数字娱乐时代,你是否曾梦想过将书房里的高性能游戏电…...