当前位置：首页 > article >正文

[具身智能-56]：不同世界模型流派典型的代表人物？

article 2026/3/20 14:42:49

在世界模型World Model的三大主流流派中每一派都有其灵魂人物和领军人物。这些科学家不仅提出了核心理论还带领团队将其转化为具体的模型产品。以下是结合2025-2026年最新进展的典型代表人物图谱1. 像素/视频生成派 (The Director Route) - 视频制作核心信条“只要视频生成得足够逼真模型就理解了物理世界。”代表人物 Tim Brooks Bill Peebles (OpenAI)身份OpenAI 研究科学家Sora 模型的核心开发者。贡献他们领导的团队在2024年初发布了Sora将世界模型的概念第一次以“文生视频”的形式引爆全球。他们证明了基于Transformer的扩散模型Diffusion Transformer可以直接在像素空间学习复杂的物理规律如流体、碰撞、光影。2025-2026动态继续推动Sora向交互式模拟进化让生成的视频不仅能看还能通过文本指令进行简单的“导演”干预如改变镜头角度、物体运动轨迹。 Cristóbal Valenzuela (Runway ML)身份Runway CEO兼首席研究员前艺术家。贡献推出了Gen-1, Gen-2以及2025年的GWM (General World Model)系列。他特别强调世界模型作为“创意工具”的属性致力于让艺术家能通过模型直接操控虚拟世界的物理属性如改变风速、重力。特点相比OpenAI的封闭Runway更倾向于将世界模型的能力开放给创作者强调“可控性”和“交互性”。 DeepMind Genie 团队 (Google)关键人物Scott Reed,Nando de Freitas(DeepMind领导层)。贡献发布了Genie和Genie 2/3。与Sora不同Genie 更侧重于“可行动的世界模型”Actionable World Model。它不仅能生成视频还能根据生成的视频反向训练出一个可玩的Agent智能体被视为通往通用游戏AI和机器人训练的关键一步。2. 潜在空间表征派 (The Chess Player Route) -机器人动作控制核心信条“预测像素是低效的真正的智能是在抽象空间中预测因果和状态。”代表人物 Yann LeCun (杨立昆)身份图灵奖得主Meta前首席AI科学家AMI Labs (Advanced Machine Intelligence)创始人兼首席科学家。地位世界模型概念的“教父”。他是这一路线最坚定的布道者和反对LLM大语言模型路线的旗手。核心贡献提出了JEPA (Joint-Embedding Predictive Architecture)架构特别是V-JEPA (Video JEPA)。理论核心主张模型不应重建像素那太浪费算力且充满噪声而应预测视频片段在抽象特征空间中的表示。这使得模型能忽略无关细节如背景纹理专注于物体间的因果逻辑。2025-2026大动作因与Meta在AI路线上的根本分歧LeCun认为LLM没有真正的理解于2025年底/2026年初出走创业成立AMI Labs。融资奇迹2026年3月AMI Labs宣布完成10.3亿美元的种子轮融资估值高达35亿美元吸引了包括谢赛宁 (Saining Xie)等顶尖学者加盟。这标志着资本对“非LLM路线”世界模型的巨大押注。他的目标是构建具有常识推理和长期规划能力的自主智能系统而非仅仅是聊天机器人。 Saining Xie (谢赛宁)身份纽约大学教授现加入LeCun的AMI Labs。贡献在视频理解和生成领域有深厚积累是LeCun理念的重要技术执行者和合作者。他在多模态自监督学习方面的研究为V-JEPA提供了重要的理论和实验支撑。3. 显式物理/3D混合派 (The Engineer Route) - 3D建模与精密控制核心信条“世界是三维的必须用几何和物理引擎来约束模型的幻觉。”代表人物 David Ha Andrej Karpathy (早期启蒙) / 现任自动驾驶领军者注虽然David Ha早在2018年就提出了World Models概念但在2025-2026年这一路线的代表人物更多集中在自动驾驶和机器人仿真领域。关键推手Waymo Research Team,Tesla AI Team (Ashok Elluswamy),NVIDIA Omniverse Team. 3D Gaussian Splatting (3DGS) 社区领军者代表人物Bernhard Kerbl(3DGS论文一作),Angjoo Kanazawa(UC Berkeley).贡献2024年爆发的3D Gaussian Splatting技术让世界模型有了“显式骨架”。这些研究者推动了将神经渲染NeRF/3DGS与动态预测模型结合的路线。即用3DGS构建静态或慢变的高精度场景用世界模型预测场景中动态物体的运动轨迹。应用场景这种混合架构成为了Waymo和NVIDIA Drive Sim的核心技术用于构建符合物理定律的自动驾驶仿真环境解决纯视频模型容易出现的“穿模”和“物理幻觉”问题。Fei-Fei Li (李飞飞) 与具身智能团队身份斯坦福教授World Labs (初创公司) 联合创始人。贡献她创立的World Labs(2024年成立2025-2026年发力) 专注于“空间智能” (Spatial Intelligence)。她的路线介于像素派和3D派之间强调模型不仅要生成视频更要理解3D空间结构和物理交互旨在让AI像人类一样在三维世界中导航和操作。她认为未来的世界模型必须是“懂物理”的。总结三派大佬的“神仙打架”流派领军人物 (2026视角)代表机构/项目一句话口号像素生成派Tim Brooks(OpenAI),Cristóbal Valenzuela(Runway)Sora, GWM, Genie“给我一段文字我还你一个逼真的平行宇宙。”潜在空间派Yann LeCun(AMI Labs),Saining XieV-JEPA, AMI Labs“别被像素迷惑真正的智慧在于抽象的逻辑推演。”3D混合派Fei-Fei Li(World Labs),Bernhard Kerbl,Waymo团队World Labs, Drive Sim, 3DGSWM“没有三维几何和物理约束的模型只是在编故事。”当前局势 (2026)LeCun的创业是最大变量他试图证明“不靠堆算力猜像素也能做出真智能”如果AMI Labs成功将彻底改变AGI的研发范式。OpenAI/Google继续沿着“大力出奇迹”的像素路线试图通过规模效应涌现出物理理解能力。工业界 (自动驾驶/机器人)则更务实地选择了3D混合路线因为安全容不得半点“幻觉”。这三股力量正在相互渗透视频模型开始引入3D约束3D模型开始学习神经渲染而LeCun的抽象模型也在尝试更好地连接感知与行动。

[具身智能-56]：不同世界模型流派典型的代表人物？

相关文章：

[具身智能-56]：不同世界模型流派典型的代表人物？

FPGA通信接口选型避坑指南：从UART到PCIe的5个实战经验分享

Claude_Code_使用手册

[具身智能-55]：结合人类不同人对世界交互和理解的深度这个角度，通俗易懂的方式阐述世界模型的几大流派的原理、应用场景.....

linux开发网络环境搭建

大语言模型为什么能“理解”世界？

MedGemma-X效果实测：在未标注测试集上达到放射科住院医水平的F1-score

nlp_structbert_siamese-uninlu_chinese-base入门必看：Prompt设计与schema编写核心技巧

2026 年个人数据清除服务：市场格局与发展前景

忆阻器：在数字与模拟间“切换”的芯片革命

MIG与DDR

Linux配置pytorch

口罩检测工业级落地：实时口罩检测-通用在闸机系统中的集成案例

Transformer逆向工程实战：从玩具模型到GPT-3的数学桥梁（附Python代码）

VibeVoice Pro语音合成教程：批量处理CSV文本生成MP3语音文件

滤波器选型指南：从音响到5G，不同场景下高通/低通/带通该如何选择？

老黄怒怼玩家根本不懂AI！英伟达新AI功能遭全网抵制，游戏圈炸锅了

立创梁山派-21年电赛F题-智能送药小车-电路设计

告别Google Maps SDK，手把手教你用MapLibre Native 11.0.0为Android App集成免费开源地图

自动化办公阿里云千问api申请[AI人工智能(六十一)]—东方仙盟

M2LOrder企业落地：在线音乐平台评论情感分析→生成‘快乐歌单’/‘治愈歌单’

Flask框架之上传文件

Qwen3-Reranker-0.6B惊艳效果：在中文维基问答数据集上超越BGE-reranker-base

软件测试|灰度测试及测试流程

DownKyi：B站视频资源高效管理工具的深度探索

Python实战：5种异常分数计算方法对比（附完整代码示例）

卷积：一种共享参数的“不全连接”

cJSON的字符长度和字符比较以及数组

FISCO-BCOS多机构联盟链环境搭建实战指南

智慧教育——详解2025智能教育发展蓝皮书【附全文阅读】