当前位置: 首页 > article >正文

[具身智能-56]:不同世界模型流派典型的代表人物?

在世界模型World Model的三大主流流派中每一派都有其灵魂人物和领军人物。这些科学家不仅提出了核心理论还带领团队将其转化为具体的模型产品。以下是结合2025-2026年最新进展的典型代表人物图谱1. 像素/视频生成派 (The Director Route) - 视频制作核心信条“只要视频生成得足够逼真模型就理解了物理世界。”代表人物 Tim Brooks Bill Peebles (OpenAI)身份OpenAI 研究科学家Sora 模型的核心开发者。贡献他们领导的团队在2024年初发布了Sora将世界模型的概念第一次以“文生视频”的形式引爆全球。他们证明了基于Transformer的扩散模型Diffusion Transformer可以直接在像素空间学习复杂的物理规律如流体、碰撞、光影。2025-2026动态继续推动Sora向交互式模拟进化让生成的视频不仅能看还能通过文本指令进行简单的“导演”干预如改变镜头角度、物体运动轨迹。 Cristóbal Valenzuela (Runway ML)身份Runway CEO兼首席研究员前艺术家。贡献推出了Gen-1, Gen-2以及2025年的GWM (General World Model)系列。他特别强调世界模型作为“创意工具”的属性致力于让艺术家能通过模型直接操控虚拟世界的物理属性如改变风速、重力。特点相比OpenAI的封闭Runway更倾向于将世界模型的能力开放给创作者强调“可控性”和“交互性”。 DeepMind Genie 团队 (Google)关键人物Scott Reed,Nando de Freitas(DeepMind领导层)。贡献发布了Genie和Genie 2/3。与Sora不同Genie 更侧重于“可行动的世界模型”Actionable World Model。它不仅能生成视频还能根据生成的视频反向训练出一个可玩的Agent智能体被视为通往通用游戏AI和机器人训练的关键一步。2. 潜在空间表征派 (The Chess Player Route) -机器人动作控制核心信条“预测像素是低效的真正的智能是在抽象空间中预测因果和状态。”代表人物 Yann LeCun (杨立昆)身份图灵奖得主Meta前首席AI科学家AMI Labs (Advanced Machine Intelligence)创始人兼首席科学家。地位世界模型概念的“教父”。他是这一路线最坚定的布道者和反对LLM大语言模型路线的旗手。核心贡献提出了JEPA (Joint-Embedding Predictive Architecture)架构特别是V-JEPA (Video JEPA)。理论核心主张模型不应重建像素那太浪费算力且充满噪声而应预测视频片段在抽象特征空间中的表示。这使得模型能忽略无关细节如背景纹理专注于物体间的因果逻辑。2025-2026大动作因与Meta在AI路线上的根本分歧LeCun认为LLM没有真正的理解于2025年底/2026年初出走创业成立AMI Labs。融资奇迹2026年3月AMI Labs宣布完成10.3亿美元的种子轮融资估值高达35亿美元吸引了包括谢赛宁 (Saining Xie)等顶尖学者加盟。这标志着资本对“非LLM路线”世界模型的巨大押注。他的目标是构建具有常识推理和长期规划能力的自主智能系统而非仅仅是聊天机器人。 Saining Xie (谢赛宁)身份纽约大学教授现加入LeCun的AMI Labs。贡献在视频理解和生成领域有深厚积累是LeCun理念的重要技术执行者和合作者。他在多模态自监督学习方面的研究为V-JEPA提供了重要的理论和实验支撑。3. 显式物理/3D混合派 (The Engineer Route) - 3D建模与精密控制核心信条“世界是三维的必须用几何和物理引擎来约束模型的幻觉。”代表人物 David Ha Andrej Karpathy (早期启蒙) / 现任自动驾驶领军者注虽然David Ha早在2018年就提出了World Models概念但在2025-2026年这一路线的代表人物更多集中在自动驾驶和机器人仿真领域。关键推手Waymo Research Team,Tesla AI Team (Ashok Elluswamy),NVIDIA Omniverse Team. 3D Gaussian Splatting (3DGS) 社区领军者代表人物Bernhard Kerbl(3DGS论文一作),Angjoo Kanazawa(UC Berkeley).贡献2024年爆发的3D Gaussian Splatting技术让世界模型有了“显式骨架”。这些研究者推动了将神经渲染NeRF/3DGS与动态预测模型结合的路线。即用3DGS构建静态或慢变的高精度场景用世界模型预测场景中动态物体的运动轨迹。应用场景这种混合架构成为了Waymo和NVIDIA Drive Sim的核心技术用于构建符合物理定律的自动驾驶仿真环境解决纯视频模型容易出现的“穿模”和“物理幻觉”问题。Fei-Fei Li (李飞飞) 与 具身智能团队身份斯坦福教授World Labs (初创公司) 联合创始人。贡献她创立的World Labs(2024年成立2025-2026年发力) 专注于“空间智能” (Spatial Intelligence)。她的路线介于像素派和3D派之间强调模型不仅要生成视频更要理解3D空间结构和物理交互旨在让AI像人类一样在三维世界中导航和操作。她认为未来的世界模型必须是“懂物理”的。总结三派大佬的“神仙打架”流派领军人物 (2026视角)代表机构/项目一句话口号像素生成派Tim Brooks(OpenAI),Cristóbal Valenzuela(Runway)Sora, GWM, Genie“给我一段文字我还你一个逼真的平行宇宙。”潜在空间派Yann LeCun(AMI Labs),Saining XieV-JEPA, AMI Labs“别被像素迷惑真正的智慧在于抽象的逻辑推演。”3D混合派Fei-Fei Li(World Labs),Bernhard Kerbl,Waymo团队World Labs, Drive Sim, 3DGSWM“没有三维几何和物理约束的模型只是在编故事。”当前局势 (2026)LeCun的创业是最大变量他试图证明“不靠堆算力猜像素也能做出真智能”如果AMI Labs成功将彻底改变AGI的研发范式。OpenAI/Google继续沿着“大力出奇迹”的像素路线试图通过规模效应涌现出物理理解能力。工业界 (自动驾驶/机器人)则更务实地选择了3D混合路线因为安全容不得半点“幻觉”。这三股力量正在相互渗透视频模型开始引入3D约束3D模型开始学习神经渲染而LeCun的抽象模型也在尝试更好地连接感知与行动。

相关文章:

[具身智能-56]:不同世界模型流派典型的代表人物?

在世界模型(World Model)的三大主流流派中,每一派都有其灵魂人物和领军人物。这些科学家不仅提出了核心理论,还带领团队将其转化为具体的模型产品。以下是结合2025-2026年最新进展的典型代表人物图谱:1. 像素/视频生成…...

FPGA通信接口选型避坑指南:从UART到PCIe的5个实战经验分享

FPGA通信接口选型避坑指南:从UART到PCIe的5个实战经验分享 当你在FPGA项目中选择通信接口时,是否曾遇到过这样的困境:明明选择了"看起来"合适的接口,却在项目后期遭遇信号干扰、带宽不足或兼容性问题?本文将…...

Claude_Code_使用手册

Claude Code 使用手册 本手册面向 Claude Code CLI 用户,涵盖常用命令、Skill 使用技巧及最佳实践。 目录 快速入门基本常用命令Skill 使用技巧高级功能配置与个性化常见问题 一、快速入门 1.1 安装 Claude Code npm install -g anthropic-ai/claude-code1.2 启动…...

[具身智能-55]:结合人类不同人对世界交互和理解的深度这个角度,通俗易懂的方式阐述世界模型的几大流派的原理、应用场景.....

如果把“世界模型”比作人类大脑中“对世界的理解能力”,那么不同的技术路线,其实就对应了不同人观察世界、思考问题和预测未来的思维方式。我们可以把世界想象成一个巨大的、复杂的“实景剧本杀”游戏。不同的人(不同的技术流派)…...

linux开发网络环境搭建

linux开发网络环境搭建win10网络配置虚拟机配置Ubuntu配置开发板配置总结win10网络配置 无线网卡配置 无线网卡用于win10上网,连接WIFI。 有线网卡配置 有线网卡用于和开发板及虚拟机有线网卡通讯,组成局域网。 虚拟机配置 虚拟机配置两个网络适配…...

大语言模型为什么能“理解”世界?

**“**文字是可计算的,本身就是对世界的高度压缩,而且是有限的。” 这句话似乎不小心触碰到了现代人工智能最底层的原理,为什么ChatGPT 这样看似只是在做“文字接龙”的机器,竟然能涌现出惊人的逻辑与推理能力?我们在惊…...

MedGemma-X效果实测:在未标注测试集上达到放射科住院医水平的F1-score

MedGemma-X效果实测:在未标注测试集上达到放射科住院医水平的F1-score 1. 引言:当AI开始“看懂”X光片 想象一下,一位经验丰富的放射科医生,每天需要阅读上百张X光片。他们需要在复杂的影像中,快速识别出细微的病灶、…...

nlp_structbert_siamese-uninlu_chinese-base入门必看:Prompt设计与schema编写核心技巧

nlp_structbert_siamese-uninlu_chinese-base入门必看:Prompt设计与schema编写核心技巧 本文面向初学者,用最直白的方式讲解如何用好这个强大的中文自然语言理解模型,重点分享Prompt设计和schema编写的实用技巧。 1. 模型是什么?能…...

2026 年个人数据清除服务:市场格局与发展前景

Incogni:自动化数据清除的佼佼者由 VPN 提供商 Surfshark 旗下的 Incogni,专注于自动化处理数据清除和与数据经纪人协商。它依据适用的数据保护法律执行清除请求,已完成超 4 亿次数据清除。其年度计划每月费用约 7.99 美元,还有家…...

忆阻器:在数字与模拟间“切换”的芯片革命

忆阻器:在数字与模拟间“切换”的芯片革命 在半导体行业,长久以来存在着一个看似不可调和的矛盾:数字电路以逻辑精准著称,但随着工艺节点微缩,漏电和动态功耗急剧上升;而模拟电路虽然在处理连续信号时具备天…...

MIG与DDR

0-:app接口就是native接口,还有一种是axi4接口。(就两类接口,默认mig就是native接口,axi4需要配置,配置方式如下) [28:0] app_addr 具体占多少位宽要根据下图3绿色标识处。 0: 结构简图 512M*16容量计算=2^16*2^3*2^10*16bit=8Gb=1GB(16bit位宽,一共有8个BA…...

Linux配置pytorch

配置pytorch 安装Anaconda 下载Anaconda wget https://repo.anaconda.com/archive/Anaconda3-5.2.0-Linux-x86_64.sh安装 bash Anaconda3-5.2.0-Linux-x86_64.sh环境变量 echo ". /home/ubuntu/anaconda3/etc/profile.d/conda.sh" >> ~/.bashrc生效配置 source…...

口罩检测工业级落地:实时口罩检测-通用在闸机系统中的集成案例

口罩检测工业级落地:实时口罩检测-通用在闸机系统中的集成案例 1. 引言:从公共卫生到智能安防 想象一下,在一个人流密集的公共场所入口,比如办公楼、医院或交通枢纽,如何快速、准确地判断每一位进入者是否佩戴了口罩…...

Transformer逆向工程实战:从玩具模型到GPT-3的数学桥梁(附Python代码)

Transformer逆向工程实战:从玩具模型到GPT-3的数学桥梁(附Python代码) 当我们在讨论现代语言模型的"黑盒"时,很少有人意识到Transformer架构内部其实存在着惊人的数学对称性。本文将带您从零开始构建一个微型Transforme…...

VibeVoice Pro语音合成教程:批量处理CSV文本生成MP3语音文件

VibeVoice Pro语音合成教程:批量处理CSV文本生成MP3语音文件 1. 引言:为什么需要批量语音合成? 想象一下这样的场景:你有一个包含500条产品介绍的CSV文件,需要为每条产品生成语音介绍。如果一条条手动操作&#xff0…...

滤波器选型指南:从音响到5G,不同场景下高通/低通/带通该如何选择?

滤波器选型实战指南:从Hi-Fi音响到5G基站的工程决策 在电子系统设计中,滤波器就像一位精准的频率守门员。当我在设计第一款Hi-Fi功放时,曾因滤波器选型不当导致高音刺耳,这个价值3万元的教训让我深刻认识到:滤波器不是…...

老黄怒怼玩家根本不懂AI!英伟达新AI功能遭全网抵制,游戏圈炸锅了

听雨 发自 凹非寺量子位 | 公众号 QbitAIGTC 2026现场,老黄直接怒怼玩家:他们完全不懂AI!啥情况?原因是周一英伟达刚发布新一代图形技术DLSS 5,本该是一次“性能革命”,结果却遭到了游戏圈集体抵制。它能让…...

立创梁山派-21年电赛F题-智能送药小车-电路设计

送药小车代码仓库:基于立创梁山派的21年电赛F题智能送药小车: 基于立创梁山派的21年电赛F题-智能送药小车 更好的观看体验请去:https://dri8c0qdfb.feishu.cn/wiki/UjwwwO0KZii5bykPcE4cJZafnAg 送药小车立创开源平台资料:【电子竞赛】21年电…...

告别Google Maps SDK,手把手教你用MapLibre Native 11.0.0为Android App集成免费开源地图

告别Google Maps SDK:用MapLibre Native 11.0.0为Android应用打造开源地图解决方案 当Google Maps SDK的商业授权费用成为项目预算的不可承受之重,或是功能限制让开发者束手束脚时,MapLibre Native以其开源免费的特性正成为越来越多Android开…...

自动化办公阿里云千问api申请[AI人工智能(六十一)]—东方仙盟

申请API 免费api调用量 填写开发密钥 东方仙盟神识填写 部署新模型 右上角点部署 放入系统指令 const agent new PageAgent({model: 你的模型名称,baseURL: https://dashscope.aliyuncs.com/compatible-mode/v1,apiKey: 你的密钥,// language: en-USlanguage: zh-CN })agent.…...

M2LOrder企业落地:在线音乐平台评论情感分析→生成‘快乐歌单’/‘治愈歌单’

M2LOrder企业落地:在线音乐平台评论情感分析→生成‘快乐歌单’/‘治愈歌单’ 1. 引言:从用户评论到个性化歌单 你有没有想过,每天在音乐App里留下的那些评论,除了表达心情,还能变成为你量身定制的歌单?比…...

Flask框架之上传文件

代码import os from flask import Flask, flash, request, redirect, url_for from werkzeug.utils import secure_filenameUPLOAD_FOLDER /path/to/the/uploads #文件存储目录 ALLOWED_EXTENSIONS {txt, pdf, png, jpg, jpeg, gif} #允许上传文件类型(拓展名&…...

Qwen3-Reranker-0.6B惊艳效果:在中文维基问答数据集上超越BGE-reranker-base

Qwen3-Reranker-0.6B惊艳效果:在中文维基问答数据集上超越BGE-reranker-base 1. 开篇:重新定义语义重排序的标准 在检索增强生成(RAG)系统中,语义重排序是决定最终效果的关键环节。传统方案往往需要在效果和效率之间…...

软件测试|灰度测试及测试流程

软件测试中的灰度测试是一种结合了黑盒测试和白盒测试特点的测试方法,旨在通过逐步扩大测试范围来评估新系统或新功能在真实环境中的性能和稳定性。灰度测试是软件开发过程中的一个重要环节,它有助于在全面发布前发现并修复潜在问题,同时收集…...

DownKyi:B站视频资源高效管理工具的深度探索

DownKyi:B站视频资源高效管理工具的深度探索 【免费下载链接】downkyi 哔哩下载姬downkyi,哔哩哔哩网站视频下载工具,支持批量下载,支持8K、HDR、杜比视界,提供工具箱(音视频提取、去水印等)。 …...

Python实战:5种异常分数计算方法对比(附完整代码示例)

Python实战:5种异常分数计算方法深度解析与代码实现 在数据分析和机器学习领域,异常检测是一个至关重要的任务,它帮助我们识别那些偏离正常模式的数据点。本文将深入探讨五种主流的异常分数计算方法,从原理到实现,为Py…...

卷积:一种共享参数的“不全连接”

为什么要用卷积? 不使用卷积神经网络: 在传统全连接神经网络中,若传入一张224*224*3的彩色图像,直接连接到一个1000维的输出层,参数量为224*224*3*10001000150528000,巨大的参数量容易导致过拟合、…...

cJSON的字符长度和字符比较以及数组

字符长度 char *reporte_connect_ok(void) { cJSON *root; char *out; char name0[125]; char str_value0[125]; char macaddr[20]; char ipaddr[30]; rootcJSON_CreateObject();cJSON_AddStringToObject(root,"Device","Gateway"); get_mac_addr(macaddr)…...

FISCO-BCOS多机构联盟链环境搭建实战指南

1. 环境准备与基础概念 在开始搭建FISCO-BCOS多机构联盟链之前,我们需要先理解几个关键概念。联盟链是一种需要许可的区块链网络,参与者需要经过授权才能加入。FISCO-BCOS作为国产开源联盟链平台,特别适合金融、政务等对数据隐私要求高的场景…...

智慧教育——详解2025智能教育发展蓝皮书【附全文阅读】

**《2025智能教育发展蓝皮书——人工智能赋能教师发展》**由中国教育技术协会智能教育专业委员会与讯飞教育技术研究院联合编写,2025年8月发布4910。蓝皮书聚焦人工智能赋能教师发展,提出教师数字素养提升路径与策略,强调智能向善与伦理安全[…...