当前位置: 首页 > article >正文

李飞飞团队新作ESI-Bench:具身智能的ImageNet来了!

点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达【具身智能】微信群成立大家快扫码加入具身星球将获得最新具身智能技术和项目、❤️ 从入门到精通的学习路线、 具身智能招聘(实习/校招/社招/升学)、具身智能公司名单和高校实验室/教师名单和 行业动态和行业报告等。▲【具身智能】微信群听雨 发自 凹非寺转载自量子位QbitAIImageNet之后李飞飞再出手李飞飞团队最新发布ESI-Bench——一个专门用来评测具身空间智能的新基准。过去的空间智能评测默认给模型最优观测而ESI-Bench第一个把观察者变成行动者闭合了感知-行动回路。它为具身空间智能领域提供了一个系统性的评测框架覆盖人类核心空间认知能力的四大维度。论文的核心结论是现在的AI看图很厉害但离「会动、会摸、会主动找答案」的空间智能还差得远。ESI-Bench是什么ESI-Bench发布的背景是由于目前的空间智能benchmark测的都是「被动感知」。把一张或几张图片扔给模型问「A物体在B物体的左边还是右边」「这个杯子能装多少水」「抽屉里有没有东西」这样的题目测出来的是模型的视力而非空间推理能力。反观人类是怎么做的人类会站起来绕到物体背后去看会把抽屉拉开会把水倒出来量一量。这就是ESI-Bench的核心立场把观察者变成行动者。现实世界里智能体必须像人类一样主动决定行动、获取证据再基于新观测做下一步判断。团队把它称为「感知-行动回路」Perception-Action Loop。ESI-Bench就是这样一套超越现有基准的空间智能新评测基准它包含10个任务类别29个子类别3081个任务实例全部在OmniGibson仿真平台上构建场景素材来自BEHAVIOR-1K场景库。所有任务围绕Spelke的四大核心知识系统设计也就是人类婴儿天生就具备的空间直觉物体表征、布局与几何、数量表征、目标导向行动。它的关键设定在于行动强制。每一道题AI智能体必须主动行动才能拿到足够信息作答。模型不能坐在原地等图片它要决定往哪走、看什么、拿什么、怎么操作。举几个具体的例子比如评测中有一道「刚性容纳」题给定几个容器和几个物体要求把物体全部装进去。有的容器开口小、有的内部有隔板、有的盖子需要掀开才能看到真实容量。模型必须走近、俯身、甚至把容器拿起来从底部观察才能判断能不能装得下。还有「液体体积」题两个杯子从外观看不出容量差异模型需要把水倒进去测试或者直接拿起来掂量。这么一说大家应该也能直观感受到这套评测基准的设计理念正确答案不在任何单张图片里智能体必须主动行动并推理出正确结果。团队特别指出与此前工作相比ESI-Bench在三个地方有所超越从空间感知到空间能力在这里智能体不仅根据他们能感知到什么来评估还根据他们是否知道部署哪些具体能力来解决空间任务来评估选择性感知智能体必须确定哪些观察值得获取优先考虑与任务相关的信息而不是冗余或无信息的输入解决感知歧义智能体必须通过误导性观察进行推理以推断隐藏的空间结构和超越直接观察的潜在物理约束。测完发现了啥3个核心结论团队拿当前最强的多模态大模型做了全面测试包括GPT-5和Gemini系列。这是最主要的实验结果图包含了ESI-Bench在被动感知、主动探索、Oracle三种范式下的各项任务准确率涵盖2DVLM、3DLLM及人类基线。核心结论有3个。第一感知不是瓶颈行动才是。好消息是主动探索确实有效。在没有额外指令的情况下智能体自发涌现出多种空间策略。比如绕到物体背后观察move-behind、切换俯视角度top-down、把物体拿起来pick-up、把水倒出来验证pour-out。Gemini 3.1在「部分遮挡」任务上如果给到最佳观察视角准确率从14.6%暴涨到95.1%。这说明模型本身的感知能力是好的只要给对视角它就能看得懂。但问题在于模型自己找不到那个对的视角。更糟糕的问题在于被动多视角策略不仅没用反而有害。让GPT-5多看几张随机角度的图片空间距离任务的准确率从53.9%降到49.1%。图看得多了分反而低了。△GPT-5和Gemini 3.1在主动探索中达到正确答案所需的平均步数团队把这个现象命名为「动作盲视」Action Blindness一个差动作导致一个差视角差视角触发更差动作形成不可逆的级联失败。在结构围合任务上主动探索策略和上帝视角的差距高达49.7%。也就是说空间智能的卡点不在于视觉模型不够强而是行动策略几乎为零。第二3D重建不是万能药不完美的3D比2D更坑。既然2D被动看图不行那上3D呢这也是当前很多具身智能团队的路子先重建三维场景再在场景图上做推理。结果发现如果给的是真值3D上帝视角的完美几何那确实很强。Gemini在材质透明任务上2D版本得分44.0%3D版本得分60.4%提升16.4个百分点。在需要精确深度信息的任务上3D grounding有天然优势。但如果是真实重建呢团队用当前最先进的VGGT模型做场景重建再把重建结果喂给推理模型。结果那叫一个惨不忍睹几何配置任务上2D基线得分27.5%VGGT重建后的场景图得分只有9.9%。这说明不完美的3D不是中性失败它是负向失败。几何伪影、遮挡补全错误、深度估计偏差把这些失真信息编码成场景图就等于给推理模型喂了一份「有毒」的输入。相比之下2D虽然信息少但至少不失真3D如果重建质量不过关比2D还不如。第三元认知缺陷模型不知道自己看没看够。论文里还有一组对比实验探讨了智能体和人类的空间推理能力究竟还有多大差距。结果发现尽管人类与模型之间存在感知差距但该差距可能比普遍认为的要小。在部分类别中模型的被动表现甚至能与人类持平或超越人类。在真实轨迹条件下Gemini在部分遮挡任务上达到88.4%的准确率而人类为87.4%GPT-5在材质透明度任务上达到96.3%人类则为97.2%。然而在主动探索场景下二者的差距急剧显现。人类凭借明确的观察目标和停止时机表现远超模型且主动探索的表现更接近真实轨迹下的被动表现。例如在物理接触任务中人类准确率为88.3%而 GPT-5仅为 64.2%在材质透明度任务中人类准确率为93.6%Gemini 3.1则为52.3%。通过分析模型与人类的探索轨迹团队发现人类表现出更强的认知谨慎性在做出判断前会收集更多观测主动寻找可能证伪当前假设的视角并在模糊情境下降低置信度。而模型则会过早停止探索即便证据存在模糊性也仅在少数步骤后就以高置信度做出判断进而产生与场景状态相悖的空间幻觉。模型的过度自信还因动作选择的方向偏差而加剧模型不会探查正交角度或寻找能推翻初始印象的视角而是反复向同一方向移动积累的是冗余信息而非有效观测。团队把它定性为元认知metacognition缺陷模型不知道自己不知道。它缺乏一种内建的「怀疑机制」无法评估当前信息是否充分无法根据矛盾证据调整信念。这个问题从根本上区别于感知能力也是一个更加底层的挑战仅靠更强的视觉编码器或更多的探索步骤无法解决。论文作者最后再介绍一下这项工作的作者团队。一作是Yining Hong。Yining Hong斯坦福大学的博士后导师为Yejin Choi教授同时受到Leonidas Guibas教授、吴家俊教授和李飞飞教授的密切指导。她曾在UCLA获得计算机科学博士学位本科就读于上海交通大学电子工程系。此外她还是一名职业音乐家平时会和乐队一起巡演同时也是CVPR 2026的社交主席负责组织CVPR招待会和音乐表演。Jiageng Liu刘家耕加州大学洛杉矶分校UCLAMobility Lab的博士生。其本科就读于浙江大学竺可桢荣誉学院及计算机科学与技术学院的图灵班获人工智能学士学位。Han Yin清华大学本科生斯坦福大学Intern专业为计算机科学与技术。李飞飞、吴佳俊Jiajun Wu、Yejin Choi三位斯坦福教授也同时出现在作者列表里。另外还有来自西北大学的Manling Li教授和斯坦福的Leonidas Guibas教授参与。参考链接[1]https://arxiv.org/abs/2605.18746[2]https://esi-bench.github.io/【具身智能】学习路线发布扫描下方二维码加群后即可领取学习【具身智能】知识星球优惠券链接https://t.zsxq.com/z2Uz6【具身智能】vip 微信交流群成立还有 vip 微信交流群已加入【具身智能】知识星球的同学一定要扫描下方二维码添加具身智能小助手的微信微信号EAI0011她会拉你进【具身智能】 vip 微信交流群还可以第一时间从她的朋友圈获取本星球的所有内容推送更方便大家学习。点击阅读原文加入具身学习群

相关文章:

李飞飞团队新作ESI-Bench:具身智能的ImageNet来了!

点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达【具身智能】微信群成立!大家快扫码加入具身星球,将获得:最新具身智能技术和项目、❤️ 从入门到精通的学习路线、🤖 具身智能招聘(实习/校招/社…...

3个场景告诉你:为什么你需要PowerToys Text Extractor

3个场景告诉你:为什么你需要PowerToys Text Extractor 【免费下载链接】PowerToys Microsoft PowerToys is a collection of utilities that supercharge productivity and customization on Windows 项目地址: https://gitcode.com/GitHub_Trending/po/PowerToys…...

企业内网应用通过Taotoken实现安全可控的大模型能力调用

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 企业内网应用通过Taotoken实现安全可控的大模型能力调用 在企业内部应用开发中,引入大模型能力已成为提升效率与创新的…...

Kubernetes性能优化指南:提升集群运行效率

Kubernetes性能优化指南:提升集群运行效率 引言 在生产环境中,Kubernetes集群的性能优化是一个持续的过程。通过优化,可以提高资源利用率、减少响应时间、提升用户体验。 今天就来分享一下Kubernetes性能优化的经验和方法。 资源优化 Pod资源…...

对比直接使用原厂API,Taotoken在计费透明性上给我们的感受

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 对比直接使用原厂API,Taotoken在计费透明性上给我们的感受 在集成大模型能力到业务系统的过程中,API调用成…...

BooruDatasetTagManager:如何用AI智能标注工具将图像数据集处理效率提升10倍

BooruDatasetTagManager:如何用AI智能标注工具将图像数据集处理效率提升10倍 【免费下载链接】BooruDatasetTagManager 项目地址: https://gitcode.com/gh_mirrors/bo/BooruDatasetTagManager 你是否曾经为AI模型训练准备数据集时,面对数千张需要…...

借脑之术:一根记忆枝条,嫁接到另一棵树上 —— Memory Grafting 深度解读

论文信息 标题 Memory Grafting: Scaling Language Model Pre-training via Offline Conditional Memory 作者 Runxi Cheng, Yuchen Guan, Yongxian Wei, Qianpu Sun, Qixiu Li, Sinan Du, Feng Xiong, Chun Yuan, Yan Lu, Yeyun Gong (10人) 机构 微软亚洲研究院 (Microsoft R…...

【LeetCode刷题日记】二叉搜索树 的中序遍历 + 前驱指针,一套模板解决530.最小绝对差|501.二叉搜索树中的众数

🔥个人主页:北极的代码(欢迎来访) 🎬作者简介:java后端学习者 ❄️个人专栏:苍穹外卖日记,SSM框架深入,JavaWeb ✨命运的结局尽可永在,不屈的挑战却不可须臾或…...

Nacos CVE-2021-29442:Spring Boot Actuator未授权访问漏洞深度解析

1. 这个漏洞不是“改个配置就能修好”的那种 Nacos CVE-2021-29442,这个名字在2021年中后期的Java中间件运维圈里,曾让不少团队在凌晨三点被电话叫醒。它不是那种需要你翻文档、查API、调参数的常规问题,而是一个典型的“默认行为埋雷”——…...

miniblink49浏览器内核:企业级打印与PDF生成技术架构深度解析

miniblink49浏览器内核:企业级打印与PDF生成技术架构深度解析 【免费下载链接】miniblink49 a lighter, faster browser kernel of blink to integrate HTML UI in your app. 一个小巧、轻量的浏览器内核,用来取代wke和libcef 项目地址: https://gitco…...

栈以及队列的详细讲解

1.栈的定义以及实现栈:一种特殊的线性表,其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端称为栈顶,另一端称为栈底。栈中的数据元素遵守后进先出LIFO(Last In First Out)的原则。压栈&…...

HashMap 源码解析 底层原理 面试如何回答

HashMap 源码解析 底层原理 面试如何回答 一、参考资料 【Java视频教程,java入门神器(附300道Java面试题剖析)】 https://www.bilibili.com/video/BV1PY411e7J6/?p172&share_sourcecopy_web&vd_source855891859b2dc554eace9de3f28b4…...

线段树入门:算法分析

算法分析线段树采用了分而治之的策略,其点更新、区间更新、区间查询都可以在 时间内完成。树状数组和线段树都用于解决频繁修改和查询的问题,树状数组比线段树更节省空间、代码简单易懂,但是先单数用途更广、更加灵活,凡是可以使用…...

DeepSeek模型版本选择实战手册(2024最新版):从推理延迟、显存占用到LoRA兼容性全拆解

更多请点击: https://intelliparadigm.com 第一章:DeepSeek模型版本选择实战手册(2024最新版):从推理延迟、显存占用到LoRA兼容性全拆解 选择合适的 DeepSeek 模型版本是部署高效、低成本大模型服务的关键前提。2024…...

Gemini企业社会责任实践白皮书(2024独家解密版):覆盖AI伦理、碳足迹追踪与社区赋能的3层合规架构

更多请点击: https://codechina.net 第一章:Gemini企业社会责任实践白皮书(2024独家解密版)概览 本白皮书首次系统披露Google Gemini大模型在2024年度面向环境可持续性、AI伦理治理、数字包容性及社区赋能四大维度的企业社会责任…...

ChatGPT写不出合格投资人邮件?错!真正稀缺的是这5个私募股权语境理解层(附LP偏好词云图谱)

更多请点击: https://intelliparadigm.com 第一章:ChatGPT投资人邮件撰写的核心误区与范式跃迁 许多创业者在使用ChatGPT辅助撰写面向投资人的邮件时,陷入“信息堆砌型”表达陷阱——将产品功能、技术参数、市场数据不加筛选地塞入正文&…...

将taotoken接入openclaw agent工作流的配置要点

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 将taotoken接入openclaw agent工作流的配置要点 在构建基于大模型的智能体应用时,一个稳定、统一的模型调用层至关重要…...

企业如何利用Taotoken实现多模型API的统一管理与访问控制

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 企业如何利用Taotoken实现多模型API的统一管理与访问控制 在AI应用开发实践中,一个常见且棘手的问题是模型API的管理。…...

GetQzonehistory:如何永久保存你的QQ空间记忆

GetQzonehistory:如何永久保存你的QQ空间记忆 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 你是否曾在深夜翻看QQ空间,突然发现那些记录着青春点滴的说说正在逐…...

避坑指南:在Windows 11用DOSBox运行老游戏和工具,这些配置细节别忽略

Windows 11怀旧指南:DOSBox经典游戏完美运行配置手册 在数字时代快速迭代的浪潮中,那些承载着无数人青春记忆的DOS经典游戏——《仙剑奇侠传》《金庸群侠传》《大富翁》系列,依然让老玩家们念念不忘。Windows 11作为微软最新的操作系统&#…...

告别笔记本续航焦虑:手把手教你用NVMe电源管理给SSD“降频省电”

告别笔记本续航焦虑:手把手教你用NVMe电源管理给SSD“降频省电”每次带着笔记本出差,最担心的就是电量撑不过一场会议。你可能已经关闭了背光键盘、调低了屏幕亮度,甚至忍痛停用了独显,但续航依然捉襟见肘。其实,有一个…...

基于决策树与Boosting的暗网流量多阶段分类系统设计与实践

1. 项目概述:为什么暗网流量分类是个“硬骨头”?在网络安全这个没有硝烟的战场上,流量分类技术就像是前沿阵地的“雷达”和“声呐”。它的任务很简单:从海量、混杂的网络数据流中,快速、准确地识别出哪些是正常的网页浏…...

漏洞研究工作流:从CVE追踪到实战提升的闭环方法论

1. 这不是“资源列表”,而是一套可落地的漏洞研究工作流很多人一看到“在线资源全攻略”就下意识点开收藏,然后扔进浏览器书签夹吃灰。我见过太多安全从业者——包括刚入行的蓝队新人、想补实战短板的渗透测试员、甚至部分做红队支撑的工程师——把CVE编…...

医疗AI模型窃取攻击:原理、风险与超声影像场景的防御实践

1. 项目概述:当医疗AI的“大脑”面临被“复制”的风险在医疗影像领域,尤其是超声诊断,深度学习模型正以前所未有的速度改变着临床实践。它能从看似杂乱的超声回波信号中,精准地量化肝脏脂肪含量、鉴别乳腺肿物的良恶性&#xff0c…...

喜马拉雅xm-sign v3算法逆向解析与Node.js本地生成

1. 这不是“爬虫教程”,而是一次对前端签名机制的解剖式复现你有没有遇到过这样的情况:抓包看到喜马拉雅App或网页端发起的请求里,总带着一个叫xm-sign的参数,长度固定32位,每次请求都变,但又不是纯随机——…...

喷注重组方案对比:E-scheme与WTA在抗污染与子结构分析中的应用

1. 喷注重组方案:从基础概念到核心原理在粒子物理的高能对撞实验中,比如大型强子对撞机(LHC),我们探测到的最终产物是成千上万个带电和中性粒子。为了理解这些看似混乱的粒子流背后隐藏的物理过程——比如一个高能夸克…...

别再交智商税了!实测告诉你:用AI写论文,哪款软件控制重复率和AI率效果最好?

眼下毕业生和科研工作者的焦虑点很集中:论文查重率好不容易过关,AIGC疑似率却频频爆红;花了大把时间手动改写降AI痕迹,重复率又反弹回来。想靠普通工具同时守住查重和AI两道防线,根本就是天方夜谭。 事实上通用模型AI…...

Android App原生指令通道doCommandNative深度解析与Frida Hook实战

1. 这不是“逆向教程”,而是一次真实App通信链路的解剖现场你有没有遇到过这样的情况:在某A系头部电商App里,点击一个商品卡片,页面秒开;但用常规WebView调试或抓包工具去观察,却看不到任何明显的HTTP请求发…...

如何用Python快速接入Taotoken并调用多模型API构建智能客服系统

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 如何用Python快速接入Taotoken并调用多模型API构建智能客服系统 为你的CRM网站或内部系统集成智能对话能力,可以显著提…...

在 Taotoken 控制台中如何进行 API Key 的创建权限管理与操作审计

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 在 Taotoken 控制台中如何进行 API Key 的创建权限管理与操作审计 对于需要将大模型能力集成到多个应用或分配给不同团队成员的开发…...