当前位置：首页 > article >正文

AI心智理论评估：VLM意图理解接近人类，但视角采样能力存在瓶颈

article 2026/5/11 6:16:55

1. 项目概述当AI“读懂”人心时它在想什么在人工智能领域有一个听起来颇具哲学意味的挑战如何让机器理解“心智”这不仅仅是让AI识别图像中的物体或生成流畅的文本而是让它能够像人类一样推断他人的意图、信念、欲望和视角。这种能力在心理学和认知科学中被称为“心智理论”。对于任何旨在与人类进行深度、自然协作的智能系统而言这都是一项基石能力。想象一下一个家庭服务机器人需要理解你拿起空水杯走向厨房的意图是“想喝水”而不是“想把杯子放回原处”或者一个自动驾驶系统需要预判行人突然看向马路对面的行为可能意味着他即将横穿马路而不仅仅是“转头”这个动作本身。近年来随着多模态大模型特别是视觉语言模型的崛起我们似乎看到了曙光。这些模型能够同时处理图像和文本在描述复杂场景、回答基于图片的问题上展现了惊人的能力。一个很自然的问题是如此强大的VLM是否也具备了初步的“心智理论”能力它们能“读懂”图片中人物的意图并能“站在他人的角度”看世界吗这正是我们近期一项评估工作的核心。我们构建了两个专门的评测集——IntentBench和PerspectBench对包括GPT-4o、LLaVA、Qwen-VL等在内的35个前沿VLM进行了系统性测试。结果揭示了一个耐人寻味的“分离现象”模型在理解他人意图方面表现优异甚至接近人类水平但在需要“换位思考”的二级视角采样任务上却表现得像个蹒跚学步的孩童而且这种能力并不随着模型参数规模的增大而提升。这个发现远不止是一个学术趣闻。它直指当前AI系统核心推理机制的软肋它们可能更像一个拥有海量“社会行为剧本”的超级词典能够快速匹配场景与已知模式说出“正确的”答案但却缺乏构建内部心理模型、进行动态模拟的“想象力”。这种缺陷在简单的问答中或许无伤大雅但在需要深度协作、应对突发状况或理解微妙社会情境的安全关键领域如医疗辅助、紧急救援、复杂人机交互就可能成为致命的短板。本文将深入拆解这项评估工作的来龙去脉从心智理论的核心原理、评测方法的设计逻辑到模型表现背后的深层原因并结合我们在工程实践中的观察探讨这一发现对下一代可信赖AI系统设计的启示。2. 心智理论的双重路径模拟推理 vs. 理论推理要理解VLM在评估中表现出的分离现象我们首先需要厘清人类心智理论可能的运作机制。在认知科学领域长期以来存在两种主要的理论来解释我们如何理解他人心智模拟理论和理论理论。2.1 模拟理论一场内在的“角色扮演”模拟理论认为我们理解他人心智的方式是在自己内部“模拟”或“重演”对方的状态。当你看到朋友因为踩到香蕉皮而滑倒时你可能会不自觉地肌肉紧绷甚至感到一丝失衡的错觉。这并不是简单的视觉反馈而是你的运动皮层和镜像神经元系统在部分“重演”对方的体验。这种模拟不需要一套关于“摔倒-疼痛-尴尬”的复杂逻辑规则而是利用我们自身的感觉运动系统作为模型去推断他人的感受和意图。在更高级的认知层面这种模拟表现为心理旋转或视角转换。例如经典的“三山任务”中儿童需要想象自己坐在玩偶的位置描述玩偶看到的山峰景象。这要求儿童在脑海中动态地旋转整个空间场景这是一个典型的基于内部模型的模拟过程。模拟推理的核心在于“体验”和“代入感”它依赖于一个能够运行、能够被操纵的、关于自我-他人关系的内部动态模型。2.2 理论理论一部关于“人心”的百科全书与模拟理论相对理论理论则认为我们理解他人心智依赖于一套内隐的、关于心理状态如何与行为相关联的“常识心理学”理论。这套理论就像我们头脑中的一本百科全书里面记载着诸如“如果一个人盯着冰箱看他可能饿了”、“如果一个人匆匆跑向车站他可能快要迟到了”这样的因果知识链。我们通过应用这些抽象的知识规则来推理和解释他人的行为。这种推理更像是逻辑演绎或模式匹配。它不要求我们亲身“体验”饥饿或焦急只需要调用相关的知识条目即可。理论推理的优势在于其高效和抽象性能够快速处理大量熟悉的社会情境尤其擅长处理那些有明确社会脚本或文化规范的行为。2.3 工程视角下的映射VLM更像哪一种当我们审视现代VLM的架构和训练方式时会发现它们与“理论理论”的路径有着惊人的相似性。VLM通过在海量的图文数据上进行预训练本质上是在学习一个极其复杂的、联合的图像-文本概率分布。它学到了“看到某人伸手拿水杯”的图片常常与“口渴”、“想喝水”等文本描述共现。当被问及意图时它是在庞大的参数空间中寻找与当前输入最匹配的、统计上最可能的文本输出。这个过程更像是在应用一个从数据中归纳出的、关于“意图-行为”关联的超级理论而非在进行一次实时的、基于内部世界模型的模拟。VLM可能“知道”从某个角度看物体A会遮挡物体B因为它“阅读”过无数张从不同角度拍摄的图片及其描述。但它未必能主动地、动态地在“心智”中旋转那个场景来回答“从玩偶的位置看哪个罐子在最左边”这样的问题。后者需要一种对空间关系的动态、可操纵的表征而这正是当前基于Transformer架构、以下一个token预测为核心目标的VLM所普遍缺乏的。我们的评估假设正是基于此如果VLM主要依赖理论推理那么它们在需要大量抽象社会知识意图理解的任务上会表现良好而在需要动态空间模拟二级视角采样的任务上则会遇到困难。后续的评测结果有力地验证了这一假设。3. 评测基准构建如何为AI设计“心智测试”评估一个模型是否具备“心智”远比评估其翻译准确率或图像分类精度要复杂得多。最大的挑战在于我们无法直接窥探模型的“内心”只能通过其外在输出即生成的文本来间接推断。因此设计一个能够有效区分“真理解”和“模式匹配”的评测基准至关重要。我们的工作基于CogDevelop2K框架构建了IntentBench和PerspectBench两个基准分别针对心智理论的两个核心子能力。3.1 PerspectBench从“皮亚杰三山任务”到“罐子阵列”二级视角采样的评估我们溯源至发展心理学的经典范式——“三山任务”。在这个任务中孩子面对一个有三座特征各异的小山的模型一个玩偶被放在与孩子不同的位置。孩子需要回答“玩偶看到了什么”或从一系列图片中选出玩偶视角看到的景象。成功完成此任务标志着儿童超越了“自我中心”能够理解他人对同一空间有不同的感知。为了适配VLM的输入我们对任务进行了现代化改造刺激物简化将复杂的山形模型简化为3-4个常见饮料罐如可乐罐、雪碧罐排列成不同的空间模式。这降低了无关细节的干扰聚焦于核心的空间视角关系。多角度呈现生成一组从不同角度拍摄的“罐子阵列”图片其中一张是主体视角另一张或多张是目标玩偶的视角或干扰项。任务形式我们采用零样本、开放式生成任务。向模型呈现主体视角的图片并提问“一个玩偶正从【描述方向如正前方、左侧】看着这组罐子。从玩偶的视角看从左到右的罐子顺序是什么” 模型需要生成一个序列如“可乐罐雪碧罐芬达罐”。设计要点与考量避免文字泄漏确保图片本身不包含任何描述视角的文字标签迫使模型必须从像素信息中推理空间关系。控制复杂度从简单的线性排列到有前后遮挡的复杂排列逐步增加任务难度以探测模型的能力边界。引入干扰项在多项选择变体中会加入从其他角度拍摄的、顺序相似的图片增加区分度。这个基准的核心在于它要求模型进行一种“心理旋转”操作。模型需要在内部表征中将空间关系从自我中心坐标系转换到以玩偶为中心的坐标系。这本质上是一个几何变换问题但解决它需要模型具备对场景的、可操纵的3D结构化理解而非仅仅是2D图案的识别。3.2 IntentBench从“物理模拟动画”到“真实世界模糊场景”意图理解的评估传统上常使用基于物理引擎生成的简单动画如一个小球跳向盒子来测试对目标导向行为的理解。然而这类任务被批评缺乏现实性和生态效度——真实世界中的意图往往隐藏在更复杂、更模糊的社会情境中。因此IntentBench的构建思路是走向“真实”和“模糊”场景来源我们从真实世界图像、电影剧照、社会情境漫画中收集了大量包含人际互动且意图模糊的图片。例如一张图片中一个人手伸向桌上的钱包同时眼神瞥向门口另一个人或者一个人拿着雨伞站在屋檐下望着阴沉的天空。意图模糊性关键设计在于图片提供的信息不足以唯一确定意图。伸手拿钱包可能是想偷窃也可能是钱包主人要检查物品。这迫使模型必须整合视觉线索手势、眼神、表情、环境与社会常识进行推理。问题设计我们不会问“他在做什么”这是行为识别而是问“他为什么可能这样做”或“他接下来最可能做什么”。问题通常是开放式的例如“图中穿蓝色衣服的人伸手向桌上的钱包可能的原因有哪些请列出两种合理的意图。”设计要点与考量强调多义性一个场景对应多种合理的意图解释评估重点在于模型生成的理由是否合理、是否符合社会常识而非一个标准答案。依赖知识库正确回答需要模型拥有丰富的关于人类动机、社会规范、日常脚本的知识。例如知道“下雨天带伞”通常的意图是“防雨”但也可能是“遮阳”或“作为拐杖”。评估合理性而非正确性我们采用人工评估或与经过验证的常识知识库进行比对判断模型生成的意图解释的合理性和丰富度。IntentBench本质上测试的是模型对社会行为“脚本”和因果关系的知识储备与调用能力。它不要求模型进行动态模拟而是要求它成为一个优秀的“社会行为模式匹配器”。3.3 模型评估与实验设置为了确保评估的公平性和广泛性我们涵盖了开源和闭源领域的35个主流VLM包括GPT-4o、Gemini Pro Vision、Claude-3 Opus、LLaVA-NeXT、Qwen-VL-Max、InternVL等不同规模和架构的模型。统一的评估协议零样本评估所有模型均在未针对这两个特定任务进行任何微调的情况下测试。这检验的是模型固有的、泛化的能力而非对特定任务的过拟合。开放式生成不提供选项让模型自由生成文本答案。这比多项选择更能反映模型的真实推理过程避免了猜测和选项偏差。自动化与人工结合对于PerspectBench答案通常是确定的物体序列可以采用字符串匹配进行自动化评分允许近义词转换。对于IntentBench我们采用了基于GPT-4的评估器进行初步合理性评分并结合人工抽查确保评估质量。通过这套严谨的基准和评估方法我们得以对当前VLM在心智理论两个核心维度上的能力进行一次全面而深入的“体检”。4. 结果分析意图理解与视角采能的显著分离评测结果清晰地揭示了一个令人惊讶且具有启发性的模式在当前最先进的视觉语言模型中意图理解能力与二级视角采样能力之间存在显著的性能分离。这种分离不仅体现在绝对分数上更体现在其与模型规模的关系上这为我们理解VLM的底层推理机制提供了关键线索。4.1 性能对比接近人类的意图理解 vs. 挣扎的视角采样在我们的评估中模型在两个基准上的表现形成了鲜明对比IntentBench意图理解顶级模型如GPT-4o、Claude-3 Opus表现出了接近人类水平的性能。它们能够为模糊的社会场景生成多种合理、细致且符合社会常识的意图解释。例如面对“一个人在医院走廊奔跑”的图片模型不仅能给出“赶去急诊”的答案还能联想到“医护人员响应呼叫”、“家属焦急寻找病房”等不同角色视角的意图展现出丰富的上下文关联和社会知识。PerspectBench二级视角采样所有模型包括上述的顶级模型表现均大幅下滑远低于人类水平。错误模式非常一致模型倾向于描述自己看到的视角即图片呈现的主体视角而非问题所要求的玩偶视角。例如当玩偶在物体的右侧时模型可能会正确描述物体本身的特征但却错误地报告从玩偶视角看“左边的物体”实际上是它自己视角下的“右边物体”。这强烈表明模型未能成功完成视角转换的心理操作。数据背后的含义这个结果直观地说明VLM在处理需要社会知识库和模式匹配的任务上已经非常强大但在处理需要动态空间想象和坐标系转换的任务上却存在根本性缺陷。前者可以通过海量文本训练获得后者则可能需要对3D空间和视角变换有更本质的表征。4.2 规模缩放效应意图能力随规模增长视角能力陷入瓶颈更值得深思的是模型性能与参数规模的关系。我们绘制了模型在两项任务上的表现与其公开报道的参数规模或已知的近似规模的散点图并进行了相关性分析。意图理解的正相关在IntentBench上模型性能与规模呈现出明显的正相关趋势。更大的模型通常拥有更丰富的知识、更强的语言理解和生成能力因此在需要调用复杂社会常识进行推理的任务上表现更好。这符合我们对大模型“规模带来能力”的一般认知。视角采样的无相关性在PerspectBench上这种相关性消失了。从70亿参数的开源模型到万亿参数级别的闭源模型其二级视角采样能力没有表现出随规模增长而系统性提升的迹象。某些中等规模的模型甚至可能略优于部分超大模型。这表明仅仅增加模型参数和训练数据可能无法自动赋予模型进行心理模拟所需的核心能力。注意这个发现至关重要。它意味着当前以预测练下一个token为核心的架构范式可能存在一个“能力天花板”。某些需要内部模型构建和操纵的认知功能无法通过简单的规模扩展来获得。这好比给一个记忆力超群但缺乏空间想象力的人更多的书籍他关于建筑的知识会增长但他依然无法在脑中旋转一栋大楼的立体结构。4.3 错误模式深度剖析VLM到底“卡”在哪里通过对模型在PerspectBench上错误答案的定性分析我们归纳出几种典型的失败模式自我中心主义错误这是最常见的错误。模型直接描述输入图片的内容仿佛问题中的“从玩偶的视角看”这个指令被完全忽略或误解。例如提问“玩偶在你左边它看到的顺序是”模型回答“我看到的是ABC”。这类似于幼儿在“三山任务”早期阶段的典型错误。部分转换错误模型似乎尝试进行转换但只完成了一半。例如它可能正确识别出玩偶在右侧因此知道视角要旋转但在描述左右顺序时却发生了镜像错误将玩偶视角的左说成右。这表明模型可能有一些关于“相对位置”的抽象知识但无法将其准确映射到具体的空间坐标变换。物体识别依赖当物体特征差异明显时如颜色、形状迥异的罐子模型表现稍好但当物体相似时如两个同品牌不同口味的罐子错误率急剧上升。这说明模型可能在利用物体特征作为“拐杖”进行猜测而非真正进行空间推理。语言指令的脆弱性如果我们把问题从“从玩偶的视角看从左到右的顺序是什么”改为“如果玩偶拍一张照片照片里从左到右是什么”部分模型的回答会发生变化甚至可能变得更差。这表明模型对问题措辞非常敏感其“推理”过程可能高度依赖于对特定语言模式的表层匹配而非对问题本质空间视角的深层理解。这些错误模式共同指向一个结论当前VLM在二级视角采样任务上的失败并非因为知识匮乏它们“知道”左右的概念而是因为缺乏执行“心理旋转”或“视角转换”这一具体计算过程所需的内部算法或表征结构。它们更像是在进行一种基于统计关联的、符号层面的推理尝试而不是在操作一个内在的、类似视觉空间的模拟器。5. 工程启示与未来方向构建真正“会思考”的AI我们的评估结果不仅仅是一份性能报告更是对当前AI发展路径的一次重要警示。它指出仅仅追求模型规模和数据的扩大可能无法通向具备人类水平社会智能的通用人工智能。意图理解与视角采能的分离暗示我们需要在架构和训练目标上进行更根本的创新。5.1 对现有VLM应用场景的再思考基于当前VLM的能力特性我们在工程实践中需要更加审慎地界定其适用边界擅长领域理论推理主导内容理解与摘要基于图像生成描述、总结文档、回答事实性问题。社会常识问答与建议在拥有丰富社会脚本的场景下提供建议如“面试时该穿什么”。创意与头脑风暴基于模式生成文本、代码、设计方案。初步意图识别在场景清晰、意图明确的监控或人机交互界面中如识别用户点击按钮的意图。谨慎应用领域需模拟推理高级人机协作需要实时理解人类伙伴动态变化的视角和信念的协作机器人。安全关键决策自动驾驶中预测行人或他车驾驶员的“可能所见”和“意图”。心理辅导或复杂谈判辅助需要深度揣摩对方未言明的想法和感受。需要物理空间推理的任务如基于二维图纸指导机器人进行三维装配。实操心得在将一个VLM部署到涉及社会交互或空间推理的系统前一个有效的“压力测试”是设计一些简单的视角采样或错误信念任务例如“小明把糖果放进A盒子后离开了小红把糖果移到了B盒子。小明回来后会去哪里找糖果”观察其表现。如果模型在此类任务上持续失败那么它在该场景下的深度推理能力就需要被高度质疑。5.2 迈向融合架构将模拟器引入神经网络如何弥补VLM在模拟推理能力上的短板未来的研究可能朝向“混合架构”发展即结合基于神经网络的模式识别/知识库与基于符号的或可微分的模拟器。显式空间表征的引入在VLM的视觉编码器之后或与语言模型交叉融合的过程中显式地构建场景的3D结构表征如点云、体素、神经辐射场等。模型需要学习操作这些表征如旋转、平移来回答视角问题。这相当于为模型内置一个“可操纵的视觉工作记忆”。世界模型与心智模型的整合借鉴强化学习中的世界模型思想训练一个能够预测环境动态的内部模型。将这个“世界模型”与“心智模型”对他人的信念、欲望、意图的表示耦合。在进行视角采样或意图预测时模型不仅基于当前观察还可以在这个耦合模型中进行“前向模拟”推演不同视角下或不同意图驱动下的状态变化。因果推理模块的嵌入当前VLM的推理本质上是相关性的。引入显式的因果发现和推理模块可以帮助模型区分事件的因果结构与单纯的统计关联。在意图理解中这有助于区分“相关性”下雨和打伞常一起出现和“因果性”为了防雨所以打伞。具身与交互式训练大部分VLM的训练数据是静态的图文对。让AI智能体在模拟或真实环境中进行交互通过“第一人称”体验视角变化、行动后果可能是学习模拟推理的更有效途径。例如在三维模拟环境中训练一个智能体完成“找到另一个智能体看到的物体”的任务。5.3 评估范式的演进从静态基准到动态交互我们的IntentBench和PerspectBench是一个起点但未来的评估需要更贴近真实世界的复杂性动态交互式评估设计多轮对话或交互任务其中智能体需要根据对方不断变化的信念可能基于错误信息来调整自己的行为和回答。这比单轮的“错误信念任务”更具挑战性。多模态整合评估真实的心智解读不仅依赖视觉还包括语调、表情、手势、上下文历史等。未来的基准需要整合视频、音频、时序动作等多模态信息。可解释性评估不仅要看模型答得对不对还要通过探针、注意力可视化、概念激活等方法尝试理解模型是如何得出答案的。它是真的在进行模拟还是在匹配一个记忆中的类似问题常见问题与排查思路实录问题在部署一个基于VLM的客服机器人后发现它经常误解客户在描述产品故障时的具体所指尤其是空间位置导致提供错误的解决步骤。排查首先检查机器人是否在类似PerspectBench的任务上表现不佳。如果是则其空间视角理解能力不足。解决方案可以分步走1) 短期在流程中增加明确的确认环节“您指的是设备正面的红色按钮还是侧面的开关”引导用户消除歧义。2) 中期在微调数据中大量加入带有空间视角描述的图文对如“从用户角度看指示灯在左上角”。3) 长期考虑引入具有显式空间推理模块的架构。问题一个用于分析监控视频中异常行为的VLM系统能识别出“两人在争吵”但无法准确判断是“即将升级为肢体冲突”还是“只是激烈讨论”误报率高。排查这属于意图理解的模糊地带。检查系统在IntentBench的模糊场景上表现如何。解决方案1) 丰富训练数据特别是包含细微肢体语言、面部表情与不同意图结果对应的视频片段。2) 引入不确定性量化让模型输出“冲突可能性为70%”而非二元的“是/否”供后台人员复核。3) 结合时序信息构建简单的行为序列模型判断动作的升级趋势。心智理论能力的评估与构建是一条通往更智能、更可信赖AI的必经之路。当前VLM在意图理解与视角采样上的分离表现如同一面镜子既映照出我们已取得的惊人进步——通过海量数据让机器掌握了浩瀚的社会知识也清晰地揭示了前路的障碍——缺乏内在的、可操作的模型来进行真正的“思考”和“想象”。这提醒我们在追求参数规模和数据量的同时或许更需要回归到对智能本质的思考探索如何将神经网络的强大感知与模式识别能力与符号推理、内部模拟等更古典的AI思想相结合。未来的AI不应只是一个博闻强识的“学者”更应成为一个能够设身处地、在内心世界中进行推演的“思考者”。这条融合之路虽然挑战重重但无疑是通向真正通用人工智能最具希望的方向之一。

AI心智理论评估：VLM意图理解接近人类，但视角采样能力存在瓶颈

相关文章：

AI心智理论评估：VLM意图理解接近人类，但视角采样能力存在瓶颈

5分钟快速上手：Blender 3MF插件让你轻松实现3D打印模型转换

2012年Accellera标准演进：SystemC、UCIS与AMS如何重塑EDA设计流程

联发科2012年崛起：从功能机到智能机的转型与挑战

西安石油大学仪光实践协会4月活动机械蝴蝶台灯

AMD Ryzen终极性能调优秘籍：5个高效调试技巧让你完全掌控处理器性能

从零部署私有化AI对话框架：igogpt架构解析与实战指南

从AMD Ryzen数据误读看硬件市场分析：如何辨别数据信号与噪声

Obsidian Quiz Generator：用AI从笔记生成交互测验，打造学习闭环

TTS听觉校对法：技术写作质量提升的工程实践指南

ATE PCB组装：半导体测试中的精密工艺与挑战解析

无线充电技术：从手机标配到多场景应用的挑战与机遇

Blender 3MF插件：5分钟掌握3D打印文件格式转换的完整方案

从1991年Wescon展会看测试测量技术演进：DSP、GPIB与经典仪器解析

从专利数量到创新质量：解读中国专利申请背后的产业逻辑与价值评估

【领域驱动设计开篇】零来源及学习路径

芯片设计中的工程迷信与理性实践：从经验法则到数据驱动

虚拟原型技术：软硬件协同开发与多核处理器调试新范式

CES 2016行业转向：从酷炫到实用，安全与服务成核心

芯粒技术：从封装协同到UCIe标准，破解芯片设计新范式

半导体设备再流通：破解成熟制程产能瓶颈与供应链韧性难题

XYBot V2：基于Python的插件化微信机器人框架开发与部署指南

从绕接到焊接：硬件连接技术的演进与工程思维启示

DevSquad：一体化开发者工具箱，提升本地开发与调试效率

示波器有效位数（ENOB）实战指南：从原理到选型与应用

本地部署YakGPT：打造私有化ChatGPT前端，实现语音交互与数据安全

Oracle诉Google案：API版权与合理使用对软件互操作性的深远影响

芯片功能验证的范式革新：从约束随机到目标驱动的智能场景生成

太空采矿的工程挑战：从月球氦-3到小行星资源开采的现实路径

芯片低功耗设计：从动态/静态功耗原理到DVFS与电源门控实战