当前位置: 首页 > article >正文

Mirage: The Illusion of Visual Understanding

Lab4AI大模型实验室是面向AI开发者、科研党与学习者打造的一站式AI实践平台深度绑定高性能弹性算力支持模型复现、训练、推理全流程以按需计费、低价高效破解高端算力紧缺与成本高昂难题同步Arxiv前沿论文并提供翻译、导读、分析服务支持各类大模型一键复现与数据集微调对接孵化资源助力科研成果转化同时搭载多样化AI在线课程实现理论学习与代码实操同步推进全方位覆盖AI研发、科研创新与技能学习全场景需求。大模型实验室官网链接https://www.lab4ai.cn/arxiv?utm_sourcecsdn_daily_paper主要作者信息Mohammad Asadi斯坦福大学电气工程系、Jack W. O’Sullivan斯坦福大学医学部心脏病学分部、斯坦福大学生物医学数据科学系研究背景多模态AI系统在真实世界任务中表现优异已广泛应用于通用图像理解、机器人及医疗等领域部分模型性能宣称超越人类专家在医疗健康场景中获得患者与临床医生的信任。当前多模态模型的视觉理解能力主要依靠各类基准测试Benchmark评估高基准测试准确率被直接等同于更强的视觉理解能力。现有评估范式存在显著缺陷模型的视觉-语言推理机制尚未被清晰理解模型可能利用文本线索、数据污染、隐藏模式而非真实视觉信息完成任务尤其在医疗等高风险场景中这种虚假的视觉理解会带来严重安全隐患。传统幻觉Hallucination研究聚焦于有效认知框架内的无依据细节填充而多模态模型在无图像输入时构建虚假认知框架的行为尚未被系统研究。研究目的揭示多模态大模型在无图像输入时仍自信生成视觉描述与推理的“幻影效应Mirage Effect”量化该现象的普遍程度与偏差特征。验证多模态模型的基准测试高分是否源于真实视觉理解还是仅依靠文本线索、数据模式与先验知识实现。对比模型在幻影模式Mirage-mode与明确猜测模式Guess-mode下的表现揭示两种模式的内在推理机制差异。提出可落地的基准测试净化方案实现对多模态模型真实视觉理解能力的公平、可靠评估。本文核心贡献定义并量化幻影效应首次提出多模态AI的“幻影推理”概念即模型在无图像输入时仍自信描述视觉特征、构建虚假认知框架且该行为在主流前沿模型中普遍存在医疗场景下还呈现病理偏向性。颠覆现有评估认知证明前沿多模态模型在无图像时仍能保留70%-80%的有图像基准准确率医疗基准更易被文本推理破解高分不代表真实视觉理解。文本模型超越多模态模型仅30亿参数的纯文本“超级猜测器”在无图像训练的胸部X光基准上性能超越所有前沿多模态模型与人类放射科医生。提出B-Clean净化框架通过后处理方式移除基准中可被文本破解的问题实现多模态模型真实视觉能力的公平对比改变模型原有排名与性能差距。研究方法1. 模型选择选用GPT-5系列、Gemini-3-Pro、Gemini-2.5-Pro、Claude Opus 4.5/Sonnet 4.5等主流前沿多模态模型通过官方API接口调用统一设置推理模式与参数。2. 数据集与基准测试幻影检测基准Phantom-0包含20个领域、200个无图像视觉问题用于量化幻影率。通用与医疗多模态基准MMMU-Pro、Video-MMMU、Video-MME通用VQA-Rad、MicroVQA、MedXpertQA-MM、ReXVQA医疗。纯文本超级猜测器基于Qwen2.5-3B纯文本模型在移除图像的ReXVQA训练集上微调避免数据污染。3. 核心实验设计幻影率量化向模型提交无图像的视觉问题不提示图像缺失用GPT-5自动判断模型是否描述不存在的视觉内容。幻影分数Mirage Score计算幻影分数无图像准确率/有图像准确率×100%衡量模型对文本线索的依赖程度。幻影模式vs猜测模式对比幻影模式不提示图像缺失猜测模式明确告知图像缺失并指令猜测对比两种模式的准确率差异。B-Clean基准净化先对候选模型做无图像测试移除所有模型可文本答对的问题剩余问题仅用于评估真实视觉能力。4. 医疗偏差分析以Gemini-3-Pro为对象在脑部MRI、胸部X光、心电图、病理切片、皮肤图像5类医疗场景重复200次无图像诊断请求统计病理偏向分布。研究结果幻影效应普遍存在所有测试前沿模型的平均幻影率超60%添加标准多模态提示后幻影率升至90%-100%模型完全无视图像缺失。医疗幻影具病理偏向模型在无图像时倾向生成严重病理诊断如STEMI、黑色素瘤、癌证等正常结果占比低存在高临床风险。无图像性能远超预期模型无图像时准确率超过有图像带来的额外增益平均保留70%-80%有图像准确率医疗基准易受文本推理破解。纯文本模型实现反超30亿参数Qwen2.5纯文本“超级猜测器”在ReXVQA测试集上超越所有前沿多模态模型与放射科医生平均水平推理轨迹与真实视觉推理难以区分。猜测模式性能显著下降明确告知图像缺失后模型准确率大幅降低证明幻影模式利用了隐藏文本模式而非简单猜测。B-Clean有效净化基准净化后基准仅保留原23%-26%的问题模型准确率大幅下降部分基准的模型排名发生改变真实视觉能力被准确评估。总结与展望总结本研究证实当前多模态AI的高基准测试成绩很大程度上是“幻影效应”带来的视觉理解假象模型并非依靠真实视觉感知而是利用文本线索、数据模式、先验知识完成任务。幻影效应在主流模型中普遍存在医疗场景下的病理偏向会引发严重安全风险现有评估范式无法区分真实视觉理解与文本推理。研究提出的B-Clean框架可有效净化现有基准实现多模态模型真实视觉能力的公平评估。局限性未完全揭示幻影效应的内部生成机制仅为推理假设。B-Clean框架依赖候选模型集合仅提供相对评估无法给出绝对视觉能力指标。研究仅针对多模态场景不否定模型的通用文本推理能力。未来展望将模态消融测试作为多模态模型评估的标准流程常规检测模型对各输入模态的依赖。采用私有或动态更新基准避免数据污染对评估的干扰。构建嵌入反事实探测的模型架构运行时检测并抑制幻影推理。深入研究幻影效应的生成机制开发更普适的无幻影多模态训练与评估方法。

相关文章:

Mirage: The Illusion of Visual Understanding

Lab4AI大模型实验室是面向AI开发者、科研党与学习者打造的一站式AI实践平台,深度绑定高性能弹性算力,支持模型复现、训练、推理全流程,以按需计费、低价高效破解高端算力紧缺与成本高昂难题;同步Arxiv前沿论文并提供翻译、导读、分…...

终极指南:如何诊断和优化SeetaFaceEngine的运行速度瓶颈

终极指南:如何诊断和优化SeetaFaceEngine的运行速度瓶颈 【免费下载链接】SeetaFaceEngine 项目地址: https://gitcode.com/gh_mirrors/se/SeetaFaceEngine SeetaFaceEngine是一个高性能的开源人脸识别引擎,包含人脸检测、人脸对齐和人脸识别三大…...

MEMC插帧技术与屏幕分辨率术语解析:从VGA到8K的演进与应用

1. MEMC插帧技术:让画面流畅的秘密武器 第一次在朋友家看体育比赛直播时,我被那种丝滑般的画面震撼到了——足球飞行的轨迹完全没有拖影,运动员的每个动作都清晰可见。后来才知道,这背后是MEMC动态插帧技术在发挥作用。这项技术如…...

告别卡顿!用华为云ECS搭建高性能eNSP Pro服务器,支持大规模组网实验

华为云ECS深度优化指南:解锁eNSP Pro大规模组网实验的终极性能 当你在本地PC上运行eNSP Pro进行网络实验时,是否遇到过这样的困境:模拟5台设备就开始卡顿,复杂拓扑直接崩溃,或者保存配置时进度条像蜗牛爬行&#xff1f…...

TCN实战:用Python和Keras搭建时序分类模型(附MNIST代码)

TCN实战:用Python和Keras搭建时序分类模型(附MNIST代码) 时序数据分类一直是机器学习领域的核心挑战之一。传统RNN架构虽然广泛应用,但其训练复杂度高、并行性差的缺陷日益凸显。2018年提出的时域卷积网络(TCN&#xf…...

微前端架构中awesome-micro-npm-packages的终极应用指南:模块化开发的未来趋势

微前端架构中awesome-micro-npm-packages的终极应用指南:模块化开发的未来趋势 【免费下载链接】awesome-micro-npm-packages A curated list of small, focused npm packages. 项目地址: https://gitcode.com/gh_mirrors/aw/awesome-micro-npm-packages awe…...

Arroyo分布式流处理引擎的完整测试策略指南:单元测试、集成测试与SQL测试框架详解

Arroyo分布式流处理引擎的完整测试策略指南:单元测试、集成测试与SQL测试框架详解 【免费下载链接】arroyo Distributed stream processing engine in Rust 项目地址: https://gitcode.com/gh_mirrors/ar/arroyo Arroyo是一个用Rust编写的分布式流处理引擎&a…...

清音刻墨·Qwen3在科研协作中的应用:学术访谈转录+时间锚点标注

清音刻墨Qwen3在科研协作中的应用:学术访谈转录时间锚点标注 想象一下这个场景:你刚刚结束了一场长达两小时的深度学术访谈,录音文件静静地躺在电脑里。接下来,你需要逐字逐句地听写、整理、校对,再手动为每一句话打上…...

YOLO X Layout参数详解:IOU阈值对Table嵌套结构识别准确率的影响实验

YOLO X Layout参数详解:IOU阈值对Table嵌套结构识别准确率的影响实验 1. 引言 在日常文档处理工作中,我们经常遇到包含复杂表格结构的文档,特别是那些嵌套表格、合并单元格的复杂布局。YOLO X Layout作为基于YOLO模型的文档版面分析工具&am…...

Joplin进阶玩法:用5块钱/月的NAS实现企业级笔记同步(群晖DSM7+Cpolar实战)

Joplin进阶玩法:用5块钱/月的NAS实现企业级笔记同步(群晖DSM7Cpolar实战) 在信息爆炸的时代,个人知识管理已成为现代职场人的核心竞争力。传统云笔记服务如Evernote、Notion虽然功能丰富,但高昂的订阅费用(…...

Elasticsearch RTF安全配置终极指南:X-Pack安装与免费License申请教程

Elasticsearch RTF安全配置终极指南:X-Pack安装与免费License申请教程 【免费下载链接】elasticsearch-rtf elasticsearch中文发行版,针对中文集成了相关插件,方便新手学习测试. 项目地址: https://gitcode.com/gh_mirrors/el/elasticsearc…...

如何在Windows系统中轻松访问Linux分区?Ext2Read的5个实用技巧

如何在Windows系统中轻松访问Linux分区?Ext2Read的5个实用技巧 【免费下载链接】ext2read A Windows Application to read and copy Ext2/Ext3/Ext4 (With LVM) Partitions from Windows. 项目地址: https://gitcode.com/gh_mirrors/ex/ext2read 你是否曾经在…...

GD32F303 Flash安全实战:从配置字到固件加密的全面防护

1. GD32F303 Flash安全防护的必要性 在嵌入式产品量产过程中,Flash安全防护是每个开发者都必须重视的关键环节。以GD32F303为例,这颗国产MCU凭借出色的性价比在工业控制、消费电子等领域广泛应用,但同时也面临着程序被非法读取、篡改的风险。…...

从‘RIP’这道题出发,聊聊IDA分析PWN题时新手常踩的3个坑(附正确姿势)

从‘RIP’这道题出发,聊聊IDA分析PWN题时新手常踩的3个坑(附正确姿势) 在CTF竞赛中,PWN题往往是最考验选手底层功力的题型之一。而作为静态分析利器的IDA Pro,虽然功能强大,但新手在使用过程中常常会陷入一…...

别再手动对齐时序了!SystemVerilog Clocking Block实战:从接口封装到UVM验证的保姆级避坑指南

SystemVerilog Clocking Block深度实战:告别时序混乱的验证艺术 在数字验证的世界里,时序问题就像潜伏在代码中的幽灵,总是在最意想不到的时刻制造麻烦。想象一下这样的场景:你的测试用例逻辑完美无缺,却在信号采样时遭…...

Neomake Makers深度解析:如何为50+编程语言配置lint规则

Neomake Makers深度解析:如何为50编程语言配置lint规则 【免费下载链接】neomake Asynchronous linting and make framework for Neovim/Vim 项目地址: https://gitcode.com/gh_mirrors/ne/neomake Neomake是Vim/Neovim的异步代码检查框架,它通过…...

革新性英雄联盟客户端增强工具:League-Toolkit全方位功能解析

革新性英雄联盟客户端增强工具:League-Toolkit全方位功能解析 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 英雄联盟玩家在日常游…...

文本文件批量转 UTF-8 与「仅检测编码」操作备忘

需要在 Windows 桌面端对一批文本类文件统一编码或先摸清当前编码时,可以用【批量文件编码转换工具】。下文只记界面流程与注意点,不写检测与转换的实现细节。源路径支持拖入文件或文件夹、多次追加,也可用浏览菜单选文件夹、单文件或多文件。…...

G-Helper华硕笔记本控制中心:告别臃肿,拥抱极致轻量化

G-Helper华硕笔记本控制中心:告别臃肿,拥抱极致轻量化 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF…...

效率提升神器:用快马AI自动诊断并修复npm 128错误,节省排错时间

效率提升神器:用快马AI自动诊断并修复npm 128错误,节省排错时间 最近在团队协作开发一个Node.js项目时,频繁遇到npm安装依赖报错128的问题。每次都要花大量时间排查SSH配置、网络代理或仓库源的问题,严重影响了开发效率。于是我开…...

华硕笔记本性能优化新选择:5分钟摆脱Armoury Crate臃肿体验

华硕笔记本性能优化新选择:5分钟摆脱Armoury Crate臃肿体验 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Stri…...

拒绝广告!实测Brave/Vivaldi/百分浏览器的隐私保护到底靠不靠谱

拒绝广告!实测Brave/Vivaldi/百分浏览器的隐私保护到底靠不靠谱 在数字广告无孔不入的今天,浏览器隐私保护功能已成为用户刚需。Brave、Vivaldi、百分(Cent)等基于Chromium内核的浏览器纷纷以"零广告追踪"、"进程隐…...

7步完整解决Windows 11安装失败:从错误代码到成功激活的高效指南

7步完整解决Windows 11安装失败:从错误代码到成功激活的高效指南 【免费下载链接】MediaCreationTool.bat Universal MCT wrapper script for all Windows 10/11 versions from 1507 to 21H2! 项目地址: https://gitcode.com/gh_mirrors/me/MediaCreationTool.bat…...

Win11 24H2最新绕过OOBE强制登录微软账户的3种方法(附详细步骤)

Windows 11 24H2 本地账户创建终极指南:三种可靠绕过方案详解 每次Windows大版本更新,微软总会给用户带来一些"惊喜"。这次Windows 11 24H2的OOBE(开箱体验)强制要求登录微软账户,让不少注重隐私和习惯使用…...

2025最权威的六大降AI率方案推荐榜单

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 减少AIGC(人工智能生成内容)的痕迹,要从多方面入手&…...

重构网页媒体资源获取逻辑:猫抓扩展的技术突破与场景化应用

重构网页媒体资源获取逻辑:猫抓扩展的技术突破与场景化应用 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 在数字化内容爆炸的今天&am…...

oicq 高级技巧:如何构建企业级 QQ 机器人应用架构

oicq 高级技巧:如何构建企业级 QQ 机器人应用架构 【免费下载链接】oicq Tencent QQ Bot Library for Node.js 项目地址: https://gitcode.com/gh_mirrors/oi/oicq oicq 是一个基于 Node.js 的 QQ 协议库,专为构建稳定、高效的 QQ 机器人应用而设…...

SiameseAOE模型Dify平台插件开发:低代码构建智能文本分析工作流

SiameseAOE模型Dify平台插件开发:低代码构建智能文本分析工作流 1. 引言 你有没有遇到过这样的场景?客服团队每天要处理海量的用户反馈,市场部门需要从成千上万的评论里提炼产品卖点,内容审核人员得盯着屏幕,手动标记…...

主流人脸识别算法框架实战选型指南:从精度、速度到资源消耗的权衡

1. 人脸识别算法框架的核心选型逻辑 第一次接触人脸识别项目时,面对琳琅满目的算法框架确实容易犯选择困难症。经过多个项目的实战验证,我发现选型本质上是在玩一个"不可能三角"游戏——精度、速度和资源消耗这三者永远无法同时达到最优。就像…...

SLIC超像素分割实战:从原理到OpenCV代码实现(附完整示例)

SLIC超像素分割实战:从原理到OpenCV代码实现(附完整示例) 在计算机视觉领域,图像分割一直是个基础而关键的课题。想象一下,当你需要让计算机理解一张照片时,直接处理数百万个像素显然效率太低——这就好比…...