当前位置: 首页 > article >正文

【CVPR26-美国伊利诺伊大学】视觉-语言模型中的链路追踪:理解多模态思维的内部机制

文章Circuit Tracing in Vision–Language Models: Understanding the Internal Mechanisms of Multimodal Thinking代码https://github.com/UIUC-MONET/vlm-circuit-tracing单位美国伊利诺伊大学厄巴纳-香槟分校、独立研究者一、问题背景当下CLIP、Flamingo、Gemma3-4B、GPT4-o等VLMs在视觉问答、图像描述、复杂视觉推理等任务中表现亮眼能无缝融合视觉感知与语言理解完成跨模态的多步推理。但即便应用广泛其内部决策机制仍处于不透明状态带来了三大核心问题可解释性缺失难以诊断模型错误、缓解固有偏见无法确保与人类价值观对齐现有模型可解释性研究多聚焦纯文本大模型VLMs需要整合统计特征、语义完全不同的两种模态跨模态特征绑定、注意力协调等问题均无成熟解析方法对VLMs内部机制的未知限制了更高效、更强大的多模态模型架构设计也无法深入探究视觉与语言的交互规律。在此背景下构建一套针对VLMs的专属解析方法成为破解多模态AI黑箱的关键需求。二、方法创新研究团队首次提出适用于VLMs的电路追踪框架基于文本大模型可解释性技术进行跨模态拓展打造了三大核心组件并设计了因果验证手段实现了对VLMs内部计算通路的系统解析核心创新点如下层式转码器Transcoders在VLMs各MLP层插入并训练转码器通过编码器将多模态多义表征映射为稀疏潜特征解码器还原MLP输出同时摒弃传统L1正则化采用TopK策略直接保证特征稀疏性还会追踪重建残差并作为误差节点加入电路图解决了多模态特征的可解释分解问题融合图像嵌入残差的归因图将模型在固定输入下线性化构建以令牌嵌入、转码器特征、输出logit为节点的归因图量化特征间的因果贡献关系通过剪枝低贡献边简化图谱清晰追踪视觉输入到最终输出的信息流动路径多模态特征的注意力分析与电路发现结合特征激活分析统计特征在跨模态输入中的激活规律和视觉编码器注意力图可视化解析未命名的多模态特征再由人类专家对功能相似的特征分组标注形成简化、可解释的多模态电路因果验证的干预手段设计特征引导修改特征激活值观察输出变化和电路修补将一个电路的子模块移植到结构相似的另一电路两种方法验证发现的电路是否具备真实的因果作用而非简单的事后相关性。三、实验结果研究以开源SOTA模型Gemma3-4B-it为实验对象基于SmoLIM2文本、ImageNet图像描述、Cauldron视觉问答数据集完成转码器训练在H100 GPU上开展全流程实验得到了一系列关键结果一模型训练与表征分析结果转码器扩展因子会显著影响潜特征利用率模型早期层死特征比例远高于中层说明低层视觉表征更难分解多模态数据训练的转码器未解释方差比例FVU显著低于纯文本训练尤其在模型中层差距最大验证了视觉特征能让多模态表征更易解释。二核心多模态推理机制发现多模态表征层级整合仅在模型高层约20层后才会出现同时编码视觉和语义的特征低层以模态特异性特征为主跨模态关联随网络深度逐步构建特征表征随深度抽象化低层聚焦数字、纹理等细粒度视觉模式高层形成物体、概念级特征且与语义对齐符合视觉模型的表征规律存在独立视觉电路支撑数学推理对于视觉算术任务如12的图像推理模型可通过视觉电路完成计算中层存在对应结果数字的视觉特征无需依赖纯语义计算幻觉现象的成因解析以“六指识别为五指”为例模型幻觉由视觉编码器的感知偏差内部电路动态共同导致手部视觉特征被放大并激活数字5的电路压制了计数特征即便模型具备视觉计数能力也会被主导性的语义/感知信号掩盖视觉与语义通路并行且晚期融合模型深层仍保留独立的视觉和语义表征流视觉特征会产生无文本支撑的关联激活如火星图像激活航天飞机特征高层还会保留视觉相似性最终在最后几层整合为统一的多模态表征。三干预实验验证电路修补实验中压制火星视觉特征并激活地球视觉特征后模型输出完全转向地球相关概念直接验证了发现的电路具备真实的因果可控性可通过干预特征激活实现模型输出的定向调控。四、优势与局限一核心优势开创性首次将电路追踪方法拓展至多模态领域填补了VLMs可解释性研究的空白为解析跨模态推理机制提供了首个系统框架因果性通过转码器分解和归因图构建捕捉的是特征间的因果关系而非简单的相关性解析结果更具科学性实用性框架可实现对VLMs内部电路的定向干预和调控为模型调试、故障缓解如解决幻觉问题提供了实用工具也能为更优的VLMs架构设计提供理论指导可复现研究开源了代码和模型为后续多模态模型可解释性研究提供了基础工具和参考范式。二研究局限视觉特征解析受限视觉编码器的注意力图可读性较差有时无法准确定位相关图像区域且难以区分视觉计算的中介特征和输出特征转码器设计存在短板采用的层式转码器无法捕捉跨层叠加特征图像嵌入的高特征密度导致归因图中出现大量近重复视觉特征计算成本较高沿用文本大模型的电路追踪思路导致多模态特征解析的计算成本大幅上升自动化特征解释方法仍存在算力瓶颈模型适配性单一仅以Gemma3-4B-it为研究对象其SigLIP视觉编码器和双向注意力机制可能带来特殊的电路复杂性结论尚未在其他VLMs中验证依赖人工参与电路发现需要大量人类专家的标注工作难以实现定量评估也无法直接应用于模型微调与优化规模化应用受限。五、一句话总结该研究首次构建了视觉语言模型的电路追踪框架通过转码器、归因图和注意力分析实现了对多模态推理内部因果电路的系统解析揭示了VLMs层级整合、并行通路等核心推理机制且通过干预实验验证了电路的可控性为可解释、可控制的多模态AI发展奠定了重要基础同时也指出了转码器设计、自动化解析、多模型适配等未来亟待解决的问题。

相关文章:

【CVPR26-美国伊利诺伊大学】视觉-语言模型中的链路追踪:理解多模态思维的内部机制

文章:Circuit Tracing in Vision–Language Models: Understanding the Internal Mechanisms of Multimodal Thinking代码:https://github.com/UIUC-MONET/vlm-circuit-tracing单位:美国伊利诺伊大学厄巴纳-香槟分校、独立研究者一、问题背景…...

数据与智能定义竞争力:智能网联汽车实时数据分析方案白皮书 2026

这份 2026 年智能网联汽车实时数据分析方案白皮书,核心围绕“数据与智能定义智能网联汽车核心竞争力”展开,剖析了汽车产业从电动化向智能化转型中数据体系的变革挑战,提出以 SelectDB 为核心的实时数据底座解决方案,结合实践案例…...

英伟达斥资20亿美元投资Nebius “循环投资”泡沫争议再起

雷递网 乐天 3月11日英伟达(股票代码:NVDA)日前表示,将向人工智能云公司Nebius投资20亿美元,Nebius表示,该合作伙伴关系将帮助Nebius到2030年底部署超过5吉瓦(GW)的英伟达系统,这笔电力大约足以供380万户家庭使用。Neb…...

OpenClaw(龙虾)爆火!27本豆瓣高分Agent、大模型、Transformer书和教程,码住学原理~

2025到2026,AI从大语言模型向智能体Agent发展。回看人工智能领域在过去数十年发展经历了从预定义逻辑到自发涌现能力的深刻范式转移。2017年Transformer架构的诞生改变了2010年以来循环神经网络(RNN)及其变体长短期记忆网络(LSTM&…...

网络安全的本质:用数学建立秩序,用哲学理解混沌

引言网络安全从业者常常自嘲:我们是在和“未知的未知”作战。每天有新的漏洞曝光,有新的攻击手法出现,有新的数据泄露事件发生。防守方似乎永远处于被动,永远在追赶攻击者的脚步。这种困境背后,隐藏着一个深刻的本质&a…...

OpenClaw 小龙虾从安装到实战:Cherry Studio → Codex → Skills

本文整理了一条最简单、最实用的 OpenClaw 上手路径,完整流程分为 三个部分: 通过 Cherry Studio 安装 OpenClaw 下载 Cherry Studio → 配置免费阶跃模型 → 一键安装 OpenClaw → 配置 SOUL / IDENTITY / USER 三个核心文件。使用 ChatGPT 订阅自带的 …...

OpenHarmony Flutter 三方库 dart_windows_service_support 的适配鸿蒙调研 - 探索跨端后台驻留机制与系统服务对接范式

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.csdn.net OpenHarmony Flutter 三方库 dart_windows_service_support 的适配鸿蒙调研 - 探索跨端后台驻留机制与系统服务对接范式 前言 在大型工业软件中,后台驻留服务是系统的灵魂。开…...

Flutter 三方库 wikipedia_api 的鸿蒙化适配实战 - 一站式获取全球维基百科数据、支持多语言检索与摘要提取

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.csdn.net Flutter 三方库 wikipedia_api 的鸿蒙化适配实战 - 一站式获取全球维基百科数据、支持多语言检索与摘要提取 前言 开发知识库或智能助手时,维基百科是不可或缺的数据源。手动调…...

6英寸磷化铟晶圆厂在埃因霍温开始建设

获得高达1.5亿欧元的欧洲芯片法案投资,此项目被视作“欧洲未来数字经济的发射台”。荷兰应用科学研究组织(TNO)与埃因霍温高科技园(High Tech Campus Eindhoven)已着手建设一座工厂,该工厂将用于以6英寸晶圆…...

Python基于flask的农产品物流运输系统

目录系统架构设计数据库设计核心功能实现地图集成数据分析模块系统安全措施测试与部署项目技术支持可定制开发之功能创新亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作系统架构设计 采用Flask作为后端框架,搭配SQLAlchemy…...

196.像2FSK这种调制方式可以用星座图表示吗?

...

Python基于flask的角色扮演论坛的设计与实现 可视化

目录需求分析与功能规划技术栈选择数据库设计核心功能实现可视化计划分阶段部署与优化项目技术支持可定制开发之功能创新亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作需求分析与功能规划 角色扮演论坛的核心需求包括用户角色创建、故…...

鸿蒙应用开发UI基础第二十一节:自定义组件与页面的生命周期

【学习目标】 理解生命周期的核心概念,区分自定义组件生命周期和页面生命周期的本质差异;掌握核心生命周期方法,明确各方法的触发时机及使用规范;掌握自定义组件/页面的完整生命周期流程,理解嵌套组件的生命周期调用时…...

Python基于flask的美容美发理发店管理系统 基于JAVAWEB的理发店会员管理系统

目录基于Flask的美容美发理发店管理系统基于JavaWeb的理发店会员管理系统通用建议项目技术支持可定制开发之功能创新亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作基于Flask的美容美发理发店管理系统 技术栈 后端:Python…...

【AI人工智能第3次课-Python3基础系列之01.Python环境搭建与输入输出】001篇

文章目录 🐍 01. Python环境搭建与输入输出 一、环境搭建(Step-by-Step 2026实操版) ✅ 前置共识(必读!避免踩坑) ▶️ 步骤1:下载与安装Python(推荐官方渠道) ▶️ 步骤2:创建隔离的虚拟环境(✅ 2026行业强制规范) ▶️ 步骤3:选择代码编辑器(IDE推荐2026版)…...

安装OpenClaw时,为什么需要先安装Node.js?不装行不行?

## 为什么OpenClaw需要Node.js?不装行不行? 最近在折腾OpenClaw这个工具的时候,发现它的安装文档里第一步就是要求安装Node.js。很多刚接触的朋友可能会纳闷——这俩东西看起来八竿子打不着,为什么非得先装Node.js?不装…...

拒绝“无效创作”!让技术人的每一份付出都有流量回报

做短视频副业的技术人,大概都有过这样的无奈:花3小时写文案、2小时拍视频、1小时剪辑,发布后播放量寥寥无几;明明内容是自己深耕多年的技术干货,却因为不会包装、不懂推流,始终无人问津;粉丝涨得…...

Python基于flask的起点小说数据分析与可视化平台 爬虫

目录爬虫实现目标数据抓取范围技术选型与工具核心实现步骤反爬规避策略数据清洗与存储注意事项项目技术支持可定制开发之功能创新亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作爬虫实现目标 构建一个高效稳定的爬虫系统,用…...

Spring Boot 热配置:让应用灵活升级

一、热配置的概念与重要性热配置,简单来说,就是在应用程序运行过程中,无需重新启动应用,就能对配置进行修改并使其生效。这种方式的优势显而易见:• 减少停机时间:在生产环境中,应用的稳定运行至…...

从零开始学AI:高效学习+2026入行全指南

大家好,我是用AI技术赋能超级个体的实践者,前方预警这篇文章很长也很干,你可以根据自己的情况,看对应的章节 一、本指南脑图二、为什么要读这篇指南?帮你解决这些痛点 很多的朋友是不是想学AI却不知道从哪下手&#xf…...

从土木转行AI经验贴,非常详细收藏我这一篇就好了

最近工作真的太忙太忙了,一到工作日就忙成狗,所以经验贴拖到了现在。 在经验贴前面,我想说的是,每个人的基础和背景是不一样的,我的经验也只能作为参考,而且我并不是只用了半年时间就彻底完成了算法方向所有…...

数据安全治理平台 (DSGP) 安全性测试:防止“守门人”沦陷

前言 技术背景:在现代网络攻防体系中,数据是攻防双方争夺的核心。数据安全治理平台 (DSGP),作为集中管理企业数据分类、权限、脱敏和审计的关键基础设施,是数据防线的指挥中心。传统攻击往往绕过它窃取数据,但更高级的…...

2026,AI创业者的慷慨、残酷与迷雾:从历史规律看价值迁移

当代码被商品化,你的护城河在哪里?2026年2月,前Tesla AI总监、OpenAI创始成员Andrej Karpathy在X上分享了一个个人观察:11月,他的编程工作还是80%手写代码、20%让AI agent处理;到了12月,比例完全…...

MongoDB分片原理:详解水平扩展的核心技术与架构设计

MongoDB分片(Sharding)是MongoDB实现水平扩展的核心技术,能够将海量数据分布到多个服务器上,突破单机存储和性能限制。本文将深入解析分片的工作原理、架构设计和实践建议,帮助你掌握这一分布式数据库的核心技术。一、…...

解决IDEA源根报错

Java文件位于模块的源根目录之外,因此不会被编译。IntelliJ IDEA 需要知道哪些目录包含源代码,以便正确编译和索引。下面提供两种解决方法: 方法一:移动文件到已有的源根目录 通常,标准的源根目录是: src/main/java(主代码) src/test/java(测试代码) 将你的 .java 文…...

红外测距传感器GP2D12与STM32单片机程序,滤波算法,设计步骤和代码流程清晰非常实用

红外测距传感器GP2D12与STM32单片机程序,滤波算法,设计步骤和代码流程清晰非常实用。 是机器人中最常用的红外测距传感器。 程序源码注释详细,非常适合单片机开发人员。GP2D12这玩意儿在机器人圈子里混得风生水起不是没道理的,毕竟…...

企业网站获取视频JS代码调用和通用iframe代码调用

企业网站获取视频JS代码调用和通用iframe代码调用。管理平台,自带生成视频预览地址、调用代码和iframe通用代码,用户可根据自己的实际情况,在企业网站或其他平台中进行视频调用,最常见的应用是在企业官网页面中调用,均…...

BitOfJoy-LGC 安装教程 新手入门

当前,Linux 系统(SteamOS)已经展现了作为游戏平台的巨大潜力,但是许多优化选项隐藏在命令行或者复杂配置之后。我们的愿景正是打破这层技术壁垒,然后优化变得简单,直观且可靠。让每位玩家专注于游戏本身,尽情享受更出色的游戏体验…...

学习UI设计应该的路线是什么

UI 设计学习路线指南:从零基础到专业设计师 无论你是想转行进入设计领域,还是作为开发者想补充设计能力,一条清晰的学习路线都至关重要。本文将 UI 设计的学习过程划分为五个阶段,帮助你系统性地建立设计能力。 一、基础阶段&…...

虚拟电网、智能微网与电力市场套利实战

虚拟电网、智能微网与电力市场套利实战 作为光储充领域的专家,基于2026 年最新的政策环境、技术架构及全国电力市场规则,以下为您深度解析虚拟电厂(VPP)、智能微网及其核心组件(PCS, BMS, ESS, EMS)的协同运…...