当前位置: 首页 > article >正文

ADaFuSE Adaptive Diffusion-generated Image and Text Fusion for Interactive Text-to-Image Retrieval

ADaFuSE: Adaptive Diffusion-generated Image and Text Fusion for Interactive Text-to-Image RetrievalAuthors:Zhuocheng Zhang, Xingwu Zhang, Kangheng Liang, Guanxuan Li, Richard Mccreadie, Zijun LongDeep-Dive Summary:ADaFuSE: 用于交互式文本到图像检索的自适应扩散生成图像与文本融合摘要近期交互式文本到图像检索I-TIR的进展利用扩散模型来弥合文本信息需求与待检索图像之间的模态差距从而提升了检索效果。然而现有框架通过简单的嵌入加法来融合用户反馈的多模态视图。在本工作中我们表明这种静态且不加区分的融合方式会无差别地引入扩散模型产生的生成噪声导致高达55.62 % 55.62\%55.62%的样本性能下降。我们进一步提出了 ADaFuSE具有语义感知专家的自适应扩散-文本融合这是一种轻量级融合模型旨在为扩散增强的 I-TIR 对齐和校准多模态视图无需修改主干编码器即可插入现有框架。具体而言我们引入了一种双分支融合机制采用自适应门控分支动态平衡模态可靠性同时采用语义感知混合专家分支捕捉细粒度的跨模态细微差别。通过在四个标准 I-TIR 基准上的全面评估ADaFuSE 达到了最先进的性能在仅增加5.29 % 5.29\%5.29%参数的情况下Hits10 比 DAR 提升高达3.49 % 3.49\%3.49%同时对噪声和更长交互查询表现出更强的鲁棒性。这些结果表明生成增强与原则性融合相结合为交互式检索提供了一种简单、可泛化的替代微调方案。关键词扩散增强交互式文本到图像检索多模态查询融合1 引言交互式文本到图像检索I-TIR允许用户通过迭代整合以自然语言对话形式表达的用户反馈在语料库中找到目标图像 [12, 16, 17]。最近扩散增强 I-TIR 作为一种引人注目的范式出现它利用扩散模型 [14, 29] 生成以对话上下文为条件的合成图像作为视觉代理用于丰富文本查询 [23] 或作为独立的图像查询 [33]。现有框架如 DAR [23]通过静态加法融合策略整合对话文本和相应的生成图像以固定权重结合它们的嵌入。然而我们认为这种静态加法融合存在两个关键局限性。首先像 DAR 这样依赖固定权重的方法忽略了每个模态的有用性在不同实例间的变化。实际上对视觉和文本信息的依赖应该是动态的取决于生成图像对当前意图的捕捉程度 [3, 35, 1]。其次静态加法融合将所有生成图像视为同等有价值忽略了它们的实际质量。由于扩散模型本质上是随机的生成图像与用户意图的一致性在不同样本间波动。静态加法无差别地融合这些生成图像不可避免地引入噪声。为解决上述局限性我们提出了 ADaFuSE具有语义感知专家的自适应扩散-文本融合这是一种轻量级融合模型旨在为扩散增强 I-TIR 动态校准多模态表示无需修改主干编码器即可插入现有 I-TIR 流程。在结构上该模型包含两个协调分支自适应门控 [27] 分支利用跨模态交互动态调节文本特征和相应生成图像特征的融合权重以及语义感知混合专家分支利用多样化的语义感知专家构建补偿特征捕捉细粒度的跨模态细微差别。通过整合门控分支的调节特征与语义感知分支的补偿特征ADaFuSE 形成了比静态加法融合更鲁棒且与意图对齐的查询表示。我们的主要贡献包括(i) 批判性分析现有扩散增强 I-TIR 框架揭示无差别静态加法融合的局限性(ii) 提出 ADaFuSE一种旨在实现输入文本与扩散生成图像之间鲁棒融合表示的轻量级融合模型(iii) 在四个标准 I-TIR 基准上展示最先进的性能Hits10 比最强扩散增强基线DAR[23] 提升高达3.49 % 3.49\%3.49%并展示对查询复杂度和交互长度增加的鲁棒性。2 相关工作交互式文本到图像检索与传统检索系统仅依赖单一短查询不同 [15, 28]交互式文本到图像检索I-TIR基于多轮用户反馈迭代优化搜索查询 [17, 38]。在大语言模型 [6, 11, 21] 和视觉语言模型 [24, 28, 18] 进步的推动下这种交互式方法已用于提高从通用图像搜索 [16, 33, 37] 到人物检索等专门任务 [4, 25] 的广泛用例的搜索效果。扩散增强 I-TIR 方法是一项最新创新它引入扩散生成图像来弥合文本查询/对话与待检索图像之间的语义差距。具体而言DAR [23] 以对话上下文为条件合成这些图像并通过静态加法融合策略将其与文本查询整合即使在零样本设置下也能实现最先进的性能。多模态查询视图的融合据我们所知先前工作尚未研究如何更好地融合扩散增强 I-TIR 的多模态查询视图。最接近的相关领域是组合图像检索CIR[31, 32, 22, 2]其中多模态查询通常是参考图像与修改文本配对用于检索目标图像 [30, 34]。该任务已在从时尚电商到开放域场景等领域得到广泛探索由 FashionIQ [32]、CIRR [22] 和 CIRCO [5] 等大规模数据集推动。然而扩散增强 I-TIR 与 CIR 在输入性质上有所不同。在标准 CIR 中文本通常作为应用于可靠参考图像的修改指令。相反扩散增强检索采用从可能较长的对话上下文生成的合成图像 [23, 33]。在此设置中理论上两种模态应传达相同的语义意图但实际上生成图像会引入实例依赖的噪声 [36]。这促使开发专门针对扩散增强 I-TIR 的融合机制。图 1VisDial [9] 验证集上扩散增强退化率左和平均排名下降右的分析。越低越好。3 提出的方法ADaFuSE3.1 加法融合的局限性如 [36] 所讨论扩散增强交互式文本到图像检索I-TIR方法产生的生成图像经常在语义上偏离用户的检索意图引入可能与原始对话上下文冲突的噪声。最先进的方法 DAR [23] 使用静态加权加法融合策略将这些扩散生成图像直接与查询表示结合。尽管 DAR 已被证明在此局限性下仍然有效但我们认为引入的噪声正在降低某些查询的性能。为量化这一风险我们分析了引入扩散生成图像损害而非改善检索性能的查询比例称为退化率以及相关图像的平均排名下降。如图 1 所示红色实线显示 DAR 从第 2 轮开始退化率超过50 % 50\%50%红色虚线显示退化查询的平均排名下降约为 7500。这表明扩散噪声是一个主要问题需要更好的文本与扩散生成图像证据融合方式。3.2 扩散生成图像与文本的自适应融合我们假设限制扩散生成噪声泄漏到排序过程的有效手段是在融合文本和扩散产生证据时更具选择性。为此我们提出了 ADaFuSE具有语义感知专家的自适应扩散-文本融合如图 2 所示这是一种轻量级模型作为文本和图像模态之间的智能桥梁动态校准每个查询应使用各模态的多少信号。查询编码与投影考虑数据集中第i ii个样本在第n nn轮对话。我们将文本查询记为T n , i T_{n,i}Tn,i​相应的扩散生成图像记为I n , i I_{n,i}In,i​真实目标图像记为I i ∗ I_i^*Ii∗​。令Φ T ( ⋅ ) \Phi_T(\cdot)ΦT​(⋅)和Φ I ( ⋅ ) \Phi_I(\cdot)ΦI​(⋅)分别表示文本和图像编码器。通过将输入映射到共享的d dd维嵌入空间获得初始嵌入z n , i T Φ T ( T n , i ) , z n , i D Φ I ( I n , i ) , z i ∗ Φ I ( I i ∗ ) ( 1 ) z_{n,i}^T \Phi_T(T_{n,i}), \quad z_{n,i}^D \Phi_I(I_{n,i}), \quad z_i^* \Phi_I(I_i^*) \quad (1)zn,iT​ΦT​(Tn,i​),zn,iD​ΦI​(In,i​),zi∗​ΦI​(Ii∗​)(1)其中z n , i T , z n , i D , z i ∗ ∈ R d z_{n,i}^T, z_{n,i}^D, z_i^* \in \mathbb{R}^dzn,iT​,zn,iD​,zi∗​∈Rd。尽管预训练编码器能有效全局对齐模态但其预训练目标优先考虑不变性这可能抑制包含补充文本有价值语义信息的细粒度视觉细节 [7, 8]。在此压缩空间内直接融合限制了这些视觉线索的有效利用。为恢复这一损失的能力ADaFuSE 首先采用两个投影块见图 2将原始文本和图像嵌入非线性投影到更高维度的任务特定潜在空间h n , i T δ ( P T ( z n , i T ) ) , h n , i D δ ( P D ( z n , i D ) ) ( 2 ) \mathbf{h}_{n,i}^T \delta(\mathcal{P}_T(z_{n,i}^T)), \quad \mathbf{h}_{n,i}^D \delta(\mathcal{P}_D(z_{n,i}^D)) \quad (2)hn,iT​δ(PT​(zn,iT​)),hn,iD​δ(PD​(zn,iD​))(2)其中P { T , D } ( ⋅ ) : R d → R d ′ \mathcal{P}_{\{T,D\}}(\cdot): \mathbb{R}^d \to \mathbb{R}^{d}P{T,D}​(⋅):Rd→Rd′实例化为独立的投影头以捕捉模态特定特征δ ( ⋅ ) \delta(\cdot)δ(⋅)为 GELU 激活函数。这种非线性维度扩展用于恢复特征的判别能力为后续自适应门控和专家路由提供更富表达力的嵌入空间。![](images/d4322c88222d7d752d81c78f34ea1b2100c5aabOriginal Abstract:Recent advances in interactive text-to-image retrieval (I-TIR) use diffusion models to bridge the modality gap between the textual information need and the images to be searched, resulting in increased effectiveness. However, existing frameworks fuse multi-modal views of user feedback by simple embedding addition. In this work, we show that this static and undifferentiated fusion indiscriminately incorporates generative noise produced by the diffusion model, leading to performance degradation for up to 55.62% samples. We further propose ADaFuSE (Adaptive Diffusion-Text Fusion with Semantic-aware Experts), a lightweight fusion model designed to align and calibrate multi-modal views for diffusion-augmented I-TIR, which can be plugged into existing frameworks without modifying the backbone encoder. Specifically, we introduce a dual-branch fusion mechanism that employs an adaptive gating branch to dynamically balance modality reliability, alongside a semantic-aware mixture-of-experts branch to capture fine-grained cross-modal nuances. Via thorough evaluation over four standard I-TIR benchmarks, ADaFuSE achieves state-of-the-art performance, surpassing DAR by up to 3.49% in Hits10 with only a 5.29% parameter increase, while exhibiting stronger robustness to noisy and longer interactive queries. These results show that generative augmentation coupled with principled fusion provides a simple, generalizable alternative to fine-tuning for interactive retrieval.PDF Link:2603.21886v1部分平台可能图片显示异常请以我的博客内容为准

相关文章:

ADaFuSE Adaptive Diffusion-generated Image and Text Fusion for Interactive Text-to-Image Retrieval

ADaFuSE: Adaptive Diffusion-generated Image and Text Fusion for Interactive Text-to-Image Retrieval Authors: Zhuocheng Zhang, Xingwu Zhang, Kangheng Liang, Guanxuan Li, Richard Mccreadie, Zijun Long Deep-Dive Summary: ADaFuSE: 用于交互式文本到图像检索的…...

ThingsIoT Arduino客户端库:嵌入式设备云接入实战指南

1. ThingsIoT Arduino客户端库深度解析:面向嵌入式工程师的云平台接入实践指南1.1 库定位与工程价值ThingsIoT Arduino Client Library 是一款专为Arduino IDE生态设计的轻量级物联网设备云接入中间件,其核心工程目标并非提供通用通信协议栈,…...

Phi-4-Reasoning-Vision多场景:科研文献插图理解+实验数据交叉验证应用

Phi-4-Reasoning-Vision多场景:科研文献插图理解实验数据交叉验证应用 1. 项目概述 Phi-4-Reasoning-Vision是基于微软Phi-4-reasoning-vision-15B多模态大模型开发的高性能推理工具,专为双卡4090环境优化。该工具严格遵循官方SYSTEM PROMPT规范&#…...

洛阳万达商场美团快闪店设计,凭什么成为商圈流量密码?肆墨设计

在商业美陈从 “装饰载体” 向 “生活场景容器” 转型的当下,洛阳万达商场美团 “美事发生” 美好生活集市快闪店,以品牌 IP 为核心锚点,融合女性消费心理与地域商业特质,构建了一场兼具视觉冲击力、情感共鸣与商业转化的沉浸式空…...

百融智能与中国人民大学高瓴人工智能学院智能体联合共建实验室正式揭牌

3月24日,百融智能(原百融云创6608.HK)与中国人民大学高瓴人工智能学院举行产学研合作发布会,并为“智能体联合实验室”揭牌。双方发布三项捐赠基金与六项联合研究课题,探索“科研攻关—人才培养—成果转化”的协同机制…...

重构资源获取逻辑:res-downloader赋能多行业内容采集的技术实践

重构资源获取逻辑:res-downloader赋能多行业内容采集的技术实践 【免费下载链接】res-downloader 资源下载器、网络资源嗅探,支持微信视频号下载、网页抖音无水印下载、网页快手无水印视频下载、酷狗音乐下载等网络资源拦截下载! 项目地址: https://gi…...

亮点抢先看!“宁智毋庸,创领未来”——2026 全球开发者先锋大会剧透来袭

如今,前沿AI技术已悄然渗透进日常生活——从简单的交互提问到OpenClaw等智能体的复杂应用,从生成视频到AIGC制作电影级短剧,技术进化肉眼可见,SE(超级创业者)、OPC(一人公司)随之崛起…...

PDF补丁丁实战指南:从文档难题到高效解决方案的全流程掌握

PDF补丁丁实战指南:从文档难题到高效解决方案的全流程掌握 【免费下载链接】PDFPatcher PDF补丁丁——PDF工具箱,可以编辑书签、剪裁旋转页面、解除限制、提取或合并文档,探查文档结构,提取图片、转成图片等等 项目地址: https:…...

基于Ai Coding,20天完成一个基于大模型的医学分析系统:Ai体征分析助手

我是一名长期使用C#开发后台服务与数据库的开发者,在短短20天内,独立完成一个跨前后端、贴合医疗健康场景分析的完整系统(Ai体征分析助手)是未曾想过的。得益于AI Coding工具的深度实践与应用和医疗领域大模型的应用,让…...

颠覆叙事设计:用Arrow打造3类互动故事的零代码解决方案

颠覆叙事设计:用Arrow打造3类互动故事的零代码解决方案 【免费下载链接】Arrow Game Narrative Design Tool 项目地址: https://gitcode.com/gh_mirrors/arrow/Arrow 在游戏开发的黄金时代,叙事设计师们正面临着前所未有的创作困境:当…...

【华为OD机试真题】手牌接龙 · 最大出牌次数(Python /JS)

一、真题题目描述:手里给一副手牌,数字从0-9,有(红色),g(绿色),b(蓝色),y(黄色)四种颜色,出牌规则为每次打出的牌必须跟上一张的数 字或者颜色相同,否则不能抽选。 选手应该怎么选才…...

EasyExcel导出日期变#####?3分钟搞定列宽自适应问题(附@ColumnWidth注解详解)

EasyExcel导出日期变#####?3分钟搞定列宽自适应问题(附ColumnWidth注解详解) 当你用EasyExcel导出数据时,突然发现Excel里本该显示日期的单元格变成了一串"#####",这种场景对Java开发者来说再熟悉不过了。别…...

OpenCode终极指南:开源AI编程助手如何重塑你的开发体验

OpenCode终极指南:开源AI编程助手如何重塑你的开发体验 【免费下载链接】opencode 一个专为终端打造的开源AI编程助手,模型灵活可选,可远程驱动。 项目地址: https://gitcode.com/GitHub_Trending/openc/opencode 你是否厌倦了在多个A…...

StarRocks新手入门:如何用CloudDM个人版快速验证四种数据模型的特点?

StarRocks数据模型实战指南:用可视化工具快速掌握四大核心特性 刚接触StarRocks时,最让人困惑的莫过于四种数据模型的选择。官方文档虽然详细,但缺乏直观对比。本文将带你使用CloudDM个人版,通过同一组测试数据在四种模型下的不同…...

革命性角色生成引擎Pony V7:重新定义AI驱动的视觉创作范式

革命性角色生成引擎Pony V7:重新定义AI驱动的视觉创作范式 【免费下载链接】pony-v7-base 项目地址: https://ai.gitcode.com/hf_mirrors/purplesmartai/pony-v7-base 副标题:解决数字艺术行业5大核心难题——从风格割裂到高分辨率输出的全链路突…...

百川2-13B模型效果展示:代码生成与解释能力实测

百川2-13B模型效果展示:代码生成与解释能力实测 最近在开发者圈子里,关于AI编程助手的讨论越来越热。大家不再只关心模型参数有多大,而是更看重它实际干活的能力:我描述一个需求,它能写出能跑的代码吗?我贴…...

弹性伸缩与高可用:重力科技智能投放平台的云原生架构实践

一、 出海营销平台:流量洪峰与全球化部署的挑战 重力科技的AI智能投放平台,作为全球出海品牌的营销利器,面临着严峻的架构挑战: 流量洪峰: 面对全球不同时区的营销活动、节假日促销、突发热点等,请求量可能…...

Midscene.js vs Selenium:AI自动化与浏览器测试工具实战对比(附场景选择指南)

Midscene.js vs Selenium:AI自动化与浏览器测试工具实战对比(附场景选择指南) 在自动化测试和业务流程自动化的世界里,工具的选择往往决定了项目的成败。作为一名经历过无数次深夜调试和紧急修复的老兵,我深知选错工具…...

LSPosed实战:用Xposed给微信添加开发者调试菜单(免Root方案)

LSPosed高阶应用:为微信构建免Root调试菜单的技术实践 在移动应用开发领域,调试功能的便捷性直接影响开发效率。对于商业级应用如微信这样的超级App,标准的开发者选项往往无法满足深度定制需求。本文将揭示如何利用新一代LSPosed框架&#xf…...

Pixel Mind Decoder 嵌入式应用初探:STM32设备日志情绪分析

Pixel Mind Decoder 嵌入式应用初探:STM32设备日志情绪分析 1. 场景痛点与解决方案 在工业物联网领域,设备维护一直是个让人头疼的问题。想象一下,工厂里几十台STM32设备日夜运转,工程师们每天要盯着密密麻麻的日志数据&#xf…...

材料科学家的终极神器:pymatgen完整指南与实战应用

材料科学家的终极神器:pymatgen完整指南与实战应用 【免费下载链接】pymatgen Python Materials Genomics (pymatgen) is a robust materials analysis code that defines classes for structures and molecules with support for many electronic structure codes.…...

从0开始的SPSS数据分析:基础概念与核心检验实战

1. 认识SPSS与数据分析基础 第一次打开SPSS时,很多人会被密密麻麻的菜单栏吓到。别担心,这就像刚拿到新手机需要熟悉界面一样正常。SPSS(Statistical Package for the Social Sciences)本质上是个"统计计算器"&#xff…...

ADC肺毒性评估新方法:人源肺泡体外模型的实验研究与分析【曼博生物官方代理Epithelix 人原代肺细胞】

一、问题提出:为什么ADC肺毒性难以预测? 抗体药物偶联物(ADC)近年来在肿瘤治疗中发展迅速,其通过“抗体毒素”的组合,实现精准杀伤肿瘤细胞。 但在实际临床应用中,一个关键问题逐渐凸显&#xf…...

从8小时到15分钟:feishu-doc-export如何重构飞书文档管理流程

从8小时到15分钟:feishu-doc-export如何重构飞书文档管理流程 【免费下载链接】feishu-doc-export 项目地址: https://gitcode.com/gh_mirrors/fe/feishu-doc-export feishu-doc-export是一款基于.NET框架开发的飞书文档批量导出工具,通过封装飞…...

Gigasoft ProEssentials 使AI助手能够通过实时访问API图表配置并提供支持答案

利用人工智能访问改进图表开发Gigasoft ProEssentials 使 AI 助手能够通过实时访问 API 生成精确的图表配置并提供支持答案。Gigasoft ProEssentials 是一款功能强大的 Windows 开发图表库,提供丰富的 2D 和 3D 图表类型。该产品提供了一套用途广泛的组件&#xff0…...

Linux hostid命令实战:如何用它搞定软件授权和网络许可证管理

Linux hostid命令实战:如何用它搞定软件授权和网络许可证管理 在Linux系统管理中,软件授权和网络许可证管理一直是让开发者头疼的问题。想象一下,你刚部署了一套价值不菲的商业软件,结果因为授权问题导致服务中断;或者…...

cv_resnet101_face-detection_cvpr22papermogface 模型压缩与加速:面向边缘设备的部署探索

cv_resnet101_face-detection_cvpr22papermogface 模型压缩与加速:面向边缘设备的部署探索 1. 引言 想象一下,你手里有一台小巧的Jetson Nano开发板,想让它实时识别人脸,完成门禁或者客流统计。你兴冲冲地找到了一个效果不错的模…...

PyTorch网络可视化实战:Jupyter Notebook与TensorWatch的完美结合

1. 为什么需要PyTorch网络可视化? 当你第一次接触深度学习模型时,可能会被复杂的网络结构搞得晕头转向。想象一下,你正在搭建一个由几十层神经网络组成的模型,每层都有不同的参数和连接方式。这时候如果能直观地"看到"这…...

C#实战:5分钟搞定Winform鼠标坐标实时追踪(附API对比)

C#实战:Winform鼠标坐标追踪的深度优化与API选择指南 在自动化测试工具开发或屏幕绘图软件构建过程中,精确获取鼠标坐标是基础却关键的功能需求。许多开发者往往只满足于实现基本功能,却忽略了不同API选择对性能、精度和系统兼容性的深远影响…...

Legado内置Web服务深度剖析:轻量级架构与跨设备阅读体验升级

Legado内置Web服务深度剖析:轻量级架构与跨设备阅读体验升级 【免费下载链接】legado Legado 3.0 Book Reader with powerful controls & full functions❤️阅读3.0, 阅读是一款可以自定义来源阅读网络内容的工具,为广大网络文学爱好者提供一种方便…...