当前位置：首页 > news >正文

性能赶超GPT-4！多模态检索最新成果刷爆SOTA！顶会思路确定不学？

news 2026/2/10 23:27:06

关注各大顶会的同学们都知道，今年多模态相关的主题可谓是火爆非常，有许多突破性成果被提出，比如最新的多模态检索增强框架MORE，生成性能猛超GPT-4！

再比如多模态检索模型MARVEL，在所有基准上实现SOTA！可见相比传统单一模态检索，这种多模态检索更具优势，不仅能提供更全面、更准确的检索结果，也能帮助我们提升工作效率。

目前多模态检索逐渐成为了研究焦点，因为它的全面性、准确性和灵活性在多个领域（比如图像检索、医疗诊断等）都很有用武之地，是个拥有广泛应用前景的热门方向。

因此对论文er来说，这也是个很好的发文选择。为了帮助各位快速了解这个方向的最新动态，我整理好了10篇多模态检索今年最新的论文给各位作参考，代码基本都有。

论文原文+开源代码需要的同学看文末

MORE: Multi-mOdal REtrieval Augmented Generative Commonsense Reasoning

方法：论文提出了一种多模态检索增强框架MORE，通过结合文本和图像增强语言模型的常识能力，填补了现有研究在有效利用视觉数据方面的空白；采用跨注意力机制和软提示技术，从多模态检索结果中提取有用信息，并在CommonGen任务中显著提升了生成性能，超越了GPT-3.5和GPT-4。

创新点：

创新性地结合文本和图像来增强语言模型的常识能力。
通过跨注意力机制加权多模态结果，提取有用信息并忽略噪声。
引入查询丢弃训练策略，促使模型有效利用检索增强输入。
使用无关结果进行训练，指导模型在不必要时忽略检索输入。

MARVEL: Unlocking the Multi-Modal Capability of Dense Retrieval via Visual Module Plugin

方法：论文提出了多模态检索模型MARVEL，通过视觉模块插件与训练良好的密集检索器结合，并采用图像-标题对比训练预训练视觉模块，以在跨模态文档编码中统一图像和文本，解决模态差异，实现了在所有基准上的最先进性能。

创新点：

MARVEL通过视觉模块插件整合视觉模块与T5-ANCE文本检索模型。
提出了视觉模块的图像-字幕对比预训练方法，适配视觉模块。
在微调过程中，仅优化语言模型参数，提升多模态检索效果。
基于ClueWeb22构建了大规模多模态检索基准数据集。

VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval

方法：论文提出了一种新的嵌入模型VISTA，基于灵活的架构和两种数据生成策略，通过多阶段训练算法有效提升多模态表示能力，填补了文本和图像联合表示研究的空白，实验结果表明在多种多模态检索任务中VISTA表现优异，尤其在零样本和监督情境下。

创新点：

引入了一种灵活的模型架构，将强大的文本编码器与图像理解能力相结合，通过视觉标记嵌入实现深度的文本和图像数据融合。
开发了两个创新的自动生成图像-文本组合数据集的管道，确保了大规模高质量的数据用于多模态嵌入模型的训练。
引入了一种两阶段的训练算法，首先利用大量弱标记数据对视觉标记嵌入与文本编码器进行对齐。

SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval

方法：论文介绍了一个名为SciMMIR的多模态信息检索（MMIR）基准测试，它专注于科学领域的图像-文本配对。该基准测试通过利用开放获取的论文集合，提取了与科学领域相关的数据，构建了一个包含530K精心策划的图像-文本对的数据集。

创新点：

创建了一个针对科学领域多模态信息检索的新基准测试集SciMMIR。
对图像和文本对进行了详细的层次化标注，以便于更细致的性能评估。
对多个模型进行了零样本和微调评估，探索了OCR技术在提升检索性能中的作用。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多模态检索”获取全部论文+开源代码

码字不易，欢迎大家点赞评论收藏

性能赶超GPT-4！多模态检索最新成果刷爆SOTA！顶会思路确定不学？

MORE: Multi-mOdal REtrieval Augmented Generative Commonsense Reasoning

MARVEL: Unlocking the Multi-Modal Capability of Dense Retrieval via Visual Module Plugin

VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval

SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval

相关文章：

性能赶超GPT-4！多模态检索最新成果刷爆SOTA！顶会思路确定不学？

基于 Qwen2.5-0.5B 微调训练 Ner 命名实体识别任务

16【Protues51单片机仿真】智能洗衣机倒计时系统

爱心曲线公式大全

新书速览|你好，C++

ufw：Linux网络防火墙

[C++]使用纯opencv部署yolov11-cls图像分类onnx模型

如何使用Immersity AI将图片转换成3D效果视频

安全运营 -- GPO审计

thinkphp6入门（25）-- 分组查询 GROUP_CONCAT

小米 MIX FOLD工程固件更换字库修复分区资源预览与刷写说明

Flutter全局统一自定义导航栏返回按钮

微信图片的超能力：5大隐秘功能揭秘，让你成为信息处理大师

python实现RC4加解密算法

BLE MESH学习2——自定义MESH网络架构思考

路由器的工作机制

Studying-多线程学习Part3 - condition_variable与其使用场景、C++11实现跨平台线程池

开发自定义starter

Vue2电商平台(五)、加入购物车，购物车页面

众数信科 AI智能体政务服务解决方案——寻知智能笔录系统

Swift 协议扩展精进之路：解决 CoreData 托管实体子类的类型不匹配问题（下）

将对透视变换后的图像使用Otsu进行阈值化，来分离黑色和白色像素。这句话中的Otsu是什么意思？

postgresql|数据库|只读用户的创建和删除（备忘）

江苏艾立泰跨国资源接力：废料变黄金的绿色供应链革命

Java多线程实现之Callable接口深度解析

Neo4j 集群管理：原理、技术与最佳实践深度解析

全面解析各类VPN技术：GRE、IPsec、L2TP、SSL与MPLS VPN对比

Yolov8 目标检测蒸馏学习记录

【电力电子】基于STM32F103C8T6单片机双极性SPWM逆变（硬件篇）

根目录0xa0属性对应的Ntfs!_SCB中的FileObject是什么时候被建立的----NTFS源代码分析--重要