当前位置: 首页 > news >正文

性能赶超GPT-4!多模态检索最新成果刷爆SOTA!顶会思路确定不学?

关注各大顶会的同学们都知道,今年多模态相关的主题可谓是火爆非常,有许多突破性成果被提出,比如最新的多模态检索增强框架MORE,生成性能猛超GPT-4!

再比如多模态检索模型MARVEL,在所有基准上实现SOTA!可见相比传统单一模态检索,这种多模态检索更具优势,不仅能提供更全面、更准确的检索结果,也能帮助我们提升工作效率。

目前多模态检索逐渐成为了研究焦点,因为它的全面性、准确性和灵活性在多个领域(比如图像检索、医疗诊断等)都很有用武之地,是个拥有广泛应用前景的热门方向。

因此对论文er来说,这也是个很好的发文选择。为了帮助各位快速了解这个方向的最新动态,我整理好了10篇多模态检索今年最新的论文给各位作参考,代码基本都有。

论文原文+开源代码需要的同学看文末

MORE: Multi-mOdal REtrieval Augmented Generative Commonsense Reasoning

方法:论文提出了一种多模态检索增强框架MORE,通过结合文本和图像增强语言模型的常识能力,填补了现有研究在有效利用视觉数据方面的空白;采用跨注意力机制和软提示技术,从多模态检索结果中提取有用信息,并在CommonGen任务中显著提升了生成性能,超越了GPT-3.5和GPT-4。

创新点:

  • 创新性地结合文本和图像来增强语言模型的常识能力。

  • 通过跨注意力机制加权多模态结果,提取有用信息并忽略噪声。

  • 引入查询丢弃训练策略,促使模型有效利用检索增强输入。

  • 使用无关结果进行训练,指导模型在不必要时忽略检索输入。

MARVEL: Unlocking the Multi-Modal Capability of Dense Retrieval via Visual Module Plugin

方法:论文提出了多模态检索模型MARVEL,通过视觉模块插件与训练良好的密集检索器结合,并采用图像-标题对比训练预训练视觉模块,以在跨模态文档编码中统一图像和文本,解决模态差异,实现了在所有基准上的最先进性能。

创新点:

  • MARVEL通过视觉模块插件整合视觉模块与T5-ANCE文本检索模型。

  • 提出了视觉模块的图像-字幕对比预训练方法,适配视觉模块。

  • 在微调过程中,仅优化语言模型参数,提升多模态检索效果。

  • 基于ClueWeb22构建了大规模多模态检索基准数据集。

VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval

方法:论文提出了一种新的嵌入模型VISTA,基于灵活的架构和两种数据生成策略,通过多阶段训练算法有效提升多模态表示能力,填补了文本和图像联合表示研究的空白,实验结果表明在多种多模态检索任务中VISTA表现优异,尤其在零样本和监督情境下。

创新点:

  • 引入了一种灵活的模型架构,将强大的文本编码器与图像理解能力相结合,通过视觉标记嵌入实现深度的文本和图像数据融合。

  • 开发了两个创新的自动生成图像-文本组合数据集的管道,确保了大规模高质量的数据用于多模态嵌入模型的训练。

  • 引入了一种两阶段的训练算法,首先利用大量弱标记数据对视觉标记嵌入与文本编码器进行对齐。

SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval

方法:论文介绍了一个名为SciMMIR的多模态信息检索(MMIR)基准测试,它专注于科学领域的图像-文本配对。该基准测试通过利用开放获取的论文集合,提取了与科学领域相关的数据,构建了一个包含530K精心策划的图像-文本对的数据集。

创新点:

  • 创建了一个针对科学领域多模态信息检索的新基准测试集SciMMIR。

  • 对图像和文本对进行了详细的层次化标注,以便于更细致的性能评估。

  • 对多个模型进行了零样本和微调评估,探索了OCR技术在提升检索性能中的作用。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多模态检索”获取全部论文+开源代码

码字不易,欢迎大家点赞评论收藏

相关文章:

性能赶超GPT-4!多模态检索最新成果刷爆SOTA!顶会思路确定不学?

关注各大顶会的同学们都知道,今年多模态相关的主题可谓是火爆非常,有许多突破性成果被提出,比如最新的多模态检索增强框架MORE,生成性能猛超GPT-4! 再比如多模态检索模型MARVEL,在所有基准上实现SOTA&…...

基于 Qwen2.5-0.5B 微调训练 Ner 命名实体识别任务

一、Qwen2.5 & 数据集 Qwen2.5 是 Qwen 大型语言模型的最新系列,参数范围从 0.5B 到 72B 不等。 对比 Qwen2 最新的 Qwen2.5 进行了以下改进: 知识明显增加,并且大大提高了编码和数学能力。在指令跟随、生成长文本(超过 8K…...

16【Protues51单片机仿真】智能洗衣机倒计时系统

目录 一、主要功能 二、硬件资源 三、程序编程 四、实现现象 一、主要功能 用直流电机转动模拟洗衣机。要求 有弱洗、普通洗、强洗三种模式,可通过按键选择。可以设置洗衣时长,通关按键选择15、30、45、60、90分钟。时间到蜂鸣器报警提示。LCD 显示…...

爱心曲线公式大全

local r a*((math.sin(angle) * math.sqrt(math.abs(math.cos(angle)))) / (math.sin(angle) 1.4142) - 2 * math.sin(angle) 2) local x r * math.cos(angle) -- 计算对应的x值 local z r * math.sin(angle) 1.5*a - --曲线公式绘画 local function generateParabola()…...

新书速览|你好,C++

《你好,C》 本书内容 《你好,C》主要介绍C开发环境的搭建、基础语法知识、面向对象编程思想以及标准模板库的应用,特别针对初学者在学习C过程中可能遇到的难点提供了解决方案。全书共分13章,以一个工资程序的不断优化和完善为线索…...

ufw:Linux网络防火墙

一、命令简介 ​ufw​(Uncomplicated Firewall)是一个为 Linux 系统提供简单易用的命令行界面的防火墙管理工具。它是基于 iptables ​的,但提供了更简洁的语法和更直观的操作方式,使得配置防火墙变得更加简单,特别适…...

[C++]使用纯opencv部署yolov11-cls图像分类onnx模型

【算法介绍】 在C中使用纯OpenCV部署YOLOv11-cls图像分类ONNX模型是一项具有挑战性的任务,因为YOLOv11通常是用PyTorch等深度学习框架实现的,而OpenCV本身并不直接支持加载和运行PyTorch模型。然而,可以通过一些间接的方法来实现这一目标&am…...

​​​​​​​如何使用Immersity AI将图片转换成3D效果视频

随着技术的进步,图片处理变得越来越强大和直观。借助Immersity AI这样的工具,我们现在可以轻松地将平面图片转换成3D效果视频。以下是如何使用Immersity AI进行这一转换的详细步骤。 第一步:访问Immersity AI网站 首先,打开你的…...

安全运营 -- GPO审计

0x00 背景 审计GPO,目的是审计哪些GPO权限分配不合理,包括但不限于审计预期以外的用户具有对GPO的写权限。 0x01 开启审核 在一台windows服务器上 开始 -- 运行 -- 输入 server manager 依次点击Manage -- Add Roles and Features Wizard 角色和功能…...

thinkphp6入门(25)-- 分组查询 GROUP_CONCAT

假设表名为 user_courses,字段为 user_id 和 course_name,存储每个用户选修的课程,想查询每个学生选修的所有课程 SQL 原生查询 SELECT user_id, GROUP_CONCAT(course_name) as courses FROM user_courses GROUP BY user_id; ThinkPHP 代码…...

小米 MIX FOLD工程固件 更换字库修复分区 资源预览与刷写说明

小米 MIX FOLD机型代号 :cetus 该手机搭载骁龙888旗舰处理器 。对于一些因为字库问题损坏导致的故障,更换字库后要先刷写对应的工程底层修复固件。绑定cpu后在写入miui量产固件。 通过博文了解 1💝💝💝-----此机型工程固件的资源刷写注意事项 2💝💝💝-----此…...

Flutter全局统一自定义导航栏返回按钮

Flutter全局统一自定义导航栏返回按钮 在Flutter开发中,导航栏(AppBar)是用户界面的重要组成部分,它不仅提供了页面标题,还可能包含返回按钮、导航按钮等。默认情况下,每个Scaffold的AppBar都会包含一个返…...

微信图片的超能力:5大隐秘功能揭秘,让你成为信息处理大师

在数字化时代,微信已成为我们日常生活中不可或缺的通讯工具。 它不仅仅是聊天的平台,更是一个功能强大的信息处理工具。 今天,我们将揭秘微信中图片背后的五大隐秘功能,让你在使用微信时更加得心应手,成为信息处理的…...

python实现RC4加解密算法

RC4算法 一、算法介绍1.1 背景1.2 密钥调度算法(KSA)1.3 伪随机生成算法(PRGA) 二、代码实现三、演示效果 一、算法介绍 1.1 背景 RC4算法是由Ron Rivest在1987年为RSA数据安全公司设计的一种流密码算法,其安全性主要依赖于其密钥流的随机性和不可预测性。该算法因…...

BLE MESH学习2——自定义MESH网络架构思考

BLE MESH学习2——自定义MESH网络架构思考 基于对WCH CH582这款单片机的了解,其可以实现mesh配网、朋友节点、低功耗节点和中继节点的角色,基本功能无问题。在此基础上,考虑满足IoT需求的MESH架构设计,作为后续设计的“白皮书”。…...

路由器的工作机制

在一个家庭或者一个公司中 路由器的作用主要有两个(①路由–决定了数据包从来源到目的地的路径 通过映射表决定 ②转送–通过路由器知道了映射表 就可以将数据包从路由器的输入端转移给合适的输出端) 我们可以画一张图来分析一下: 我们好好来解析一下这张图&#x…...

Studying-多线程学习Part3 - condition_variable与其使用场景、C++11实现跨平台线程池

来源:多线程学习 目录 condition_variable与其使用场景 生产者与消费者模型 C11实现跨平台线程池 condition_variable与其使用场景 生产者与消费者模型 生产者-消费者模式是一种经典的多线程设计模式,用于解决多个线程之间的数据共享和协作问题。…...

开发自定义starter

环境&#xff1a;Spring Cloud Gateway 需求&#xff1a;防止用户绕过网关直接访问服务器&#xff0c;用户只需引入依赖即可。 1、创建项目 首先创建一个spring boot项目 2、配置pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xm…...

Vue2电商平台(五)、加入购物车,购物车页面

文章目录 一、加入购物车1. 添加到购物车的接口2. 点击按钮的回调函数3. 请求成功后进行路由跳转(1)、创建路由并配置路由规则(2)、路由跳转并传参(本地存储) 二、购物车页面的业务1. uuid生成用户id2. 获取购物车数据3. 计算打勾商品总价4. 全选与商品打勾(1)、商品全部打勾&a…...

众数信科 AI智能体政务服务解决方案——寻知智能笔录系统

政务服务解决方案 寻知智能笔录方案 融合民警口供录入与笔录生成需求 2分钟内生成笔录并提醒错漏 助办案人员二次询问 提升笔录质量和效率 寻知智能笔录系统 众数信科AI智能体 产品亮点 分析、理解行业知识和校验规则 AI实时提醒用户文书需注意部分 全文校验格式、内容…...

py之代码实现获取字符串中每个字符的unicode值

def print_unicode_values(strings_list):"""接收字符串列表,提取所有字符的Unicode码点并以0x格式升序打印,后面加上对应字符"""unicode_values = set() # 使用集合自动去重for text in strings_list:for char in text...

大牛直播SDK(SmartMediaKit)Windows平台RTSP/RTMP直播播放SDK集成说明(C#版)

文档概述 本文介绍大牛直播SDK&#xff08;SmartMediaKit&#xff09;在 Windows 平台下 RTSP、RTMP 直播播放模块的集成方法&#xff0c;面向 Windows Forms、WPF 等 C# 客户端应用场景&#xff0c;重点说明 SDK 集成准备、播放器初始化、RTSP/RTMP 播放、播放参数配置、事件…...

HS2汉化补丁终极解决方案:15分钟快速上手完整指南

HS2汉化补丁终极解决方案&#xff1a;15分钟快速上手完整指南 【免费下载链接】HS2-HF_Patch Automatically translate, uncensor and update HoneySelect2! 项目地址: https://gitcode.com/gh_mirrors/hs/HS2-HF_Patch 还在为Honey Select 2的日语界面而烦恼吗&#xf…...

告别环境报错:用Docker 10分钟在本地/服务器部署YOLOv8完整开发环境

告别环境报错&#xff1a;用Docker 10分钟在本地/服务器部署YOLOv8完整开发环境 在计算机视觉领域&#xff0c;YOLOv8作为当前最先进的目标检测模型之一&#xff0c;其强大的性能和易用性吸引了大量开发者和研究者。然而&#xff0c;传统的手动搭建开发环境过程往往令人望而生畏…...

为Claude Code配置Taotoken解决密钥被封与Token不足的烦恼

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 为Claude Code配置Taotoken解决密钥被封与Token不足的烦恼 应用场景类&#xff0c;聚焦于使用Claude Code的编程助手用户&#xff…...

郑州市科技局:科技成果汇编(第01册)2026

这份文档是郑州市科学技术局 2026 年发布的第 1 期科技成果汇编&#xff0c;共收录112 项优质科技成果&#xff0c;覆盖装备制造、环境治理、新材料、电子信息、新能源与节能、生物医药、粮油食品、其他八大核心领域&#xff0c;由郑州大学、华北水利水电大学、河南工业大学等高…...

【仅剩最后47份】盐印相风格训练数据集泄露报告(含原始Agfa APX 400扫描底片参数+Midjourney反向蒸馏权重)

更多请点击&#xff1a; https://codechina.net 第一章&#xff1a;盐印相风格的视觉基因与数字重生 盐印相&#xff08;Salted Paper Print&#xff09;作为19世纪早期摄影术的奠基性工艺&#xff0c;其独特颗粒质感、柔和影调过渡与温润泛黄基底&#xff0c;构成了不可复制的…...

长期使用Taotoken Token Plan套餐对项目研发成本的控制效果

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 长期使用Taotoken Token Plan套餐对项目研发成本的控制效果 在项目研发中&#xff0c;大模型API调用成本是预算管理的重要一环。对…...

华为OD机试真题 新系统-等距二进制判断(C/C++/Py/Java/Js/Go)

等距二进制判断 华为OD机试新系统真题 华为OD上机考试新系统真题 5月20号 100分题型 华为OD机试新系统真题目录点击查看: 华为OD机试真题题库目录&#xff5c;机考题库 算法考点详解 题目内容 对于一个二进制数&#xff0c;我们定义相邻两个 111 之间 000 的数量为他们两个…...

告别内核恐慌:用UIO在用户空间为Zynq PS-PL通信写驱动(附设备树配置)

告别内核恐慌&#xff1a;用UIO在用户空间为Zynq PS-PL通信写驱动&#xff08;附设备树配置&#xff09; 在嵌入式系统开发中&#xff0c;安全性和稳定性始终是首要考虑的因素。当涉及到FPGA与ARM处理器协同工作时&#xff0c;传统的内核驱动开发方式往往带来不小的风险——一个…...