当前位置: 首页 > news >正文

视觉问答(VQA)12篇顶会精选论文合集,附常用数据集下载

今天来聊聊计算机视觉和自然语言处理交叉的一个热门研究方向:视觉问答(VQA)

视觉问答的任务是:给出一张图片和一个关于这张图片的自然语言问题,计算机需要根据图片的内容自动回答这个问题。这样的任务考验了计算机在图像理解和语言理解上的能力,需要计算机可以像人一样从图片中抽取信息,理解问题,并用自然语言给出合理的回答。

作为计算机视觉与语言交互的新兴研究热点,视觉问答涉及了图像处理、计算机视觉、自然语言处理等多个领域的技术,是评估计算机视觉系统整体语义理解能力的新方向。

近年来,针对视觉问答方向的研究成果日益增多,各大顶会中的相关论文数量也逐年攀升,我这回就整理了一些视觉问答顶会论文(CVPR、ACL)和大家分享,包括工作中常用的VQA数据集。

论文原文及代码数据集都打包了,需要的同学看文末

常用VQA数据集

通用型 VQA

1.VQA

VQAv1论文:VQA: Visual Question Answering

【视觉问答】

简介:论文提出了一个开放式视觉问答任务:给定图像和问题,回答问题。问题和回答都是开放式的,问题可以询问图像不同区域的细节。因此,视觉问答系统通常需要比图像字幕系统对图像有更深入理解和复杂推理。论文提供包含数百万张图像、问题和答案的大规模数据集,讨论它的信息量。

VQAv2论文:Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering

【提升图像理解在视觉问答中的作用】

简介:通过收集每个问题对应不同答案的相似图像,构建视觉问答的平衡数据集,测试主流模型表现大幅下降,说明这些模型过于依赖语言先验。论文的数据集构造方法也启发了一个新的可解释的模型,它不仅给出答案,还基于反例图像提供解释,可以建立机器与用户之间的信任。

2.OK-VQA

OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge

【一个需要外部知识的视觉问答基准测试】

简介:OK-VQA是第一个大规模的需要外部知识才能回答视觉问答问题的基准测试集。它包含超过14000个开放域的问题,每个问题有5个标注答案。问题的构造保证单凭图像内容无法回答,需要利用外部知识库。结果显示当前VQA模型在该数据集上的表现严重下降,说明模型过于依赖语言先验。

3.VizWiz-VQA

VizWiz Grand Challenge: Answering Visual Questions from Blind People

【VizWiz大挑战:回答视障人士的视觉问题】

简介:VizWiz是第一个源自真实视觉问答场景的数据集。它包含超过31,000个视觉问答对,由视障用户拍摄图片并提出语音问题,每个问题有10个群众标注答案。VizWiz与现有VQA数据集不同:1)图像质量较差,拍摄者为视障人士,2)问题为语音形式,更具会话性,3)部分问题无法回答。在该数据集上评估现代VQA算法,结果显示VizWiz是一个有挑战性的数据集。

4.ScienceQA

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering

【利用思维链进行多模态推理以回答科学问题】

简介:ScienceQA是第一个大规模多模态科学问题回答基准,包含约21k个多项选择题,并标注了对应的讲义和解释作为答案的思维链。作者设计语言模型学习生成讲义和解释,模拟人回答问题的多跳推理过程。结果显示,思维链可以提高GPT-3和UnifiedQA的少样本和微调表现。

5.TDIUC

An Analysis of Visual Question Answering Algorithms

【对视觉问答算法的分析】

简介:现有的VQA数据集存在内容和评估方式上的缺陷,导致评估分数被夸大,主要由较简单的问题决定,难以比较不同方法。本文利用包含超过160万个问题的新数据集分析现有VQA算法,问题按12个类别组织,并设计无意义问题迫使模型进行图像内容推理。

6.GQA

GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering

【一个用于真实世界视觉推理和组合式问答的新数据集】

简介:GQA是一个大规模真实世界视觉推理和组合式问答数据集。它通过场景图来生成复杂的推理性问题,并提供语义表示的功能程序。该数据集引入了一套新的指标来评估一致性、逻辑性等关键属性,为提升模型鲁棒性、一致性和图像语言理解提供了重要的基准资源。

7.IconQA

IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning

【抽象图表理解和视觉语言推理的新基准】

简介:IconQA是一个新的抽象图表视觉问答基准,包含10万个图表及相关问题。不同于自然图像,抽象图表的语义理解仍是视觉研究的难点。IconQA中的图表需进行几何、常识、算术等复合推理来回答问题,作者还构建了包含65万彩色图标的Icon645数据集。IconQA要求模型深入理解抽象语义和进行复合推理,是视觉语言理解任务的新方向。

文本导向的 VQA

1.OCR-VQA

OCR-VQA: Visual Question Answering by Reading Text in Images

【通过读取图像中的文本进行视觉问答】

简介:本文提出通过读取图像中的文本(OCR)进行视觉问答(OCR-VQA)这个新任务,作者为此构建了一个大规模数据集OCRVQA-200K,包含20多万张书籍封面图像及100多万个相关问答对。实验结果显示,这个任务面临文本检测、识别、语义理解等多方面挑战。

2.TextVQA

Towards VQA Models That Can Read

【迈向能够阅读的VQA模型】

简介:本文提出TextVQA任务和数据集,需要VQA模型读取图像文本并进行多模态推理。提出LoRRA模型,可以检测、理解图像文本并进行问答。结果显示TextVQA上的人机差距大于VQA 2.0,可以有效评估文本理解和多模态推理能力。

VQA顶会论文合集

CVPR

  • 1.SimVQA: Exploring Simulated Environments for Visual Question Answering

  • 2.A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering

  • 3.SwapMix: Diagnosing and Regularizing the Over-reliance on Visual Context in Visual Question Answering

  • 4.Dual-Key Multimodal Backdoors for Visual Question Answering

  • 5.MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering

  • 6.Grounding Answers for Visual Questions Asked by Visually Impaired People Maintaining Reasoning Consistency in Compositional Visual Question Answering

ACL

  • 1.Co-VQA : Answering by Interactive Sub Question Sequence

  • 2.xGQA: Cross-Lingual Visual Question Answering

  • 3.CLIP Models are Few-Shot Learners: Empirical Studies on VQA and Visual Entailment

  • 4.CARETS: A Consistency And Robustness Evaluative Test Suite for VQA

  • 5.Hypergraph Transformer: Weakly-Supervised Multi-hop Reasoning for Knowledge-based Visual Question Answering

  • 6.DuReader_vis: A Chinese Dataset for Open-domain Document Visual Question Answering

关注下方《学姐带你玩AI》🚀🚀🚀

回复“VQA”获取全部论文+源代码+数据集

码字不易,欢迎大家点赞评论收藏

相关文章:

视觉问答(VQA)12篇顶会精选论文合集,附常用数据集下载

今天来聊聊计算机视觉和自然语言处理交叉的一个热门研究方向:视觉问答(VQA)。 视觉问答的任务是:给出一张图片和一个关于这张图片的自然语言问题,计算机需要根据图片的内容自动回答这个问题。这样的任务考验了计算机在…...

详解--编码(ASCII\Unicode,UTF-8\UTF-16\UTF-32)

本文主要搞清楚编码是怎么回事。 参考链接 字符集编码方式ASCII(American Standard Code for Information Interchange)ASCIIGB2312GB2312UnicodeUTF-8 / UTF-16 / UTF-32 1.编码基本概念 1.1 字符 字符(Character) 在计算机和…...

Linux安装配置awscli命令行接口工具及其从aws上传下载数据

官网技术文档有全面介绍:安装或更新 AWS CLI 的最新版本 - AWS Command Line Interface在系统上安装 AWS CLI。https://docs.aws.amazon.com/zh_cn/cli/latest/userguide/getting-started-install.html#getting-started-install-instructionsawscli常用命令参考&…...

中国联通携手华为助力长城精工启动商用5G-A柔性产线

[中国,河北,2023年11月3日] 近日,中国联通携手华为助力精诚工科汽车系统有限公司保定自动化技术分公司(简称长城精工自动化)启动5G-A超高可靠性超低时延柔性产线的商用阶段。 在河北保定精工自动化工厂,5G…...

【自动化测试】Java+Selenium自动化测试环境搭建

本主要介绍以Java为基础,搭建Selenium自动化测试环境,并且实现代码编写的过程。 1.Selenium介绍 Selenium 1.0 包含 core、IDE、RC、grid 四部分,selenium 2.0 则是在两位大牛偶遇相互沟通决定把面向对象结构化(OOPP&#xff09…...

若依笔记(四):代码生成器

已知使用MyBatisPlus代码生成器可以自动生成Entity、Mapper、Service、Controller代码,前提是数据库中有数据表,生成pojo类以及对于该数据表的增删改查命令的代码,若依更进一步能选择表后生成代码、预览、下载,同时可以生产前端代…...

怎样做好金融投资翻译

我们知道, 金融投资翻译所需的译文往往是会议文献、年终报表、信贷审批等重要企业金融资料,其准确性事关整个企业在今后一段时期内的发展战略与经营成效。尤其像年报,对于上市公司来说更是至关重要的。那么,怎样做好金融投资翻译&…...

ubuntu 分区 方案

ubuntu 分区 方案 自动分区啥样子的? 手动分区 需要怎么操作? 注意点是啥? swap分区 要和 内存大小 差不多 安装ubuntu系统时硬盘分区方案 硬盘分区概述 一块硬盘最多可以分4个主分区,主分区之外的成为扩展分区。硬盘可以没有…...

Python自动化测试面试题总结

python有哪些数据类型怎么将两个字典合并python如何将json写到文件里?在except语句中return后还会不会执行finally中的代码?什么是可变、不可变类型?python函数调用时参数的传递是值传递还是引用传递?python深浅拷贝的区别python为…...

客户端性能测试基础知识

目录 1、客户端性能 1.1、客户端性能基础知识 2、客户端性能工具介绍与环境搭建 2.1.1、perfdog的使用 2.1.2、renderdoc的使用 1、客户端性能 1.1、客户端性能基础知识 客户端性能知识这里对2D和3D类游戏进行展开进行,讲述的有内存、CPU、GPU、帧率这几个模块…...

多模态论文阅读之VLMo

VLMo泛读 TitleMotivationContributionModelExpertimentsSummary Title VLMo:Unified Vision_Langugae Pre-Training with Mixture-of-Modality-Experts Motivation CLIP和ALIGN都采用dual-encoder的方式分别编码图像和文本,模态之间的交互采用cosine similarity…...

休闲类手游还有机会吗?两大策略收割全球玩家

刚刚过去的第三季度,是全球手游市场逆势增长的高光时刻。 买量、营收、下载等多项数据表现优异,其中买量最为突出的产品是休闲类游戏,广告主数占比23.76%断层第一,广告素材占比17.62%,是当之无愧的“广告顶流”。 数…...

Git复制代码

目录 一、常用下载代码 1.登录Git克隆SSH​编辑 2.新建文件然后右键点击Git Bash Here 3.git clone Paste 二. 本地下载 1.从本地进入页面 2.生成代码——>导入——>生成代码后下载 3.解压道相应位置 一、常用下载代码 1.登录Git克隆SSH 2.新建文件然后右键点击…...

数据结构笔记——查找、排序(王道408)

文章目录 查找基本概念线性表查找顺序查找折半查找(二分)分块查找 树查找二叉排序树(BST)平衡二叉树(AVL)的插入平衡化复杂度分析 平衡二叉树的删除 红黑树红黑树的定义和性质红黑树定义红黑树性质 红黑树的…...

MySQL---搜索引擎

MySQL的存储引擎是什么 MySQL当中数据用各种不同的技术存储在文件中,每一种技术都使用不同的存储机制,索引技巧 锁定水平,以及最终提供的不同的功能和能力,这些就是我们说的存储引擎。 MySQL存储引擎的功能 1.MySQL将数据存储在文…...

2022最新版-李宏毅机器学习深度学习课程-P32 Transformer

一、 seq2seq 1. 含义 输入一个序列,机器输出另一个序列,输出序列长度由机器决定。 文本翻译:文本至文本;  语音识别:语音至文本;  语音合成:文本至语音;  聊天机器人&#…...

如何使用商品详情API接口获取商品数据:一篇详尽的论述

一、引言 商品详情API接口是一种用于获取商品详细信息的应用程序接口。通过调用该接口,我们可以获取商品的名称、价格、描述、图片以及其他相关属性。对于电商平台、价格比较网站、数据分析等应用场景来说,商品详情API接口提供了便捷的数据获取方式。本…...

华为:手机王者归来,汽车起死回生

作为一家全球知名的科技公司,华为在通信、智能手机、平板电脑等领域拥有很高的市场份额和品牌影响力。而随着华为开始进军汽车领域,通过自主研发和合作,不断提升自己在汽车领域的竞争力,华为便也开始受到更为广泛的关注。 只不过…...

Vue3.0 provide与inject依赖注入:VCA

简介 provide 与 inject 是一种跨层级组件(祖孙)通信方式。当组件多层嵌套时,不需要将数据一层一层的向下传递,通过它俩可以实现跨层级组件通信。 provide:提供者 注入一个值,可以被后代组件接收。 prov…...

前端react入门day02-React中的事件绑定与组件

(创作不易,感谢有你,你的支持,就是我前行的最大动力,如果看完对你有帮助,请留下您的足迹) 目录 React中的事件绑定 React 基础事件绑定 使用事件对象参数 传递自定义参数 同时传递事件对象和自定义参…...

生成xcframework

打包 XCFramework 的方法 XCFramework 是苹果推出的一种多平台二进制分发格式,可以包含多个架构和平台的代码。打包 XCFramework 通常用于分发库或框架。 使用 Xcode 命令行工具打包 通过 xcodebuild 命令可以打包 XCFramework。确保项目已经配置好需要支持的平台…...

Robots.txt 文件

什么是robots.txt? robots.txt 是一个位于网站根目录下的文本文件(如:https://example.com/robots.txt),它用于指导网络爬虫(如搜索引擎的蜘蛛程序)如何抓取该网站的内容。这个文件遵循 Robots…...

【python异步多线程】异步多线程爬虫代码示例

claude生成的python多线程、异步代码示例,模拟20个网页的爬取,每个网页假设要0.5-2秒完成。 代码 Python多线程爬虫教程 核心概念 多线程:允许程序同时执行多个任务,提高IO密集型任务(如网络请求)的效率…...

聊一聊接口测试的意义有哪些?

目录 一、隔离性 & 早期测试 二、保障系统集成质量 三、验证业务逻辑的核心层 四、提升测试效率与覆盖度 五、系统稳定性的守护者 六、驱动团队协作与契约管理 七、性能与扩展性的前置评估 八、持续交付的核心支撑 接口测试的意义可以从四个维度展开,首…...

Swagger和OpenApi的前世今生

Swagger与OpenAPI的关系演进是API标准化进程中的重要篇章,二者共同塑造了现代RESTful API的开发范式。 本期就扒一扒其技术演进的关键节点与核心逻辑: 🔄 一、起源与初创期:Swagger的诞生(2010-2014) 核心…...

【碎碎念】宝可梦 Mesh GO : 基于MESH网络的口袋妖怪 宝可梦GO游戏自组网系统

目录 游戏说明《宝可梦 Mesh GO》 —— 局域宝可梦探索Pokmon GO 类游戏核心理念应用场景Mesh 特性 宝可梦玩法融合设计游戏构想要素1. 地图探索(基于物理空间 广播范围)2. 野生宝可梦生成与广播3. 对战系统4. 道具与通信5. 延伸玩法 安全性设计 技术选…...

初学 pytest 记录

安装 pip install pytest用例可以是函数也可以是类中的方法 def test_func():print()class TestAdd: # def __init__(self): 在 pytest 中不可以使用__init__方法 # self.cc 12345 pytest.mark.api def test_str(self):res add(1, 2)assert res 12def test_int(self):r…...

IP如何挑?2025年海外专线IP如何购买?

你花了时间和预算买了IP,结果IP质量不佳,项目效率低下不说,还可能带来莫名的网络问题,是不是太闹心了?尤其是在面对海外专线IP时,到底怎么才能买到适合自己的呢?所以,挑IP绝对是个技…...

Python基于历史模拟方法实现投资组合风险管理的VaR与ES模型项目实战

说明:这是一个机器学习实战项目(附带数据代码文档),如需数据代码文档可以直接到文章最后关注获取。 1.项目背景 在金融市场日益复杂和波动加剧的背景下,风险管理成为金融机构和个人投资者关注的核心议题之一。VaR&…...

STM32---外部32.768K晶振(LSE)无法起振问题

晶振是否起振主要就检查两个1、晶振与MCU是否兼容;2、晶振的负载电容是否匹配 目录 一、判断晶振与MCU是否兼容 二、判断负载电容是否匹配 1. 晶振负载电容(CL)与匹配电容(CL1、CL2)的关系 2. 如何选择 CL1 和 CL…...