视觉问答(VQA)12篇顶会精选论文合集,附常用数据集下载
今天来聊聊计算机视觉和自然语言处理交叉的一个热门研究方向:视觉问答(VQA)。
视觉问答的任务是:给出一张图片和一个关于这张图片的自然语言问题,计算机需要根据图片的内容自动回答这个问题。这样的任务考验了计算机在图像理解和语言理解上的能力,需要计算机可以像人一样从图片中抽取信息,理解问题,并用自然语言给出合理的回答。
作为计算机视觉与语言交互的新兴研究热点,视觉问答涉及了图像处理、计算机视觉、自然语言处理等多个领域的技术,是评估计算机视觉系统整体语义理解能力的新方向。
近年来,针对视觉问答方向的研究成果日益增多,各大顶会中的相关论文数量也逐年攀升,我这回就整理了一些视觉问答顶会论文(CVPR、ACL)和大家分享,包括工作中常用的VQA数据集。
论文原文及代码数据集都打包了,需要的同学看文末
常用VQA数据集
通用型 VQA
1.VQA
VQAv1论文:VQA: Visual Question Answering
【视觉问答】
简介:论文提出了一个开放式视觉问答任务:给定图像和问题,回答问题。问题和回答都是开放式的,问题可以询问图像不同区域的细节。因此,视觉问答系统通常需要比图像字幕系统对图像有更深入理解和复杂推理。论文提供包含数百万张图像、问题和答案的大规模数据集,讨论它的信息量。

VQAv2论文:Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering
【提升图像理解在视觉问答中的作用】
简介:通过收集每个问题对应不同答案的相似图像,构建视觉问答的平衡数据集,测试主流模型表现大幅下降,说明这些模型过于依赖语言先验。论文的数据集构造方法也启发了一个新的可解释的模型,它不仅给出答案,还基于反例图像提供解释,可以建立机器与用户之间的信任。

2.OK-VQA
OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge
【一个需要外部知识的视觉问答基准测试】
简介:OK-VQA是第一个大规模的需要外部知识才能回答视觉问答问题的基准测试集。它包含超过14000个开放域的问题,每个问题有5个标注答案。问题的构造保证单凭图像内容无法回答,需要利用外部知识库。结果显示当前VQA模型在该数据集上的表现严重下降,说明模型过于依赖语言先验。

3.VizWiz-VQA
VizWiz Grand Challenge: Answering Visual Questions from Blind People
【VizWiz大挑战:回答视障人士的视觉问题】
简介:VizWiz是第一个源自真实视觉问答场景的数据集。它包含超过31,000个视觉问答对,由视障用户拍摄图片并提出语音问题,每个问题有10个群众标注答案。VizWiz与现有VQA数据集不同:1)图像质量较差,拍摄者为视障人士,2)问题为语音形式,更具会话性,3)部分问题无法回答。在该数据集上评估现代VQA算法,结果显示VizWiz是一个有挑战性的数据集。

4.ScienceQA
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering
【利用思维链进行多模态推理以回答科学问题】
简介:ScienceQA是第一个大规模多模态科学问题回答基准,包含约21k个多项选择题,并标注了对应的讲义和解释作为答案的思维链。作者设计语言模型学习生成讲义和解释,模拟人回答问题的多跳推理过程。结果显示,思维链可以提高GPT-3和UnifiedQA的少样本和微调表现。

5.TDIUC
An Analysis of Visual Question Answering Algorithms
【对视觉问答算法的分析】
简介:现有的VQA数据集存在内容和评估方式上的缺陷,导致评估分数被夸大,主要由较简单的问题决定,难以比较不同方法。本文利用包含超过160万个问题的新数据集分析现有VQA算法,问题按12个类别组织,并设计无意义问题迫使模型进行图像内容推理。

6.GQA
GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering
【一个用于真实世界视觉推理和组合式问答的新数据集】
简介:GQA是一个大规模真实世界视觉推理和组合式问答数据集。它通过场景图来生成复杂的推理性问题,并提供语义表示的功能程序。该数据集引入了一套新的指标来评估一致性、逻辑性等关键属性,为提升模型鲁棒性、一致性和图像语言理解提供了重要的基准资源。

7.IconQA
IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning
【抽象图表理解和视觉语言推理的新基准】
简介:IconQA是一个新的抽象图表视觉问答基准,包含10万个图表及相关问题。不同于自然图像,抽象图表的语义理解仍是视觉研究的难点。IconQA中的图表需进行几何、常识、算术等复合推理来回答问题,作者还构建了包含65万彩色图标的Icon645数据集。IconQA要求模型深入理解抽象语义和进行复合推理,是视觉语言理解任务的新方向。

文本导向的 VQA
1.OCR-VQA
OCR-VQA: Visual Question Answering by Reading Text in Images
【通过读取图像中的文本进行视觉问答】
简介:本文提出通过读取图像中的文本(OCR)进行视觉问答(OCR-VQA)这个新任务,作者为此构建了一个大规模数据集OCRVQA-200K,包含20多万张书籍封面图像及100多万个相关问答对。实验结果显示,这个任务面临文本检测、识别、语义理解等多方面挑战。

2.TextVQA
Towards VQA Models That Can Read
【迈向能够阅读的VQA模型】
简介:本文提出TextVQA任务和数据集,需要VQA模型读取图像文本并进行多模态推理。提出LoRRA模型,可以检测、理解图像文本并进行问答。结果显示TextVQA上的人机差距大于VQA 2.0,可以有效评估文本理解和多模态推理能力。

VQA顶会论文合集
CVPR
-
1.SimVQA: Exploring Simulated Environments for Visual Question Answering
-
2.A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering
-
3.SwapMix: Diagnosing and Regularizing the Over-reliance on Visual Context in Visual Question Answering
-
4.Dual-Key Multimodal Backdoors for Visual Question Answering
-
5.MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering
-
6.Grounding Answers for Visual Questions Asked by Visually Impaired People Maintaining Reasoning Consistency in Compositional Visual Question Answering
ACL
-
1.Co-VQA : Answering by Interactive Sub Question Sequence
-
2.xGQA: Cross-Lingual Visual Question Answering
-
3.CLIP Models are Few-Shot Learners: Empirical Studies on VQA and Visual Entailment
-
4.CARETS: A Consistency And Robustness Evaluative Test Suite for VQA
-
5.Hypergraph Transformer: Weakly-Supervised Multi-hop Reasoning for Knowledge-based Visual Question Answering
-
6.DuReader_vis: A Chinese Dataset for Open-domain Document Visual Question Answering
关注下方《学姐带你玩AI》🚀🚀🚀
回复“VQA”获取全部论文+源代码+数据集
码字不易,欢迎大家点赞评论收藏
相关文章:
视觉问答(VQA)12篇顶会精选论文合集,附常用数据集下载
今天来聊聊计算机视觉和自然语言处理交叉的一个热门研究方向:视觉问答(VQA)。 视觉问答的任务是:给出一张图片和一个关于这张图片的自然语言问题,计算机需要根据图片的内容自动回答这个问题。这样的任务考验了计算机在…...
详解--编码(ASCII\Unicode,UTF-8\UTF-16\UTF-32)
本文主要搞清楚编码是怎么回事。 参考链接 字符集编码方式ASCII(American Standard Code for Information Interchange)ASCIIGB2312GB2312UnicodeUTF-8 / UTF-16 / UTF-32 1.编码基本概念 1.1 字符 字符(Character) 在计算机和…...
Linux安装配置awscli命令行接口工具及其从aws上传下载数据
官网技术文档有全面介绍:安装或更新 AWS CLI 的最新版本 - AWS Command Line Interface在系统上安装 AWS CLI。https://docs.aws.amazon.com/zh_cn/cli/latest/userguide/getting-started-install.html#getting-started-install-instructionsawscli常用命令参考&…...
中国联通携手华为助力长城精工启动商用5G-A柔性产线
[中国,河北,2023年11月3日] 近日,中国联通携手华为助力精诚工科汽车系统有限公司保定自动化技术分公司(简称长城精工自动化)启动5G-A超高可靠性超低时延柔性产线的商用阶段。 在河北保定精工自动化工厂,5G…...
【自动化测试】Java+Selenium自动化测试环境搭建
本主要介绍以Java为基础,搭建Selenium自动化测试环境,并且实现代码编写的过程。 1.Selenium介绍 Selenium 1.0 包含 core、IDE、RC、grid 四部分,selenium 2.0 则是在两位大牛偶遇相互沟通决定把面向对象结构化(OOPP)…...
若依笔记(四):代码生成器
已知使用MyBatisPlus代码生成器可以自动生成Entity、Mapper、Service、Controller代码,前提是数据库中有数据表,生成pojo类以及对于该数据表的增删改查命令的代码,若依更进一步能选择表后生成代码、预览、下载,同时可以生产前端代…...
怎样做好金融投资翻译
我们知道, 金融投资翻译所需的译文往往是会议文献、年终报表、信贷审批等重要企业金融资料,其准确性事关整个企业在今后一段时期内的发展战略与经营成效。尤其像年报,对于上市公司来说更是至关重要的。那么,怎样做好金融投资翻译&…...
ubuntu 分区 方案
ubuntu 分区 方案 自动分区啥样子的? 手动分区 需要怎么操作? 注意点是啥? swap分区 要和 内存大小 差不多 安装ubuntu系统时硬盘分区方案 硬盘分区概述 一块硬盘最多可以分4个主分区,主分区之外的成为扩展分区。硬盘可以没有…...
Python自动化测试面试题总结
python有哪些数据类型怎么将两个字典合并python如何将json写到文件里?在except语句中return后还会不会执行finally中的代码?什么是可变、不可变类型?python函数调用时参数的传递是值传递还是引用传递?python深浅拷贝的区别python为…...
客户端性能测试基础知识
目录 1、客户端性能 1.1、客户端性能基础知识 2、客户端性能工具介绍与环境搭建 2.1.1、perfdog的使用 2.1.2、renderdoc的使用 1、客户端性能 1.1、客户端性能基础知识 客户端性能知识这里对2D和3D类游戏进行展开进行,讲述的有内存、CPU、GPU、帧率这几个模块…...
多模态论文阅读之VLMo
VLMo泛读 TitleMotivationContributionModelExpertimentsSummary Title VLMo:Unified Vision_Langugae Pre-Training with Mixture-of-Modality-Experts Motivation CLIP和ALIGN都采用dual-encoder的方式分别编码图像和文本,模态之间的交互采用cosine similarity…...
休闲类手游还有机会吗?两大策略收割全球玩家
刚刚过去的第三季度,是全球手游市场逆势增长的高光时刻。 买量、营收、下载等多项数据表现优异,其中买量最为突出的产品是休闲类游戏,广告主数占比23.76%断层第一,广告素材占比17.62%,是当之无愧的“广告顶流”。 数…...
Git复制代码
目录 一、常用下载代码 1.登录Git克隆SSH编辑 2.新建文件然后右键点击Git Bash Here 3.git clone Paste 二. 本地下载 1.从本地进入页面 2.生成代码——>导入——>生成代码后下载 3.解压道相应位置 一、常用下载代码 1.登录Git克隆SSH 2.新建文件然后右键点击…...
数据结构笔记——查找、排序(王道408)
文章目录 查找基本概念线性表查找顺序查找折半查找(二分)分块查找 树查找二叉排序树(BST)平衡二叉树(AVL)的插入平衡化复杂度分析 平衡二叉树的删除 红黑树红黑树的定义和性质红黑树定义红黑树性质 红黑树的…...
MySQL---搜索引擎
MySQL的存储引擎是什么 MySQL当中数据用各种不同的技术存储在文件中,每一种技术都使用不同的存储机制,索引技巧 锁定水平,以及最终提供的不同的功能和能力,这些就是我们说的存储引擎。 MySQL存储引擎的功能 1.MySQL将数据存储在文…...
2022最新版-李宏毅机器学习深度学习课程-P32 Transformer
一、 seq2seq 1. 含义 输入一个序列,机器输出另一个序列,输出序列长度由机器决定。 文本翻译:文本至文本; 语音识别:语音至文本; 语音合成:文本至语音; 聊天机器人&#…...
如何使用商品详情API接口获取商品数据:一篇详尽的论述
一、引言 商品详情API接口是一种用于获取商品详细信息的应用程序接口。通过调用该接口,我们可以获取商品的名称、价格、描述、图片以及其他相关属性。对于电商平台、价格比较网站、数据分析等应用场景来说,商品详情API接口提供了便捷的数据获取方式。本…...
华为:手机王者归来,汽车起死回生
作为一家全球知名的科技公司,华为在通信、智能手机、平板电脑等领域拥有很高的市场份额和品牌影响力。而随着华为开始进军汽车领域,通过自主研发和合作,不断提升自己在汽车领域的竞争力,华为便也开始受到更为广泛的关注。 只不过…...
Vue3.0 provide与inject依赖注入:VCA
简介 provide 与 inject 是一种跨层级组件(祖孙)通信方式。当组件多层嵌套时,不需要将数据一层一层的向下传递,通过它俩可以实现跨层级组件通信。 provide:提供者 注入一个值,可以被后代组件接收。 prov…...
前端react入门day02-React中的事件绑定与组件
(创作不易,感谢有你,你的支持,就是我前行的最大动力,如果看完对你有帮助,请留下您的足迹) 目录 React中的事件绑定 React 基础事件绑定 使用事件对象参数 传递自定义参数 同时传递事件对象和自定义参…...
web vue 项目 Docker化部署
Web 项目 Docker 化部署详细教程 目录 Web 项目 Docker 化部署概述Dockerfile 详解 构建阶段生产阶段 构建和运行 Docker 镜像 1. Web 项目 Docker 化部署概述 Docker 化部署的主要步骤分为以下几个阶段: 构建阶段(Build Stage):…...
rknn优化教程(二)
文章目录 1. 前述2. 三方库的封装2.1 xrepo中的库2.2 xrepo之外的库2.2.1 opencv2.2.2 rknnrt2.2.3 spdlog 3. rknn_engine库 1. 前述 OK,开始写第二篇的内容了。这篇博客主要能写一下: 如何给一些三方库按照xmake方式进行封装,供调用如何按…...
C++:std::is_convertible
C++标志库中提供is_convertible,可以测试一种类型是否可以转换为另一只类型: template <class From, class To> struct is_convertible; 使用举例: #include <iostream> #include <string>using namespace std;struct A { }; struct B : A { };int main…...
shell脚本--常见案例
1、自动备份文件或目录 2、批量重命名文件 3、查找并删除指定名称的文件: 4、批量删除文件 5、查找并替换文件内容 6、批量创建文件 7、创建文件夹并移动文件 8、在文件夹中查找文件...
Cesium1.95中高性能加载1500个点
一、基本方式: 图标使用.png比.svg性能要好 <template><div id"cesiumContainer"></div><div class"toolbar"><button id"resetButton">重新生成点</button><span id"countDisplay&qu…...
论文浅尝 | 基于判别指令微调生成式大语言模型的知识图谱补全方法(ISWC2024)
笔记整理:刘治强,浙江大学硕士生,研究方向为知识图谱表示学习,大语言模型 论文链接:http://arxiv.org/abs/2407.16127 发表会议:ISWC 2024 1. 动机 传统的知识图谱补全(KGC)模型通过…...
JVM 内存结构 详解
内存结构 运行时数据区: Java虚拟机在运行Java程序过程中管理的内存区域。 程序计数器: 线程私有,程序控制流的指示器,分支、循环、跳转、异常处理、线程恢复等基础功能都依赖这个计数器完成。 每个线程都有一个程序计数…...
多模态图像修复系统:基于深度学习的图片修复实现
多模态图像修复系统:基于深度学习的图片修复实现 1. 系统概述 本系统使用多模态大模型(Stable Diffusion Inpainting)实现图像修复功能,结合文本描述和图片输入,对指定区域进行内容修复。系统包含完整的数据处理、模型训练、推理部署流程。 import torch import numpy …...
Golang——9、反射和文件操作
反射和文件操作 1、反射1.1、reflect.TypeOf()获取任意值的类型对象1.2、reflect.ValueOf()1.3、结构体反射 2、文件操作2.1、os.Open()打开文件2.2、方式一:使用Read()读取文件2.3、方式二:bufio读取文件2.4、方式三:os.ReadFile读取2.5、写…...
WebRTC从入门到实践 - 零基础教程
WebRTC从入门到实践 - 零基础教程 目录 WebRTC简介 基础概念 工作原理 开发环境搭建 基础实践 三个实战案例 常见问题解答 1. WebRTC简介 1.1 什么是WebRTC? WebRTC(Web Real-Time Communication)是一个支持网页浏览器进行实时语音…...
