当前位置: 首页 > news >正文

视觉问答(VQA)12篇顶会精选论文合集,附常用数据集下载

今天来聊聊计算机视觉和自然语言处理交叉的一个热门研究方向:视觉问答(VQA)

视觉问答的任务是:给出一张图片和一个关于这张图片的自然语言问题,计算机需要根据图片的内容自动回答这个问题。这样的任务考验了计算机在图像理解和语言理解上的能力,需要计算机可以像人一样从图片中抽取信息,理解问题,并用自然语言给出合理的回答。

作为计算机视觉与语言交互的新兴研究热点,视觉问答涉及了图像处理、计算机视觉、自然语言处理等多个领域的技术,是评估计算机视觉系统整体语义理解能力的新方向。

近年来,针对视觉问答方向的研究成果日益增多,各大顶会中的相关论文数量也逐年攀升,我这回就整理了一些视觉问答顶会论文(CVPR、ACL)和大家分享,包括工作中常用的VQA数据集。

论文原文及代码数据集都打包了,需要的同学看文末

常用VQA数据集

通用型 VQA

1.VQA

VQAv1论文:VQA: Visual Question Answering

【视觉问答】

简介:论文提出了一个开放式视觉问答任务:给定图像和问题,回答问题。问题和回答都是开放式的,问题可以询问图像不同区域的细节。因此,视觉问答系统通常需要比图像字幕系统对图像有更深入理解和复杂推理。论文提供包含数百万张图像、问题和答案的大规模数据集,讨论它的信息量。

VQAv2论文:Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering

【提升图像理解在视觉问答中的作用】

简介:通过收集每个问题对应不同答案的相似图像,构建视觉问答的平衡数据集,测试主流模型表现大幅下降,说明这些模型过于依赖语言先验。论文的数据集构造方法也启发了一个新的可解释的模型,它不仅给出答案,还基于反例图像提供解释,可以建立机器与用户之间的信任。

2.OK-VQA

OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge

【一个需要外部知识的视觉问答基准测试】

简介:OK-VQA是第一个大规模的需要外部知识才能回答视觉问答问题的基准测试集。它包含超过14000个开放域的问题,每个问题有5个标注答案。问题的构造保证单凭图像内容无法回答,需要利用外部知识库。结果显示当前VQA模型在该数据集上的表现严重下降,说明模型过于依赖语言先验。

3.VizWiz-VQA

VizWiz Grand Challenge: Answering Visual Questions from Blind People

【VizWiz大挑战:回答视障人士的视觉问题】

简介:VizWiz是第一个源自真实视觉问答场景的数据集。它包含超过31,000个视觉问答对,由视障用户拍摄图片并提出语音问题,每个问题有10个群众标注答案。VizWiz与现有VQA数据集不同:1)图像质量较差,拍摄者为视障人士,2)问题为语音形式,更具会话性,3)部分问题无法回答。在该数据集上评估现代VQA算法,结果显示VizWiz是一个有挑战性的数据集。

4.ScienceQA

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering

【利用思维链进行多模态推理以回答科学问题】

简介:ScienceQA是第一个大规模多模态科学问题回答基准,包含约21k个多项选择题,并标注了对应的讲义和解释作为答案的思维链。作者设计语言模型学习生成讲义和解释,模拟人回答问题的多跳推理过程。结果显示,思维链可以提高GPT-3和UnifiedQA的少样本和微调表现。

5.TDIUC

An Analysis of Visual Question Answering Algorithms

【对视觉问答算法的分析】

简介:现有的VQA数据集存在内容和评估方式上的缺陷,导致评估分数被夸大,主要由较简单的问题决定,难以比较不同方法。本文利用包含超过160万个问题的新数据集分析现有VQA算法,问题按12个类别组织,并设计无意义问题迫使模型进行图像内容推理。

6.GQA

GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering

【一个用于真实世界视觉推理和组合式问答的新数据集】

简介:GQA是一个大规模真实世界视觉推理和组合式问答数据集。它通过场景图来生成复杂的推理性问题,并提供语义表示的功能程序。该数据集引入了一套新的指标来评估一致性、逻辑性等关键属性,为提升模型鲁棒性、一致性和图像语言理解提供了重要的基准资源。

7.IconQA

IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning

【抽象图表理解和视觉语言推理的新基准】

简介:IconQA是一个新的抽象图表视觉问答基准,包含10万个图表及相关问题。不同于自然图像,抽象图表的语义理解仍是视觉研究的难点。IconQA中的图表需进行几何、常识、算术等复合推理来回答问题,作者还构建了包含65万彩色图标的Icon645数据集。IconQA要求模型深入理解抽象语义和进行复合推理,是视觉语言理解任务的新方向。

文本导向的 VQA

1.OCR-VQA

OCR-VQA: Visual Question Answering by Reading Text in Images

【通过读取图像中的文本进行视觉问答】

简介:本文提出通过读取图像中的文本(OCR)进行视觉问答(OCR-VQA)这个新任务,作者为此构建了一个大规模数据集OCRVQA-200K,包含20多万张书籍封面图像及100多万个相关问答对。实验结果显示,这个任务面临文本检测、识别、语义理解等多方面挑战。

2.TextVQA

Towards VQA Models That Can Read

【迈向能够阅读的VQA模型】

简介:本文提出TextVQA任务和数据集,需要VQA模型读取图像文本并进行多模态推理。提出LoRRA模型,可以检测、理解图像文本并进行问答。结果显示TextVQA上的人机差距大于VQA 2.0,可以有效评估文本理解和多模态推理能力。

VQA顶会论文合集

CVPR

  • 1.SimVQA: Exploring Simulated Environments for Visual Question Answering

  • 2.A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering

  • 3.SwapMix: Diagnosing and Regularizing the Over-reliance on Visual Context in Visual Question Answering

  • 4.Dual-Key Multimodal Backdoors for Visual Question Answering

  • 5.MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering

  • 6.Grounding Answers for Visual Questions Asked by Visually Impaired People Maintaining Reasoning Consistency in Compositional Visual Question Answering

ACL

  • 1.Co-VQA : Answering by Interactive Sub Question Sequence

  • 2.xGQA: Cross-Lingual Visual Question Answering

  • 3.CLIP Models are Few-Shot Learners: Empirical Studies on VQA and Visual Entailment

  • 4.CARETS: A Consistency And Robustness Evaluative Test Suite for VQA

  • 5.Hypergraph Transformer: Weakly-Supervised Multi-hop Reasoning for Knowledge-based Visual Question Answering

  • 6.DuReader_vis: A Chinese Dataset for Open-domain Document Visual Question Answering

关注下方《学姐带你玩AI》🚀🚀🚀

回复“VQA”获取全部论文+源代码+数据集

码字不易,欢迎大家点赞评论收藏

相关文章:

视觉问答(VQA)12篇顶会精选论文合集,附常用数据集下载

今天来聊聊计算机视觉和自然语言处理交叉的一个热门研究方向:视觉问答(VQA)。 视觉问答的任务是:给出一张图片和一个关于这张图片的自然语言问题,计算机需要根据图片的内容自动回答这个问题。这样的任务考验了计算机在…...

详解--编码(ASCII\Unicode,UTF-8\UTF-16\UTF-32)

本文主要搞清楚编码是怎么回事。 参考链接 字符集编码方式ASCII(American Standard Code for Information Interchange)ASCIIGB2312GB2312UnicodeUTF-8 / UTF-16 / UTF-32 1.编码基本概念 1.1 字符 字符(Character) 在计算机和…...

Linux安装配置awscli命令行接口工具及其从aws上传下载数据

官网技术文档有全面介绍:安装或更新 AWS CLI 的最新版本 - AWS Command Line Interface在系统上安装 AWS CLI。https://docs.aws.amazon.com/zh_cn/cli/latest/userguide/getting-started-install.html#getting-started-install-instructionsawscli常用命令参考&…...

中国联通携手华为助力长城精工启动商用5G-A柔性产线

[中国,河北,2023年11月3日] 近日,中国联通携手华为助力精诚工科汽车系统有限公司保定自动化技术分公司(简称长城精工自动化)启动5G-A超高可靠性超低时延柔性产线的商用阶段。 在河北保定精工自动化工厂,5G…...

【自动化测试】Java+Selenium自动化测试环境搭建

本主要介绍以Java为基础,搭建Selenium自动化测试环境,并且实现代码编写的过程。 1.Selenium介绍 Selenium 1.0 包含 core、IDE、RC、grid 四部分,selenium 2.0 则是在两位大牛偶遇相互沟通决定把面向对象结构化(OOPP&#xff09…...

若依笔记(四):代码生成器

已知使用MyBatisPlus代码生成器可以自动生成Entity、Mapper、Service、Controller代码,前提是数据库中有数据表,生成pojo类以及对于该数据表的增删改查命令的代码,若依更进一步能选择表后生成代码、预览、下载,同时可以生产前端代…...

怎样做好金融投资翻译

我们知道, 金融投资翻译所需的译文往往是会议文献、年终报表、信贷审批等重要企业金融资料,其准确性事关整个企业在今后一段时期内的发展战略与经营成效。尤其像年报,对于上市公司来说更是至关重要的。那么,怎样做好金融投资翻译&…...

ubuntu 分区 方案

ubuntu 分区 方案 自动分区啥样子的? 手动分区 需要怎么操作? 注意点是啥? swap分区 要和 内存大小 差不多 安装ubuntu系统时硬盘分区方案 硬盘分区概述 一块硬盘最多可以分4个主分区,主分区之外的成为扩展分区。硬盘可以没有…...

Python自动化测试面试题总结

python有哪些数据类型怎么将两个字典合并python如何将json写到文件里?在except语句中return后还会不会执行finally中的代码?什么是可变、不可变类型?python函数调用时参数的传递是值传递还是引用传递?python深浅拷贝的区别python为…...

客户端性能测试基础知识

目录 1、客户端性能 1.1、客户端性能基础知识 2、客户端性能工具介绍与环境搭建 2.1.1、perfdog的使用 2.1.2、renderdoc的使用 1、客户端性能 1.1、客户端性能基础知识 客户端性能知识这里对2D和3D类游戏进行展开进行,讲述的有内存、CPU、GPU、帧率这几个模块…...

多模态论文阅读之VLMo

VLMo泛读 TitleMotivationContributionModelExpertimentsSummary Title VLMo:Unified Vision_Langugae Pre-Training with Mixture-of-Modality-Experts Motivation CLIP和ALIGN都采用dual-encoder的方式分别编码图像和文本,模态之间的交互采用cosine similarity…...

休闲类手游还有机会吗?两大策略收割全球玩家

刚刚过去的第三季度,是全球手游市场逆势增长的高光时刻。 买量、营收、下载等多项数据表现优异,其中买量最为突出的产品是休闲类游戏,广告主数占比23.76%断层第一,广告素材占比17.62%,是当之无愧的“广告顶流”。 数…...

Git复制代码

目录 一、常用下载代码 1.登录Git克隆SSH​编辑 2.新建文件然后右键点击Git Bash Here 3.git clone Paste 二. 本地下载 1.从本地进入页面 2.生成代码——>导入——>生成代码后下载 3.解压道相应位置 一、常用下载代码 1.登录Git克隆SSH 2.新建文件然后右键点击…...

数据结构笔记——查找、排序(王道408)

文章目录 查找基本概念线性表查找顺序查找折半查找(二分)分块查找 树查找二叉排序树(BST)平衡二叉树(AVL)的插入平衡化复杂度分析 平衡二叉树的删除 红黑树红黑树的定义和性质红黑树定义红黑树性质 红黑树的…...

MySQL---搜索引擎

MySQL的存储引擎是什么 MySQL当中数据用各种不同的技术存储在文件中,每一种技术都使用不同的存储机制,索引技巧 锁定水平,以及最终提供的不同的功能和能力,这些就是我们说的存储引擎。 MySQL存储引擎的功能 1.MySQL将数据存储在文…...

2022最新版-李宏毅机器学习深度学习课程-P32 Transformer

一、 seq2seq 1. 含义 输入一个序列,机器输出另一个序列,输出序列长度由机器决定。 文本翻译:文本至文本;  语音识别:语音至文本;  语音合成:文本至语音;  聊天机器人&#…...

如何使用商品详情API接口获取商品数据:一篇详尽的论述

一、引言 商品详情API接口是一种用于获取商品详细信息的应用程序接口。通过调用该接口,我们可以获取商品的名称、价格、描述、图片以及其他相关属性。对于电商平台、价格比较网站、数据分析等应用场景来说,商品详情API接口提供了便捷的数据获取方式。本…...

华为:手机王者归来,汽车起死回生

作为一家全球知名的科技公司,华为在通信、智能手机、平板电脑等领域拥有很高的市场份额和品牌影响力。而随着华为开始进军汽车领域,通过自主研发和合作,不断提升自己在汽车领域的竞争力,华为便也开始受到更为广泛的关注。 只不过…...

Vue3.0 provide与inject依赖注入:VCA

简介 provide 与 inject 是一种跨层级组件(祖孙)通信方式。当组件多层嵌套时,不需要将数据一层一层的向下传递,通过它俩可以实现跨层级组件通信。 provide:提供者 注入一个值,可以被后代组件接收。 prov…...

前端react入门day02-React中的事件绑定与组件

(创作不易,感谢有你,你的支持,就是我前行的最大动力,如果看完对你有帮助,请留下您的足迹) 目录 React中的事件绑定 React 基础事件绑定 使用事件对象参数 传递自定义参数 同时传递事件对象和自定义参…...

Vue记事本应用实现教程

文章目录 1. 项目介绍2. 开发环境准备3. 设计应用界面4. 创建Vue实例和数据模型5. 实现记事本功能5.1 添加新记事项5.2 删除记事项5.3 清空所有记事 6. 添加样式7. 功能扩展:显示创建时间8. 功能扩展:记事项搜索9. 完整代码10. Vue知识点解析10.1 数据绑…...

React Native 开发环境搭建(全平台详解)

React Native 开发环境搭建(全平台详解) 在开始使用 React Native 开发移动应用之前,正确设置开发环境是至关重要的一步。本文将为你提供一份全面的指南,涵盖 macOS 和 Windows 平台的配置步骤,如何在 Android 和 iOS…...

从零实现富文本编辑器#5-编辑器选区模型的状态结构表达

先前我们总结了浏览器选区模型的交互策略,并且实现了基本的选区操作,还调研了自绘选区的实现。那么相对的,我们还需要设计编辑器的选区表达,也可以称为模型选区。编辑器中应用变更时的操作范围,就是以模型选区为基准来…...

Opencv中的addweighted函数

一.addweighted函数作用 addweighted()是OpenCV库中用于图像处理的函数,主要功能是将两个输入图像(尺寸和类型相同)按照指定的权重进行加权叠加(图像融合),并添加一个标量值&#x…...

条件运算符

C中的三目运算符(也称条件运算符,英文:ternary operator)是一种简洁的条件选择语句,语法如下: 条件表达式 ? 表达式1 : 表达式2• 如果“条件表达式”为true,则整个表达式的结果为“表达式1”…...

python爬虫:Newspaper3k 的详细使用(好用的新闻网站文章抓取和解析的Python库)

更多内容请见: 爬虫和逆向教程-专栏介绍和目录 文章目录 一、Newspaper3k 概述1.1 Newspaper3k 介绍1.2 主要功能1.3 典型应用场景1.4 安装二、基本用法2.2 提取单篇文章的内容2.2 处理多篇文档三、高级选项3.1 自定义配置3.2 分析文章情感四、实战案例4.1 构建新闻摘要聚合器…...

工业自动化时代的精准装配革新:迁移科技3D视觉系统如何重塑机器人定位装配

AI3D视觉的工业赋能者 迁移科技成立于2017年,作为行业领先的3D工业相机及视觉系统供应商,累计完成数亿元融资。其核心技术覆盖硬件设计、算法优化及软件集成,通过稳定、易用、高回报的AI3D视觉系统,为汽车、新能源、金属制造等行…...

让AI看见世界:MCP协议与服务器的工作原理

让AI看见世界:MCP协议与服务器的工作原理 MCP(Model Context Protocol)是一种创新的通信协议,旨在让大型语言模型能够安全、高效地与外部资源进行交互。在AI技术快速发展的今天,MCP正成为连接AI与现实世界的重要桥梁。…...

Spring数据访问模块设计

前面我们已经完成了IoC和web模块的设计,聪明的码友立马就知道了,该到数据访问模块了,要不就这俩玩个6啊,查库势在必行,至此,它来了。 一、核心设计理念 1、痛点在哪 应用离不开数据(数据库、No…...

uniapp 字符包含的相关方法

在uniapp中,如果你想检查一个字符串是否包含另一个子字符串,你可以使用JavaScript中的includes()方法或者indexOf()方法。这两种方法都可以达到目的,但它们在处理方式和返回值上有所不同。 使用includes()方法 includes()方法用于判断一个字…...