[论文阅读] DVQA: Understanding Data Visualizations via Question Answering
原文链接:http://arxiv.org/abs/1801.08163
启发:没太读懂这篇论文,暂时能理解的就是本文提出了一个专门针对条形图问答的数据集DVQA以及一个端到端模型SANDY,模型有两个版本,Oracle和OCR。主要解决的问题是固定词表无法回答包含图表特有词汇问题。所以在SANDY(Oracle)中使用DVQA数据集的所有注释来构建词表,在SANDY(OCR)中使用开源的Tesseract OCR的输出,这样都保证了词表中能包含所有出现在图表以及问题中的词汇。至于文本提到的其他贡献,暂时无法理解。
Abstract
研究对象:条形图
研究问题:条形图的开放式问题问答
研究方法:介绍了 DVQA,这是一个数据集,用于测试问答框架中条形图理解的许多方面。与视觉问答 (VQA) 不同,DVQA 需要处理特定条形图独有的单词和答案。最先进的 VQA 算法在DVQA 上表现不佳,我们提出了两个性能要好得多的强基线。我们的工作将使算法能够从科学出版物、互联网文章、商业报告和许多其他领域的大量条形图中自动提取数字和语义信息。
1 Introduction
本文我们研究了能够回答有关条形图的开放式问题的系统,我们将其称为数据可视化问答 (DVQA)。DVQA 将允许自动查询科学文档、网页和业务报告中的大量图表存储库。如图1所示,DVQA的问题可分为图表结构理解、数据检索、推理。

DVQA 还可以作为广义模式匹配、注意力和多步推理系统的具有挑战性的代理任务。回答有关图表的问题需要多步骤的关注、记忆、测量和推理。VQA 通常被视为分类问题,其中答案是使用图像-问题对中的特征推断的类别,DVQA 与视觉问答 (VQA)相关,但是DVQA尝试解决三个问题:
(1)可变词典。VQA系统采用两个固定的词典:一个用于对问题中的单词进行编码,另一个用于生成答案。到那时DVQA的词典不能是固定的,因为许多答案中包含条形图特有的单词,如果是固定词典就无法解答这些问题。所以我们的模型演示了两种解决out-of-vocabulary(OOV) words问题的方法。
(2)语言的固定性与变动性。在VQA中,语言与图像中的语义概念有固定关联。例如,“大而闪亮的红色立方体”一旦定义,便在所有相关图像中一致。而在DVQA中,词语常常用来描述图表中的元素,如条形图的颜色、大小和位置,这些可以在不同图表中变化。(读不懂。。。)
(3)图表图像的不规则性:VQA使用的自然图像通常具有某种规律,使得系统可以从图像的特征中推断信息,比如天气图通过颜色与亮度来判断晴天。相较之下,DVQA中的视觉元素如图例和颜色的稍微变动(如调换顺序)就能导致整张图表的信息发生完全变化,这种不规则性带来了额外的解析难度。
本文做出了三个主要贡献:
1. 我们介绍了 DVQA 数据集,其中包含超过 300 万个关于条形图的图像问题对。它测试三种形式的图表理解:a) 结构理解;b) 数据检索;c) 推理。DVQA 数据集将公开发布。
2. 我们发现最先进的 VQA 算法无法回答 DVQA 中的许多问题。此外,基于静态和预定义词汇表的现有基于分类的系统无法回答具有训练期间未遇到的独特答案的问题。
3. 我们描述了两个 DVQA 系统,它们能够处理特定图像独有的单词。一个是端到端神经网络,可以从条形图中读取答案。第二个模型是使用动态本地词典对条形图文本进行编码的模型。
2. Related Work
3. DVQA: The Dataset
DVQA 数据集包含大量典型可用的条形图样式。数据集中的问题需要能够对条形图中的信息进行推理(见图 1)。DVQA 包含 300,000 张图像的 3,487,194 个问答对,分为三种主要问题类型。


3.1. Appearance, Data, and Question Types
视觉样式:我们使用 python 流行的绘图工具 Matplotlib 来生成我们的图表。如图 3 所示,DVQA 的条形图在外观和样式方面都包含很大的可变性,可以捕捉到科学文献和 Internet 中的常见样式。其中一些变化包括柱线和组数的差异;是否存在网格线;条形的颜色、宽度、间距、方向和纹理的差异;以及标签和图例的方向和位置的差异。为了标记单个条形和图例条目,我们使用 NLTK 的词性标记为我们的训练集和“简单”测试集 Test-Familiar 选择了 Brown 语料库中最常见的 1000 个名词。为了衡量系统扩展到未知答案的能力,我们还创建了一个难度更高的测试集 Test-Novel,其中我们使用了 500 个在训练过程中看不到的新单词。
基础数据:DVQA 有三种条形图数据类型:线性、百分比和指数。对于这些数据值类型中的每一种,条形可以采用 1 – 10 范围内的线性数据、10 – 100 (百分比)和 1 - 1010 (指数数据类型)中随机选择的 10 个值中的任何一个。允许一小部分条形的值为零,该值在图表中显示为缺失的条形。
问题类型:DVQA 包含三种类型的问题:1) 结构理解,2) 数据检索,以及 3) 推理。为了生成这些问题,我们使用固定模板。
3.2. Post-processing to Minimize Bias
VQA 中的几项研究表明,数据集中的偏差会损害性能评估,并为仅利用统计模式的系统提供夸大的分数。在 DVQA 中,我们采取了多项措施来打击此类偏见。为了确保样式、颜色和标签之间没有关联,我们随机化了图表的生成。有些问题可能具有很强的先验性,例如,问题 'Does the chart contain stacked bar?' 正确答案为“否”的可能性很高,因为这些堆积图并不常见。为了补偿这一点,我们会随机删除这些问题,直到每种问题类型(其中是/否)的答案都是平衡的。类似的方案用于平衡其他结构理解问题以及前两个数据检索问题。
4. DVQA Algorithms & Models
4.1. 基线模型
我们评估了 DVQA 的五个基线模型:
1. YES:该模型对所有问题的回答都是“是”,这是 DVQA 中最常见的答案,比“否”略高。
2. IMG:无视问题模型。图像会使用 Resnet 对池化后的最终卷积层的输出进行编码,然后由具有一个具有 1,024 个单元的隐藏层和一个 softmax 输出层的 MLP 从中预测答案。
3. QUES:无视图像模型。它使用 LSTM 编码器嵌入问题,然后由具有一个隐藏层(具有 1,024 个单元和一个 softmax 输出层)的 MLP 预测答案。
4. IMG+QUES:这是 QUES 和 IMG 模型的组合。它连接 LSTM 和 CNN 嵌入,然后将它们馈送到具有一个 1024 个单元的隐藏层和一个 softmax 输出层的 MLP。
5. SAN-VQA:VQA 的堆叠注意力网络(SAN)。我们按照论文重新实现 SAN ,升级原始 SAN 的图像功能和一些小的更改可以在 VQA 1.0 和 2.0 上产生最先进的结果。SAN 对最后的 CNN 卷积特征图进行操作,在那里它使用基于 LSTM 的方案中的问题嵌入仔细处理该映射。
4.2. 多输出模型 (MOM)
DVQA 多输出模型 (MOM) 使用双网络架构,其中其中一个子网络能够生成特定于图表的答案。MOM 的分类子网络负责通用答案。MOM 的光学字符识别 (OCR) 子网络负责必须从条形图中读取的特定于图表的答案。
MOM 的 OCR 子网络尝试预测包含正确标签的边界框,然后将字符级解码器应用于该区域。边界框预测器使用均方误差 (MSE) 损失作为回归任务进行训练。从该区域提取图像块,将其大小调整为 128 × 128,然后对其应用一个小的 3 层 CNN。由于框中文本的方向会有所不同,因此我们采用 N 步空间注意力机制来编码图像块中 N 个可能字符中每个字符的相关特征,其中 N 是最大可能的字符序列(在我们的实验中为 N = 8)。这 N 个特征使用双向门控递归单元 (GRU) 进行编码,以捕获自然出现的单词中发现的字符级相关性。GRU 编码之后是一个预测字符序列的分类层,该分类层使用连接主义时间分类 (CTC) 损失进行训练。
MOM 必须决定是使用分类子网络(即 SAN-VQA)或者OCR 子网络来回答问题,所以训练了一个单独的二元分类器,用于确定要信任哪些输出。此分类器将 LSTM 问题特征作为输入,以预测答案是通用的还是特定于图表的。对于我们的 DVQA 数据集,此分类器能够对测试数据以完美的准确性预测正确的分支。
4.3. SANDY: SAN with DYnamic Encoding Model
SANDY是作者对SAN-VQA模型的改进,引入了动态编码模型(DEM),可以处理图表中特定词汇的编码和解码。SANDY的关键特点包括:
- 动态本地字典:为图表中出现的每个新词创建一个动态字典。
- 编码和解码:使用动态字典来编码问题中的词和生成答案。
- OCR系统:假设有一个完美的OCR系统来识别图表中的所有文本区域。
SANDY有两种版本:
- Oracle版本:使用DVQA数据集的注释来构建DEM。
- OCR版本:使用开源的Tesseract OCR的输出来构建DEM。
MOM 通过具有能够生成唯一字符串的子网络来处理特定于图表的答案;但是,它没有直观地读取条形图文本的明确功能,并且其 LSTM 问题编码无法处理特定于图表的单词。为了探索克服这些限制,我们修改了 SAN 以创建 SANDY,SAN with DYnamic 编码模型。SANDY 使用动态编码模型 (DEM),该模型对问题中特定于图表的单词进行显式编码,并可以直接生成特定于图表的答案。DEM 是图表特定单词的动态本地词典。此词典用于对单词和答案进行编码。要创建本地单词词典,DEM 假定它有权访问 OCR 系统,该系统为其提供条形图中所有文本区域的位置和字符串。给定此框集合,DEM 会为每个框分配一个唯一的数字索引。它将索引 0 分配给图像左下角的框。然后,它会分配位置最接近索引为 1 的第一个框的框。然后,为最接近 1 但尚未分配索引的框分配索引 2,依此类推,直到图像中的所有框都分配了索引。在我们的实施中,我们假设我们有一个完美的 (oracle) OCR 系统用于输入,并且我们使用数据集的注释来实现此目的。训练数据中没有图表的文本标签超过 30 个,因此我们将本地字典设置为最多具有 M = 30 个元素。局部词典扩充了 N 元素全局词典。这使 DEM 能够创建 (M + N ) 单词词典,用于对问题中的每个单词进行编码。局部词典还用于扩充 L 元素全局答案词典。这是通过向表示动态单词的分类器添加 M 个额外类来完成的。如果预测了这些类,则使用本地词典的相应索引分配输出字符串。我们测试了两个版本的 SANDY。Oracle 版本直接使用 DVQA 数据集中的注释来构建 DEM。OCR 版本使用开源 Tesseract OCR 的输出。Tesseract 的输出以三种方式进行预处理:1) 我们只使用包含字母字符的单词,2) 我们以低于 50% 的置信度过滤单词检测,以及 3) 我们过滤单个字符的单词检测。
4.4. Training the Models
5. Experiments

6. Discussion
7. Conclusion
我们描述了 DVQA,一个用于理解条形图的数据集。我们证明了 VQA 算法无法回答简单的 DVQA 问题。我们提出了两种 DVQA 算法,它们可以处理问答中特定于图表的单词。解决 DVQA 问题将使系统能够用于智能查询大量人工生成数据,这将对科学家和企业产生巨大帮助。我们希望即将公开提供的 DVQA 数据集将促进对自然图像 VQA 通常忽略的问题的研究,例如词汇外单词和动态问题编码。我们还希望 DVQA 将成为研究视觉注意力、记忆和推理能力的重要代理任务。
相关文章:
[论文阅读] DVQA: Understanding Data Visualizations via Question Answering
原文链接:http://arxiv.org/abs/1801.08163 启发:没太读懂这篇论文,暂时能理解的就是本文提出了一个专门针对条形图问答的数据集DVQA以及一个端到端模型SANDY,模型有两个版本,Oracle和OCR。主要解决的问题是固定词表无…...
【PostgreSQL】实战篇——数据备份和恢复的最佳实践和工具
数据备份和恢复是确保数据安全性和可用性的关键环节。无论是由于硬件故障、软件错误、数据损坏还是人为错误,能够快速恢复数据都是保护业务连续性的重要措施。 PostgreSQL 提供了多种备份和恢复工具和方法,其中最常用的包括 pg_dump、pg_restore 和点时…...
代码随想录算法训练营第二十九天|93.复原IP地址 78.子集 90.子集II
93.复原IP地址 给定一个只包含数字的字符串,复原它并返回所有可能的 IP 地址格式。 有效的 IP 地址 正好由四个整数(每个整数位于 0 到 255 之间组成,且不能含有前导 0),整数之间用 . 分隔。 例如:"…...
【mysql】使用AbstractRoutingDataSource实现多数据源 与 获取mapper上注解
使用AbstractRoutingDataSource实现多数据源 与 获取mapper上注解 背景 随着业务发展速度越来越快,数据的增长也呈现倍数级别增长,数据库的压力,对于查询和写入等所有操作,都依赖于主库,其实有一些对于时效性要求不高…...
希沃冰点还原
要取消希沃冰点还原,可以按照以下步骤进行: 打开希沃冰点还原的应用或程序。 在应用或程序的界面上,寻找设置选项或菜单。 点击或选择设置选项或菜单,进入设置界面。 在设置界面上,查找“取消”或“停止”等相关选项…...
Hadoop服务端口号、Spark端口号、Hive端口号以及启动命令
文章目录 1. 服务端口号1.1 Hadoop相关的服务端口号1.2 Spark相关的服务端口号1.3 Hive的连接端口 2. 服务启动指令 1. 服务端口号 1.1 Hadoop相关的服务端口号 HDFS的web页面访问端口 9870HDFS 的程序访问端口 8020Yarn的访问端口 8088历史日志访问端口 19888 1.2 Spark相关…...
【C++】--类和对象(3)
🤑个人主页: 起名字真南 🤑个人专栏:【数据结构初阶】 【C语言】 【C】 目录 1 深入构造函数2 类型转换3 static成员4 友元函数5 内部类6 匿名对象 1 深入构造函数 之前我们实现构造函数的时候,初始化成员变量都是在函数体内赋值,…...
国外电商系统开发-运维系统文件上传-高级上传
如果您要上传文件到10台服务器中,有3台服务器的路径不是一样的,那么在这种情况下您就可以使用本功能,单独执行不一样的路径 点击【高级】上传...
【MongoDB】mongodb | 部署 | 常用命令
一、概述 基于mongodb的tcp连接无数据上报,服务器强踢监测。 物联网项目,tcp协议,基于4G卡,设备由于某些原因会断开重连,但是tcp没有断开,导致tcp持续累加,浪费资源。 建立机制: 当t…...
【Chrome浏览器插件--资源嗅探猫抓】
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、资源嗅探插件---猫抓二、使用步骤总结 一、资源嗅探插件—猫抓 猫抓是一个浏览器插件,可以检测当前网页中的一些资源文件,可设置嗅探的…...
2.4Mybatis——缓存机制
2.4Mybatis——缓存机制 缓存配置一二级缓存一级缓存二级缓存 合集总览:Mybatis框架梳理 讲真,Mybatis缓存这块的记忆已经模糊了。刚好此时写测试用例出现一个BUG,就以这个问题作为切入点来梳理一下。 Testpublic void test(){Address ad…...
移动技术开发:文件的读取
1 实验名称 文件的读写 2 实验目的 掌握Android中读写文件的实现方法。 3 实验源代码 布局文件代码: <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android&quo…...
Linux 中的 Makefile 伪目标详解
在 Linux 环境中,Makefile 是构建项目的重要工具,它通过定义规则,指导 make 工具如何编译和链接程序。通常我们会在 Makefile 中定义目标(target),这些目标通常对应文件名。然而,有一种特殊类型…...
Java基础(中)
变量 成员变量与局部变量的区别 语法形式:从语法形式上看,成员变量是属于类的,而局部变量是在代码块或方法中定义的变量或是方法的参数;成员变量可以被 public,private,static 等修饰符所修饰,而局部变量不能被访问控…...
Leetcode热题100-200 岛屿数量
Leetcode热题100-200 岛屿数量 1. 题目描述2. 代码实现1. dfs算法2. bfs算法 1. 题目描述 200 岛屿数量 2. 代码实现 1. dfs算法 class Solution { public:int numIslands(vector<vector<char>>& grid) {int m grid.size(), n grid[0].size();int res 0…...
大数据新视界 --大数据大厂之 GraphQL 在大数据查询中的创新应用:优化数据获取效率
💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…...
swift使用代码结构解析
多模态模型的训练llamafactory也可以训练,但是总的来说,llamafactory对多模态模型的支持还是不太多,ms-swift支持的多模态模型更多,因此有时候去找框架是否够支持相应的模型时会有所困难,所以对这些框架的代码也要稍微…...
五、Python基础语法(程序的输入和输出)
一、输入 输入:输入就是获取键盘输入的数据,使用input()函数。代码会从上往下执行,当遇到input()函数,就会暂停执行,输入内容后,敲回车键,表示本次的输入结束。input函数得到的数据类型都是字符…...
【C语言】常见概念
文章目录 库函数关键字字符和ASCll编码字符串与\0转义字符语句和语句分类注释 库函数 为了不再重复实现常见的代码,让程序员提升开发效率,C语言标准规定了一组函数,这些函数再由不同的编译器厂商根据标准进行实现,提供给程序员使…...
Electron应用创建和打包
一、创建项目目录 创建NodeJs项目目录,项目有关的文件、依赖包都将在本目录创建和安装。 mkdir hello_electron & cd hello_electronCMD执行以上命令将在用户目录下创建hello_electron并进入该目录。当然也可以手动在任何地方创建目录,cmd中cd 路径…...
云计算——弹性云计算器(ECS)
弹性云服务器:ECS 概述 云计算重构了ICT系统,云计算平台厂商推出使得厂家能够主要关注应用管理而非平台管理的云平台,包含如下主要概念。 ECS(Elastic Cloud Server):即弹性云服务器,是云计算…...
从零实现富文本编辑器#5-编辑器选区模型的状态结构表达
先前我们总结了浏览器选区模型的交互策略,并且实现了基本的选区操作,还调研了自绘选区的实现。那么相对的,我们还需要设计编辑器的选区表达,也可以称为模型选区。编辑器中应用变更时的操作范围,就是以模型选区为基准来…...
大模型多显卡多服务器并行计算方法与实践指南
一、分布式训练概述 大规模语言模型的训练通常需要分布式计算技术,以解决单机资源不足的问题。分布式训练主要分为两种模式: 数据并行:将数据分片到不同设备,每个设备拥有完整的模型副本 模型并行:将模型分割到不同设备,每个设备处理部分模型计算 现代大模型训练通常结合…...
3403. 从盒子中找出字典序最大的字符串 I
3403. 从盒子中找出字典序最大的字符串 I 题目链接:3403. 从盒子中找出字典序最大的字符串 I 代码如下: class Solution { public:string answerString(string word, int numFriends) {if (numFriends 1) {return word;}string res;for (int i 0;i &…...
【JavaSE】绘图与事件入门学习笔记
-Java绘图坐标体系 坐标体系-介绍 坐标原点位于左上角,以像素为单位。 在Java坐标系中,第一个是x坐标,表示当前位置为水平方向,距离坐标原点x个像素;第二个是y坐标,表示当前位置为垂直方向,距离坐标原点y个像素。 坐标体系-像素 …...
安全突围:重塑内生安全体系:齐向东在2025年BCS大会的演讲
文章目录 前言第一部分:体系力量是突围之钥第一重困境是体系思想落地不畅。第二重困境是大小体系融合瓶颈。第三重困境是“小体系”运营梗阻。 第二部分:体系矛盾是突围之障一是数据孤岛的障碍。二是投入不足的障碍。三是新旧兼容难的障碍。 第三部分&am…...
招商蛇口 | 执笔CID,启幕低密生活新境
作为中国城市生长的力量,招商蛇口以“美好生活承载者”为使命,深耕全球111座城市,以央企担当匠造时代理想人居。从深圳湾的开拓基因到西安高新CID的战略落子,招商蛇口始终与城市发展同频共振,以建筑诠释对土地与生活的…...
《Docker》架构
文章目录 架构模式单机架构应用数据分离架构应用服务器集群架构读写分离/主从分离架构冷热分离架构垂直分库架构微服务架构容器编排架构什么是容器,docker,镜像,k8s 架构模式 单机架构 单机架构其实就是应用服务器和单机服务器都部署在同一…...
数据结构第5章:树和二叉树完全指南(自整理详细图文笔记)
名人说:莫道桑榆晚,为霞尚满天。——刘禹锡(刘梦得,诗豪) 原创笔记:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 上一篇:《数据结构第4章 数组和广义表》…...
如何通过git命令查看项目连接的仓库地址?
要通过 Git 命令查看项目连接的仓库地址,您可以使用以下几种方法: 1. 查看所有远程仓库地址 使用 git remote -v 命令,它会显示项目中配置的所有远程仓库及其对应的 URL: git remote -v输出示例: origin https://…...
