当前位置: 首页 > news >正文

基于感知动作循环的层次推理用于视觉问答

title:Hierarchical Reasoning Based on Perception Action Cycle for Visual Question Answering

基于感知动作循环的层次推理用于视觉问答


文章目录

  • title:[Hierarchical Reasoning Based on Perception Action Cycle for Visual Question Answering](https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4247187)
  • 摘要
  • 主要贡献
  • HIPA框架
    • 3.1. Visual and language features extraction
    • 3.2. The implementation of perception action cycle (PAC)感知动作循环
      • 2种attention
      • Reasoning cycle推理循环
      • Comprehension of visual features 视觉特征的理解
      • Comprehension of language features 语言特征的理解
    • 3.3. Classification Module


摘要

基于感知动作循环的分层推理框架( HIPA )来处理VQA任务。

  1. 它将多模态的推理过程感知动作循环( PAC )相融合,解释了人类对周围世界的学习机制。
  2. 它通过推理的三个阶段来理解视觉模态:对象层面的注意力、组织和解释。它通过词汇层面的注意力、解释和条件化来理解语言情态。
  3. 随后,视觉和语言模式在整个框架中以循环和分层的方式相互依赖地解释。 为了进一步评估视觉和语言特征,我们认为相同答案的图像-问题对最终应该具有相似的视觉和语言特征。因此,我们使用余弦相似度的标准差和曼哈顿距离等指标进行视觉和语言特征评估实验。我们发现,与其他VQA框架相比,在我们的框架中使用PAC提高了标准偏差。
  4. 为了进一步评估,我们还在视觉关系检测(VRD)任务上测试了新提出的HIPA。该方法在TDIUCVRD数据集上获得了最先进的结果,在VQA 2.0数据集上获得了具有竞争力的结果。

我们引入了一种基于感知动作周期(HIPA)框架的分层推理来解决VQA问题。新型HIPA在模仿人类的学习机制——感知行动周期(PAC)方面更进一步。PAC发生时,信息流从环境到人类大脑的感觉结构,然后到运动结构,然后回到环境。在人类大脑的感觉和运动结构的每一个层次上都有反馈连接,以促进它们之间的交流。这种知觉(感觉结构)和动作(运动结构)之间的循环依赖关系可以描述为:“人类必须感知环境才能移动,但他们也必须移动才能感知”(Rully & Florian, 2013)。这种动态学习通过将视觉模态视为一种感知,将语言模态视为一种动作,符合我们的VQA问题。语态被认为是一种动作,因为问题中包含激活大脑动作运动皮层区域的动作词。此外,在我们的视觉质量问题中,我们遵循人类感知的心理过程来理解视觉形态。人类感知的心理过程是通过以下方式进行的:(i)发现显著的显著特征(注意),(ii)将显著的视觉特征组织成有意义的结构(组织),以及(iii)解释视觉结构并理解它们(解释)(琼,2017)。提出的框架HIPA采用知觉的心理过程来处理视觉模态,分为三个阶段:注意、组织和解释。另一方面,语言情态的形成经历三个阶段:注意、解释和条件作用。
在这里插入图片描述
如图所示,所提出的框架HIPA一般分为四个模块:

  1. 特征提取(包括Faster R-CNN和门控循环单元(GRU))、
  2. 注意力(包括对象级注意力和词级注意力)、
  3. 推理周期
  4. 分类

我们以循环和分层的方式模拟了PAC机制,特别是在注意力和推理循环模块中。在图1中,PAC机构的感知模块和动作模块分别用蓝色和红色表示。我们结合人类知觉的心理过程,在对象层面的注意和推理模块中处理视觉模态。

如图1所示,视觉情态的推理过程包括三个阶段:对象级注意、组织和解释

  1. 一方面,对语言情态的理解分为三个不同的阶段:关注问题中最相关的单词(词级注意)解释与图像相关的语言特征(解释),以及将被解释的多情态特征调节到语言情态上(条件作用)。其中有两个注意力模块,即语言词级注意力模块视觉对象级注意力模块问题Q被输入到GRU中,然后GRU词嵌入W通过词级注意力模块将这些嵌入聚合到语言特征L中。词级注意力模块计算每个词的注意力分数,然后取词嵌入的加权和。

  2. 另一方面,将图像I输入Faster R-CNN,获得对象特征O类特征C。然后,视觉对象级注意力模块将O和C连接起来,并为每个对象及其类分配一个分数。视觉特征V连接的对象及其类的加权和

  3. 在注意模块之后,进行推理循环,以迭代地理解视觉和语言模式,如图1所示。推理循环在聚集的特征V和L上迭代,以模拟PAC人类学习机制的分层性质。
    为了视觉理解,推理循环将V与自身融合,组织成更有意义的视觉特征,以方便所有视觉特征之间的交互。
    接下来,它根据语言特征L对它们进行解释。在语言理解的情况下,推理循环首先根据语言特征L对应的视觉特征V对它们进行解释。然后它对L进行解释,以保持问题的核心特征。

  4. 最后,经过多次推理循环,提出的框架HIPA通过合并视觉和语言特征对正确答案进行分类

    我们在两个不同的VQA数据集上评估我们的框架:**VQA 2.0**和**TDIUC**。我们对HIPA的每个功能进行了广泛的消融研究,特别是在注意力模块和推理周期上。此外,我们在视觉关系检测(VRD)任务上评估了我们的方法,以进一步评估对视觉模态特征的理解。我们将组织模块合并到VRD框架中,该框架对各种可视对象之间的关系进行了分类。此外,我们使用余弦相似度和曼哈顿距离的标准偏差来评估推理周期产生的视觉和语言特征。我们认为,具有相同答案的图像-问题对最终应该具有相似的视觉和语言特征。因此,标准偏差很好地表明了特征之间有多接近,以及在推理周期后异常值出现的频率。与其他框架相比,我们的框架显示出较低的标准偏差。定性研究主要在注意模块和使用余弦相似度评分和注意图评估特征的推理循环中进行。
    

主要贡献

  • 受PAC机制的启发,HIPA遵循一种分层模式,通过对两种模态使用注意力模块来独立地解释视觉和语言特征,然后将聚合的特征传递到推理循环中。
  • 受人类感知心理过程的启发,HIPA提出将视觉理解分为注意、组织和理解三个阶段。视觉理解的划分促进了对视觉特征的框架理解。
  • 我们使用余弦相似度和曼哈顿距离的标准差作为视觉和语言特征的评价指标。与其他VQA框架相比,提出的HIPA获得了更好的标准差分数。
  • 本文提出的方法在TDIUC和VRD数据集上取得了先进的性能,并且在VQA 2.0数据集上具有竞争力的结果

HIPA框架

3.1. Visual and language features extraction

Faster R - CNN模块GRU模块中提取视觉初始特征和语言初始特征。

3.2. The implementation of perception action cycle (PAC)感知动作循环

在初步提取视觉和语言特征后,注意力模块通过PAC原理对两种模态进行理解的推理循环,如图1所示。语言模态被加工为动作,而视觉模态被认为是感知。视觉特征最初通过object-level attention module,只关注相关的object,然后通过organization module获得更有意义和可理解的模式,以便模型可以学习如何根据语言特征来解释它们。对于语言特征的理解,语言特征被送入word-level attention module,随后根据视觉特征进行解释。被解释的语言特征随后在其上一个时间步特征的基础上进行条件化,以保持显著的语言特征。

2种attention

注意力阶段通过两个注意力模块(object-level attention module和word-level attention module)关注视觉和语言模态中最相关的实体。


  • 对于语言模态,使用word-level attention module,通过为每个单词分配一个分数来找到最相关的单词。它随后在单词维度上应用了一个加权和函数。聚合后的语言特征记为L

  • 对于视觉模态,有3个初始视觉特征:objects( O )classes( C )confidence scores( CS ),它们从Faster R - CNN模块中获得。为了获得最终的视觉特征V,对这三个特征进行了利用。如公式所示。( 6 ),

object-level attention module将( C )与其对应的( CS )相乘,便于丢弃置信度分数较低的类。随后,乘法的输出与它们对应的对象特征( O )串联,以提升整体视觉特征( 最终结果记为OC ):
在这里插入图片描述

双线性融合模块被作为获取visual attention scores的引导机制。在这里插入图片描述
双线性融合的输出(Y)是一个关系向量,编码并捕获两个输入向量X1和X2之间的相关性。T∈RI × J × K是将输入映射到输出Y的可学习张量。

OC的注意力分数( sn∈S)由language and visual modalities的关系向量( R )获得:
在这里插入图片描述

visual attention scores( S )通过使用全连接层从关系向量( R )中计算:
在这里插入图片描述
双线性融合函数记为Bn ( · ),全连接层记为Fn ( · ),其中n为第n个。

final aggregated visual features最终的聚合视觉特征( V )是通过object维度上的加权和函数得到的:
在这里插入图片描述
在这里插入图片描述

Reasoning cycle推理循环

推理循环是一个循环模块,主要负责视觉和语言模态的相互联系。
对于视觉模态的理解,视觉特征( V )最初被组织成更有意义和可理解的特征。之后,模型学习如何根据语言特征来解释这些特征。

对于语言模态而言,语言特征( L )是相对于其对应的视觉特征直接解释的。然后,以t - 1时刻的语言特征为条件,对t时刻的语言特征进行解释。由于视觉模态和语言模态在VQA任务中的角色差异,语言模态需要条件功能来保持问题的关键意义和意图。推理循环迭代两种模态,并将它们的理解联系起来。这种视觉特征的循环连接提高了对语言特征的理解,反之亦然。
推理循环模块 RC ( · )如下,其中t表示时间步长:
在这里插入图片描述

Comprehension of visual features 视觉特征的理解

推理循环中对视觉特征的理解分为两个阶段。首先,推理循环模块使用双线性融合模块将视觉特征组织成更有意义的特征。它被用来组织视觉特征,以捕获所有其他视觉特征之间的关系。如前所述,双线性融合以两个向量作为输入来计算关系向量。在推理循环的组织阶段,双线性融合模块以Vt−1为第一输入,在这里插入图片描述为第二输入。双线性融合产生了一个视觉关系向量,它编码了所有视觉特征的关系和相互作用。推理循环中的组织步骤如下:
在这里插入图片描述
其中θB2为可训练参数。在经典方法中,视觉特征通过全连接层投射到嵌入空间。然而,我们利用双线性融合的建模能力来促进视觉特征之间的相互作用。

解读阶段interpretation phase是理解视觉模态的下一步。在这一阶段,我们解释和捕获了关于他们的语言特征的重要视觉相关性。双线性融合模块B3编码两种模态的相互作用:
在这里插入图片描述
visual features和Language features的融合有助于根据相应的问题学习复杂且相关的视觉特征。

Comprehension of language features 语言特征的理解

Language features与visual features略有不同,因为它们在VQA任务中需要不同的理解水平。在视觉形态中,有一些视觉objects和features可能包含与问题的答案无关的内容。然而,这与language modality不一样,language modality中的每个词在理解问题和给出正确答案方面都起着重要的作用。因此,在推理过程中,对语言形态的理解分为解释和条件反射两个阶段。

在第一阶段,框架解释language features,并通过双线性融合模块捕获它们与相应视觉特征的交互。随后,该框架通过一个乘法函数,在前一个时间步长(Lt−1)的language features上,对某个时间步长(Lt)的解释语言特征进行限制。限制阶段避免了对问题意义有贡献的重要特征的不必要损失。语言理解的两个阶段如下:
在这里插入图片描述

3.3. Classification Module

框架的最后阶段,聚合的视觉和语言特征被合并在一起,以获得每个可能答案的得分。
在这里插入图片描述

相关文章:

基于感知动作循环的层次推理用于视觉问答

title:Hierarchical Reasoning Based on Perception Action Cycle for Visual Question Answering 基于感知动作循环的层次推理用于视觉问答 文章目录title:[Hierarchical Reasoning Based on Perception Action Cycle for Visual Question Answering](…...

python中的.nc文件处理 | 05 NetCDF数据的进一步分析

​ NetCDF数据的进一步分析 比较不同数据集、不同季节的气候数据 import os import numpy as np import pandas as pd import matplotlib.pyplot as plt import cartopy.crs as ccrs import cartopy.feature as cfeature import seaborn as sns import geopandas as gpd import…...

GGX发布全新路线图,揭示具备 Layer0 特性且可编程的跨链基建生态

据彭博社报道,具备跨链通信且可编程的 Layer0 基础设施协议 Golden Gate (GGX) 已进行了 两年的线下开发,于近日公开发布了最新的路线图,该路线图不仅显示了该生态在过去两年的发展历程,也披露了 2023 年即将实现的重要里程碑。 G…...

taro+vue3 搭建一套框架,适用于微信小程序和H5

这里写tarovue3 搭建一套框架,适用于微信小程序和H5TaroVue3 搭建适用于微信小程序和 H5 的框架的大致步骤:TaroVue3 搭建适用于微信小程序和 H5 的框架的大致步骤: 安装 Taro。可以在终端输入以下命令进行安装: npm install -g…...

C++:模板初阶(泛型编程、函数模板、类模板)

文章目录1 泛型编程2 函数模板2.1 函数模板概念2.2 函数模板格式2.3 函数模板的原理2.4 函数模板的实例化2.5 模板参数的匹配原则3 类模板3.1 类模板的定义格式3.2 类模板的实例化1 泛型编程 所谓泛型,也就是通用型的意思。 在以往编写代码时,我们常常…...

把数组排成最小的数 AcWing(JAVA)

输入一个正整数数组,把数组里所有数字拼接起来排成一个数,打印能拼接出的所有数字中最小的一个。 例如输入数组 [3,32,321][3,32,321],则打印出这 33 个数字能排成的最小数字 321323321323。 数据范围 数组长度 [0,500][0,500]。 样例&#x…...

4.3 PBR

1. 实验目的 熟悉PBR的应用场景掌握PBR的配置方法2. 实验拓扑 PBR实验拓扑如图4-8所示: 图4-8:PBR 3. 实验步骤 (1) IP地址的配置 R1的配置 <Huawei>system-view...

hmac — 加密消息签名和验证

hmac — 加密消息签名和验证 1.概述 它的全称叫做Hash-based Message Authentication Code: 哈希消息认证码&#xff0c;从名字中就可以看出来这个hmac基于哈希函数的&#xff0c;并且还得提供一个秘钥key&#xff0c;它的作用就是用来保证消息的完整性&#xff0c;不可篡改。…...

AWS攻略——使用ACL限制访问

文章目录确定出口IP修改ACL修改主网络ACL修改入站规则修改子网ACL创建子网ACL新增入站规则新增出站规则关联子网假如我们希望限制只有公司内部的IP可以SSH登录到EC2&#xff0c;则可以考虑使用ACL来实现。 我们延续使用《AWS攻略——创建VPC》的案例&#xff0c;在它的基础上做…...

【已解决】关于 luckysheet 设置纯文本,解决日期格式回显错误的办法

目录 一、现象 二、分析 三、思考过程 五、解决 六、参考链接 一、现象 在excel里面输入内容&#xff0c;如 2023-2-17 12:00 保存后&#xff0c;传回后端的数据被转化成了 数值类型&#xff0c;这显然是一种困扰。 如图所示 二、分析 查阅了文档和一些博客发现 Lucky…...

Jackson

first you need to add dependence: gradle: implementation com.fasterxml.jackson.core:jackson-databind:2.13.1 implementation com.fasterxml.jackson.datatype:jackson-datatype-jsr310:2.13.1原生Jackson的使用示例: /*** 原生Jackson的使用示例*/ public class Jacks…...

字节软件测试岗:惨不忍睹的三面,幸好做足了准备,月薪19k,已拿offer

我今年25岁&#xff0c;专业是电子信息工程本科&#xff0c;19年年末的时候去面试&#xff0c;统一投了测试的岗位&#xff0c;软件硬件都有&#xff0c;那时候面试的两家公司都是做培训的&#xff0c;当初没啥钱&#xff0c;他们以面试为谎言再推荐去培训这点让我特别难受。后…...

vue使用axios发送post请求携带json body参数,后端使用@RequestBody进行接收

前言 最近在做自己项目中&#xff0c;做一个非常简单的新增用户场景&#xff0c;但是使用原生axios发送post请求的时候&#xff0c;还是踩了不少坑的。 唉&#xff0c;说多了都是泪&#xff0c;小小一个新增业务&#xff0c;在自己前后端一起开发的时候&#xff0c;硬是搞了好…...

【python百炼成魔】python之列表详解

文章目录一. 列表的概念1.1 列表是什么&#xff1f;1.2 为什么要使用列表&#xff1f;1.3 列表的定义二. 列表的增删改查操作2.1 列表的读取2.2 列表的切片2.3 列表的查询操作2.3.1 not in ,in 表达式2.3.2 列表元素遍历2.4 列表元素的增加操作2.4.1 append()的相关用法2.4.2 e…...

如何学习 Web3

在本文中&#xff0c;我将总结您可以采取的步骤来学习 Web3。从哪儿开始&#xff1f;当我们想要开始新事物时&#xff0c;我们需要一些指导&#xff0c;以免在一开始就卡住。但我们都是不同的&#xff0c;我们有不同的学习方式。这篇文章基于我学习 Web3 的非常个人的经验。路线…...

大数据框架之Hadoop:MapReduce(一)MapReduce概述

1.1MapReduce定义 MapReduce是一个分布式计算框架&#xff0c;用于编写批处理应用程序&#xff0c;是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序&#xff0c;并发运行在一…...

一文搞定python语法进阶

前言前面我们已经学习了Python的基础语法&#xff0c;了解了Python的分支结构&#xff0c;也就是选择结构、循环结构以及函数这些具体的框架&#xff0c;还学习了列表、元组、字典、字符串这些Python中特有的数据结构&#xff0c;还用这些语法完成了一个简单的名片管理系统。下…...

2019蓝桥杯真题数列求值(填空题) C语言/C++

题目描述 本题为填空题&#xff0c;只需要算出结果后&#xff0c;在代码中使用输出语句将所填结果输出即可。 给定数列 1,1,1,3,5,9,17,⋯&#xff0c;从第 4 项开始&#xff0c;每项都是前 3 项的和。 求第 20190324 项的最后 4 位数字。 运行限制 最大运行时间&#xff1a…...

spring中@Autowire和@Resource的区别在哪里?

介绍今天使用Idea写代码的时候&#xff0c;看到之前的项目中显示有warning的提示&#xff0c;去看了下&#xff0c;是如下代码?Autowire private JdbcTemplate jdbcTemplate;提示的警告信息Field injection is not recommended Inspection info: Spring Team recommends: &quo…...

算法训练营DAY54|583. 两个字符串的删除操作、72. 编辑距离

583. 两个字符串的删除操作 - 力扣&#xff08;LeetCode&#xff09;https://leetcode.cn/problems/delete-operation-for-two-strings/这道题也是对于编辑距离的铺垫题目&#xff0c;是可以操作两个字符串的删除&#xff0c;使得两个字符串的字符完全相同&#xff0c;这道题可…...

国防科技大学计算机基础课程笔记02信息编码

1.机内码和国标码 国标码就是我们非常熟悉的这个GB2312,但是因为都是16进制&#xff0c;因此这个了16进制的数据既可以翻译成为这个机器码&#xff0c;也可以翻译成为这个国标码&#xff0c;所以这个时候很容易会出现这个歧义的情况&#xff1b; 因此&#xff0c;我们的这个国…...

【杂谈】-递归进化:人工智能的自我改进与监管挑战

递归进化&#xff1a;人工智能的自我改进与监管挑战 文章目录 递归进化&#xff1a;人工智能的自我改进与监管挑战1、自我改进型人工智能的崛起2、人工智能如何挑战人类监管&#xff1f;3、确保人工智能受控的策略4、人类在人工智能发展中的角色5、平衡自主性与控制力6、总结与…...

大型活动交通拥堵治理的视觉算法应用

大型活动下智慧交通的视觉分析应用 一、背景与挑战 大型活动&#xff08;如演唱会、马拉松赛事、高考中考等&#xff09;期间&#xff0c;城市交通面临瞬时人流车流激增、传统摄像头模糊、交通拥堵识别滞后等问题。以演唱会为例&#xff0c;暖城商圈曾因观众集中离场导致周边…...

循环冗余码校验CRC码 算法步骤+详细实例计算

通信过程&#xff1a;&#xff08;白话解释&#xff09; 我们将原始待发送的消息称为 M M M&#xff0c;依据发送接收消息双方约定的生成多项式 G ( x ) G(x) G(x)&#xff08;意思就是 G &#xff08; x ) G&#xff08;x) G&#xff08;x) 是已知的&#xff09;&#xff0…...

服务器硬防的应用场景都有哪些?

服务器硬防是指一种通过硬件设备层面的安全措施来防御服务器系统受到网络攻击的方式&#xff0c;避免服务器受到各种恶意攻击和网络威胁&#xff0c;那么&#xff0c;服务器硬防通常都会应用在哪些场景当中呢&#xff1f; 硬防服务器中一般会配备入侵检测系统和预防系统&#x…...

大语言模型如何处理长文本?常用文本分割技术详解

为什么需要文本分割? 引言:为什么需要文本分割?一、基础文本分割方法1. 按段落分割(Paragraph Splitting)2. 按句子分割(Sentence Splitting)二、高级文本分割策略3. 重叠分割(Sliding Window)4. 递归分割(Recursive Splitting)三、生产级工具推荐5. 使用LangChain的…...

《用户共鸣指数(E)驱动品牌大模型种草:如何抢占大模型搜索结果情感高地》

在注意力分散、内容高度同质化的时代&#xff0c;情感连接已成为品牌破圈的关键通道。我们在服务大量品牌客户的过程中发现&#xff0c;消费者对内容的“有感”程度&#xff0c;正日益成为影响品牌传播效率与转化率的核心变量。在生成式AI驱动的内容生成与推荐环境中&#xff0…...

学习STC51单片机31(芯片为STC89C52RCRC)OLED显示屏1

每日一言 生活的美好&#xff0c;总是藏在那些你咬牙坚持的日子里。 硬件&#xff1a;OLED 以后要用到OLED的时候找到这个文件 OLED的设备地址 SSD1306"SSD" 是品牌缩写&#xff0c;"1306" 是产品编号。 驱动 OLED 屏幕的 IIC 总线数据传输格式 示意图 …...

视频字幕质量评估的大规模细粒度基准

大家读完觉得有帮助记得关注和点赞&#xff01;&#xff01;&#xff01; 摘要 视频字幕在文本到视频生成任务中起着至关重要的作用&#xff0c;因为它们的质量直接影响所生成视频的语义连贯性和视觉保真度。尽管大型视觉-语言模型&#xff08;VLMs&#xff09;在字幕生成方面…...

Spring Boot+Neo4j知识图谱实战:3步搭建智能关系网络!

一、引言 在数据驱动的背景下&#xff0c;知识图谱凭借其高效的信息组织能力&#xff0c;正逐步成为各行业应用的关键技术。本文聚焦 Spring Boot与Neo4j图数据库的技术结合&#xff0c;探讨知识图谱开发的实现细节&#xff0c;帮助读者掌握该技术栈在实际项目中的落地方法。 …...