MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model
问题
多模态语义理解通常需要处理不确定性,这意味着获得的消息往往涉及多个目标。这种不确定性对我们的解释来说是有问题的,包括模式间和模式内的不确定性。人们很少研究这种不确定性的建模,特别是在未标记数据集的预训练和特定任务下游数据集的微调方面。
贡献
- 我们专注于多模态理解的语义不确定性,并提出了一个称为概率分布编码器的新模块,将多模态表示中的不确定性框架为高斯分布。
- 我们开发了三个不确定性感知预训练任务来处理大规模未标记数据集,包括 D-VLC、D-MLM 和 D-ITM 任务。据我们所知,这是利用 VLP 中表示的概率分布的首次尝试。
- 我们将所提出的预训练任务包装到端到端多模态不确定性感知视觉语言预训练模型(称为 MAP)中,用于下游任务。实验表明 MAP 获得了最先进的 (SoTA) 性能。
结构和方法

为了提取特征,我们利用图像编码器和语言编码器。具体来说,我们采用 CLIP-ViT 作为图像编码器,采用 RoBERTa-Base 作为语言编码器。
在我们的方法中,图像块序列比文本序列长得多,使得视觉特征的权重太大而无法一起计算注意力分数。为了解决这个问题,我们选择具有两个变压器分支的双流模块,其中自注意力分数是单独计算的。
主要结构有NL层跨模态编码器。每个编码器主要由两个自注意(SA)块和两个交叉注意(CA)块组成。在每种模态的 SA 块中,查询、键和值向量都是从视觉或语言特征线性投影的。在第 i 层的视觉到语言交叉注意力块中,查询向量表示自注意力块之后的语言特征 T ′ i ,键/值向量表示视觉特征 I′ i 。通过采用多头注意力(MHA)操作,CA 块使语言特征能够跨模态学习视觉信息。语言到视觉的 CA 块与视觉到语言的 CA 块类似。带SA和CA的第i层编码器的工作流程如下:

然后利用D-VLC D-MLM D-ITM三个任务来进行模型的训练

PDE的输入特征来自不同模态的点表示空间。为了对多模态不确定性进行建模,我们进一步将输入特征构建为多元高斯分布。具体来说,PDE 预测每个输入特征的均值向量 (μ) 和方差向量 (σ2)。均值向量表示分布在概率空间中的中心位置,方差向量表示分布在每个维度上的范围。
PDF(概率分布器)考虑到均值和方差向量建模需要特征级和序列级交互。具体来说,前特征级和序列级交互。馈层用于特征级交互,多头(MH)操作负责序列级交互。
我们提出了一种概率分布编码器(PDE),同时考虑到对均值和方差向量进行建模需要特征级和序列级交互。具体来说,前馈层用于特征级交互,多头(MH)操作负责序列级交互。通过应用 MH 操作,输入隐藏状态 H ∈ RT ×D 被分成 k 个头,其中 T 是序列长度,D 是隐藏大小。在每个头中,我们分割特征并将它们发送到两条路径(μ,σ2)。在每条路径中,输入隐藏状态 H(i) ∈ RT ×D/2k 被投影到第 i 个头中的 Q(i)、K(i)、V(i)。举例来说,μ路径中的操作为:

其中 dk 设置为 D/(2k)。权重Wqkv ∈ Rdk×3dk 是将输入投影到每个头的子空间中。权重 WO ∈ Rkdk×D 将 k 个头结果的串联投影到输出空间。 aActo 包括用于考虑序列级交互的激活函数和归一化函数。 σ2 路径与μ 路径类似。由于输入点表示与均值向量相关,因此采用加法运算来学习均值向量。
总结
在这项工作中,我们通过将其建模到概率分布来关注现实世界对象中的多模态不确定性。通过考虑序列级和特征级交互,我们提出了概率分布编码器(PDE)来获得不同模态的分布表示。我们的实验表明,分布表示对于 VL 下游任务是有益的。此外,不确定性建模有助于多样化的预测。为了学习大规模数据中的多模态不确定性,我们设计了三个新的预训练任务(D-MLM、DITM 和 D-VLC)。此外,我们提出了一种端到端多模态不确定性感知视觉语言预训练模型(MAP)来获得通用分布表示。我们凭经验证明了所提出的 MAP 在几个 VL 下游任务上的有效性。未来,我们将探索更多的分布子空间并在更大的数据集上进行实验。
相关文章:
MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model
问题 多模态语义理解通常需要处理不确定性,这意味着获得的消息往往涉及多个目标。这种不确定性对我们的解释来说是有问题的,包括模式间和模式内的不确定性。人们很少研究这种不确定性的建模,特别是在未标记数据集的预训练和特定任务下游数据…...
【SpringCache】快速入门 通俗易懂
1. 介绍 Spring Cache 是一个框架,实现了基于注解的缓存功能,只需要简单地加一个注解,就能实现缓存功能。 Spring Cache 提供了一层抽象,底层可以切换不同的缓存实现,例如: EHCache Caffeine Redis(常用…...
GeoTools学习笔记
Feature要素: 例子:Csv2Shape.java 创建要素,先创建FeatureType,再创建Feature 根据FeatureCollection,可以创建shapefile https://docs.geotools.org/latest/userguide/library/main/data.html API详解:…...
短剧规模达到了百亿元,短剧分销成为短剧新模式
我国短剧市场规模直接突破了三百多亿元,目前已经是互联网的一大创业风口! 一、短剧特点 在当下快节奏的生活中,短剧具有的快节奏、剧情紧凑的特点,符合大众对影视的需求。目前我国的短剧题材主要是言情、总裁、赘婿等࿰…...
Kotlin 中的 `as` 关键字:类型转换的艺术
在 Android 编程中,类型转换是一项常见的操作。为了使这一过程更加流畅和安全,Kotlin 提供了 as 关键字。本文将深入探讨 as 关键字的用法和最佳实践。 一、as 关键字的基本概念 🚀 as 关键字在 Kotlin 中用于显式类型转换。它将一个表达式…...
CDN可以给企业网站带来哪些优势?
企业网站带来哪些优势?现在企业最关心的问题,就是我的网站能不能打开,用户访问到的是不是正常的页面,网站是否能够正常运营,而互联网是 一个开放式的平台,网站是否能够正常运营和很多因素都有关系ÿ…...
离线运行Oracle Database In-Memory Advisor
概念 离线运行Oracle Database In-Memory Advisor,就是不在生产系统上运行。这样可以避免影响生产系统。但需要从生产系统导出以下的数据: AWR DumpAWR补充数据 过程 导出AWR Dump 连接到CDB root运行。 SQL> connect / as sysdba SQL> ?/r…...
2,PyCharm的下载与安装
1,PyCharm的下载 a:打开PyCharm官网,并选择Developer Tools → PyCharm Pycharm官网地址 b:点击Download c:下载完成后,会在下载文件夹中,出现“pycharm-professional-2023.3.exe”文件 2&a…...
HNU计算机视觉作业一
前言 选修的是蔡mj老师的计算机视觉,上课还是不错的,但是OpenCV可能需要自己学才能完整把作业写出来。由于没有认真学,这门课最后混了80多分,所以下面作业解题过程均为自己写的,并不是标准答案,仅供参考 …...
Java:SpringBoot获取当前运行的环境activeProfile
代码示例 /*** 启动监听器*/ Component public class AppListener implements ApplicationListener<ApplicationReadyEvent> {Overridepublic void onApplicationEvent(ApplicationReadyEvent event) {// 获取当前的环境,如果是test,则直接返回Co…...
射频功率放大器的参数有哪些
射频功率放大器是射频通信系统中重要的组件,用于将输入的射频信号放大到需要的功率水平。在设计和选择射频功率放大器时,需要考虑多种参数。下面西安安泰将详细介绍射频功率放大器的常见参数。 1、P1dB功率压缩点 当放大器的输入功率比较低时,…...
3-5、多态性
语雀原文链接 文章目录 1、多态类型2、上下转型3、instanceof 1、多态类型 编译时多态:方法重载 在编译阶段就已经确定要调用哪个重载的方法 运行时多态:方法重写 具体调用哪个子类的方法要到运行的时候,结果才能确定,多态只针对…...
什么是https 加密协议?
什么是https 加密协议? 加密通信的作用加密原理数字证书SSL/TLS 协议部署和使用重要性 HTTPS(Hyper Text Transfer Protocol Secure)是一种网络传输协议,它是基于HTTP协议的扩展,通过加密通信内容来保障数据传输的安全…...
低压无功补偿在分布式光伏现场中的应用
摘要:分布式光伏电站由于建设时间短、技术成熟、收益明显而发展迅速,但光伏并网引起用户功率因数异常的问题也逐渐凸显。针对分布式光伏电站接入配电网后功率因数降低的问题,本文分析了低压无功补偿装置补偿失效的原因,并提出了一…...
人工智能技术在宽域飞行器控制中的应用
近年来,以空天飞行器、高超声速飞行器等 ̈1 为典型代表的宽域飞行器蓬勃发展,如图1所示,其 不仅对高端装备制造、空间信息以及太空经济等领 域产生辐射带动作用,进一步提升了中国在航空航 天领域的自主创新能力,同时也…...
NGINX高性能服务器与关键概念解析
目录 1 NGINX简介2 NGINX的特性3 正向代理4 反向代理5 负载均衡6 动静分离7 高可用8 结语 1 NGINX简介 NGINX(“engine x”)在网络服务器和代理服务器领域备受推崇。作为一款高性能的 HTTP 和反向代理服务器,它以轻量级、高并发处理能力以及…...
云ssrf
https://book.hacktricks.xyz/pentesting-web/ssrf-server-side-request-forgery/cloud-ssrf SSRF -> EC2 Metadata API -> IAM临时Security Token -> AWS SSM -> RCESSRF -> EC2 Metadata API -> IAM临时Security Token -> AWS Lambda -> RCESSRF -&g…...
面试题目总结(三)
1. Spring、Springboot、springMVC、Spring Cloud 的区别: Spring:Spring 是一个开源的、轻量级的Java框架,提供了丰富的功能和组件,用于构建企业级应用程序。Spring框架包含了很多模块,包括核心容器、数据访问、事物…...
Kubernetes入门笔记——(2)k8s设计文档
k8s最初源自谷歌的Brog项目,架构与其类似,主要包括etcd、api server、controller manager、scheduler、kubelet和kube-proxy等组件 etcd:分布式存储,保存k8s集群的状态 api server:资源操作的唯一入口,…...
LoadBalancer将服务暴露到外部实现负载均衡metallb-layer2模式配置介绍
目录 一.metallb简介 1.支持多种负载均衡协议 2.支持自定义 IP 地址范围 3.无需额外的硬件设备 4.易于安装和配置 5.可扩展性强 6.layer2模式下选举的leader节点压力大 二.layer2模式配置演示 1.开启ipvs并开启严格ARP模式 2.下载并应用metallb 3.创建一个 IPAddres…...
理解 MCP 工作流:使用 Ollama 和 LangChain 构建本地 MCP 客户端
🌟 什么是 MCP? 模型控制协议 (MCP) 是一种创新的协议,旨在无缝连接 AI 模型与应用程序。 MCP 是一个开源协议,它标准化了我们的 LLM 应用程序连接所需工具和数据源并与之协作的方式。 可以把它想象成你的 AI 模型 和想要使用它…...
LeetCode - 394. 字符串解码
题目 394. 字符串解码 - 力扣(LeetCode) 思路 使用两个栈:一个存储重复次数,一个存储字符串 遍历输入字符串: 数字处理:遇到数字时,累积计算重复次数左括号处理:保存当前状态&a…...
STM32F4基本定时器使用和原理详解
STM32F4基本定时器使用和原理详解 前言如何确定定时器挂载在哪条时钟线上配置及使用方法参数配置PrescalerCounter ModeCounter Periodauto-reload preloadTrigger Event Selection 中断配置生成的代码及使用方法初始化代码基本定时器触发DCA或者ADC的代码讲解中断代码定时启动…...
React19源码系列之 事件插件系统
事件类别 事件类型 定义 文档 Event Event 接口表示在 EventTarget 上出现的事件。 Event - Web API | MDN UIEvent UIEvent 接口表示简单的用户界面事件。 UIEvent - Web API | MDN KeyboardEvent KeyboardEvent 对象描述了用户与键盘的交互。 KeyboardEvent - Web…...
SpringBoot+uniapp 的 Champion 俱乐部微信小程序设计与实现,论文初版实现
摘要 本论文旨在设计并实现基于 SpringBoot 和 uniapp 的 Champion 俱乐部微信小程序,以满足俱乐部线上活动推广、会员管理、社交互动等需求。通过 SpringBoot 搭建后端服务,提供稳定高效的数据处理与业务逻辑支持;利用 uniapp 实现跨平台前…...
C++ Visual Studio 2017厂商给的源码没有.sln文件 易兆微芯片下载工具加开机动画下载。
1.先用Visual Studio 2017打开Yichip YC31xx loader.vcxproj,再用Visual Studio 2022打开。再保侟就有.sln文件了。 易兆微芯片下载工具加开机动画下载 ExtraDownloadFile1Info.\logo.bin|0|0|10D2000|0 MFC应用兼容CMD 在BOOL CYichipYC31xxloaderDlg::OnIni…...
Fabric V2.5 通用溯源系统——增加图片上传与下载功能
fabric-trace项目在发布一年后,部署量已突破1000次,为支持更多场景,现新增支持图片信息上链,本文对图片上传、下载功能代码进行梳理,包含智能合约、后端、前端部分。 一、智能合约修改 为了增加图片信息上链溯源,需要对底层数据结构进行修改,在此对智能合约中的农产品数…...
Java求职者面试指南:Spring、Spring Boot、MyBatis框架与计算机基础问题解析
Java求职者面试指南:Spring、Spring Boot、MyBatis框架与计算机基础问题解析 一、第一轮提问(基础概念问题) 1. 请解释Spring框架的核心容器是什么?它在Spring中起到什么作用? Spring框架的核心容器是IoC容器&#…...
Qt的学习(一)
1.什么是Qt Qt特指用来进行桌面应用开发(电脑上写的程序)涉及到的一套技术Qt无法开发网页前端,也不能开发移动应用。 客户端开发的重要任务:编写和用户交互的界面。一般来说和用户交互的界面,有两种典型风格&…...
RushDB开源程序 是现代应用程序和 AI 的即时数据库。建立在 Neo4j 之上
一、软件介绍 文末提供程序和源码下载 RushDB 改变了您处理图形数据的方式 — 不需要 Schema,不需要复杂的查询,只需推送数据即可。 二、Key Features ✨ 主要特点 Instant Setup: Be productive in seconds, not days 即时设置 :在几秒钟…...
