MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model
问题
多模态语义理解通常需要处理不确定性,这意味着获得的消息往往涉及多个目标。这种不确定性对我们的解释来说是有问题的,包括模式间和模式内的不确定性。人们很少研究这种不确定性的建模,特别是在未标记数据集的预训练和特定任务下游数据集的微调方面。
贡献
- 我们专注于多模态理解的语义不确定性,并提出了一个称为概率分布编码器的新模块,将多模态表示中的不确定性框架为高斯分布。
- 我们开发了三个不确定性感知预训练任务来处理大规模未标记数据集,包括 D-VLC、D-MLM 和 D-ITM 任务。据我们所知,这是利用 VLP 中表示的概率分布的首次尝试。
- 我们将所提出的预训练任务包装到端到端多模态不确定性感知视觉语言预训练模型(称为 MAP)中,用于下游任务。实验表明 MAP 获得了最先进的 (SoTA) 性能。
结构和方法

为了提取特征,我们利用图像编码器和语言编码器。具体来说,我们采用 CLIP-ViT 作为图像编码器,采用 RoBERTa-Base 作为语言编码器。
在我们的方法中,图像块序列比文本序列长得多,使得视觉特征的权重太大而无法一起计算注意力分数。为了解决这个问题,我们选择具有两个变压器分支的双流模块,其中自注意力分数是单独计算的。
主要结构有NL层跨模态编码器。每个编码器主要由两个自注意(SA)块和两个交叉注意(CA)块组成。在每种模态的 SA 块中,查询、键和值向量都是从视觉或语言特征线性投影的。在第 i 层的视觉到语言交叉注意力块中,查询向量表示自注意力块之后的语言特征 T ′ i ,键/值向量表示视觉特征 I′ i 。通过采用多头注意力(MHA)操作,CA 块使语言特征能够跨模态学习视觉信息。语言到视觉的 CA 块与视觉到语言的 CA 块类似。带SA和CA的第i层编码器的工作流程如下:

然后利用D-VLC D-MLM D-ITM三个任务来进行模型的训练

PDE的输入特征来自不同模态的点表示空间。为了对多模态不确定性进行建模,我们进一步将输入特征构建为多元高斯分布。具体来说,PDE 预测每个输入特征的均值向量 (μ) 和方差向量 (σ2)。均值向量表示分布在概率空间中的中心位置,方差向量表示分布在每个维度上的范围。
PDF(概率分布器)考虑到均值和方差向量建模需要特征级和序列级交互。具体来说,前特征级和序列级交互。馈层用于特征级交互,多头(MH)操作负责序列级交互。
我们提出了一种概率分布编码器(PDE),同时考虑到对均值和方差向量进行建模需要特征级和序列级交互。具体来说,前馈层用于特征级交互,多头(MH)操作负责序列级交互。通过应用 MH 操作,输入隐藏状态 H ∈ RT ×D 被分成 k 个头,其中 T 是序列长度,D 是隐藏大小。在每个头中,我们分割特征并将它们发送到两条路径(μ,σ2)。在每条路径中,输入隐藏状态 H(i) ∈ RT ×D/2k 被投影到第 i 个头中的 Q(i)、K(i)、V(i)。举例来说,μ路径中的操作为:

其中 dk 设置为 D/(2k)。权重Wqkv ∈ Rdk×3dk 是将输入投影到每个头的子空间中。权重 WO ∈ Rkdk×D 将 k 个头结果的串联投影到输出空间。 aActo 包括用于考虑序列级交互的激活函数和归一化函数。 σ2 路径与μ 路径类似。由于输入点表示与均值向量相关,因此采用加法运算来学习均值向量。
总结
在这项工作中,我们通过将其建模到概率分布来关注现实世界对象中的多模态不确定性。通过考虑序列级和特征级交互,我们提出了概率分布编码器(PDE)来获得不同模态的分布表示。我们的实验表明,分布表示对于 VL 下游任务是有益的。此外,不确定性建模有助于多样化的预测。为了学习大规模数据中的多模态不确定性,我们设计了三个新的预训练任务(D-MLM、DITM 和 D-VLC)。此外,我们提出了一种端到端多模态不确定性感知视觉语言预训练模型(MAP)来获得通用分布表示。我们凭经验证明了所提出的 MAP 在几个 VL 下游任务上的有效性。未来,我们将探索更多的分布子空间并在更大的数据集上进行实验。
相关文章:
MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model
问题 多模态语义理解通常需要处理不确定性,这意味着获得的消息往往涉及多个目标。这种不确定性对我们的解释来说是有问题的,包括模式间和模式内的不确定性。人们很少研究这种不确定性的建模,特别是在未标记数据集的预训练和特定任务下游数据…...
【SpringCache】快速入门 通俗易懂
1. 介绍 Spring Cache 是一个框架,实现了基于注解的缓存功能,只需要简单地加一个注解,就能实现缓存功能。 Spring Cache 提供了一层抽象,底层可以切换不同的缓存实现,例如: EHCache Caffeine Redis(常用…...
GeoTools学习笔记
Feature要素: 例子:Csv2Shape.java 创建要素,先创建FeatureType,再创建Feature 根据FeatureCollection,可以创建shapefile https://docs.geotools.org/latest/userguide/library/main/data.html API详解:…...
短剧规模达到了百亿元,短剧分销成为短剧新模式
我国短剧市场规模直接突破了三百多亿元,目前已经是互联网的一大创业风口! 一、短剧特点 在当下快节奏的生活中,短剧具有的快节奏、剧情紧凑的特点,符合大众对影视的需求。目前我国的短剧题材主要是言情、总裁、赘婿等࿰…...
Kotlin 中的 `as` 关键字:类型转换的艺术
在 Android 编程中,类型转换是一项常见的操作。为了使这一过程更加流畅和安全,Kotlin 提供了 as 关键字。本文将深入探讨 as 关键字的用法和最佳实践。 一、as 关键字的基本概念 🚀 as 关键字在 Kotlin 中用于显式类型转换。它将一个表达式…...
CDN可以给企业网站带来哪些优势?
企业网站带来哪些优势?现在企业最关心的问题,就是我的网站能不能打开,用户访问到的是不是正常的页面,网站是否能够正常运营,而互联网是 一个开放式的平台,网站是否能够正常运营和很多因素都有关系ÿ…...
离线运行Oracle Database In-Memory Advisor
概念 离线运行Oracle Database In-Memory Advisor,就是不在生产系统上运行。这样可以避免影响生产系统。但需要从生产系统导出以下的数据: AWR DumpAWR补充数据 过程 导出AWR Dump 连接到CDB root运行。 SQL> connect / as sysdba SQL> ?/r…...
2,PyCharm的下载与安装
1,PyCharm的下载 a:打开PyCharm官网,并选择Developer Tools → PyCharm Pycharm官网地址 b:点击Download c:下载完成后,会在下载文件夹中,出现“pycharm-professional-2023.3.exe”文件 2&a…...
HNU计算机视觉作业一
前言 选修的是蔡mj老师的计算机视觉,上课还是不错的,但是OpenCV可能需要自己学才能完整把作业写出来。由于没有认真学,这门课最后混了80多分,所以下面作业解题过程均为自己写的,并不是标准答案,仅供参考 …...
Java:SpringBoot获取当前运行的环境activeProfile
代码示例 /*** 启动监听器*/ Component public class AppListener implements ApplicationListener<ApplicationReadyEvent> {Overridepublic void onApplicationEvent(ApplicationReadyEvent event) {// 获取当前的环境,如果是test,则直接返回Co…...
射频功率放大器的参数有哪些
射频功率放大器是射频通信系统中重要的组件,用于将输入的射频信号放大到需要的功率水平。在设计和选择射频功率放大器时,需要考虑多种参数。下面西安安泰将详细介绍射频功率放大器的常见参数。 1、P1dB功率压缩点 当放大器的输入功率比较低时,…...
3-5、多态性
语雀原文链接 文章目录 1、多态类型2、上下转型3、instanceof 1、多态类型 编译时多态:方法重载 在编译阶段就已经确定要调用哪个重载的方法 运行时多态:方法重写 具体调用哪个子类的方法要到运行的时候,结果才能确定,多态只针对…...
什么是https 加密协议?
什么是https 加密协议? 加密通信的作用加密原理数字证书SSL/TLS 协议部署和使用重要性 HTTPS(Hyper Text Transfer Protocol Secure)是一种网络传输协议,它是基于HTTP协议的扩展,通过加密通信内容来保障数据传输的安全…...
低压无功补偿在分布式光伏现场中的应用
摘要:分布式光伏电站由于建设时间短、技术成熟、收益明显而发展迅速,但光伏并网引起用户功率因数异常的问题也逐渐凸显。针对分布式光伏电站接入配电网后功率因数降低的问题,本文分析了低压无功补偿装置补偿失效的原因,并提出了一…...
人工智能技术在宽域飞行器控制中的应用
近年来,以空天飞行器、高超声速飞行器等 ̈1 为典型代表的宽域飞行器蓬勃发展,如图1所示,其 不仅对高端装备制造、空间信息以及太空经济等领 域产生辐射带动作用,进一步提升了中国在航空航 天领域的自主创新能力,同时也…...
NGINX高性能服务器与关键概念解析
目录 1 NGINX简介2 NGINX的特性3 正向代理4 反向代理5 负载均衡6 动静分离7 高可用8 结语 1 NGINX简介 NGINX(“engine x”)在网络服务器和代理服务器领域备受推崇。作为一款高性能的 HTTP 和反向代理服务器,它以轻量级、高并发处理能力以及…...
云ssrf
https://book.hacktricks.xyz/pentesting-web/ssrf-server-side-request-forgery/cloud-ssrf SSRF -> EC2 Metadata API -> IAM临时Security Token -> AWS SSM -> RCESSRF -> EC2 Metadata API -> IAM临时Security Token -> AWS Lambda -> RCESSRF -&g…...
面试题目总结(三)
1. Spring、Springboot、springMVC、Spring Cloud 的区别: Spring:Spring 是一个开源的、轻量级的Java框架,提供了丰富的功能和组件,用于构建企业级应用程序。Spring框架包含了很多模块,包括核心容器、数据访问、事物…...
Kubernetes入门笔记——(2)k8s设计文档
k8s最初源自谷歌的Brog项目,架构与其类似,主要包括etcd、api server、controller manager、scheduler、kubelet和kube-proxy等组件 etcd:分布式存储,保存k8s集群的状态 api server:资源操作的唯一入口,…...
LoadBalancer将服务暴露到外部实现负载均衡metallb-layer2模式配置介绍
目录 一.metallb简介 1.支持多种负载均衡协议 2.支持自定义 IP 地址范围 3.无需额外的硬件设备 4.易于安装和配置 5.可扩展性强 6.layer2模式下选举的leader节点压力大 二.layer2模式配置演示 1.开启ipvs并开启严格ARP模式 2.下载并应用metallb 3.创建一个 IPAddres…...
3步实现微信关系检测,让社交管理效率提升80%
3步实现微信关系检测,让社交管理效率提升80% 【免费下载链接】WechatRealFriends 微信好友关系一键检测,基于微信ipad协议,看看有没有朋友偷偷删掉或者拉黑你 项目地址: https://gitcode.com/gh_mirrors/we/WechatRealFriends 在数字社…...
如何突破游戏外设限制?ViGEmBus虚拟手柄驱动技术全攻略
如何突破游戏外设限制?ViGEmBus虚拟手柄驱动技术全攻略 【免费下载链接】ViGEmBus Windows kernel-mode driver emulating well-known USB game controllers. 项目地址: https://gitcode.com/gh_mirrors/vi/ViGEmBus 在游戏世界中,硬件兼容性问题…...
QMCDecode终极指南:解锁QQ音乐加密格式的完整解决方案
QMCDecode终极指南:解锁QQ音乐加密格式的完整解决方案 【免费下载链接】QMCDecode QQ音乐QMC格式转换为普通格式(qmcflac转flac,qmc0,qmc3转mp3, mflac,mflac0等转flac),仅支持macOS,可自动识别到QQ音乐下载目录,默认转…...
Z-Image-GGUF助力开源社区:为GitHub项目自动生成演示图
Z-Image-GGUF助力开源社区:为GitHub项目自动生成演示图 你有没有过这样的经历?精心维护一个开源项目,代码写得漂亮,文档也写得详细,但项目主页总感觉少了点什么。点开别人的项目,有精美的架构图、清晰的流…...
ES6到ES10实战指南:这些JavaScript新特性你真的用对了吗?
ES6到ES10实战指南:这些JavaScript新特性你真的用对了吗? 1. 从语法糖到编程范式:重新理解ES6核心特性 2015年发布的ES6堪称JavaScript历史上最具革命性的更新。但五年过去了,很多开发者对这些特性的理解仍停留在表面。让我们深入…...
OpenClaw开源贡献:为Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF开发社区技能
OpenClaw开源贡献:为Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF开发社区技能 1. 为什么我要为OpenClaw开发技能 去年冬天,我在整理个人项目文档时,突然意识到一个痛点:每次都要手动将Markdown笔记转换成不同平台要求的格式…...
Spoon与Gradle插件集成:现代化Android项目的最佳实践指南 [特殊字符]
Spoon与Gradle插件集成:现代化Android项目的最佳实践指南 🚀 【免费下载链接】spoon Distributing instrumentation tests to all your Androids. 项目地址: https://gitcode.com/gh_mirrors/sp/spoon Spoon是一个强大的Android测试分发工具&…...
Qwen3.5-2B模型Java环境快速配置与Hello World实例
Qwen3.5-2B模型Java环境快速配置与Hello World实例 1. 前言:为什么选择Java调用Qwen3.5-2B 如果你是一名Java开发者,想要快速体验大语言模型的魅力,这篇教程就是为你准备的。Qwen3.5-2B作为一款轻量级但性能出色的开源模型,非常…...
基础入门-版本控制-GitLab/Gitea 基本使用
GitLab/Gitea 基本使用 在前面的章节中,我们学习了 Git 基础命令和团队协作流程。在实际工作中,这些操作都是围绕着代码托管平台展开的。GitLab 和 Gitea 是两种广泛使用的自托管 Git 仓库管理工具,它们提供了仓库管理、权限控制、代码审查、CI/CD 等功能,是运维团队进行配…...
Unity3D 资源逆向工程:AssetStudio 源码编译与定制化开发指南
1. 为什么需要编译AssetStudio源码 第一次接触Unity资源逆向时,我也像大多数人一样直接下载了AssetStudio的release版本。双击exe就能看到熟悉的界面,拖入apk文件就能解包,这种开箱即用的体验确实很爽。但很快我就遇到了棘手的问题࿱…...
