当前位置: 首页 > article >正文

【DeepMLF】具有可学习标记的多模态语言模型,用于情感分析中的深度融合

这是一篇我完全看不懂的论文,写的好晦涩,适合唬人,所以在方法部分我以大白话为主

abstract

在多模态情感分析(MSA)中,多模态融合已经得到了广泛的研究,但融合深度和多模态容量分配的作用还没有得到充分的研究。在这项工作中,我们将融合深度、可扩展性和专用多模容量作为有效融合的主要因素。本文介绍了DeepMLF,一种新的多模态语言模型(LM),该模型具有面向深度融合的可学习标记.

DeepMLF利用视听编码器和预训练的解码器LM,在其各层中增加了多模态信息。我们将可学习的标记附加到LM,以:1)以受控的方式捕获模态交互; 2)为每个模态保留独立的信息流。这些融合标记通过LM块中的因果自注意来收集语言信息,并通过交叉注意MM块与视听信息整合。作为专用的多模式容量,该设计支持跨多个层的渐进式融合,提供融合过程的深度。我们的训练方法结合了特定模态损失和语言建模损失,解码器LM的任务是预测标签真实极性。在具有不同数据集特征的三个MSA基准测试中,DeepMLF实现了最先进的性能。我们的结果证实,融合深度越深,性能越好,最佳融合深度(5-7)超过了现有方法。此外,我们对融合令牌数量的分析表明,较小的令牌集(≈ 20)可获得最佳性能。我们通过视听编码器初始化实验来检验表示学习顺序(融合课程)的重要性。我们的消融研究证明了所提出的融合设计和门控的优越性,同时提供了DeepMLF对LLM的可扩展性的整体检查,以及每个训练目标和嵌入正则化的影响。

连摘要都写的如此晦涩

  • 现有技术:多模态融合(比如同时分析语音、表情、文字)已经被广泛研究,但有两个问题没解决清楚:
    1. ​融合深度​​(不同模态的信息应该在神经网络的哪几层进行融合?深层还是浅层?)
    2. ​容量分配​​(如何给不同模态分配计算资源?比如是否要让语音单独处理一部分信息)

#+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

  • 关键设计​​:
  • ​可学习的融合标记​​:在语言模型(比如类似GPT的文本模型)中加入一些"灵活的小开关",这些开关能:
    • 控制不同模态(语音、视觉、文字)的交互程度
    • 让每个模态保留独立的信息流(避免强行融合导致信息混乱)
  • ​分层渐进融合​​:在语言模型的多个层级(5-7层)逐步融合多模态信息(类似人类先听声音,再看表情,最后综合理解情绪)
  • ​专用多模态计算模块​​:新增一个交叉注意力模块,专门处理语音和视觉信息与文本的关联

#+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

  • 在三个不同数据集上表现最优(SOTA),证明:
    • 深层融合(5-7层)比浅层融合效果好
    • 融合标记数量并非越多越好(约20个最佳)
    • 训练策略很重要:先单独训练各模态编码器,再联合训练(类似先学单科再综合考试)
    • 模型可扩展到大型语言模型(LLM),说明方法具有通用性

intro

(从人类认知到研究领域,从普遍到具体;以人类多模态感知的自然现象为起点,引出多模态机器学习MML的核心目标:模仿人类认知,开发能集成多模态数据的系统,强调多模态融合是MML的技术关键,并分类为早期/晚期/混合/深度融合,指出深度融合的优势,但现有研究对齐探索不足)

人类感知并联合收割机来自不同来源和感官的信息,以理解周围环境并与之互动。多模态信号和表示也被人类大脑在学习概念时使用。因此,我们可以说,多模态跨越了整个人类认知过程。多模态机器学习(MML)研究如何开发能够处理和集成异构和互连类型的数据(如视觉,听觉和文本信息)的系统或代理。该领域的目标涉及系统的设计,理解,推理,并通过多种感官形式从世界中学习,例如,语言和非语言交流以及对场景的理解。

从通过语音和语言识别情感到从文本生成图像,基本操作是多模态融合[1]。从技术上讲,融合是学习表征的问题,这些表征既捕获单峰信息,又捕获不同模态元素之间的跨模态交互。从概念上讲,与更异构的模态相比,更同质的模态更容易联合收割机。融合技术可以大致分为早期、晚期、混合和深度融合方法。早期融合结合早期阶段的数据,后期融合在最后阶段,和混合融合结合这些方案。深度融合通常涉及架构内的多个融合阶段。

最近在MML领域的工作采用深度融合方案来利用多模态的优点。从ViLBERT [2]和UNITER [3]的自监督方法到基于多模态大语言模型(LLM)的方法[4]、[5],在若干层上执行融合,例如,UNITER为24。然而,对于纯监督的多模态任务,例如对以人为中心的视频剪辑的情感理解,所使用的融合机制相当肤浅。特别地,它们通常涉及将预先训练的架构与浅层融合机制相结合。

(问题定位,现有研究的不足,领域聚焦缩小到多模态情感分析,

批判现状:

1.融合深度不足,当前MSA方法融合机制“肤浅”,如仅3层,而其他MML任务,如ViLBERT已用深度融合

相关文章:

【DeepMLF】具有可学习标记的多模态语言模型,用于情感分析中的深度融合

这是一篇我完全看不懂的论文,写的好晦涩,适合唬人,所以在方法部分我以大白话为主 abstract 在多模态情感分析(MSA)中,多模态融合已经得到了广泛的研究,但融合深度和多模态容量分配的作用还没有得到充分的研究。在这项工作中,我们将融合深度、可扩展性和专用多模容量作…...

uniapp如何获取安卓原生的Intent对象

通过第三方app唤起,并且获取第三方app唤起时携带的参数 因为应用a唤起应用b时,应用b第一时间就要拿到参数token,所以需要将获取参数的方法写在APP.vue中的onLaunch钩子里,如果其他地方要用可以选择vuex或者采用本地缓存。 uniapp中plus.run…...

implement the “pixel-wise difference“

根据在处理图像数据的来源和格式的不同,在具体实现“两幅图像残差比较”的时候,分为两类方法。 类型一:PyTorch 的 Tensor 图像格式 imgs_pil_o [transforms.ToPILImage()(img_o) for img_o in imgs_o] imgs_pil_w [transforms.ToPILImag…...

tinycudann安装过程加ubuntu18.04gcc版本的升级(成功版!!!!)

使用的是 Linux,安装以下软件包 sudo apt-get install build-essential git安装 CUDA 并将 CUDA 安装添加到您的 PATH。 例如,如果您有 CUDA 12.6.3,请将以下内容添加到您的/usr/local/~/.bashrcexport PATH"/usr/local/cuda-12.6.3/bi…...

Android 实现一个隐私弹窗

效果图如下&#xff1a; 1. 设置同意、退出、点击用户协议、点击隐私协议的函数参数 2. 《用户协议》、《隐私政策》设置成可点击的&#xff0c;且颜色要区分出来 res/layout/dialog_privacy_policy.xml 文件 <?xml version"1.0" encoding"utf-8"?&…...

Oracle无法正常OPEN(三)

在Oracle数据库中&#xff0c;如果几个数据文件丢失&#xff0c;导致数据库无法启动&#xff0c;报错“ORA-01157: cannot identify/lock data file 2 - see DBWR trace file”&#xff0c;如果没有物理备份的情况下&#xff0c;位于丢失数据文件的数据是无法找回的&#xff0c…...

本地服务验证-仙盟创梦IDE-智能编程,编程自动备份+编程审计

本地服务验证server using System; using System.Net;class Program {static void Main(){HttpListener listener new HttpListener();listener.Prefixes.Add("http://localhost:8080/");listener.Start();Console.WriteLine("服务器已启动&#xff0c;监听中…...

[学成在线]22-自动部署项目

自动部署 实战流程 下边使用jenkins实现CI/CD的流程。 1、将代码使用Git托管 2、在jenkins创建任务&#xff0c;从Git拉取代码。 3、拉取代码后进行自动构建&#xff1a;测试、打包、部署。 首先将代码打成镜像包上传到docker私服。 自动创建容器、启动容器。 4、当有代…...

Golang|使用函数作为参数和使用接口的联系

函数作为数据类型的一种&#xff0c;可以成为其他函数的参数。在 Go&#xff08;Golang&#xff09; 中&#xff0c;函数作为参数 和 接口&#xff08;interface&#xff09;&#xff0c;本质上都和抽象、灵活调用有关 —— 都是让代码更灵活、更可扩展的手段。不过它们各有侧重…...

MATLAB技巧——norm和vecnorm两个函数讲解与辨析

在 MATLAB 中,norm 和 vecnorm 是两个用于计算向量或矩阵范数的函数,虽然它们的功能相似,但在使用场景和适用性上存在一些区别。本文将详细解释这两个函数的用途、功能以及如何选择合适的函数。 文章目录 norm函数用法范数类型vecnorm函数用法范数类型选择合适的函数示例对比…...

ubuntu的libc 库被我 sudo apt-get --reinstall install libc6搞没了

我系统的libc 没了 今天为了运行一个开源的yuv 播放器&#xff0c;在运行的时候提醒 Inconsistency detected by ld.so: dl-call-libc-early-init.c: 37: _dl_call_libc_early_init: Assertion sym ! NULL failed!然后听从AI 的建议 当我去执行ls 时&#xff0c;系统提示 就这…...

Ubuntu搭建Conda+Python开发环境

目录 一、环境说明 1、测试环境为ubuntu24.04.1 2、更新系统环境 3、安装wget工具 4、下载miniconda安装脚本 二、安装步骤 1、安装miniconda 2、source conda 3、验证版本 4、配置pip源 三、conda用法 1、常用指令 一、环境说明 1、测试环境为ubuntu24.04.1 2、更…...

智能工厂规划学习——深入解读数字化工厂规划与建设方案

项目总体思路聚焦于通过智能制造和数字化工厂建设,来优化企业战略并提升信息化水平。首先,企业需学习先进国家已经验证的先进经验,并紧跟其正在变革的方向,以确保自身发展的前瞻性和竞争力。 在企业战略层面,企业正从以产品为中心的业务模式,逐步转变为以服务中心…...

【学习笔记】深入理解Java虚拟机学习笔记——第2章 Java内存区域与内存溢出异常

第2章 Java内存区域与内存溢出异常 2.1 概述 略 2.2 运行时数据区域 2.2.1 程序计数器 线程私有&#xff0c;记录执行的字节码位置 2.2.2 Java 虚拟机栈 线程私有&#xff0c;存储一个一个的栈帧&#xff0c;通过栈帧的出入栈来控制方法执行。 -栈帧&#xff1a;对应一个…...

Python全流程开发实战:基于IMAP协议安全下载个人Gmail邮箱内所有PDF附件

在日常办公场景中&#xff0c;面对成百上千封携带PDF附件的邮件&#xff0c;手动逐一下载往往耗时耗力&#xff0c;成为效率瓶颈。如何通过代码实现“一键批量下载”&#xff1f;本文将以**“Gmail全量PDF附件下载工具”**开发为例&#xff0c;完整拆解从需求分析到落地交付的P…...

【验证技能】VIP项目大总结

VIP项目快做一段落了&#xff0c;历时一年半&#xff0c;也该要一个大汇总。 VIP简介 VIP开发流程 VIP难点 进程同步 打拍插入不同bit位宽数据问题。 动态升降lane VIP做的不好的地方和改进想法 各层之间交互 testsuite两端关键 所有层的实现架构不统一 VIP经验 ** 架构…...

Pytest-mark使用详解(跳过、标记、参数 化)

1.前言 在工作中我们经常使用pytest.mark.XXXX进行装饰器修饰&#xff0c;后面的XXX的不同&#xff0c;在pytest中有不同的作 用&#xff0c;其整体使用相对复杂&#xff0c;我们单独将其抽取出来做详细的讲解。 2.pytest.mark.skip()/skipif()跳过用例 import pytest #无条…...

【浅尝Java】Java简介第一个Java程序(含JDK、JRE与JVM关系、javcdoc的使用)

&#x1f35e;自我激励&#xff1a;每天努力一点点&#xff0c;技术变化看得见 文章目录 Java语言概述Java是什么Java语言的重要性Java语言发展简史Java语言特性 第一个Java程序main方法示例运行Java程序JDK、JRE、JVM之间的关系注释基本规则注释规范 标识符关键字 Java语言概述…...

游戏打击感实现

视觉表现 1.帧冻结&#xff08;卡肉&#xff09; 原理&#xff1a;在攻击命中的瞬间暂停动画播放&#xff08;通常0.1-0.3s&#xff09;&#xff0c;伯尼真实打击时的反作用力停滞感。实现&#xff1a;通过控制动画播放速度&#xff08;如Unity的Animator.speed&#xff09;结…...

项目三 - 任务2:创建笔记本电脑类(一爹多叔)

在本次实战中&#xff0c;我们通过Java的单根继承和多接口实现特性&#xff0c;设计了一个笔记本电脑类。首先创建了Computer抽象类&#xff0c;提供计算的抽象方法&#xff0c;模拟电脑的基本功能。接着定义了NetCard和USB两个接口&#xff0c;分别包含连接网络和USB设备的抽象…...

Electron学习+打包

1. 什么是 Electron&#xff1f; Electron 是⼀个 跨平台桌⾯应⽤ 开发框架&#xff0c;开发者可以使⽤&#xff1a;HTML、CSS、JavaScript 等 Web 技术来构建桌⾯应⽤程序&#xff0c;它的本质是结合了 Chromium 和 Node.js &#xff0c;现在⼴泛⽤于桌⾯应 ⽤程序开发&a…...

NumPy线性代数功能全解析:矩阵运算与方程求解实用指南

NumPy 是线性代数领域中高效的工具。它可以帮助完成矩阵运算和方程求解。本文将介绍 NumPy 中用于线性代数的常用函数。 矩阵乘法 矩阵乘法会根据两个矩阵生成一个新矩阵。具体做法是将第一个矩阵的每一行与第二个矩阵的每一列相乘&#xff0c;并将乘积相加&#xff0c;得到新…...

《RabbitMQ 全面解析:从原理到实战的高性能消息队列指南》

一、RabbitMQ 核心原理与架构 1. 核心组件与工作流程 RabbitMQ 基于 AMQP 协议&#xff0c;核心组件包括 生产者&#xff08;Producer&#xff09;、交换机&#xff08;Exchange&#xff09;、队列&#xff08;Queue&#xff09; 和 消费者&#xff08;Consumer&#xff09;。…...

jenkins slave节点打包报错Failed to create a temp file on

jenkins slave节点打包报错 一、报错信息 FATAL: Unable to produce a script file Also: hudson.remoting.Channel$CallSiteStackTrace: Remote call to slave-83at hudson.remoting.Channel.attachCallSiteStackTrace(Channel.java:1784)at hudson.remoting.UserRequest$…...

计算机视觉——通过 OWL-ViT 实现开放词汇对象检测

介绍 传统的对象检测模型大多是封闭词汇类型,只能识别有限的固定类别。增加新的类别需要大量的注释数据。然而,现实世界中的物体类别几乎无穷无尽,这就需要能够检测未知类别的开放式词汇类型。对比学习(Contrastive Learning)使用成对的图像和语言数据,在这一挑战中备受…...

Android Framework学习二:Activity创建及View绘制流程

文章目录 Window绘制流程Window Manager Service&#xff08;WMS&#xff09;SurfaceSurfaceFlinger 安卓View层次结构ActivityPhoneWindowActivity与PhoneWindow两者之间的关系ViewRootImplDecorViewDecorView 的作用DecorView 的结构总结 Activity创建流程View invalidate调用…...

python如何在深度学习框架目标检测算法使用Yolov8训练道路汽车漆面车漆缺陷数据集 建立基于YOLOv8道路汽车漆面缺陷(划痕)检测系统

基于YOLOv8道路汽车漆面缺陷&#xff08;划痕&#xff09;检测系统 文章目录 1. 安装依赖2. 数据集准备与划分3. 数据预处理4. 配置YOLOv85. 训练和评估模型6. 推理与可视化7. 构建GUI应用程序 道路汽车漆面车漆缺陷检测数据集1221张 1类 汽车漆面缺陷检测YOLO数据集 1221张…...

高性能、云原生的对象存储服务MinIO 详细介绍与案例应用

什么是MinIO&#xff1f; MinIO是一个高性能、云原生的对象存储服务&#xff0c;采用Apache License v2.0开源协议发布。它与Amazon S3云存储服务API兼容&#xff0c;适合构建高性能、可扩展的存储基础设施。支持大规模非结构化数据的存储&#xff0c;适合图片、视频、日志、备…...

Tailwind CSS 响应式设计解析(含示例)

本文内容&#xff1a; Tailwindcss V4 中如何使用响应式设计功能&#xff0c;包括默认断点、自定义断点、断点范围控制以及容器查询的各种技巧&#xff0c;帮助你在不离开 HTML 的前提下优雅构建响应式页面。 &#x1f31f; 默认断点用法&#xff08;移动优先&#xff09; Tail…...

Arduino按键开关编程详解

一、按键开关的基本原理与硬件连接 1.1 按键开关的工作原理 按键开关是一种常见的输入设备&#xff0c;其核心原理基于机械触点的闭合与断开。当用户按下按键时&#xff0c;内部的金属片会连接电路两端&#xff0c;形成通路&#xff1b;松开按键后&#xff0c;金属片在弹簧作…...