当前位置: 首页 > article >正文

【NLP 52、多模态相关知识】

生活应该是美好而温柔的,你也是

                                                —— 25.4.1

一、模态 modalities

常见: 文本、图像、音频、视频、表格数据等

罕见: 3D模型、图数据、气味、神经信号等


二、多模态

1、Input and output are of different modalities (eg: text-to-image, image-to-text)

输入和输出具有不同的模态(例如文本到图像、图像到文本)

2、Inputs are multimodal (eg:a system that can process both text and images)

输入同时是多模态的(例如可以处理文本和图像的系统)

3、Outputs are multimodal (eg: a system that can generate both text and images)

输出是多模式的(例如可以生成文本和图像的系统)


三、为什么需要多模态

1.许多现实任务是天然的多模态任务

2.加入不同模态有助于模型提升表现(加强模型对世界的理解)

3.更加灵活的使用方式和广阔的应用场景


四、GPT-4V

接收图像 + 提示词,给出一些回答


五、多模态模型要点

1.文本如何编码

Transformer 文本编码器


2.图像如何编码

ViT 图像编码器

        把一张图像切分成n份,把每份切分后的图像展平为一个向量,在这些向量中可以加入位置编码(位置编码也可以换做ROPE相对位置编码)进行定位,每一小份图像相当于NLP领域中的每个字,输入的图像就是一个矩阵

图像self-attention

图像的self-attention可以看作是图像的每一部分图像的其余部分交互做计算


3.文本编码与图像编码之间如何交互【计算关系】

Ⅰ、CLIP 图文交互

        分别对文本(Text encoder)和图像(Image encoder)进行编码,两者经过编码后分别得到一个向量,然后对这两个得到的向量做一种类似于Triplet Loss 或 Cosine的训练

        训练目标:如果这段文本是用来描述这张图的,则让二者的向量比较接近,反之则差距较远

CLIP图文交互:使用对比学习的训练方式

        将图像和文本编码到统一特征空间,并通过最大化匹配对的相似度、最小化非匹配对的相似度来对齐两种模态。

CLIP 采用文本编码器图像编码器双塔结构,分别处理文本和图像输入,并将两者的特征映射到同一向量空间。

        文本编码器:基于 Transformer,输入文本通过词嵌入和位置编码后,经多层自注意力机制提取语义特征,最终输出固定长度的文本嵌入向量(如 512 维)。

        图像编码器:支持 ResNet 或 Vision Transformer(ViT)。以 ViT 为例,图像被分割为 16×16 的图像块,通过线性投影和位置编码后,经多层 Transformer 层提取视觉特征,输出图像嵌入向量。

        联合嵌入空间:通过共享投影层(如全连接层)将文本和图像嵌入归一化为单位向量,确保两者在同一空间中可计算相似度。


Ⅲ、flamingo 图文交互

        Flamingo 是 DeepMind 提出的多模态视觉语言模型,通过冻结预训练模型 + 新型交叉注意力机制的架构设计,实现了少样本学习(Few-Shot Learning)和上下文学习(In-Context Learning)能力。

flamingo gated xatten

Attention同时输入一个x 和 y,输入的图像矩阵 x 过所谓的 K 和 V,输入的文本编码 y 过 Q,然后以 Q、K、V的形式计算交叉注意力cross attention

计算q * k ^ t横轴是文本,竖轴是图像,计算图像序列文本序列的注意力


Ⅳ、LLava 图文交互(倾向于主流)

        输入时,直接将输入图像的编码与输入文本的编码拼接起来,一起送入语言模型【如传统的Transformer结构】

LLava attention (本质上就是普通的self-attention)

        文字向量与图像向量拼接起来的序列,与自身逐个计算注意力分数,得到一个拼接序列长度 × 拼接序列长度的注意力矩阵

相关文章:

【NLP 52、多模态相关知识】

生活应该是美好而温柔的,你也是 —— 25.4.1 一、模态 modalities 常见: 文本、图像、音频、视频、表格数据等 罕见: 3D模型、图数据、气味、神经信号等 二、多模态 1、Input and output are of different modalities (eg: tex…...

【树莓派Pico FreeRTOS】-软件定时器(Software Timers)

软件定时器(Software Timers) 文章目录 软件定时器(Software Timers)1、硬件准备2、软件准备3、FreeRTOS的软件定时器介绍3.1 触发一次定时器(Oneshort Timer)3.2 重复定时器RP2040 由 Raspberry Pi 设计,具有双核 Arm Cortex-M0+ 处理器和 264KB 内部 RAM,并支持高达 16MB 的…...

My first day in QT programming

My first QT code this->setWindowTitle("HelloWorld"); //设置窗口名称 this->resize(400, 300); //设置窗口大小 QPushButton* btn new QPushButton; //新建按钮组件 btn->setParent(this); //为按钮指定父对象 …...

MySQL分组的时候遇到ONLY_FULL_GROUP_BY报错和解决

一、ONLY_FULL_GROUP_BY 错误的根本原因 MySQL 5.7 及以上版本默认启用了 sql_modeonly_full_group_by 严格模式。该模式强制要求: SELECT 中的非聚合字段必须出现在 GROUP BY 子句中;所有非聚合字段需通过聚合函数(如 MAX、MIN、SUM&#…...

Element Plus 常用组件

2025/4/1 向全栈工程师迈进!!! 常见Element Plus组件的使用,其文章中“本次我使用到的按钮如下”是我自己做项目时候用到的,记录以加强记忆。阅读时可以跳过。 一、Button按钮 1.1基础按钮 在element plus中提供的按…...

2025年优化算法:真菌生长优化算法(Fungal Growth Optimizer,FGO)

真菌生长优化算法(Fungal Growth Optimizer,FGO) 是发表在中科院一区期刊“ARTIFICIAL INTELLIGENCE REVIEW”(IF:6.7)的2025年3月智能优化算法 01.引言 Fungal Growth Optimizer (FGO) 是一种基于真菌生长行为的元启发式优化算法…...

人工智能之数学基础:矩阵分解之LU分解

本文重点 LU分解是线性代数中一种重要的矩阵分解方法,它将一个方阵分解为一个下三角矩阵(L)和一个上三角矩阵(U)的乘积。这种分解方法在数值线性代数中有着广泛的应用,特别是在求解线性方程组、计算矩阵的行列式、求逆矩阵等方面。 LU分解的基本概念 设A是一个nn的方阵…...

阿里通义千问发布全模态开源大模型Qwen2.5-Omni-7B

Qwen2.5-Omni 是一个端到端的多模态模型,旨在感知多种模态,包括文本、图像、音频和视频,同时以流式方式生成文本和自然语音响应。汇聚各领域最先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。https:/…...

23 种设计模式中的解释器模式

给定一个语言,定义它的文法的一种表示,并定义一个解释器,这个解释器使用该表示来解释语言中的句子。 这种模式通常用于需要解释执行某种语言的场景,如正则表达式、SQL解析等。 解释器模式的核心组件。 抽象表达式(Ab…...

AquaMoon and Chess_CodeForces - 1545B

由110变成011,由011变成110,“11”的组合和0可以交换位置 如果是1110 或者是 1110 的情况,红色的“11”与0换位置,变成1011,可以看成蓝色的“11”到了0的后面,蓝色“11”和0的相对位置改变了,而…...

软考-数据库系统工程师第四版pdf

软考-数据库系统工程师第四版pdf git中的文件相对没有那么清楚,网盘的有高清版 github下载 这里我给出仓库地址 链接: https://github.com/yaodada123/ruankao-pdf https://github.com/yaodada123/ruankao-pdf gitee下载 https://gitee.com/yao-hengchao/ruank…...

淘天集团Java开放岗暑期实习笔试(2025年4月2日)

摘要: 除3道笔试题外,还有10道单选、5道不定项、2道Java单选、1道Java不定项选择题,笔试时长100分组,整体难度很大。三道算法题本人全部没有AC(惭愧),事后总结至此。 第一道算法题&#xff0c…...

关于 数据库 UNION 和 UNION ALL 的使用,以及 分库分表环境下多表数据组合后的排序和分页问题的解决方案 的详细说明,并以表格总结关键内容

以下是关于 数据库 UNION 和 UNION ALL 的使用,以及 分库分表环境下多表数据组合后的排序和分页问题的解决方案 的详细说明,并以表格总结关键内容: 1. UNION 和 UNION ALL 的核心区别 1.1 定义与语法 UNION 功能:合并两个或多个 …...

【接口重复请求】axios通过AbortController解决页面切换过快,接口重复请求问题

处理网络请求时,我们经常会遇到需要中途取消请求的情况,比如用户在两个tab之间反复横跳的场景,如果每个接口都从头请求到结束,那必然会造成很大的服务压力。 AbortController是一个Web API,它提供了一个信号对象&…...

论文阅读:基于增强通用深度图像水印的混合篡改定位技术 OmniGuard

一、论文信息 论文名称:OmniGuard: Hybrid Manipulation Localization via Augmented Versatile Deep Image Watermarking作者团队:北京大学发表会议:CVPR2025论文链接:https://arxiv.org/pdf/2412.01615二、动机与贡献 动机: 随着生成式 AI 的快速发展,其在图像编辑领…...

Flutter极速接入IM聊天功能并支持鸿蒙

Flutter极速接入IM聊天功能并支持鸿蒙 如果你们也是Flutter项目,想快速接入聊天,包括聊天的UI界面,强烈推荐这一家。因为我们已经完成了集成,使用非常稳定,集成也非常快捷方便。 而且,就在今天&#xff0c…...

深挖 DeepSeek 隐藏玩法·智能炼金术2.0版本

前引:屏幕前的你还在AI智能搜索框这样搜索吗?“这道题怎么写”“苹果为什么红”“怎么不被发现翘课” ,。看到此篇文章的小伙伴们!请准备好你的思维魔杖,开启【霍格沃茨模式】,看我如何更新秘密的【知识炼金…...

C语言数组知识点

一、数组的基本概念 1.定义 数组是相同数据类型元素的集合,通过连续内存存储,支持高效访问。 核心特点: 元素类型相同 内存连续分配 通过下标访问(从 0 开始) 2.分类 一维数组:线性结构(如…...

【新手初学】SQL注入getshell

一、引入 木马介绍: 木马其实就是一段程序,这个程序运行到目标主机上时,主要可以对目标进行远程控制、盗取信息等功能,一般不会破坏目标主机,当然,这也看黑客是否想要搞破坏。 木马类型: 按照功…...

DAY 34 leetcode 349--哈希表.两个数组的交集

题号349 我尝试硬解失败 /*class Solution {public int[] intersection(int[] nums1, int[] nums2) {int n1nums1.length;int n2nums2.length;int sizeMath.min(n1,n2);int []arrnew int[size];int count0;for(int i0;i<n1;i){outerloop:for(int j0;j<n2;j){if(nums1[i…...

Qt常用宏定义判断大全

Qt 提供了一系列预定义宏用于判断 Qt 版本、操作系统平台、编译器特性等。这些宏在跨平台开发中非常有用。 1. Qt 版本判断宏 // 检查Qt版本 #if QT_VERSION > QT_VERSION_CHECK(5, 15, 0)// Qt 5.15.0及以上版本特有代码 #endif// 常用版本判断 #if QT_VERSION > QT_V…...

tsconfig.json:error TS6306: Referenced project ‘/tsconfig.node.json‘

这是TypeScript配置文件中的错误。具体有两个问题&#xff1a; 错误TS6306&#xff1a;引用的项目/tsconfig.node.json必须设置"composite": true错误TS6310&#xff1a;引用的项目tsconfig.node.json不能禁用emit 要解决这些问题&#xff0c;需要修改tsconfig.nod…...

14-SpringBoot3入门-MyBatis-Plus之CRUD

1、整合 13-SpringBoot3入门-整合MyBatis-Plus-CSDN博客 2、表 3、crud package com.sgu;import com.sgu.mapper.UserMapper; import com.sgu.pojo.User; import org.junit.jupiter.api.Test; import org.springframework.beans.factory.annotation.Autowired; import org.spri…...

前端面试常考算法题目详解

根据2025年最新前端面试趋势&#xff0c;结合腾讯、阿里等大厂真题&#xff0c;我为你整理了以下高频算法题型及JS实现方案&#xff1a; 一、数组/字符串处理 1. 两数之和&#xff08;哈希表法&#xff09; 问题&#xff1a;找出数组中两数之和等于目标值的索引 const twoSu…...

三轴云台之相机技术篇

一、结构设计 三轴云台通常由空间上三个互相垂直的框架构成&#xff0c;包括内框&#xff08;俯仰框&#xff09;、中框&#xff08;方位框&#xff09;和外框&#xff08;横滚框&#xff09;。这些框架分别负责控制相机的俯仰运动、方位运动和横滚运动&#xff0c;从而实现对目…...

质量和工艺之间的区别与联系?

我们生活中常常会遇到这些现象:冰箱漏水,修手机,电脑死机卡死,空调不制冷等等一些现象,我相信99%用户的第一反应是产品的质量不太行对吧! 其实不然,站在专业分析角度,难道冰箱漏水就一定是质量的问题吗? 不一定,小编认为要根本原因出发考虑,冰箱漏水了,可能和工艺…...

Bugku-再也没有纯白的灵魂

下载文件发现是兽音先用https://roar.iiilab.com/加密flag 得到“~呜嗷嗷嗷嗷呜啊嗷啊呜呜嗷呜呜~嗷嗷~啊嗷啊呜嗷嗷~嗷~嗷~呜呜嗷呜啊啊”&#xff0c;与密文对比对比发现字段少个啊&#xff0c;并且B对应嗷&#xff0c;U对应呜&#xff0c;G对应啊&#xff0c;K对应~补充啊后…...

推导Bias² + Variance + σ²_ε

问题的背景 我们有一个真实函数 f ( x ) f(x) f(x) 和基于训练数据 D D D 训练得到的模型 f ^ ( x ; D ) \hat{f}(x;D) f^​(x;D)。对于任意输入 x x x&#xff1a; y y y 是真实的观测值&#xff0c;定义为 y f ( x ) ϵ y f(x) \epsilon yf(x)ϵ&#xff0c;其中 …...

多模态大语言模型arxiv论文略读(一)

Does Transliteration Help Multilingual Language Modeling? ➡️ 论文标题&#xff1a;Does Transliteration Help Multilingual Language Modeling? ➡️ 论文作者&#xff1a;Ibraheem Muhammad Moosa, Mahmud Elahi Akhter, Ashfia Binte Habib ➡️ 研究机构: Pennsyl…...

单元测试原则之——不要模拟不属于你的类型

在单元测试中,不要模拟不属于你的类型(Don’t mock types you don’t own)是一个重要的原则。这是因为外部库或框架的类型(如第三方依赖)可能会在未来的版本中发生变化,而你的模拟可能无法反映这些变化,从而导致测试失效。 以下是一个基于Java Mockito 的示例,展示如何…...