多模态大模型之达摩院通义MPLUG
引言
随着人工智能技术的飞速发展,多模态技术逐渐成为研究的热点。它结合了文本、图像、声音等多种数据类型,为机器理解世界提供了更丰富的视角。本文根据严明老师的达摩院通义MPLUG多模态预训练技术分享,及其在电商等行业的应用实践,对多模态技术的未来发展趋势和关键点梳理如下,供大家参考。
多模态技术的研究背景
多模态技术的研究背景可以追溯到人工智能对于复杂场景理解的需求。传统的单模态技术,如文本分析或图像识别,虽然在各自领域取得了显著的成就,但它们往往无法全面地理解和处理现实世界中的复杂信息。多模态技术通过整合不同模态的数据,使得机器能够更全面、更深入地理解信息,从而提高决策和预测的准确性。
多模态技术的定义与重要性
多模态技术是能够同时处理和分析多种类型数据(如文本、图像、声音等)的技术。其重要性在于,现实世界中的信息往往是多模态的,单一的数据类型无法全面反映事物的本质。多模态技术使机器能够更接近人类的感知和认知方式,从而在复杂场景中做出更加精准的判断。
多模态技术的研究动机
- 跨模态理解:现实世界的问题往往需要跨模态的理解,例如,将视觉信息与语言描述相结合,以更好地理解场景和情境。
- 信息的丰富性:不同模态的数据可以提供互补的信息,多模态技术能够整合这些信息,提高对复杂问题的解决能力。
VQA 2.0
视觉问答(Visual Question Answering, VQA)是多模态领域的一个核心任务,它要求系统不仅要理解图像内容,还要理解与图像相关的自然语言问题,并给出准确的答案。VQA 2.0代表了这一领域的进一步发展,它更加注重问题的复杂性和答案的多样性。
Image Caption
图像描述(Image Caption)任务要求系统自动为图像生成描述性文本,这不仅需要理解图像内容,还需要将这种理解转化为自然语言。
其他关键领域
- Cross-modal Retrieval:跨模态检索,即根据一种模态的查询(如文本)检索另一种模态的数据(如图像)。
- Visual Grounding:视觉定位,即将文本描述与图像中的特定区域关联起来。
文本生成图像
文本到图像的生成技术,如OpenAI的DALL-E 2和Google的Imagen,展示了多模态技术在创意领域的应用潜力。这些模型能够根据文本描述生成相应的图像,为艺术创作和内容生成提供了新的可能性。
GPT-4多模态认知能力
GPT-4展示了多模态认知能力,包括对视觉内容的细粒度理解与推理,以及对富文本图片表格的理解与推理。这标志着多模态技术在认知层面的进一步发展。
多模态预训练进展
多模态预训练技术的发展,如GIT2、BEIT3、PALI等,为多模态任务提供了强大的基础模型,这些模型通过预训练学习了丰富的跨模态特征表示。
Vision-Language Pre-training: Basics, Recent Advances, and Future Trends
mPLUG多模态预训练技术
mPLUG是达摩院推出的多模态预训练技术,它通过深度学习框架整合了视觉和语言信息,以提高机器对多模态数据的理解能力。
多模态算法的挑战
在多模态算法的研究中,如何高效准确地表示视觉语义特征是一个关键挑战。此外,设计有效的多模态信息融合机制,以及如何建模图片文档的二维坐标信息和区域结构化信息,都是需要解决的问题。
挑战
1、如何进行高效准确地视觉语义特征表示
- Region / Grid / Patch2、 如何设计有效的多模态信息深度融合机制/结构(文本:high-level语义,图片:low-level语义)
- 多模态预训练(统一多模态理解和生成)
- 时效性(端到端)
- 融合机制(自适应)
3、如何更好地建模图片文档的二维坐标信息以及区域box-1evel结构化信息(富文本图片结构化理解)
AliceMind-MMU技术框架
AliceMind-MMU技术框架通过多模态结构化知识的融入,有效地实现了跨模态特征的融合。这一框架利用了StructBERT等技术,为多模态任务提供了强大的支持。
超大规模中文大模型PLUG
2021年4月19日,阿里达摩院发布了 270 亿参数、1TB + 训练数据、全球最大中文预训练语言模型 PLUG,并以 80.614 的分数刷新了中文语言理解评测基准 CLUE 分类榜单历史纪录。阿里达摩院发布的中文社区最大规模预训练语言模型 PLUG(Pre-training for Language Understanding and Generation)。该模型集语言理解与生成能力于一身,在小说创作、诗歌生成、智能问答等长文本生成领域表现突出。可用在小说续写、专业文稿撰写、生活常识解答、零样本学习、诗词生成、菜谱生成、自由创作等。
• 超大模型规模:在多项大规模分布式训练优化技术加持下,我们模型的参数规模达到270亿,是目前最大规模的中文纯文本预训练模型
•海量中文数据:超大规模模型采用了1T以上高质量中文文本训练数据,涵盖新闻、小说、诗歌、问答等广泛类型及领域
• 零样本生成:模型在不需要任何下游任务标注数据的情况下,就可以实现多种生成任务
端到端视觉语义增强的多模态预训练
E2E-VLP(End-to-End Vision-Language Pre-training)是一种端到端的视觉语义增强预训练方法,它通过视觉学习进一步提升了模型的性能。
- 解决两阶段多模态预训练不灵活、线上时延长的问题,进行视觉语义增强地多模态学习
- 多模态预训练新范式:将End2End多模态预训练统一到Transformer框架,同时支持NLU/NLG任务
- 在预训练中增加Visual Tasks (Object Detection,Image Caption)更好的融合图文语义
- 多个多模态NLU/NLG任务取得两阶段方法Comparable的效果,同时提速3倍
基于跨层融合的高效多模态预训练
mPLUG技术通过跨层融合的方式,实现了高效且有效的多模态学习。它在视觉问答(VQA)和图像描述(COCO Caption)等任务上取得了显著的成绩,超越了其他模型。
具备以下特点:
mPLUG-2模块化多模态预训练
考虑到不同模态,类型数据存在模态拉扯/纠缠(modality entanglement),很难用一个单一模块统一建模,取得所有任务SOTA效果,很难让多/单模态可以相互协同提升(modality collaboration)。 因此,借鉴人脑模块化的思想,提出模块化大一统模型mPLUG-2
• 不同的单/多模块基于对应数据进行层次化预训练,灵活拆拔不同的Module进行单/多模态任务(text,image,video)
• 通过共享universal模块充分利用模态协同,又能拆拔各自modality-specific模块进行模态互补
• mPLUG-2支持NLP/CV/多模态等30+多/单模态任务,在VideoQA和VideoCaption上取得绝对SOTA
• 不同的单/多模块基于对应数据进行层次化预训练,可以灵活拆拔不同的Module进行单/多模态任务(text,image,video)
• 通过共享universal模块充分利用模态协同,又能拆拔各自modality-specific模块进行模态互补
• 通过unified dual-vision encoder模块统一建模image,video进行模态协同帮助
- Dual-vision encoder Module:Image和Video共享Transformer来统一建模空间信息;Video额外增加LocalTemporal模块来建模时序信息
- Universal Layers Module:视觉和文本共享self-attention layers来对齐语义;当前视觉表示通过Specific cross-attention layers映射到original视觉表示来保留模态Bias
多模态电商场景应用
多模态技术在电商领域的应用,为零售行业带来了革命性的变化。通过商品理解结构化、商品主体选择、视频广告创意剪辑等应用,多模态技术提高了电商运营的效率和用户体验。
- 内容电商兴起
- 消费观念变化
- 算法工作挑战巨大(多模态、低资源、带噪声、终身学习)
零售行业大模型的技术亮点
零售行业大模型通过知识交互、多任务统一建模和层次化预训练,提升了多个下游任务的性能,成为双十一等大型促销活动的核心技术亮点。
商品理解结构化与主体选择
商品理解结构化和主体选择技术,使得电商平台能够更准确地识别和推荐商品,提高了用户的购物体验。
知识+数据双驱动的零售大模型技术体系
多任务统一建模
在商品主图中往往有多个物体同时被检测出,而与所售商品相关的主体大多只是其中一个多主体问题是导致图搜召回的一个重要问题,需要进行准确的主体商品的选择(借助商品标题等文本信息)
视频广告创意剪辑
随着内容化建设的推进,视频广告在电商平台上变得越来越重要。多模态技术在视频广告创意剪辑中的应用,使得广告更加吸引用户,提高了转化率。
结语
多模态技术的发展为人工智能领域带来了新的机遇和挑战。优秀的多模态技术方案需要深度跨模态特征融合机制和大规模多模态预训练的支持。多模态统一大模型将成为通用人工智能发展的重要方向。同时,大模型轻量化和层次化模块化大模型的研究,将使得多模态技术更加实用和高效。此外,跨模态数字内容生成技术的发展,都是很好的研究方向。
相关文章:

多模态大模型之达摩院通义MPLUG
引言 随着人工智能技术的飞速发展,多模态技术逐渐成为研究的热点。它结合了文本、图像、声音等多种数据类型,为机器理解世界提供了更丰富的视角。本文根据严明老师的达摩院通义MPLUG多模态预训练技术分享,及其在电商等行业的应用实践&#x…...
文章翻译记录
以 PINN 为基础,我们开发了一个框架,用于在不同震源位置和速度模型下进行地震建模。本研究的显著贡献包括: 1. 为了提高网络对不同速度模型的泛化能力,必须将速度变量 vp 作为系统的输入参数。本研究从监督学习中汲取灵感…...

C++ 语法习题(2)
第三讲 循环语句 1.偶数 编写一个程序,输出 1 到 100之间(包括 1 和 100)的全部偶数。 输入格式 无输入。 输出格式 输出全部偶数,每个偶数占一行。 输入样例 No input输出样例 2 4 6 ... 100 参考代码: #include <i…...
使用Gstreamer时遇到WARNING: erroneous pipeline: no element “x264enc“(亲测有效)
WARNING: erroneous pipeline: no element “x264enc” 解决: 我下了gstreamer1.0-plugins-ugly包就解决了 sudo apt install -y gstreamer1.0-plugins-ugly...

SAP 新增移动类型简介
在SAP系统中新增移动类型的过程涉及多个步骤,包括复制现有的移动类型、调整科目设置以及进行必要的测试。以下是新增移动类型的一般步骤和关键点: 复制现有的移动类型: 使用事务代码OMJJ进入移动类型维护界面。 勾选移动类型 这里不填写移动类型,然后直接下…...
SQL性能优化策略
发现问题 通过业务监控发现慢SQL或接口响应延迟。利用性能分析工具定位问题。 定位SQL语句 使用监控工具确定影响性能的SQL语句和表。 SQL查询变慢原因 索引失效:查询未使用索引或索引效率低。多表连接:JOIN操作导致性能下降。查询字段过多…...
代码随想录第四十八天 | 198.打家劫舍, 213.打家劫舍II,337.打家劫舍III
198.打家劫舍 看完想法:这里的偷/不偷,和背包问题中的放/不放感觉是一个道理,所以在dp递推公式中仍旧使用max(dp[i-2] nums[i], dp[i-1]) int rob(vector<int>& nums) {vector<int> dp(nums.size()1,0);if(nums.size()0) …...
C#实用的工具类库
Masuit.Tools Masuit.Tools大都是静态类,加密解密,反射操作,树结构,文件探测,权重随机筛选算法,分布式短id,表达式树,linq扩展,文件压缩,多线程下载…...

首席数据官CDO证书报考指南:方式、流程、适考人群与考试难度
在信息泛滥的今天,数据已转变为企业不可或缺的宝贵资源。 面对海量的信息,如何提炼出价值,为企业带来实质性的收益?首席数据官(CDO)认证的出现正是为了满足这一需求,它不仅是个人专业能力的体现…...

数据库基础复习
数据库简介 关系型数据库:Mysql 、Oracle 、SqlServer.... DB2 达梦 非关系型数据库:Redis 、MongoDB... MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管…...

探索AI大模型(LLM)减少幻觉的三种策略
大型语言模型(LLM)在生成文本方面具有令人瞩目的能力,但在面对陌生概念和查询时,它们有时会输出看似合理却实际错误的信息,这种现象被称为“幻觉”。近期的研究发现,通过策略性微调和情境学习、检索增强等方…...

【北京迅为】《i.MX8MM嵌入式Linux开发指南》-第一篇 嵌入式Linux入门篇-第十三章 Linux连接档
i.MX8MM处理器采用了先进的14LPCFinFET工艺,提供更快的速度和更高的电源效率;四核Cortex-A53,单核Cortex-M4,多达五个内核 ,主频高达1.8GHz,2G DDR4内存、8G EMMC存储。千兆工业级以太网、MIPI-DSI、USB HOST、WIFI/BT…...

鸿蒙语言基础类库:【@ohos.uri (URI字符串解析)】
URI字符串解析 说明: 本模块首批接口从API version 8开始支持。后续版本的新增接口,采用上角标单独标记接口的起始版本。开发前请熟悉鸿蒙开发指导文档:gitee.com/li-shizhen-skin/harmony-os/blob/master/README.md点击或者复制转到。 导入…...
JavaScript---new Map()用法
new Map 创建 Map 对象设置键值对获取值检查键是否存在键值对数量删除键值对清空所有键值对迭代 Map 在JavaScript中,Map 是一个构造函数,用于创建 Map 对象,它可以存储键值对集合。与普通的对象不同,Map 的键可以是任何类型的值&…...
【数据基础】— 基于Go1.19的站点模板爬虫的实现
目录 1. 定义目标站点 2. 使用Go的库 3. 发送HTTP请求 4. 解析HTML并提取数据 5. 存储数据 6. 并发处理 示例代码 基于Go 1.19的站点模板爬虫实现通常涉及几个关键步骤:定义目标站点、解析HTML页面、提取所需数据、存储数据以及可能的并发处理。下面我将详细…...

Angular进阶之九: JS code coverage是如何运作的
环境准备 需要用到的包 node 18.16.0# Javascript 代码编辑"babel/core": "^7.24.7","babel/preset-env": "^7.24.7","babel-loader": "^9.1.3",# 打包时使用的 module, 给代码中注入新的方法# http…...
el-table 鼠标移入更改悬停背景颜色
鼠标悬停时需要更改当前行背景颜色,一开始写的颜色会改变,但是一闪而过就没了 这是因为移入移出的动画效果导致的 .el-table__body {.el-table__row:hover {background-color: pink !important;}} 更改为后面的代码,就可以了 .el-table__…...

【《无主之地3》风格角色渲染在Unity URP下的实现_角色渲染(第四篇) 】
文章目录 概要描边问题外秒变分叉解决办法1:测试效果如下:外秒变分叉解决办法2:URP管线下PBR渲染源码关键词解释:完整shader代码如下:URP管线下二次元皮肤渲染源码URP管线下二次元头发渲染源码简要介绍文章的目的、主要内容和读者将获得的知识。 概要 提示:《无主之地3》…...

【linux服务器篇】-Redis-RDM远程连接redis
redis desktop manager 使用远程连接工具RDM连接redis 市面上比较常见的其中一款工具redis desktop manager 简单的说: Redis Desktop Manager 简单的来讲就是Redis可视化工具,可以让我们看到Redis中存储的内容。 redis desktop manager是一款功能强…...

【pytorch15】链式法则
x到u再到y,可以理解为x是输入,中间层hidden layer 是u,最后y是pred 对于一个简单的线性层可以展开得到y的表达式,但是对于实际的神经网络还要加上激活函数,此时展开就非常的复杂,不能够一次到位,…...

循环冗余码校验CRC码 算法步骤+详细实例计算
通信过程:(白话解释) 我们将原始待发送的消息称为 M M M,依据发送接收消息双方约定的生成多项式 G ( x ) G(x) G(x)(意思就是 G ( x ) G(x) G(x) 是已知的)࿰…...
线程与协程
1. 线程与协程 1.1. “函数调用级别”的切换、上下文切换 1. 函数调用级别的切换 “函数调用级别的切换”是指:像函数调用/返回一样轻量地完成任务切换。 举例说明: 当你在程序中写一个函数调用: funcA() 然后 funcA 执行完后返回&…...
2024年赣州旅游投资集团社会招聘笔试真
2024年赣州旅游投资集团社会招聘笔试真 题 ( 满 分 1 0 0 分 时 间 1 2 0 分 钟 ) 一、单选题(每题只有一个正确答案,答错、不答或多答均不得分) 1.纪要的特点不包括()。 A.概括重点 B.指导传达 C. 客观纪实 D.有言必录 【答案】: D 2.1864年,()预言了电磁波的存在,并指出…...

视频行为标注工具BehaviLabel(源码+使用介绍+Windows.Exe版本)
前言: 最近在做行为检测相关的模型,用的是时空图卷积网络(STGCN),但原有kinetic-400数据集数据质量较低,需要进行细粒度的标注,同时粗略搜了下已有开源工具基本都集中于图像分割这块,…...

面向无人机海岸带生态系统监测的语义分割基准数据集
描述:海岸带生态系统的监测是维护生态平衡和可持续发展的重要任务。语义分割技术在遥感影像中的应用为海岸带生态系统的精准监测提供了有效手段。然而,目前该领域仍面临一个挑战,即缺乏公开的专门面向海岸带生态系统的语义分割基准数据集。受…...
A2A JS SDK 完整教程:快速入门指南
目录 什么是 A2A JS SDK?A2A JS 安装与设置A2A JS 核心概念创建你的第一个 A2A JS 代理A2A JS 服务端开发A2A JS 客户端使用A2A JS 高级特性A2A JS 最佳实践A2A JS 故障排除 什么是 A2A JS SDK? A2A JS SDK 是一个专为 JavaScript/TypeScript 开发者设计的强大库ÿ…...

代码规范和架构【立芯理论一】(2025.06.08)
1、代码规范的目标 代码简洁精炼、美观,可持续性好高效率高复用,可移植性好高内聚,低耦合没有冗余规范性,代码有规可循,可以看出自己当时的思考过程特殊排版,特殊语法,特殊指令,必须…...

认识CMake并使用CMake构建自己的第一个项目
1.CMake的作用和优势 跨平台支持:CMake支持多种操作系统和编译器,使用同一份构建配置可以在不同的环境中使用 简化配置:通过CMakeLists.txt文件,用户可以定义项目结构、依赖项、编译选项等,无需手动编写复杂的构建脚本…...
pycharm 设置环境出错
pycharm 设置环境出错 pycharm 新建项目,设置虚拟环境,出错 pycharm 出错 Cannot open Local Failed to start [powershell.exe, -NoExit, -ExecutionPolicy, Bypass, -File, C:\Program Files\JetBrains\PyCharm 2024.1.3\plugins\terminal\shell-int…...

FFmpeg avformat_open_input函数分析
函数内部的总体流程如下: avformat_open_input 精简后的代码如下: int avformat_open_input(AVFormatContext **ps, const char *filename,ff_const59 AVInputFormat *fmt, AVDictionary **options) {AVFormatContext *s *ps;int i, ret 0;AVDictio…...