多模态大模型 - MM1
1. 摘要
本文主要通过分析模型结构和数据选择讨论如何构建一个好的多模态大模型(MLLM),并同时提出了MM1模型,包括30B dense版本和64B的MoE版本。
具体贡献:
- 模型层面:影响效果的重要性排序为:image resolution,visual encoder loss和capacity和visual encoder预训练数据。multimodal预训练数据类型:image caption,interleaved image-text和text-only。
- 在few-shot和text-only上的表现:interleaved image-text和text-only两种数据最为重要。
- 在zero-shot上的表现:image caption数据最为重要。
以上两种特性,在SFT阶段也有体现。
- 通过扩大LLM大小的方式进行scale up。模型大小分别有3B,7B,30B等。
2. 方法和实验
2.1 简介

这部分主要探索三个(结构,数据和训练步骤)对多模态大模型效果的影响,
- 模型基础配置:
- Image Encoder:ViT-L/14模型,训练loss为clip loss,训练数据DFN-5B和VeCap-300M,image size为336*336
- Vision-Language Connector:C-Abstractor,最大输出144 image token。
- Pre-training Data:45% image caption数据,45% interleaved image-text数据和10% text-only数据。
- Language Model: 1.2B transformer decoder-only模型。
2.2 模型结构影响
2.2.1 Image Encoder Pre-training
Image Encoder的选择对多模态大模型的预训练和微调都有很大的影响。

- contrastive loss:能让image encoder学习到语义知识。示例模型:CLIP
- Reconstructive loss:在一些dense prediction上,clip类模型很难达到很好的效果,比如说VQA和caption,这类任务需要对image有很好的理解。示例模型:AIM
- 小结:
- Image resoluton最为重要,其次是model size和训练数据组成。从上图中可以看出,增加image resolution效果最为明显,而增加model size和数据效果提升在1%左右。
- 模型类型:对比学习loss训练的模型比reconstructive loss训练的模型效果要好。但这个结论并不确定,因为AIM模型训练数据较少。
2.2.2 Vision-Language Connector and Image Resolution
-
配置
- 使用64或144个token代表每个image,
- 有两个不同的resolution:224和336.
- 结构选择:
- average pooling:对ViT输出结果使用n*n average pooling,然后接上linear projection。(n=[8, 12])
- attention pooling:使用k learnable queries,通过改变k来改变输出到LLM的image token数。k=[64, 144]
- Convolutional mapping:C-Abstractor module:ResNet block,through adaptive pooling can change the number of image tokens。
-
小结:visual token数和image resolution最为重要,VL connector有少量影响。在instruction tuning阶段,这三种结构在不同的分辨率和image token时有着相似的结果。

2.3 预训练数据影响

-
小结:

- Interleaved data对few-shot和text-only的表现最为重要,captioning data对zero-shot表现比较重要。
- Text-only数据对few-shot和text-only表现有帮助。
- 细致的混合image和text数据能够得到最优的多模态性能和好的文本性能。最好的比例为caption:interleaved:text=5:5:1。
- 合成数据对few-shot有帮助。
2.4 训练步骤
- 模型参数和学习率关系:

具体关系如下:

3. 结论
- MM1模型预训练参数:
- Image Encoder:ViT-H,分辨率378*378,训练数据DFN-5B,CLIP objective
- Vision-Language Connector:VL connection with 144 tokens,选择用C-Abstractor
- Data:45% interleaved image-text documents, 45% image-text pair documents, and 10% text-only documents.
- 超参:batch size=512,max sequence lenght=4096,
- LR schedule:在初始的2000步,linear warmup,然后在2e5训练步数中降到10%。
- 使用AdamW优化器,在30B模型训练中,加上z-loss。
- pretrain 效果如下:

- SFT数据配比:



参考文献
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
相关文章:
多模态大模型 - MM1
1. 摘要 本文主要通过分析模型结构和数据选择讨论如何构建一个好的多模态大模型(MLLM),并同时提出了MM1模型,包括30B dense版本和64B的MoE版本。 具体贡献: 模型层面:影响效果的重要性排序为:…...
FPGA设计之跨时钟域(CDC)设计篇(2)----如何科学地设计复位信号?
1、复位是干嘛的? 时钟信号和复位信号应该是一个数字系统最重要和最常用的两个信号了。时钟的重要性大家都懂,没有时钟整个系统就无法同步,自然也就谈不上运行了。那么复位(reset)到底是干嘛的? 所有的数字系统在上电的时候都会进行复位,这样才能确保该系统的初始运行状…...
GPS北斗标准时钟同步服务器结构是什么?安徽京准
GPS北斗标准时钟同步服务器结构是什么?安徽京准 GPS北斗标准时钟同步服务器结构是什么?安徽京准 电厂时钟同步系统组成及配置 随着计算机和网络通信技术的飞速发展,火电厂热工自动化系统数字化、网络化的时代已经到来。一方面它为控制和信息系…...
9.5 栅格图层符号化多波段彩色渲染
文章目录 前言多波段彩色渲染QGis设置为多波段彩色二次开发代码实现多波段彩色 总结 前言 介绍栅格图层数据渲染之多波段彩色渲染说明:文章中的示例代码均来自开源项目qgis_cpp_api_apps 多波段彩色渲染 以“3420C_2010_327_RGB_LATLNG.tif”数据为例,…...
力扣第九题
回文数 提示: 给你一个整数 x ,如果 x 是一个回文整数,返回 true ;否则,返回 false 。 回文数是指正序(从左向右)和倒序(从右向左)读都是一样的整数。 代码展示&#…...
鞭炮插画:成都亚恒丰创教育科技有限公司
鞭炮插画:年味里的绚烂记忆 在岁末年初的温柔时光里,总有一抹色彩,能瞬间唤醒沉睡的年味——那便是鞭炮插画中跃动的红与金,成都亚恒丰创教育科技有限公司 它们不仅仅是纸与墨的交织,更是情感与记忆的桥梁,…...
python 循环
循环 while语句 for语句 循环控制语句 break 立即退出循环。 continue 跳过当前循环的剩余部分,并开始下一次迭代。 else for 和 while 循环都可以有一个可选的 else 子句,当循环正常结束时执行。 嵌套 占位符pass pass 是一个空操作语句。当你需要在代…...
映美精黑白相机IFrameQueueBuffer转halcon的HObject
映美精黑白相机,用wpfhalcon开发取图 1.到官网下载,开发包 1sdk 2c开发例子 3c#开发例子 引入TIS.Imaging.ICImagingControl35.dll 3.ICImagingControl使用这个类控制相机 /// <summary> /// 相机控制 /// </summary> public ICImagingC…...
Linux的load(负载)
负载(load)是Linux机器的一个重要指标,直观了反应了机器当前的状态。 在Linux系统中,系统负载是对当前CPU工作量的度量,被定义为特定时间间隔内运行队列中的平均线程数。 Linux的负载高,主要是由于CPU使用、内存使用、10消…...
杜比全景声——空间音频技术
什么是杜比?是否是标清、高清、超清之上的更清晰的格式?杜比全景声 和传统多声道立体声的差别?杜比全景声音频的渲染方式?车载平台上杜比技术的应用? 杜比技术的起源 杜比实验室(Dolby Laboratories&…...
C 语言指针进阶
1.0 指针的定义 指针是内存中一个最小单元的编号(内存单元的编号称之为地址【地址就是指针指针就是地址】)指针通常是用来存放内存地址的一个变量。本质上指针就是地址:口语上说的指针起始是指针变量,指针变量就是一个变量&#…...
SpringBootWeb 篇-入门了解 Swagger 的具体使用
🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 Swagger 介绍 1.1 Swagger 和 Yapi 的使用场景 2.0 Swagger 的使用方式 2.1 导入 knife4j 的 maven 坐标 2.2 在配置类中加入 knife4j 相关配置 2.3 设置静态资源…...
Python面试题:如何在 Python 中处理大数据集?
在 Python 中处理大数据集可能面临许多挑战,包括内存限制、计算性能和数据处理效率等。以下是一些处理大数据集的常见方法和技术: 1. 使用高效的数据处理库 1.1 Pandas Pandas 是一个强大的数据分析库,可以处理中等大小的数据集࿰…...
C++:入门基础
1.命名空间 1.1namespace的价值 在C/C中,变量、函数和后面要学到的类都是大量存在的,这些变量、函数和类的名称都将存在于全局作用域中,可能会导致很多冲突。使用命名空间的目的是对标识符的名称进行本地化,避免命名冲突或者名字…...
微信小游戏 彩色试管 倒水游戏 逻辑 (二)
最近开始研究微信小游戏,有兴趣的 可以关注一下 公众号, 记录一些心路历程和源代码。 定义一个 Water class 1. **定义接口和枚举**: - WaterInfo 接口定义了水的颜色、高度等信息。 - PourAction 枚举定义了水的倒动状态,…...
【链表】算法题(一) ---- 力扣 / 牛客
一、移除链表元素 移除链表中值为val的元素,并返回新的头节点 思路: 题目上这样说,我们就可以创建一个新的链表,将值不为val的节点,尾插到新的链表当中,最后返回新链表的头节点。 typedef struct ListNo…...
Linux系统之部署盖楼小游戏
Linux系统之部署盖楼小游戏 一、小游戏介绍1.1 小游戏简介1.2 小游戏玩法基本介绍1.3 项目预览二、本地环境介绍2.1 本地环境规划2.2 本次实践介绍2.3 版本要求三、检查本地环境3.1 检查本地操作系统版本3.2 检查系统内核版本四、安装node.js4.1 安装nvm4.2 查看nvm版本4.3 安装…...
“金山-讯飞”杯2024年武汉理工大学程序设计竞赛 A. Mobiusp败走***(思维题-点双连通分量、连通性)
题目 思路来源 官方题解 题解 手玩发现,能换的话,当且仅当.和1在一个环里,而这就是点双连通分量 所以最优策略是先把.换到(x,y)的位置,然后判断.和1在不在一个环里 也就是: 1. 判断删掉1时,.和(x,y)联…...
【机器翻译】基于术语词典干预的机器翻译挑战赛
文章目录 一、赛题链接二、安装库1.spacy2.torch_text 三、数据预处理赛题数据类定义 TranslationDataset批量处理函数 collate_fn 四、编码器和解码器Encoder 类Decoder 类Seq2Seq 类注意事项 五、主函数1. load_terminology_dictionary(dict_file)2. train(model, iterator, …...
推荐系统:从协同过滤到深度学习
目录 一、协同过滤(Collaborative Filtering, CF)1. 基于用户的协同过滤2. 基于物品的协同过滤 二、深度学习在推荐系统中的应用1. 深度学习模型的优势2. 深度学习在推荐系统中的应用实例 三、总结与展望 推荐系统是现代信息处理和传播中不可或缺的技术&…...
边缘多模态AI驱动的文档重构技术
1. 项目概述:当打印机和扫描仪开始“读懂”文档的真正意图你有没有遇到过这样的场景:客户用手机随手拍了一张合同,边缘歪斜、背景杂乱、光线不均,发到公司邮箱里;行政同事用老式扫描仪扫了一份带表格的报销单ÿ…...
K12教师必读:用AI Agent 15分钟生成个性化学习路径(附可即用Prompt模板库)
更多请点击: https://codechina.net 第一章:AI Agent教育应用的范式变革 传统教育系统长期依赖“教师讲授—学生听记—统一测评”的线性模式,而AI Agent的兴起正推动教育从标准化供给转向个性化协同时代。AI Agent不再仅是知识检索工具或自动…...
Gemini深度研究模式 vs Claude 3.5 Sonnet vs GPT-4o Research:12项学术任务横向评测(含原始数据表)
更多请点击: https://codechina.net 第一章:Gemini深度研究模式体验 Gemini 深度研究模式(Deep Research Mode)是 Google 推出的面向复杂信息探索任务的增强型交互能力,专为学术调研、技术尽调与跨源知识整合场景设计…...
Unity UGUI循环列表优化指南:SuperScrollView原理与实战
1. 为什么一个“滚动列表”值得单独写一篇工具指南? 在Unity UGUI项目里,我见过太多团队把“显示几十条数据”当成小功能随手写——用Scroll View拖个Content,写个for循环Instantiate prefab,加个Layout Group排版,再…...
为什么感觉苹果11的手机放歌音效比华为mate80好,大家觉得呢?什么原因?配置有何差别?——有没有音效好的手机推荐?——有带hifi效果的吗?
公开信息中没有直接对比两款机型音效的权威测试,结合硬件和系统规律来看,这种听感差异主要是调校风格不同导致的,并非绝对的音质好坏。 核心原因分析 系统与音频链路调校差异 苹果iOS是封闭式系统,对音频链路的优化更统一,没有第三方厂商的碎片化干扰,驱动调校成熟…...
从测试分类到缺陷管理
目录 1.多维测试分类:覆盖测试全场景 1.1 按测试目标分类 1.2 按执行方式分类 1.3 按测试方法分类 1.4 按测试阶段分类 1.5 按实施组织分类 2. 测试用例设计 2.1 用例设计万能公式 2.2 六大核心设计方法 3. 测试核心流程与 bug 管理 3.1 软件测试生命…...
戴森球计划工厂蓝图:革命性工厂配置架构的5大技术突破
戴森球计划工厂蓝图:革命性工厂配置架构的5大技术突破 【免费下载链接】FactoryBluePrints 游戏戴森球计划的**工厂**蓝图仓库 项目地址: https://gitcode.com/GitHub_Trending/fa/FactoryBluePrints FactoryBluePrints蓝图仓库代表了戴森球计划游戏中最先进…...
150块淘来的Nvidia Grid K2,如何在ESXi 6.7上稳定分配vGPU?我的翻车与修复实录
150元Nvidia Grid K2显卡的ESXi 6.7虚拟化实战:从硬件检测到vGPU稳定分配全指南 在虚拟化环境中部署专业显卡一直是技术爱好者和小型实验室的热门话题。当预算有限时,二手市场上的老款专业显卡如Nvidia Grid K2就成为了极具吸引力的选择。这款发布于2013…...
深度解析ZXing.Net:.NET生态中的企业级条码识别与生成解决方案
深度解析ZXing.Net:.NET生态中的企业级条码识别与生成解决方案 【免费下载链接】ZXing.Net .Net port of the original java-based barcode reader and generator library zxing 项目地址: https://gitcode.com/gh_mirrors/zx/ZXing.Net ZXing.Net作为Java版…...
告别多设备切换烦恼:Lan Mouse让你的键鼠轻松跨屏工作
告别多设备切换烦恼:Lan Mouse让你的键鼠轻松跨屏工作 【免费下载链接】lan-mouse mouse & keyboard sharing via LAN 项目地址: https://gitcode.com/gh_mirrors/la/lan-mouse 你是否经常在办公桌上摆着多台电脑,却要不断切换鼠标键盘&#…...
