当前位置：首页 > news >正文

多模态大模型 - MM1

news 2025/8/29 19:46:35

1. 摘要

本文主要通过分析模型结构和数据选择讨论如何构建一个好的多模态大模型（MLLM），并同时提出了MM1模型，包括30B dense版本和64B的MoE版本。
具体贡献：

模型层面：影响效果的重要性排序为：image resolution，visual encoder loss和capacity和visual encoder预训练数据。multimodal预训练数据类型：image caption，interleaved image-text和text-only。
- 在few-shot和text-only上的表现：interleaved image-text和text-only两种数据最为重要。
- 在zero-shot上的表现：image caption数据最为重要。

以上两种特性，在SFT阶段也有体现。

通过扩大LLM大小的方式进行scale up。模型大小分别有3B，7B，30B等。

2. 方法和实验

2.1 简介

在这里插入图片描述
这部分主要探索三个（结构，数据和训练步骤）对多模态大模型效果的影响，

模型基础配置：
- Image Encoder：ViT-L/14模型，训练loss为clip loss，训练数据DFN-5B和VeCap-300M，image size为336*336
- Vision-Language Connector：C-Abstractor，最大输出144 image token。
- Pre-training Data：45% image caption数据，45% interleaved image-text数据和10% text-only数据。
- Language Model： 1.2B transformer decoder-only模型。

2.2 模型结构影响

2.2.1 Image Encoder Pre-training

Image Encoder的选择对多模态大模型的预训练和微调都有很大的影响。
在这里插入图片描述

contrastive loss：能让image encoder学习到语义知识。示例模型：CLIP
Reconstructive loss：在一些dense prediction上，clip类模型很难达到很好的效果，比如说VQA和caption，这类任务需要对image有很好的理解。示例模型：AIM
小结：
- Image resoluton最为重要，其次是model size和训练数据组成。从上图中可以看出，增加image resolution效果最为明显，而增加model size和数据效果提升在1%左右。
- 模型类型：对比学习loss训练的模型比reconstructive loss训练的模型效果要好。但这个结论并不确定，因为AIM模型训练数据较少。

2.2.2 Vision-Language Connector and Image Resolution

配置
- 使用64或144个token代表每个image，
- 有两个不同的resolution：224和336.
- 结构选择：
  - average pooling：对ViT输出结果使用n*n average pooling，然后接上linear projection。（n=[8, 12]）
  - attention pooling：使用k learnable queries，通过改变k来改变输出到LLM的image token数。k=[64, 144]
  - Convolutional mapping：C-Abstractor module：ResNet block，through adaptive pooling can change the number of image tokens。
小结：visual token数和image resolution最为重要，VL connector有少量影响。在instruction tuning阶段，这三种结构在不同的分辨率和image token时有着相似的结果。

2.3 预训练数据影响

在这里插入图片描述

小结：
- Interleaved data对few-shot和text-only的表现最为重要，captioning data对zero-shot表现比较重要。
- Text-only数据对few-shot和text-only表现有帮助。
- 细致的混合image和text数据能够得到最优的多模态性能和好的文本性能。最好的比例为caption：interleaved：text=5:5:1。
- 合成数据对few-shot有帮助。

2.4 训练步骤

模型参数和学习率关系：

具体关系如下：

3. 结论

MM1模型预训练参数：
- Image Encoder：ViT-H，分辨率378*378，训练数据DFN-5B，CLIP objective
- Vision-Language Connector：VL connection with 144 tokens，选择用C-Abstractor
- Data：45% interleaved image-text documents, 45% image-text pair documents, and 10% text-only documents.
- 超参：batch size=512，max sequence lenght=4096，
- LR schedule：在初始的2000步，linear warmup，然后在2e5训练步数中降到10%。
- 使用AdamW优化器，在30B模型训练中，加上z-loss。
pretrain 效果如下：
SFT数据配比：

参考文献

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

多模态大模型 - MM1

1. 摘要本文主要通过分析模型结构和数据选择讨论如何构建一个好的多模态大模型（MLLM），并同时提出了MM1模型，包括30B dense版本和64B的MoE版本。具体贡献： 模型层面：影响效果的重要性排序为：…...

编程日记 2024/7/15 22:23:49

FPGA设计之跨时钟域（CDC）设计篇（2）----如何科学地设计复位信号？

1、复位是干嘛的？时钟信号和复位信号应该是一个数字系统最重要和最常用的两个信号了。时钟的重要性大家都懂，没有时钟整个系统就无法同步，自然也就谈不上运行了。那么复位（reset）到底是干嘛的？所有的数字系统在上电的时候都会进行复位，这样才能确保该系统的初始运行状…...

编程日记 2024/7/15 22:18:43

GPS北斗标准时钟同步服务器结构是什么？安徽京准

GPS北斗标准时钟同步服务器结构是什么？安徽京准 GPS北斗标准时钟同步服务器结构是什么？安徽京准电厂时钟同步系统组成及配置随着计算机和网络通信技术的飞速发展，火电厂热工自动化系统数字化、网络化的时代已经到来。一方面它为控制和信息系…...

编程日记 2024/7/15 22:16:41

9.5 栅格图层符号化多波段彩色渲染

文章目录前言多波段彩色渲染QGis设置为多波段彩色二次开发代码实现多波段彩色总结前言介绍栅格图层数据渲染之多波段彩色渲染说明：文章中的示例代码均来自开源项目qgis_cpp_api_apps 多波段彩色渲染以“3420C_2010_327_RGB_LATLNG.tif”数据为例&#xff0c…...

编程日记 2024/7/15 22:14:40

力扣第九题

回文数提示： 给你一个整数 x ，如果 x 是一个回文整数，返回 true ；否则，返回 false 。回文数是指正序（从左向右）和倒序（从右向左）读都是一样的整数。代码展示&#…...

编程日记 2024/7/15 22:09:34

鞭炮插画：成都亚恒丰创教育科技有限公司

鞭炮插画：年味里的绚烂记忆在岁末年初的温柔时光里，总有一抹色彩，能瞬间唤醒沉睡的年味——那便是鞭炮插画中跃动的红与金，成都亚恒丰创教育科技有限公司它们不仅仅是纸与墨的交织，更是情感与记忆的桥梁&#xff0c…...

编程日记 2024/7/15 22:08:33

python 循环

循环 while语句 for语句循环控制语句 break 立即退出循环。 continue 跳过当前循环的剩余部分，并开始下一次迭代。 else for 和 while 循环都可以有一个可选的 else 子句，当循环正常结束时执行。嵌套占位符pass pass 是一个空操作语句。当你需要在代…...

编程日记 2024/7/15 22:04:29

映美精黑白相机IFrameQueueBuffer转halcon的HObject

映美精黑白相机，用wpfhalcon开发取图 1.到官网下载，开发包 1sdk 2c开发例子 3c#开发例子引入TIS.Imaging.ICImagingControl35.dll 3.ICImagingControl使用这个类控制相机 /// <summary> /// 相机控制 /// </summary> public ICImagingC…...

编程日记 2024/7/15 22:03:28

Linux的load（负载）

负载(load)是Linux机器的一个重要指标，直观了反应了机器当前的状态。在Linux系统中，系统负载是对当前CPU工作量的度量，被定义为特定时间间隔内运行队列中的平均线程数。 Linux的负载高，主要是由于CPU使用、内存使用、10消…...

编程日记 2024/7/15 22:02:27

杜比全景声——空间音频技术

什么是杜比？是否是标清、高清、超清之上的更清晰的格式？杜比全景声和传统多声道立体声的差别？杜比全景声音频的渲染方式？车载平台上杜比技术的应用？ 杜比技术的起源杜比实验室（Dolby Laboratories&…...

编程日记 2024/7/15 22:00:26

C 语言指针进阶

1.0 指针的定义指针是内存中一个最小单元的编号（内存单元的编号称之为地址【地址就是指针指针就是地址】）指针通常是用来存放内存地址的一个变量。本质上指针就是地址：口语上说的指针起始是指针变量，指针变量就是一个变量&#…...

编程日记 2024/7/15 21:59:25

SpringBootWeb 篇-入门了解 Swagger 的具体使用

🔥博客主页： 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 Swagger 介绍 1.1 Swagger 和 Yapi 的使用场景 2.0 Swagger 的使用方式 2.1 导入 knife4j 的 maven 坐标 2.2 在配置类中加入 knife4j 相关配置 2.3 设置静态资源…...

编程日记 2024/7/15 21:58:24

Python面试题：如何在 Python 中处理大数据集？

在 Python 中处理大数据集可能面临许多挑战，包括内存限制、计算性能和数据处理效率等。以下是一些处理大数据集的常见方法和技术： 1. 使用高效的数据处理库 1.1 Pandas Pandas 是一个强大的数据分析库，可以处理中等大小的数据集&#xff0…...

编程日记 2024/7/15 21:55:21

C++:入门基础

1.命名空间 1.1namespace的价值在C/C中，变量、函数和后面要学到的类都是大量存在的，这些变量、函数和类的名称都将存在于全局作用域中，可能会导致很多冲突。使用命名空间的目的是对标识符的名称进行本地化，避免命名冲突或者名字…...

编程日记 2024/7/15 21:54:20

微信小游戏彩色试管倒水游戏逻辑（二）

最近开始研究微信小游戏，有兴趣的可以关注一下公众号， 记录一些心路历程和源代码。定义一个 Water class 1. **定义接口和枚举**： - WaterInfo 接口定义了水的颜色、高度等信息。 - PourAction 枚举定义了水的倒动状态，…...

编程日记 2024/7/15 21:48:13

【链表】算法题（一） ---- 力扣 / 牛客

一、移除链表元素移除链表中值为val的元素，并返回新的头节点思路： 题目上这样说，我们就可以创建一个新的链表，将值不为val的节点，尾插到新的链表当中，最后返回新链表的头节点。 typedef struct ListNo…...

编程日记 2024/7/15 21:46:11

Linux系统之部署盖楼小游戏

Linux系统之部署盖楼小游戏一、小游戏介绍1.1 小游戏简介1.2 小游戏玩法基本介绍1.3 项目预览二、本地环境介绍2.1 本地环境规划2.2 本次实践介绍2.3 版本要求三、检查本地环境3.1 检查本地操作系统版本3.2 检查系统内核版本四、安装node.js4.1 安装nvm4.2 查看nvm版本4.3 安装…...

编程日记 2024/7/15 21:45:10

“金山-讯飞”杯2024年武汉理工大学程序设计竞赛 A. Mobiusp败走***（思维题-点双连通分量、连通性）

题目思路来源官方题解题解手玩发现，能换的话，当且仅当.和1在一个环里，而这就是点双连通分量所以最优策略是先把.换到(x,y)的位置，然后判断.和1在不在一个环里也就是： 1. 判断删掉1时，.和(x,y)联…...

编程日记 2024/7/15 21:44:08

文章目录一、赛题链接二、安装库1.spacy2.torch_text 三、数据预处理赛题数据类定义 TranslationDataset批量处理函数 collate_fn 四、编码器和解码器Encoder 类Decoder 类Seq2Seq 类注意事项五、主函数1. load_terminology_dictionary(dict_file)2. train(model, iterator, …...

编程日记 2024/7/15 21:43:07

推荐系统：从协同过滤到深度学习

目录一、协同过滤（Collaborative Filtering, CF）1. 基于用户的协同过滤2. 基于物品的协同过滤二、深度学习在推荐系统中的应用1. 深度学习模型的优势2. 深度学习在推荐系统中的应用实例三、总结与展望推荐系统是现代信息处理和传播中不可或缺的技术&…...

编程日记 2024/7/15 21:42:06

SciencePlots——绘制论文中的图片

文章目录安装一、风格二、1 资源安装 # 安装最新版 pip install githttps://github.com/garrettj403/SciencePlots.git# 安装稳定版 pip install SciencePlots一、风格简单好用的深度学习论文绘图专用工具包–Science Plot 二、 1 资源论文绘图神器来了：一行…...

编程新知 2025/7/12 6:45:46

三维GIS开发cesium智慧地铁教程（5）Cesium相机控制

一、环境搭建 <script src"../cesium1.99/Build/Cesium/Cesium.js"></script> <link rel"stylesheet" href"../cesium1.99/Build/Cesium/Widgets/widgets.css"> 关键配置点： 路径验证：确保相对路径.…...

编程新知 2025/8/21 15:41:11

Auto-Coder使用GPT-4o完成：在用TabPFN这个模型构建一个预测未来3天涨跌的分类任务

通过akshare库，获取股票数据，并生成TabPFN这个模型可以识别、处理的格式，写一个完整的预处理示例，并构建一个预测未来 3 天股价涨跌的分类任务用TabPFN这个模型构建一个预测未来 3 天股价涨跌的分类任务，进行预测并输…...

编程新知 2025/6/26 20:21:28

cf2117E

原题链接：https://codeforces.com/contest/2117/problem/E 题目背景： 给定两个数组a,b，可以执行多次以下操作：选择 i (1 < i < n - 1)，并设置或，也可以在执行上述操作前执行一次删除任意和。求…...

编程新知 2025/8/23 20:01:48

python如何将word的doc另存为docx

将 DOCX 文件另存为 DOCX 格式（Python 实现） 在 Python 中，你可以使用 python-docx 库来操作 Word 文档。不过需要注意的是，.doc 是旧的 Word 格式，而 .docx 是新的基于 XML 的格式。python-docx 只能处理 .docx 格式…...

编程新知 2025/8/5 19:18:33

CSS设置元素的宽度根据其内容自动调整

width: fit-content 是 CSS 中的一个属性值，用于设置元素的宽度根据其内容自动调整，确保宽度刚好容纳内容而不会超出。效果对比默认情况（width: auto）： 块级元素（如 <div>）会占满父容器…...

编程新知 2025/6/20 15:09:15

短视频矩阵系统文案创作功能开发实践，定制化开发

在短视频行业迅猛发展的当下，企业和个人创作者为了扩大影响力、提升传播效果，纷纷采用短视频矩阵运营策略，同时管理多个平台、多个账号的内容发布。然而，频繁的文案创作需求让运营者疲于应对，如何高效产出高质量文案成…...

编程新知 2025/8/27 10:58:48

JS设计模式(4)：观察者模式

JS设计模式(4):观察者模式一、引入在开发中，我们经常会遇到这样的场景：一个对象的状态变化需要自动通知其他对象，比如： 电商平台中，商品库存变化时需要通知所有订阅该商品的用户；新闻网站中&#xff0…...

编程新知 2025/7/15 5:24:41

接口自动化测试：HttpRunner基础

相关文档 HttpRunner V3.x中文文档 HttpRunner 用户指南使用HttpRunner 3.x实现接口自动化测试 HttpRunner介绍 HttpRunner 是一个开源的 API 测试工具，支持 HTTP(S)/HTTP2/WebSocket/RPC 等网络协议，涵盖接口测试、性能测试、数字体验监测等测试类型…...

编程新知 2025/7/31 5:56:58

Scrapy-Redis分布式爬虫架构的可扩展性与容错性增强：基于微服务与容器化的解决方案

在大数据时代，海量数据的采集与处理成为企业和研究机构获取信息的关键环节。Scrapy-Redis作为一种经典的分布式爬虫架构，在处理大规模数据抓取任务时展现出强大的能力。然而，随着业务规模的不断扩大和数据抓取需求的日益复杂，传统…...

编程新知 2025/8/22 5:19:23