当前位置: 首页 > article >正文

【大模型理论篇】CogVLM:多模态预训练语言模型

1. 模型背景

        前两天我们在《Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought》中介绍了将ViT与推理模型结合构造多模态推理模型的案例,其中提到了VLM的应用。追溯起来就是两篇前期工作:Vision LLM以及CogVLM。

        今天准备回顾一下CogVLM。视觉语言模型具有很强的通用性。许多视觉和跨模态任务可以被表述为下一个token预测。

        先来看张图,CogVLM直接拉满。CogVLM通过在注意力和FFN层中引入可训练的视觉专家模块,在预训练的语言模型和图像编码器之间建立了桥梁。这种方法使得视觉语言特征能够深度融合,并且不会牺牲任何自然语言处理任务的性能。CogVLM-17B在17个经典跨模态基准测试中取得了最先进的表现,包括NoCaps、Flicker30k等图像标注数据集,OKVQA、TextVQA、OCRVQA、ScienceQA等VQA数据集,MM-Vet、MMBench、SEED-Bench、LLaVABench、POPE、MMMU、MathVista等LVLM基准测试,以及RefCOCO、RefCOCO+、RefCOCOg、Visual7W等视觉定位数据集。

2. 模型结构

        CogVLM的模型,用于实现图像文本的联合理解与生成。该模型包括四个基本组件:视觉Transformer编码器、多层感知机适配器、预训练的大语言模型以及视觉专家模块。其中,视觉专家模块能够将不同注意力头的语义信息映射到不同的特征空间中,从而实现深度视觉语言特征对齐。该模型采用了统一指令监督微调(SFT)的方式对数据进行训练。

        ViT 编码器。在 CogVLM-17B 中使用了预训练的 EVA2-CLIP-E。由于其专门用于对比学习聚合 [CLS] 特征,因此移除了 ViT 编码器的最后一层。

        MLP适配器。为了将ViT的输出映射到与单词嵌入的文本特征相同的空间中,使用了MLP适配器,一个两层MLP(SwiGLU)。在语言模型中所有图像特征共享相同的词元位置ID。

        预训练的大语言模型。CogVLM 的模型设计与GPT风格预训练大模型兼容。具体来说,CogVLM-17B 采用 Vicuna1.5-7B 进行进一步训练。对所有注意力操作(包括图像特征之间的注意力)应用因果遮盖。

        视觉专家模块。在每一层中添加一个视觉专家模块,以实现深度视觉语言特征对齐。具体来说,每个层中的视觉专家模块由一个 QKV 矩阵和每个层中的 MLP 组成。QKV 矩阵和 MLP 的形状与预训练的语言模型相同,并从其中进行初始化。语言模型中的每个注意力头都会捕获语义信息的不同方面,而可训练的视觉专家可以将图像特征转换为与不同头部对齐,从而实现深度融合。

        位置嵌入。在 RoPE 中,允许所有视觉token共享一个单个的位置 ID,因为当它们被输入到 ViT 时,它们已经包含了位置信息。这种方法缓解了 LLM 中token之间的远程注意力衰减的影响。由于一张图片可以占据数百到数千个token,并且典型的输入序列结构为 " query",使用传统的位置编码会导致过长的编码序列。此外,它还会导致查询更多地关注更接近它的图像序列,即图像的下部分。

3. 论文实验

3.1 预训练

3.1.1 数据

        用于预训练的图像文本对都是公开可用的,包括LAION-2B和COYO-700M。在删除了损坏的URL、NSFW 图像、带有嘈杂标题的图像、具有政治偏见的图像以及具有 >6 或 <1/6 的宽高比的图像后,大约有 15 亿张图像可用于预训练。

        此外,还制作了一个包含 4000 万张图像的visual grounding数据集。图像标题中的每个名词都与边界框相关联,以指示图像中的位置。构建过程,通过spaCy提取名词,并使用GLIPv2预测边界框。图像文本对是从LAION-115M中采样而来的,是滤过的LAION-400M的一个子集。筛选并保留了4000万张图像的一部分,以确保超过75%的图像至少包含两个边界框。

3.1.2 训练

        预训练的第一阶段是图像标题损失,即文本部分的下一个token预测。在上面介绍的 15 亿对图像-文本对上用批量大小为 8,192 的方式训练了 120,000 次 CogVLM-17B 模型。预训练的第二阶段是图像标题生成和指代表达式理解(REF)的混合。REF 是一项任务,根据对象的文本描述来预测图像中的边界框,以视觉问答的形式进行训练,例如问题:物体在哪里?回答:[[x0, y0, x1, y1]]。x 和 y 坐标范围从 000 到 999,表示图像中的归一化位置。仅考虑“答案”部分中下一个token预测的损失。在上述介绍的文本-图像对和视觉定位数据集上使用 1,024 的批量大小预训练了第二阶段模型 60,000 次迭代。在最后的 30,000 次迭代中,将输入分辨率从 224x224 改为 490x490。总可训练参数数量为 6.5B。这里之所以升维,是可以喂入更高精度更多细节的内容,提升模型的理解能力。

3.1.3 对齐

        在指导对齐阶段,训练了两个通用模型:CogVLM-Chat 和 CogVLM-Grounding。CogVLM-Chat 接受自然语言输入和输出,而 CogVLM-Grounding 则接受带框的输入和输出。

        CogVLM-Chat。在研究中整合了来自各种开源视觉问答数据集的数据,包括 VQAv2 ,OKVQA,TextVQA,OCRvQA,ScienceQA,以及以多轮对话格式编排的数据集,如LLaVA-Instruct,LRV-Instruction,LLaVAR。然后在这些多样化的数据集上进行了统一指令监督微调(SFT)。SFT 数据的质量和完整性至关重要;最初通过仅使用语言GPT-4管道生成的LLaVA-Instruct数据集中存在某些不准确之处。需要通过手动检查和注释仔细纠正这些错误,以确保数据质量。视觉问答数据集通常以简洁的形式呈现,通常是单个单词的答案。为了适应这种多样性,在搜索阶段,需要使用格式为:(1)用于简洁的回答(问题:简短答案:);(2)用于扩展讨论的提示(问题:答案:)。在训练过程中,模型经过 6000 次迭代,学习率为 1e-5,批量大小为 1024。为了增强并确保训练的稳定性,激活了视觉编码器的参数,并将其学习率调整为剩余训练参数的十分之一。

        CogVLM-Grounding。为了赋予模型一致、交互式的视觉语义定位能力,收集了一个高质量的数据集,该数据集包含四种类型的定位数据:(1) 基于图像的标注(GC)——在图像中每个名词短语后跟相应的指代边界框;(2) 表达式生成(REG) ——针对每张图片,其上的每个边界框都被标记上准确描述文本表达式;(3) 基于视频的注释(VG)——每个视频帧都有与其对应的准确描述文本表达式;(4) 视觉问答(QA)——每个问题都带有正确答案所在视频帧的准确描述文本表达式。

3.2  多模态基准测试

        图像字幕生成。这些任务的主要目的是为给定图像生成文本摘要,总结主要的内容。使用数据集包括 NoCaps,COCO ,Flickr30k ,以及TextCaps进行评估。

        视觉问答。视觉问答任务要求模型根据给定的图像回答可能侧重于不同视觉内容的问题。评估涵盖多种数据集,包括 VQAv2、OKVQA、TextVQA、OCRvQA和 ScienceQ。LVLM基准主要用于评估大型多模态模型的高级功能,如对象识别和定位、OCR、视觉描述和视觉知识推理。

        视觉定位。通用模型在所有任务上都取得了不错的性能。

3.3 裁剪研究

        在 6,000 个迭代周期和批量大小为 8,192 的情况下进行消融研究。为了评估 CogVLM 模型的有效性,在多个结构变体和调优策略上进行,包括:

1)只调整 MLP Adapter 层;

2)调整所有 LLM 参数以及不添加视觉专家的 Adapter;

3)每四个 LLM 层仅添加一个视觉专家;

4)在所有层中仅向 FFN 添加视觉专家。        

4. 参考材料

【1】CogVLM: Visual Expert for Pretrained Language Models

相关文章:

【大模型理论篇】CogVLM:多模态预训练语言模型

1. 模型背景 前两天我们在《Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought》中介绍了将ViT与推理模型结合构造多模态推理模型的案例&#xff0c;其中提到了VLM的应用。追溯起来就是两篇前期工作&#xff1a;Vision LLM以及CogVLM。 今天准备回顾一下Cog…...

AI知识补全(一):tokens是什么?

名人说&#xff1a;苔花如米小&#xff0c;也学牡丹开。——袁枚《苔》 创作者&#xff1a;Code_流苏(CSDN)&#xff08;一个喜欢古诗词和编程的Coder&#x1f60a;&#xff09; 目录 一、什么是Tokens&#xff1f;二、为什么Tokens如此重要&#xff1f;1.模型的输入输出限制2.…...

Wpf Avalonia-实现中英文切换工程

文章目录 language工程项目代码创建获取资源文件string工程图片主项目引用LanguageView中使用ViewModel中使用language工程项目 <Project Sdk="Microsoft.NET.Sdk"><PropertyGroup><ImplicitUsings>enable</ImplicitUsings><TargetFrame…...

pyqt5报错:qt.qpa.plugin: Could not find the Qt platform plugin “xcb“(已解决)

我在使用pyqt库的时候报错&#xff1a; qt.qpa.plugin: Could not load the Qt platform plugin "xcb" in \ "/mnt/private_disk/anaconda3/envs/aot-manip/lib/python3.8/site-packages/PyQt5/Qt5/plugins/platforms" even though it was found. This ap…...

【MySQL数据库】触发器与事件

MySQL触发器 trigger&#xff0c;在表的插入insert、更新update、删除delete操作发生时自动执行MySQL语句。 学过Qt的都知道信号槽&#xff0c;一旦发出某个信号&#xff0c;那么就会触发关联的信号槽函数。触发器就类似于这个操作。 创建触发器时需要给出一些信息&#xff…...

【LC插件开发】基于Java实现FSRS(自由间隔重复调度算法)

&#x1f60a;你好&#xff0c;我是小航&#xff0c;一个正在变秃、变强的文艺倾年。 &#x1f514;本文讲解【LC插件开发】基于Java实现FSRS&#xff08;自由间隔重复调度算法&#xff09;&#xff0c;期待与你一同探索、学习、进步&#xff0c;一起卷起来叭&#xff01; 目录…...

java后端接收数组,数组长度超256个就会报错

1.原因 DataBinder 中默认限制了list最大只能增长到256。 2.解决方案 1.在BaseController添加InitBinder方法&#xff0c;其余继承BaseController InitBinder //类初始化是调用的方法注解public void initBinder(WebDataBinder binder) {//给这个controller配置接收list的长…...

第45章:配置更新与应用热重载策略

第45章:配置更新与应用热重载策略 作者:DogDog_Shuai 阅读时间:约25分钟 难度:中级 目录 1. 引言2. 配置更新挑战3. Kubernetes原生配置更新机制4. 应用热重载技术5. 配置更新最佳实践...

数据库MVCC详解

MVCC 1.基本介绍 数据库&#xff1a;MySQL。【很多主流数据库都使用了MVCC&#xff0c;比如MySQL的InnoDB引擎、PostgreSQL、Oracle】 MVCC&#xff0c;全称Multi-Version Concurrency Control&#xff0c;即多版本并发控制。是数据库管理系统中的一种并发控制方法。 MVCC的…...

MySQL数据库基础篇

目录 SQL的分类 数据定义语言&#xff08;DDL&#xff09;---Data Definition Language 数据操作语言(DML) ---Data Manipulation Language 数据查询语言(DQL) ---Data Query Language 数据控制语言(DCL) ---Data Control Language 事务控制语言(TCL) --- Transaction Cont…...

Rust函数、条件语句、循环

文章目录 函数**语句与表达式**条件语句循环 函数 Rust的函数基本形式是这样的 fn a_func(a: i32) -> i32 {}函数名是蛇形风格&#xff0c;rust不在意函数的声明顺序&#xff0c;只需要有声明即可 函数参数必须声明参数名称和类型 语句与表达式 这是rust非常重要的基础…...

AI比人脑更强,因为被植入思维模型【17】万物联系思维模型

万物联系,万物,并不孤立。 定义 万物联系思维模型是一种强调世界上所有事物都相互关联、相互影响的思维方式。它认为任何事物都不是孤立存在的,而是与周围的环境、其他事物以及整个宇宙构成一个有机的整体。这种联系不仅包括直接的因果关系,还涵盖了间接的、潜在的、动态的…...

Android Compose 约束布局(ConstraintLayout、Modifier.constrainAs)源码深度剖析(十二)

Android Compose 约束布局&#xff08;ConstraintLayout、Modifier.constrainAs&#xff09;源码深度剖析 一、引言 在 Android 开发中&#xff0c;布局是构建用户界面的基础。随着 Android 开发技术的不断发展&#xff0c;Jetpack Compose 作为一种全新的声明式 UI 框架应运…...

【MySQL篇】复合查询

目录 前言&#xff1a; 1&#xff0c;多表查询 2&#xff0c;自连接 3&#xff0c;子查询 3.1&#xff0c;单行子查询 3.2&#xff0c;多行子查询 3.3&#xff0c;多列子查询 3.3&#xff0c;在from子句中使用子查询 4&#xff0c;合并查询 4.1&#xff0c;union …...

点亮STM32最小系统板LED灯

对于如何点亮板载LED灯只需要掌握如何初始化GPIO引脚&#xff0c;并改变GPIO引脚的电平即可实现点亮或者熄灭LED。 Led_INFO led_info {0}; led_info 是一个结构体变量&#xff0c;类型为 Led_INFO&#xff0c;用于存储LED的状态信息。这里初始化为 {0}&#xff0c;表示所有成…...

unsloth微调QwQ32B(4bit)

unsloth微调QwQ32B(4bit) GPU: 3090 24G unsloth安装部署 pip 安装 pip install unsloth --index https://pypi.mirrors.usrc.edu.cn/simplesource /etc/network_turbopip install --force-reinstall --no-cache-dir --no-deps githttps://github.com/unslothai/unsloth.git​…...

基于腾讯云大模型知识引擎×DeepSeek的高等职业学校单独招生二级学院考前咨询系统

1、主要思路 通过大模型知识引擎DeepSeek搭建高等职业学校单独招生二级学院考前咨询专有问答&#xff0c;使得专业老师能够更好的服务考试学生&#xff0c;有利于二级学院能够更好的进行考试宣传&#xff0c;招来优秀学子&#xff01; 2、创作过程 2.1、本地部署大模型的缺陷…...

【Linux】线程库

一、线程库管理 tid其实是一个地址 void* start(void* args) {const char* name (const char *)args;while(true){printf("我是新线程 %s &#xff0c;我的地址&#xff1a;0x%lx\n",name,pthread_self());sleep(1);}return nullptr; }int main() {pthread_t tid…...

数组作为哈希表的妙用:寻找缺失的第一个正数

数组作为哈希表的妙用&#xff1a;寻找缺失的第一个正数 大家好&#xff0c;我是Echo_Wish&#xff0c;今天我们来探讨一个经典的算法问题——“缺失的第一个正数”。听起来可能有点简单&#xff0c;但它实际上是一个非常有意思且富有挑战性的题目&#xff0c;在面试中常常会碰…...

物化视图详解:数据库性能优化的利器

物化视图&#xff08;Materialized View&#xff09;作为数据库性能优化的核心手段&#xff0c;通过预计算和存储查询结果&#xff0c;显著提升了复杂查询的效率。本文将深入剖析物化视图的工作原理、应用场景及最佳实践&#xff0c;帮助企业在合适的场景中充分发挥其性能优势。…...

【C++】类和对象(匿名对象)

匿名对象 用 类型(实参) 定义出来的对象叫做匿名对象&#xff0c;相比之前我们定义的 类型 对象名(实参) 定义出来叫有名对象匿名对象生命周期只在当前一行&#xff0c;一般临时定义一个对象当前用一下即可&#xff0c;就可以定义匿名对象。 class A { public:A(int a 0):_a…...

一文读懂 GPT 与 BERT:预训练逻辑及差异剖析

在自然语言处理&#xff08;NLP&#xff09;领域&#xff0c;预训练语言模型GPT&#xff08;Generative Pretrained Transformer&#xff09;和 BERT&#xff08;Bidirectional Encoder Representations from Transformers&#xff09;作为杰出代表&#xff0c;备受关注。本文将…...

【算法】十大排序算法(含时间复杂度、核心思想)

以下是 **十大经典排序算法** 的时间复杂度、空间复杂度及稳定性总结&#xff0c;适用于面试快速回顾&#xff1a;排序算法对比表 排序算法最佳时间复杂度平均时间复杂度最差时间复杂度空间复杂度稳定性核心思想冒泡排序O(n)O(n)O(n)O(1)稳定相邻元素交换&#xff0c;大数沉底…...

渐进式滑坡多场信息演化特征与数据挖掘研究

标题:渐进式滑坡多场信息演化特征与数据挖掘研究 内容:1.摘要 摘要&#xff1a;在地质灾害频发的背景下&#xff0c;研究渐进式滑坡多场信息演化特征与数据挖掘具有重要的实际意义。本研究旨在深入探究渐进式滑坡在不同阶段的多场信息&#xff08;如应力场、位移场、渗流场等&…...

蓝桥杯备考-》单词接龙

很明显&#xff0c;这道题是可以用DFS来做的&#xff0c;我们直接暴力搜索&#xff0c;但是这里有很多点是我们需要注意的。 1.我们如何确定两个单词能接上&#xff1f; 比如touch和choose 应该合成为touchoose 就是这样两个单词&#xff0c;我们让一个指针指着第一个字符串…...

解锁C++模板参数:开启泛型编程新世界

目录 C++ 模板:编程世界的瑞士军刀 一、模板参数初相识 1.1 类型参数 1.2 非类型参数 1.3 模板模板参数 二、模板参数推导大揭秘 2.1 推导规则深度剖析 2.2 推导成功场景展示 2.3 推导失败场景解析 三、模板参数实战应用 3.1 通用算法实现 3.2 容器类设计 3.3 元…...

计算机视觉yolov8模型应用-学习笔记

计算机视觉yolov8模型应用-学习笔记 YOLOv8是由Ultralytics公司在‌2023年1月10日‌发布的一款深度学习模型。它是YOLOv5的重大更新版本&#xff0c;支持图像分类、物体检测和实例分割任务。这一版本在发布前就受到了广泛关注&#xff0c;并在发布后迅速成为目标检测领域的热门…...

【网络层协议】NAT技术内网穿透

IP地址数量限制 我们知道&#xff0c;IP地址&#xff08;IPv4&#xff09;是一个4字节32位的整数&#xff0c;那么一共只有2^32也就是接近43亿个IP地址&#xff0c;而TCP/IP协议栈规定&#xff0c;每台主机只能有一个IP地址&#xff0c;这就意味着&#xff0c;一共只有不到43亿…...

SQL中的索引是什么

在 SQL 中&#xff0c;索引&#xff08;Index&#xff09; 是一种用于加速数据检索的数据库对象&#xff0c;通过建立特定的数据结构&#xff08;如 B树、哈希表等&#xff09;&#xff0c;帮助数据库系统快速定位目标数据。以下是关于索引的详细分类、工作原理、使用场景和最佳…...

TensorFlow面试题及参考答案

目录 什么是 TensorFlow 的计算图?详细描述 TensorFlow 计算图的组成结构(节点、边、会话) 它与动态图(Eager Execution)的区别是什么?TensorFlow 静态计算图与动态图(Eager Execution)的区别及适用场景是什么? 解释张量(Tensor)的概念及其在 TensorFlow 中的作用…...