当前位置：首页 > news >正文

COGVLM论文解读(COGVLM:VISUAL EXPERT FOR LARGE LANGUAGE MODELS)

news 2026/4/6 2:43:20

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、摘要
二、引言
三、模型方法
- 1、模型思路
- 2、融合公式
四、训练方法
总结

前言

2023年5月18日清华&智谱AI发布并开源VisualGLM-6B以来，清华KEG&智谱AI潜心打磨，又开发并开源了更加强大的多模态大模型CogVLM。CogVLM基于对视觉和语言信息之间融合的理解，是一种新的视觉语言基础模型。CogVLM 可以在不牺牲任何 NLP 任务性能的情况下，实现视觉语言特征的深度融合，替换以往浅融合模式，使用重要的视觉专家模块。为此，我在阅读了论文后做出该论文解读内容，能帮助更多读者学习。

论文链接:点击这里
代码地址：点击这里
网页测试demo:点击这里
个人原文重点翻译:点击这里

一、摘要

我们提出了CogVLM模型，一个更强的open-sorce视觉语言基准模型。该模型不同于现有受欢迎大模型，是直接使图像特征嵌入语言空间浅对齐的方法。而CogVLM缩小语言模型与图像编码特征融合的gap，在这里语言模型是已训练好且冻结的模型，图像特征编码是使用了attention and FFN layer构建的可训练视觉专家模块编码图像特征。结果是，CogVLM能深度融合视觉语言特征，而不牺牲NLP任务新能。 CogVLM在10中 cross-modal基准上实现最先进性能，基准包含…

在这里插入图片描述

二、引言

VLMS模式是功能强大且应用很广的。很多视觉和多模态任务看做是token的预测，如图像说明、视觉问答、视觉定位与分割等任务。作者特别说到之前方法，以BLIP-2举列，The popular shallow alignment methods represented by BLIP-2，是一个浅对齐模型，使用Q-FORMER结构，速度快但性能不够优秀。引出弱的视觉理解能力导致模型幻觉问题，提到CogVLM保持NLP语言模型能力同时添加一个强大视觉理解模型。为此，作者提到的模型可以解决这些问题，实现深层次融合，作者也提到P-tuning与lora方法，更多细节作者说了2点：

More detailed reasons for the performance degradation of p-tuning and shallow alignment include:
第一点：训练好的语言模型权重被冻结。视觉特征嵌入文本空间无法完美匹配，在多个transformer后，视觉特征无法在更深层匹配。
第二点：在预训练期间，先前视觉描述(如 writing style and caption length) 通过粗浅的align方法编码为视觉特征，在视觉与文本一致性是很差的。

作者继续说现有一种可能方法是联合训练图像-文本，PaLi and Qwen-VL模型使用了该方式，但损害NLP能力，也可能影响以文本为中心的任务，如诗词创作和图像背景介绍。PaLM-E文章对VLM模型在预训练期间让语言模型可以训练导致灾难性遗忘，对8B语言模型掉电87.3% NLG。为此，CogVLM为语言模型增加了可训练的视觉专家模块。在每一层中，图像特征依次都使用各自QKV矩阵+MLP嵌入到文本特征。Visual expert在保持FLOPs不变的情况下将参数数量加倍。由于原语言模型中的所有参数都是固定的，所以当输入序列不包含图像时，其行为与原语言模型相同。
最后作者也说因为先前更多有名VLM模型代码不公开，如…,我们希望开源CogVLM更好帮助研究者和工业应用。

三、模型方法

1、模型思路

模型方法有四个部分组成，第一个是视觉特征提取，只是选择模型不太一样，之前大模型一般都是VIT模型；第二个是MLP结构，没啥可说的；第三个是预训练的大语言模型，也没啥说的，第四个是视觉专家模块，我个人觉得这是一个很大变化，这个和之前的大模型就不太一样了，如图右可看出需要在每层融合，而其它大模型只在最后一层融合。

图中描述为:这个就是CogVLM结构，a图是说明输入方式，图像被预训练的VIT加工嵌入文本特征。b图是transform结构构建在语言模型种，每一层融合都有相应不同的QKV矩阵和FFN结构，紫色部分是可以训练的，其它是冻结的。
注：b图都是图像特征嵌入！！！