当前位置：首页 > news >正文

Qwen2-VL：增强视觉语言模型对世界任意分辨率的感知能力

news 2025/7/14 16:59:33

1、摘要

Qwen2-VL系列是Qwen-VL模型的高级升级版本，它重新定义了传统视觉处理中预设分辨率的方法。Qwen2-VL引入了Naive Dynamic Resolution机制，使模型能够动态处理不同分辨率的图像，并将其转换为不同数量的视觉标记。这种机制使模型能够生成更高效、更准确的视觉表示，更接近人类的感知过程。此外，模型还集成了多模态旋转位置嵌入（M-RoPE），有效融合了文本、图像和视频中的位置信息。Qwen2-VL采用统一的图像和视频处理范式，增强了模型的视觉感知能力。通过扩展模型规模（2B、8B和72B参数）和训练数据量，Qwen2-VL系列在多模态基准测试中取得了极具竞争力的性能，特别是Qwen2-VL-72B模型，在各种多模态基准测试中表现与GPT-4o和Claude3.5Sonnet相当，超越了其他通用模型。

2、引言

大型视觉语言模型（LVLMs）是人工智能领域的重要进展，它们在传统大型语言模型的基础上扩展了对图像、音频和视频等多种数据的处理能力。这些模型通过整合不同形式的数据，更接近人类感知和与环境互动的方式。然而，当前的LVLMs通常受限于固定的图像输入大小，这限制了模型对不同尺度信息的捕捉能力。此外，大多数LVLMs依赖于静态的、冻结的CLIP风格视觉编码器，这引发了对预训练模型生成的视觉表示是否足够的担忧。Qwen2-VL通过引入动态分辨率训练和2D旋转位置嵌入（RoPE）来解决这些问题，进一步增强了模型对不同分辨率的适应能力。

3、方法

Qwen2-VL系列包括三种不同规模的模型：Qwen2-VL-2B、Qwen2-VL-7B和Qwen2-VL-72B。所有模型均采用675M参数的Vision Transformer（ViT）作为视觉编码器，以确保计算负载与LLM的规模无关。以下是Qwen2-VL的关键改进：

3.1、Naive Dynamic Resolution

Qwen2-VL引入了动态分辨率支持，能够处理任意分辨率的图像，并将其动态转换为不同数量的视觉标记。为此，模型移除了ViT中原有的绝对位置嵌入，并引入了2D-RoPE来捕获图像的二维位置信息。在推理阶段，不同分辨率的图像被打包成一个序列，通过简单的MLP层将相邻的2×2标记压缩成一个标记，从而减少视觉标记的数量。

3.2、多模态旋转位置嵌入（M-RoPE）

M-RoPE通过将旋转嵌入分解为时间、高度和宽度三个分量，有效建模多模态输入的位置信息。对于文本输入，这些分量使用相同的位置ID，与1D-RoPE功能等效。对于图像，每个视觉标记的时间ID保持不变，而高度和宽度分量根据标记在图像中的位置分配不同的ID。对于视频，时间ID随每帧递增，高度和宽度分量的ID分配模式与图像相同。

3.3、统一的图像和视频理解

Qwen2-VL采用混合训练方案，同时处理图像和视频数据，确保模型在图像理解和视频理解方面的能力。为了保留尽可能多的视频信息，模型以每秒两帧的频率对视频进行采样，并结合3D卷积处理视频输入，使模型能够处理3D管而不是2D块，从而在不增加序列长度的情况下处理更多视频帧。

4、训练

Qwen2-VL采用三阶段训练方法：

第一阶段：专注于训练Vision Transformer（ViT）组件，使用大量的图像-文本对来增强语义理解。

第二阶段：解冻所有参数，并使用更广泛的数据进行训练，以实现更全面的学习。

第三阶段：锁定ViT参数，仅对LLM进行微调，使用指令数据集进行训练。

模型在预训练阶段接触了约6000亿个标记，包括图像-文本对、OCR数据、图像-文本文章、视觉问答数据集、视频对话和图像知识数据集。数据来源包括清理后的网页、开源数据集和合成数据。预训练阶段主要关注图像-文本关系学习、图像中文本内容识别和图像分类任务。第二阶段预训练引入了额外的8000亿个标记的图像相关数据，进一步提升了模型对视觉和文本信息交互的理解能力。在指令微调阶段，模型使用ChatML格式构建指令跟随数据，包括纯文本对话数据和多模态对话数据。

5、实验

Qwen2-VL在多个视觉基准测试中表现出色，特别是在文档理解任务中。以下是关键的实验结果和分析：

多语言文本识别与理解

Qwen2-VL在多语言OCR方面超越了所有现有的通用LVLMs，包括GPT-4o和Claude 3.5 Sonnet等。模型不仅在公共可用的MTVQA数据集上表现出色，还在内部基准测试中超越了GPT-4o，支持多种欧洲语言、日语、韩语、阿拉伯语、越南语等。

数学推理

Qwen2-VL在MathVista和MathVision数据集上进行了数学推理能力的评估。MathVista包含6141个数学和视觉任务的多样化示例，而MathVision包含3040个嵌入视觉上下文中的数学问题。Qwen2-VL在MathVista上取得了70.5的优异成绩，并在MathVision上设定了新的开源基准，得分为25.9。

视觉定位任务

Qwen2-VL在RefCOCO、RefCOCO+和RefCOCOg数据集上进行了评估，这些数据集专注于科学图表中的文本选择问题。Qwen2-VL在这些任务中取得了顶尖的通用模型结果，尤其是在高分辨率图像细节感知方面表现出色。

视频理解

Qwen2-VL在多个视频理解任务上进行了评估，包括MVBench、PerceptionTest和EgoSchema等。Qwen2-VL-72B在这些基准测试中表现最佳，尤其是在处理长达一小时的视频时，模型展现了强大的能力。

视觉代理能力

Qwen2-VL在功能调用和复杂任务完成方面表现出色。在UI操作、机器人控制、卡牌游戏和视觉语言导航等任务中，Qwen2-VL展现了强大的能力，特别是在需要多步操作的任务中。

7、消融研究

动态分辨率

动态分辨率方法在不同基准测试中表现优于固定分辨率方法，同时平均消耗的标记数量更少。通过调整图像大小，模型在不同分辨率下表现出色，尤其是在InfoVQA、HallusionBench和OCRBench等感知任务中。

M-RoPE

M-RoPE在多种下游任务中表现优于1D-RoPE，尤其是在视频基准测试中。M-RoPE还使模型在推理长度超出训练最大长度时表现出色，即使在训练时限制了最大标记数量，模型在推理时也能处理长达80K标记的视频。

模型规模扩展

随着模型规模的增加，模型在多种能力维度上的表现一致提升，尤其是在数学能力方面。模型在OCR相关任务中表现出色，即使在较小规模的模型中也能取得较好的成绩。

8、结论

Qwen2-VL系列是功能强大的大型视觉语言模型，包括2B、8B和72B参数的模型。Qwen2-VL在多种多模态场景中与GPT-4o和Claude3.5-Sonnet等顶级模型表现相当，超越了其他所有开源的LVLMs。Qwen2-VL引入了动态分辨率和M-RoPE，能够理解超过20分钟的视频，并支持多语言文本理解。Qwen2-VL模型权重已公开，以便研究人员和开发人员在各种应用和研究项目中充分利用其潜力。