当前位置：首页 > news >正文

DeepSeek-VL2

news 2025/7/7 8:57:54

《DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding》是 DeepSeek-AI 团队发布的关于视觉语言模型 DeepSeek-VL2 的论文，以下是对该论文的详细介绍：

研究背景与动机

多模态理解的重要性：在当今人工智能领域，多模态理解（结合视觉和语言信息）变得越来越关键。例如，在智能文档处理中，需要理解文档中的图像、图表和文字来回答问题或提取关键信息；在图像字幕生成等任务中，要将视觉内容准确地用语言表达出来。然而，现有的视觉语言模型在处理复杂的高分辨率视觉数据和各种文本输入时存在诸多困难。
现有模型的不足：当前视觉语言模型在一些专业任务中的表现不尽人意。像在解读复杂的科学图表、处理包含大量文本和图像的密集文档时，模型往往难以准确理解和提供高质量的回答。此外，随着应用场景对模型性能和效率的要求不断提高，开发一种能够有效处理多种模态信息并且性能更优的模型成为迫切需求。

模型架构

混合专家（MoE）架构深入解析
- 原理与优势：混合专家架构是DeepSeek - VL2的核心创新之一。它的基本思想是让模型在处理每个输入时仅激活其总参数的一部分。这种方式类似于一个专家团队，每个专家（部分参数）负责处理特定类型的输入或任务。通过这种稀疏激活的方式，模型可以在不增加过多计算负担的情况下，提高性能。例如，对于不同类型的视觉场景（如自然风景图像和工业设备图纸）或语言任务（如问答和文本生成），模型可以有选择地激活不同的专家来进行更精准的处理。
- 与基础模型的关系：该架构建立在DeepSeek MoE - 27b基础模型之上。这个庞大的基础模型提供了丰富的参数资源（约270亿），而在实际处理每个token时，只有一小部分参数会被激活。这使得模型在利用大规模参数优势的同时，避免了计算资源的过度浪费。
动态图像平铺细节
- 平铺策略：为了有效处理高分辨率图像，动态图像平铺是一个关键技术。它将高分辨率图像划分为更小的平铺（tiles），然后单独分析每个平铺。这种划分方式不是固定的，而是根据图像的内容和分辨率动态调整。例如，对于一幅包含多个细节对象的复杂图像，平铺可以更精细地划分，以捕捉每个对象的细节；而对于相对简单的图像，可以采用较粗的划分方式。
- 效果与应用场景：通过这种动态平铺，模型能够捕捉到图像中的细微细节和更广泛的上下文信息。在处理如密集文档分析（包含文字、图表、图像等多种元素的文档）和复杂的视觉布局（如建筑设计图、电路图等）时，这种方法的优势尤为明显。它使得模型能够更好地理解图像中各个元素之间的关系，从而提高视觉理解能力。
视觉编码器、视觉语言适配器和混合专家语言模型协同工作
- 视觉编码器：采用SigLIP和SAM - B的混合编码器进行粗粒度和细粒度特征提取。粗粒度特征可以帮助模型快速把握图像的整体结构和主要内容，例如识别图像是风景、人物还是物体；细粒度特征则侧重于提取图像中具体对象的细节，如物体的纹理、形状等。这两种特征提取方式相结合，为后续的视觉语言融合提供了丰富的视觉信息。
- 视觉语言适配器：在处理视觉块后，通过2×2像素洗牌操作将每个块的视觉标记从27×27压缩到14×14。这个压缩过程能够减少数据量，同时保留关键的视觉信息。并且，引入三个特殊标记来处理全局缩略图块和局部块，最终将视觉序列投影到语言模型的嵌入空间中。这样的设计使得视觉信息能够与语言模型更好地融合，便于模型在处理语言任务时能够充分利用视觉信息。
- 混合专家语言模型：基于DeepSeek MoE，采用了多头潜在注意力机制。这种注意力机制通过压缩键值缓存为潜在向量，显著提高了推理效率。在语言处理过程中，它能够帮助模型更好地聚焦于文本中的关键部分，例如在回答问题时，能够快速定位到与答案相关的文本段落或句子，同时也能够更好地结合视觉信息来生成准确的回答。

数据构建与训练

数据构建阶段详解
- 视觉语言对齐阶段：主要使用ShareGPT4V数据集来训练MLP连接器。这个数据集包含约120万条标题和对话样本，为模型建立视觉和语言之间的初步联系提供了基础。在这个阶段，模型通过学习这些样本中的视觉和语言的关联方式，开始构建起初步的多模态理解能力。
- 视觉语言预训练阶段：数据结合了视觉语言数据和纯文本数据。视觉语言数据包括交错图像文本数据、图像描述数据、光学字符识别数据、视觉问答数据和视觉定位数据等多种类型。纯文本数据的加入有助于保持模型的语言理解能力。这种综合的数据构建方式使得模型能够在广泛的视觉语言场景中学习，避免了只侧重于某一种类型数据而导致的模型泛化能力不足。
- 监督微调阶段：结合了开源数据集和高质量的内部问答对，涵盖了通用视觉问答、OCR和文档理解、表格和图表理解、推理逻辑和数学、教科书和学术问题、网页到代码和绘图到Python生成、视觉定位和基于文本的对话数据等众多领域。通过在这些丰富的任务数据上进行微调，模型能够针对具体的应用场景进行优化，提高在各种任务中的性能。
训练方法步骤与目标
- 视觉语言对齐阶段训练：在这个阶段，主要优化视觉编码器和视觉语言适配器，同时保持语言模型固定。这样做的目的是先让模型建立起有效的视觉语言连接，使视觉信息能够正确地融入到语言模型的处理过程中，而不干扰已经预训练好的语言模型部分。
- 视觉语言预训练阶段训练：在此阶段，优化所有参数。这是因为经过视觉语言对齐阶段，模型已经建立了基本的视觉语言联系，现在需要全面调整模型的参数，以更好地融合视觉和语言信息，进一步提高模型在视觉语言任务中的综合性能。
- 监督微调阶段训练：通过监督微调来增强模型的指令遵循和对话能力。在这个过程中，优化所有参数，同时仅监督答案和特殊标记。这种监督方式能够使模型更加准确地理解用户的指令，生成符合要求的回答，并且能够更好地处理特殊标记所代表的视觉信息，从而在各种视觉语言任务中提供高质量的输出。

实验与评估

实验设置详细信息
- 基准测试选择的考量：在多个常用基准测试中进行全面评估，这些基准测试是经过精心挑选的，涵盖了从文档理解、图表解释到现实世界问题解决的多样化任务。例如，DocVQA用于测试模型对文档中视觉和文字信息结合的问答能力；ChartQA重点考察模型对各种图表（如柱状图、折线图等）的理解和解释能力；TextVQA则主要针对图像中的文字相关问题进行测试。选择这些基准测试能够全面地衡量模型在不同类型视觉语言任务中的性能。
- 参数设置与对比模型选择：在实验过程中，明确了模型的各种参数设置，包括模型的架构参数（如混合专家的数量、视觉编码器的参数等）和训练参数（如学习率、批次大小等）。同时，选择了一系列具有代表性的对比模型，如GroundingDino、Uninext、One - Peace、Mplug - 2、Florence - 2、InternVL2、Shikra、TextHawk2、Ferret - v2、MM1.5和Qwen2等。这些对比模型在视觉语言领域都有一定的影响力，通过与它们比较，可以更直观地展示DeepSeek - VL2的优势。
主要结果分析与解读
- 视觉定位任务表现：在视觉定位基准测试中，DeepSeek - VL2与众多其他模型进行比较，在不同规模的模型中均取得了最佳结果。这表明该模型在确定图像中物体的位置信息方面具有卓越的能力，能够准确地将语言描述与图像中的物体位置相对应。例如，在处理包含多个物体的复杂场景图像时，能够精准地指出用户所询问物体的位置。
- OCR任务成果：小型配置在OCR任务上达到了令人印象深刻的92.3%的准确率，显著超越了现有模型。这说明模型在光学字符识别方面表现出色，能够准确地识别图像中的文字内容，无论是手写文字还是印刷文字，并且能够很好地结合文字的视觉位置和语义信息，为后续的文字相关任务（如文档理解、问答等）提供了有力的支持。

创新点与贡献

架构创新的深度影响
- 混合专家架构的多方面优势：采用混合专家架构、动态图像平铺和多头潜在注意力机制等创新技术，从多个方面提高了模型的性能和效率。混合专家架构通过稀疏激活部分参数，实现了高效的计算和精准的任务处理；动态图像平铺增强了视觉理解能力，尤其是对于复杂图像和文档；多头潜在注意力机制提高了语言处理的效率和准确性。这些技术的综合应用使得模型能够更好地处理高分辨率图像和多样化的文本输入，在各种视觉语言任务中表现出色。
- 对多模态融合的推动作用：这种架构创新推动了视觉和语言模态的深度融合。通过巧妙的设计，使得视觉信息和语言信息能够在模型的各个层次中有效地交互和融合，不再是简单的拼接或相加。例如，在回答与图像细节相关的问题时，模型能够自然地利用视觉编码器提取的细节特征和语言模型中的语义知识，生成准确、连贯的回答。
数据创新的价值体现
- 构建全面数据集的意义：构建了全面且多样化的多模态数据集，涵盖了多种类型的视觉语言任务。这使得模型在训练过程中能够接触到丰富的视觉语言场景，学习到不同任务之间的共性和差异，从而增强了模型的泛化能力和任务特定性能。例如，在处理未曾见过的新类型图表或文档格式时，模型能够利用在其他类似任务中学到的知识进行有效的理解和处理。
- 数据多样性对模型的提升：数据的多样性不仅包括任务类型的多样，还包括数据来源和内容的多样。通过收集不同领域、不同风格的图像和文本数据，模型能够避免对特定类型数据的过度拟合，更好地适应真实世界中复杂多变的视觉语言环境。
性能提升的实际意义
- 先进性能在应用中的价值：在多个视觉语言任务中取得了最先进的结果，如在OCR和视觉定位等任务中表现出色。这意味着该模型在实际应用中能够提供高质量的服务。例如，在智能文档处理系统中，可以更准确地提取文档中的文字和图表信息，为用户提供更精准的文档内容查询和分析服务；在图像检索系统中，能够更好地理解用户的查询意图和图像内容，提供更符合要求的检索结果。
- 计算效率提升的优势：同时所需的计算资源比同类模型少了30%，展示了模型的高效性和实用性。这使得模型在资源有限的环境中也能够得到应用，例如在一些边缘计算设备或小型服务器上，能够以较低的成本实现高性能的视觉语言处理任务，降低了模型的部署成本和对硬件设备的要求。

局限性与未来工作

现有局限性分析
- 处理模糊图像的挑战：模型目前在处理模糊图像或未见过的对象时仍面临挑战。模糊图像可能由于拍摄条件（如光线不足、运动模糊等）导致视觉特征不清晰，使得模型难以准确提取信息；对于未见过的对象，模型缺乏足够的先验知识来进行理解和处理。
- 上下文窗口的限制：上下文窗口有限，这限制了模型在处理长文本序列或多图像交互场景中的能力。例如，在处理包含多个相关图像和长篇文字描述的复杂任务时，模型可能无法充分利用所有的信息来生成最优的回答。
未来研究方向展望
- 扩展上下文窗口：未来计划扩展上下文窗口以实现更丰富的多图像交互。这将需要在模型架构和训练方法上进行创新，例如改进注意力机制以更好地处理长序列信息，或者设计新的数据结构来存储和利用多图像和长文本的上下文信息。
- 提升鲁棒性和推理能力：进一步提升模型的鲁棒性和推理能力也是未来的重要方向。这可能包括通过增加更多样化的训练数据、改进模型的正则化方法来提高对模糊图像和未知对象的处理能力；在推理方面，可以探索新的推理策略和算法，使模型能够更灵活地运用所学知识来解决复杂问题。

DeepSeek-VL2

《DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding》是 DeepSeek-AI 团队发布的关于视觉语言模型 DeepSeek-VL2 的论文，以下是对该论文的详细介绍： 研究背景与动机多模态理解的重要性：在当…...

编程日记 2025/1/3 13:11:57

前端⾯试⼋股⽂

1.http 和 https 的基本概念 - http: 是⼀个客⼾端和服务器端请求和应答的标准（TCP），⽤于从 WWW 服务器传输超⽂本到本地浏览器的超⽂本传输协议。 - https:是以安全为⽬标的 HTTP 通道，即 HTTP 下加⼊ SSL 层进⾏加密。其作⽤…...

编程日记 2025/1/3 13:10:54

【Rust自学】8.6. HashMap Pt.2：更新HashMap

8.6.0. 本章内容第八章主要讲的是Rust中常见的集合。Rust中提供了很多集合类型的数据结构，这些集合可以包含很多值。但是第八章所讲的集合与数组和元组有所不同。第八章中的集合是存储在堆内存上而非栈内存上的，这也意味着这些集合的数据大小无需在编…...

编程日记 2025/1/3 13:08:51

Python异常处理详解：概念、语法与实践

1. 异常的概念在Python中，异常（Exception）是程序运行时出现的错误或不正常情况。异常通常表示程序在运行时遇到了无法继续执行的条件。Python通过 try/except 语句来捕获和处理异常。异常可以分为两类： 内建异常：…...

编程日记 2025/1/3 13:07:49

Kotlin在医疗大健康域的应用实例探究与编程剖析（上）

一、引言 1.1 研究背景与意义在当今数字化时代，医疗行业正经历着深刻的变革。随着信息技术的飞速发展，尤其是人工智能、大数据、物联网等新兴技术的广泛应用，医疗行业数字化转型已成为必然趋势。这种转型旨在提升医疗服务的效率和质量，优化医疗资源配置，为患者提供更加…...

编程日记 2025/1/3 13:06:48

QT----------QT Data Visualzation

实现思路： 配置项目：在 .pro 文件中添加 QT datavisualization 以引入 QT Data Visualization 模块。创建主窗口：使用 QMainWindow 作为主窗口，添加 Q3DScatter、Q3DBars 和 Q3DSurface 等三维视图组件。初始化和创建三维图表&a…...

编程日记 2025/1/3 13:04:46

什么是Sight Words（信号词）

🧡什么是Sight Words（信号词） 简单来说，Sight Words就是我们在日常英语中常用的一些基本词汇。可以把它想象成是学练英语的“基础词汇”，这些词在各种考试中经常出现，也是在生活中必不可少的。 &#x1f…...

编程日记 2025/1/3 13:01:42

SpringBoot日志快速集成详解-生产实战

SpringBoot日志快速集成详解 1. 添加依赖2. 创建 logback-spring.xml 配置文件示例 logback-spring.xml 配置： 3. 启用 Spring Boot 自动配置4. 配置 Spring Boot 启动日志级别5. 运行与验证博文专注于最快速的实战，没有那么多逼逼叨叨的理论&#xff0…...

编程日记 2025/1/3 12:57:33

路由技术在网络中的作用及特点

作用：路径选择：在复杂的网络拓扑结构中，路由技术能够根据网络的当前状态和目标地址，为数据报文选择一条最佳的传输路径，确保数据能够快速、准确地到达目的地。例如，在互联网中，当用户访问一个网…...

编程日记 2025/1/3 12:56:31

【Python系列】Flask 与 FastAPI：两个 Python Web 框架的对比分析

💝💝💝欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan 的首页,持续学…...

编程日记 2025/1/3 12:52:28

云手机：虚拟技术的革命性应用与实体手机的优劣对比

在近年来，随着互联网的火速发展，云手机作为一种新兴的技术产品，在游戏行业特别是手游市场中掀起了一股热潮。云手机，顾名思义，是架设在ARM虚拟服务器上的手机，其独特的虚拟技术为用户带来了前所未有的使用体…...

编程日记 2025/1/3 12:50:26

3. C语言数据类型

本章目录： 前言：C语言中的数据类型分类1. 基本数据类型1.1 整数类型1.2 浮点类型1.3 字符型常量1.4 字符串常量 2. 枚举类型3. void 类型void类型的使用示例： 4. 类型转换4.1 隐式类型转换4.2 显式类型转换类型转换的注意事项 5. 小结前言&a…...

编程日记 2025/1/3 12:49:25

npm install 安装选项 -d -s -g

在使用 npm install 时，-d、-g 和 -s 是不同的选项，它们分别代表不同的安装模式或行为。以下是它们的详细解释： 1. -d：--save-dev 含义：将包安装为开发依赖（devDependencies）。使用场景&#…...

编程日记 2025/1/3 12:48:23

pdf预览兼容问题- chrome浏览器105及一下预览不了

使用的"tato30/vue-pdf": "^1.11.2"预览插件，发现chrome浏览器105及一下预览不了 pdfPreview预览组件： <template><div id"vue_pdf_view"><div class"tool_tip"><template v-if"pa…...

编程日记 2025/1/3 12:47:19

【可实战】需求分析-测试计划↓-测试设计-测试执行-测试总结↓（包含测试计划、测试总结模板，以公司要求为准）

一、完成软件测试工作的必要步骤需求分析-测试计划-测试设计-测试执行-测试总结二、测试计划 （一）测试计划模版模板在线查看： https://docs.qq.com/doc/DV2hTamxJWnNDaUFF 模板（百度网盘）： 链接&…...

编程日记 2025/1/3 12:45:17

MySQL 03 章——基本的SELECT语句

一、SQL概述 （1）SQL背景知识 SQL（Structured Query Language，结构化查询语言）是使用关系模型的数据库应用语言，与数据直接打交道不同的数据库管理系统生产厂商都支持SQL语句，但都有特有内容 …...

编程日记 2025/1/3 12:44:16

【项目】智能BI洞察引擎测试报告

目录一、项目背景BI介绍问题分析项目背景二、项目功能三、功能测试1、登录测试测试用例测试结果 2、注册测试测试用例测试结果出现的bug 3、上传文件测试测试用例测试结果 4、AI生成图表测试测试用例测试结果 5、分析数据页面测试（异步）测试用例测试结…...

编程日记 2025/1/3 12:43:12

javaEE-文件操作和IO-文件

目录一.什么是文件 1.文件就是硬盘(磁盘)上的文件。 2.计算机中存储数据的设备： 3.硬盘的物理特征 4.树型结构组织和⽬录 5.文件路径文件路径有两种表示方式： 6.文件的分类二、java中文件系统的操作 1.File类中的属性： 2.构造方…...

编程日记 2025/1/3 12:42:11

2025跨年倒计时

<!DOCTYPE html> <html lang"zh"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>2025年跨年倒计时</title><style>/* 页…...

编程日记 2025/1/3 12:40:07

下载mysql免安装版和配置

1、下载地址点击去官网下载https://downloads.mysql.com/archives/community/ 2、解压安装mysql 解压的文件夹是没有my.ini文件和data目录，需要我们自己去创建根目录下创建my.ini，根目录创建data [mysql] default-character-setutf8[mysqld] #端口 po…...

编程日记 2025/1/3 12:39:04

浅谈 React Hooks

React Hooks 是 React 16.8 引入的一组 API，用于在函数组件中使用 state 和其他 React 特性（例如生命周期方法、context 等）。Hooks 通过简洁的函数接口，解决了状态与 UI 的高度解耦，通过函数式编程范式实现更灵活 Rea…...

编程新知 2025/7/7 6:59:35

微信小程序之bind和catch

这两个呢，都是绑定事件用的，具体使用有些小区别。官方文档： 事件冒泡处理不同 bind：绑定的事件会向上冒泡，即触发当前组件的事件后，还会继续触发父组件的相同事件。例如，有一个子视图绑定了b…...

编程新知 2025/7/6 20:56:11

在鸿蒙HarmonyOS 5中实现抖音风格的点赞功能

下面我将详细介绍如何使用HarmonyOS SDK在HarmonyOS 5中实现类似抖音的点赞功能，包括动画效果、数据同步和交互优化。 1. 基础点赞功能实现 1.1 创建数据模型 // VideoModel.ets export class VideoModel {id: string "";title: string ""…...

编程新知 2025/6/21 3:36:25

Cesium1.95中高性能加载1500个点

一、基本方式： 图标使用.png比.svg性能要好 <template><div id"cesiumContainer"></div><div class"toolbar"><button id"resetButton">重新生成点</button><span id"countDisplay&qu…...

编程新知 2025/7/5 20:48:37

全球首个30米分辨率湿地数据集(2000—2022)

数据简介今天我们分享的数据是全球30米分辨率湿地数据集，包含8种湿地亚类，该数据以0.5X0.5的瓦片存储，我们整理了所有属于中国的瓦片名称与其对应省份，方便大家研究使用。该数据集作为全球首个30米分辨率、覆盖2000–2022年时间…...

编程新知 2025/7/6 14:02:05

2025 后端自学UNIAPP【项目实战：旅游项目】6、我的收藏页面

代码框架视图 1、先添加一个获取收藏景点的列表请求【在文件my_api.js文件中添加】 // 引入公共的请求封装 import http from ./my_http.js// 登录接口（适配服务端返回 Token） export const login async (code, avatar) > {const res await http…...

编程新知 2025/7/6 18:56:26