当前位置：首页 > news >正文

Qwen-VL论文阅读

news 2026/2/11 1:12:08

论文地址

其他同学的详细讲解

模型结构和参数大小

（1）LLM：Qwen-7B

（2）Vision Encoder：ViT架构，初始化参数是 Openclip’s ViT-bigG。

在训练和推理过程中，输入的图像都被调整到特定的分辨率。

视觉编码器通过将图像分割成步长为14 的块来处理图像，从而生成一组图像特征。

「 224 / 14 = 16 16 x 16 = 256」

（3）VL Adapter：Position-aware Vision-Language Adapter 位置感知视觉-语言适配器

主要作用是压缩图像特征、减少由长图像特征序列引起的效率问题。

这个Adapter 包括一个随机初始化的单层交叉注意力模块 cross-attention

这个模块的 query 是一组可训练的向量，key 是 Vision Encoder 输出的图像特征

「这里的query 经过不断地训练，在图文的对齐上起到了重要的作用」

这种机制将视觉特征序列压缩到 256 个固定长度。「查询向量的数量太少可能会导致部分视觉信息的丢失，而查询量过多则可能会增加收敛难度和计算成本」

整合 2D绝对位置编码到 cross attention 中 query 和 key，以减轻图像压缩时的损失

随后，将256长度的压缩图像特征输入给 LLM

在这里插入图片描述

Qwen-VL训练的3个阶段

在这里插入图片描述

（1）预训练阶段

用大规模、弱标注、网络爬虫抓取的 14亿图像文本对 数据集，其中 22.7% 中文数据

冻结 LLM的参数，仅对 Vision Encoder 和 VL Adapter 进行优化。

输入的图像大小调整为 224 x 224

训练目标是文本 token 的交叉熵

最大学习率 2e-4

batchsize为 30720个图像文本对

持续 50000步的训练

消耗约 15亿图像文本对的样本

这个阶段的目标是对齐 Vision Encoder 和LLM的特征

（2）多任务训练阶段

用高质量、细粒度的 VL 标注数据，采用更大分辨率和交错的图像文本对同时进行 7个任务的训练。

其中简单地通过将同一任务的数据打包成长度为 2048 的序列来构造交错的图像-文本数据（不同训练集的数据）

并且将 Vision Encoder的输入分辨率从 224 x 224 提升到 448 x 448，减少图像下采样造成的损失

训练目标和预训练阶段相同，但不冻结任一模块

这个阶段的目标是强化模型的多模态能力

（3）有监督微调阶段

通过指令微调对Qwen-VL预训练模型进行了微调，以增强其遵循指令和多轮对话能力，从而得到了交互式的Qwen-VL-Chat模型

通过优化这个阶段的训练数据，使得模型具备定位和多图像理解能力

同时，通过混合纯文本数据，使得模型具有通用对话能力

这部分指令微调数据总量是 350k

此阶段冻结 Vision Encoder 模块，优化 LLM 和 VL Adapter 模块参数

训练数据示例：

训练目标：回答和特殊标记（如下图蓝色部分）为了确保预测和训练之间的分布一致性
在这里插入图片描述

其他

Qwen-VL全新升级

注意：上述记录、忽略一些的细节，比如 input 和 output等

Qwen-VL论文阅读

论文地址其他同学的详细讲解模型结构和参数大小 （1）LLM：Qwen-7B （2）Vision Encoder：ViT架构，初始化参数是 Openclip’s ViT-bigG。在训练和推理过程中，输入的图像都被调整到…...

编程日记 2024/6/7 23:49:09

超详细的java Comparable，Comparator接口解析

前言 Hello大家好呀，在java中我们常常涉及到对象的比较，不同于基本数据类型，对于我们的自定义对象，需要我们自己去建立比较标准，例如我们自定义一个People类，这个类有name和age两个属性，那么问…...

编程日记 2024/6/7 23:48:08

Java使用GDAL来解析KMZ及KML实战

目录前言一、在GQIS中浏览数据 1、关于空间参考 2、属性表格二、GDAL的相关驱动及解析实战 1、GDAL中的KMZ驱动 2、GDAL实际解析三、数据解析成果 1、KML解析结果 2、KMZ文件入库四、总结前言在前面的博客中讲过纯Java实现Google地图的KMZ和KML文件的解析&…...

编程日记 2024/6/7 23:47:07

【vuex小试牛刀】

了解vuex核心概念请移步 https://vuex.vuejs.org/zh/ # 一、初始vuex # 1.1 vuex是什么就是把需要共享的变量全部存储在一个对象里面，然后将这个对象放在顶层组件中供其他组件使用父子组件通信时，我们通常会采用 props emit 这种方式。但当通信双方不…...

编程日记 2024/6/7 23:46:06

一、实现效果二、源码分析 import {useRef, useState} from "react";export const Carousel () > {const images [{id: 3, url: https://sslstage3.sephorastatic.cn/products/2/4/6/8/1/6/1_n_new03504_100x100.jpg}, {id: 1, url: https://sslstage2.sephor…...

编程日记 2024/6/7 23:45:05

【学习笔记】Windows GDI绘图(十三)动画播放ImageAnimator(可调速)

文章目录前言定义方法CanAnimate 是否可动画显示Animate 动画显示多帧图像UpdateFramesStopAnimate终止动画Image.GetFrameCount 获取动画总帧数Image.GetPropertyItem(0x5100) 获取帧延迟自定义GIF播放(可调速) 前言在前一篇文章中用到ImageAnimator获取了GIF动画的一些属…...

编程日记 2024/6/7 23:43:03

fps游戏如何快速定位矩阵

fps游戏如何快速定位矩阵矩阵特点: 1、第一行第一列值的范围在**-1 ---- 1**之间，如果开镜之后值会变大。 2、第一行第三列的值始终为 0。 3、第一行第四列的值比较大 ， >300或者**<-300**。根据这三个特点，定位矩阵已经足够了…...

编程日记 2024/6/7 23:42:02

【机器学习基础】Python编程06：五个实用练习题的解析与总结

Python是一种广泛使用的高级编程语言，它在机器学习领域中的重要性主要体现在以下几个方面：简洁易学：Python语法简洁清晰，易于学习，使得初学者能够快速上手机器学习项目。丰富的库支持：Python拥有大量的机器学习库，如scikit-learn、TensorFlow、Keras和PyTorch等，这些…...

编程日记 2024/6/7 23:41:01

R可视化：生存分析森林图

在R语言中，使用forestplot包来绘制生存分析的森林图是一个专业且直观的方式来展示各种风险因素或治疗对生存结果的影响。森林图（Forest Plot）常用于展示多项研究的效应量和其可信区间，尤其在生存分析中，它可以清晰地显示不同变量或因素对生存时间的影响程度和统计显著性。…...

编程日记 2024/6/7 23:40:00

一个 python+tensorFlow训练1万张图片分类的简单直观例子( 回答由百度 AI 给出）

问题：给定一个文件夹 train_images，里面有10000张30*30像素的灰度值图片，第1~第10000张图片的名称分别为 00001.png、 00002.png、... 09999.png、10000.png,train_images 下面还有一个 image_category_map.txt文件， 文件的内容…...

编程日记 2024/6/7 23:37:58

DBeaver无法连接Clickhouse，连接失败

DBeaver默认下载的是0.2.6版本的驱动，但是一直连接失败： 报错提示解决办法点击上图中的Open Driver Configuration点击库 - 重置为默认状态在弹出的窗口中修改驱动版本号为0.2.4或者其他版本（我没有试用过其他版本）&#xff0…...

编程日记 2024/6/7 23:36:57

python基础实例

下一个更大的数定义一个Solution类，用于实现next_great方法 class Solution: def next_great(self, nums1, nums2): # 初始化一个空字典answer，用于存储答案 answer {} # 初始化一个空列表stack，用于存储待比较的数字 stack [] # 遍历nu…...

编程日记 2024/6/7 23:35:56

ADASIS V2 协议-1

ADAS V2协议-1 1 简介2 版本控制3 ADASIS v23.1 ADASIS v2 Horizon （地平线）3.2 ADASIS v2的构建3.3 ADASIS v2 Horizon Provider （ADAS V2地平线提供者）3.4 paths and offsets （路径和偏移量）3.5 Path Pro…...

编程日记 2024/6/7 23:34:55

人工智能安全风险分析及应对策略

文│中国移动通信集团有限公司信息安全管理与运行中心张峰江为强邱勤郭中元王光涛人工智能（AI）是引领新一轮科技革命和产业变革的关键技术。人工智能赋能网络安全的同时，也会带来前所未有的安全风险。本文在介绍人工智能技术赋能网络安…...

编程日记 2024/6/7 23:33:54

Python驱动下的AI革命：技术赋能与案例解析

在当今这个信息化、数据化的时代，人工智能（AI）已经成为推动社会发展的重要力量。而Python，作为一种简单易学、功能强大的编程语言，在AI领域的应用中发挥着至关重要的作用。本文将探讨Python在AI领域的应用、其背后的技…...

编程日记 2024/6/7 23:32:51

JavaScrip轮播图

前言在网页设计中，轮播图（Carousel）已经成为一种常见的元素，用于展示一系列的图片或内容卡片。它们不仅能够吸引用户的注意力，还能节省空间，使得用户可以在有限的空间内获得更多的信息。今天，我…...

编程日记 2024/6/7 23:28:48

达梦8 网络中断对系统的影响

测试环境：三节点实时主从版本：--03134283938-20221019-172201-20018 测试1 系统没有启动确认监视器关闭节点3网卡登录节点1检查主库状态显示向节点2发送归档成功，但无法收到节点3的消息，节点1挂起日志报错如下&#xf…...

编程日记 2024/6/7 23:27:47

OpenAI发布GPT-4思维破解新策略，Ilya亦有贡献！

OpenAI正在研究如何破解GPT-4的思维，并公开了超级对齐团队的工作，Ilya Sutskever也在作者名单中。论文地址：https://cdn.openai.com/papers/sparse-autoencoders.pdf 代码：https://github.com/openai/sparse_autoencoder 特征可…...

编程日记 2024/6/7 23:26:46

[消息队列 Kafka] Kafka 架构组件及其特性（二）Producer原理

这边整理下Kafka三大主要组件Producer原理。目录一、Producer发送消息源码流程二、ACK应答机制和ISR机制 1）ACK应答机制 2）ISR机制三、消息的幂等性四、Kafka生产者事务一、Producer发送消息源码流程 Producer发送消息流程如上图。主要是用…...

编程日记 2024/6/7 23:25:45

faiss ivfpq索引构建

假设已有训练好的向量值，构建索引（nlist和随机样本按需选取） import numpy as np import faiss import pickle from tqdm import tqdm import time import os import random# 读取嵌入向量并保留对应关系 def read_embeddings(directory, ba…...

编程日记 2024/6/7 23:22:43

装饰模式（Decorator Pattern）重构java邮件发奖系统实战

前言现在我们有个如下的需求，设计一个邮件发奖的小系统， 需求 1.数据验证 → 2. 敏感信息加密 → 3. 日志记录 → 4. 实际发送邮件装饰器模式（Decorator Pattern）允许向一个现有的对象添加新的功能，同时又不改变其…...

编程新知 2026/2/8 4:37:00

相机Camera日志实例分析之二：相机Camx【专业模式开启直方图拍照】单帧流程日志详解

【关注我，后续持续新增专题博文，谢谢！！！】上一篇我们讲了： 这一篇我们开始讲： 目录一、场景操作步骤二、日志基础关键字分级如下三、场景日志如下： 一、场景操作步骤操作步…...

编程新知 2026/1/30 10:10:55

python/java环境配置

环境变量放一起 python： 1.首先下载Python Python下载地址：Download Python | Python.org downloads ---windows -- 64 2.安装Python 下面两个，然后自定义，全选可以把前4个选上 3.环境配置 1）搜高级系统设置 2…...

编程新知 2026/2/9 15:41:39

Qwen3-Embedding-0.6B深度解析：多语言语义检索的轻量级利器

第一章引言：语义表示的新时代挑战与Qwen3的破局之路 1.1 文本嵌入的核心价值与技术演进在人工智能领域，文本嵌入技术如同连接自然语言与机器理解的“神经突触”——它将人类语言转化为计算机可计算的语义向量，支撑着搜索引擎、推荐系统、…...

编程新知 2025/11/6 8:47:31

Python爬虫（一）：爬虫伪装

一、网站防爬机制概述在当今互联网环境中，具有一定规模或盈利性质的网站几乎都实施了各种防爬措施。这些措施主要分为两大类： 身份验证机制：直接将未经授权的爬虫阻挡在外反爬技术体系：通过各种技术手段增加爬虫获取数据的难度…...

编程新知 2026/1/30 20:42:46

Linux --进程控制

本文从以下五个方面来初步认识进程控制： 目录进程创建进程终止进程等待进程替换模拟实现一个微型shell 进程创建在Linux系统中我们可以在一个进程使用系统调用fork()来创建子进程，创建出来的进程就是子进程，原来的进程为父进程。…...

编程新知 2026/1/30 15:27:25

USB Over IP专用硬件的5个特点

USB over IP技术通过将USB协议数据封装在标准TCP/IP网络数据包中，从根本上改变了USB连接。这允许客户端通过局域网或广域网远程访问和控制物理连接到服务器的USB设备（如专用硬件设备），从而消除了直接物理连接的需要。USB over IP的…...

编程新知 2026/2/6 13:42:22

JavaScript基础-API 和 Web API

在学习JavaScript的过程中，理解API（应用程序接口）和Web API的概念及其应用是非常重要的。这些工具极大地扩展了JavaScript的功能，使得开发者能够创建出功能丰富、交互性强的Web应用程序。本文将深入探讨JavaScript中的API与Web AP…...

编程新知 2025/8/21 23:03:46

搭建DNS域名解析服务器(正向解析资源文件)

正向解析资源文件 1）准备工作服务端及客户端都关闭安全软件 [rootlocalhost ~]# systemctl stop firewalld [rootlocalhost ~]# setenforce 0 2）服务端安装软件：bind 1.配置yum源 [rootlocalhost ~]# cat /etc/yum.repos.d/base.repo [Base…...

编程新知 2026/2/4 15:42:45

【Android】Android 开发 ADB 常用指令

查看当前连接的设备 adb devices 连接设备 adb connect 设备IP 断开已连接的设备 adb disconnect 设备IP 安装应用 adb install 安装包的路径卸载应用 adb uninstall 应用包名查看已安装的应用包名 adb shell pm list packages 查看已安装的第三方应用包名 adb shell pm list…...

编程新知 2025/11/18 18:31:30

Qwen-VL论文阅读

模型结构和参数大小

Qwen-VL训练的3个阶段

其他

相关文章：

Qwen-VL论文阅读

超详细的java Comparable，Comparator接口解析

Java使用GDAL来解析KMZ及KML实战

【vuex小试牛刀】

React - 实现走马灯组件

【学习笔记】Windows GDI绘图(十三)动画播放ImageAnimator(可调速)

fps游戏如何快速定位矩阵

【机器学习基础】Python编程06：五个实用练习题的解析与总结

R可视化：生存分析森林图

一个 python+tensorFlow训练1万张图片分类的简单直观例子( 回答由百度 AI 给出）

DBeaver无法连接Clickhouse，连接失败

python基础实例

ADASIS V2 协议-1

人工智能安全风险分析及应对策略

Python驱动下的AI革命：技术赋能与案例解析

JavaScrip轮播图

达梦8 网络中断对系统的影响

OpenAI发布GPT-4思维破解新策略，Ilya亦有贡献！

[消息队列 Kafka] Kafka 架构组件及其特性（二）Producer原理

faiss ivfpq索引构建

装饰模式（Decorator Pattern）重构java邮件发奖系统实战

相机Camera日志实例分析之二：相机Camx【专业模式开启直方图拍照】单帧流程日志详解

python/java环境配置

Qwen3-Embedding-0.6B深度解析：多语言语义检索的轻量级利器

Python爬虫（一）：爬虫伪装

Linux --进程控制

USB Over IP专用硬件的5个特点

JavaScript基础-API 和 Web API

搭建DNS域名解析服务器(正向解析资源文件)

【Android】Android 开发 ADB 常用指令