当前位置：首页 > news >正文

Yolo-World网络模型结构及原理分析（三）——RepVL-PAN

news 2026/2/9 2:41:39

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
- 1. 网络结构
- 2. 特征融合
- 3. 文本引导（Text-guided）
- 4. 图像池化注意力（Image-Pooling Attention）
- 5. 区域文本匹配（Region-Text Matching）
总结

前言

通过前边的YOLO检测器和文本编码器分别得到了特征图像和词向量，那么如何实现二者的融合，以达到目标检测的目的呢？就是通过yolo-world中提出的新的网络架构RepVL-PAN，下边我们来研究一下他是如何工作的。

RepVL-PAN（Re-parameterizable Vision-Language Path Aggregation Network）是YOLO-World中的一个核心网络结构，它通过融合视觉信息和语言信息来提升目标检测的性能。

1. 网络结构

RepVL-PAN基于YOLO架构，并采用特征金字塔网络（FPN）来提取多尺度图像特征，提取图像特征的部分已经在前文讲过，详情参考：Yolo-World网络模型结构及原理分析（一）——YOLO检测器。
它利用Transformer文本编码器（例如CLIP模型）来处理输入文本，生成文本嵌入。这部分也在前文讲过，详情参考：Yolo-World网络模型结构及原理分析（二）——文本编码器

2. 特征融合

通过Top-Down和Bottom-Up的路径来建立特征金字塔，这有助于在不同尺度上融合图像特征。

（1）Top-Down Path：从高层特征图向低层特征图传递信息。这种路径通过上采样操作（如反卷积或插值）将高层的抽象特征图扩展到低层的空间分辨率上。这样可以将高层特征与低层特征结合，使得模型在检测较小目标时具有更好的精度。
（2）Bottom-Up Path：从低层特征图向高层特征图传递信息。这种路径通过卷积操作将低层的细节特征图逐步融合到高层特征图中，从而保留更多的细节信息。这样可以帮助模型在检测较大目标时更好地保留细节信息。
（3）引入Text-guided Cross Stage Partial Layers（T-CSPLayer），这是一种扩展的CSPLayer，它将文本嵌入整合到多尺度图像特征中。图示中的C3,C4,C5就是从YOLO检测器之后获取到的三种不同尺度的特征图，尺寸分别为80x80，40x40，20x20三种尺寸。

3. 文本引导（Text-guided）

T-CSPLayer使用文本嵌入来引导图像特征的更新，通过在CSPLayer后应用max-sigmoid注意力机制来聚合文本特征。
T-CSPLayer结构如图所示：
（1）首先将传进来的特征图进行Split切分，比如一开始传入的特征图为40x40x512，那么切分之后一份是40x40x256，另一份也是40x40x256。
（2）其中一份进入Dark Bottleneck，进行一次普通卷积：使用较小的卷积核（如 1x1 卷积）来减少通道数和计算复杂度。可以有效地压缩特征图中的信息，同时保留重要的特征。然后进行深度可分离卷积：这种卷积方式将标准卷积拆分为深度卷积和逐点卷积两个步骤，从而进一步减少计算量和参数数量。深度卷积在每个通道上独立进行卷积操作，而逐点卷积则在通道间进行卷积。最后进行残差连接来增强模型的训练能力和稳定性。
（3）从Dark Bottleneck输出特征图之后进入Max-Sigmoid，同时text文本向量也进入Max-Sigmoid，在Max-Sigmoid中的处理过程是这样的：比如传进来的特征图是40x40x256，文本向量是3x256（3个词汇：“男”“女”“狗”），在特征图中有40x40=1600个像素点，每个像素点与3个文本提示词逐一计算，看哪个像素点与文本提示词的相关性最大，就给哪个像素点更多的权重（sigmoid）。也就是通过这个操作找到特征图中与文本提示词相关性更大的区域。这样就可以实现文本对图像的更新。
（4）从Max-Sigmoid出来的融合图再与最开始切分之后的特征图拼接，做一个残差连接，生成含有更丰富信息的特征图（注意这里还是特征图，只是有些像素点的权重更大）。

4. 图像池化注意力（Image-Pooling Attention）

为了增强文本嵌入的图像意识，RepVL-PAN使用图像池化操作来更新文本嵌入。
通过在多尺度特征上应用最大池化，生成小区域的patch tokens，然后使用多头注意力机制来更新文本嵌入。

Image-Pooling Attention结构如图所示：

（1）多尺度特征聚合：在I-Pooling Attention中，首先对图像进行多尺度特征提取。这意味着模型会从不同分辨率的图像中提取特征，以捕捉图像的不同层次的信息。
（2）最大池化操作：在提取多尺度特征后，使用最大池化（max pooling）操作来聚合这些特征。最大池化是一种常用的池化技术，它选择每个池化窗口内的最大值作为输出，这有助于保留图像中最重要的信息。
（3）生成Patch Tokens：通过最大池化操作，将每个特征图（80x80，40x40，20x20三种尺寸）聚合成3x3的区域，每个区域生成一个patch token。这样，对于一个给定的图像，总共会生成27个patch tokens（3x3），每个token都是一个特征向量，其维度为D。
（4）更新文本嵌入：生成的patch tokens随后用于更新文本嵌入。这是通过多头注意力机制实现的。具体来说，原始的文本嵌入w与patch tokens （含有文本信息w和图像信息token的向量）进行多头注意力计算，然后将结果加到原始文本嵌入上，得到更新后的文本嵌入w’，实现用图像更新文本嵌入，模型可以在更新文本嵌入时同时考虑来自图像的多个不同区域的特征。

5. 区域文本匹配（Region-Text Matching）

区域-文本匹配的目的是将检测到的图像区域（bounding boxes）与文本中提到的对象类别或名词进行匹配的过程。
区域文本匹配图示：

（1）通过RepVL-PAN网络之后，输出的P3 P4 P5是含有语义信息的特征图，将特征图输入到不同的Head中，首先通过BoxHead预测图像中每个对象的位置，这些位置以边界框（bounding boxes）的形式表示，每个边界框包含了对象的位置和大小信息。
（2）除了边界框，检测器还会为每个检测到的对象生成一个对象嵌入向量（object embeddings）。这个嵌入向量是一个高维空间中的点，它编码了对象的特征信息（每个对象含有语义信息“男”“女”“狗”），使得不同对象之间可以进行比较和区分。
（3）文本对比头（Text Contrastive Head）
通过RepVL-PAN网络之后得到的Image-aware Embeddings也含有了图像信息，object embeddings中含有了语义信息。利用文本对比头计算的相似度分数来匹配文本中提到的类别或名词与图像中的对象。找到对象嵌入与哪个文本嵌入之间的相似性最大。这样，模型不仅能够识别图像中的对象，还能够理解这些对象与用户输入的文本之间的关系。
也就是说YOLO-World 为每个边界框分配一个最匹配的类别或名词。这是基于相似度计算结果，模型会选择与对象嵌入最相似的文本嵌入所对应的类别或名词。
（4）零样本学习能力
YOLO-World 的一个关键特点是其零样本学习能力。这意味着即使在训练数据中没有见过某些类别或名词，模型也能够通过其语言和视觉的联合表示来识别和匹配这些新对象。

总结

通过RepVL-PAN网络，YOLO-World 展示了如何有效地结合视觉信息和语言描述，以实现对图像内容的深入理解和准确的自动标注，为开放词汇表对象检测领域提供了一种新的解决方案。

Yolo-World网络模型结构及原理分析（三）——RepVL-PAN

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言1. 网络结构2. 特征融合3. 文本引导（Text-guided）4. 图像池化注意力（Image-Pooling Attention）5. 区域文本匹配&…...

编程日记 2024/7/24 0:08:49

代码随想录——一和零（Leetcode474）

题目链接 0-1背包 class Solution {public int findMaxForm(String[] strs, int m, int n) {// 本题m，n为背包两个维度// dp[i][j]:最多右i个0和j个1的strs的最大子集大小int[][] dp new int[m 1][n 1];// 遍历strs中字符串for(String str : strs){int num0 …...

编程日记 2024/7/24 0:06:47

力扣题解（组合总和IV）

377. 组合总和 Ⅳ 给你一个由不同整数组成的数组 nums ，和一个目标整数 target 。请你从 nums 中找出并返回总和为 target 的元素组合的个数。题目数据保证答案符合 32 位整数范围。思路： 本题实质上是给一些数字，让他们在满足和是targ…...

编程日记 2024/7/24 0:05:46

Postgresql主键自增的方法

Postgresql主键自增的方法一.方法（一） 使用 serial PRIMARY KEY 插入数据二.方法（二） 🎈边走、边悟🎈迟早会好一.方法（一） 使用 serial PRIMARY KEY 建表语句如下&#xf…...

编程日记 2024/7/24 0:02:44

【源码阅读】Sony的go breaker熔断器源码探究

文章目录背景源码分析总结背景在微服务时代，服务和服务之间调用、跨部门调用都是很常见的事，但这些调用都存在很多不确定因素，如核心服务A依赖的部门B服务挂掉了，那么A本身的功能将会受到直接的影响，而这些都会影响…...

编程日记 2024/7/24 0:01:43

LeetCode题（66,69,35,88）--《c++》

66.加一 // // Created by wxj05 on 2024/7/20. // //法一 class Solution { public:vector<int> plusOne(vector<int>& digits) {bool carry true; // 进位标志for (int i digits.size() - 1; i > 0 && carry; --i) {digits[i] 1;carry digit…...

编程日记 2024/7/23 23:59:41

来参与“向日葵杯”全国教育仿真技术大赛~

可点击进行了解：“向日葵杯”全国教育仿真技术大赛 (sunmooc.cn) 本次大赛共分为四个赛道：自主命题赛道、教育知识图谱设计赛道、FPGA硬件扑克牌对抗赛道、EasyAR元宇宙空间设计赛道。参赛对象 ： 具有正式学籍的在校研究生，本科…...

编程日记 2024/7/23 23:58:39

SQL每日一题：删除重复电子邮箱

题干表: Person -------------------- | Column Name | Type | -------------------- | id | int | | email | varchar | -------------------- id 是该表的主键列(具有唯一值的列)。该表的每一行包含一封电子邮件。电子邮件将不包含大写字母。编写解决方案删除所有重复…...

编程日记 2024/7/23 23:57:38

3、宠物商店智能合约实战（truffle智能合约项目实战）

3、宠物商店智能合约实战（truffle智能合约项目实战） 1-宠物商店环境搭建、运行2-webjs与宠物逻辑实现3-领养智能合约初始化4-宠物领养实现5-更新宠物领养状态 1-宠物商店环境搭建、运行 https://www.trufflesuite.com/boxes/pet-shop 这个还是不行或者…...

编程日记 2024/7/23 23:55:37

数据库系列

目录一、数据库的概念和作用 1.数据库的特点 2.数据模型二、数据库系统 1.数据库管理系统 2.数据库的基本操作一、数据库的概念和作用数据库是指长期存储在计算机内，有组织的、可共享的数据集合。它可视为一个电子化的文件柜，用来存储电子文件…...

编程日记 2024/7/23 23:52:34

极狐GitLab如何启用和配置PlantUML？

GitLab 是一个全球知名的一体化 DevOps 平台，很多人都通过私有化部署 GitLab 来进行源代码托管。极狐GitLab ：https://gitlab.cn/install?channelcontent&utm_sourcecsdn 是 GitLab 在中国的发行版，专门为中国程序员服务。可以一键式部署…...

编程日记 2024/7/23 23:48:31

Shell 构建flutter + Android 生成Apk

具体步骤 #shell 具体实现和说明如下： echo "build_start_apk!" echo "编译此脚本的前提条件如下：" #在Android 项目的主工程下，进入主工程文件夹，创建build-android 文件夹，在其文件夹下有build-android.sh文件，此文件就是整个文章的脚本内容（…...

编程日记 2024/7/23 23:46:28

如何用手机压缩视频？手机压缩视频方法来了

高清视频的大文件大小常常成为分享和存储的障碍，尤其是在数据流量有限或存储空间紧张的情况下。幸运的是，无论是智能手机还是个人电脑，都有多种方法可以帮助我们轻松压缩视频文件，以适应不同的需求和情境。本文将介绍如何在手机上…...

编程日记 2024/7/23 23:45:27

Linux下如何安装配置Elastic Stack日志收集系统

安装和配置Elastic Stack日志收集系统，包括Elasticsearch、Logstash和Kibana，是一个相对复杂的过程。本篇文章将逐步引导您完成整个过程。安装Java Elasticsearch、Logstash和Kibana都需要Java运行环境。首先，您需要在Linux系统上安装Java…...

编程日记 2024/7/23 23:40:22

【深入C++】map和set的使用

文章目录 C 中的容器分类1. 顺序容器2. 关联容器3. 无序容器4. 容器适配器5. 字符串容器6. 特殊容器 set1.构造函数2.迭代器3.容量相关的成员函数4.修改器类的成员函数5.容器相关操作的成员函数 multiset1.equal_range map1.初始化相关的函数2.迭代器3.容量相关的成员函数4.访问…...

编程日记 2024/7/23 23:38:20

跟代码执行流程，读Megatron源码（二）训练入口pretrain_gpt.py

Megatron-LM默认支持GPT、T5、BERT等多个常见模型的预训练，当下大模型流行，故以pretrain_gpt.py为例做源码的走读。一. 启动pretrain_gpt.py pretrain_gpt.py为GPT类模型的训练入口，它通过命令行形式被调用，其精确执行路径位于M…...

编程日记 2024/7/23 23:36:18

MATLAB练习题——矩阵（2）

逻辑运算 a [5 0.2 0 -8 -0.7 ]，在进行逻辑运算时，a 相当于什么样的逻辑量。相当于 a[1 1 0 1 1] 角度运算在 sin(x)运算中，x 是角度还是弧度？ 在 sin(x)运算中，x 是弧度，MATLAB 规定所有…...

编程日记 2024/7/23 23:35:17

arm、AArch64、x86、amd64、x86_64 的区别

arm vs AArch64 vs amd64 vs x86_64 vs x86 的区别当涉及到 CPU 的时候，有许多术语：AArch64、x86_64、amd64、arm 等等。了解它们是什么以及它们之间的区别。当你查看数据表或软件下载页面时是否被 ARM、AArch64、x86_64、i386 等术语混淆？…...

编程日记 2024/7/23 23:34:16

【SpringBoot】 jasypt配置文件密码加解密

目前我们对yml配置文件中的密码都是明文显示，显然这不安全，有的程序员离职了以后可能会做一些非法骚操作，所以我们最好要做一个加密，只能让领导架构师或者技术经理知道这个密码。所以这节课就需要来实现一下。我们可以使用jasypt…...

编程日记 2024/7/23 23:27:11

复杂网络的任意子节点的网络最短距离

复杂网络的任意子节点的网络最短距离题目要求介绍本文算法测试用的数据集为空手道俱乐部，其中空手道俱乐部的数据集可通过这个链接进行下载•http://vlado.fmf.uni-lj.si/pub/networks/data/Ucinet/UciData.htm#zachary 摘要本文旨在解决复杂网络中任意子节点…...

编程日记 2024/7/23 23:24:08

KubeSphere 容器平台高可用：环境搭建与可视化操作指南

Linux_k8s篇欢迎来到Linux的世界，看笔记好好学多敲多打，每个人都是大神！ 题目：KubeSphere 容器平台高可用：环境搭建与可视化操作指南版本号: 1.0,0 作者: 老王要学习日期: 2025.06.05 适用环境: Ubuntu22 文档说…...

编程新知 2026/2/8 15:03:14

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造，完美适配AGV和无人叉车。同时，集成以太网与语音合成技术，为各类高级系统（如MES、调度系统、库位管理、立库等）提供高效便捷的语音交互体验。 L…...

编程新知 2026/2/8 4:23:14

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目：3442. 奇偶频次间的最大差值 I 思路 ：哈希，时间复杂度0(n)。用哈希表来记录每个字符串中字符的分布情况，哈希表这里用数组即可实现。 C版本： class Solution { public:int maxDifference(string s) {int a[26]…...

编程新知 2026/2/7 23:18:31

RocketMQ延迟消息机制

两种延迟消息 RocketMQ中提供了两种延迟消息机制指定固定的延迟级别通过在Message中设定一个MessageDelayLevel参数，对应18个预设的延迟级别指定时间点的延迟级别通过在Message中设定一个DeliverTimeMS指定一个Long类型表示的具体时间点。到了时间点后&#xf…...

编程新知 2026/2/8 21:59:25

镜像里切换为普通用户

如果你登录远程虚拟机默认就是 root 用户，但你不希望用 root 权限运行 ns-3（这是对的，ns3 工具会拒绝 root），你可以按以下方法创建一个非 root 用户账号并切换到它运行 ns-3。一次性解决方案：创建非 roo…...

编程新知 2025/9/11 11:00:29

Module Federation 和 Native Federation 的比较

前言 Module Federation 是 Webpack 5 引入的微前端架构方案，允许不同独立构建的应用在运行时动态共享模块。 Native Federation 是 Angular 官方基于 Module Federation 理念实现的专为 Angular 优化的微前端方案。概念解析 Module Federation (模块联邦) Modul…...

编程新知 2026/1/31 13:48:37

【Go语言基础【13】】函数、闭包、方法

文章目录零、概述一、函数基础1、函数基础概念2、参数传递机制3、返回值特性3.1. 多返回值3.2. 命名返回值3.3. 错误处理二、函数类型与高阶函数1. 函数类型定义2. 高阶函数（函数作为参数、返回值） 三、匿名函数与闭包1. 匿名函数（Lambda函…...

编程新知 2025/12/8 19:02:25

排序算法总结（C++）

目录一、稳定性二、排序算法选择、冒泡、插入排序归并排序随机快速排序堆排序基数排序计数排序三、总结一、稳定性排序算法的稳定性是指：同样大小的样本 **（同样大小的数据）**在排序之后不会改变原始的相对次序。稳定性对基础类型对象…...

编程新知 2026/1/25 9:33:23

学习一下用鸿蒙DevEco Studio HarmonyOS5实现百度地图

在鸿蒙（HarmonyOS5）中集成百度地图，可以通过以下步骤和技术方案实现。结合鸿蒙的分布式能力和百度地图的API，可以构建跨设备的定位、导航和地图展示功能。 1. 鸿蒙环境准备开发工具：下载安装 De…...

编程新知 2025/11/13 2:37:01

ubuntu22.04 安装docker 和docker-compose

首先你要确保没有docker环境或者使用命令删掉docker sudo apt-get remove docker docker-engine docker.io containerd runc安装docker 更新软件环境 sudo apt update sudo apt upgrade下载docker依赖和GPG 密钥 # 依赖 apt-get install ca-certificates curl gnupg lsb-rel…...

编程新知 2025/10/31 16:09:12