当前位置：首页 > news >正文

论文阅读YOLO-World: Real-Time Open-Vocabulary Object Detection

news 2026/2/10 7:02:29

核心：

在这里插入图片描述

开放词汇的实时的yolo检测器。
重参数化的视觉语言聚合路径模块Re-parameterizable VisionLanguage Path Aggregation Network (RepVL-PAN)
实时核心：轻量化的检测器+离线词汇推理过程重参数化

方法

在这里插入图片描述
预训练方案：将实例注释重新定义为区域-文本对，通过大规模检测、定位和图像-文本数据进行预训练。
模型架构：YOLO-World由YOLO检测器、文本编码器和RepVL-PAN组成，利用跨模态融合增强文本和图像表示

基础结构

Yolo detectorV8, darknet+PAN+head
Text Encoder. CLIP+n-gram
Text Contrastive Head.两个3x3回归bbox框以及object embedding。object embedding与文本embedding计算相似度求对比loss
Inference with Offline Vocabulary.prompt提前确定好，提前计算好embedding。再重参数化到PAN模块。

3.3. Re-parameterizable Vision-Language PAN

在这里插入图片描述
RepVL-PAN由多尺度图像特征{C3, C4, C5}形成，利用了自顶向下和自底向上的路径来加强图像特征和文本特征之间的交互。

Text-guided CSPLayer（文本->图像）.文本embedding经过max-sigmoid加权到neck特征后与原始特征concat。
Image-Pooling Attention.(图像->文本)。多层图像特征和文本attention再加到文本embedding中

结果

在这里插入图片描述
又快又好！V100上达到了52FPS！！！

核心代码：

class RepConvMaxSigmoidAttnBlock(BaseModule):"""Max Sigmoid attention block."""def __init__(self,in_channels: int,out_channels: int,embed_channels: int,guide_channels: int,kernel_size: int = 3,padding: int = 1,num_heads: int = 1,use_depthwise: bool = False,with_scale: bool = False,conv_cfg: OptConfigType = None,norm_cfg: ConfigType = dict(type='BN',momentum=0.03,eps=0.001),init_cfg: OptMultiConfig = None,use_einsum: bool = True) -> None:super().__init__(init_cfg=init_cfg)conv = DepthwiseSeparableConvModule if use_depthwise else ConvModuleassert (out_channels % num_heads == 0 andembed_channels % num_heads == 0), \'out_channels and embed_channels should be divisible by num_heads.'self.num_heads = num_headsself.head_channels = out_channels // num_headsself.use_einsum = use_einsumself.embed_conv = ConvModule(in_channels,embed_channels,1,conv_cfg=conv_cfg,norm_cfg=norm_cfg,act_cfg=None) if embed_channels != in_channels else Noneself.bias = nn.Parameter(torch.zeros(num_heads))self.num_heads = num_headsself.split_channels = embed_channels // num_headsself.guide_convs = nn.ModuleList(nn.Conv2d(self.split_channels, guide_channels, 1, bias=False)for _ in range(num_heads))self.project_conv = conv(in_channels,out_channels,kernel_size,stride=1,padding=padding,conv_cfg=conv_cfg,norm_cfg=norm_cfg,act_cfg=None)def forward(self, x: Tensor, txt_feats: Tensor = None) -> Tensor:"""Forward process."""B, C, H, W = x.shapeembed = self.embed_conv(x) if self.embed_conv is not None else xembed = list(embed.split(self.split_channels, 1))# Bx(MxN)xHxW (H*c=C, H: heads)attn_weight = torch.cat([conv(x) for conv, x in zip(self.guide_convs, embed)], dim=1)# BxMxNxHxWattn_weight = attn_weight.view(B, self.num_heads, -1, H, W)# attn_weight = torch.stack(#     [conv(x) for conv, x in zip(self.guide_convs, embed)])# BxMxNxHxW -> BxMxHxWattn_weight = attn_weight.max(dim=2)[0] / (self.head_channels**0.5)attn_weight = (attn_weight + self.bias.view(1, -1, 1, 1)).sigmoid()# .transpose(0, 1)# BxMx1xHxWattn_weight = attn_weight[:, :, None]x = self.project_conv(x)# BxHxCxHxWx = x.view(B, self.num_heads, -1, H, W)x = x * attn_weightx = x.view(B, -1, H, W)return x

ImagePoolingAttentionModule

class ImagePoolingAttentionModule(nn.Module):def __init__(self,image_channels: List[int],text_channels: int,embed_channels: int,with_scale: bool = False,num_feats: int = 3,num_heads: int = 8,pool_size: int = 3,use_einsum: bool = True):super().__init__()self.text_channels = text_channelsself.embed_channels = embed_channelsself.num_heads = num_headsself.num_feats = num_featsself.head_channels = embed_channels // num_headsself.pool_size = pool_sizeself.use_einsum = use_einsumif with_scale:self.scale = nn.Parameter(torch.tensor([0.]), requires_grad=True)else:self.scale = 1.0self.projections = nn.ModuleList([ConvModule(in_channels, embed_channels, 1, act_cfg=None)for in_channels in image_channels])self.query = nn.Sequential(nn.LayerNorm(text_channels),Linear(text_channels, embed_channels))self.key = nn.Sequential(nn.LayerNorm(embed_channels),Linear(embed_channels, embed_channels))self.value = nn.Sequential(nn.LayerNorm(embed_channels),Linear(embed_channels, embed_channels))self.proj = Linear(embed_channels, text_channels)self.image_pools = nn.ModuleList([nn.AdaptiveMaxPool2d((pool_size, pool_size))for _ in range(num_feats)])def forward(self, text_features, image_features):B = image_features[0].shape[0]assert len(image_features) == self.num_featsnum_patches = self.pool_size**2mlvl_image_features = [pool(proj(x)).view(B, -1, num_patches)for (x, proj, pool) in zip(image_features, self.projections, self.image_pools)]mlvl_image_features = torch.cat(mlvl_image_features,dim=-1).transpose(1, 2)q = self.query(text_features)k = self.key(mlvl_image_features)v = self.value(mlvl_image_features)q = q.reshape(B, -1, self.num_heads, self.head_channels)k = k.reshape(B, -1, self.num_heads, self.head_channels)v = v.reshape(B, -1, self.num_heads, self.head_channels)if self.use_einsum:attn_weight = torch.einsum('bnmc,bkmc->bmnk', q, k)else:q = q.permute(0, 2, 1, 3)k = k.permute(0, 2, 3, 1)attn_weight = torch.matmul(q, k)attn_weight = attn_weight / (self.head_channels**0.5)attn_weight = F.softmax(attn_weight, dim=-1)if self.use_einsum:x = torch.einsum('bmnk,bkmc->bnmc', attn_weight, v)else:v = v.permute(0, 2, 1, 3)x = torch.matmul(attn_weight, v)x = x.permute(0, 2, 1, 3)x = self.proj(x.reshape(B, -1, self.embed_channels))return x * self.scale + text_features

参考：https://github.com/AILab-CVC/YOLO-World/blob/master/yolo_world/models/layers/yolo_bricks.py

论文阅读YOLO-World: Real-Time Open-Vocabulary Object Detection

核心： 开放词汇的实时的yolo检测器。重参数化的视觉语言聚合路径模块Re-parameterizable VisionLanguage Path Aggregation Network (RepVL-PAN)实时核心：轻量化的检测器离线词汇推理过程重参数化方法预训练方案：将实例注释重新定义为区域…...

编程日记 2024/7/2 0:58:27

SM2的签名值byte数组与ASN.1互转

ASN.1抽象语言标记（Abstract Syntax Notation One） ASN.1是一种 ISO/ITU-T 标准，描述了一种对数据进行表示、编码、传输和解码的数据格式，它提供了一整套正规的格式用于描述对象的结构。一、该结构的应用场景例如在做待签名的数字信封时，数字信封使用ASN.1封装，这个时…...

编程日记 2024/7/2 0:57:26

云计算与生成式AI的技术盛宴！亚马逊云科技深圳 Community Day 社区活动流程抢先知道！

小李哥最近要给大家分享7月7日在深圳的即将举办的亚马逊云科技生成式AI社区活动Community Day ，干货很多内容非常硬核，不仅有技术分享学习前沿AI技术，大家在现场还可以动手实践沉浸式体验大模型，另外参与现场活动还可以领取诸多精…...

编程日记 2024/7/2 0:55:23

【鸿蒙学习笔记】基础组件Progress：进度条组件

官方文档：Progress 目录标题作用最全属性迭代追加进度赋值风格样式作用进度条组件最全属性迭代追加 Progress({ value: 20, total: 100, type: ProgressType.Linear }).color(Color.Green)// 颜色.width(200)// 大小.height(50)// 高度.value(50)// 进度可更…...

编程日记 2024/7/2 0:53:21

前程无忧滑块

声明(lianxi a15018601872) 本文章中所有内容仅供学习交流使用，不用于其他任何目的，抓包内容、敏感网址、数据接口等均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！ 前言(lianxi …...

编程日记 2024/7/2 0:50:18

一站式uniapp优质源码项目模版交易平台的崛起与影响

一、引言随着信息技术的飞速发展，软件源码已成为推动行业进步的重要力量。源码的获取、交易和流通，对于开发者、企业以及项目团队而言，具有极其重要的意义。为满足市场对高质量源码资源的迫切需求，一站式uniapp优质源码项目模版…...

编程日记 2024/7/2 0:47:15

Python中vars用法

在 Python 中，vars() 函数返回对象的 __dict__ 属性的字典。这个字典包含了对象的所有属性和它们的值。vars() 函数可以用于模块、类、实例，或者拥有 __dict__ 属性的任何其它对象。这里有几个使用 vars() 的例子： 一.模块如果对一个模块使…...

编程日记 2024/7/2 0:46:14

【机器学习】基于Transformer的迁移学习：理论与实践

引言在机器学习领域，迁移学习已成为提升模型训练效率和性能的重要策略，特别是在标注数据稀缺的场景下。Transformer模型自2017年由Google提出以来，在自然语言处理（NLP）领域取得了突破性进展，并逐渐扩展到…...

编程日记 2024/7/2 0:45:13

如何应对情绪和培养理性的书

以下是几本关于如何应对情绪和培养理性的书籍推荐： 《情绪智商》（Emotional Intelligence） - 丹尼尔戈尔曼（Daniel Goleman） 这本书探讨了情绪智商（EQ）的重要性以及如何通过提高EQ来改善个人和职…...

编程日记 2024/7/2 0:44:11

[数据集][目标检测]电缆钢丝绳线缆缺陷检测数据集VOC+YOLO格式1800张3类别

数据集格式：Pascal VOC格式YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)：1800 标注数量(xml文件个数)：1800 标注数量(txt文件个数)：1800 标注…...

编程日记 2024/7/2 0:42:08

【Git 学习笔记】Ch1.1 Git 简介 + Ch1.2 Git 对象

还是绪个言吧今天整理 GitHub 仓库，无意间翻到了几年前自学 Git 的笔记。要论知识的稳定性，Git 应该能挤进前三——只要仓库还在，理论上当时的所有开发细节都可以追溯出来。正好过段时间会用到 Git，现在整理出来就当温故知新了。…...

编程日记 2024/7/2 0:41:07

Python 中别再用 ‘+‘ 拼接字符串了！

目录引言为什么不推荐使用 "" 示例代码更高效的替代方法使用 join 方法示例代码使用格式化字符串（f-strings） 示例代码引言大家好，在 Python 编程中，我们常常需要对字符串进行拼接。你可能会自然地想到…...

编程日记 2024/7/2 0:39:05

六西格玛绿带培训的证书有什么用处？

近年来，六西格玛作为一套严谨而系统的质量管理方法，被广泛运用于各行各业。而六西格玛绿带培训证书，作为这一方法论中基础且重要的认证，对于个人和企业而言，都具有不可忽视的价值。本文将从多个角度深入探讨六西格玛绿…...

编程日记 2024/7/2 0:37:03

《妃梦千年》第二十章：风雨欲来

第二十章：风雨欲来战斗的胜利让林清婉和皇上的关系更加亲密，但宫中的阴谋却并未因此而停止。一天，林清婉正在寝宫中思考未来的对策，忽然接到一个紧急消息。小翠匆匆跑来，神色紧张：“娘娘，太后…...

编程日记 2024/7/2 0:36:02

深入理解二分法

前言二分法（Binary Search）是一种高效的查找算法，广泛应用于计算机科学和工程领域。它用于在有序数组中查找特定元素，其时间复杂度为 O(log n)，显著优于线性搜索的 O(n)。本文将深入介绍二分法的原理、实现及其应用场…...

编程日记 2024/7/2 0:35:01

【C命名规范】遵循良好的命名规范，提高代码的可读性、可维护性和可复用性

/******************************************************************** * brief param return author date version是代码书写的一种规范 * brief ：简介，简单介绍函数作用 * param ：介绍函数参数 * return：函数返回类型说明 * …...

编程日记 2024/7/2 0:33:59

Hbase面试题总结

一、介绍下HBase架构 --HMaster HBase集群的主节点，负责管理和协调整个集群的操作。它处理元数据和表的分区信息，控制RegionServer的负载均衡和故障恢复。--RegionServer HBase集群中的工作节点，负责存储和处理数据。每个RegionServer管理若…...

编程日记 2024/7/2 0:31:57

C语言部分复习笔记

1. 指针和数组数组指针和指针数组 int* p1[10]; // 指针数组int (*p2)[10]; // 数组指针因为 [] 的优先级比 * 高，p先和 [] 结合说明p是一个数组，p先和*结合说明p是一个指针括号保证p先和*结合，说明p是一个指针变量，然后指…...

编程日记 2024/7/2 0:26:53

Rust学习笔记 (命令行命令) : 用override set 设置工具链

在cargo run某个项目时出现了如下错误：error: failed to run custom build command for ring v0.16.20（无法运行“Ring v0.16.20”的自定义构建命令），在PowerShell命令行运行命令 rustup override set stable-msvc后成功运行。 o…...

编程日记 2024/7/2 0:25:51

cv::Mat类的矩阵内容输出的各种格式的例子

操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:Visual Studio Code编程语言：C11 功能描述我们可以这样使用：cv::Mat M(…); cout << M;，直接将矩阵内容输出到控制台。输出格式支持多种风格，包括O…...

编程日记 2024/7/2 0:23:50

Spark 之入门讲解详细版（1）

1、简介 1.1 Spark简介 Spark是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目，8个月后成为Apache顶级项目，速度之快足见过人之处&…...

编程新知 2026/2/5 4:17:31

23-Oracle 23 ai 区块链表（Blockchain Table）

小伙伴有没有在金融强合规的领域中遇见，必须要保持数据不可变，管理员都无法修改和留痕的要求。比如医疗的电子病历中，影像检查检验结果不可篡改行的，药品追溯过程中数据只可插入无法删除的特性需求；登录日志、修改日志…...

编程新知 2026/1/27 3:40:30

mongodb源码分析session执行handleRequest命令find过程

mongo/transport/service_state_machine.cpp已经分析startSession创建ASIOSession过程，并且验证connection是否超过限制ASIOSession和connection是循环接受客户端命令，把数据流转换成Message，状态转变流程是：State::Created 》 St…...

编程新知 2026/1/15 4:39:38

YSYX学习记录（八）

C语言，练习0： 先创建一个文件夹，我用的是物理机： 安装build-essential 练习1： 我注释掉了 #include <stdio.h> 出现下面错误在你的文本编辑器中打开ex1文件，随机修改或删除一部分，之后…...

编程新知 2026/1/24 14:31:01

蓝牙 BLE 扫描面试题大全(2)：进阶面试题与实战演练

前文覆盖了 BLE 扫描的基础概念与经典问题蓝牙 BLE 扫描面试题大全(1)：从基础到实战的深度解析-CSDN博客，但实际面试中，企业更关注候选人对复杂场景的应对能力（如多设备并发扫描、低功耗与高发现率的平衡）和前沿技术的…...

编程新知 2026/2/5 3:41:42

React Native在HarmonyOS 5.0阅读类应用开发中的实践

一、技术选型背景随着HarmonyOS 5.0对Web兼容层的增强，React Native作为跨平台框架可通过重新编译ArkTS组件实现85%以上的代码复用率。阅读类应用具有UI复杂度低、数据流清晰的特点。二、核心实现方案 1. 环境配置 （1）使用React Native…...

编程新知 2025/8/19 2:57:37

相机从app启动流程

一、流程框架图二、具体流程分析 1、得到cameralist和对应的静态信息目录如下：重点代码分析：启动相机前，先要通过getCameraIdList获取camera的个数以及id，然后可以通过getCameraCharacteristics获取对应id camera的capabilities（静态信息）进行一些openCamera前的…...

编程新知 2026/1/31 5:09:19

C# SqlSugar：依赖注入与仓储模式实践

C# SqlSugar：依赖注入与仓储模式实践在 C# 的应用开发中，数据库操作是必不可少的环节。为了让数据访问层更加简洁、高效且易于维护，许多开发者会选择成熟的 ORM（对象关系映射）框架，SqlSugar 就是其中备受…...

编程新知 2025/11/25 6:49:02

CMake 从 GitHub 下载第三方库并使用

有时我们希望直接使用 GitHub 上的开源库，而不想手动下载、编译和安装。可以利用 CMake 提供的 FetchContent 模块来实现自动下载、构建和链接第三方库。 FetchContent 命令官方文档✅ 示例代码我们将以 fmt 这个流行的格式化库为例，演示如何：使用 FetchContent 从 GitH…...

编程新知 2026/2/1 3:19:54

第 86 场周赛：矩阵中的幻方、钥匙和房间、将数组拆分成斐波那契序列、猜猜这个单词

Q1、[中等] 矩阵中的幻方 1、题目描述 3 x 3 的幻方是一个填充有从 1 到 9 的不同数字的 3 x 3 矩阵，其中每行，每列以及两条对角线上的各数之和都相等。给定一个由整数组成的row x col 的 grid，其中有多少个 3 3 的 “幻方” 子矩阵&am…...

编程新知 2026/2/7 13:27:36

核心：

方法

基础结构

3.3. Re-parameterizable Vision-Language PAN

结果

核心代码：

ImagePoolingAttentionModule

相关文章：