当前位置: 首页 > news >正文

YOLO-World:Real-Time Open-Vocabulary Object Detection

目录

摘要

Abstract

YOLO-World

1 模型架构

1.1 Text Encoder

1.2 YOLO Backbone

2 RepVL-PAN

2.1 T-CSPLayer

2.2 I-Pooling Attention

2.3 预测

3 消融实验

3.1 预训练数据

3.2 RepVL-PAN的消融实验

3.3 文本编码器

4 效果展示

4.1 零样本

4.2 根据词汇表检测

4.3 根据参考对象检测

总结


摘要

YOLO-World通过视觉-语言建模,以及在大规模数据集上的预训练,增强了YOLO-World的开放词汇检测能力,展现出强大的零镜头能力。YOLO-World遵循标准的YOLO架构,并利用预训练的CLIP文本编码器来编码输入文本。该模型提出了可重参数化视觉-语言路径聚合网络(RepVL-PAN),以连接文本特征和图像特征,实现更好的视觉语义表示。该模型在LVIS数据集上以52.0FPS达到35.4AP,在准确性和速度方面都超过了许多最先进的方法。

Abstract

YOLO-World enhances YOLO-World's open-vocabulary detection capabilities through vision-language modeling and pre-training on large-scale datasets, demonstrating strong zero-shot capabilities. YOLO-World adheres to the standard YOLO architecture and utilizes the pre-trained CLIP text encoder to encode input text. The model introduces the Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) to connect text features and image features for better visual-semantic representation. Achieving 35.4 AP at 52.0 FPS on the LVIS dataset, it surpasses many state-of-the-art methods in terms of both accuracy and speed.

YOLO-World

论文链接:arxiv.org/pdf/2401.17270

开源代码地址:YOLO-World

1 模型架构

YOLO-World是由文本编码器、YOLO检测器(YOLOv8骨干网络)和RepVL-PAN组成。整体架构如下图所示:

1.1 Text Encoder

文本编码器采用的是CLIP,给定文本输入Text Encoder将文本编码T转换为文本嵌入W,CLIP文本编码器能够将视觉对象与文本连接起来,提供更好的视觉语义功能。

W=TextEncoder(T)

如上图架构图中输入文本是一个完整句子时,采用n-gram算法提取名词短语后,再将其送入文本编码器。

n-gram算法:将文本拆分成若干个连续的n个词的序列,并统计这些序列在文本中出现的频率。

例如:A man and a woman are skiing with a dog.

  • 1-gram是单个词,如“man”、“woman”等;
  • 2-gram是相邻的两个词组成的词组,如“a man”、“a woman”等;

1.2 YOLO Backbone

YOLO-World采用的是YOLOv8的骨干网络,YOLOv8网络结构图如下所示:

上图红色框部分主要用于多尺度特征提取, 蓝色框部分就是YOLO-World架构图中Multi-scale Image Features多尺度特征输入部分,我们假设YOLO-World中特征输入也是 20x20x512 、40x40x512 、 80x80x512 ,如下图所示:

2 RepVL-PAN

了解了YOLO-World的全部输入之后,我们来看看该模型最重要的模块是如何跨模态融合文本和图像特征的。RepVL-PAN结构图如下所示:

C_{5}C_{4}C_{3}就是上面假设的多尺度特征输入 20x20x512 、40x40x512 、 80x80x512 。通过T-CSPLayer使图像特征将文本特征融合;再通过I-Pooling Attention使文本特征又带有图像特征;反复这两个步骤,最后输出的P_{5}P_{4}P_{3}和文本嵌入都带有相互的信息。

2.1 T-CSPLayer

该模块会先将输入的图像特征在通道维度上做一个切分,例如 40x40x512 分为两个 40x40x256 。其中一个 40x40x256 的图像特征会先经过Dark Bottleneck做两个卷积操作,再经过Max-Sigmoid注意力更新图像上与需要预测目标最相关的区域的权重值。最后,再与另一个 40x40x256 的图像特征进行Concat,这样图像特征就融合了文本特征的信息。

Max-Sigmoid:

X_{l}^{'}=X_{l}\cdot \delta (max(X_{l}W_{j}^{T}))^{T}j\epsilon \left \{ 1...C \right \}

将文本特征融合到图像特征中,X_{l}^{'}作为跨模态连接的输出。图像对目标区域的权重值增大,对最后预测结果有重大影响。

2.2 I-Pooling Attention

在完成文本信息的融合之后,输出的X_{5}^{'}X_{4}^{'}X_{3}^{'}带有文本特征信息,再通过I-Pooling Attention模块更新文本嵌入使其带有图像特征。

首先I-Pooling Attention模块会将输入的X_{5}^{'}X_{4}^{'}X_{3}^{'} 3 个尺度的图像特征进行自适应池化为 3x3 的特征图像,然后拼接为 1x27x512 的块特征。再与文本嵌入 1x3x512 进行多头自注意力技术,以更新文本特征,使其带有图像信息。

W^{'}=W+MultiHeaf-Attention(W,\tilde{X},\tilde{X})

\tilde{X}\epsilon R^{27xD},将所有多尺度特征图像展开为27个区域,D为通道数。

因为博客开头提到有3个检测目标:man、woman、dog。假设通道数量为512,便于我们举例说明。 

通过上述步骤,最终输出的P_{5}P_{4}P_{3}拥有文本信息,同时文本嵌入也带有图像特征。

2.3 预测

在输出的P_{5}P_{4}P_{3}后接YOLO Head预测头,输出在图像上的预测框。因为在模型训练时,并没有像传统的对象检测方法那样使用边界框和类别组成的实例注释进行训练,所以YOLO-World与输入文本特征进行对比分类。

因为输出的P_{5}P_{4}P_{3}都带有文本特征,将其传入Text Contrastive Haed模块会得到每个预测框的Object Embedding。将此Embedding与输入文本的Image-aware Embedding进行匹配,即架构图中Region-Text Matching部分,选择匹配度最高的作为该预测框的类别。如下图所示:

3 消融实验

3.1 预训练数据

如上表,作者评估了使用不同数据预训练YOLO-World的性能。与在Objects365上训练的基线相比,添加GQA可以显著提高性能,在LVIS上获得了8.4 AP的增益。这种改进可以归因于GQA数据集提供的更丰富的文本信息,这可以增强模型识别大词汇量对象的能力。添加部分CC3M样本可以进一步带来0.5 AP的增益,以及在稀有对象上获得1.3 AP。上表表明,添加更多数据可以有效地提高在大词汇量场景中的检测能力。此外,随着数据量的增加,性能持续提高,突出了利用更大更多样化的数据集进行训练的好处。

3.2 RepVL-PAN的消融实验

上表展示了YOLO-World提出的RepVL-PAN的有效性,包括文本引导的CSPLayers和图像池化注意力,用于零样本LVIS检测。

作者采用了两种设置:

  • 在O365上预训练和
  • 在O365和GQA上预训练。

与仅包含类别注释的O365相比,GQA包含了丰富的文本,特别是名词短语的形式。如上表所示,提出的RepVL-PAN将YOLOv8-PAN在LVIS上提高了1.1 AP,并且在LVIS的稀有类别AP_{r}方面改进显著,这些类别难以检测和识别。此外,当YOLO-World使用GQA数据集进行预训练时,改进变得更加显著,实验表明提出的RepVL-PAN在丰富的文本信息下工作得更好。

3.3 文本编码器

上表中比较了使用不同文本编码器的性能,即BERT-base和CLIP-base。作者在预训练期间利用两种设置,即冻结和微调,微调文本编码器的学习率是基础学习率的0.01倍。

上表所示,CLIP文本编码器比BERT在LVIS的稀有类别上获得了更好的结果,因为这是用图像-文本对预训练的,具有更好的视觉中心嵌入能力。在预训练期间微调BERT带来了显著的改进(+3.7 AP),而微调CLIP导致了严重的性能下降。作者将这种下降归因于在O365上微调可能会降低预训练CLIP的泛化能力,O365仅包含365个类别,缺乏丰富的文本信息。

4 效果展示

4.1 零样本

4.2 根据词汇表检测

4.3 根据参考对象检测

总结

YOLO-World是一个实时开放词汇检测器,提高了实际应用中的效率和开放词汇能力。该论文将流行的YOLOs重塑为一种视觉语言YOLO架构,用于开放词汇预训练和检测,并提出了RepVL-PAN,它将视觉和语言信息与网络连接,并可以重参数化以实现高效部署。并且进一步提出了有效的预训练方案,结合检测、基础和图像-文本数据,赋予YOLO-World强大的开放词汇检测能力。实验证明YOLO-World在速度和开放词汇性能方面的优越性,并表明视觉-语言预训练对小型模型的有效性,这对未来的研究方向具有启发性。

论文核心部分:

相关文章:

YOLO-World:Real-Time Open-Vocabulary Object Detection

目录 摘要 Abstract YOLO-World 1 模型架构 1.1 Text Encoder 1.2 YOLO Backbone 2 RepVL-PAN 2.1 T-CSPLayer 2.2 I-Pooling Attention 2.3 预测 3 消融实验 3.1 预训练数据 3.2 RepVL-PAN的消融实验 3.3 文本编码器 4 效果展示 4.1 零样本 4.2 根据词汇表检…...

Fastjson <= 1.2.47 反序列化漏洞复现

0x01 前言 Fastjson 是一个 Java 语言编写的高性能功能完善的 JSON 库&#xff0c;可以将 Java 对象转换为 JSON 格式&#xff0c;也可以将 JSON 字符串转换为 Java 对象&#xff0c;在中国和美国使用较为广泛。 0x02 漏洞成因 Fastjson < 1.2.68 版本在处理反序列化对象时…...

鸿蒙项目云捐助第二十一讲云捐助项目物联网IoT模拟器的使用

鸿蒙项目云捐助第二十一讲云捐助项目物联网IoT模拟器的使用 在前面的内容中&#xff0c;已经实现了云捐助物联网IoT的产品及设备设置&#xff0c;并且使用华为云Iot设备的在线调试工具进行命令下发的调试&#xff0c;这里也可以通过华为Iot物联网提供的MQTT模拟器进行连接。 …...

大数据技术原理与应用期末复习-知识点(二)

HBASE Hbase与传统关系数据库的对比分析 1.数据类型&#xff1a; 关系型数据库采用关系模型 Hbase采用更简单的数据模型&#xff08;把数据存储为未经解释的字符串&#xff09; 2.数据操作&#xff1a; 关系数据库&#xff1a;增删改查等 Hbase&#xff1a;插入 查询 删…...

高效准确的PDF解析工具,赋能企业非结构化数据治理

目录 准确性高&#xff1a;还原复杂版面元素 使用便捷&#xff1a;灵活适配场景 贴心服务&#xff1a;快速响应机制 在数据为王的时代浪潮中&#xff0c;企业数据治理已成为组织优化运营、提高竞争力的关键。随着数字化进程的加速&#xff0c;企业所积累的数据量呈爆炸式增长…...

C/C++ 数据结构与算法【栈和队列】 栈+队列详细解析【日常学习,考研必备】带图+详细代码

一、介绍 栈和队列是限定插入和删除只能在表的“端点”进行的线性表&#xff0c;是线性表的子集&#xff0c;是插入和删除位置受限的线性表。 &#xff08;操作受限的线性表&#xff09; 二、栈 1&#xff09;概念&#xff1a; 栈(stack)是一个特殊的线性表&#xff0c;是限…...

读书笔记~管理修炼-缄默效应

缄默效应&#xff1a;学会正确批评下属 员工明明犯了错误&#xff0c;却不及时告知你&#xff0c;总是拖到最后一刻无法弥补时才不得不承认出了问题——你遇到过这样的问题吗&#xff1f; 这其实是缄默效应在发挥作用。 在职场中&#xff0c;即使再扁平化的环境&…...

视频会议系统会前预约模块必须包含哪些功能?

视频会议系统会前预约模块必须包含哪些功能&#xff1f; 视频会议系统的会前预约模块是企业高效管理会议资源、提升会议效率的重要工具。一个完善的会前预约模块必须包含一系列功能&#xff0c;以确保会议的顺利进行和资源的合理分配。以下是对视频会议系统会前预约模块必须包…...

RabbitMQ中的Topic模式

在现代分布式系统中&#xff0c;消息队列&#xff08;Message Queue&#xff09;是实现异步通信、解耦系统组件的重要工具。RabbitMQ 是一个广泛使用的开源消息代理&#xff0c;支持多种消息传递模式&#xff0c;其中 Topic 模式 是一种灵活且强大的模式&#xff0c;允许生产者…...

tslib(触摸屏输入设备的轻量级库)的学习、编译及测试记录

目录 tslib的简介tslib的源码和make及make install后得到的文件下载tslib的主要功能tslib的工作原理tslib的核心组成部分tslib的框架和核心函数分析tslib的框架tslib的核心函数ts_setup()的分析(对如何获取设备名和数据处理流程的分析)函数ts_setup()自身的主要代码ts_setup()对…...

Ubuntu vi(vim)编辑器配置一键补全main函数

1.打开对应的配置文件 vi ~/.vim/snippets/c.snippets 2.按G将光标定位到文件末尾 3.按i进入插入模式 以tab键开头插入下的内容&#xff0c;空行也要加 tab键 4.:wq保存退出 5.再打开任意一个新的 .c文件后&#xff0c;插入模式输入 main 然后按tal键就能补全了...

验证码机制

偶然间看到了验证码机制&#xff0c;顺便总结一下&#xff1a; 首先&#xff0c;验证码是从后端生成的&#xff0c;随机生成&#xff1b; 【后端永远认为前端有可能会被伪造】 1.后端调用相关的绘图第三方类库&#xff0c;或是&#xff08;平台PHP、.NET、java&#xff09;系…...

【CVE-2024-56145】PHP 漏洞导致 Craft CMS 出现 RCE

大多数开发人员都同意,与 15 年前相比,PHP 是一种更加理智、更加安全和可靠的语言。PHP5早期的不良设计已让位于更好的开发生态系统,其中包括类、自动加载、更严格的类型、更理智的语法以及一大堆其他改进。安全性也没有被忽视。 register_globals一些老读者可能还记得和的…...

使用FakeSMTP创建本地SMTP服务器接收邮件具体实现。

以下代码来自Let’s Go further节选。具体说明均为作者本人理解。 编辑邮件模版 主要包含三个template: subject&#xff1a;主题plainBody&#xff1a; 纯文本正文htmlBody&#xff1a;超文本语言正文 {{define "subject"}}Welcome to Greenlight!{{end}} {{def…...

【网络安全】逆向工程 练习示例

1. 逆向工程简介 逆向工程 (RE) 是将某物分解以了解其功能的过程。在网络安全中&#xff0c;逆向工程用于分析应用程序&#xff08;二进制文件&#xff09;的运行方式。这可用于确定应用程序是否是恶意的或是否存在任何安全漏洞。 例如&#xff0c;网络安全分析师对攻击者分发…...

Oracle Database 21c Express Edition数据库 和 Sqlplus客户端安装配置

目录 一. 前置条件二. Win10安装配置Oracle数据库2.1 数据库获取2.2 数据库安装2.3 数据库配置确认2.4 数据库访问 三. Win10配置Oracle数据库可对外访问3.1 打开文件和打印机共享3.2 开放1521端口 四. 端口与地址确认4.1 查看监听器的状态4.2 Win10查看1521端口是否被监听4.3 …...

arcgisPro将面要素转成CAD多段线

1、说明&#xff1a;正常使用【导出为CAD】工具&#xff0c;则导出的是CAD三维多线段&#xff0c;无法进行编辑操作、读取面积等。这是因为要素面中包含Z值&#xff0c;导出则为三维多线段数据。需要利用【复制要素】工具禁用M值和Z值&#xff0c;再导出为CAD&#xff0c;则得到…...

相机内外参知识

已知相机的内外参数矩阵&#xff0c;可以求得相机在世界坐标系下的原点坐标。这里需要理解几个概念&#xff1a; 内参数矩阵&#xff08;Intrinsic Matrix&#xff09;: 描述相机本身的属性&#xff0c;比如焦距、主点位置等。外参数矩阵&#xff08;Extrinsic Matrix&#xf…...

从代币角度介绍solana账户体系

1、solana 的账户概念介绍 Solana的账户体系是其区块链的核心组成部分&#xff0c;它允许数据和价值在链上存储和转移。以下是Solana账户体系的一些关键特点&#xff1a; • 账户模型&#xff1a; • 在Solana上&#xff0c;所有数据都存储在所谓的“账户”中&#xff0c;类似…...

前端引入字体文件

1. 字体下载 阿里矢量图图标库地址 https://www.iconfont.cn/&#xff0c;页面打开后选中&#xff0c;素材库 > 字体库 左侧两个标签页可以切换&#xff0c;右侧放大镜图标可以搜索自己需要的字体 字体预览区域可以自行调整进行字体预览 右上角点击字体包下载&#xff0c;下…...

从Simulink模型到神经网络:一个完整的数据驱动建模与验证实践

1. 为什么需要从Simulink模型转向神经网络&#xff1f; 在控制系统工程领域&#xff0c;Simulink模型一直是建模和仿真的黄金标准。但最近几年&#xff0c;越来越多的工程师开始尝试用神经网络来替代传统模型。这背后有几个关键原因&#xff1a; 首先&#xff0c;传统物理模型在…...

基于S7-200 PLC与组态王技术的温室大棚控制方案:包含梯形图原理图、IO分配及组态画面详解

基于S7-200 PLC和组态王温室大棚控制 我们主要的后发送的产品有&#xff0c;带解释的梯形图接线图原理图图纸&#xff0c;io分配&#xff0c;组态画面菜农张叔上周还给我打电话吐槽&#xff1a;“小王啊&#xff0c;上周那场降温加突然转晴&#xff0c;我三点爬起来盖半层棉被…...

Ollama在Apple Silicon上预览,性能大提升

2026年3月30日&#xff0c;Ollama开启在Apple silicon上的预览&#xff0c;由苹果MLX框架支持&#xff0c;解锁新性能&#xff0c;加速繁重工作&#xff0c;还在多方面有显著改进。MLX驱动&#xff0c;性能飞升基于Apple silicon的Ollama构建在MLX框架上&#xff0c;利用统一内…...

源代码之下的硅基启示录——Claude Code“核泄漏”事件的深度剖析与时代回响

引言 公元2026年3月30日&#xff0c;一个看似平常的春日&#xff0c;硅基世界却迎来了一场史无前例的地震。 一家以“安全”为最高信条的AI公司&#xff0c;以一种最荒诞的方式&#xff0c;亲手打开了潘多拉的魔盒。Anthropic&#xff0c;这家估值高达3800亿美元的AI新贵&#…...

YOLO12快速部署指南:Gradio界面已配好,启动就能用

YOLO12快速部署指南&#xff1a;Gradio界面已配好&#xff0c;启动就能用 1. 为什么选择YOLO12镜像 YOLO12作为2025年最新发布的目标检测模型&#xff0c;带来了革命性的注意力为中心架构。这个预配置好的镜像让您无需任何复杂操作&#xff0c;就能立即体验最先进的目标检测技…...

【测试之道】第四篇:分层测试论 —— 金字塔、奖杯与蜂巢:构建你的质量防御阵型

专栏进度&#xff1a;04 / 10 (测试理论专题) 在不同的架构&#xff08;单体、微服务、前端驱动&#xff09;下&#xff0c;测试资源的分配比例是完全不同的。盲目套用模板是测试经理最容易犯的错误。 一、 经典模型&#xff1a;测试金字塔 (Testing Pyramid) 由 Mike Cohn 提出…...

Win10+VS2019环境下vcpkg安装全攻略:从Git克隆到环境变量配置

Win10VS2019环境下vcpkg高效配置指南&#xff1a;从零搭建C开发环境 在Windows平台进行C开发时&#xff0c;第三方库的管理一直是令人头疼的问题。传统的手动下载、配置包含路径和链接库的方式不仅效率低下&#xff0c;还容易引发版本冲突。而vcpkg作为微软推出的跨平台C库管理…...

GG3M贝叶斯决策数学体系:六大核心领域落地应用与差异化壁垒

GG3M贝叶斯决策数学体系&#xff1a;六大核心领域落地应用与差异化壁垒摘要 GG3M的贝叶斯更新与决策数学体系&#xff0c;基于原创“事实层—模型层—元模型层”三层级架构&#xff0c;以系统长期反熵增演化为核心决策标尺&#xff0c;从“智能参数优化”跨越至“智慧框架迭代”…...

OpenSees数值模拟从入门到进阶:理论、代码与实践

OpenSees数值模拟从入门到进阶:理论、代码与实践 摘要 OpenSees(Open System for Earthquake Engineering Simulation)作为开源的地震工程模拟系统,凭借其强大的非线性分析能力和开放的架构,已成为结构地震响应分析领域的重要工具。本文系统介绍OpenSees数值模拟的基本原…...

Honey Select 2终极增强补丁:3分钟快速配置完整模组生态

Honey Select 2终极增强补丁&#xff1a;3分钟快速配置完整模组生态 【免费下载链接】HS2-HF_Patch Automatically translate, uncensor and update HoneySelect2! 项目地址: https://gitcode.com/gh_mirrors/hs/HS2-HF_Patch 你是否曾为《Honey Select 2》的模组安装繁…...