当前位置：首页 > news >正文

开放词汇目标检测（Open-Vocabulary Object Detection, OVOD）综述

news 2026/4/1 2:23:11

定义

开放词汇目标检测（Open-Vocabulary Object Detection, OVOD）是一种目标检测任务，旨在检测和识别那些未在训练集中明确标注的物体类别。传统的目标检测模型通常只能识别有限数量的预定义类别，而OVOD模型则具有识别“开放词汇”类别的能力，即在测试时可以识别和定位那些未曾在训练集中见过的类别。与开放词汇目标检测相对应的另一个重要概念是开集目标检测（Open-Set Object Detection, OSOD）。OSOD的目标是检测那些未在训练集中出现的未知类别，并将其标记为“未知”。与OVOD的不同之处在于，OSOD并不试图去识别这些未知类别是什么，而是关注于准确地检测它们的存在。本质上，开放词汇目标检测任务（Open-Vocabulary Object Detection）与零样本目标检测（Zero Shot Object Detection）、弱监督目标检测（Weakly supervised Object Detection）非常类似，核心思想都是在可见类（base class）的数据上进行训练，然后完成对不可见类（unseen/ target）数据的识别和检测。

参考链接：
https://blog.csdn.net/mieshizhishou/article/details/141216656
https://zhuanlan.zhihu.com/p/610639148

总结

综上，大多数工作均基于CLIP预训练的图像编码器和文本编码器。GlIP为解决目标检测任务提供了先例，后续很多工作常与目前较为广泛使用的目标检测网络结构相结合，从而构建新的开放词汇目标检测器。如ViLD基于Mask R-CNN、RegionCLIP基于R-CNN、VLDet和BARON基于Faster R-CNN。更具有创新性的工作是Detic，提出了使用图像分类的数据集来对目标检测器的分类头进行训练。OWL-ViT在目标检测微调阶段做创新，最有意思的是其支持基于图像嵌入做查询，允许检测难以通过文本描述的图像。这部分优势可能会使这个项目更能应用到实际任务中。另外的基于DINO的工作中，GroundingDINO更偏向于开集目标检测（OSOD）任务。与GLIP和G-DINO等其他方法相比，OV-DINO的预测更加精确，并且能够检测到标签中未标记的额外对象。而YOLO-World则主要是对yolov8的改进，目的在于为yolo架构赋予开放词汇检测能力。从开放词汇检测方案的发展历程上来看，YOLO-World的目标检测部分依然是单阶段范式的目标检测器，虽然效率更高速度更快，但一般不如两阶段范式的目标检测模型精度高。
开放词汇目标检测的核心思想是利用视觉-语言联合建模方法，将视觉特征和语言特征进行关联，从而实现对未见物体类别的检测。一般地，这类方法的关键组成有：
1.视觉特征提取（包括大规模图-文数据预训练、知识蒸馏、生成伪标签等）
2.文本嵌入（基于transformer）
3.视觉-语言匹配（基于referring 或grounding）
4.多模态融合
至于为何能做到开放词汇检测，关键在于利用了大规模预训练语言模型和视觉-语言联合表示学习。语言模型能够理解未见词语的语义，通过将目标类别名称编码为文本向量，然后与图像中的物体特征向量进行相似度计算。比如，对于一个新的类别 “独角兽”，语言模型能够理解这个词的语义，并且帮助检测器在图像中寻找具有相似语义特征的物体。

开放词汇对象检测/分割方案的常见架构

定义

相关工作

OVR-CNN

CLIP

ViLD

GLIP

RegionCLIP

Detic

OWLViT

VLDet

BARON

视觉-DINO

视觉-DINOv2

GroundingDINO

OV-DINO

YOLO-World

其他最新工作2024-CVPR-Open-Vocabulary:

总结

相关文章：