当前位置：首页 > news >正文

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（5月29日论文合集）

news 2026/2/8 17:51:41

文章目录

一、检测相关(12篇)
- 1.1 Linear Object Detection in Document Images using Multiple Object Tracking
- 1.2 Hybrid Energy Based Model in the Feature Space for Out-of-Distribution Detection
- 1.3 BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy
- 1.4 A novel application for real-time arrhythmia detection using YOLOv8
- 1.5 ReConPatch : Contrastive Patch Representation Learning for Industrial Anomaly Detection
- 1.6 Detect Any Shadow: Segment Anything for Video Shadow Detection
- 1.7 FSD: Fully-Specialized Detector via Neural Architecture Search
- 1.8 TFDet: Target-aware Fusion for RGB-T Pedestrian Detection
- 1.9 Optimized Custom Dataset for Efficient Detection of Underwater Trash
- 1.10 Vision-based UAV Detection in Complex Backgrounds and Rainy Conditions
- 1.11 KeyPosS: Plug-and-Play Facial Landmark Detection through GPS-Inspired True-Range Multilateration
- 1.12 A Semi-Automated Corner Case Detection and Evaluation Pipeline

一、检测相关(12篇)

1.1 Linear Object Detection in Document Images using Multiple Object Tracking

基于多目标跟踪的文档图像线性目标检测

论文地址：

https://arxiv.org/abs/2305.16968

在这里插入图片描述
线性对象传达关于文档结构的大量信息，但是由于降级（弯曲的、擦除的）或装饰（加倍的、虚线的）而难以准确地检测。许多方法可以恢复一些矢量表示，但只有一个在1994年推出的闭源技术，基于卡尔曼滤波器（多对象跟踪算法的一个特殊情况），可以执行线性对象的像素精确的实例分割，并能够选择性地将它们从原始图像中删除。我们的目标是重新推广这一方法，并建议：1.使用多对象跟踪（MOT）对文档图像中的线性对象进行精确实例分割的框架; 2.文档图像数据集和度量，其使得能够对线性对象检测进行基于矢量和基于像素的评估; 3. MOT方法对现代分段探测器的性能测量4.各种跟踪策略的性能测量，展示原始卡尔曼滤波器方法的替代方案;和5.一种检测器的开源实现，其可以区分弯曲、擦除、虚线、相交和/或重叠的线性对象的实例。

1.2 Hybrid Energy Based Model in the Feature Space for Out-of-Distribution Detection

基于特征空间的混合能量失配检测模型

论文地址：

https://arxiv.org/abs/2305.16966

在这里插入图片描述
分布外（OOD）检测是部署深度神经网络的关键要求。本文介绍了HEAT模型，一种新的后组织OOD检测方法估计的密度的分布（ID）的样本使用混合能量为基础的模型（EBM）的预训练骨干的特征空间。HEAT补充了ID密度的先验密度估计，例如例如高斯混合模型（GMM）等参数模型，以提供准确而稳健的密度估计。第二个贡献是利用EBM框架来提供统一的密度估计，并组成几个能量项。大量的实验证明了这两个贡献的重要性。HEAT在CIFAR-10 / CIFAR-100基准以及大规模Imagenet基准上设置了新的最先进的OOD检测结果。

代码可在以下网址获得：https://github.com/MarcLafon/heat_ood。

1.3 BEV-IO: Enhancing Bird’s-Eye-View 3D Detection with Instance Occupancy

BEV-IO：利用实例占用率增强鸟瞰3D检测

论文地址：

https://arxiv.org/abs/2305.16829

在这里插入图片描述
在3D检测中构建鸟瞰图（BEV）表示的流行方法是基于显式预测的深度分布将2D图像特征提升到视锥空间上。然而，深度分布只能表征可见物体表面的3D几何形状，但无法捕获其内部空间和整体几何结构，导致稀疏和不令人满意的3D表示。为了缓解这个问题，我们提出了BEV-IO，一种新的3D检测范式，以增强BEV表示与实例占用信息。在我们的方法的核心是新设计的实例占用预测（IOP）模块，其目的是推断点级占用状态的每个实例在截头体空间。为了确保培训效率，同时保持代表的灵活性，它是使用显式和隐式监督相结合的培训。与预测的占用率，我们进一步设计了一个几何感知的特征传播机制（GFP），它执行自注意力的基础上占用分布沿每个射线在截头体，并能够执行实例级的特征一致性。通过将IOP模块与GFP机制集成，我们的BEV-IO检测器能够以更全面的BEV表示呈现高度信息化的3D场景结构。实验结果表明，BEV-IO可以优于最先进的方法，同时仅增加了可忽略不计的参数（0.2%）和计算开销（GFLOPs中为0.24%）。

1.4 A novel application for real-time arrhythmia detection using YOLOv8

YOLOv8在心律失常实时检测中的新应用

论文地址：

https://arxiv.org/abs/2305.16727

在这里插入图片描述

近年来，在心血管健康的远程监测中，越来越需要降低医疗保健成本。检测和分类心律失常对于诊断患有心脏异常的患者至关重要。本文表明，复杂的系统，如心电图（ECG）可以适用于在家里监测。本文提出了一种新的心律失常检测应用程序，使用最先进的You-Only-Look-Once（YOLO）v8算法对单导联ECG信号进行分类。在MIT-BIH数据集上微调自定义YOLOv 8模型，以实时检测心律失常，从而允许连续监测。结果表明，我们的模型可以检测心跳，mAP@50为0.961，检测时间为0.002s。我们的研究证明了实时心律失常检测的潜力，其中模型输出可以为家庭用户进行可视化解释。此外，这项研究可以扩展到实时XAI模型，部署在医疗保健行业，并显着推进医疗保健需求。

1.5 ReConPatch : Contrastive Patch Representation Learning for Industrial Anomaly Detection

ReConPatch：工业异常检测中的对比面表示学习

论文地址：

https://arxiv.org/abs/2305.16713

在这里插入图片描述
异常检测对于产品缺陷的高级识别至关重要，例如不正确的部件、未对准的部件和工业制造中的损坏。由于罕见的观察和未知类型的缺陷，异常检测被认为是机器学习中的挑战。为了克服这个困难，最近的方法利用来自自然图像数据集的常见视觉表示并提取相关特征。然而，现有的方法仍然存在预训练特征和目标数据之间的差异，或者需要输入增强，这应该特别是针对工业数据集精心设计。在本文中，我们介绍了ReConPatch，它通过训练一个预先训练的模型的线性调制来构造异常检测的判别特征。ReConPatch采用对比表示学习来收集和分布特征，以产生面向目标的和易于分离的表示。为了解决没有标记对的对比学习，我们利用两个相似性措施，成对和上下文相似性，数据表示之间的伪标签。与以前的工作不同，ReConPatch实现了强大的异常检测性能，没有广泛的输入增强。我们的方法实现了最先进的异常检测性能（99.72%）广泛使用和具有挑战性的MVTec AD数据集。

1.6 Detect Any Shadow: Segment Anything for Video Shadow Detection

检测任何阴影：分割任何内容以进行视频阴影检测

论文地址：

https://arxiv.org/abs/2305.16698

在这里插入图片描述

任意分割模型（SAM）在自然图像分割领域取得了巨大的成功。然而，SAM倾向于将阴影分类为背景，导致阴影检测任务的分割性能差。在本文中，我们提出了一个简单但有效的方法微调SAM检测阴影。此外，我们还将它与长短期注意机制相结合，将其功能扩展到视频阴影检测。具体地，我们首先通过利用与稀疏提示相结合的阴影数据来微调SAM，并应用微调模型来检测特定帧（例如，第一帧）在视频中使用少量用户帮助。随后，使用检测到的帧作为一个参考，我们采用一个长短期网络来学习距离帧之间的空间相关性和连续帧之间的时间一致性，从而实现跨帧的阴影信息传播。大量的实验结果表明，我们的方法优于国家的最先进的技术，改进了17.2%和3.3%的MAE和IoU，分别验证了我们的方法的有效性。

1.7 FSD: Fully-Specialized Detector via Neural Architecture Search

FSD：基于神经结构搜索的全专业化探测器

论文地址：

https://arxiv.org/abs/2305.16649

在这里插入图片描述
在本文中，我们首先提出并研究了一个全自动的管道设计一个全专业化的检测器（FSD），主要采用了神经架构搜索模型，通过探索理想的网络结构的骨干和特定任务的头。

1.8 TFDet: Target-aware Fusion for RGB-T Pedestrian Detection

TFDet：用于RGB-T行人检测的目标感知融合

论文地址：

https://arxiv.org/abs/2305.16580

在这里插入图片描述

行人检测是计算机视觉中的一项关键任务，因为它在确保交通安全方面发挥着重要作用。然而，现有的方法，仅依赖于RGB图像遭受低光条件下的性能下降，由于缺乏有用的信息。为了解决这个问题，最近的多光谱检测方法结合热图像以提供补充信息。然而，这些方法有局限性，如嘈杂的融合特征图和信息特征的损失。在本文中，我们提出了一种新的目标感知融合策略的多光谱行人检测，TFDet。与现有的方法不同，TFDet通过监督融合过程的相关性最大损失函数增强了功能。我们的融合策略突出了行人相关的功能，同时抑制不相关的。TFDet在KAIST和LLVIP基准测试中都达到了最先进的性能，速度可与之前的最先进的同类产品相媲美。重要的是，TFDet在低光条件下表现出色，这是道路安全的重大进步。

1.9 Optimized Custom Dataset for Efficient Detection of Underwater Trash

用于高效检测水下垃圾的优化自定义数据集

论文地址：

https://arxiv.org/abs/2305.16460

在这里插入图片描述
准确地量化和清除淹没在水下的垃圾在保护海洋生物和保护环境方面起着至关重要的作用。虽然检测漂浮物和表面碎片相对简单，但由于光折射、吸收、悬浮颗粒和颜色失真等因素，量化水下废物存在重大挑战。本文解决了这些挑战，提出了一个定制的数据集和一个有效的检测方法淹没海洋垃圾的发展。该数据集包括不同的水下环境，并纳入注释的碎片实例的精确标签。最终，这个自定义数据集的主要目标是通过利用最先进的深度学习架构来增强垃圾实例的多样性，并提高它们在深潜环境中的检测准确性。

1.10 Vision-based UAV Detection in Complex Backgrounds and Rainy Conditions

复杂背景和多雨条件下基于视觉的无人机检测

论文地址：

https://arxiv.org/abs/2305.16450

在这里插入图片描述
为了实时检测无人机，计算机视觉和深度学习方法是发展中的研究领域。已经提出了关于在许多应用中使用无人驾驶飞行器（UAV）的可能危险和滥用的担忧。这些包括潜在的隐私侵犯、安全相关问题和安全威胁。基于视觉的检测系统通常包括诸如相机的硬件组件和软件组件的组合。在这项工作中，最近和流行的基于视觉的目标检测技术的性能进行了调查，在具有挑战性的条件下，如复杂的背景，不同的无人机尺寸，复杂的背景场景，低到大雨的条件下的无人机检测的任务。为了研究所选方法在这些条件下的性能，策划了两个数据集：一个具有天空背景，一个具有复杂背景。本文对单级探测器和两级探测器进行了研究和评价。本文的研究结果将有助于为无人机在挑战性条件下的探测任务的性能提供见解，并为开发更鲁棒的无人机探测方法铺平道路

1.11 KeyPosS: Plug-and-Play Facial Landmark Detection through GPS-Inspired True-Range Multilateration

KeyPosS：通过GPS启发的True-Range多边形即插即用面部地标检测

论文地址：

https://arxiv.org/abs/2305.16437

在这里插入图片描述
在面部分析领域，准确的地标检测对于从面部识别、表情分析到动画的各种应用都至关重要。然而，传统的基于热图或坐标回归的技术经常面临计算负担和量化误差方面的挑战。为了解决这些问题，我们提出了KeyPoint定位系统（KeyPosS），这是一个突破性的面部地标检测框架，从现有的方法中脱颖而出。KeyPosS首次采用了真范围多边形算法，这是一种最初用于GPS系统的技术，可以在不依赖计算密集型回归方法的情况下实现快速精确的面部地标检测。该框架利用完全卷积网络来预测距离图，该距离图计算兴趣点（POI）和多个锚点之间的距离。这些锚点被巧妙地利用来通过真范围多边测量算法对POI的位置进行三角测量。值得注意的是，KeyPosS的即插即用特性使其能够无缝集成到任何解码阶段，从而确保了多功能和适应性强的解决方案。我们对KeyPosS的性能进行了彻底的评估，通过对四个不同数据集上的最先进模型进行基准测试。结果表明，KeyPosS大大优于领先的方法在低分辨率设置，同时需要一个最小的时间开销。该代码可在www.example.com上获得https://github.com/zhiqic/KeyPosS。

1.12 A Semi-Automated Corner Case Detection and Evaluation Pipeline

一种半自动的拐角案件检测与评估流水线

论文地址：

https://arxiv.org/abs/2305.16369

在这里插入图片描述
为了向公众部署自动驾驶车辆，必须证明车辆可以在许多不同的场景中安全、稳健地处理交通。自动化车辆的一个重要组成部分是感知系统，该系统捕捉和处理车辆周围的环境。感知系统需要大型数据集来训练其深度神经网络。在网络的训练或测试期间，知道这些数据集中的数据的哪些部分描述了角落情况是一个优势。这些极端情况描述的是罕见的、对网络具有潜在挑战性的情况。我们提出了一个管道，将集体专家知识描述扩展KI Absicherung本体。本体用于描述可以映射到感知数据集的场景和场景。然后，可以从数据集中提取拐角情况。此外，流水线使得能够针对所提取的角点情况来评估检测网络以测量其性能。

文章目录

一、检测相关(12篇)

1.1 Linear Object Detection in Document Images using Multiple Object Tracking

1.2 Hybrid Energy Based Model in the Feature Space for Out-of-Distribution Detection

1.3 BEV-IO: Enhancing Bird’s-Eye-View 3D Detection with Instance Occupancy

1.4 A novel application for real-time arrhythmia detection using YOLOv8

1.5 ReConPatch : Contrastive Patch Representation Learning for Industrial Anomaly Detection

1.6 Detect Any Shadow: Segment Anything for Video Shadow Detection

1.7 FSD: Fully-Specialized Detector via Neural Architecture Search

1.8 TFDet: Target-aware Fusion for RGB-T Pedestrian Detection

1.9 Optimized Custom Dataset for Efficient Detection of Underwater Trash

1.10 Vision-based UAV Detection in Complex Backgrounds and Rainy Conditions

1.11 KeyPosS: Plug-and-Play Facial Landmark Detection through GPS-Inspired True-Range Multilateration

1.12 A Semi-Automated Corner Case Detection and Evaluation Pipeline

相关文章：