当前位置：首页 > article >正文

【反无人机检测】C2FDrone：基于视觉Transformer网络的无人机间由粗到细检测

article 2025/11/12 6:29:13

C2FDrone：基于视觉Transformer网络的无人机间由粗到细检测
C2FDrone: Coarse-to-Fine Drone-to-Drone Detection using Vision Transformer Networks

在这里插入图片描述
论文链接

摘要

摘要——基于视觉的无人机间检测系统在碰撞规避、反制敌对无人机和搜救行动等应用中至关重要。然而，无人机检测面临独特挑战，包括目标尺寸小、形变、遮挡及实时处理需求。现有融合多尺度特征与时序信息的方法在处理极端模糊和微小物体时存在局限。为此，我们提出一种基于视觉Transformer的从粗到精检测策略。通过在三个高难度无人机间检测数据集（FL-Drones、AOT和NPS-Drones）上的评估，我们的方法分别实现了7%、3%和1%的F1分数提升。此外，通过将模型部署在边缘计算设备上，我们验证了其实时处理能力。

1.引言

近年来，无人机在农业[1]、[2]、军事行动、搜救任务[3]、消防作业[4]、航拍摄影及重要物资运输[5]等多个领域展现出卓越的多功能性。这种日益增长的需求推动了对无人机视觉能力提升的广泛研究，尤其是目标检测技术[6]、[7]、[8]、[9]。除识别地面物体外，无人机在空中相互检测的能力同样至关重要——该功能可避免无人机相撞、对抗敌对无人机，并助力多机协作以扩大搜救任务覆盖范围。尽管基于无人机的地面目标检测研究已较为成熟，但无人机间的相互检测领域仍相对缺乏探索。

无人机间的探测相较于常规物体检测面临更为复杂的挑战。这些挑战包括：极小尺寸目标的识别、强畸变干扰的处理、严重遮挡情况的应对、非受控环境下的操作以及实时处理的要求。在无人机互侦场景中，由于源无人机与目标无人机均处于持续运动状态，且机载摄像头未必具备高分辨率特性[11]，所获取的视频往往含有大量噪声与畸变。当采用卷积神经网络（CNN）或类似特征提取架构进行目标检测时，通常会实施池化或跨步卷积等下采样操作。然而在存在严重噪声与畸变的条件下，下采样可能会进一步加剧该问题。因此，必须设计有效的特征降噪策略。此外，当采用最大池化等操作时，关键局部信息会丢失，这对检测小尺寸物体极为不利。近期研究如[12]、[13]通过融合多分辨率特征来捕捉小物体，引入时序信息以解决模糊和遮挡问题。这些方法虽有一定效果，但对于极端畸变情况以及无人机体积微小且与背景融为一体的场景可能并非最优解。

在本文中，我们提出假设：依赖简单的多尺度特征融合方法并均等地对整帧图像分配注意力（图1a），不足以在真实场景中实现无人机的精确定位。为验证该假设，我们通过实证研究结果（第IV-E节）和定性分析（第IV-F节）提供证据支持，并提出一种基于Vision Transformer网络[14]、[15]的由粗到细检测新策略，以系统性缩小无人机搜索范围并提升无人机间检测性能（图1b）。在粗粒度阶段（图1c），我们降低特征空间噪声并定位帧内更可能包含目标的区域；在细粒度阶段（图1d），则对这些区域分配更高注意力。我们提出的方法在FL-Drones[11]、NPS-Drones[10]和AOT[16]三个基准数据集上均超越了多种竞争性基线模型。

在这里插入图片描述

图1：NPS无人机数据集中的一个具有挑战性的帧[10]。绿色方框——真实标注，红色方框——模型预测结果
a) 传统方法对整帧图像进行均匀扫描以检测无人机，在复杂场景中会导致计算资源浪费和漏检
b) 本方法采用由粗到精的检测策略实现无人机精确定位
c) 粗检测层级通过生成目标性掩膜缩小搜索范围
d) 细粒度层级聚焦于优化后的搜索空间，提升无人机检测精度

综上所述，本研究的主要贡献包括：
• 提出了一种基于视觉Transformer网络的从粗到细无人机检测新策略，充分利用图像表征中未开发的物体性信息。该方法采用端到端可训练设计，并能实现实时检测性能。
• 对前沿的DAB DETR模型[15]进行简洁而有效的改进，以实现从粗到细的检测目标。
• 通过完整实验验证了所提方法的有效性，并辅以消融研究与定性分析，阐明该方法在无人机定位中的实用价值。

2.相关工作

A. 无人机探测

无人机使用的激增引发了人们对隐私和安全威胁的担忧。为解决这一问题，研究者们一直在开发有效的无人机检测方法。部分方法仅依赖射频传感器等非视觉传感数据[17]，但这类方法仅限于搭载射频传感器的无人机。另一研究[18]提出通过四旋翼飞行器的自身噪声作为引导信号，采用自监督学习实现视觉定位。此外，也有研究利用点云数据[19]进行体素分割与障碍物规避，但该方法需配备昂贵的激光雷达传感器。另有方案[20]通过地面部署的激光雷达传感器实现空中无人机探测。

虽然使用多个传感器可以提高检测精度，但采用经济高效的RGB相机而非昂贵的雷达系统来检测无人机，有助于保持无人机的轻量化设计和成本优势。[21]是仅依赖视觉数据的早期研究，其方法通过构建多尺度时空管实现，采用两个CNN模型完成各时空管内的运动稳定化处理，最终通过第三个CNN对时空管分类实现无人机检测。[12]随后提出了无人机间检测的两阶段方案：第一阶段利用CNN和注意力机制捕捉空间特征，第二阶段通过时空信息减少误检并补全漏检目标。然而[21]和[12]的方法存在流程分段、计算量大、难以实际部署的缺陷。近期[13]提出端到端的实时检测框架，采用CSPDarkNet53[22]提取视频片段空间特征，结合Video Swin Transformer[23]挖掘时序信息。但[12]和[13]均采用简单的多尺度特征融合检测小目标，这种通过下采样实现的方案可能强化图像固有噪声，且最大池化等操作会导致局部特征丢失——这对现实场景中极端畸变、伪装或微小目标的检测尤为不利。

B. 基于DETR的目标检测模型

如文献[24]所示，DETR通过提供端到端可训练系统，消除了非极大值抑制和锚框生成等手工组件的需求，为物体检测提供了新视角。这种创新方法采用基于Transformer的架构，直接单次预测所有物体的类别标签与边界框坐标。DETR的核心组件包含位置编码、编码器与解码器：编码器通过自注意力机制处理图像特征以捕获上下文信息，解码器则利用查询向量关注编码特征并进行预测。针对DETR收敛速度慢的问题，学界提出了Deformable-DETR[25]、Dynamic DETR[26]、Anchor DETR[27]及DAB DETR[15]等改进方案。其中DAB DETR创新性地采用锚框（4D框坐标：x, y, w, h）构建查询向量，并逐层更新。该方法通过同时考虑位置和尺寸，增强了交叉注意力模块的空间先验，不仅实现更简洁的架构，还深化了对DETR查询向量作用机制的理解。我们在细粒度检测层级采用这种4D查询向量构建方式，利用粗检测结果初始化解码器查询，有效缩小了无人机检测的搜索空间。

3.方法

与现实场景相符，现有无人机间检测基准数据集（如FL-Drones[11]、NPSDrones[10]和AOT[16]）中的微型无人机仅占据画面极小部分，平均尺寸为整帧画面的0.05%至0.08%。这些无人机在连续帧间会快速形变，并能巧妙融入树木、云层等复杂背景。在此类挑战性场景下，即使人眼也难以准确定位无人机，漏检频发。值得注意的是，文献[11]与[10]提供的初始标注精度不足，后经[12]作者团队发布了修正版本。这种情况下，若预先掌握画面中无人机可能出现的位置与尺寸范围，将极大提升检测效能——通过集中分析这些预设区域而非全帧扫描，可显著简化定位任务，获得更精准高效的检测结果。本文提出的由粗到精检测方法正是受此启发而设计。

我们提出的方法概览如图2所示。为有效区分前景与背景元素，我们采用性能强劲的Swin Transformer[14]作为主干架构——该模型以捕捉复杂空间关系与全局上下文能力著称。为降低多尺度特征中的噪声并增强其内在目标性信息，我们提出名为目标增强网络（OEN）的模块。该网络以Swin特征为输入，通过增强前景细节、抑制背景噪声，生成突出前景像素的目标性掩模。此掩模将作为初始粗检测结果。随后我们运用检测Transformer（DETR）[15]——当前检测任务中最先进的解决方案——来实现精细化无人机检测。具体而言，我们使用表征图像中潜在无人机位置的粗检测结果来初始化DAB DETR[15]的解码器。这种初始化过程使DETR能够将注意力集中于这些区域，而非在全帧范围内搜索无人机，从而显著提升无人机定位精度。

在这里插入图片描述

图2：我们的由粗到精检测方法。首先使用Swin Transformer[14]处理视频帧，随后通过FPN[28]获取多尺度特征并输入至DAB DETR[15]。OEN模块通过增强前景细节与抑制背景噪声，对Swin第1、2、3层特征进行细化。通过计算增强特征图的均值并应用阈值处理，获得突出潜在目标区域的粗检测结果。这些区域用于初始化DAB DETR解码器，显著缩小搜索空间并提升定位性能。绿色框——真实标注，红色框——模型预测。 $L_{cls}$ 与 $L_{reg}$ 分别代表分类损失和回归损失，二者为DETR系列模型[15]常用损失函数。

下文首先深入剖析骨干网络的具体结构，随后阐释目标增强网络（第III-A节）。接着详细说明如何利用粗粒度检测结果初始化DAB DETR解码器以获取无人机定位（第III-B节），最后阐述训练过程中采用的损失函数（第III-C节）。

A. 粗粒度：物体性掩模

空间特征提取器：CNN骨干网络通常采用重复下采样操作（如最大池化），这会降低特征图分辨率并可能丢失局部细节。相比之下，基于注意力机制的Swin Transformer[14]骨干网络通过块合并技术生成多尺度特征图，有助于保留精细细节。该架构还擅长捕捉强全局上下文信息，从而显著提升目标识别与定位的鲁棒性。因此，我们采用Swin Transformer[14]从输入帧中提取空间注意力特征，并通过特征金字塔网络（FPN）[28]进行处理——该网络通常用于多尺度目标检测流程。我们将FPN[28]生成的多尺度特征调整尺寸并融合，最终得到单一特征图。

目标增强网络（OEN）：如第I节所述，由于实际无人机间检测场景中源无人机与目标无人机的高速运动，所捕获的视频帧常存在畸变与噪声。主干网络中的下采样操作会进一步在特征空间放大这些噪声，为无人机精准检测带来挑战。受文献[29]启发，我们提出目标增强网络（OEN），该网络通过融合上采样操作恢复空间细节、卷积层强化特征表达、跳跃连接保留高层语义信息以及多尺度特征拼接，有效抑制噪声干扰。其智能聚合Swin Transformer各层级特征数据，优化特征图以提升前景与背景的区分度。具体而言，OEN以Swin Transformer最后三层的特征作为输入，生成单张降噪后的增强特征图，我们称之为目标增强（OE）特征图。

沿通道维度计算的特征图均值反映了所有通道的平均激活水平。在目标检测中，前景物体通常具有更高的激活值，因此通道维度上的高均值可作为物体存在的有效指标。我们利用图像表征中这种固有的物体性信息生成粗检测结果（图1c）。具体而言，通过对OEN输出特征图沿通道维度求均值并施加阈值，得到物体性掩码。实验表明0.6的阈值能获得最佳效果。根据数据集标注创建真值掩码，将帧中无人机位置标记为白色（255），其余区域为黑色（0）。通过采用物体增强损失函数（ $L_{OE}$ ）——即骰子损失（ $L_{Dice}$ ）与实例感知二元交叉熵损失（ $L_{BCE}$ ）的线性组合，使OEN生成的物体性掩码与真值掩码对齐。设P为物体性掩码，G为真值掩码。

$L_{\mathrm{Dice}}=1-2\cdot\frac{|P\cap G|}{|P\cup G|}$

$L_{\mathrm{BCE}}=\sum_{i=1}^n-(G_i\cdot\log(P_i)+(1-G_i)\cdot\log(1-P_i))\quad(2)$

$L_{\mathrm{OE}}=\alpha\cdot L_{\mathrm{Dice}}+\beta\cdot L_{\mathrm{BCE}}$

其中n表示帧中的无人机数量，α和β为超参数。通过在验证集上进行(1, 5)范围内的随机超参数搜索，我们发现α=2和β=1的效果最佳。

B. 细粒度层面：无人机定位

为有效利用粗检测结果作为先验信息并提升检测性能，我们采用了DAB DETR[15]的优势技术。该方法尤其强调解码器查询机制——这些查询可视为模型为识别目标及其位置而重点关注的特定图像区域。DAB DETR[15]是首个引入4D解码器查询（x, y, w, h）并逐层更新的方法，使查询框的位置与尺寸调控更为精准。我们通过目标性掩码中的高亮区域初始化解码器查询，这种策略性初始化方法有效缩减了解码器的搜索空间。

该模型将注意力集中于可能的无人机位置，而非扫描整幅图像。为利用视频帧的时序信息，我们采用批次内所有帧的高亮区域来初始化各帧的解码器查询。此外，为优化定位精度，我们通过损失函数促使最终解码层的查询与粗检测结果对齐。设Q代表解码器查询集（锚框集合），C代表物体掩码中的高亮区域集合，解码器查询损失定义如下：

$L_{\mathrm{dec-query}}=\sum_{q\in\mathbb{Q}}\min_{c\in\mathbb{C}}(\operatorname{dist}(q,c))$

其中dist表示查询向量与高亮区域之间的欧氏距离。在我们的实验中，每张图像的查询数量设定为100。

此外，为解决无人机尺寸极小的问题，我们借助DAB DETR[15]提出的解码器查询新式4D表征（x, y, w, h），将解码器查询框的尺寸限制在给定常量 $A_{max}$ 以内。定义 $L_{dec-query-size}$ 为：

$L_{\text{dec-query-size}}=\sum_{q\in\mathbb{Q}}\max(0,|A_q-A_{\max}|)\mathrm{(5)}$

其中 $A_q$ 表示解码器查询q的面积（宽×高）。对于NPS-Drones[10]和AOT[16]数据集，我们将 $A_{max}$ 设置为帧尺寸的20%；对于FL-Drones[11]数据集， $A_{max}$ 则设置为帧尺寸的40%。

C. 损失函数

为解决前景与背景类别的严重不平衡问题，我们采用Sigmoid焦点损失函数[30]。在边界框回归任务中，我们同时使用L1损失和GIoU损失[31]。当真实框与预测框无重叠时，IoU损失值为零，而GIoU损失则同时考虑重叠区域与空间对齐关系。该损失函数对尺寸和位置偏离真实框较大的预测结果进行惩罚，引导模型生成更精确的边界框以紧密包围目标物体。

4.实验

A.数据集

我们在三个具有挑战性的真实世界无人机间检测数据集上报告了实验结果，分别为FL-Drones[11]、NPS-Drones[10]以及空中目标追踪(AOT)数据集[16]。针对FL-Drones与NPS-Drones数据集，我们采用了DogFight[12]提供的精细化标注。

FL-Drones数据集[11]：该数据集规模虽小，却存在显著挑战。无人机的快速不规则运动导致其形状在连续帧间频繁变化。此外，数据集存在剧烈光照变化及无人机与背景极低的对比度，使得此类场景下的目标定位异常困难。数据集中无人机尺寸跨度极大，最小仅9×9像素，最大可达259×197像素。整个数据集包含14段视频共计38,948帧，混合了640×480和752×480两种分辨率。遵循先前研究惯例，我们将每段视频均分为两部分：一半用于训练，另一半用于测试。

NPS-Drones数据集[10]：该数据集包含分辨率为1920x1280和1280x760像素的高清(HD)图像。无人机尺寸范围从10x8到65x21像素不等，其显著特征是包含大量极小尺寸的无人机目标。数据集共收录50段视频，总计70,250帧。依照先前研究，我们采用相同的划分方式：训练集（视频01-36）、验证集（视频37-40）及测试集（视频41-50）。

空中目标追踪数据集(AOT)[16]：该数据集由亚马逊Prime Air为ICCV 2021研讨会竞赛提供[37]，包含590万张分辨率2448×2048的灰度图像及330万条二维标注，涵盖飞机、直升机、鸟类、无人机、热气球等计划内/外飞行目标。其轨迹设计旨在呈现距离、接近速度和切入角度的广泛分布。为与现有研究[13]公平对比，我们同样使用数据集第一部分——共987段视频，其中训练集516段、测试集171段、验证集300段。

B. 实现细节

遵循先前研究[12]、[13]的方法，我们在包含无人机的帧上进行训练，并每隔4帧评估一次。为增强训练数据多样性，我们以0.5的概率应用标准数据增强方法，包括随机水平翻转和色彩抖动。所有帧均调整至1920x1280分辨率。优化方面，采用AdamW优化器，学习率设为8e-5，权重衰减为1e-4。训练过程中使用多步长学习率调度器以有效微调学习过程。此外，我们通过加载Swin-B和Deformable DETR在MSCOCO数据集上预训练的公开权重实现迁移学习。实验使用两块Nvidia RTX A6000 GPU进行训练，但测试结果仅基于单GPU得出。

C. 评估指标

我们采用全点插值法获得精确率-召回率曲线，并报告最佳F1分数对应的精确率与召回率值。将模型预测与真实标注的交并比阈值设定为0.5，计算11个等间距召回点处精确率的平均值，最终以AP@50指标呈现。

D. 与现有工作的比较

表I展示了我们提出的由粗到精检测方法与近期多种方法在FL和NPS-Drones数据集上的性能对比。在FL-Drones数据集上，相较于当前最优方法[13]，我们的方法实现了5%的精确率、9%的召回率、7%的F1分数以及9%平均精度(AP)的显著提升。该数据集因无人机高速运动导致帧分辨率较低且存在高度畸变与噪声。我们模型在检测性能上的实质性改进，既揭示了简单多分辨率特征融合方法的不足，也凸显了由粗到精检测策略在此类挑战性场景中的优越性。在NPS-Drones数据集上，我们的方法以2%的精确率、1%的召回率和1%的F1分数超越[13]，同时保持相当的AP值。

在这里插入图片描述

表一：FL[11]与NPS-Drones[10]数据集检测结果对比。加粗及下划线数值分别表示最优与次优结果。括号内为相较当前最优方法TransVisDrone的性能提升百分比。

在确认我们的方法在FL和NPS无人机数据集上优于现有所有方法后，我们现通过表II将其在AOT数据集上的检测结果与两种最新的D2D检测方法进行对比。我们的方法在所有指标上均以2-4%的优势超越先前方法[13]。在包含590万张高分辨率图像的AOT数据集上取得的结果，充分凸显了本方法的有效性，证明了其在真实场景中的适应性与实用价值。

E.消融实验

在本节中，我们展示的结果验证了所提出方法中各组件的有效性。以Swin[14]+DAB DETR[15]为基线，表III呈现了通过引入本方法各组件所实现的检测性能提升。

在这里插入图片描述

表III：消融实验：在FL-Drones数据集（@640分辨率）上对本方法各组件的研究

我们还研究了帧的空间分辨率及不同主干网络的影响，同时在表IV和表V中揭示了性能与吞吐量之间的权衡关系。值得注意的是，我们采用Swin-B主干网络的最高性能模型实现了超过35 FPS的优异帧率，而采用Swin-T主干网络的最高吞吐量模型则以显著优势超越了先前工作[13]。

在这里插入图片描述

表IV：图像分辨率敏感性：空间分辨率对我们模型在FL-Drones数据集上性能影响的研究。

在这里插入图片描述

表V：骨干网络敏感性研究——基于FL-Drones数据集的不同骨干网络对比（@640分辨率）。

F. 定性结果

图4对基线模型与本文提出的由粗到细检测方法在FL-Drones数据集[11]挑战性帧上的表现进行了对比分析。图中第二列显示，骨干网络中的降采样操作会加剧特征空间中的噪声干扰。值得关注的是，第三列所示结果证明，我们提出的目标增强网络（OEN）模块能有效抑制此类噪声，从而突出前景像素特征。这一改进使得模型在细粒度无人机定位精度上显著优于基线方法。特别是在第4列（第2、3行）案例中，基线模型难以检测与背景高度融合或尺寸微小的无人机目标，而我们的模型能实现精准识别与定位。

在这里插入图片描述

图4：定性分析：我们利用无人机的粗粒度定位信息来引导DAB-DETR解码器查询（公式4）。传统FPN特征包含严重噪声（b列），通过我们提出的目标增强网络得到有效抑制（c列），从而在复杂场景中实现精准的无人机检测（d列）。绿色框为真实标注，蓝色框为基线预测结果，红色框为本模型预测结果。

5.现实世界中的无人机间探测

A. 边缘计算部署

为验证模型的实际适用性，我们将其部署在NVIDIA Jetson Xavier NX[38]开发板上。采用Swin-T主干网络时，模型在640分辨率帧率下实现了31 FPS的实时性能。

B. 最低误报率

实时无人机间检测系统中保持低误报率对安全性、运行效率及信任建立至关重要，可避免不必要的操作中断、节约资源并确保符合监管要求。为验证本方法的有效性，我们采用AOT数据集的194,193帧测试图像评估了每帧误报数（FPPI）。该方法取得了3.2e-4的优异低误报率，显著优于TransVisDrone[13]的4.4e-4、DogFight[12]的1.8e-2以及De-DETR[25]的2.5e-2，充分体现了其精确性。

6.结论

我们提出了一种经济高效的基于视觉的无人机间检测系统。与现有方法不同，我们采用了一种由粗到精的检测策略，利用视觉Transformer网络并挖掘图像表征中尚未开发的目标性信息。该模型采用端到端可训练设计，并能实现实时性能。我们将公开代码库。

7.引用文献

[1] P. K. Patidar, D. S. Tomar, R. K. Pateriya, and Y. K. Sharma, “Precision agriculture: Crop image segmentation and loss evaluation through drone surveillance,” in 2023 Third International Conference on Secure Cyber Computing and Communication (ICSCCC), 2023, pp. 495–500.
[2] S. M. A. Husain, S. Y. Ahmad, A. Aziz, and S. S. Sohail, “Drone for agriculture: A way forward,” in 2022 International Conference on Data Analytics for Business and Industry (ICDABI), 2022, pp. 580586.
[3] S. K. V, S. Sujitha, M. D. R, S. Kanaujia, S. Agarwalla, S. Sameer, and T. Manzoor, “Silent surveillance autonomous drone for disaster management and military security using artificial intelligence,” in 2023 3rd International Conference on Innovative Practices in Technology and Management (ICIPTM), 2023, pp. 1–4.
[4] D. Sim ̃oes, A. Rodrigues, A. B. Reis, and S. Sargento, “Forest fire monitoring through a network of aerial drones and sensors,” in 2020 IEEE International Conference on Pervasive Computing and Communications Workshops (PerCom Workshops), 2020, pp. 1–6.
[5] P. Sanjana and M. Prathilothamai, “Drone design for first aid kit delivery in emergency situation,” in 2020 6th International Conference on Advanced Computing and Communication Systems (ICACCS), 2020, pp. 215–220.
[6] J. Han, J. Ding, N. Xue, and G.-S. Xia, “Redet: A rotation-equivariant detector for aerial object detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 2786–2795.
[7] Y. Cao, Z. He, L. Wang, W. Wang, Y. Yuan, D. Zhang, J. Zhang, P. Zhu, L. Van Gool, J. Han, et al., “Visdrone-det2021: The vision meets drone object detection challenge results,” in Proceedings of the IEEE/CVF International conference on computer vision, 2021, pp. 2847–2854.
[8] R. V. Sairam, M. Keswani, U. Sinha, N. Shah, and V. N. Balasubramanian, “Aruba: An architecture-agnostic balanced loss for aerial object detection,” in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2023, pp. 3719–3728.
[9] W. Hua, D. Liang, J. Li, X. Liu, Z. Zou, X. Ye, and X. Bai, “Sood: Towards semi-supervised oriented object detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2023, pp. 15 558–15 567.
[10] J. Li, D. H. Ye, T. Chung, M. Kolsch, J. Wachs, and C. Bouman, “Multi-target detection and tracking from a single camera in unmanned aerial vehicles (uavs),” in 2016 IEEE/RSJ international conference on intelligent robots and systems (IROS). IEEE, 2016, pp. 4992–4997.
[11] A. Rozantsev, V. Lepetit, and P. Fua, “Detecting flying objects using a single moving camera,” IEEE transactions on pattern analysis and machine intelligence, vol. 39, no. 5, pp. 879–892, 2016.
[12] M. W. Ashraf, W. Sultani, and M. Shah, “Dogfight: Detecting drones from drones videos,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 7067–7076.
[13] T. Sangam, I. R. Dave, W. Sultani, and M. Shah, “Transvisdrone: Spatio-temporal transformer for vision-based drone-to-drone detection in aerial videos,” in 2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023, pp. 6006–6013.
[14] Z. Liu, Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin, and B. Guo, “Swin transformer: Hierarchical vision transformer using shifted windows,” in Proceedings of the IEEE/CVF international conference on computer vision, 2021, pp. 10 012–10 022.
[15] S. Liu, F. Li, H. Zhang, X. Yang, X. Qi, H. Su, J. Zhu, and L. Zhang, “DAB-DETR: Dynamic anchor boxes are better queries for DETR,” in International Conference on Learning Representations, 2022. [Online]. Available: https://openreview.net/forum?id=oMI9PjOb9Jl
[16] “The airborne object tracking challenge (2021).” [Online]. Available: https://www.aicrowd.com/challenges/ airborne-object-tracking-challenge
[17] L. Dressel and M. J. Kochenderfer, “Hunting drones with other drones: Tracking a moving radio target,” in 2019 International Conference on Robotics and Automation (ICRA). IEEE, 2019, pp. 1905–1912.
[18] M. Nava, A. Paolillo, J. Guzzi, L. M. Gambardella, and A. Giusti, “Learning visual localization of a quadrotor using its noise as selfsupervision,” IEEE Robotics and Automation Letters, vol. 7, no. 2, pp. 2218–2225, 2022.
[19] F. Chen, Y. Lu, Y. Li, and X. Xie, “Real-time active detection of targets and path planning using uavs,” in 2021 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2021, pp. 391–397.
[20] S. Dogru and L. Marques, “Drone detection using sparse lidar measurements,” IEEE Robotics and Automation Letters, vol. 7, no. 2, pp. 3062–3069, 2022.
[21] K. Yang and Q. Quan, “An autonomous intercept drone with imagebased visual servo,” in 2020 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2020, pp. 2230–2236.
[22] C.-Y. Wang, H.-Y. M. Liao, Y.-H. Wu, P.-Y. Chen, J.-W. Hsieh, and I.H. Yeh, “Cspnet: A new backbone that can enhance learning capability of cnn,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops, 2020, pp. 390–391.
[23] Z. Liu, J. Ning, Y. Cao, Y. Wei, Z. Zhang, S. Lin, and H. Hu, “Video swin transformer,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2022, pp. 3202–3211.
[24] N. Carion, F. Massa, G. Synnaeve, N. Usunier, A. Kirillov, and S. Zagoruyko, “End-to-end object detection with transformers,” in European conference on computer vision. Springer, 2020, pp. 213229.
[25] X. Zhu, W. Su, L. Lu, B. Li, X. Wang, and J. Dai, “Deformable detr: Deformable transformers for end-to-end object detection,” arXiv preprint arXiv:2010.04159, 2020.
[26] X. Dai, Y. Chen, J. Yang, P. Zhang, L. Yuan, and L. Zhang, “Dynamic detr: End-to-end object detection with dynamic attention,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp. 2988–2997.
[27] Y. Wang, X. Zhang, T. Yang, and J. Sun, “Anchor detr: Query design for transformer-based detector,” in Proceedings of the AAAI conference on artificial intelligence, vol. 36, no. 3, 2022, pp. 2567–2575.
[28] T.-Y. Lin, P. Doll ́ar, R. Girshick, K. He, B. Hariharan, and S. Belongie, “Feature pyramid networks for object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 2117–2125.
[29] Z. Wu, L. Su, and Q. Huang, “Cascaded partial decoder for fast and accurate salient object detection,” in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2019.
[30] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dolla ́r, “Focal loss for dense object detection,” in Proceedings of the IEEE international conference on computer vision, 2017, pp. 2980–2988.
[31] H. Rezatofighi, N. Tsoi, J. Gwak, A. Sadeghian, I. Reid, and S. Savarese, “Generalized intersection over union,” June 2019.
[32] K. He, G. Gkioxari, P. Dollar, and R. Girshick, “Mask r-cnn,” in Proceedings of the IEEE International Conference on Computer Vision (ICCV), Oct 2017.
[33] X. Yang, J. Yang, J. Yan, Y. Zhang, T. Zhang, Z. Guo, X. Sun, and K. Fu, “Scrdet: Towards more robust detection for small, cluttered and rotated objects,” in Proceedings of the IEEE/CVF international conference on computer vision, 2019, pp. 8232–8241.
[34] H. Wu, Y. Chen, N. Wang, and Z. Zhang, “Sequence level semantics aggregation for video object detection,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019, pp. 9217–9225.
[35] Z. Tian, C. Shen, H. Chen, and T. He, “Fcos: Fully convolutional onestage object detection,” in Proceedings of the IEEE/CVF international conference on computer vision, 2019, pp. 9627–9636.
[36] Y. Chen, Y. Cao, H. Hu, and L. Wang, “Memory enhanced globallocal aggregation for video object detection,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2020, pp. 10 337–10 346.
[37] “The airborne object tracking challenge (2021).” [Online]. Available: https://zontakm9.github.io/aot-iccvw21/s://www.aicrowd. com/challenges/airborne-object-tracking-challenge
[38] “Nvidia jetson xavier nx.” [Online]. Available: https: //www.nvidia.com/en-us/autonomous-machines/embedded-systems/ jetson-xavier-nx/

摘要

1.引言

2.相关工作

A. 无人机探测

B. 基于DETR的目标检测模型

3.方法

A. 粗粒度：物体性掩模

B. 细粒度层面：无人机定位

C. 损失函数

4.实验

A.数据集

B. 实现细节

C. 评估指标

D. 与现有工作的比较

E.消融实验

F. 定性结果

5.现实世界中的无人机间探测

A. 边缘计算部署

B. 最低误报率

6.结论

7.引用文献

相关文章：