当前位置：首页 > article >正文

Focaler-IoU: More Focused Intersection over Union——更聚焦的交并比损失

article 2026/3/30 15:08:40

《Focaler-IoU: More Focused Intersection over Union Loss》主要研究内容可以全面概括如下研究背景与问题在目标检测任务中边界框回归的精度很大程度上取决于损失函数的设计。现有的IoU-based损失函数如GIoU、CIoU、EIoU、SIoU等主要关注如何利用边界框之间的几何关系如距离、形状、角度来提升回归性能。然而这些方法普遍忽略了一个关键问题训练样本中难易样本的分布对边界框回归效果的影响。简单样本如大尺度目标和难样本如小尺度目标在检测难度上存在差异但现有损失函数对所有样本一视同仁。核心贡献与创新点问题分析论文首次系统地分析了难易样本分布对边界框回归的影响。指出当难样本占主导时模型应重点关注难样本的回归当简单样本占主导时则应聚焦于简单样本。提出Focaler-IoU方法为了解决上述问题论文提出了一种新的损失函数构建方法——Focaler-IoU。核心机制通过线性区间映射的方式对原始的IoU值进行重构。数学表达引入两个可调参数 dd 和 uu将IoU值划分为三个区间低于dd的部分置为0高于uu的部分置为1中间的[d,u][d,u]区间进行线性放大映射。作用效果通过调整dd和uu的取值可以灵活地选择让损失函数聚焦于特定的回归样本例如只关注IoU处于中等水平的难样本或关注高IoU的简单样本从而适应不同的检测任务需求。即插即用Focaler-IoU被设计为一个通用的辅助工具可以轻松嵌入到现有的任何基于IoU的损失函数中如GIoU、DIoU、CIoU、EIoU、SIoU形成Focaler-GIoU、Focaler-SIoU等一系列新损失函数以提升原方法的性能。实验验证论文在PASCAL VOC数据集上使用主流的一阶段检测器YOLOv5s, YOLOv8s进行了对比实验。实验结果表明将Focaler-IoU应用于SIoU后即Focaler-SIoU在YOLOv8s上AP50提升了0.3%mAP50:95提升了0.3%。在YOLOv5s上AP50更是显著提升了1.9%mAP50:95提升了0.5%。这些结果证明了Focaler-IoU能够有效提升检测器的性能弥补了现有损失函数在处理样本分布问题上的不足。本文的主要研究内容是通过引入样本分布视角来改进边界框回归损失函数。提出的Focaler-IoU通过简单的线性区间映射机制实现了对不同回归样本的灵活聚焦从而在各种检测任务中都能有效提升检测精度。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示项目地址在这里如下所示摘要边界框回归在目标检测领域起着至关重要的作用目标检测的定位精度很大程度上取决于边界框回归的损失函数。现有研究通过利用边界框之间的几何关系来提升回归性能而忽略了难易样本分布对边界框回归的影响。本文中我们分析了难易样本分布对回归结果的影响进而提出了 Focaler-IoU该方法通过聚焦于不同的回归样本能够在不同的检测任务中提升检测器性能。最后针对不同的检测任务使用现有的先进检测器和回归方法进行了对比实验采用本文提出的方法进一步提升了检测性能。关键词—目标检测损失函数边界框回归I. 引言目标检测是计算机视觉的基本任务之一旨在定位和识别图像中的目标。根据是否生成锚点可分为基于锚点的方法和无锚点的方法。基于锚点的算法包括 Faster R-CNN [1]、YOLO (You Only Look Once) 系列 [2]、SSD (Single Shot MultiBox Detector) [3] 和 RetinaNet [4]。无锚点检测算法包括 CornerNet [5]、CenterNet [6] 和 FCOS (Fully Convolutional One Stage Object Detection) [7]。在这些检测器中边界框回归损失函数作为定位分支的重要组成部分扮演着不可或缺的角色。A. 边界框回归损失随着计算机视觉的发展目标检测任务受到了研究人员更多的关注。为了评估各种算法在检测任务上的性能需要引入一个合适的度量标准。在 IoU (Intersection over Union) [8] 被提出之前ln 范数损失 [13] 被用作早期边界框回归问题的评估指标。然而由于 ln 范数损失对异常值非常敏感导致异常值对损失的影响较大使得模型在存在异常值时性能不稳定。为了更好地解决上述问题提出了一个更合适的度量标准IoU [8]。在基于 IoU 的评估标准下大多数目标检测任务的检测精度得到了进一步提升但 IoU 损失本身也存在一些缺点例如当真实框和锚框之间没有重叠时它们的梯度会消失无法准确表征两个边界框之间的位置关系。为了弥补这一缺陷GIoU [9] 提出使用包含真实框和锚框的最小外接框来计算损失从而提升检测性能。在 CIoU 和 DIoU [10] 中为了弥补 GIoU 收敛速度慢的问题CIoU 通过进一步考虑真实框和锚框之间的长宽比来加速收敛而 DIoU 则通过归一化两个边界框中心点之间的距离来加速收敛。EIoU [12] 在 CIoU 的基础上进一步考虑了形状损失通过最小化真实框和锚框宽度和高度的差异来加速收敛。SIoU [13] 则进一步考虑了两个边界框中心连线的角度并根据角度重新定义了距离损失和形状损失将其作为新的损失项加入到损失函数中在目前基于 IoU 的损失函数中取得了最佳的检测效果。B. 焦点损失在边界回归过程中训练样本不平衡的问题一直存在。根据是否包含目标类别训练样本可分为正样本和负样本。一些解决训练样本不平衡的传统方法是在训练过程中对难样本进行采样和重新加权但这种方法的效果并不显著。在 Focal Loss [14] 中提出易识别的负样本占总损失的大部分并主导梯度。Focal Loss [14] 通过调整正负样本的权重使模型更关注于难以分类的正样本并降低相对容易分类的负样本的权重从而提升了模型识别罕见目标类别的能力。在 Libra R-CNN [15] 中提出了一个简单有效的平衡学习框架在目标层面使用 Balanced L1 损失将训练样本分为离群值和内部值。离群值被视为难样本与内部值相比会产生较大的梯度这对训练过程是有害的。因此Libra R-CNN 使用促进内部值的梯度回归并裁剪这些离群值产生的大梯度以达到更好的分类效果。在 EIoU [12] 中将训练样本分为高质量样本锚框和低质量样本离群值并在 L1 损失的基础上提出了 FocalL1 损失以增加高质量样本对训练过程的梯度贡献。同时将 EIoU 损失作为一个变量加入到 FocalL1 损失中使得模型能够更加关注高质量样本从而进一步提升检测效果。本文的主要贡献如下我们分析了难易样本分布对边界框回归的影响。基于现有的边界框回归方法提出了 Focaler-IoU通过线性区间映射来聚焦不同的回归样本。我们使用先进的一阶段检测器进行了实验验证了我们的方法能够有效提升检测性能并弥补现有方法的不足。II. 相关工作近年来随着检测器的发展边界回归损失也得到了快速发展。最初IoU [8] 被提出用于评估边界框回归状态随后在 IoU 的基础上不断加入新的约束如 GIoU [9]、DIoU [10]、CIoU [10]、EIoU [12] 和 SIoU [11] 等相继被提出。A. IoU 度量IoU [8] 是最流行的目标检测评估标准其定义如下B. GIoU 度量为了解决边界框回归中由于真实框和锚框无重叠导致的 IoU 损失梯度消失问题提出了 GIoU [9]。其定义如下C. DIoU 度量与 GIoU 相比DIoU [10] 考虑了边界框之间的距离约束通过在 IoU 基础上添加中心点归一化距离损失项使得回归结果更加精确。其定义如下D. EIoU 度量EIoU [12] 在 CIoU 的基础上重新定义了形状损失通过直接减少真实框和锚框之间的长宽差异进一步提高了检测精度。其定义如下E. SIoU 度量在先前研究的基础上SIoU [11] 进一步考虑了边界框之间角度的影响旨在通过减小锚框与真实框之间在水平或垂直方向的角度来加速收敛过程。其定义如下图 1如图所示(a) 和 (b) 分别表示针对难样本和简单样本的线性区间映射曲线。III. 方法A. 分析各种目标检测任务中都存在样本不平衡问题根据目标检测的难度可将其分为难样本和简单样本。从目标尺度的角度分析一般的检测目标可以视为简单样本而极小的目标由于难以精确定位可以视为难样本。对于以简单样本为主的检测任务在边界框回归过程中关注简单样本将有助于提升检测性能。相反对于难样本占比较高比例的检测任务则需要关注难样本的边界框回归。B. Focaler-IoU为了能够针对不同的检测任务聚焦于不同的回归样本我们采用线性区间映射的方法重构 IoU 损失从而改进边界回归。公式如下IV. 实验A. 在 YOLOv8 上使用 PASCAL VOC 数据集PASCAL VOC 数据集是目标检测领域最流行的数据集之一。本文中我们使用 VOC2007 和 VOC2012 的 train 和 val 作为训练集共包含 16551 张图像并使用 VOC2007 的 test 作为测试集包含 4952 张图像。在本实验中我们选择最先进的一阶段检测器 YOLOv8s 和 YOLOv7-tiny 在 VOC 数据集上进行对比实验并选择 SIoU 作为实验的对比方法。实验结果如表 I 所示表 I: SIoU 和 Focaler-SIoU 在 Yolov8 上的性能对比。表 II: SIoU 和 Focaler-SIoU 在 Yolov5 上的性能对比。V. 结论在本文中我们分析了难易样本分布对目标检测的影响。当难样本占主导地位时需要关注难样本以提升检测性能。当简单样本比例较大时则相反。接着我们提出了 Focaler-IoU 方法通过线性区间映射重构原始 IoU 损失以达到聚焦难易样本的目的。最后对比实验证明了所提方法能够有效提升检测性能。

Focaler-IoU: More Focused Intersection over Union——更聚焦的交并比损失

相关文章：

Focaler-IoU: More Focused Intersection over Union——更聚焦的交并比损失

终极指南：在PC上完美运行PS4游戏的秘密武器

RTKLIB进阶指南：深入理解北斗三代CNAV电文与BDS-3星历数据结构

lite-avatar形象库部署教程：GPU共享模式下多租户数字人服务隔离方案

Cadence实战：从原理图到PCB的完整导入流程解析

【数字逻辑】实战解析：从PLD到FPGA的演进与应用场景

如何在Ozon产品测款？用CaptainAI精准锁定爆款潜力款

从RNN到Mamba：一个算法工程师的‘长文本’建模踩坑与选型指南

对于对话中的用户长期兴趣建模，OpenClaw 的序列推荐方法？

机械设计制造及自动化—万门大学月特训班（清华老师讲授） 1、机械制图 2、机械制造 3、机械原理 4、机械设计

图像处理中的NCC算法：从原理到优化（附Python实现对比）

触控板手势增强：告别跨系统痛点，实现macOS风格三指拖动无缝体验

SMUDebugTool终极指南：快速掌握AMD Ryzen系统调试与优化技巧

用STM32F411和CLion从零搭建三轮全向小车：PID调参、VOFA+上位机调试全记录

收藏 | 阿里字节开源Agent框架大比拼：小白程序员必看，三种思路助你入门大模型！

解锁旧Mac新生命：技术伙伴如何突破苹果限制

别再说‘差不多’了！搞懂PPM，你的数字电路时钟才算真的稳了（附计算器）

DeepWiki-Open技术解析：构建完全离线的AI文档生成创新方案

基于国标12190-2021的电磁屏蔽箱多频段测试优化方案

RPCS3完全攻略：从零开始打造你的PC端PS3游戏中心

RCE漏洞小结

Granite TimeSeries FlowState R1 多步预测效果展示：长期趋势与不确定性量化

FLUX.小红书极致真实V2规模化落地：单节点支持10并发请求，QPS达2.1

CST中利用SPICE语言自定义复杂lumped element电路的实战指南

3大核心功能构建反检测浏览器：Camoufox实战指南

【单片机实战】中断服务程序编写精要：从现场保护到中断返回

学习记录：数据预处理流程全解析

OpenClaw+GLM-4.7-Flash：自动化客户咨询响应系统

UnityXR实战：用Pico实现物体抓取与场景重置（含材质交互技巧）

深入Fast DDS传输层：从UDP、TCP到共享内存，如何为你的ROS2应用选择最佳通信方式？