当前位置: 首页 > article >正文

Focaler-IoU: More Focused Intersection over Union——更聚焦的交并比损失

《Focaler-IoU: More Focused Intersection over Union Loss》主要研究内容可以全面概括如下研究背景与问题在目标检测任务中边界框回归的精度很大程度上取决于损失函数的设计。现有的IoU-based损失函数如GIoU、CIoU、EIoU、SIoU等主要关注如何利用边界框之间的几何关系如距离、形状、角度来提升回归性能。然而这些方法普遍忽略了一个关键问题训练样本中难易样本的分布对边界框回归效果的影响。简单样本如大尺度目标和难样本如小尺度目标在检测难度上存在差异但现有损失函数对所有样本一视同仁。核心贡献与创新点问题分析论文首次系统地分析了难易样本分布对边界框回归的影响。指出当难样本占主导时模型应重点关注难样本的回归当简单样本占主导时则应聚焦于简单样本。提出Focaler-IoU方法为了解决上述问题论文提出了一种新的损失函数构建方法——Focaler-IoU。核心机制通过线性区间映射的方式对原始的IoU值进行重构。数学表达引入两个可调参数 dd 和 uu将IoU值划分为三个区间低于dd的部分置为0高于uu的部分置为1中间的[d,u][d,u]区间进行线性放大映射。作用效果通过调整dd和uu的取值可以灵活地选择让损失函数聚焦于特定的回归样本例如只关注IoU处于中等水平的难样本或关注高IoU的简单样本从而适应不同的检测任务需求。即插即用Focaler-IoU被设计为一个通用的辅助工具可以轻松嵌入到现有的任何基于IoU的损失函数中如GIoU、DIoU、CIoU、EIoU、SIoU形成Focaler-GIoU、Focaler-SIoU等一系列新损失函数以提升原方法的性能。实验验证论文在PASCAL VOC数据集上使用主流的一阶段检测器YOLOv5s, YOLOv8s进行了对比实验。实验结果表明将Focaler-IoU应用于SIoU后即Focaler-SIoU在YOLOv8s上AP50提升了0.3%mAP50:95提升了0.3%。在YOLOv5s上AP50更是显著提升了1.9%mAP50:95提升了0.5%。这些结果证明了Focaler-IoU能够有效提升检测器的性能弥补了现有损失函数在处理样本分布问题上的不足。本文的主要研究内容是通过引入样本分布视角来改进边界框回归损失函数。提出的Focaler-IoU通过简单的线性区间映射机制实现了对不同回归样本的灵活聚焦从而在各种检测任务中都能有效提升检测精度。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示项目地址在这里如下所示摘要边界框回归在目标检测领域起着至关重要的作用目标检测的定位精度很大程度上取决于边界框回归的损失函数。现有研究通过利用边界框之间的几何关系来提升回归性能而忽略了难易样本分布对边界框回归的影响。本文中我们分析了难易样本分布对回归结果的影响进而提出了 Focaler-IoU该方法通过聚焦于不同的回归样本能够在不同的检测任务中提升检测器性能。最后针对不同的检测任务使用现有的先进检测器和回归方法进行了对比实验采用本文提出的方法进一步提升了检测性能。关键词—目标检测损失函数边界框回归I. 引言目标检测是计算机视觉的基本任务之一旨在定位和识别图像中的目标。根据是否生成锚点可分为基于锚点的方法和无锚点的方法。基于锚点的算法包括 Faster R-CNN [1]、YOLO (You Only Look Once) 系列 [2]、SSD (Single Shot MultiBox Detector) [3] 和 RetinaNet [4]。无锚点检测算法包括 CornerNet [5]、CenterNet [6] 和 FCOS (Fully Convolutional One Stage Object Detection) [7]。在这些检测器中边界框回归损失函数作为定位分支的重要组成部分扮演着不可或缺的角色。A. 边界框回归损失随着计算机视觉的发展目标检测任务受到了研究人员更多的关注。为了评估各种算法在检测任务上的性能需要引入一个合适的度量标准。在 IoU (Intersection over Union) [8] 被提出之前ln​ 范数损失 [13] 被用作早期边界框回归问题的评估指标。然而由于 ln​ 范数损失对异常值非常敏感导致异常值对损失的影响较大使得模型在存在异常值时性能不稳定。为了更好地解决上述问题提出了一个更合适的度量标准IoU [8]。在基于 IoU 的评估标准下大多数目标检测任务的检测精度得到了进一步提升但 IoU 损失本身也存在一些缺点例如当真实框和锚框之间没有重叠时它们的梯度会消失无法准确表征两个边界框之间的位置关系。为了弥补这一缺陷GIoU [9] 提出使用包含真实框和锚框的最小外接框来计算损失从而提升检测性能。在 CIoU 和 DIoU [10] 中为了弥补 GIoU 收敛速度慢的问题CIoU 通过进一步考虑真实框和锚框之间的长宽比来加速收敛而 DIoU 则通过归一化两个边界框中心点之间的距离来加速收敛。EIoU [12] 在 CIoU 的基础上进一步考虑了形状损失通过最小化真实框和锚框宽度和高度的差异来加速收敛。SIoU [13] 则进一步考虑了两个边界框中心连线的角度并根据角度重新定义了距离损失和形状损失将其作为新的损失项加入到损失函数中在目前基于 IoU 的损失函数中取得了最佳的检测效果。B. 焦点损失在边界回归过程中训练样本不平衡的问题一直存在。根据是否包含目标类别训练样本可分为正样本和负样本。一些解决训练样本不平衡的传统方法是在训练过程中对难样本进行采样和重新加权但这种方法的效果并不显著。在 Focal Loss [14] 中提出易识别的负样本占总损失的大部分并主导梯度。Focal Loss [14] 通过调整正负样本的权重使模型更关注于难以分类的正样本并降低相对容易分类的负样本的权重从而提升了模型识别罕见目标类别的能力。在 Libra R-CNN [15] 中提出了一个简单有效的平衡学习框架在目标层面使用 Balanced L1 损失将训练样本分为离群值和内部值。离群值被视为难样本与内部值相比会产生较大的梯度这对训练过程是有害的。因此Libra R-CNN 使用促进内部值的梯度回归并裁剪这些离群值产生的大梯度以达到更好的分类效果。在 EIoU [12] 中将训练样本分为高质量样本锚框和低质量样本离群值并在 L1 损失的基础上提出了 FocalL1 损失以增加高质量样本对训练过程的梯度贡献。同时将 EIoU 损失作为一个变量加入到 FocalL1 损失中使得模型能够更加关注高质量样本从而进一步提升检测效果。本文的主要贡献如下我们分析了难易样本分布对边界框回归的影响。基于现有的边界框回归方法提出了 Focaler-IoU通过线性区间映射来聚焦不同的回归样本。我们使用先进的一阶段检测器进行了实验验证了我们的方法能够有效提升检测性能并弥补现有方法的不足。II. 相关工作近年来随着检测器的发展边界回归损失也得到了快速发展。最初IoU [8] 被提出用于评估边界框回归状态随后在 IoU 的基础上不断加入新的约束如 GIoU [9]、DIoU [10]、CIoU [10]、EIoU [12] 和 SIoU [11] 等相继被提出。A. IoU 度量IoU [8] 是最流行的目标检测评估标准其定义如下B. GIoU 度量为了解决边界框回归中由于真实框和锚框无重叠导致的 IoU 损失梯度消失问题提出了 GIoU [9]。其定义如下C. DIoU 度量与 GIoU 相比DIoU [10] 考虑了边界框之间的距离约束通过在 IoU 基础上添加中心点归一化距离损失项使得回归结果更加精确。其定义如下D. EIoU 度量EIoU [12] 在 CIoU 的基础上重新定义了形状损失通过直接减少真实框和锚框之间的长宽差异进一步提高了检测精度。其定义如下E. SIoU 度量在先前研究的基础上SIoU [11] 进一步考虑了边界框之间角度的影响旨在通过减小锚框与真实框之间在水平或垂直方向的角度来加速收敛过程。其定义如下图 1如图所示(a) 和 (b) 分别表示针对难样本和简单样本的线性区间映射曲线。III. 方法A. 分析各种目标检测任务中都存在样本不平衡问题根据目标检测的难度可将其分为难样本和简单样本。从目标尺度的角度分析一般的检测目标可以视为简单样本而极小的目标由于难以精确定位可以视为难样本。对于以简单样本为主的检测任务在边界框回归过程中关注简单样本将有助于提升检测性能。相反对于难样本占比较高比例的检测任务则需要关注难样本的边界框回归。B. Focaler-IoU为了能够针对不同的检测任务聚焦于不同的回归样本我们采用线性区间映射的方法重构 IoU 损失从而改进边界回归。公式如下IV. 实验A. 在 YOLOv8 上使用 PASCAL VOC 数据集PASCAL VOC 数据集是目标检测领域最流行的数据集之一。本文中我们使用 VOC2007 和 VOC2012 的 train 和 val 作为训练集共包含 16551 张图像并使用 VOC2007 的 test 作为测试集包含 4952 张图像。在本实验中我们选择最先进的一阶段检测器 YOLOv8s 和 YOLOv7-tiny 在 VOC 数据集上进行对比实验并选择 SIoU 作为实验的对比方法。实验结果如表 I 所示表 I: SIoU 和 Focaler-SIoU 在 Yolov8 上的性能对比。表 II: SIoU 和 Focaler-SIoU 在 Yolov5 上的性能对比。V. 结论在本文中我们分析了难易样本分布对目标检测的影响。当难样本占主导地位时需要关注难样本以提升检测性能。当简单样本比例较大时则相反。接着我们提出了 Focaler-IoU 方法通过线性区间映射重构原始 IoU 损失以达到聚焦难易样本的目的。最后对比实验证明了所提方法能够有效提升检测性能。

相关文章:

Focaler-IoU: More Focused Intersection over Union——更聚焦的交并比损失

《Focaler-IoU: More Focused Intersection over Union Loss》主要研究内容可以全面概括如下: 研究背景与问题: 在目标检测任务中,边界框回归的精度很大程度上取决于损失函数的设计。现有的IoU-based损失函数(如GIoU、CIoU、EIoU…...

终极指南:在PC上完美运行PS4游戏的秘密武器

终极指南:在PC上完美运行PS4游戏的秘密武器 【免费下载链接】shadPS4 PS4 emulator for Windows,Linux,MacOS 项目地址: https://gitcode.com/gh_mirrors/shad/shadPS4 你是否曾经梦想过在电脑上畅玩那些只能在PS4上体验的独占大作?今天&#xff…...

RTKLIB进阶指南:深入理解北斗三代CNAV电文与BDS-3星历数据结构

RTKLIB进阶指南:北斗三代CNAV电文与星历数据结构深度解析 当你在RTKLIB的源码中第一次看到eph_t结构体里那些神秘的Adot、ndot字段时,是否好奇过它们如何精确描述北斗三号卫星的轨道变化?这些看似简单的浮点数背后,隐藏着中国自主…...

lite-avatar形象库部署教程:GPU共享模式下多租户数字人服务隔离方案

lite-avatar形象库部署教程:GPU共享模式下多租户数字人服务隔离方案 1. 项目概述 lite-avatar形象库是一个专业的数字人形象资产管理平台,基于HumanAIGC-Engineering/LiteAvatarGallery构建。这个库提供了150经过预训练的2D数字人形象,专门…...

Cadence实战:从原理图到PCB的完整导入流程解析

1. Cadence设计流程概述 刚接触Cadence的硬件工程师常会遇到一个经典问题:为什么原理图设计得漂漂亮亮,导入PCB时却总出各种幺蛾子?这就像做菜时备好了所有食材,下锅时却发现灶台点不着火。我在带新人时发现,90%的导入…...

【数字逻辑】实战解析:从PLD到FPGA的演进与应用场景

1. 可编程逻辑器件的技术演进之路 第一次接触可编程逻辑器件是在大学实验室里,当时看着老师用一个小芯片就实现了整个数字钟的功能,完全颠覆了我对传统电路板的认知。这种"魔术般"的芯片就是PLD(可编程逻辑器件)&#…...

如何在Ozon产品测款?用CaptainAI精准锁定爆款潜力款

做Ozon运营,测款是店铺长期盈利的关键——选对款能事半功倍,测错款则会积压库存、浪费成本,中小卖家资金精力有限,盲目铺货测款易陷入“高投入、低回报”困境。很多卖家测款常踩坑:凭感觉跟风选热门款,竞争…...

从RNN到Mamba:一个算法工程师的‘长文本’建模踩坑与选型指南

从RNN到Mamba:一个算法工程师的‘长文本’建模踩坑与选型指南 当处理长达数万token的日志序列时,传统RNN的梯度消失问题让模型难以捕捉跨时段的异常模式,而Transformer的二次方复杂度又让显存迅速耗尽。这种困境促使我开始系统评估结构化状态…...

对于对话中的用户长期兴趣建模,OpenClaw 的序列推荐方法?

关于对话系统中如何捕捉用户长期兴趣这件事,业内琢磨了挺长时间。传统的序列推荐模型,比如那些基于循环神经网络或者注意力机制的,往往更擅长处理短期的、密集的交互序列。它们像是一个敏锐的现场观察者,能立刻抓住你刚才点击了什…...

机械设计制造及自动化—万门大学月特训班 (清华老师讲授) 1、机械制图 2、机械制造 3、机械原理 4、机械设计

机械设计制造及自动化—万门大学月特训班 (清华老师讲授) 1、机械制图 2、机械制造 3、机械原理 4、机械设计 全580集,直接从零基础到机械设计与自动化行业大佬 在这里插入图片描述...

图像处理中的NCC算法:从原理到优化(附Python实现对比)

图像处理中的NCC算法:从原理到优化(附Python实现对比) 在计算机视觉领域,模板匹配是一项基础而重要的技术。想象一下这样的场景:你正在开发一个工业质检系统,需要在流水线上快速识别产品上的特定标识&#…...

触控板手势增强:告别跨系统痛点,实现macOS风格三指拖动无缝体验

触控板手势增强:告别跨系统痛点,实现macOS风格三指拖动无缝体验 【免费下载链接】ThreeFingersDragOnWindows Enables macOS-style three-finger dragging functionality on Windows Precision touchpads. 项目地址: https://gitcode.com/gh_mirrors/t…...

SMUDebugTool终极指南:快速掌握AMD Ryzen系统调试与优化技巧

SMUDebugTool终极指南:快速掌握AMD Ryzen系统调试与优化技巧 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: http…...

用STM32F411和CLion从零搭建三轮全向小车:PID调参、VOFA+上位机调试全记录

用STM32F411和CLion从零搭建三轮全向小车:PID调参、VOFA上位机调试全记录 第一次接触全向轮机器人时,我被它灵活的运动方式深深吸引——不同于传统轮式机器人,它能实现任意方向的平移和旋转。这种独特的移动能力在狭小空间作业、仓储物流等领…...

收藏 | 阿里字节开源Agent框架大比拼:小白程序员必看,三种思路助你入门大模型!

本文对比了阿里和字节开源的HiClaw、CoPaw和DeerFlow三个Agent框架,分析了它们在架构设计、安全模型和适用场景上的差异。HiClaw侧重多Agent协作,CoPaw聚焦个人AI助手,DeerFlow强调单Agent深度任务处理。文章还探讨了阿里组合拳与字节单点突破…...

解锁旧Mac新生命:技术伙伴如何突破苹果限制

解锁旧Mac新生命:技术伙伴如何突破苹果限制 【免费下载链接】OpenCore-Legacy-Patcher 体验与之前一样的macOS 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 你是否曾想过,那些被苹果官方"抛弃"的老旧Ma…...

别再说‘差不多’了!搞懂PPM,你的数字电路时钟才算真的稳了(附计算器)

别再说‘差不多’了!搞懂PPM,你的数字电路时钟才算真的稳了(附计算器) 在数字电路设计中,时钟信号如同人体的心跳,其稳定性直接决定了整个系统的可靠性。然而,许多工程师在面对"PPM"这…...

DeepWiki-Open技术解析:构建完全离线的AI文档生成创新方案

DeepWiki-Open技术解析:构建完全离线的AI文档生成创新方案 【免费下载链接】deepwiki-open Open Source DeepWiki: AI-Powered Wiki Generator for GitHub Repositories 项目地址: https://gitcode.com/gh_mirrors/de/deepwiki-open 在企业级软件开发中&…...

基于国标12190-2021的电磁屏蔽箱多频段测试优化方案

1. 电磁屏蔽箱测试的核心挑战与国标12190-2021的价值 当你第一次接触电磁屏蔽箱测试时,可能会被各种专业术语和复杂的测试流程搞得晕头转向。我刚开始做这行时,最头疼的就是如何确保测试结果既全面又准确——特别是在不同频段下,屏蔽效能差异…...

RPCS3完全攻略:从零开始打造你的PC端PS3游戏中心

RPCS3完全攻略:从零开始打造你的PC端PS3游戏中心 【免费下载链接】rpcs3 PS3 emulator/debugger 项目地址: https://gitcode.com/GitHub_Trending/rp/rpcs3 还在为无法重温经典PS3游戏而烦恼吗?想要在电脑上体验《最后生还者》、《神秘海域》等索…...

RCE漏洞小结

RCE漏洞简介 所谓RCE漏洞,即Remote Code/Command Execution,远程代码执行和远程命令执行漏洞。在很多Web应⽤中,开发⼈员会使⽤⼀些函数,这些函数以⼀些字符串作为输⼊,功能是将输⼊的字符串当作代码或者命令来进⾏执…...

Granite TimeSeries FlowState R1 多步预测效果展示:长期趋势与不确定性量化

Granite TimeSeries FlowState R1 多步预测效果展示:长期趋势与不确定性量化 时间序列预测,听起来挺专业的,但说白了,就是根据过去的数据,猜猜未来会发生什么。比如,老板问你:“下个月咱们产品…...

FLUX.小红书极致真实V2规模化落地:单节点支持10并发请求,QPS达2.1

FLUX.小红书极致真实V2规模化落地:单节点支持10并发请求,QPS达2.1 1. 项目简介 你是否曾经遇到过这样的困扰:想要生成小红书风格的高质量图片,但要么效果不够真实,要么生成速度太慢,要么显存不够用&#…...

CST中利用SPICE语言自定义复杂lumped element电路的实战指南

1. 突破CST自带元件的限制:为什么需要SPICE语言 刚开始用CST做电路仿真时,我也觉得自带的RLC元件够用了——直到遇到一个带滤波功能的耦合器项目。当时需要模拟一个包含寄生参数的复杂匹配网络,自带的并联RLC元件死活调不出理想的频响曲线。这…...

3大核心功能构建反检测浏览器:Camoufox实战指南

3大核心功能构建反检测浏览器:Camoufox实战指南 【免费下载链接】camoufox 🦊 Anti-detect browser 项目地址: https://gitcode.com/gh_mirrors/ca/camoufox 在当今数据驱动的时代,网站反爬虫系统日益严苛,传统浏览器在访问…...

【单片机实战】中断服务程序编写精要:从现场保护到中断返回

1. 中断服务程序的核心作用与基本结构 第一次接触单片机中断时,我盯着开发板上的按键发愣——明明没有循环检测IO口状态,按下按键却能立即触发LED亮灭。这种"随叫随到"的响应机制,就是中断服务程序(ISR)的魔…...

学习记录:数据预处理流程全解析

学习记录:数据预处理流程全解析 在大数据分析过程中,数据预处理是极为关键的环节,它直接影响到后续分析结果的准确性和可靠性。近期深入学习了数据预处理的各个流程,包括数据清洗、数据集成、数据变换和数据归约,下面将…...

OpenClaw+GLM-4.7-Flash:自动化客户咨询响应系统

OpenClawGLM-4.7-Flash:自动化客户咨询响应系统 1. 为什么选择这个技术组合 去年夏天,我接手了一个小型电商项目的客服系统改造需求。客户希望在不增加人力成本的情况下,实现7*24小时的初步咨询响应。经过几轮技术选型,最终选择…...

UnityXR实战:用Pico实现物体抓取与场景重置(含材质交互技巧)

UnityXR实战:用Pico实现物体抓取与场景重置(含材质交互技巧) 在虚拟现实开发领域,交互体验的质量往往决定了产品的成败。Pico作为国内领先的VR设备,结合UnityXR框架,为开发者提供了强大的工具链来实现沉浸式…...

深入Fast DDS传输层:从UDP、TCP到共享内存,如何为你的ROS2应用选择最佳通信方式?

Fast DDS传输层深度解析:UDP、TCP与共享内存的工程实践指南 在分布式系统架构中,通信中间件的性能直接影响整个系统的响应速度和可靠性。作为ROS 2的默认通信中间件,Fast DDS提供了多种传输协议选择,但如何根据实际场景做出最优决…...