当前位置：首页 > article >正文

Generalized Mask-aware IoU for Anchor Assignment for Real-time Instance Segmentation—面向实时实例分割的锚点分配方法

article 2026/3/31 17:35:10

《广义掩膜感知IoU面向实时实例分割的锚点分配方法》主要研究并解决实时实例分割任务中锚点分配不准确的问题。其核心创新在于提出了一种新的度量标准——广义掩膜感知交并比并将其应用于锚点的正负样本分配从而显著提升了模型的性能与效率。以下是该论文主要研究内容的全面总结与概括1. 研究背景与问题锚点机制在基于锚点的实例分割方法如YOLACT中需要将大量的预定义锚点框分配给图像中的真实目标。传统方法的缺陷现有的分配方法如固定IoU阈值或ATSS主要依赖边界框之间的IoU。然而IoU只考虑框的面积重叠忽略了目标的形状信息即分割掩膜。这会导致两种反直觉的情况IoU很高但锚点只覆盖了目标的一小部分像素实际上应该是低质量的锚点。IoU很低但锚点却覆盖了目标的大部分有效像素实际上可能是高质量的锚点。观察发现作者通过引入MOB比率进行分析发现锚点覆盖的掩膜像素比例直接影响模型的损失值而传统IoU无法捕捉这一差异。2. 核心贡献GmaIoU为了解决上述问题作者提出了广义掩膜感知交并比。这是一种新的接近度度量在计算锚点与真实目标的重叠时不仅考虑边界框还利用了已有的真实分割掩膜。广义性GmaIoU定义了一个多边形P使其成为一个通用公式当 PB 时GmaIoU退化为作者之前提出的maIoU结合了边界框和掩膜。当 PM 时GmaIoU退化为锚点框与掩膜之间的IoU。优势通过加权计算赋予掩膜内像素更高权重忽略掩膜外像素GmaIoU能更准确地反映锚点框实际覆盖目标形状的好坏。3. 技术创新高效计算与集成高效计算算法由于掩膜形状不规则且锚点数量巨大如19K/图直接暴力计算GmaIoU会带来极高的训练耗时。作者利用积分图像技术设计了一种高效算法使得计算GmaIoU的速度与传统IoU几乎相当从41.89秒/迭代降至0.59秒/迭代使得该方法具备了实用性。集成到ATSS作者将GmaIoU替换传统的IoU集成到先进的动态分配器ATSS中。在ATSS的自适应阈值计算步骤中使用GmaIoU代替IoU来选择正负样本。4. 实验与性能提升通过在YOLACT模型上进行大量实验论文验证了GmaIoU的有效性消融实验结果使用GmaIoU特别是 PM 配置的ATSS分配器在不同图像尺度400 550 700上均持续优于使用传统IoU、DIoU、GIoU的ATSS掩膜AP提升约1.0-1.5个点。相比YOLACT原始的固定IoU阈值分配器掩膜AP提升约1.5-2.0个点。效率提升GmaIoU分配器使得高质量的正负样本筛选更精准从而允许模型使用更少的锚点从约19.2K降至约6.4K。这使得YOLACT的推理速度提升了25%从28 fps提升至32 fps。最终模型 GmaYOLACT基于GmaIoU带来的效率优势作者进一步集成了Carafe-FPN、可变形卷积、RS-Loss等改进策略构建了GmaYOLACT。成果GmaYOLACT-550相比基线YOLACT-550掩膜AP提升了7.1个点GmaYOLACT-700在COCO test-dev上达到了38.7的掩膜AP和25 fps的帧率树立了实时实例分割领域的新SOTA水平。这篇论文的核心在于将分割掩膜的信息反向注入到锚点分配阶段。作者提出的GmaIoU通过一种高效的方式在训练时就考虑到目标的形状从而让模型从一开始就能学习到更高质量的锚点最终实现了既快又准的实时实例分割。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示摘要本文提出了广义掩膜感知交并比GmaIoU作为一种新的度量标准用于在训练实例分割方法时对锚点框进行正负样本分配。与仅考虑锚点框和真实边界框接近程度的传统IoU度量或其变体不同GmaIoU额外考虑了分割掩膜。这使得GmaIoU能够在训练期间提供更精确的监督。我们通过在前沿的SOTA分配器ATSS中将IoU替换为我们的GmaIoU来证明其有效性。然后我们使用基于GmaIoU的ATSS分配器训练实时实例分割方法YOLACT。由此产生的基于GmaIoU分配器的YOLACT在掩膜AP上i比使用IoU的ATSS高出~1.0-1.5ii在不同图像尺寸下比使用固定IoU阈值的分配器的YOLACT高出~1.5-2iii由于使用了更少的锚点推理时间减少了25%。利用这一效率优势我们进一步设计了GmaYOLACT一个比YOLACT更快且掩膜AP高出7个点、更精确的检测器。1. 引言实例分割是一个视觉检测问题其目标是通过使用像素级分割掩膜来定位对象实例从而检测并对它们进行分类。实例分割任务固有地包含了目标检测任务[1, 2, 3, 4]后者通过使用边界框表示来勾勒对象的空间位置从而对图像中的对象进行分类。为了处理出现在不同位置、尺度和数量的对象的多样性实例分割方法[5, 6, 7, 8]通常采用一组密集的对象假设称为锚点以确保对对象的最大覆盖率。锚点通常由不同大小和宽高比的框表示。为了最大化覆盖率需要将大量锚点例如对于尺寸为550×550的图像YOLACT[5]中约有∼20k个分配给真实边界框。被分配给真实边界框的锚点被认为是正样本而未分配给任何真实边界框的锚点被称为负样本。将锚点与真实边界框匹配的过程称为分配问题[9, 10]。尽管IoU很流行但它有一个明显的缺点锚点框和真实边界框之间的IoU仅取决于它们的面积从而忽略了框内对象的形状例如由分割掩膜提供的形状。这可能导致由于反直觉的低或高IoU分数而产生不合需要的分配。例如IoU可能很高意味着是正锚点但锚点框中只包含了对象的一小部分或者IoU可能很低意味着是负锚点但锚点框中包含了对象的大部分。图1展示了此类示例这些示例是由于对象具有非传统姿态、遮挡以及具有 articulated 或细长部分的对象而产生的。正如我们将在分析中展示的第3.1节图3这样的例子往往会产生相对较大的损失值并对训练产生不利影响。在本文中我们引入了广义掩膜感知IoUGmaIoU作为一种用于实例分割锚点分配的新颖度量。GmaIoU基于利用对象的真实掩膜这些掩膜通常仅用于通过损失计算进行监督。具体来说与传统的IoU仅比较锚点框与真实边界框不同GmaIoU将锚点框与真实边界框和掩膜对进行比较。在IoU中框内的所有像素具有同等重要性而在GmaIoU中真实掩膜像素被提升。因此GmaIoU产生一个与对象形状更一致的分配/接近度分数图1。由于考虑到大量的锚点朴素计算GmaIoU因密集的像素级比较而不切实际我们提出了一种高效算法其训练时间与使用基于IoU的传统分配方法相似。使用基于GmaIoU的ATSS分配器的YOLACT一种流行的实例分割方法持续地改进了基于IoU的基线ATSS分配器约∼1∼1个掩膜AP以及标准YOLACT即固定IoU阈值约∼2∼2个掩膜AP同时推理时间与YOLACT相当。本文在三个关键方面扩展了我们之前的工作[14]。首先我们重新阐述了我们的新颖掩膜感知IoU定义以适用于更一般的情况在任意多边形即真实掩膜和一个框之间。由此我们获得了GmaIoU它允许在使用额外的框信息(PB)或仅使用掩膜信息(PM)之间切换。我们证明了在掩膜AP方面PM的情况比最初提出的maIoU [14]提供了持续的增益后者在当前广义公式中对应于PB的特殊情况。其次我们推广了在训练期间高效考虑真实掩膜的算法使得GmaIoU可以在其两种特殊情况(PB或PM下在训练期间被有效地纳入分配方法。我们注意到我们的算法对于在这两种情况下利用真实掩膜至关重要因为由于运行时间爆炸暴力计算实际上无法采用。最后我们改进了之前的maYOLACT检测器并通过整合最近提出的改进策略开发了GmaYOLACT。由此产生的GmaYOLACT检测器以与基线YOLACT相似的效率实时执行实例分割但在分割和检测性能方面分别带来了显著的∼7个掩膜AP和∼10个边界框AP的提升。我们还注意到GmaYOLACT检测器在我们之前的工作中比maYOLACT检测器在掩膜AP上高出∼1在边界框AP上高出∼2.5这证明了我们在本文修订版中设计的有效性。图1说明广义掩膜感知IoUGmaIoU必要性的示例。绿色框表示真实边界框红色框是训练期间产生的实际锚点。左侧面板展示了锚点覆盖了对象像素的显著部分但IoU较低即低于YOLACT的正阈值0.50的情况。对于这些情况GmaIoU高于IoU可能纠正分配。右侧面板展示了锚点仅覆盖对象像素的一小部分但IoU较高因此锚点被视为正样本的情况。maIoU低于IoU可能纠正分配。图像来自COCO [11]GmaIoU按第3节所述使用PM计算。表1IoU变体、它们的输入和主要用途。IoU变体基于两个输入输入1和输入2的属性prop.分配一个接近度度量。在实践中现有的变体根据相同的属性即框或掩膜比较输入。我们的广义掩膜感知IoUGmaIoU可以独特地将一个框与一个框加一个掩膜进行比较。通过这种方式GmaIoU将锚点即只有框与真实数据框和掩膜进行比较以提供更好的锚点分配。*GIoU也被用作性能度量。IoU变体输入1属性输入2属性主要用途按论文提出时框掩膜框掩膜掩膜IoU [11, 15]-✓-✓性能度量边界IoU [16]-✓-✓性能度量广义IoU [17]✓-✓-损失函数*距离IoU [18]✓-✓-损失函数完全IoU [19]✓-✓-损失函数广义掩膜感知IoU (本文)✓✓✓-分配器2. 相关工作2.1. 深度实例分割基于深度学习的实例分割研究通常采用检测然后分割的方法其灵感来源于并增强了深度目标检测方法。例如著名的实例分割模型Mask R-CNN [6]及其变体[7, 20]通过添加用于掩膜预测的新分支扩展了Faster R-CNN [21]一种著名的两阶段目标检测器。掩膜预测分支与分类和定位分支同时训练。多年来在单阶段目标检测器上也引入了类似的扩展以获得单阶段实例分割网络。例子包括YOLACT [5]和YOLACT [8]它们基于类似YOLO的架构PolarMask [22]和PolarMask [23]它们扩展了FCOS [24]用于实例分割。另一种方法是将实例分割直接表述为一个实例分类问题如SOLO变体[25, 26]所提出的那样。在这种方法中网格中的每个单元并行地生成一个实例掩膜并预测一个对象类别。另一种方法是依赖transformer并预测一组稀疏的实例分割掩膜而无需使用NMS [27, 28, 29]。我们注意到在这项工作中我们专注于基于锚点的实例分割方法因此这些替代方法不在我们的范围内。2.2. 实例分割中的锚点分配2.3. 目标检测中的自适应锚点分配方法近期的研究表明基于锚点分布来确定锚点的正负标签比使用固定的IoU阈值效果更好。一项突出的研究是ATSS [9]其中使用具有最高IoU值的top-k锚点为每个真实边界框确定IoU阈值更多关于ATSS的细节见第3.4节。另一个例子是PAA [10]其中将高斯混合模型拟合到广义IoU值上以获得每个真实边界框的正负样本分布。Fu等人提出了一种动态锚点分配策略[31]该策略使用基于高斯概率分布的模糊相似度度量GPM和自适应动态锚点挖掘策略ADAS来改进小目标检测。GPM更准确地度量小边界框与预定义锚点之间的相似性而ADAS动态调整标签分配以更好地匹配图像中的对象分布。Li等人[13]采用了类似的方法根据锚点的清洁度动态标记锚点Ke等人[32]则将锚点选择公式化为多实例学习问题。2.4. 其他IoU变体IoU是量化形状之间重叠的有用几何度量多年来IoU及其变体在文献中被广泛用于不同目的——参见表1的比较总结。该表显示IoU不仅可以应用于框还可以应用于边界和掩膜作为重叠度量。此外我们看到IoU或其具有不同归一化形式的变体如广义IoU [17]、距离IoU [18]、完全IoU [19]可以用作训练目标检测器定位分支的损失函数。与我们贡献最相关的IoU变体即掩膜感知IoU是掩膜IoU [11, 15]它也依赖于并使用掩膜。与掩膜感知IoU相反掩膜IoU旨在性能评估期间度量两个掩膜即预测掩膜和真实掩膜之间的相似性。边界IoU [16]类似因为它考虑对象边界周围的薄掩膜来计算两个形状之间的边界级相似性。尽管这些度量在各自的任务中取得了有希望的增益但掩膜感知IoU具有独特的差异首先掩膜IoU和边界IoU仅度量两个掩膜之间的相似性因此它们无法将边界框与该框内的另一个框和掩膜进行比较。其次其他IoU度量旨在仅量化框之间的相似性因此它们不考虑形状级别的重叠。此外它们主要被用作损失函数而不是锚点分配标准。2.5. 比较总结我们上述对相关工作的覆盖指出了基于锚点的实例分割方法中的两个主要空白i它们使用IoU作为标记锚点的主要标准ii它们依赖固定的IoU阈值。为了解决第一个限制我们引入了GmaIoU这是第一个在评估锚点框与真实边界框的重叠时考虑真实掩膜的IoU度量——参见表1与现有度量的比较。至于第二个限制我们将我们的GmaIoU整合到ATSS [9]的动态分配策略中该策略已在深度目标检测中提供了显著的增益。3. 方法论现有的锚点分配机制严重依赖于锚点与真实边界框之间的传统IoU从而有效地忽略了对象的形状。在此在第3.1节中我们首先证明在具有相似框级IoU的锚点中锚点内对象的形状对学习有影响而现有的基于IoU的锚点分配机制完全忽略了这一点。为了解决这一差距我们在第3.2节中设计了广义掩膜感知交并比GmaIoU作为一种考虑真实掩膜的IoU变体这些掩膜已经可用于监督实例分割方法并使用GmaIoU将锚点分配给真实边界框。朴素地计算GmaIoU需要在每次训练迭代中处理大量掩膜这在处理时间上是低效的。为了克服这一点我们在第3.3节中提出了一种算法以显著减少GmaIoU对训练时间的影响。因此得到的GmaIoU可以被现有的锚点分配方法高效使用我们在第3.4节中将其作为前沿的锚点分配策略整合到ATSS [9]中。3.1. 掩膜框比及其观察在本节中我们证明锚点内对象的形状通常被传统IoU忽略对分割模型预测该锚点的好坏程度有影响。这样的分析需要量化锚点在真实掩膜像素方面的密集程度。因此我们首先引入一个简单但直观的度量称为掩膜框比MOB。广义上讲在一个框和一个掩膜之间度量的掩膜框比MOB是落在该框内的掩膜像素的比例。更正式地首先利用我们的MOB比率我们证明落入锚点的对象形状对分割质量有影响。为此我们采用YOLACT一种基于锚点的实时实例分割方法使用ResNet-50特征提取器。具体来说在推理期间对于每个锚点YOLACT预测一个分类分数、一个回归后的框和一个分割掩膜结合这些输出使得模型能够为每个输入锚点提供一个带有分类标签的分割掩膜。在训练期间如果一个锚点与一个对象匹配即它成为一个正锚点则会针对所有三个子任务分类、回归、和分割为该锚点估计损失。如果锚点被视为负样本它仅对分类损失有贡献。考虑到这些任务和锚点的标签我们想了解具有相似IoU的锚点内部的掩膜像素是否对预测质量有影响。因此我们将收敛的YOLACT应用于COCO验证集中的图像并绘制负锚点相对于MOB比率的平均分类损失值IoU在[0.30−0.50]之间在图2(a)中以及正锚点相对于MOB比率的所有任务的平均损失值IoU在[0.50−0.70]之间在图2(b)中这两者使我们能够做出以下关键观察使我们能够做出以下关键观察观察1.对于正锚点和负锚点具有相似IoU的锚点的损失值在所有任务中都受到MOB比率变化的影响。具体来说对于负锚点损失随着MOB的增加而增加图2(a)。然而对于正锚点情况正好相反图2(b)。此外在所有情况下具有较大损失的锚点数量都在数千的量级图2(c)。这些结果表明模型对于某个锚点的误差与该锚点覆盖的掩膜像素比例有关而传统的基于IoU的分配器完全忽略了这一点。接下来我们对真实边界框进行类似的分析图3(a)这引出了我们的第二个观察。观察2.与锚点类似真实边界框的MOB比率也存在显著变化。值得注意的是相当大比例的真实边界框具有较低的MOB比率例如对于30%的真实边界框MOB比率小于0.50。总而言之真实边界框产生的MOB比率变化很大而传统的基于IoU的分配方法无法捕捉到这一点因为它们没有利用掩膜。因此存在一种考虑对象掩膜的替代IoU度量的空间。图2ab对于在COCO minimal上训练的YOLACT具有相似IoU负样本IoU在[0.30−0.50]之间正样本IoU在[0.50−0.70]之间的负锚点a和正锚点b在不同MOB比率下的损失值均值和标准差。红线表示标准差。注意当MOB比率增加时负样本的损失值增加然而对于正样本所有三个子任务Cls.分类Segm.分割Reg.回归的损失值趋于减少。c每个MOB比率的锚点数量数量级为数千。3.2. 广义掩膜感知交并比直觉.广义掩膜感知IoUGmaIoU背后的主要直觉是在计算锚点与真实对象之间的重叠时考虑真实掩膜。随后这种接近度被用于将锚点分配给真实对象这对应于将它们标记为正样本或负样本。特别是如果锚点框包含更多的掩膜上像素那么由我们的GmaIoU度量的分配分数将更高。在这个度量的初始版本中称为掩膜感知IoUmaIoU[14]我们通过定义真实边界框的能量为其边界框的面积即∣B∣并将框BB中掩膜外像素的贡献均匀地分布在掩膜上像素上来实现这一点。在这里为了推广我们改为假设每个对象的某个多边形PP包含其能量即∣P∣。正如我们将讨论的这个视角不仅使我们能够公式化maIoU还能够公式化一个框和一个掩膜之间的IoU从而增加了我们方法的泛化能力。这两种度量之间比较的直观解释如推论1中形式化证明的如图4(c)所示我们可以看到GmaIoU的两种不同设置对应于两种不同的接近度度量。GmaIoU的这种灵活性使我们能够研究如何考虑真实掩膜以将锚点分配给真实边界框。3.3. 利用掩膜进行分配的挑战及GmaIoU的高效计算算法3.4. 将GmaIoU整合到ATSS分配器中自适应训练样本选择ATSS[9]是目标检测器中常用的一种前沿锚点分配程序。与使用固定IoU分配器相比其优点包括iATSS在目标检测器中产生更好的性能ii广义上讲由于在图像上的每个位置仅使用一个锚点而不是固定IoU阈值分配器所需的每个位置多达九个锚点[34]它简化了锚点设计。基本上ATSS分配器包含三个步骤i考虑锚点与真实边界框中心之间的距离选择top-k个锚点作为正分配的候选者通常k9ii基于这些候选者的统计信息计算自适应IoU阈值并将IoU低于该自适应阈值的锚点从候选集中移除最后iii过滤掉中心不在真实边界框内的候选锚点。完成这三个步骤后候选集中剩余的锚点即为正样本即与对象匹配所有其他锚点即为需要被预测为背景的负样本。将我们的GmaIoU整合到ATSS中很简单在步骤ii中我们只需将基于IoU的自适应阈值替换为基于我们的GmaIoU的自适应阈值。4. 实验在本节中我们通过将GmaIoU整合到YOLACT [5]中评估其有效性。YOLACT是一种基于锚点的前沿SOTA实时实例分割方法在效率和性能之间取得了良好的平衡。具体来说第4.2节展示了比较GmaIoU不同配置与IoU变体的消融实验。第4.3节通过采用几种保持方法实时性的改进策略构建了GmaYOLACT检测器。最后第4.4节将我们的方法与前沿实例分割方法进行了比较。4.1. 实验与实现细节数据集。我们采用常用的COCO trainval集[11]115K张图像进行训练除非另有说明否则使用COCO minival集5K张图像进行验证。表2不同分配器和IoU变体在YOLACT上的比较。考虑到对象的形状我们采用maIoU的ATSS始终优于其对应方法。4.2. 消融实验在本节中我们证明GmaIoU始终优于使用忽略对象形状的不同IoU变体的分配器。此外我们展示了我们的算法1能够高效计算GmaIoU使其在训练期间使用成为可能。使用带有IoU变体的ATSS。我们首先建立一个更强的基线将YOLACT中的固定IoU阈值分配器替换为带有IoU及其不同变体包括DIoU [18]和GIoU [17]的ATSS。我们在表2中观察到在不同尺度上使用ATSS比传统的固定IoU分配器高出0.6−1.2个掩膜AP。使用带有我们GmaIoU的ATSS。现在我们使用带有ATSS的GmaIoU使分配方法能够考虑对象的形状这与现有的锚点分配方法不同。我们测试了第3节中介绍的GmaIoU的两种配置PB和PM同时将maIoU扩展到GmaIoU。我们注意到PM的情况是归功于我们的泛化和高效算法分别推导和计算的而PB的情况就是maIoU [14]。表2表明观察到在所有尺度上PM优于PB我们的泛化实际上比依赖标准maIoUPB更有用。表3不同分配器的平均迭代时间t。虽然暴力计算maIoU效率低下算法1为-我们的算法1显著减少了计算时间使其与标准分配器相当。方法平均迭代时间秒加速比暴力计算maIoU41.891x (基线)标准ATSS (w. IoU)0.60~70xATSS w. GmaIoU (算法1)0.59~71x表4GmaYOLACT的构建块。我们的带有GmaIoU的ATSS使YOLACT更准确且速度提高约25%主要归功于使用更少的锚点。凭借这种效率我们构建了具有34.8 AP且帧率仍高于YOLACT的maYOLACT-550。方法APAP_boxfps锚点数量YOLACT-55028.530.728~ 19.2K ATSS w. GmaIoU, P M30.732.832~ 6.4K Carafe FPN [39]31.433.431~ 6.4K DCNv2 [40]33.736.428~ 6.4K 余弦退火 [41]34.737.528~ 6.4K 更多锚点34.737.927~ 12.8K 单GPU训练35.538.727~ 12.8K RS-Loss [20]35.640.328~ 12.8K外我们的PM情况下的GmaIoUi在400、500和700尺度上分别比固定IoU分配器高出1.4、2.2和2.5个掩膜APii在所有尺度上比使用IoU变体的ATSS提高了约∼1.0个掩膜AP。GmaIoU的主要改进尤其体现在1通过较大尺度训练表2中700 vs. 400和2较大对象APL vs. APS上。这些结果与我们GmaIoU的高层思想图1一致因为当对象尺寸增加时其形状比其边界框更重要。高效计算GmaIoU。在训练期间对每个锚点-真实边界框对进行暴力计算GmaIoU是不切实际的因为以41.89秒/迭代的速度训练单个模型大约需要3个月。表3表明我们的高效算法算法1在平均迭代时间上产生了显著的增益约∼70×降至0.59秒/迭代并使分配算法能够考虑对象的形状。通过这一点我们获得的平均迭代时间与其他标准分配器相似表3。我们注意到对于GmaIoUPM情况的计算与PB情况非常相似因此对于PM也得出了相同的结论。4.3. GmaYOLACT检测器更快更强我们的带有GmaIoU分配器的ATSS表4中带下划线使我们能够减少锚点数量∼19.2K vs ∼6.4K并使YOLACT比基线YOLACT28 fps快约∼25%32 fps¹。这虽然YOLACT-550使用ResNet-101作为骨干但我们使用ResNet-50以保持一致性并强调改进。凸显了锚点设计策略对于提高实时实例分割模型效率的重要性。本节的目标是通过整合我们的GmaIoU和最近的进展来改进标准YOLACT目标是使其与最新方法竞争同时保持其实时处理能力²。为了实现这一目标我们通过整合以下改进策略构建了GmaYOLACT检测器在标准FPN [48]中使用Carafe-FPN [39]作为上采样操作在骨干网络中使用可变形卷积[40]余弦退火[49]学习率调度初始学习率为0.008取代了阶梯式学习率衰减每个像素使用两种锚点基础尺度4和8并将标准ATSS使用的锚点数量加倍遵循基线YOLACT [5]的单GPU训练我们发现这与多GPU训练相比非常有用使用Rank Sort (RS) 损失[20]作为训练目标使得模型易于调整并显著提高检测性能。在我们的最终设计中我们将语义分割头的权重设置为0.5并对其他头使用RS Loss的自平衡因此我们不对它们进行调整。我们将学习率设置为0.008并将NMS前的背景移除阈值设置为0.55因为我们观察到RS Loss相比传统的基于分数的损失函数产生了更高的置信度分数。表4显示在不影响推理时间即在单个Nvidia RTX 2080Ti GPU上为28 FPS的情况下我们的GmaYOLACT-550检测器显著改善了基线YOLACT-550掩膜AP提高了7.1边界框AP提高了9.6达到了35.6的掩膜AP和40.4的边界框AP。我们还注意到这些结果也比GmaIoU检测器的早期版本maYOLACT检测器[14]提高了约∼1个掩膜AP和2.5个边界框AP未包含在表4中。4.4. 与前沿方法SOTA的比较我们在表5中将我们的GmaYOLACT与COCO test-dev分割上的前沿方法进行了比较。²我们不使用YOLACT [8]中提出的更快的NMS或更高效的骨干网络因为我们的目标是展示GmaIoU分配器的优势。使用这些技术可能进一步提升性能。表5在COCO test-dev上与SOTA方法的比较。我们的maYOLACT-700为实时实例分割树立了新的SOTA水平。\* 表示我们实现的带有ATSS w.IoU的YOLACT。当论文未报告某项性能指标时标注为N/A并且我们为了完整性使用其代码库复现了性能用† 表示。与YOLACT变体的比较。我们的GmaYOLACT-550达到了35.9的掩膜AP超越了所有YOLACT变体包括那些具有更大骨干网络例如带有ResNet-101的YOLACT-550更大尺度的例如YOLACT-700以及本工作初始版本[14]中提出的maYOLACT-550检测器。与YOLACT [8]其比YOLACT慢约∼25%见Bolya等人[8]的表6不同GmaYOLACT-550具有与YOLACT-550相似的推理时间并且在COCO test-dev上仍然实现了约∼6个掩膜AP的提升达到35.9的掩膜AP。与实时方法的比较。没有像Solov2 [26]那样利用多尺度训练也没有像CenterMask [53]那样使用专门设计的骨干网络我们的GmaYOLACT-700仍然以38.7的掩膜AP和25fps的性能超越了现有的实时对应方法至少高出约∼1个掩膜AP。此外我们的顶级模型在常用的AP50指标上达到了61.0并且与其最接近的实时对应方法SparseInst相比在掩膜AP50上存在约∼2个点的差距。与其他方法的比较。如表5所示我们的GmaYOLACT在与相对较慢的方法竞争中也表现强劲。它超越了PolarMask [23]、RetinaMask [12]、Mask R-CNN [6]和TensorMask [50]同时速度更快。例如在RTX 2080Ti GPU上我们的GmaYOLACT-700以25fps的帧率提供了约2倍的吞吐量并且与测试时间为14 fps的基于ResNet-101的PolarMask相比掩膜AP提升了近4个点37.7 AP - 表5。它也比使用ResNet-101的TensorMask即约∼3 fps快约8倍同时保持了相似的性能。5. 结论我们提出了GmaIoU这是我们之前maIoU的广义版本它提供了使用真实掩膜及其边界框或仅使用掩膜的灵活性。为了训练实例分割方法我们使用GmaIoU将锚点指定为正样本或负样本利用仅由真实分割掩膜指示的对象形状。我们展示了将我们的GmaIoU与ATSS整合可以提升模型的运行时性能。凭借这种提高的效率我们能够在实时应用中达到SOTA结果。

相关文章：

Generalized Mask-aware IoU for Anchor Assignment for Real-time Instance Segmentation—面向实时实例分割的锚点分配方法

《广义掩膜感知IoU：面向实时实例分割的锚点分配方法》主要研究并解决实时实例分割任务中锚点分配不准确的问题。其核心创新在于提出了一种新的度量标准——广义掩膜感知交并比，并将其应用于锚点的正负样本分配，从而显著提升了模型的性能与效率…...

编程日记 2026/3/31 17:35:10

Docker Desktop部署Weaviate向量数据库：从配置到生产环境全流程

在Docker Desktop上部署Weaviate向量数据库的全流程。通过Docker Compose实现容器化，涵盖持久化存储、安全认证配置及text2vec-openai集成。提供Python/Java客户端连接示例，并针对端口冲突、数据持久化等常见问题给出实用解决方案，助力快速搭…...

编程日记 2026/3/31 21:22:52

Blender 3MF插件全攻略：提升3D打印工作流效率的关键技术

Blender 3MF插件全攻略：提升3D打印工作流效率的关键技术【免费下载链接】Blender3mfFormat Blender add-on to import/export 3MF files 项目地址: https://gitcode.com/gh_mirrors/bl/Blender3mfFormat 3MF格式作为3D打印领域的核心交换标准，正…...

编程日记 2026/3/31 23:58:31

LiuJuan Z-Image效果对比展示：BF16 vs FP16在人像细节与稳定性上的差异

1. 1. 1. 1. 1. 1. 1. 1. 1. 概述 1. 1. 1. 概述 1. 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 1. 概述 1. 概述 1. 概述 1. 概述 1. 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1. 概述 1…...

编程日记 2026/3/31 14:43:57

半方差函数四大参数保姆级解读：从块金值到变程的空间自相关分析

半方差函数四大参数保姆级解读：从块金值到变程的空间自相关分析刚接触地理统计时，看到"半方差函数"这个术语总让人望而生畏。但当我第一次用气象站数据绘制出那条神奇的曲线时，突然理解了空间数据背后隐藏的对话——就像侦探通过蛛…...

编程日记 2026/3/30 7:53:08

03-CAPL 常用函数大全

专栏：《CAPL 脚本编写实战指南》第 3 篇作者：一线汽车电子测试工程师适合人群：已掌握 CAPL 基础的测试人员、想系统学习 CAPL 函数的工程师开篇：为什么要学 CAPL 函数？ 这是我刚学 CAPL 时的真实经历。当时的情况&a…...

编程日记 2026/3/30 7:53:08

Python3.8环境配置全攻略：从零开始搭建你的第一个项目

Python3.8环境配置全攻略：从零开始搭建你的第一个项目 1. 为什么选择Python3.8环境 Python3.8作为Python3系列的一个重要版本，引入了多项新特性，包括海象运算符(:)、位置参数限定符(/)等语法改进，同时在性能上也有显著提升。对于…...

编程日记 2026/3/31 21:42:29

别再死记硬背了！用LangChain的Tool装饰器，5分钟给你的LLM装上‘天气查询’和‘冷知识’插件

5分钟玩转LangChain工具装饰器：零基础打造智能天气与冷知识问答机器人在AI应用开发领域，让大语言模型（LLM）具备实时获取外部信息的能力一直是开发者关注的焦点。传统方法往往需要复杂的API对接和冗长的代码编写，而Lan…...

编程日记 2026/4/1 3:20:44

终极指南：5分钟上手BepInEx，打造你的Unity游戏插件帝国 [特殊字符]

终极指南：5分钟上手BepInEx，打造你的Unity游戏插件帝国 🚀 【免费下载链接】BepInEx Unity / XNA game patcher and plugin framework 项目地址: https://gitcode.com/GitHub_Trending/be/BepInEx BepInEx是一款专为Unity游戏设计的强…...

编程日记 2026/3/31 20:20:30

如何高效配置Unity插件框架：终极解决方案指南

如何高效配置Unity插件框架：终极解决方案指南【免费下载链接】BepInEx Unity / XNA game patcher and plugin framework 项目地址: https://gitcode.com/GitHub_Trending/be/BepInEx BepInEx是一个功能强大的Unity游戏插件框架和模组开发平台，专…...

编程日记 2026/3/31 16:35:33

OpenClaw我的龙虾怎么识别不了图片

问题现象图片发送给龙虾，要么一直说没收到图片，要么提示不支持，要么提示安装OCR工具，要么就是识别出来的完全牛头不对马嘴。解决方案这里面涉及三个因素： 模型是否支撑图片识别配置中的input是否配置了image聊天渠道…...

编程日记 2026/3/31 16:03:30

告别散斑噪声困扰：用PyTorch手把手实现DenoDet的频域去噪模块（附完整代码）

频域魔法：用PyTorch实现SAR图像去噪的工程实践当你在处理SAR图像时，是否曾被那些恼人的散斑噪声困扰？这些像胡椒粒一样随机分布的噪声点不仅影响视觉效果，更会严重干扰目标检测的准确性。传统方法试图在空间域直接对抗噪声&#…...

编程日记 2026/3/31 16:03:35

OpenClaw 中所有浏览器控制方法总览

OpenClaw 当前支持的浏览器控制方式，本质可以分为 3 种架构路径： Remote CDP（直接协议控制） Managed Browser（托管浏览器） Existing-session via Chrome DevTools MCP（会话接管） …...

编程日记 2026/3/31 16:03:45

5分钟部署清华TurboDiffusion，视频生成加速100倍，小白也能玩转AI视频

5分钟部署清华TurboDiffusion，视频生成加速100倍，小白也能玩转AI视频 1. TurboDiffusion技术背景与核心价值 1.1 技术发展历程 TurboDiffusion是由清华大学等机构联合推出的视频生成加速框架。该框架解决了传统扩散模型在视频生成过程中存在的计算效率…...

编程日记 2026/3/31 15:23:44

Nunchaku FLUX.1-dev多场景实战：游戏原画/产品渲染/艺术创作全覆盖

Nunchaku FLUX.1-dev多场景实战：游戏原画/产品渲染/艺术创作全覆盖你是不是也遇到过这样的烦恼：想画一张游戏角色概念图，但手绘功底不够；想给产品做个渲染图，3D软件又太复杂；脑子里有绝妙的艺术创意&…...

编程日记 2026/3/30 7:49:07

14届蓝桥杯省赛Java A 组Q4~Q5

题目链接： Q4 蓝桥云课：棋盘洛谷：P13879 [蓝桥杯 2023 省 Java A] 棋盘 Q5 蓝桥云课：互质数的个数洛谷：P13880 [蓝桥杯 2023 省 Java A] 互质数的个数算法原理： Q4解法：前缀和差分时间…...

编程日记 2026/3/31 9:11:32

3步颠覆传统下载体验：百度网盘直链解析工具让你告别会员枷锁

3步颠覆传统下载体验：百度网盘直链解析工具让你告别会员枷锁【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 从200KB/s到5MB/s的蜕变你是否也曾遇到这样的困境&a…...

编程日记 2026/3/31 12:45:40

百度网盘直链解析技术全解析：从原理到实践的开源解决方案

百度网盘直链解析技术全解析：从原理到实践的开源解决方案【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 1. 问题本质：云存储限速的技术困局 1.1 限速…...

编程日记 2026/3/30 7:47:07

2000kn四柱式通用液压机设计【说明书 CAD图纸开题报告】

2000kN四柱式通用液压机作为工业领域中重要的压力加工设备，其核心作用在于通过液压系统传递压力，实现对金属或非金属材料的冲压、拉伸、弯曲及成型等工艺。该设备采用四柱式框架结构，通过上下横梁与四根立柱构成刚性闭合框架，确保…...

编程日记 2026/3/30 7:47:07

Dify工作流集成StructBERT：构建自定义文本智能处理应用

Dify工作流集成StructBERT：构建自定义文本智能处理应用最近在做一个智能客服系统的升级项目，客户那边提了个挺实际的需求：每天有大量工单进来，希望系统能先自动判断一下问题类型，比如是“账号问题”、“支付故障”还…...

编程日记 2026/3/31 16:03:51

Z-Image-GGUF在软件测试中的应用：自动化生成测试用例示意图

Z-Image-GGUF在软件测试中的应用：自动化生成测试用例示意图你是不是也遇到过这样的场景？写测试用例文档时，为了描述一个复杂的用户操作流程，绞尽脑汁写了半天文字，结果评审时，开发同事还是没完全看懂&…...

编程日记 2026/3/31 10:54:35

Uncertainty-Aware Pixel-Level Contrastive Learning for Enhanced Semi-Supervised Medical Image Segmen

1. 医学图像分割的挑战与半监督学习机遇医学图像分割一直是计算机视觉领域的重要研究方向，它能够帮助医生快速定位病灶区域，提高诊断效率。但在实际应用中，我们常常面临标注数据稀缺的问题——专业医生标注一张CT或MRI图像可能需要数小时&am…...

编程日记 2026/3/31 12:11:29

LangChain详解：大模型应用开发框架（通俗理解+专业解析+Python实战）

LangChain详解：大模型应用开发框架（通俗理解专业解析Python实战） 摘要：随着大语言模型（LLM）的普及，单纯调用模型API已无法满足复杂业务需求——如何让大模型“记住”对话历史、“调用”外部工具…...

编程日记 2026/3/30 7:45:07

Leaflet坐标系实战：从设置到动态切换的完整指南

1. Leaflet坐标系基础概念解析第一次接触Leaflet坐标系时，我也被各种专业术语搞得晕头转向。简单来说，坐标系就是用来确定地图上每个点位置的规则系统。就像我们在地球上使用经纬度定位一样，数字地图也需要明确的坐标参考。 Leaflet默认支持…...

编程日记 2026/3/30 7:45:07

OpCore-Simplify高效配置实战指南：智能适配黑苹果硬件的开源工具

OpCore-Simplify高效配置实战指南：智能适配黑苹果硬件的开源工具【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 当你面对繁杂的黑苹果EFI…...

编程日记 2026/3/30 7:45:07

基础知识：理解虚拟资产 / 数字商品 / 实用代币 / 稳定币 / 资产支持代币 / 数字收藏品 / 数字证券

比特币等虚拟资产全景与深度解析：超越“数字货币”的多元生态比特币等虚拟资产的世界，远比“一种数字货币”要丰富和复杂得多。理解它的第一步，就是先认识这个大家族里都有哪些成员。为了帮你建立清晰的概念，我们可以把虚拟资产看…...

编程日记 2026/3/30 7:45:07

LeetCode 1089 复写零：用双指针从后往前填，保姆级图解避坑指南

LeetCode 1089 复写零：双指针逆向填充的视觉化拆解与实战避坑当你第一次看到LeetCode 1089题时，可能会觉得"复写零"这个操作听起来简单——不就是遇到0就多写一个吗？但真正动手实现时，很多人会在指针移动、边界处理和数…...

编程日记 2026/3/30 7:45:07

django基于在线音乐分享的社交网站全vue

目录功能模块划分技术架构设计核心功能实现性能优化方案测试策略部署方案项目技术支持源码获取详细视频演示 ：文章底部获取博主联系方式！同行可合作功能模块划分用户模块注册/登录（邮箱/手机号验证）个人资料管理（头像…...

编程日记 2026/3/31 22:19:46

3倍效率提升的B站视频下载工具：DownKyi如何重构资源获取体验

3倍效率提升的B站视频下载工具：DownKyi如何重构资源获取体验【免费下载链接】downkyi 哔哩下载姬downkyi，哔哩哔哩网站视频下载工具，支持批量下载，支持8K、HDR、杜比视界，提供工具箱（音视频提取、去水印等…...

编程日记 2026/3/31 17:38:27

DeEAR镜像免配置实战：无需修改config.py，直接运行app.py启用全部功能模块

DeEAR镜像免配置实战：无需修改config.py，直接运行app.py启用全部功能模块 1. 开篇：语音情感识别的技术革新语音情感识别技术正在改变我们与机器交互的方式。想象一下，你的智能助手不仅能听懂你说什么，还能理解你说话…...

编程日记 2026/4/1 3:30:36