当前位置: 首页 > news >正文

迈向大规模小目标检测:综述与数据集

为了准确检测小目标,领域内现有方法大多基于通用目标检测范式进行针对性改进,根据这些改进所采用关键技术的不同,可以分为六种类别:(1)面向样本的方法;(2)基于尺度感知的方法;(3)注意力启发的方法;(4)基于特征模仿的方法;(5)背景建模的方法;(6)由粗到精的方法。

(1)面向样本的方法

面向样本的方法旨在缓解小目标训练样本稀缺的窘境,主要包含通过数据扩充提升小目标实例个数,以及改进样本分配策略从而为小目标挖掘更加优秀的样本。样本划分是目标检测中至关重要的一步,尤其是对于小目标而言。
基于数据扩充的方法简单有效,但其性能提升依赖于数据集,即针对不同的数据集需要设计不同的增广策略。样本分配阶段往往依赖于目标区域和先验区域的交并比(Intersection-over-Union,IoU)或距离度量,这使得现有的策略倾向于为较大尺寸目标分配更多的训练样本,一定程度上抑制了小尺寸目标的检测性能。

(2)基于尺度感知的方法

图像中的目标往往有大有小,由此带来的尺度问题是目标检测乃至计算机视觉领域的核心问题之一。为了缓解这一问题,研究者们通过设计尺度特定的检测器以及特征融合操作,提升多尺度目标中的小目标检测精度。对于前者,基于不同尺度的目标所依赖的信息不同这一事实,设计了多分支并行的检测器。其中,浅层特征图负责检测小目标,中层和深层特征图则对中大尺寸目标进行检测。此外,还有一些算法改进训练阶段的数据处理策略,即只有当目标的分辨率落入特定尺度时才会被输入检测器进行训练,否则将被忽略掉。基于特征融合的方法利用融合操作,将富含更多细节信息、分辨率较高的浅层特征图与语义信息丰富、分辨率较低的深层特征图进行融合,从而得到兼顾语义信息和细节信息的高分辨率特征图,然后据此进行小目标检测。
总的来说,尺度特定的架构致力于在最合理的尺度上处理小目标,而特征融合的方法旨在弥合低层和高层特征图之间的空间和语义信息差距。然而,前者将不同大小的目标启发式地映射到相应的尺度层级,这可能会导致检测器混淆,因为单一层的信息不足以进行准确的预测。另一方面,在网络内部不同层级间信息的流动并不总是有利于小目标的表示,因而需要谨慎处理这一过程,防止小目标的原始响应被更深层次的信号淹没

(3)注意力启发的方法

注意力机制通过借鉴人类的认知机制,对特征图的不同部分分配不同的权重,以突出图像中的重要区域,同时抑制那些不必要的区域。图像中的小目标易被背景和噪声信息所干扰,很难获得高质量表示。基于注意力机制的方法通过筛选关键部分并抑制噪声区域,能够增强小目标的特征表达。
由于其灵活的结构设计,注意力模块可以嵌入几乎所有的检测架构中。与此同时,不可忽视的是,基于注意力的方法带来的性能提升是以高计算负担为代价的。此外,目前的注意力范式缺乏监督信号,因而只能以隐式进行优化。

(4)基于特征模仿的方法

小目标包含的信息有限,导致模型在分类和回归时能够利用的信息很少;与此同时,大目标往往具有清晰的视觉结构和更好的区分度。因此,一个自然而然的想法是通过模仿较大目标的区域特征来丰富小目标的特征表示。为此,已经提出了一些方案,可分为两类:基于相似性学习的特征模仿和基于超分辨率框架的方法。通过挖掘不同尺度对象之间的内在关系,这些策略在很大程度上改善了信息丢失和特征表示中的噪声问题。前者的核心思想是:在通用检测器上施加额外的相似性约束,从而弥合小目标和大目标之间的表示差异。后一种则主要借助生成式对抗网络(Generative Adversarial Network,GAN)[6]来复原或者提升小目标的区域表示。
通过向现有的检测器添加额外的相似性损失或超分辨率架构,特征模仿方法赋予模型挖掘小尺寸目标与大尺寸目标之间内在相关性的能力,进而增强小目标的语义表示。然而,无论是基于相似性学习还是基于超分辨率的方法,都需要避免特征塌陷问题,保持特征的多样性。此外,基于生成对抗网络的方法往往会产生虚假纹理和伪像,对检测结果产生负面影响。更糟糕的是,超分辨率架构的存在使得端到端优化变得更加复杂。

(5)背景建模的方法

人类能够有效地利用环境与物体之间的关系,或者物体之间的关联,以促进对物体和场景的识别。捕捉语义或空间关联的这种先验知识被称为背景或上下文信息,它传达了超出物体区域的线索。上下文信息在人类的视觉系统中至关重要,并且在物体识别、语义分割、实例分割等场景理解任务中也发挥着关键作用。有趣的是,丰富的上下文信息有时在决策支持方面比物体本身能够提供更多的帮助,特别是在识别视觉质量较差的物体时。为此,一些方法利用背景信息来提升小目标的表达能力,生成更具判别性的特征,最终提升其检测精度。
从信息论的角度来看,考虑的特征类型越多,越有可能获得更高的检测准确率。然而,无论是整体上下文建模还是局部背景信息引导,哪些区域应该被编码为背景区域需要被谨慎对待。换句话说,当前的背景建模机制以启发式和经验方式确定上下文区域,这不能保证所构建的目标表示具有足够的解释性和鲁棒性。

(6)由粗到精的方法

高分辨率图像中的小目标往往是非均匀分布的,而通用的分割与检测方案会在那些空白区域上消耗大量计算资源,导致推理过程十分低效。我们是否可以通过过滤掉那些没有目标的区域,从而减少无用的操作来提升检测效率呢?答案是肯定的!遵循该范式的方法跳出了处理高分辨率图像的通用流程。它们首先提取包含目标的区域,然后在这些区域上进行检测。这种处理方式确保了小目标能够以更高的分辨率进行处理,从而减轻了信息损失并提高了表示质量。
相较于通用的滑动窗口机制,由粗到精的方法赋予了模型自适应裁剪和灵活缩放操作的能力,即较小的目标可以在较高的分辨率下处理,而较大的目标可以在相对较低的分辨率下检测。在提升精度的同时,显著节省了推理时的内存占用,并减少了背景干扰。但是,这些方法必须解决一个关键问题:如何提取到包含目标的粗略区域?目前的方法要么依赖于手动添加额外的注释,要么依赖如分割网络或高斯混合模型等辅助架构,然而前者需要费力的标注,后者则会使得端到端优化变得复杂

总结与展望

本文对小目标检测进行了全面回顾,首先对基于深度学习的小目标检测算法进行了系统性的综述,同时总结和回顾了常用的一些数据集。为了推动该领域的进一步发展,我们构建了第一个专为小目标检测定制的大规模数据集SODA,包含SODA-D和SODA-A。基于这两个数据集,我们对数个代表性算法进行了性能评估和对比。最后我们对小目标检测的预期发展进行展望:
高效特征提取网络:如前所述,现有的骨干网络可能不利于提取小目标的高质量特征表示。因而设计一个针对小目标的的高效骨干网络——既具有强大的特征提取能力,又能避免高计算成本和信息损失——是一个需要深入研究的关键问题。
高质量的层级化特征表示:特征金字塔(Feature Pyramid Network,FPN)[13]是小目标检测模型中不可或缺的一部分。然而,当前的特征金字塔架构对于小目标检测而言并不是最优的,这是因为在启发式的金字塔层级分配策略下,只有极少的样本被分配到更高的层级(实际上,在我们的基准实验中只有P2层级的特征负责检测)。因此,高层级的特征图只能在隐式和间接的方式下进行优化,这会对最终特征融合的质量造成影响。此外,在高分辨率的低层级特征图上进行检测会带来较重的计算负担。因此,需要设计一个专为小目标检测任务量身定制的高效分层特征架构。
优化的样本分配策略:尽管当前的标签分配方案在通用目标检测和大目标上表现良好,但它们在处理极小目标时仍然面临巨大挑战,无论是基于重叠的策略还是基于分布的策略都是如此。因此,设计一个优化的策略来为尺寸有限的目标分配足够的正样本,可以显著稳定训练过程并进一步提升性能。
适用于小目标检测的评估指标:在某些特定场景下,小目标检测的首要任务是识别目标并获取其大致位置,而不是过度追求定位精度。因此,借鉴其他领域(如人群计数)的经验,设计一个适当的指标指导小目标检测架构在某些特定场景下的训练和推理,对领域未来的进一步发展至关重要。

相关文章:

迈向大规模小目标检测:综述与数据集

为了准确检测小目标,领域内现有方法大多基于通用目标检测范式进行针对性改进,根据这些改进所采用关键技术的不同,可以分为六种类别:(1)面向样本的方法;(2)基于尺度感知的…...

69、zabbix自动、代理、snmp监控

一、zabbix 1.1、自动发现 [roottest1 ~]# systemctl stop firewalld [roottest1 ~]# setenforce 0 [roottest3 ~]# vim /etc/hosts 192.168.168.21 test1 192.168.168.23 test3 [roottest1 ~]# vim /etc/hosts 192.168.168.21 test1 192.168.168.23 test3 ------------…...

搜索引擎设计:如何避免大海捞针般的信息搜索

搜索引擎设计:如何避免大海捞针般的信息搜索 随着互联网的发展,信息的数量呈爆炸式增长。如何在海量信息中快速、准确地找到所需信息,成为了搜索引擎设计中的核心问题。本文将详细探讨搜索引擎的设计原理和技术,从信息获取、索引…...

设计模式- 数据源架构模式

表数据入口(Table Data Gateway) 充当数据库表访问入口的对象。一个实例处理表中所有的行。 表数据入口包含了用于访问单个表或者视图的所有SQL,如选择、插入、更新、删除等。其他代码调用它的方法来实现所有与数据库的交互。 运行机制 表数据入口包括的每个方法…...

Unity 使用字符串更改Text指定文字颜色、大小、换行、透明

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、使用字符串改变文字属性的方法(一)修改颜色(二)修改大小(三)换行(四&…...

数字信号处理2: 离散信号与系统的频谱分析

文章目录 前言一、实验目的二、实验设备三、实验内容四、实验原理五、实验步骤1.序列的离散傅里叶变换及分析2.利用共轭对称性,设计高效算法计算2个N点实序列的DFT。3.线性卷积及循环卷积的实现及二者关系分析4.比较DFT和FFT的运算时间5.利用FFT求信号频谱及分析采样…...

20240805软考架构--------每日打卡题21-25

每日打卡题21-25答案 21、【2014年真题】 难度:一般 在UML提供的系统视图中, (1) 是逻辑视图的一次执行实例,描述了并发与同步结构; (2) 是最基本的需求分析模型。 (1&a…...

GPT-5:未来已来,你准备好了吗?

GPT-5 一年半后发布?对此你有何期待? IT之家6月22日消息,在美国达特茅斯工程学院周四公布的采访中,OpenAI首席技术官米拉穆拉蒂被问及GPT-5是否会在明年发布,给出了肯定答案并表示将在一年半后发布。此外,穆…...

解决C#对Firebase数据序列化失败的难题

背景介绍 在当今的游戏开发领域,Unity与Firebase的结合日益普及。Firebase实时数据库提供了强大的数据存储和同步功能,使开发者能够轻松管理和使用数据。然而,在使用C#进行Firebase数据序列化和反序列化时,常常会遇到一些棘手的问…...

设计模式中的类关系

1. 依赖(Dependency) 定义:一个类使用到另一个类的实例,通常是通过方法参数、局部变量等。依赖关系是最弱的关系,因为它仅仅表示类之间的临时关联。 特征:在 UML 图中,依赖关系用带箭头的虚线…...

glibc的安装及MySQL的安全用户角色权限(twenty-one day)

一、glibc安装 mysql 清空/etc/目录下的my.cnf ls -l /etc/my.cnf rm -rf /etc/my.cnf yum -y remove mariadb find / -name "*mysql*" -exec rm -rf {} \; 安装mysql软件包 wget https://downloads.mysql.com/archives/get/p/23/file/mysql-8.0.33-li nux-glibc2.1…...

AttributeError: ‘ChatGLMTokenizer‘ object has no attribute ‘sp_tokenizer‘. 已解决

📑打牌 : da pai ge的个人主页 🌤️个人专栏 : da pai ge的博客专栏 ☁️宝剑锋从磨砺出,梅花香自苦寒来 ☁️运维工程师的职责:监…...

徐州BGP机房与普通机房的区别有哪些?

BGP也被称为是边界网关协议,是运行在TCP上的一种自治系统的路由协议,能够用来处理因特网大小的网络协议,同时也是能够处理好不相关路由域之间的多路连接的协议,今天小编主要来聊一聊徐州BGP机房与普通机房之间的区别有哪些&#x…...

VBA 程序运行中禁用鼠标键盘

1. Application.Interactive False:Excel 将阻止键盘和鼠标的所有输入,但代码显示的对话框的输入不受影响。 True:打开交互模式。 下面的代码程序一旦运行就会限定在Excel的事先选定的单元格输出。 如果注释掉Application.Interactive F…...

CUDA编程从零到壹

如今,当我们谈论深度学习时,为了提高性能,我们通常会将其实现与使用 GPU 联系起来。 GPU(图形处理单元)最初设计用于加速图像、2D 和 3D 图形的渲染。然而,由于它们能够执行许多并行操作,它们的…...

【国产开源可视化引擎】Meta2d.js API-Utils

Utils 常用功能函数 函数 formatPadding 将 padding 转换成数组格式 [top, right, bottom, left] padding 规则与 css padding 相同 参数: padding: Padding type Padding number | string | number[]; 返回: number[] 示例: formatP…...

大模型与数据分析的融合:创新与发展的新机遇

大模型与数据分析的融合:创新与发展的新机遇 前言大模型与数据分析的融合 前言 大模型与数据分析的融合正成为推动企业发展的关键力量。大模型在数据分析领域展现出了强大的能力。它能够以接近人类的水平理解和处理自然语言,快速、准确地解析大量非结构…...

基于融合正余弦和柯西变异的麻雀搜索算法SCSSA优化CNN-BiLSTM的多变量时间序列预测

matlab R2024a以上 一、数据集 二、融合正余弦和柯西变异的麻雀搜索算法 麻雀搜索算法(Sparrow Search Algorithm, SSA)是一种新型的群体智能优化算法,其灵感来源于麻雀觅食行为。为了提高算法的性能,可以融合正余弦函数和柯西变…...

c++基本数据类型变量的最大值,最小值和内存空间

基本数据类型有哪些? 在C中,基本数据类型主要包括以下几种: 整型 (Integral Types): int:通常为32位,有 signed 和 unsigned 两种版本,如 int, unsigned int.short 或 signed short / unsigned …...

005集——运算符和循环——C#学习笔记

C# 提供了许多运算符。 其中许多都受到内置类型的支持,可用于对这些类型的值执行基本操作。 这些运算符包括以下组: 算术运算符,将对数值操作数执行算术运算比较运算符,将比较数值操作数布尔逻辑运算符,将对 bool 操作…...

线程同步:确保多线程程序的安全与高效!

全文目录: 开篇语前序前言第一部分:线程同步的概念与问题1.1 线程同步的概念1.2 线程同步的问题1.3 线程同步的解决方案 第二部分:synchronized关键字的使用2.1 使用 synchronized修饰方法2.2 使用 synchronized修饰代码块 第三部分&#xff…...

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院挂号小程序

一、开发准备 ​​环境搭建​​: 安装DevEco Studio 3.0或更高版本配置HarmonyOS SDK申请开发者账号 ​​项目创建​​: File > New > Create Project > Application (选择"Empty Ability") 二、核心功能实现 1. 医院科室展示 /…...

如何将联系人从 iPhone 转移到 Android

从 iPhone 换到 Android 手机时,你可能需要保留重要的数据,例如通讯录。好在,将通讯录从 iPhone 转移到 Android 手机非常简单,你可以从本文中学习 6 种可靠的方法,确保随时保持连接,不错过任何信息。 第 1…...

CocosCreator 之 JavaScript/TypeScript和Java的相互交互

引擎版本: 3.8.1 语言: JavaScript/TypeScript、C、Java 环境:Window 参考:Java原生反射机制 您好,我是鹤九日! 回顾 在上篇文章中:CocosCreator Android项目接入UnityAds 广告SDK。 我们简单讲…...

【git】把本地更改提交远程新分支feature_g

创建并切换新分支 git checkout -b feature_g 添加并提交更改 git add . git commit -m “实现图片上传功能” 推送到远程 git push -u origin feature_g...

Reasoning over Uncertain Text by Generative Large Language Models

https://ojs.aaai.org/index.php/AAAI/article/view/34674/36829https://ojs.aaai.org/index.php/AAAI/article/view/34674/36829 1. 概述 文本中的不确定性在许多语境中传达,从日常对话到特定领域的文档(例如医学文档)(Heritage 2013;Landmark、Gulbrandsen 和 Svenevei…...

VM虚拟机网络配置(ubuntu24桥接模式):配置静态IP

编辑-虚拟网络编辑器-更改设置 选择桥接模式,然后找到相应的网卡(可以查看自己本机的网络连接) windows连接的网络点击查看属性 编辑虚拟机设置更改网络配置,选择刚才配置的桥接模式 静态ip设置: 我用的ubuntu24桌…...

Go 语言并发编程基础:无缓冲与有缓冲通道

在上一章节中,我们了解了 Channel 的基本用法。本章将重点分析 Go 中通道的两种类型 —— 无缓冲通道与有缓冲通道,它们在并发编程中各具特点和应用场景。 一、通道的基本分类 类型定义形式特点无缓冲通道make(chan T)发送和接收都必须准备好&#xff0…...

七、数据库的完整性

七、数据库的完整性 主要内容 7.1 数据库的完整性概述 7.2 实体完整性 7.3 参照完整性 7.4 用户定义的完整性 7.5 触发器 7.6 SQL Server中数据库完整性的实现 7.7 小结 7.1 数据库的完整性概述 数据库完整性的含义 正确性 指数据的合法性 有效性 指数据是否属于所定…...

20个超级好用的 CSS 动画库

分享 20 个最佳 CSS 动画库。 它们中的大多数将生成纯 CSS 代码,而不需要任何外部库。 1.Animate.css 一个开箱即用型的跨浏览器动画库,可供你在项目中使用。 2.Magic Animations CSS3 一组简单的动画,可以包含在你的网页或应用项目中。 3.An…...