强!小目标检测全新突破!检测速度快10倍,GPU使用减少73.4%
强!小目标检测全新突破,提出Mamba-in-Mamba结构,通过内外两层Mamba模块,同时提取全局和局部特征,实现了检测速度快10倍,GPU使用减少73.4%的显著效果!
【小目标检测】是近年来在深度学习领域中备受关注的一项技术,它通过提高模型在检测图像或视频中小尺寸目标的能力,显著提升了检测精度和鲁棒性。小目标检测技术已经在遥感图像分析、视频监控和自动驾驶等多个领域取得了显著成果,其独特的方法和有效的表现使其成为研究热点之一。
为了帮助大家全面掌握小目标检测的方法并寻找创新点,本文总结了最近两年【小目标检测】相关的13篇顶会顶刊的研究成果,这些论文的文章、来源以及论文的代码都整理好了,希望能为各位的研究工作提供有价值的参考。

三篇论文详述
1、Towards Automatic Power Battery Detection: NewChallenge, Benchmark Dataset and Baseline

IMG_256
-这篇文章提出了一个新的挑战性任务——动力电池检测(Power Battery Detection, PBD),旨在通过X射线图像检测动力电池内部密集的正负极板端点,以评估电池的质量。目前,制造商通常依赖人工观察来完成PBD,这不仅效率低下,而且难以保证检测的准确性。为了解决这一问题,文章首先精心收集了一个名为X-ray PBD的数据集,包含来自5家制造商的1500张多样化X射线图像,这些图像具有7种不同的视觉干扰。
-接着,文章提出了一种新颖的基于分割的解决方案——多维协同网络(Multi-Dimensional Collaborative Network, MDCNet)。MDCNet利用线和计数预测器辅助点分割分支,在语义和细节层面上改进表示。此外,作者设计了一种有效的距离自适应掩模生成策略,以减轻由于板分布密度不一致造成的视觉挑战,为MDCNet提供稳定的监督信号。
-文章通过广泛的实验比较了MDCNet与其他基于角点检测、人群计数和通用/微小目标检测的解决方案,证明了MDCNet在八个评估指标下均优于现有方法,确立了其作为PBD领域强基准的地位。最后,文章分享了未来研究可能遇到的困难和工作方向,并承诺将源代码和数据集公开,以促进PBD研究的进一步发展。
-文章的主要贡献包括:提出了PBD这一新挑战任务,构建了一个复杂的PBD数据集,设计了一个有效的基线模型,制定了全面的评价指标,并探索了标签生成策略。MDCNet通过多尺度特征融合和提示滤波技术,利用点、线和数量线索,在复杂多样的背景干扰下实现了准确的PBD。此外,文章还进行了消融研究,分析了MDCNet中每个组件的贡献,并探讨了不同的标签生成策略。
-尽管MDCNet在常规样本上取得了超过95%的检测准确率,但在处理困难和棘手样本上的性能还有待提高。文章指出,未来的工作将更多地致力于处理这些困难样本,并计划利用CT设备扩展PBD数据集到3D形式,以提供更丰富的内部切片信息。
2、Dynamic Coarse-to-Fine Learning for Oriented Tiny Object Detection

IMG_257
-这篇文章介绍了一种面向微小目标检测的动态粗到细学习框架(Dynamic Coarse-to-Fine Learning, 简称DCFL)。文章首先指出,在航空图像中检测任意方向的微小物体对于现有检测器来说是一个巨大的挑战,尤其是标签分配问题。传统的目标检测方法依赖于静态规则来分配标签,但这种方法不能适应目标形状的变化,导致正负样本的不均衡分配,从而影响检测性能。
-为了解决这些问题,文章提出了一种动态先验和粗到细的分配器,即DCFL。DCFL通过动态建模先验、标签分配和目标表示来缓解不匹配问题。具体来说,文章设计了一个动态先验捕获块(Prior Capturing Block, PCB),它可以自适应地调整先验位置,同时保留了先验的物理意义。基于动态先验,文章进一步选择跨FPN层的粗正样本(Coarse Positive Sample, CPS)候选,并通过广义Jensen-Shannon散度(Generalized Jensen-Shannon Divergence, GJSD)来实现CPS,这可以扩大CPS到目标附近的空间位置和相邻的FPN层,确保为极端形状的物体提供更多的候选样本。
-在获得CPS之后,文章提出了一种基于预测的重排策略和动态高斯混合模型(Dynamic Gaussian Mixture Model, DGMM)来过滤低质量样本。DGMM由两个分量组成:一个位于目标的几何中心,另一个位于目标的语义中心。这种设计允许更细致地表示目标实例,从而提高检测质量。
-文章在六个数据集上进行了广泛的实验,包括DOTA-v1.5、DOTA-v2.0和DIORR等,并在单尺度训练和测试下取得了显著的性能提升。特别是,在DOTA-v1.5、DOTA-v2.0和DIORR数据集上,DCFL达到了最先进的性能。此外,文章还提供了代码,以便于其他研究人员复现和利用该方法。
-文章的主要贡献包括:(1) 识别了面向微小目标检测中存在的严重不匹配和不平衡问题;(2) 设计了一种面向微小目标检测的动态粗到细学习方案,首次以动态方式建模先验、标签分配和目标表示;(3) 在六个数据集上的广泛实验表明,DCFL能够显著提高检测性能。
-文章还进行了消融研究,验证了所提出的策略的有效性,并分析了不同组件对整体性能的影响。此外,文章还探讨了DCFL在处理不同角度和尺度的微小物体时的不平衡问题,并展示了DCFL如何通过动态采样策略更好地捕获目标形状。最后,文章还评估了DCFL的推理速度,并与其他方法进行了参数和计算复杂度的比较。
3、Making Vision Transformers Efficient from A Token Sparsification View

IMG_258
-这篇文章提出了一种新的高效视觉Transformer模型,称为Semantic Token Vision Transformer(STViT),旨在解决传统Vision Transformer(ViT)在计算复杂度上的局限性。ViT通过将图像分割成多个tokens进行处理,虽然在多种视觉识别任务中表现出色,但其计算量随着tokens数量呈二次方增长,限制了其在实际应用中的广泛部署。
-文章的核心思想是通过token稀疏化技术减少冗余tokens,同时保持或提升模型性能。STViT通过引入少量的语义tokens来代表图像中的聚类中心,这些tokens在数量上远少于原始图像tokens,从而显著降低了计算成本。这些语义tokens通过自注意力机制动态聚合图像tokens,以恢复聚类中心,并能够适应性地表示全局或局部的语义信息。
-STViT的提出基于几个关键观察:首先,与局部CNN学习图像的空间结构不同,ViT将特征图离散化为tokens进行全局特征探索,这减轻了维持整个图像结构和信息的要求;其次,离散tokens更有利于优化;最后,在深层transformer中,只有少数具有全局语义信息的tokens才是重要的。
-在STViT中,作者设计了一个语义token生成模块(STGM),它由至少两层transformer层组成,用于从图像tokens中生成语义tokens。这些语义tokens在空间上通过内部和跨窗口的空间池化初始化,以确保它们在空间上分布均匀,并能够代表局部语义信息。随后,这些语义tokens通过自注意力层进一步聚合,以获得全局聚类中心。
-文章还提出了STViT-R网络,这是一个基于STViT的改进模型,它通过恢复模块和哑铃单元来恢复详细的空间信息,使得STViT能够适用于下游任务,如目标检测和实例分割。这在以前的token稀疏化方法中是无法实现的。
-通过广泛的实验,作者证明了STViT在图像分类和视频识别任务上的有效性。在DeiT和Swin Transformer模型上应用STViT,使用16个语义tokens就能实现与原始模型相当的准确率,同时显著提高了推理速度并减少了计算量。特别是在Swin Transformer模型上,通过在每个窗口中使用16个语义tokens,推理吞吐量提高了约20%,准确率略有提升。
-此外,STViT-R在目标检测和实例分割任务上也展现出了竞争力,与原始网络相比,在超过30%的FLOPs减少的情况下,仍然取得了可比的结果。这些发现表明,维持全尺寸特征图并不是必要的,少数具有高级语义表示的tokens就能实现高性能和高效率。
-文章的代码已经在GitHub上公开,为进一步的研究提供了基础。总的来说,这篇文章为如何提高ViT的效率提供了一种新颖的视角,并通过实验验证了其有效性,为未来ViT在实际应用中的部署提供了新的可能性。

相关文章:
强!小目标检测全新突破!检测速度快10倍,GPU使用减少73.4%
强!小目标检测全新突破,提出Mamba-in-Mamba结构,通过内外两层Mamba模块,同时提取全局和局部特征,实现了检测速度快10倍,GPU使用减少73.4%的显著效果! 【小目标检测】是近年来在深度…...
重修设计模式-创建型-原型模式
重修设计模式-创建型-原型模式 原型模式就是利用已有对象(原型)通过拷贝方式来创建对象的模式,达到节省对象创建时间的目的。适用于对象创建成本较大,且同一类的不同对象之间差别不大的场景。 比如一个对象中的数据需要经过复杂…...
S71200 - 编程 - 笔记
1 DEMO 1.1气阀控制 1.2 红绿灯 基于PLC红绿灯控制_哔哩哔哩_bilibili 2 介绍变量DB,M,I,Q的使用 在PLC编程中,通常会使用多种类型的变量来实现逻辑控制、数据存储和输入输出操作。以下是常见的PLC变量类型及其用途ÿ…...
【项目】畅聊天地博客测试报告
项目简介:本项目采用 SSM框架结合 Websocket 技术构建。用户通过简单的注册和登录即可进入聊天室,与其他在线用户实时交流。系统支持文字消息的快速发送和接收、消息实时推送,确保交流的及时性和流畅性。SSM 框架为项目提供了稳定的架构和高效…...
【Next】全局样式和局部样式
不同于 nuxt ,next 的样式绝大部分都需要手动导入。 全局样式 使用 sass 先安装 npm i sass -D 。 我们可以定义一个 styles 文件,存放全局样式。 variables.scss $fs30: 30px;mixin border() {border: 1px solid red; }main.scss use ./variables …...
关于Docker的详细介绍
Docker是一个开源的应用容器引擎,它允许开发者将应用程序及其依赖项打包到一个可移植的容器中,然后发布到任何流行的Linux或Windows操作系统的机器上,实现虚拟化。以下是关于Docker的详细介绍: ### 一、Docker的定义 Docker是一…...
一台佳能G3811彩色喷墨打印机打印没颜色报5200的维修记录
一台佳能G3811彩色喷墨打印机,用户送修,称打印没有颜色,加电开机连电脑安驱动打印测试,确实没有颜色,于是清洗喷头结果打印机那个显示屏上 ,上来就报错P08,电脑提示5200; 话不多说,开始维修,仅记录当时的维修方法及步骤,其它未列出。。。 维修方法: 1、进维…...
【LeetCode】452.用最少数量的箭引发气球
能够找到问题的解法与把问题足够简化是天壤之别。比如我知道这题可以用贪心算法来解决,但是代码实现的过程中就走上了复杂的路,但是官方题解给的代码则相当简洁。这说明我思考的不够深入,导致化繁为简的能力不够强。 1. 题目 2. 分析 一道贪…...
网络安全流程规范文件解读(安全专业L1级)
技术能力项编号AQ-AQ-L1-02.01(安全维护作业计划执行能力) 课程目标: 通过学习课程,学员可以: 1.了解ZGYD网络安全流程规范 2.独立执行安全维护作业计划。 流程规范 一、《ZGYD远程接入安全管理办法》 二、《ZGYD网络运维账号口令管理办…...
Java、python、php版的邮件发送与过滤系统的设计与实现 (源码、调试、LW、开题、PPT)
💕💕作者:计算机源码社 💕💕个人简介:本人 八年开发经验,擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等,大家有这一块的问题可以一起交流&…...
st算法求RMP
st算法(sparse_tabel)可以在O(N log N)的预处理后实现O(1)的查询效率。 rmq:Range Maximum (Minimum) Query的缩写,顾名思义是用来求某个区间内的最大值或最小值,通常用在需要多次询问一些区间的最值得问题中。 #inc…...
零基础学习Redis(1) -- Redis简介
Redis是一个在内存中存储数据的一个中间组件,可用作数据库或数据缓存,通常在分布式系统中使用 (不了解分布式? 点击传送) 1. Redis特性 在内存中存储数据,通过键值对的方法存储key为string,v…...
安装MySQL数据库【后端 8】
安装MySQL数据库 MySQL是世界上最流行的开源关系型数据库管理系统(RDBMS)之一,广泛应用于Web应用程序开发中。无论你是初学者还是有一定经验的开发者,掌握MySQL的安装都是必不可少的技能。本文将指导你如何在不同的操作系统上安装…...
JAVA学习-练习试用Java实现“整数转换英文表示”
问题: 将非负整数 num 转换为其对应的英文表示。示例 1: 输入:num 123 输出:"One Hundred Twenty Three" 示例 2: 输入:num 12345 输出:"Twelve Thousand Three Hundred Fo…...
TPshop商城的保姆教程(Ubuntu)
1.上传TPSHOP源码 选择适合自己的版本下载 TPshop商城源文件下载链接: 百度网盘 请输入提取码 上传tpshop的源码包到特定目录/var/www/html 切换到/var/www/html 目录下 cd /var/www/html修改HTML目录下所有文件权限 chmod -R 777 * 2.打开网址配置 TPshop安…...
MySQL存储过程、触发器、视图
数据库中的存储过程、触发器和视图是三种常用的数据库对象,它们在管理数据、优化性能和简化复杂操作中起着重要的作用。下面是每种对象的详细介绍和示例: 存储过程 存储过程是一组为了执行特定功能而预编译的SQL语句。它类似于编程中的函数,…...
每一行txt文件的内容将作为CSV文件中的一行,逗号、空格和句号,冒号作为分隔符拆分成多列
将指定文件夹中的每个txt文件的内容读取出来,并将每个文件的内容按逗号、空格和句号作为分隔符拆分成多列,每一行txt文件的内容将作为CSV文件中的一行,此文件夹中的文件会有非utf-8字符,是如下的代码,如果是utf-8编码的…...
基于inotif的文件同步备份
1 ftp 因为服务器是linux的,而备份服务器是windows server的,故而采取lftp进行同步文件。 1.1 全量同步 cat > /appdata/script/sync_all.sh <<EOF #!/bin/bash # FTP 服务器信息 FTP_SERVER"ftp://192.168.0.5" FTP_USER"…...
luckyexcel 编辑预览excel文件
luckyexcel 编辑预览excel文件 支持后端传文件流预览编辑,也支持选择本地文件编辑预览 看效果 上代码 <template><div style"margin: 30px"><div class"button-box2"><div><div style"color: red">…...
记录Java使用websocket
实现场景:每在小程序中添加一条数据时,后台将主动推送一个标记给PC端,PC端接收到标记将进行自动播放音频。 import org.springframework.context.annotation.Bean; import org.springframework.context.annotation.Configuration; import or…...
从深圳崛起的“机器之眼”:赴港乐动机器人的万亿赛道赶考路
进入2025年以来,尽管围绕人形机器人、具身智能等机器人赛道的质疑声不断,但全球市场热度依然高涨,入局者持续增加。 以国内市场为例,天眼查专业版数据显示,截至5月底,我国现存在业、存续状态的机器人相关企…...
【第二十一章 SDIO接口(SDIO)】
第二十一章 SDIO接口 目录 第二十一章 SDIO接口(SDIO) 1 SDIO 主要功能 2 SDIO 总线拓扑 3 SDIO 功能描述 3.1 SDIO 适配器 3.2 SDIOAHB 接口 4 卡功能描述 4.1 卡识别模式 4.2 卡复位 4.3 操作电压范围确认 4.4 卡识别过程 4.5 写数据块 4.6 读数据块 4.7 数据流…...
在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module
1、为什么要修改 CONNECT 报文? 多租户隔离:自动为接入设备追加租户前缀,后端按 ClientID 拆分队列。零代码鉴权:将入站用户名替换为 OAuth Access-Token,后端 Broker 统一校验。灰度发布:根据 IP/地理位写…...
将对透视变换后的图像使用Otsu进行阈值化,来分离黑色和白色像素。这句话中的Otsu是什么意思?
Otsu 是一种自动阈值化方法,用于将图像分割为前景和背景。它通过最小化图像的类内方差或等价地最大化类间方差来选择最佳阈值。这种方法特别适用于图像的二值化处理,能够自动确定一个阈值,将图像中的像素分为黑色和白色两类。 Otsu 方法的原…...
【2025年】解决Burpsuite抓不到https包的问题
环境:windows11 burpsuite:2025.5 在抓取https网站时,burpsuite抓取不到https数据包,只显示: 解决该问题只需如下三个步骤: 1、浏览器中访问 http://burp 2、下载 CA certificate 证书 3、在设置--隐私与安全--…...
【AI学习】三、AI算法中的向量
在人工智能(AI)算法中,向量(Vector)是一种将现实世界中的数据(如图像、文本、音频等)转化为计算机可处理的数值型特征表示的工具。它是连接人类认知(如语义、视觉特征)与…...
Module Federation 和 Native Federation 的比较
前言 Module Federation 是 Webpack 5 引入的微前端架构方案,允许不同独立构建的应用在运行时动态共享模块。 Native Federation 是 Angular 官方基于 Module Federation 理念实现的专为 Angular 优化的微前端方案。 概念解析 Module Federation (模块联邦) Modul…...
【决胜公务员考试】求职OMG——见面课测验1
2025最新版!!!6.8截至答题,大家注意呀! 博主码字不易点个关注吧,祝期末顺利~~ 1.单选题(2分) 下列说法错误的是:( B ) A.选调生属于公务员系统 B.公务员属于事业编 C.选调生有基层锻炼的要求 D…...
解决本地部署 SmolVLM2 大语言模型运行 flash-attn 报错
出现的问题 安装 flash-attn 会一直卡在 build 那一步或者运行报错 解决办法 是因为你安装的 flash-attn 版本没有对应上,所以报错,到 https://github.com/Dao-AILab/flash-attention/releases 下载对应版本,cu、torch、cp 的版本一定要对…...
使用Spring AI和MCP协议构建图片搜索服务
目录 使用Spring AI和MCP协议构建图片搜索服务 引言 技术栈概览 项目架构设计 架构图 服务端开发 1. 创建Spring Boot项目 2. 实现图片搜索工具 3. 配置传输模式 Stdio模式(本地调用) SSE模式(远程调用) 4. 注册工具提…...
