【Block总结】PConv风车卷积,更大的感受野,提高特征提取能力|即插即用
论文信息
论文标题:《Pinwheel-shaped Convolution and Scale-based Dynamic Loss for Infrared Small Target Detection》
论文链接:https://arxiv.org/pdf/2412.16986
GitHub链接:https://github.com/JN-Yang/PConv-SDloss-Data
创新点
该论文提出了两项关键创新:
-
风车型卷积(Pinwheel-shaped Convolution, PConv):PConv作为标准卷积的替代,旨在更好地适应红外小目标的像素高斯空间分布。该方法增强了特征提取能力,显著扩大了感受野,并且仅引入了极少的参数增加。
-
基于尺度的动态损失(Scale-based Dynamic Loss, SD Loss):该损失函数动态调整不同目标尺度的损失影响,解决了传统损失函数在处理不同大小目标时的灵敏度不足的问题。这种方法提高了网络对不同尺度目标的检测能力,尤其是在处理微弱小目标时表现更佳。
方法
论文中采用了以下方法:
-
PConv的设计:通过分析红外小目标的三维灰度分布,设计了PConv模块,使其更好地与目标的成像特性对齐。PConv在网络的底层使用,增强了特征提取能力。
-
SD Loss的实现:SD Loss结合了尺度和位置损失,动态调整其权重,以适应目标的大小变化。这种方法使得网络在训练过程中能够更有效地学习到不同尺度目标的特征。
PConv如何与传统卷积层相比,提升特征提取能力
PConv(风车型卷积)相较于传统卷积层在特征提取能力上的提升主要体现在以下几个方面:
-
对高斯空间分布的适应性:
PConv设计时考虑了红外小目标的像素高斯空间分布特性。传统卷积层通常采用固定形状的卷积核,无法有效捕捉到红外小目标的细微特征。而PConv通过其风车形状的卷积核,更好地对齐了目标的成像特性,从而增强了对底层特征的提取能力[2][5][6]。 -
扩大感受野:
PConv显著增加了感受野,使得网络能够在更大范围内聚合信息。这种扩展使得模型在处理复杂背景时,能够更有效地分离目标与背景,尤其是在低对比度和低信噪比的情况下,提升了小目标的检测性能[1][6][7]。 -
参数效率:
尽管PConv增加了感受野,但其引入的参数量相对较少。这意味着在保持模型复杂度相对较低的同时,PConv能够提供更强的特征提取能力,避免了传统卷积层在处理小目标时可能出现的过拟合问题[2][5][6]。 -
集成与动态损失函数的结合:
PConv与Scale-based Dynamic Loss(SD Loss)结合使用,后者动态调整不同尺度目标的损失影响。这种结合进一步提升了模型对不同大小目标的敏感性,使得PConv在特征提取时能够更好地适应目标的多样性和复杂性[5][6][7]。
SD Loss在处理不同尺度目标时的具体调整机制
Scale-based Dynamic Loss(SD Loss)是一种针对不同尺度目标的动态调整机制,旨在提高模型对各种大小目标的检测能力。其具体调整机制包括以下几个方面:
- 动态调整损失权重:
- SD Loss根据目标的大小动态调整损失函数中各个部分的权重。对于较小的目标,SD Loss会降低其损失权重,以减少小目标在训练过程中的不稳定性和对模型的负面影响。这种调整使得模型在面对小目标时,能够更专注于其特征,而不是受到背景噪声的干扰[1][8]。
- 考虑目标的尺度和位置:
- SD Loss不仅考虑目标的尺度,还结合了目标在图像中的位置。通过分析目标的相对位置,SD Loss能够更有效地调整损失函数的影响,使得模型在不同场景下都能保持较高的检测精度。这种方法有效地解决了传统损失函数在处理不同尺度目标时的局限性[1][8]。
- 减小标签不准确性的影响:
- 在目标检测中,标签的不准确性(如边界框的偏差)可能会对模型的训练造成负面影响。SD Loss通过动态调整小目标的损失权重,降低了标签不准确性对损失函数稳定性的影响,从而提高了模型的整体稳定性和准确性[1][8]。
- 增强对小目标的关注:
-通过对小目标施加较低的损失权重,SD Loss使得模型在训练时能够更好地学习小目标的特征。这种机制不仅提高了小目标的检测率,还减少了误报率,特别是在复杂背景下的表现显著提升[1][8]。
SD Loss通过动态调整损失权重、考虑目标的尺度和位置、减小标签不准确性的影响以及增强对小目标的关注,显著提升了模型在处理不同尺度目标时的检测能力。这种方法在红外小目标检测等应用中展现出了良好的效果。
实验结果
通过将PConv和SD Loss集成到最新的小目标检测算法中,研究者在多个数据集上进行了实验,包括IRSTD-1K和SIRST-UAVB。实验结果显示:
-
性能提升:与传统方法相比,采用PConv和SD Loss的模型在红外小目标检测任务中表现出显著的性能提升,尤其是在检测微弱小目标时。
-
鲁棒性增强:新方法在复杂背景下的检测能力得到了增强,能够更好地应对红外图像中常见的干扰因素,如建筑物、云层和植被。
总结
该论文通过引入Pinwheel-shaped Convolution和Scale-based Dynamic Loss,为红外小目标检测提供了新的思路和方法。PConv的设计使得卷积操作更适应红外图像的特性,而SD Loss则有效提升了模型对不同尺度目标的检测能力。实验结果验证了这些创新的有效性,表明该方法在实际应用中具有良好的前景,尤其是在军事和民用领域的红外监测任务中。
代码
import torch
import torch.nn as nn
import torch.nn.functional as Fdef autopad(k, p=None, d=1): # kernel, padding, dilation"""Pad to 'same' shape outputs."""if d > 1:k = d * (k - 1) + 1 if isinstance(k, int) else [d * (x - 1) + 1 for x in k] # actual kernel-sizeif p is None:p = k // 2 if isinstance(k, int) else [x // 2 for x in k] # auto-padreturn pclass Conv(nn.Module):"""Standard convolution with args(ch_in, ch_out, kernel, stride, padding, groups, dilation, activation)."""default_act = nn.SiLU() # default activationdef __init__(self, c1, c2, k=1, s=1, p=None, g=1, d=1, act=True):"""Initialize Conv layer with given arguments including activation."""super().__init__()self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p, d), groups=g, dilation=d, bias=False)self.bn = nn.BatchNorm2d(c2)self.act = self.default_act if act is True else act if isinstance(act, nn.Module) else nn.Identity()def forward(self, x):"""Apply convolution, batch normalization and activation to input tensor."""return self.act(self.bn(self.conv(x)))def forward_fuse(self, x):"""Perform transposed convolution of 2D data."""return self.act(self.conv(x))class PConv(nn.Module):''' Pinwheel-shaped Convolution using the Asymmetric Padding method. '''def __init__(self, c1, c2, k, s):super().__init__()# self.k = kp = [(k, 0, 1, 0), (0, k, 0, 1), (0, 1, k, 0), (1, 0, 0, k)]self.pad = [nn.ZeroPad2d(padding=(p[g])) for g in range(4)]self.cw = Conv(c1, c2 // 4, (1, k), s=s, p=0)self.ch = Conv(c1, c2 // 4, (k, 1), s=s, p=0)self.cat = Conv(c2, c2, 2, s=1, p=0)def forward(self, x):yw0 = self.cw(self.pad[0](x))yw1 = self.cw(self.pad[1](x))yh0 = self.ch(self.pad[2](x))yh1 = self.ch(self.pad[3](x))return self.cat(torch.cat([yw0, yw1, yh0, yh1], dim=1))if __name__ == "__main__":# 如果GPU可用,将模块移动到 GPUdevice = torch.device("cuda" if torch.cuda.is_available() else "cpu")# 输入张量 (batch_size, channels, height, width)x = torch.randn(1, 32, 40, 40).to(device)# 初始化 pconv 模块block = PConv(c1=32, c2=32, k=3, s=1)print(block)block = block.to(device)# 前向传播output = block(x)print("输入:", x.shape)print("输出:", output.shape)
相关文章:

【Block总结】PConv风车卷积,更大的感受野,提高特征提取能力|即插即用
论文信息 论文标题:《Pinwheel-shaped Convolution and Scale-based Dynamic Loss for Infrared Small Target Detection》 论文链接:https://arxiv.org/pdf/2412.16986 GitHub链接:https://github.com/JN-Yang/PConv-SDloss-Data 创新点 …...

Python新春烟花
目录 系列文章 写在前面 技术需求 完整代码 下载代码 代码分析 1. 程序初始化与显示设置 2. 烟花类 (Firework) 3. 粒子类 (Particle) 4. 痕迹类 (Trail) 5. 烟花更新与显示 6. 主函数 (fire) 7. 游戏循环 8. 总结 注意事项 写在后面 系列文章 序号直达链接爱…...

VirtualBox can‘t enable the AMD-V extension
个人博客地址:VirtualBox cant enable the AMD-V extension | 一张假钞的真实世界 最近一次完成Deepin的系统更新后,进入VirtualBox创建的虚拟机(Widows10)时,出现以下错误: 根据网址“https://askubuntu.…...

掘金--创意标题匹配问题
问题描述 在广告平台中,为了给广告主一定的自由性和效率,允许广告主在创造标题的时候以通配符的方式进行创意提交。线上服务的时候,会根据用户的搜索词触发的 bidword 对创意中的通配符(通配符是用成对 {} 括起来的字符串&#x…...

OBU和T-Box
OBU(On-Board Unit,车载单元)和T-Box(Telematics Box,远程信息处理控制单元)都是用于车联网和智能交通系统的车载设备,但它们的功能、应用场景和技术特点存在显著差异。以下是两者的详细对比&am…...

【PVE】Proxmox VE8.0+创建LXC容器安装docker
为了不影响PVE宿主机,通常使用套娃的形式安装Docker容器,再安装相关docker应用。首先在CT模板中创建 Linux 容器,推荐使用Debian。开启ssh登录,修改debian配置,安装docker 一、创建 LXC 容器 1、CT模板下载 点击“模…...

一文大白话讲清楚webpack基本使用——11——chunkIds和runtimeChunk
文章目录 一文大白话讲清楚webpack基本使用——11——chunkIds和runtimeChunk1. 建议按文章顺序从头看,一看到底,豁然开朗2. 啥是chunkIds3.怎么使用chunkIds4. 啥是runtimeChunk5. 怎么使用runtimeChunk 一文大白话讲清楚webpack基本使用——11——chun…...

Java 中的设计模式:经典与现代实践
Java 中的设计模式:经典与现代实践 1. 设计模式简介 设计模式是一种软件开发中的思想,它为我们提供了一些经过验证的、能够应对常见问题的解决方案。学习和掌握设计模式能够让开发者在面对复杂的需求时,能够设计出更加灵活、可维护的代码。…...

DRG_DIP 2.0时代医院程序结构转型与数据结构优化研究
一、引言 1.1 DRG_DIP 2.0 改革背景与意义 医保支付方式改革在医疗保障制度改革中占据着极为关键的地位,是推动医疗领域变革的核心力量。它犹如一把精准的手术刀,对医疗资源的合理分配、医疗服务质量的稳步提升以及医疗费用的有效控制起着决定性作用。…...

一部手机如何配置内网电脑同时访问内外网
做过运维的朋友都知道,最麻烦的是运维电脑不能远程,每次都得现场进行维护,明明客户那边有可以访问内网的电脑,怎么操作能将这台电脑能访问跟到外网呢,这样不就能通过远程软件远程了吗?嘿嘿。按以下步骤试试…...

国产低功耗带LCD驱动和触摸按键功能的MCU
以下是国产低功耗、集成LCD驱动和触摸按键功能的MCU精选型号及其核心特性,结合性能、功耗和适用场景进行综合推荐: 1.灵动微MM32L0130系列 257 核心特性:低功耗:待机模式功耗低至100nA,支持多种低功耗模式。 LCD驱动&a…...

XCP 协议基础
文章目录 一、XCP 简介二、XCP的主要功能三、什么是标定四、什么时候进行标定五、标定的意义六、标定的三层架构XCP协议 和 CCP协议的区别参考 一、XCP 简介 XCP 协议的全称为 eXtended Calibration Protocol,即扩展标定协议。 另有其他定义,XCP 协议全…...

Swift 中 Codable 和 Hashable 的理解
最近初学Swift,碰到下面的代码脑袋里冒出疑问:Codable 和 Hashable是啥?怎么理解? struct Landmark: Hashable, Codable {var id: Intvar name: Stringvar park: Stringvar state: Stringvar description: String }针对上面的疑问…...

基于 WPF 平台实现成语游戏
一、引言 在软件开发领域,利用各种框架开发有趣的应用程序是提升技术能力和增加开发乐趣的有效方式。WPF(Windows Presentation Foundation)作为微软强大的桌面应用开发框架,提供了丰富的图形和交互功能。本文将带领大家基于 WPF…...

2024“博客之星”——我的博客成长与技术洞察
🌟欢迎来到 我的博客 —— 探索技术的无限可能! 🌟博客的简介(文章目录) 目录 一、引言二、个人成长与突破盘点(一)技能提升与知识拓展(二)创作风格与影响力提升…...

HTTPS协议简述
HTTPS 协议简介 HTTPS 是 HTTP Security 的组合,即在 HTTP 的基础上加入了安全性机制,主要通过加密传输、身份认证和数据完整性保护来确保通信的安全性。 为了实现这一目标,HTTPS 引入了 加密技术,包括对称加密、非对称加密和数…...

前沿技术趋势洞察:2024年技术的崭新篇章与未来走向!
引言 时光飞逝,2024年已经来临,回顾过去一年,科技的迅猛进步简直让人目不暇接。 在人工智能(AI)越来越强大的今天,我们不再停留在幻想阶段,量子计算的雏形开始展示它的无穷潜力,Web …...

HTML常用属性
HTML标签的常见属性包括许多不同的功能,可以为元素提供附加信息或控制元素的行为。以下是一些常见的属性及其解释: 1. src 描述:src(source)属性指定一个资源的路径,通常用于图像、音频、视频等标签。常见…...

电子应用设计方案100:智能家庭AI电风扇系统设计
智能家庭 AI 电风扇系统设计 一、引言 智能家庭 AI 电风扇系统旨在为用户提供更加舒适、便捷和个性化的吹风体验,通过融合人工智能技术和先进的控制算法,实现智能化的风速调节、风向控制和场景适应。 二、系统概述 1. 系统目标 - 实现精准的风速调节&a…...

ThinkPHP 8请求处理-获取请求对象与请求上下文
【图书介绍】《ThinkPHP 8高效构建Web应用》-CSDN博客 《2025新书 ThinkPHP 8高效构建Web应用 编程与应用开发丛书 夏磊 清华大学出版社教材书籍 9787302678236 ThinkPHP 8高效构建Web应用》【摘要 书评 试读】- 京东图书 使用Composer初始化ThinkPHP 8应用_thinkphp8 compos…...

工厂模式 - 工厂方法模式、抽象工厂模式
引言 工厂模式(Factory Pattern)是设计模式中创建型模式的一种,它提供了一种创建对象的最佳方式。工厂模式的核心思想是将对象的创建与使用分离,使得代码更加灵活、可扩展。工厂模式主要分为两种:工厂方法模式和抽象工…...

2025年已过6%
前些阵子,注意到一个网站的年度进度条显示今年已完成4%的进度,而今天是1月22日,再一看已过去6%。如果1个月按30天来计算,1个月也就占一年1/12,差不多在8%-9%左右。 也许你会感觉这6%过得很快,也许你会感觉这…...

C#,入门教程(04)——Visual Studio 2022 数据编程实例:随机数与组合
上一篇: C#,入门教程(03)——Visual Studio 2022编写彩色Hello World与动画效果https://blog.csdn.net/beijinghorn/article/details/123478581 C#,入门教程(01)—— Visual Studio 2022 免费安装的详细图文与动画教程https://blog.csdn.net…...

UWB高精度定位技术在智能仓储中的应用
在智能化和数字化转型的浪潮中,UWB高精度定位系统逐渐成为企业优化仓储管理和生产调度的关键技术。结合RFID标签打印机和服装生产型ERP软件,这一技术为企业带来了全新的管理方式和效率提升。 UWB高精度定位系统的核心优势 UWB(超宽带&…...

计算机毕业设计hadoop+spark视频推荐系统 短视频推荐系统 视频流量预测系统 短视频爬虫 视频数据分析 视频可视化 视频大数据 大数据
温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…...

【AI编辑器】字节跳动推出AI IDE——Trae,专为中文开发者深度定制
目录 一、背景 二、核心特性 2.1 AI驱动的代码自动生成 2.2 智能问答与代码补全 2.3 多语言支持 2.4 插件与扩展 三、架构 四、下载使用 4.1 下载与安装 4.2 界面与配置 五、应用实践 5.1 快速生成代码 5.2 智能问答与调试 5.3 团队协作与代码审查 六、与Cursor…...

CSDN 博客之星 2024:默语的技术进阶与社区耕耘之旅
CSDN 博客之星 2024:默语的技术进阶与社区耕耘之旅 🌟 默语,是一位在技术分享与社区建设中坚持深耕的博客作者。今年,我有幸再次入围成为 CSDN 博客之星TOP300 的一员,这既是对过往努力的肯定,也是对未来探…...

《探秘鸿蒙Next:非结构化数据处理与模型轻量化的完美适配》
在鸿蒙Next的人工智能应用场景中,处理非结构化数据并使其适配模型轻量化需求是一项关键且具有挑战性的任务。以下是一些有效的方法和策略。 数据预处理 数据清洗:非结构化数据中往往存在噪声、重复和错误数据。对于文本数据,要去除乱码、特殊…...

async++库的使用示例
1、普通异步函数 如前面的博客介绍的,这个库中提供了async::spawn方法,这个方法通常用来启动异步函数,这个框架会利用线程池去完成函数,因此要注意数据安全。正因为将任务放到了单独的线程执行,并且还有调度开销&…...

springboot基于微信小程序的手机银行系统
Spring Boot基于微信小程序的手机银行系统是一种结合现代Web技术和移动应用优势的创新金融服务平台。 一、系统背景与意义 随着信息技术的快速发展和用户对便捷金融服务需求的日益增长,传统手机银行系统的人工管理方法已逐渐显露出效率低下、安全性低以及信息传输…...