【Block总结】PKI 模块,无膨胀多尺度卷积,增强特征提取的能力|即插即用
论文信息
标题: Poly Kernel Inception Network for Remote Sensing Detection
作者: Xinhao Cai, Qiuxia Lai, Yuwei Wang, Wenguan Wang, Zeren Sun, Yazhou Yao
论文链接:https://arxiv.org/pdf/2403.06258
代码链接:https://github.com/NUST-Machine-Intelligence-Laboratory/PKINet

创新点
Poly Kernel Inception Network (PKINet) 的主要创新在于其设计的卷积结构,旨在解决遥感图像目标检测中的几个关键挑战:
-
多尺度特征提取: PKINet采用无膨胀的多尺度卷积核,能够有效提取不同尺度的目标特征,避免了传统大核卷积带来的背景噪声问题。
-
上下文锚定注意力机制: 引入了上下文锚定注意(CAA)模块,以捕获远程上下文信息,增强特征提取的能力。
-
轻量化设计: 通过并行使用深度卷积和1×1卷积,PKINet在保持高性能的同时,显著降低了模型的复杂性和计算成本。
方法
PKINet的核心方法包括以下几个方面:
-
无膨胀多尺度卷积: 通过使用不同大小的卷积核,PKINet能够在不同的感受野中提取丰富的纹理特征,而不依赖于膨胀卷积。
-
上下文锚定注意力模块: CAA模块通过全局平均池化和一维卷积,捕获远程像素之间的关系,增强了中心特征的表达能力。
-
自适应特征融合: 通过通道维度的自适应融合,PKINet能够有效整合局部和全局上下文信息,从而提高目标检测的准确性。

无膨胀多尺度卷积PKI 模块详解
Poly Kernel Inception Network (PKINet) 中的 PKI Module 是其核心组成部分,旨在有效提取遥感图像中的多尺度特征。以下是对 PKI Module 的详细解读,包括其设计理念、结构、功能和实验结果。
设计理念
PKI 模块的设计旨在解决遥感图像目标检测中面临的挑战,尤其是目标尺度的巨大变化和复杂背景。与传统方法不同,PKI 模块采用无膨胀的多尺度卷积核,以避免引入背景噪声,同时有效捕获局部上下文信息。
结构
PKI 模块主要由以下几个部分组成:
-
小卷积核:
- 使用小卷积核(如 3 × 3 3 \times 3 3×3)提取局部特征,能够有效捕捉细节信息。
-
深度可分离卷积:
- 采用一系列并行的深度可分离卷积(Depth-wise Convolutions),以捕获不同尺度的上下文信息。这种设计不仅减少了计算复杂度,还提高了特征提取的效率。
-
多尺度特征提取:
- PKI 模块通过组合不同大小的卷积核(如 3 × 3 3 \times 3 3×3, 5 × 5 5 \times 5 5×5, 7 × 7 7 \times 7 7×7 等),实现对多尺度特征的提取,增强了模型对不同尺寸目标的适应能力。
功能
PKI 模块的主要功能包括:
-
多尺度特征提取: 通过不同大小的卷积核,PKI 模块能够有效提取不同尺度的目标特征,适应遥感图像中目标的多样性。
-
上下文信息捕获: 通过深度可分离卷积,PKI 模块能够捕获局部上下文信息,增强特征的表达能力。
-
避免背景噪声: 由于不使用膨胀卷积,PKI 模块能够避免过于稀疏的特征表示,从而提高检测精度。
PKI 模块是 PKINet 的核心组件,通过创新的多尺度卷积设计和深度可分离卷积结构,有效提升了遥感图像目标检测的性能。其在特征提取和上下文信息捕获方面的优势,使得 PKINet 在多个基准数据集上取得了优异的表现,展示了其在实际应用中的潜力。
效果
在多个遥感目标检测基准数据集上进行的实验表明,PKINet在性能上优于传统方法,尤其是在处理目标尺度变化和复杂背景时表现突出。具体来说,PKINet在以下数据集上取得了显著的检测效果:
- DOTA-v1.0
- DOTA-v1.5
- HRSC2016
- DIOR-R
这些实验结果表明,PKINet不仅提高了检测精度,还在处理速度上也有良好的表现。
实验结果
实验中,PKINet在多个标准数据集上进行了广泛的评估,结果显示:
-
检测精度: PKINet在各个数据集上均表现出色,尤其是在小目标和复杂背景下的检测能力显著提升。
-
模型效率: 由于其轻量化设计,PKINet在计算资源的使用上更为高效,适合实际应用场景。
-
对比分析: 与传统的目标检测模型相比,PKINet在多个指标上均有明显的优势,尤其是在处理多样化的上下文环境时。
总结
Poly Kernel Inception Network (PKINet) 通过创新的卷积结构和上下文注意力机制,成功应对了遥感图像目标检测中的多种挑战。其在特征提取和上下文信息捕获方面的优势,使得PKINet在多个基准数据集上取得了优异的性能,展示了其在实际应用中的潜力。未来的研究可以进一步探索PKINet在其他计算机视觉任务中的应用,以及如何进一步优化其结构以提升性能。
代码
import torch
import torch.nn as nn
from mmcv.cnn import ConvModule
from mmengine.model import BaseModule
from typing import Optional, Union, Sequence
import math
def autopad(k, p=None, d=1): # kernel, padding, dilation# Pad to 'same' shape outputsif d > 1:k = d * (k - 1) + 1 if isinstance(k, int) else [d * (x - 1) + 1 for x in k] # actual kernel-sizeif p is None:p = k // 2 if isinstance(k, int) else [x // 2 for x in k] # auto-padreturn p
def make_divisible(x, divisor):# Returns nearest x divisible by divisorif isinstance(divisor, torch.Tensor):divisor = int(divisor.max()) # to intreturn math.ceil(x / divisor) * divisor
class GSiLU(BaseModule):"""Global Sigmoid-Gated Linear Unit, reproduced from paper <SIMPLE CNN FOR VISION>"""def __init__(self):super().__init__()self.adpool = nn.AdaptiveAvgPool2d(1)def forward(self, x):return x * torch.sigmoid(self.adpool(x))class CAA(BaseModule):"""Context Anchor Attention"""def __init__(self,channels: int,h_kernel_size: int = 11,v_kernel_size: int = 11,norm_cfg: Optional[dict] = dict(type='BN', momentum=0.03, eps=0.001),act_cfg: Optional[dict] = dict(type='SiLU'),init_cfg: Optional[dict] = None,):super().__init__(init_cfg)self.avg_pool = nn.AvgPool2d(7, 1, 3)self.conv1 = ConvModule(channels, channels, 1, 1, 0,norm_cfg=norm_cfg, act_cfg=act_cfg)self.h_conv = ConvModule(channels, channels, (1, h_kernel_size), 1,(0, h_kernel_size // 2), groups=channels,norm_cfg=None, act_cfg=None)self.v_conv = ConvModule(channels, channels, (v_kernel_size, 1), 1,(v_kernel_size // 2, 0), groups=channels,norm_cfg=None, act_cfg=None)self.conv2 = ConvModule(channels, channels, 1, 1, 0,norm_cfg=norm_cfg, act_cfg=act_cfg)self.act = nn.Sigmoid()def forward(self, x):attn_factor = self.act(self.conv2(self.v_conv(self.h_conv(self.conv1(self.avg_pool(x))))))return x*attn_factorclass InceptionBottleneck(BaseModule):"""Bottleneck with Inception module"""def __init__(self,in_channels: int,out_channels: Optional[int] = None,kernel_sizes: Sequence[int] = (3, 5, 7, 9, 11),dilations: Sequence[int] = (1, 1, 1, 1, 1),expansion: float = 1.0,add_identity: bool = True,with_caa: bool = True,caa_kernel_size: int = 11,norm_cfg: Optional[dict] = dict(type='BN', momentum=0.03, eps=0.001),act_cfg: Optional[dict] = dict(type='SiLU'),init_cfg: Optional[dict] = None,):super().__init__(init_cfg)out_channels = out_channels or in_channelshidden_channels = make_divisible(int(out_channels * expansion), 8)self.pre_conv = ConvModule(in_channels, hidden_channels, 1, 1, 0, 1,norm_cfg=norm_cfg, act_cfg=act_cfg)self.dw_conv = ConvModule(hidden_channels, hidden_channels, kernel_sizes[0], 1,autopad(kernel_sizes[0], None, dilations[0]), dilations[0],groups=hidden_channels, norm_cfg=None, act_cfg=None)self.dw_conv1 = ConvModule(hidden_channels, hidden_channels, kernel_sizes[1], 1,autopad(kernel_sizes[1], None, dilations[1]), dilations[1],groups=hidden_channels, norm_cfg=None, act_cfg=None)self.dw_conv2 = ConvModule(hidden_channels, hidden_channels, kernel_sizes[2], 1,autopad(kernel_sizes[2], None, dilations[2]), dilations[2],groups=hidden_channels, norm_cfg=None, act_cfg=None)self.dw_conv3 = ConvModule(hidden_channels, hidden_channels, kernel_sizes[3], 1,autopad(kernel_sizes[3], None, dilations[3]), dilations[3],groups=hidden_channels, norm_cfg=None, act_cfg=None)self.dw_conv4 = ConvModule(hidden_channels, hidden_channels, kernel_sizes[4], 1,autopad(kernel_sizes[4], None, dilations[4]), dilations[4],groups=hidden_channels, norm_cfg=None, act_cfg=None)self.pw_conv = ConvModule(hidden_channels, hidden_channels, 1, 1, 0, 1,norm_cfg=norm_cfg, act_cfg=act_cfg)if with_caa:self.caa_factor = CAA(hidden_channels, caa_kernel_size, caa_kernel_size, None, None)else:self.caa_factor = Noneself.add_identity = add_identity and in_channels == out_channelsself.post_conv = ConvModule(hidden_channels, out_channels, 1, 1, 0, 1,norm_cfg=norm_cfg, act_cfg=act_cfg)def forward(self, x):x = self.pre_conv(x)y = x # if there is an inplace operation of x, use y = x.clone() instead of y = xx = self.dw_conv(x)x = x + self.dw_conv1(x) + self.dw_conv2(x) + self.dw_conv3(x) + self.dw_conv4(x)x = self.pw_conv(x)if self.caa_factor is not None:y = self.caa_factor(y)if self.add_identity:y = x * yx = x + yelse:x = x * yx = self.post_conv(x)return xif __name__ == "__main__":# 如果GPU可用,将模块移动到 GPUdevice = torch.device("cuda" if torch.cuda.is_available() else "cpu")# 输入张量 (batch_size, height, width,channels)x = torch.randn(1,32,40,40).to(device)# 初始化 HWD 模块dim=32block = InceptionBottleneck(32)print(block)block = block.to(device)# 前向传播output = block(x)print("输入:", x.shape)print("输出:", output.shape)
输出结果:

相关文章:
【Block总结】PKI 模块,无膨胀多尺度卷积,增强特征提取的能力|即插即用
论文信息 标题: Poly Kernel Inception Network for Remote Sensing Detection 作者: Xinhao Cai, Qiuxia Lai, Yuwei Wang, Wenguan Wang, Zeren Sun, Yazhou Yao 论文链接:https://arxiv.org/pdf/2403.06258 代码链接:https://github.com/NUST-Mac…...
日志2025.1.30
日志2025.1.30 1.简略地做了一下交互系统 public class Interactable : MonoBehaviour { private MeshRenderer renderer; private Material defaultMaterial; public Material highlightMaterial; private void Awake() { renderer GetComponentInChildren<Me…...
PHP中的获取器和修改器:探索数据访问的新维度
在PHP开发中,操作数据是开发人员最常见的任务之一。为了使数据的访问和修改更加便捷和安全,PHP提供了获取器和修改器这两个强大的特性。本文将探索获取器和修改器的作用和用法,并且通过具体的代码示例来帮助读者更好地理解和应用这两个特性。…...
Blazor-@bind
数据绑定 带有 value属性的标记都可以使用bind 绑定,<div>、<span>等非输入标记,无法使用bind 指令的,默认绑定了 onchange 事件,onchange 事件是指在输入框中输入内容之后,当失去焦点时执行。 page &qu…...
Github 2025-01-29 C开源项目日报 Top10
根据Github Trendings的统计,今日(2025-01-29统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量C项目10C++项目1Assembly项目1Go项目1我的电视 - 安卓电视直播软件 创建周期:40 天开发语言:CStar数量:649 个Fork数量:124 次关注人数:64…...
01-时间与管理
时间与效率 一丶番茄时钟步骤好处 二丶86400s的财富利用时间的方法每天坚持写下一天计划 自我管理体系计划-行动-评价-回顾 一丶番茄时钟 一个计时器 一份任务清单,任务 步骤 每一个25分钟是一个番茄时钟 将工作时间划分为若干个25分钟的工作单元期间只专注于当前任务,遇到…...
架构技能(六):软件设计(下)
我们知道,软件设计包括软件的整体架构设计和模块的详细设计。 在上一篇文章(见 《架构技能(五):软件设计(上)》)谈了软件的整体架构设计,今天聊一下模块的详细设计。 模…...
C++并发编程指南07
文章目录 [TOC]5.1 内存模型5.1.1 对象和内存位置图5.1 分解一个 struct,展示不同对象的内存位置 5.1.2 对象、内存位置和并发5.1.3 修改顺序示例代码 5.2 原子操作和原子类型5.2.1 标准原子类型标准库中的原子类型特殊的原子类型备选名称内存顺序参数 5.2.2 std::a…...
MySQL 容器已经停止(但仍然存在),但希望重新启动它,并使它的 3306 端口映射到宿主机的 3306 端口是不可行的
重新启动容器并映射端口是不行的 由于你已经有一个名为 mysql-container 的 MySQL 容器,你可以使用 docker start 启动它。想要让3306 端口映射到宿主机是不行的,实际上,端口映射是在容器启动时指定的。你无法在容器已经创建的情况下直接修改…...
AI大模型开发原理篇-6:Seq2Seq编码器-解码器架构
基本概念 Seq2Seq架构的全名是“Sequence-to-Sequence”,简称S2S,意为将一个序列映射到另一个序列。q2Seq编码器-解码器架构,这也是Transformer的基础架构。Seq2Seq架构是一个用于处理输入序列和生成输出序列的神经网络模型,由一…...
春晚舞台上的人形机器人:科技与文化的奇妙融合
文章目录 人形机器人Unitree H1的“硬核”实力传统文化与现代科技的创新融合网友热议与文化共鸣未来展望:科技与文化的更多可能结语 2025 年央视春晚的舞台,无疑是全球华人目光聚焦的焦点。就在这个盛大的舞台上,一场名为《秧BOT》的创意融合…...
【Leetcode刷题记录】166. 分数到小数
166. 分数到小数 给定两个整数,分别表示分数的分子 numerator 和分母 denominator,以 字符串形式返回小数 。 如果小数部分为循环小数,则将循环的部分括在括号内。 如果存在多个答案,只需返回 任意一个 。 对于所有给定的输入&…...
使用 Go 和 gqlgen 实现 GraphQL API:实战指南
使用 Go 和 gqlgen 实现 GraphQL API:实战指南 在本文中,我将分享如何使用 Go 语言和 gqlgen 框架实现一个完整的 GraphQL API。我们将构建一个包含用户、文章和评论功能的博客系统 API。 技术栈 Gogqlgen (GraphQL 框架)MySQL (数据存储)Redis (缓存…...
《程序人生》工作2年感悟
一些杂七杂八的感悟: 1.把事做好比什么都重要, 先树立量良好的形象,再横向发展。 2.职场就是人情世故,但也不要被人情世故绑架。 3.要常怀感恩的心,要记住帮助过你的人,愿意和你分享的人,有能力…...
将pandas.core.series.Series类型的小数转化成百分数
大年初二,大家过年好,蛇年行大运! 今天在编写一个代码的时候,使用 import pandas as pd产生了pandas.core.series.Series类型的数据,里面有小数,样式如下: 目的:将这些小数转化为百…...
详细解释java当中的所有知识点(前言及数据类型及变量)(第一部分)
会将java当中的所有的知识点以及相关的题目进行分享,这是其中的第一部分,用红色字体标注出重点,以及加粗的方式进行提醒 目录 一、Java语言概述 1.Java语言简介 2.语言优势 二、main方法 1.Java程序结构组成 2.运行Java程序 3.注释 4.…...
从0开始使用面对对象C语言搭建一个基于OLED的图形显示框架(动态菜单组件实现)
目录 面对对象C的程序设计(范例) 面对对象C的程序设计(应用) 进一步谈论我上面给出的代码——继承 实现一个面对对象的文本编辑器 所以,什么是继承 重申我们对菜单的抽象 抽象菜单项目 抽象菜单动画 实现菜单功…...
Java的StackWalker类
Java的StackWalker类怎么使用 Java 中的 StackWalker 类(自 Java 9 引入)提供了一种高效且灵活的方式来访问堆栈跟踪信息。以下是其使用方法的逐步说明: 1. 基本使用:获取当前堆栈跟踪 import java.lang.StackWalker;public cla…...
农产品价格报告爬虫使用说明
农产品价格报告爬虫使用说明 # ************************************************************************** # * * # * 农产品价格报告爬虫 …...
Pwn 入门核心工具和命令大全
一、调试工具(GDB 及其插件) GDB 启动调试:gdb ./binary 运行程序:run 或 r 设置断点:break *0x地址 或 b 函数名 查看寄存器:info registers 查看内存:x/10wx 0x地址 (查看 10 个 …...
字节iOS面试经验分享:HTTP与网络编程
字节iOS面试经验分享:HTTP与网络编程 🌟 嗨,我是LucianaiB! 🌍 总有人间一两风,填我十万八千梦。 🚀 路漫漫其修远兮,吾将上下而求索。 目录 字节iOS面试经验分享:HTT…...
在汇编语言中,ASSUME 是一个用于告诉汇编器如何将段寄存器与特定段名称关联的指令
在汇编语言中,ASSUME 是一个用于告诉汇编器如何将段寄存器与特定段名称关联的指令。它主要用于定义代码段、数据段和栈段等的段寄存器使用方式,帮助编译器生成正确的代码。 具体到 ASSUME DS:DATA, CS:CODE, SS:STACK,这行代码的作用如下&…...
代码随想录_栈与队列
栈与队列 232.用栈实现队列 232. 用栈实现队列 使用栈实现队列的下列操作: push(x) – 将一个元素放入队列的尾部。 pop() – 从队列首部移除元素。 peek() – 返回队列首部的元素。 empty() – 返回队列是否为空。 思路: 定义两个栈: 入队栈, 出队栈, 控制出入…...
Ubuntu 手动安装 Open WebUI 完整指南
Ubuntu 手动安装 Open WebUI 完整指南 前提条件 在安装 Open WebUI 之前,请确保您的系统满足以下要求: Ubuntu 22.04 LTS 或更高版本Python 3.10Node.js 18Git至少 4GB 内存足够的磁盘空间(推荐 20GB 以上) 安装步骤 1. 更新…...
【Oracle篇】使用Hint对优化器的执行计划进行干预(含单表、多表、查询块、声明四大类Hint干预)
💫《博主介绍》:✨又是一天没白过,我是奈斯,从事IT领域✨ 💫《擅长领域》:✌️擅长阿里云AnalyticDB for MySQL(分布式数据仓库)、Oracle、MySQL、Linux、prometheus监控;并对SQLserver、NoSQL(…...
论文阅读(九):通过概率图模型建立连锁不平衡模型和进行关联研究:最新进展访问之旅
1.论文链接:Modeling Linkage Disequilibrium and Performing Association Studies through Probabilistic Graphical Models: a Visiting Tour of Recent Advances 摘要: 本章对概率图模型(PGMs)的最新进展进行了深入的回顾&…...
【信息系统项目管理师-选择真题】2005上半年综合知识答案和详解
更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 【第1题】【第2~3题】【第4~6题】【第7题】【第8题】【第9题】【第10~11题】【第12题】【第13题】【第14题】【第15题】【第16题】【第17题】【第18~19题】【第20题】【第21~22题】【第23题】【第24~25题】【第…...
【Matlab高端绘图SCI绘图模板】第006期 对比绘柱状图 (只需替换数据)
1. 简介 柱状图作为科研论文中常用的实验结果对比图,本文采用了3组实验对比的效果展示图,代码已调试好,只需替换数据即可生成相关柱状图,为科研加分。通过获得Nature配色的柱状图,让你的论文看起来档次更高࿰…...
【Elasticsearch】 Intervals Query
Elasticsearch Intervals Query 返回基于匹配术语的顺序和接近度的文档。 intervals 查询使用 匹配规则,这些规则由一小组定义构建而成。这些规则然后应用于指定 field 中的术语。 这些定义生成覆盖文本中术语的最小间隔序列。这些间隔可以进一步由父源组合和过滤…...
YOLOv8源码修改(4)- 实现YOLOv8模型剪枝(任意YOLO模型的简单剪枝)
目录 前言 1. 需修改的源码文件 1.1添加C2f_v2模块 1.2 修改模型读取方式 1.3 增加 L1 正则约束化训练 1.4 在tensorboard上增加BN层权重和偏置参数分布的可视化 1.5 增加剪枝处理文件 2. 工程目录结构 3. 源码文件修改 3.1 添加C2f_v2模块和模型读取 3.2 添加L1正则…...
