Centralized Feature Pyramid for Object Detection解读
Centralized Feature Pyramid for Object Detection
问题
主流的特征金字塔集中于层间特征交互,而忽略了层内特征规则。尽管一些方法试图在注意力机制或视觉变换器的帮助下学习紧凑的层内特征表示,但它们忽略了对密集预测任务非常重要的被忽略的角点区域。
核心思想
提出了一种基于全局显式集中式特征规则的中心化特征金字塔(CFP)对象检测方法
- 空间显式视觉中心策略,其中使用轻量级MLP来捕捉全局长距离依赖关系,并使用并行可学习视觉中心机制来捕捉输入图像的局部角区域。
- 以自上而下的方式对常用特征金字塔提出了一种全局集中的规则,其中使用从最深层内特征获得的显式视觉中心信息来调整正面浅层特征。
方法
Centralized Feature Pyramid(CFP)
作者提出的CFP不仅能够捕获全局长距离依赖关系,而且能够实现全面和差异化的特征表示
具体的流程如下:
- 将输入图像馈送到骨干网络,以提取五层的特征金字塔X,其中特征X i _{i} i(i=0,1,2,3,4)的每一层的空间大小分别为输入图像的1/2,1/4,1/8,1/16,1/32。
- 特征金字塔的顶层(即X4)使用了一个EVC结构:提出了一种lightweight MLP架构来捕获X 4 _{4} 4的全局长距离依赖关系(与基于多头注意机制的transformer encoder相比,轻量级MLP架构不仅结构简单,而且体积更轻,计算效率更高);一个可学习的视觉中心机制与轻量级MLP一起用于聚集输入图像的local corner regions。基于所提出的ECV,为了使特征金字塔的浅层特征能够同时以高效模式从最深特征的视觉集中信息中受益,其中从最深的层内特征获得的显式视觉中心信息用于同时调节所有的前浅特征(使用GCR调节X3和X2)。
- 这些特征聚合到一个解耦的头部网络中进行分类和回归。

Explicit Visual Center (EVC)
EVC主要由两个并行连接的块组成,lightweight MLP 和 LVC。这两个块的结果特征图沿着信道维度连接在一起,作为用于下游识别的EVC的输出。在X4和EVC之间,Stem块用于特征平滑,而不是直接在原始特征图上实现。Stem块由输出通道大小为256的7×7卷积组成,随后是批量标准化层和激活功能层。

Lightweight MLP
本文提出的轻量级 MLP 由两个残差模块组成:基于深度可分离卷积的模块(增加特征的表示能力并减少计算量)和基于通道MLP的模块。其中,MLP 模块的输入是深度可分离卷积模块的输出。这两个模块都经过了通道缩放和 DropPath 操作以提高特征泛化和鲁棒性。与空间 MLP 相比,通道 MLP 不仅可以有效地降低计算复杂度,还可以满足通用视觉任务的要求。
与空间 MLP 相比,通道 MLP 不仅可以有效地降低计算复杂度,还可以满足通用视觉任务的要求。最后,两个模块都实现了通道缩放、DropPath 和残差连接操作。
Learnable Visual Center (LVC)
LVC 是一个具有内在字典的编码器,由一个固有的码本(B={b1,b2,…,bK},其中N=H×W是输入特征的总空间数,其中H和W分别表示特征图的高度和宽度的空间大小)和一组可学习的视觉中心比例因子(S={s1,s2,…,sK})组成。
LVC 的处理过程包括两个主要步骤:
-
使用一组卷积层对输入特征进行编码,并使用
CBR块进行进一步处理; -
将编码后的特征通过一组可学习的比例因子与固有码本相结合。
-
为此,我们使用一组比例因子s按照顺序地使xi和bk映射相应的位置信息。整个图像中关于第k个码字的信息可以通过以下方式计算(
可以看成一个softmax的值当作权重因子):

其中,xi是第i个像素点,bk是第k个可学习的视觉码字,sk是第k种比例因子也是设置的可学习的参数。 xi− bk是关于相对于码字的每个像素位置的信息。K是视觉中心的总数。
之后使用一个完全连接层和一个 1×1 卷积层来预测突出的关键类特征。最后,将来自 Stem 块 X i n _{in} in的输入特征和比例因子系数的局部角区域特征进行通道乘法和通道加法。
Global Centralized Regulation (GCR)
因为EVC计算的是特征层内部的关系,对每个层计算EVC是一笔不小的开销,所以作者使用全局集中特征规范 Global Centralized Regulation (GCR) 在整个特征金字塔上实现跨层特征规范化。
实现:将深层特征上采样到与低层特征相同的空间尺度,然后沿通道维度进行拼接,将拼接后的特征通过 1×1 卷积降采样到 256 个通道。
实验结果

相关文章:
Centralized Feature Pyramid for Object Detection解读
Centralized Feature Pyramid for Object Detection 问题 主流的特征金字塔集中于层间特征交互,而忽略了层内特征规则。尽管一些方法试图在注意力机制或视觉变换器的帮助下学习紧凑的层内特征表示,但它们忽略了对密集预测任务非常重要的被忽略的角点区…...
unity中meta文件GUID异常问题
错误信息: The .meta file Assets/Scripts/Editor/ConvertConfigToBinary/TxtConverter.cs.meta does not have a valid GUID and its corresponding Asset file will be ignored. If this file is not malformed, please add a GUID, or delete the .meta file and…...
【k8s】pod集群调度
调度约束 Kubernetes 是通过 List-Watch **** 的机制进行每个组件的协作,保持数据同步的,每个组件之间的设计实现了解耦。 用户是通过 kubectl 根据配置文件,向 APIServer 发送命令,在 Node 节点上面建立 Pod 和 Container。…...
MathType数学公式编辑器2024官方最新版
Mathtype是一款数学公式编辑器,它可以帮助我们在文档中插入各种复杂的数学公式,使得我们的文档更加专业、规范。在使用Mathtype工具时,我们可以采取以下几种方法: 1. 鼠标直接点击插入公式 打开Mathtype后,在需要插入公…...
Android照搬,可删
1private void initview() {myradioGroup (RadioGroup) this.findViewById(R.id.MainActivity_RadioGroup);//通过id找到UI中的单选按钮组 2res getResources();// 得到Resources对象,从而通过它获取存在系统的资源 icon_home_true res.getDrawable(R.mipmap.ic…...
2022最新版-李宏毅机器学习深度学习课程-P26 自注意力机制
一、应用情境 输入任意长度个向量进行处理。 从输入看 文字处理(自然语言处理) 将word表示为向量 one-hotword-embedding声音信号处理 每个时间窗口(Window, 25ms)视为帧(Frame),视为向量图 每个节点视为…...
【Docker】Linux路由连接两个不同网段namespace,连接namespace与主机
如果两个namespace处于不同的子网中,那么就不能通过bridge进行连接了,而是需要通过路由器进行三层转发。然而Linux并未像提供虚拟网桥一样也提供一个虚拟路由器设备,原因是Linux自身就具备有路由器功能。 路由器的工作原理是这样的ÿ…...
C语言 DAY10 内存分配
1.引入 int nums[10] {0}; //对 int len 10; int nums[len] {0}; //错 是因为系统的内存分配原则导致的 2.概述 在系统运行时,系统为了更好的管理进程中的内存,所以将内存进行了分配,其分配的机制就称为内存分配 1.静态分配原则 1.特点 1、在程序…...
SpringCloud Gateway 网关的请求体body的读取和修改
SpringCloud Gateway 网关的请求体body的读取和修改 getway需要多次对body 进行操作,需要对body 进行缓存 缓存body 动态多次获取 新建顶层filter,对body 进行缓存 import lombok.extern.slf4j.Slf4j; import org.springframework.cloud.gateway.filt…...
气膜场馆的降噪方法
在现代社会,噪音已经成为我们生活中难以避免的问题,而气膜场馆也不例外。传统的气膜场馆常常因其特殊结构而面临噪音扩散和回声问题,影响了人们的体验和活动效果。然而,随着科技的进步,多功能声学综合馆应运而生&#…...
探索主题建模:使用LDA分析文本主题
在数据分析和文本挖掘领域,主题建模是一种强大的工具,用于自动发现文本数据中的隐藏主题。Latent Dirichlet Allocation(LDA)是主题建模的一种常用技术。本文将介绍如何使用Python和Gensim库执行LDA主题建模,并探讨主题…...
服务器黑洞,如何秒解
想必这样的短信大家都应该见过吧,这其实是阿里云服务器被攻击后触发的黑洞机制的短信通知。还有很多朋友不知道,为什么要这么做。原因其实很简单啊,当同一个机房的ip段,如果说有一台服务器遭受低道攻击,那么很可能会造…...
【生物信息学】单细胞RNA测序数据分析:计算亲和力矩阵(基于距离、皮尔逊相关系数)及绘制热图(Heatmap)
文章目录 一、实验介绍二、实验环境1. 配置虚拟环境2. 库版本介绍 三、实验内容0. 导入必要的库1. 读取数据集2. 质量控制(可选)3. 基于距离的亲和力矩阵4. 绘制基因表达的Heatmap5. 基于皮尔逊相关系数的亲和力矩阵6. 代码整合 一、实验介绍 计算亲和力…...
学习笔记三十一:k8s安全管理:认证、授权、准入控制概述SA介绍
K8S安全实战篇之RBAC认证授权-v1 k8s安全管理:认证、授权、准入控制概述认证k8s客户端访问apiserver的几种认证方式客户端认证:BearertokenServiceaccountkubeconfig文件 授权Kubernetes的授权是基于插件形成的,其常用的授权插件有以下几种&a…...
【开发新的】apache common BeanUtils忽略null值
前言: BeanUtils默认的populate方法不会忽略空值和null值,在特定场景,我们需要原始的值避免被覆盖,所以这里提供一种自定义实现方式。 package com.hmwl.service.program;import lombok.extern.slf4j.Slf4j; import org.apache.commons.beanu…...
coalesce函数(SQL )
用途: 将控制替换成其他值;返回第一个非空值 表达式 COALESCE是一个函数, (expression_1, expression_2, …,expression_n)依次参考各参数表达式,遇到非null值即停止并返回该值。如果所有的表达式都是空值,最终将返…...
一键报警可视对讲管理机10寸触摸屏管理机
一键报警可视对讲管理机10寸触摸屏管理机 一、管理机技术指标: 1、10寸LCD触摸屏,分辨率1024*600; 2、摄像头1200万像素 3、1000M/100M自适应网口; 4、按键设置:报警/呼叫按键,通话/挂机按键࿰…...
java左右括号
java左右括号 数据结构-栈栈的特点:先进后出代码实现 最近看到有小伙伴去面试,被人问起一道算法题,题目内容大概是:给定一个字符串,如:“[[]]{}”,判断字符串是否为有效的括号。考查的是数据结构…...
接口自动化测试 —— 工具、请求与响应
一、工具: 1.工具介绍 postman :很主流的API测试工具,也是工作里面使用最广泛的研发工具。 JMeter: ApiPost: 2.安装postman: 安装好直接打开,不用注册。 二、通信模式: 1、…...
【LeetCode:2103. 环和杆 | 模拟】
🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…...
个人开发者如何通过TaoToken以更低成本体验多种主流大模型
🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 个人开发者如何通过TaoToken以更低成本体验多种主流大模型 对于预算有限的个人开发者和学生而言,直接接入和使用多个主…...
5分钟快速上手:FlicFlac音频格式转换工具完全指南 [特殊字符]
5分钟快速上手:FlicFlac音频格式转换工具完全指南 🎵 【免费下载链接】FlicFlac Tiny portable audio converter for Windows (WAV FLAC MP3 OGG APE M4A AAC) 项目地址: https://gitcode.com/gh_mirrors/fl/FlicFlac 还在为不同设备间的音频格式…...
如何用一套键盘鼠标控制多台电脑:Input Leap跨平台KVM终极指南
如何用一套键盘鼠标控制多台电脑:Input Leap跨平台KVM终极指南 【免费下载链接】input-leap Open-source KVM software 项目地址: https://gitcode.com/gh_mirrors/in/input-leap 你是否厌倦了在办公桌上摆满多个键盘鼠标,每次切换设备都要重新调…...
不用示波器也能调:在Vivado/Quartus里用时序约束搞定RGMII接口的建立保持时间
不依赖示波器的RGMII时序优化:FPGA工具链实战指南 当千兆以太网接口出现数据丢包或误码时,多数工程师的第一反应是抓起示波器测量信号完整性。但在实际项目周期中,硬件调试设备可能无法随时调用,而PCB设计又已成定局。此时&#x…...
OBS面部追踪插件终极指南:3分钟实现智能直播自动对焦
OBS面部追踪插件终极指南:3分钟实现智能直播自动对焦 【免费下载链接】obs-face-tracker Face tracking plugin for OBS Studio 项目地址: https://gitcode.com/gh_mirrors/ob/obs-face-tracker 在直播和视频录制中,你是否经常需要手动调整摄像头…...
基于STM32MP25x构建工业级嵌入式Linux平台:Debian、XFCE、VNC与TSN集成实践
1. 项目概述:一个面向工业边缘的“全能”嵌入式Linux平台最近,我们团队基于STM32MP25x系列核心板,成功构建并发布了一套完整的Debian系统镜像。这个项目的目标非常明确:打造一个开箱即用、功能全面且高度适配工业边缘计算场景的嵌…...
用emWin定时器给你的STM32 GUI界面“注入灵魂”:实现动态数据刷新与简易动画(基于WM_TIMER消息)
用emWin定时器为STM32 GUI注入动态交互的灵魂 在嵌入式设备的人机交互设计中,静态界面往往给人呆板的印象。想象一下工业仪表盘上凝固的数字,或是医疗设备上永不变化的指示灯——这种缺乏生命力的呈现方式不仅降低用户体验,还可能掩盖关键数据…...
英飞凌TC3XX芯片GPIO配置避坑指南:从PDR驱动强度到IOCR上下拉,手把手调优信号质量
英飞凌TC3XX芯片GPIO实战调优:从寄存器配置到信号完整性设计 在嵌入式系统开发中,GPIO接口的稳定性往往决定了整个系统的可靠性。当工程师面对30MHz SPI时钟信号的振铃问题、I2C总线上的电平冲突或是EMC测试中的辐射超标时,对英飞凌Aurix TC…...
FPGA 51,基于 ZYNQ 7Z010 的 FPGA 高速路由转发加速系统架构设计(Xilinx ZYNQ-MINI 7Z010 CLG400 -1)
目录 前言 一、系统整体架构设计 1.1 设计目标与性能指标...
精准识别胡椒成熟度!YOLO-AVCA-CBAMNet 让智慧农业更高效
点击蓝字 关注我们 关注并星标 从此不迷路 计算机视觉研究院 公众号ID|计算机视觉研究院 学习群|扫码在主页获取加入方式 https://pmc.ncbi.nlm.nih.gov/articles/PMC12830288/ 计算机视觉研究院专栏 Column of Computer Vision Institute 本文提出YOLO-…...
