【深度学习基础之多尺度特征提取】特征金字塔(Feature Pyramid)是如何在深度学习网络中提取多尺度特征的?附代码
【深度学习基础之多尺度特征提取】特征金字塔(Feature Pyramid)是如何在深度学习网络中提取多尺度特征的?附代码
【深度学习基础之多尺度特征提取】特征金字塔(Feature Pyramid)是如何在深度学习网络中提取多尺度特征的?附代码
文章目录
- 【深度学习基础之多尺度特征提取】特征金字塔(Feature Pyramid)是如何在深度学习网络中提取多尺度特征的?附代码
- 前言
- 1. 特征金字塔(Feature Pyramid)的工作原理
- 2. FPN的架构
- 3. 代码实现:FPN(Feature Pyramid Networks)
- 代码解析:
- 底到顶路径(Bottom-up pathway):
- 顶到底路径(Top-down pathway):
- 特征融合:
- 输出:
- 4. 特征金字塔在深度学习中的作用
- 5. 总结
欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!
大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议详细信息可参考:https://ais.cn/u/mmmiUz
前言
特征金字塔(Feature Pyramid) 是一种用于提取多尺度特征的技术,常用于目标检测和图像分割等任务中。特征金字塔通过逐层下采样并融合不同尺度的特征图,帮助网络在不同层次上捕获不同尺度的上下文信息。
最经典的特征金字塔结构是 FPN (Feature Pyramid Networks),它通过顶到底(top-down)和底到顶(bottom-up)两种路径,将多尺度特征进行有效融合,进而提升模型对不同大小目标的识别能力。
1. 特征金字塔(Feature Pyramid)的工作原理
FPN 的基本思想是将高层特征(低分辨率、高语义信息)与低层特征(高分辨率、细节信息)结合,构建出一个多尺度的特征金字塔。
- 底到顶路径(Bottom-Up Pathway):从输入图像中提取逐渐低分辨率的特征图(如通过卷积层进行下采样)。
- 顶到底路径(Top-Down Pathway):通过反卷积(或上采样)将高层特征图上采样到较高分辨率,并与相应分辨率的低层特征图进行融合。
通过这种方式,FPN可以将高层特征的语义信息与低层特征的细节信息结合起来,从而提升对小物体和大物体的检测能力。
2. FPN的架构
FPN通常包含以下几个组件:
- 底到顶路径:使用卷积网络逐步提取不同尺度的特征图。
- 顶到底路径:使用上采样(如转置卷积或插值)将高层特征图恢复到较高分辨率,并与低层特征进行融合(通常通过加法或拼接的方式)。
- 特征融合:最终通过卷积将融合后的多尺度特征整合,输出最终的多尺度特征图。
3. 代码实现:FPN(Feature Pyramid Networks)
以下是一个简化版的 FPN(Feature Pyramid Network)实现,展示了如何通过顶到底路径和底到顶路径进行特征融合:
简化版FPN的代码示例:
import torch
import torch.nn as nn
import torch.nn.functional as Fclass FPN(nn.Module):def __init__(self, in_channels, out_channels):super(FPN, self).__init__()# Bottom-up layers (convolutions with downsampling)self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=2, padding=1)self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=2, padding=1)self.conv3 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=2, padding=1)# Top-down layers (Upsampling and combining features)self.upsample2 = nn.ConvTranspose2d(out_channels, out_channels, kernel_size=2, stride=2)self.upsample3 = nn.ConvTranspose2d(out_channels, out_channels, kernel_size=2, stride=2)# Final convolution to refine the output feature mapself.final_conv = nn.Conv2d(out_channels * 3, out_channels, kernel_size=3, padding=1)def forward(self, x):# Bottom-up feature extractionx1 = self.conv1(x) # First downsampling layerx2 = self.conv2(x1) # Second downsampling layerx3 = self.conv3(x2) # Third downsampling layer# Top-down feature refinementx2_up = self.upsample2(x3) # Upsample x3 to match x2x2_fuse = x2 + x2_up # Combine x2 and x2_upx1_up = self.upsample3(x2_fuse) # Upsample x2_fuse to match x1x1_fuse = x1 + x1_up # Combine x1 and x1_up# Final feature map after fusion of multi-scale featuresout = self.final_conv(torch.cat([x1_fuse, x2_fuse, x3], dim=1))return out# 示例输入
input_tensor = torch.randn(1, 3, 64, 64) # 输入一个64x64的RGB图像
model = FPN(in_channels=3, out_channels=16)
output_tensor = model(input_tensor)
print(output_tensor.shape) # 输出形状: (1, 16, 64, 64)
代码解析:
底到顶路径(Bottom-up pathway):
- 使用3个卷积层
(conv1, conv2, conv3)依次对输入特征图进行下采样(通过卷积+步长=2的方式)。 - 每一层卷积提取一个不同尺度的特征图,其中
x1, x2, x3分别代表从较低分辨率到较高分辨率的特征。
顶到底路径(Top-down pathway):
- 使用上采样(
ConvTranspose2d,即转置卷积)将高层特征图上采样。 x2_up和x1_up是分别上采样x3和x2到较高分辨率后得到的特征图。- 将上采样后的特征图与底层特征图进行融合(通过加法)
x2_fuse和x1_fuse。
特征融合:
- 将不同尺度的特征图
x1_fuse, x2_fuse, x3拼接起来,并通过一个最终的卷积层(final_conv)来精细化多尺度特征。
输出:
- 最终输出的特征图包含了多个尺度的信息。
4. 特征金字塔在深度学习中的作用
- 多尺度特征提取:通过在不同层次提取特征并融合,FPN帮助网络捕获不同尺度的物体信息。低层特征图包含了更细粒度的空间信息,而高层特征图包含了更丰富的语义信息。
- 小物体检测:由于低层特征图包含了较多细节,帮助模型识别较小的目标。
- 大物体检测:高层特征图提供了丰富的上下文信息,有助于识别大尺寸的物体。
5. 总结
- 特征金字塔(FPN)通过底到顶和顶到底的特征融合路径,结合不同层的多尺度特征,有效提升了深度学习模型对多尺度物体的识别能力。
- 在许多任务中,如目标检测和图像分割,FPN技术都表现出了显著的优势,特别是在同时处理小物体和大物体时。通过逐层下采样和上采样的方式,FPN实现了高效的多尺度特征融合,显著提升了模型的性能。
欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!
大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议详细信息可参考:https://ais.cn/u/mmmiUz
相关文章:
【深度学习基础之多尺度特征提取】特征金字塔(Feature Pyramid)是如何在深度学习网络中提取多尺度特征的?附代码
【深度学习基础之多尺度特征提取】特征金字塔(Feature Pyramid)是如何在深度学习网络中提取多尺度特征的?附代码 【深度学习基础之多尺度特征提取】特征金字塔(Feature Pyramid)是如何在深度学习网络中提取多尺度特征…...
【Docker】离线安装 Docker
离线安装 Docker 在CentOS系统上安装Docker 1、下载 Docker 仓库文件 https://download.docker.com/linux/centos/docker-ce.repo 2、添加 Docker 仓库文件 将上一步下载的文件,移动到 /etc/yum.repos.d/ 目录 3、清除 YUM 缓存 sudo yum clean all sudo yum…...
三大行业案例:AI大模型+Agent实践全景
本文将从AI Agent和大模型的发展背景切入,结合51Talk、哈啰出行以及B站三个各具特色的行业案例,带你一窥事件驱动架构、RAG技术、人机协作流程,以及一整套行之有效的实操方法。具体包含内容有:51Talk如何让智能客服“主动进攻”&a…...
Dockerfile基础指令
1.FROM 基于基准镜像(建议使用官方提供的镜像作为基准镜像,相对安全一些) 举例: 制作基准镜像(基于centos:lastest) FROM cenots 不依赖于任何基准镜像 FROM scratch 依赖于9.0.22版本的tomcat镜像 FROM…...
12.30 linux 文件操作,磁盘分区挂载
ubuntu 在linux 对文件的相关操作【压缩,打包,软链接,文件权限】【head,tail,管道符,通配符,find,grep,cut等】脑图-CSDN博客 1.文件操作 在家目录下创建目录文件&#…...
[图形渲染]【Unity Shader】【游戏开发】 Shader数学基础17-法线变换基础与应用
在计算机图形学中,法线(normal) 是表示表面方向的向量。它在光照、阴影、碰撞检测等领域有着重要作用。本文将介绍如何在模型变换过程中正确变换法线,确保其在光照计算中的正确性,特别是法线与顶点的变换问题。 1. 法线与切线的基本概念 法线(Normal Vector) 法线(或…...
YOLOv9-0.1部分代码阅读笔记-train.py
train.py train.py 目录 train.py 1.所需的库和模块 2.def train(hyp, opt, device, callbacks): 3.def parse_opt(knownFalse): 4.def main(opt, callbacksCallbacks()): 5.def run(**kwargs): 6.if __name__ "__main__": 1.所需的库和模块 import …...
等保测评和密评的相关性和区别
等保测评和密评在网络安全领域均扮演着至关重要的角色,它们之间既存在相关性,又各具特色。 以下是对两者相关性和区别的详细阐述:相关性 1.法律基础:等保测评和密评都是依据国家相关法律法规开展的活动。 等保测评主要依据《网…...
活动预告 |【Part2】 Azure 在线技术公开课:迁移和保护 Windows Server 和 SQL Server 工作负载
课程介绍 通过 Microsoft Learn 免费参加 Microsoft Azure 在线技术公开课,掌握创造新机遇所需的技能,加快对 Microsoft 云技术的了解。参加我们举办的“迁移和保护 Windows Server 和 SQL Server 工作负载”活动,了解 Azure 如何为将工作负载…...
大语言模型(LLM)一般训练过程
大语言模型(LLM)一般训练过程 数据收集与预处理 收集:从多种来源收集海量文本数据,如互联网的新闻文章、博客、论坛,以及书籍、学术论文、社交媒体等,以涵盖丰富的语言表达和知识领域。例如,训练一个通用型的LLM时,可能会收集数十亿甚至上百亿字的文本数据.清洗:去除…...
单片机的基本组成
单片机,即单芯片微型计算机(Single-Chip Microcomputer),是一种将中央处理器(CPU)、内存、输入输出接口等功能集成在一块集成电路芯片上的微型计算机。它具有体积小、成本低、可靠性高、功耗低等优点,在现代电子产品中…...
GO性能优化的一些记录:trace工具的使用
使用场景: 1 想要查看接口延时性偏高 2 深入了解协程具体如何运营的详细信息(运行时长,或者什么原因导致了协程运行受阻) 可以使用 trace 功能,程序便会对下面的一系列事件进行详细记录,并且会依据所搜集到…...
dede-cms关于shell漏洞
一.文件式管理器 1.新建文件 新建一个php文件,内容写个php脚本语言 访问,可以运行 2.文件上传 上传一个php文件,内容同样写一个php代码 访问,运行成功 二.模块-广告管理 来到模块-广告管理——>增加一个新广告 在这里试一下…...
NAT 技术如何解决 IP 地址短缺问题?
NAT 技术如何解决 IP 地址短缺问题? 前言 这是我在这个网站整理的笔记,有错误的地方请指出,关注我,接下来还会持续更新。 作者:神的孩子都在歌唱 随着互联网的普及和发展,IP 地址的需求量迅速增加。尤其是 IPv4 地址&…...
使用 IDE生成 Java Doc
使用步骤 Android Studio界面->Tools->Generate JavaDoc zh-CN -encoding UTF-8 -charset UTF-8 -classpath “C:\Users\fangjian\AppData\Local\Android\Sdk\platforms\android-34\android.jar” 报错问题 错误: 目标 17 不允许选项 --boot-class-path 如果你正在使用…...
通过无障碍服务(AccessibilityService)实现Android设备全局水印显示
一、无障碍功能简介 首先我们先来了解下无障碍功能的官方介绍: 无障碍服务仅应用于帮助残障用户使用 Android 设备和应用。它们在后台运行,并在触发 AccessibilityEvents 时接收系统的回调。此类事件表示用户界面中的某些状态转换,例如焦点已…...
flask后端开发(2):URL与视图
目录 URL定义request获取请求参数 gitcode地址: https://gitcode.com/qq_43920838/flask_project.git URL定义 from flask import FlaskappFlask(__name__)app.route(/) def hello_world():return Hello World!app.route(/profile) def profile():return 我是个人…...
力扣-数据结构-7【算法学习day.78】
前言 ###我做这类文章一个重要的目的还是给正在学习的大家提供方向(例如想要掌握基础用法,该刷哪些题?建议灵神的题单和代码随想录)和记录自己的学习过程,我的解析也不会做的非常详细,只会提供思路和一些关…...
【潜意识Java】Java中深入解析抽象类与接口的差异的完整笔记总结【保姆级详细教程】
目录 一、抽象类和接口的基本概念 (一)抽象类是什么 (二)接口是什么 二、抽象类和接口的设计目的差异 (一)抽象类的设计初衷 (二)接口的设计意图 三、抽象类和接口的语法特性…...
【Flink运行时架构】系统构架
SMP架构 数据处理系统的架构最简单的实现方式就是单节点,但是随着数据量的增大,为了使单节点的机器性能更加强大,需要增加CPU数量和加大内存来提高吞吐量。这就是所谓的SMP(Symmetrical Multi Processing,对称多处理)架构。 但是这种架构带来…...
BilibiliDown:3分钟上手,从此告别B站视频下载烦恼
BilibiliDown:3分钟上手,从此告别B站视频下载烦恼 【免费下载链接】BilibiliDown (GUI-多平台支持) B站 哔哩哔哩 视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mi…...
汇川PLC编写,设备状态机的实现以及实际案例使用,针对设备的多种状态进行区分,有单独状态和叠加...
汇川PLC编写,设备状态机的实现以及实际案例使用,针对设备的多种状态进行区分,有单独状态和叠加态的实现方式在工业自动化项目里,设备状态机就像给机器装了个智能开关板。最近调试包装产线时发现,设备动不动就卡在"…...
MEMS加速度计:从原理到智能设备的创新应用
1. MEMS加速度计:小身材大能量的传感器 你可能每天都在用MEMS加速度计,只是自己不知道。当你把手机横过来看视频时屏幕自动旋转,或者戴着智能手表记录步数时,背后都是这个小东西在默默工作。MEMS加速度计全称是微机电系统加速度计…...
OpenClaw开源贡献:为Qwen3.5-9B编写自定义技能指南
OpenClaw开源贡献:为Qwen3.5-9B编写自定义技能指南 1. 为什么要为OpenClaw开发自定义技能 去年冬天,当我第一次尝试用OpenClaw自动整理电脑上堆积如山的会议录音时,发现现有的技能库无法满足我的个性化需求。这促使我深入研究如何为这个开源…...
中文文献管理效率提升指南:茉莉花插件的全方位应用
中文文献管理效率提升指南:茉莉花插件的全方位应用 【免费下载链接】jasminum A Zotero add-on to retrive CNKI meta data. 一个简单的Zotero 插件,用于识别中文元数据 项目地址: https://gitcode.com/gh_mirrors/ja/jasminum 在学术研究与文献管…...
数字人项目救星:lite-avatar形象库150+免费形象开箱即用
数字人项目救星:lite-avatar形象库150免费形象开箱即用 还在为数字人项目找不到合适、好看又免费的形象发愁吗?自己训练模型,耗时耗力,效果还不一定好;购买商业形象库,成本高昂,预算有限根本玩…...
Qwen-Image-Edit-F2P教程:Gradio界面实时交互调试+生成过程进度条可视化原理
Qwen-Image-Edit-F2P教程:Gradio界面实时交互调试生成过程进度条可视化原理 想玩转AI图像编辑,但被复杂的命令行和漫长的等待劝退?今天,我们来点不一样的。我将带你深入一个开箱即用的AI图像编辑工具——Qwen-Image-Edit-F2P&…...
Spring Boot 3 + Spring AI + DeepSeek:构建生产级高并发智能客服系统的架构与工程实践
Spring Boot 3 + Spring AI + DeepSeek:构建生产级高并发智能客服系统的架构与工程实践 一、为什么“能对话”不等于“能上线” 很多团队在做智能客服时,第一版通常都能很快跑通: 前端输入用户问题 后端拼接 Prompt 调用大模型返回回答 Demo 阶段看起来效果不错,但一旦进…...
Pixel Epic · Wisdom Terminal参数详解:能量值阈值设置对生成稳定性影响分析
Pixel Epic Wisdom Terminal参数详解:能量值阈值设置对生成稳定性影响分析 1. 像素史诗终端概述 Pixel Epic Wisdom Terminal是一款创新性的研究报告辅助工具,它将枯燥的科研工作转化为一场充满趣味的像素冒险。这款终端基于AgentCPM-Report大模型构…...
Linux C编程基础知识(命令行参数)
getopt接口int getopt(int argc, char *const argv[], const char *optstring);参数说明:参数作用argc/argv直接传入 main 函数的命令行参数(个数 数组)optstring选项规则字符串,核心规则:- 单个字符(如 h…...
