当前位置: 首页 > article >正文

目标检测中的特征融合之道:从FPN原理到EFPN改进的深度复盘

在近期深入准备研究生复试及毕业设计的过程中我对目标检测中的多尺度特征融合技术进行了系统性梳理。本文详细拆解了FPNFeature Pyramid Networks的核心架构并进一步探讨了其改进版本EFPN的设计思路与实现细节。希望通过这篇笔记记录自己的学习路径也为同样关注该方向的同学提供参考。。1.FPNFPN出自于 Feature Pyramid Networks for Object Detection。其主要任务是解决目标检测在处理多尺度变化问题时的不足以上是原论文中给出的四种对比结构图已有。aFeaturized imagepyramid将一张图缩放到不同的尺度从而形成了一个特征金字塔然后对于不同尺度的图片分别进行特征的提取以及分别进行检测。优点图片进行缩放损失的内容比较少从而降低了高级语义信息和低级特征的损失。缺点每个尺寸等级都得分别进行检测特征提取所以推理时间增加且内存占用较高。bSingle feature map一张图片经过卷积网络会生成很多张图经过pooling池化和采样获得尺寸不同的图片形成金字塔然后在网络的最后一层进行检测。优点卷积网络对于尺度变化比较具有鲁棒性并且只在最后一层检测速度相对较快。缺点并没有使用构建金字塔。cPyramidal feature hierarchy利用卷积网络固有的金字塔层次在不同层上分别检测。优点使用了卷积网络固有的金字塔层次。缺点图片经过一系列的卷积语义信息会逐渐增强一些低级信息就会逐渐损失导致网络深层高级信息比较多底层信息比较少而浅层低级信息比较多高级信息比较少从而使得在不同层检测会出现差异。dFeature Pyramid Network使用skip connection将高级语义特征和低级语义特征融合起来构建了一个自顶向下的路径然后在最后一层进行检测。优点无需构建耗时的图像金字塔单图输入实现了多尺度特征融合在每一个层级 P3∼P7P3∼P7 都进行预测兼顾了小目标和大目标的检测。 缺点自顶向下的路径中深层的高级语义信息在经过多次上采样和融合后传递到最底层时可能会有所减弱这也是后来 PANet 引入自底向上增强路径的原因。FPN使用skip connection将低级语义信息和高级语义信息融合起来构建一个自顶向下的路径最终在多层级进行检测。特点高级语义信息在路径融合过程中会逐渐稀释采取顺序形式的方法使得集成特征更多的是关注相邻层而不是关注其它层从而导致非相邻层语义会被稀释。FPN算法输入单张图片输出多张尺寸不同的特征图自底向上把路径分为多个阶段每个阶段划分为一个特征等级而每个阶段里面输出特征图尺寸相同取其中最后一层的输出作为该阶段输出每个阶段最深层特征最强相邻层下采样比例为2特征图的空间尺寸在相邻两个层级之间缩小为原来的1/2。自上往下高级语义信息有助于识别目标但有害于定位目标低级语义信息有益于定位目标但不易于识别目标而通过skip connection来构建自上往下的路径将高层的强语义信息融合到底层的高分辨率特征当中。初始化顶层上采样横向连接元素级相加skip connection把自上往下路径的分辨率特征上采样比例为2使用1×1卷积减少来自自底向上路径的特征图的通道数将以上得到的2个特征图进行element-wise addition。图解结构核心思想是否需多尺度输入检测层级主要缺陷(a) Image Pyramid图片缩放 - 分别提取 - 分别检测是 (慢显存大)各层独立推理速度慢计算冗余(b) Single Map单图提取 - 仅最后一层检测否仅顶层小目标检测效果差 (丢失细节)(c) Feature Hierarchy单图提取 - 各层分别检测否各层独立底层缺乏语义信息 (难以识别小物体类别)(d) FPN自顶向下融合 横向连接否 (单图即可)各层融合后深层语义传到底层可能有损耗 (后续由 PANet 解决)2.EFPN1.传统FPN上采样缺陷在原始的FPN当中自顶向下路径融合的过程中使用的是双线性差值Bilinear Interpolation将高层特征图放大。但是插值算法是固定的数学公式是基于周围像素的加权平均网络是无法通过训练来优化这个过程的同时插值会导致高频信息丢失边缘变得模糊这对于需要精确定位的目标检测尤其是小目标是不利的同时简单的插值可能无法完美的对其深层语义特征和浅层细节特征的的空间分布。2.EFPN核心改进可学习上采样Learnable UpsamplingEFPN通常引入反卷积 (Deconvolution / ConvTranspose2d) 或 亚像素卷积 (PixelShuffle) 来替代双线性插值。在这种情况下上采样的滤波器是通过反向传播学习得到的网络可以学会更好的恢复细节而不是简单的平均像素同时可以更好的保持特征的边缘锐度减少模糊且能够根据当前的任务自适应地调整采样策略。3.算法原理深度解析A.双线性差值Baseline利用输入特征图中相邻的2×2个像素点的距离加权平均来计算出像素值其数学本质是低通滤波平滑了信号。B反卷积/转置卷积在输入特征图的像素之间插入零Zero Padding/Expansion使用一个可学习的卷积核进行常规卷积Kernel代码如下kernel [[[-0.1, -0.1, -0.1],[-0.1, 1.5, -0.1],[-0.1, -0.1, -0.1]]]中心权重1.5很大周围是负值-0.1这实际上是一个锐化滤波器Sharpening Filter的雏形在训练过程中这个kernel会演变成最适合恢复该层级特征的形态可能包含边缘增强、纹理恢复等模式。4.EFPN 的整体架构优势如果将这种“可学习上采样”应用到完整的 FPN 架构中就构成了 EFPN 的主要优势1.更精准的特征融合传统 FPN: PiUpsample(Pi1)CiPiUpsample(Pi1)Ci(Upsample 是固定的)EFPN: PiDeconv(Pi1)CiPiDeconv(Pi1)Ci(Deconv 是可学习的)结果融合后的特征图 PiPi既保留了 CiCi的高分辨率细节又通过可学习的方式更完美地注入了 Pi1Pi1 的强语义信息减少了“混叠效应”。2.小目标检测性能提升小目标依赖底层高分辨率特征。如果上采样过程模糊了高层传下来的语义信息小目标的分类置信度会下降。EFPN 的锐利上采样有助于在低层特征图中保留更清晰的语义线索显著提升 Small Object AP ( APSAPS)。3.端到端优化整个上采样过程成为网络的一部分参与梯度反向传播。损失函数Loss可以直接指导上采样层如何更好地重建特征以最小化检测误差。5.潜在的挑战与权衡虽然代码展示了 Deconv 的“Sharp”优点但在实际工程应用 EFPN 时也需注意A.棋盘格效应 (Checkerboard Artifacts)转置卷积有时会在输出特征图上产生网格状的伪影因为卷积核重叠不均匀。解决方案通常建议在 Deconv 之后接一个普通的 3×33×3 卷积层如原始 FPN 做的那样来平滑这些伪影或者使用 PixelShuffle (Sub-pixel Convolution) 作为替代方案它通常能产生更平滑的结果。B.计算量增加双线性插值几乎不增加参数量和计算量。反卷积引入了额外的权重参数和乘加运算MACs。对于移动端或实时性要求极高的场景需要评估这个精度提升是否值得付出的速度代价。结果测试

相关文章:

目标检测中的特征融合之道:从FPN原理到EFPN改进的深度复盘

在近期深入准备研究生复试及毕业设计的过程中,我对目标检测中的多尺度特征融合技术进行了系统性梳理。本文详细拆解了FPN(Feature Pyramid Networks)的核心架构,并进一步探讨了其改进版本EFPN的设计思路与实现细节。希望通过这篇笔…...

农业气象分析必备:手把手教你从中国气象网获取有效积温数据

农业气象分析实战:高效获取与处理积温数据的完整指南 积温数据是农业科研和精准农业应用中不可或缺的基础数据之一。对于作物生长模型构建、品种选育、种植区划等研究而言,准确获取和处理≥10℃的有效积温数据尤为关键。本文将详细介绍从中国气象数据共享…...

py 图片拆分

from PIL import Image import osdef split_chars_and_numbers(image_path, output_dir"split_all_chars", split_lettersTrue, split_numbersTrue):"""一体化切分图片中的字母(A-Z)和数字(1-90):param image_path: 输入图片路径:param output_dir: 输…...

PyTorch网络可视化利器:PlotNeuralNet从入门到实战

1. PlotNeuralNet:让神经网络结构一目了然的神器 第一次看到PlotNeuralNet生成的网络结构图时,我正为论文插图发愁。那些用PPT手绘的粗糙框图在学术会议上显得格格不入,直到发现这个能将代码直接转化为出版级矢量图的工具。PlotNeuralNet本质…...

为B2B工业制造企业甄选GEO服务商:为何径硕科技(JINGdigital)是值得托付的专业之选

当工业制造企业的营销决策者主动探寻“b2b工业制造企业geo服务商”时,这标志着企业的数字化战略已进入一个务实且关键的新阶段:从理解趋势转向寻求可靠的执行伙伴。在生成式搜索(GEO)成为新流量中枢的背景下,选择一家真…...

如何为YOLO模型注入新模块:从零到一的实战缝合指南

1. 为什么需要给YOLO模型添加新模块 第一次接触YOLO模型时,我就被它的速度和精度所震撼。但随着项目深入,发现原版模型在某些特定场景下表现不佳。比如在夜间低光照条件下,目标检测的准确率会明显下降;又或者遇到密集小物体时&…...

YOLOv12赋能Web前端:JavaScript实现浏览器端实时目标检测演示

YOLOv12赋能Web前端:JavaScript实现浏览器端实时目标检测演示 最近在捣鼓一些前端和AI结合的有趣项目,发现了一个挺有意思的方向:把目标检测这种通常需要后端服务器或强大GPU支持的任务,直接搬到浏览器里跑。听起来有点不可思议对…...

股票查询API实践分享:实时获取关注股票行情

在做股票相关项目时,我经常需要实时关注几只重点股票的行情,这不仅是为了展示,也方便做一些简单分析或策略判断。单靠手动刷新网页或者定时抓取数据效率太低,而股票查询API可以把行情数据直接推送到程序里,非常方便。确…...

最新!2026年OpenClaw京东云4分钟云上/MacOS/Linux/Windows集成及使用步骤

最新!2026年OpenClaw京东云4分钟云上/MacOS/Linux/Windows集成及使用步骤。OpenClaw是什么?OpenClaw能做什么?OpenClaw怎么部署?OpenClaw(前身为Clawdbot/Moltbot)作为开源、本地优先的AI助理框架&#xff…...

Wan2.1 VAE一键部署教程:基于Python的AI图像生成环境快速搭建

Wan2.1 VAE一键部署教程:基于Python的AI图像生成环境快速搭建 你是不是也对那些能凭空生成精美图片的AI模型感到好奇,想亲手搭建一个来玩玩,却被复杂的依赖、繁琐的配置劝退?别担心,今天我们就来聊聊Wan2.1 VAE这个开…...

在 ASP.NET Core 项目里接入大模型,真没那么难

生成式 AI 这两年火得发烫,但很多 .NET 团队还在观望——不是不想用,是怕“水土不服”:OpenAI 要科学-上网、Azure 成本高、国外模型对中文理解总差点意思……好消息是,现在完全不用纠结了。通义千问、DeepSeek 这些国产大模型&am…...

ChatGLM3-6B-128K效果展示:Ollama部署后招投标文件128K关键条款比对

ChatGLM3-6B-128K效果展示:Ollama部署后招投标文件128K关键条款比对 1. 引言:当AI遇上超长合同 想象一下,你面前摆着两份加起来超过十万字的招投标文件,你需要快速找出其中所有不一致的条款、潜在的风险点,以及可能存…...

3月前端面试了十来个前端开发,全是菜鸡!!

都说了现在除了大厂,基本不问八股了,都在刷场景 例如: “如何一次性渲染十万条数据还能保证页面不卡顿?”(虚拟列表实现,还要支持动态高度) “当QPS达到峰值时,前端该如何处理&am…...

如何画出优秀的架构图?

41架构视图逻辑视图:系统提供给用户的功能,对应 UML 的 class 和 state diagrams处理视图:系统的处理过程,对应 UML 的 sequence 和 activity diagrams开发视图:程序员角度看系统的逻辑组成,对应 UML 的 pa…...

霜儿-汉服-造相Z-Turbo生成效果深度评测:对比不同采样器与参数

霜儿-汉服-造相Z-Turbo生成效果深度评测:对比不同采样器与参数 最近在玩AI绘画的朋友,估计都听说过“造相Z-Turbo”这个模型,尤其是它在生成国风、汉服这类题材上的表现,经常被大家津津乐道。但模型好归好,怎么才能让…...

GTE文本向量-large多任务协同案例:电商评论情感分析→触发事件抽取→生成摘要链路

GTE文本向量-large多任务协同案例:电商评论情感分析→触发事件抽取→生成摘要链路 1. 引言:从单一任务到智能决策链 想象一下,你是一家电商平台的运营人员。每天,海量的用户评论涌入后台,里面混杂着对商品的赞美、对…...

Java毕业设计springboot基于Javaweb的二手图书交易系统76915352

前言 基于Spring Boot的二手图书交易系统是一个高效、易用、安全、可扩展的在线交易平台。该系统采用JavaWeb技术栈和优秀的开发框架,实现了用户注册与登录、用户信息管理、图书管理、交易管理、支付功能、评价系统和消息通知等主要功能模块。同时,系统还…...

CIrrMap250:中国2000–2020年250米灌溉耕地分布栅格数据|逐年百分比|GeoTIFF格式

🔍 数据简介 本数据集为 CIrrMap250(Annual maps of China’s irrigated cropland from 2000 to 2020),由中国科学院西北生态环境资源研究院张凌等学者于2024年6月发布于 figshare 平台。 数据提供 2000–2020 年中国逐年灌溉耕地…...

零基础入门Sambert语音合成:Web界面操作,快速生成多情感语音

零基础入门Sambert语音合成:Web界面操作,快速生成多情感语音 1. 引言:语音合成的平民化时代 想象一下,你正在制作一个儿童故事APP,需要不同角色的声音;或者你经营一家网店,想为每个商品添加个…...

安达发|生产排单软件——让汽配行业零部件“掉链子”成为历史!

汽车制造领域有说法称,一辆汽车上万个零部件,任一零部件交付延迟都可能让总装线停滞,这使汽配行业生产排单成了与时间的精准博弈。某汽配供应商为例,它为车企生产发动机支架等,每天要处理数百订单、数十型号产品&#…...

Retinaface+CurricularFace部署教程:NVIDIA驱动版本要求与GPU利用率监控方法

RetinafaceCurricularFace部署教程:NVIDIA驱动版本要求与GPU利用率监控方法 1. 环境准备与驱动检查 在部署RetinafaceCurricularFace人脸识别模型之前,确保你的NVIDIA显卡驱动和CUDA环境正确配置至关重要。这个模型基于PyTorch框架,需要特定…...

Qwen3-32B智能客服系统:SpringBoot微服务架构设计与实现

Qwen3-32B智能客服系统:SpringBoot微服务架构设计与实现 1. 智能客服系统架构设计 现代企业客服系统面临高并发、多租户、智能化等核心需求。基于Qwen3-32B大模型和SpringBoot微服务架构,我们设计了一套高性能智能客服解决方案。 系统采用分层架构设计…...

霜儿-汉服-造相Z-Turbo API接口设计规范与最佳实践

霜儿-汉服-造相Z-Turbo API接口设计规范与最佳实践 最近在折腾一个基于“霜儿-汉服-造相Z-Turbo”模型的AI绘画项目,发现要把模型能力开放出去,设计一套好用的API接口是关键。这事儿听起来挺技术,但其实跟设计一个清晰、好用的产品说明书差不…...

4步掌握视差滚动技术:面向前端开发者的Locomotive Scroll实战指南

4步掌握视差滚动技术:面向前端开发者的Locomotive Scroll实战指南 【免费下载链接】locomotive-scroll 🛤 Detection of elements in viewport & smooth scrolling with parallax. 项目地址: https://gitcode.com/gh_mirrors/lo/locomotive-scroll…...

如何用Siri控制传统家电?Homebridge-Broadlink-RM插件全攻略

如何用Siri控制传统家电?Homebridge-Broadlink-RM插件全攻略 【免费下载链接】homebridge-broadlink-rm Broadlink RM Mini and Pro plugin for homebridge: https://github.com/nfarina/homebridge 项目地址: https://gitcode.com/gh_mirrors/ho/homebridge-broa…...

PE_to_shellcode:将Windows可执行文件转化为注入式shellcode的终极方案

PE_to_shellcode:将Windows可执行文件转化为注入式shellcode的终极方案 【免费下载链接】pe_to_shellcode Converts PE into a shellcode 项目地址: https://gitcode.com/gh_mirrors/pe/pe_to_shellcode 在红队渗透测试和恶意软件分析领域,PE文件…...

告别单调界面:foobox-cn如何为foobar2000带来专业级音乐播放体验

告别单调界面:foobox-cn如何为foobar2000带来专业级音乐播放体验 【免费下载链接】foobox-cn DUI 配置 for foobar2000 项目地址: https://gitcode.com/GitHub_Trending/fo/foobox-cn 你是否厌倦了千篇一律的音乐播放器界面?foobox-cn作为专为foo…...

自定义foobar2000界面:foobox-cn带来的音乐体验升级

自定义foobar2000界面:foobox-cn带来的音乐体验升级 【免费下载链接】foobox-cn DUI 配置 for foobar2000 项目地址: https://gitcode.com/GitHub_Trending/fo/foobox-cn 每天面对单调的音乐播放器界面是否让你感到审美疲劳?作为音乐爱好者&#…...

AI驱动的测试革命:Cover-Agent自动化测试生成工具全解析

AI驱动的测试革命:Cover-Agent自动化测试生成工具全解析 【免费下载链接】cover-agent CodiumAI Cover-Agent: An AI-Powered Tool for Automated Test Generation and Code Coverage Enhancement! 💻🤖🧪🐞 项目地址…...

AuraSR超分辨率终极指南:3分钟快速实现AI图片4倍无损放大

AuraSR超分辨率终极指南:3分钟快速实现AI图片4倍无损放大 【免费下载链接】AuraSR 项目地址: https://ai.gitcode.com/hf_mirrors/fal/AuraSR 想要将AI生成的模糊图片瞬间变成高清大作吗?AuraSR超分辨率模型让你轻松实现图片4倍无损放大&#xf…...