当前位置：首页 > news >正文

SegFormer网络结构的学习和重构

news 2025/7/10 20:51:22

因为太多的博客并没有深入理解,本文是自己学习后加入自己深入理解的总结记录，方便自己以后查看。

segformer中encoder、decoder的详解。

学习前言

一起来学习Segformer的原理,如果有用的话，请记得点赞+关注哦。

一、Segformer的网络结构图

网络结构：主要由Transformer的编码器和轻量级的多层感知机(MLP)的解码器组成

网络特点：
1、结合了Transformers与轻量级的多层感知机(MLP)解码器。
2、包含一个新颖的分层结构的Transformer编码器，该编码器输出多尺度特征。它不需要位置编码，因此避免了位置编码的插值，这在测试分辨率与训练时不同的情况下可能会导致性能下降。
3、避免使用复杂的解码器。提议的MLP解码器从不同的层中聚合信息，从而同时结合了局部注意力和全局注意力来呈现强大的表示。
4、设计非常简单和轻量级，这是在Transformers上实现高效分割的关键。
5、SegFormer系列模型从SegFormer-B0到SegFormer-B5有多个版本，与之前的模型相比，它们的性能和效率都有显著的提高。

二、理解各模块的网络结构

encoder：作者设计了一系列的 Mix Transformer encoders (MiT)，MiT-B0 到 MiT-B5，结构相同，大小不同，MiT-B0 是最轻量级的，可以用来快速推理，MiT-B5 是最重量级的，可以取得最好的效果。

encoder——OverlapPatchEmbed：通过2D卷积操作将图像分块（4分块）并将其嵌入到指定的维度的模块，通过Hierarchical Feature Representation这种方式，编码器可以同时提供高分辨率的粗糙特征和低分辨率的精细特征，从而更好地捕捉不同尺度的上下文信息。

#block1 对输入图像进行分区，并下采样512, 512, 3 => 128, 128, 32 => 16384, 32self.patch_embed1 = OverlapPatchEmbed(patch_size=7, stride=4, in_chans=in_chans, embed_dim=embed_dims[0])#block2对输入图像进行分区，并下采样，128, 128, 32 => 64, 64, 64 => 4096, 64self.patch_embed2 = OverlapPatchEmbed(patch_size=3, stride=2, in_chans=embed_dims[0], embed_dim=embed_dims[1])#block3对输入图像进行分区，并下采样  64, 64, 64 => 32, 32, 160 => 1024, 160self.patch_embed3 = OverlapPatchEmbed(patch_size=3, stride=2, in_chans=embed_dims[1], embed_dim=embed_dims[2])#block4对输入图像进行分区，并下采样32, 32, 160 => 16, 16, 256 => 256, 256self.patch_embed4 = OverlapPatchEmbed(patch_size=3, stride=2, in_chans=embed_dims[2], embed_dim=embed_dims[3])

encoder——Efficient self-attention:Attention机制(注意力机制),encoder 中计算量最大的就是 self-attention 层模块进行特征特区

        self.attn = Attention(dim, num_heads=num_heads, qkv_bias=qkv_bias, qk_scale=qk_scale,attn_drop=attn_drop, proj_drop=drop, sr_ratio=sr_ratio)

encoder——Mix FNN:在 FNN （前馈神经网络）中使用了 3x3 的卷积和 MLP,作者认为 position encoding（PE）来引入局部位置信息在语义分割中是不需要的，所以引入了一个 Mix-FFN，考虑了零填充对位置泄露的影响，直接在 FFN 中使用 3x3 的卷积

    self.mlp = Mlp(in_features=dim, hidden_features=int(dim * mlp_ratio), act_layer=act_layer, drop=drop)

encoder——Overlapped Patch Merging：为了在保持局部连续性的同时获得分层特征图，SegFormer采用了重叠patch merging技术。这种方法通过重叠的patch来合并特征，与不重叠的patch merging相比，可以生成相同大小的特征图，同时更好地保留局部信息。

decoder：本文提出了一个轻量化的全由MLP组成的解码器，之所以可以使用如此简单轻量的decoder是因为本文的分层Transformer编码器比传统的卷积编码器具有更大的有效感受野。

Decoder 的过程：

step 1：将多层级特征输入 MLP 层，来规范通道维度
step 2：将特征图上采样为原图大小的 1/4 大小，concat 起来
step 3：使用一层 MLP 对特征通道聚合
step 4：输出预测 segmentation mask H 4 × W 4 × N

SegFormer网络结构的学习和重构

学习前言

一、Segformer的网络结构图

二、理解各模块的网络结构

相关文章：

SegFormer网络结构的学习和重构

ubuntu个人实用配置问题

Xk8s证书续期

仓颉编程入门2，启动HTTP服务

Linux驱动开发初识

前端面试题（三）

骨传导耳机哪个牌子最好用？实测五大实用型骨传导耳机分析！

18.1 k8s服务组件之4大黄金指标讲解

MacOS Catalina 从源码构建Qt6.2开发库之02: 配置QtCreator

某建筑市场爬虫数据采集逆向分析

降低存量房贷利率的主要原因和影响

远程桌面连接工具Microsoft Remote Desktop Beta for Mac

Linux 之 logrotate 【日志分割】

Canvas简历编辑器-Monorepo+Rspack工程实践

uni-app - - - - -vue3使用i18n配置国际化语言

VSCode好用的插件推荐

Linux：八种重定向详解（万字长文警告）

set和map系列容器

企业告警智策助手 | OPENAIGC开发者大赛企业组AI创作力奖

函数组件、Hooks和类组件区别

第19节 Node.js Express 框架

循环冗余码校验CRC码算法步骤+详细实例计算

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院查看报告小程序

成都鼎讯硬核科技！雷达目标与干扰模拟器，以卓越性能制胜电磁频谱战

（转）什么是DockerCompose?它有什么作用？

css3笔记（1）自用

Spring数据访问模块设计

rnn判断string中第一次出现a的下标

【Linux系统】Linux环境变量：系统配置的隐形指挥官

TSN交换机正在重构工业网络，PROFINET和EtherCAT会被取代吗？