当前位置：首页 > news >正文

openmmlab 语义分割算法基础

news 2026/2/9 0:24:28

本文是openmmlab AI实战营的第六次课程的笔记，以下是我比较关注的部分。

简要介绍语义分割

：如下图，左边原图，右边语义分割图，对每个像数进行分类

应用

语义分割在个各种场景下都非常重要，特别是在自动驾驶和医疗领域，

实时切换人物背景

智能摇杆

医疗影像分析

语义分割的基本思路

1.按颜色分割

最早期的语义分割就是按照颜色分割，一个块就是一个物体。按照不同的分层，我们可以获得层次的这种颜色分割图。只按照颜色分割效果很差，先验知识不完全准确。我们需要额外的手段确定物体类别，所以这是一种最朴素最初级的方法。

2.逐像素分类

后来有了卷积神经网络，开始按照像素分类。我们把某个像素周围的这个小窗口当成是一张图像，我们把这张图像输入到分类模型里面，给出一个类别作为这个滑窗的这个窗口中间像素的类别结果。只有我们就是实现了像素分类，这种方式称之为滑动窗口。我们用不同尺寸不同大小不同长宽，然后在图像上滑动窗口，每滑动一次就输入到卷积神经网络里面去进行一次类别预测，于是将每一个像素都划一遍就获得了每一个像素的分类结果。滑动窗口无法复用，效率低下。

3.改进：复用卷积计算

把全图输入到卷积神经网络里面，在全图得到的feature map上再运行滑窗，这样至少能让所有的滑窗都共享这个feature map，很好的降低了计算。

4.再改进：全连接层的卷积化

（1）全卷积网络 Fully Convolutional Network 2015

可以兼容任意尺寸的图像输入，最终可以得到某一个类别的特征图，代表这个类别的语义分割结果，我们就把分类网络转成了分割网络。

（2）预测图的升采样

问题：图像分类模型使用降采样层（步长卷积或池化）获得高层次特征，导致全卷积网络输出尺寸小于原图，而分割要求同尺寸输出。

解决方法：对预测的分割图升采样，恢复原图分辨率，升采样方案：

双线性插值

转置卷积：可学习的升采样层

全卷积网络的预测与训练

（3）基于多层级特征的上采样

问题：基于顶层特征预测，再升采样 32 倍得到的预测图较为粗糙。

分析：高层特征经过多次降采样，细节丢失严重。

解决思路：结合低层次和高层次特征图。

解决方案 FCN：基于低层次和高层次特征图分别产生类别预测，升采样到原图大小，再平均得到最终结果。

解决方案 UNet：逐级融合高低层次特征。

上下文信息

1.上下文的重要性

有歧义的区域：如何肯定图像里的物体到底是什么？

图像周围的内容（也称上下文）可以帮助我们做出更准确的判断。

2.获取上下文信息

方案：增加感受野更大的网络分支，将上下文信息导入局部预测中。

3.PSPNet 2016

对特征图进行不同尺度的池化，得到不同尺度的上下文特征

上下文特征经过通道压缩和空间上采样之后拼接回原特征图 → 同时包含局部和上下文特征

基于融合的特征产生预测图

四、空洞卷积与 DeepLab 系列算法

1.DeepLab 系列

DeepLab 是语义分割的又一系列工作，其主要贡献为：

使用空洞卷积解决网络中的下采样问题

使用条件随机场 CRF 作为后处理手段，精细化分割图

使用多尺度的空洞卷积（ASPP 模块）捕捉上下文信息

DeepLab v1 发表于 2014 年，后于 2016、2017、2018 年提出 v2、v3、v3+ 版本。

2.空洞卷积解决下采样问题

图像分类模型中的下采样层使输出尺寸变小。

如果将池化层和卷积中的步长去掉：

可以减少下采样的次数；

特征图就会变大，需要对应增大卷积核，以维持相同的感受野，但会增加大量参数

使用空洞卷积（Dilated Convolution/Atrous Convolution），在不增加参数的情况下增大感受野

空洞卷积和下采样

3.DeepLab 模型

DeepLab 在图像分类网络的基础上做了修改：

去除分类模型中的后半部分的下采样层

后续的卷积层改为膨胀卷积，并且逐步增加rate来维持原网络的感受野

4.条件随机场 Conditional Random Field, CRF

模型直接输出的分割图较为粗糙，尤其在物体边界处不能产生很好的分割结果。

DeepLab v1&v2 使用条件随机场 (CRF) 作为后处理手段，结合原图颜色信息和神经网络预测的类别得到精细化分割结果。

CRF 是一种概率模型。DeepLab 使用 CRF 对分割结果进行建模，用能量函数用来表示分割结果优劣，通过最小化能量函数获得更好的分割结果。

能量函数的意义

5.空间金字塔池化 Atrous Spatial Pyramid Pooling ASPP

PSPNet 使用不同尺度的池化来获取不同尺度的上下文信息。

DeepLab v2 & v3 使用不同尺度的空洞卷积达到类似的效果。

6.DeepLab v3+

DeepLab v2 / v3 模型使用 ASPP 捕捉上下文特征

Encoder / Decoder 结构（如 UNet）在上采样过程中融入低层次的特征图，以获得更精细的分割图

DeepLab v3+ 将两种思路融合，在原有模型结构上增加了一个简单的 decoder 结构

7.语义分割算法总结

语义分割模型的评估

1.比较预测与真值

2.基于交并集的评估指标

六、语义分割工具包 MMSegmentation

代码库： https://github.com/open-mmlab/mmsegmentation

文档： https://mmsegmentation.readthedocs.io/en/latest/

MMSegmentation算法丰富，20+ 算法、370+ 预训练模型，统一超参，全面的性能标定。

1.项目结构

2.分割模型的模块化设计

MMSegmentation 将分割模型统一拆解为如下模块，方便用户根据自己的需求进行组装和扩展。

（1）分割模型的配置文件

model = dict(

type='EncoderDecoder' OR 'CascadeEncoderDecoder',

pretrained='open-mmlab://resnet50_v1c',

backbone=dict(

type='ResNetV1c',

# ... more options),

neck = None,

decode_head=dict(

type='PSPHead',

# ... more options

loss_decode=dict(

type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),

auxiliary_head=dict(

type='FCNHead',

# ... more options

loss_decode=dict(

type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),

train_cfg=dict(...),

test_cfg=dict(...))

（2）主干网络的配置。主干网络输入图像，输出多层次的特征图。

backbone=dict(

type='ResNetV1c',

depth=50,

num_stages=4,

out_indices=(0, 1, 2, 3),

dilations=(1, 1, 2, 4),

strides=(1, 2, 1, 1),

norm_cfg= dict(type='SyncBN', requires_grad=True),

norm_eval=False,

style='pytorch',

contract_dilation=True)

3.ResNet v1c

ResNet 50 层以上的模型在 BottleNeck 模块以及 stem 部分（即网络前几层）有一些变形：

（1）主解码头的配置。主解码头从特征图预测分割图。

decode_head=dict(

type='PSPHead',

in_channels=2048,

in_index=3,

channels=512,

pool_scales=(1, 2, 3, 6),

dropout_ratio=0.1,

num_classes=19,

norm_cfg= dict(type='SyncBN', requires_grad=True),

align_corners=False,

loss_decode=dict(

type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),

（2）辅助解码头的配置

（3）数据集配置

（4）数据处理流水线

（5）常用训练策略

openmmlab 语义分割算法基础

简要介绍语义分割

应用

语义分割的基本思路

上下文信息

语义分割模型的评估

相关文章：

openmmlab 语义分割算法基础

2023年深圳/东莞/惠州CPDA数据分析师认证报名入口

RabbitMQ-客户端源码之AMQChannel

注意力机制(SE,ECA,CBAM) Pytorch代码

Vue2笔记03 脚手架(项目结构)，常用属性配置，ToDoList(本地存储，组件通信)

Java程序的执行顺序、简述对线程池的理解

【前言】嵌入式系统简介

React设计原理—1框架原理

（C00034）基于Springboot+html前后端分离技术的宿舍管理系统-有文档

Flink面试题

Python学习笔记

最适合入门的100个深度学习实战项目

AssertionError: 618 columns passed, passed data had 508 columns【已解决】

166_技巧_Power BI 窗口函数处理连续发生业务问题

电子科技大学人工智能期末复习笔记（五）：机器学习

使用DDD指导业务设计的总结思考

面试官问：如何确保缓存和数据库的一致性？

16.数据库Redis

【Redis高级-集群分片】

CSDN - CSDN27题解

椭圆曲线密码学(ECC)

安宝特方案丨XRSOP人员作业标准化管理平台：AR智慧点检验收套件

uni-app学习笔记二十二---使用vite.config.js全局导入常用依赖

centos 7 部署awstats 网站访问检测

五年级数学知识边界总结思考-下册

ESP32 I2S音频总线学习笔记（四）： INMP441采集音频并实时播放

【android bluetooth 框架分析 04】【bt-framework 层详解 1】【BluetoothProperties介绍】

【C语言练习】080. 使用C语言实现简单的数据库操作

C++ 求圆面积的程序（Program to find area of a circle）

Redis数据倾斜问题解决