当前位置：首页 > news >正文

深度学习-【语义分割】学习笔记4 膨胀卷积（Dilated convolution）

news 2026/2/9 11:48:58

文章目录

膨胀卷积
- 为什么需要膨胀卷积
gridding effect
- 连续使用三次膨胀卷积——1
- 连续使用三次膨胀卷积——2
- 连续使用三次膨胀卷积——3
Understanding Convolution for Semantic Segmentation

膨胀卷积

膨胀卷积，又叫空洞卷积。

左边是普通卷积，右边是膨胀卷积。
r 表示间隙，即膨胀因子。（当 r = 1时就是普通卷积）

一般使用过程中，输入和输出特征图的高和宽是不会发生变化的。

复习：N = （W - F + 2P）/ S + 1

为什么需要膨胀卷积

在语义分割任务中，通常会使用分类网络作为backbone，在backbone中会对图片进行一系列的下采样。通过backbone之后，会使用一系列的上采样恢复原来的图片大小。如果特征图的高宽下采样倍率太大的话，还原到原来尺寸后，图片将丢失很多细节信息。

例如，在VGG网络中，通过max pooling层进行池化，这降低了特征图的高度和宽度，也丢失了一些细节信息，而丢失的信息无法通过上采样进行还原，在语义分割任务中将导致分割的效果不理想。而如果去掉max pooling层，将导致特征图的感受野变小。

利用膨胀卷积，既能增大感受野，又能保持输入输出特征图的高和宽不发生变化，解决了上述问题。但是，是否无脑堆叠膨胀卷积就可以了呢？

参考论文Understanding Convolution for Semantic Segmentation，在膨胀卷积使用过程中，会出现gridding effect的问题。

gridding effect

首先了解什么是 gridding effect 问题：
在这里插入图片描述

连续使用三次膨胀卷积——1

layer4上中心点使用各个点的信息的次数：
在这里插入图片描述
这就是gridding effect现象，即layer4上的一个像素并没有利用到这个范围内所有像素点的信息，而是有间隔的。（这就会导致一些细节上信息的丢失）。

连续使用三次膨胀卷积——2

与实验一不同的是，第一个膨胀卷积的膨胀因子为1，也就是普通卷积。
在这里插入图片描述
这里一个像素点使用的信息已经是某个范围内全部像素点的信息了。
感受野（RF，receptive field）= 13 × 13

连续使用三次膨胀卷积——3

连续使用三个普通卷积。

在这里插入图片描述
感受野（RF，receptive field）= 7 × 7

实验 2 和 3 对比，可以发现使用膨胀卷积在参数数量相同的情况下可以使感受野变大很多。

Understanding Convolution for Semantic Segmentation

@article{PanquWang2018UnderstandingCF, title={Understanding Convolution for Semantic Segmentation}, author={Panqu Wang and Pengfei Chen and Ye Yuan and Ding Liu and Zehua Huang and Xiaodi Hou and Garrison W. Cottrell}, journal={Workshop on Applications of Computer Vision}, year={2018}}

https://readpaper.com/paper/2592939477
在这里插入图片描述
Mi 表示第 i 层两个非零元素（即被使用到的像素）之间的最大距离。
设计原则1：需要 M2 <= K。

[1,2,5]
在这里插入图片描述

[1,2,9]
在这里插入图片描述

在这里插入图片描述
设计原则2：锯齿状膨胀因子设置，如[1,2,3,1,2,3]

在这里插入图片描述

设计原则3：公约数不能大于1
[2,4,8]
在这里插入图片描述

结果对比：

在这里插入图片描述

参考资料：
https://blog.csdn.net/Zen_of_code/article/details/127536998
https://www.bilibili.com/video/BV1Bf4y1g7j8/

深度学习-【语义分割】学习笔记4 膨胀卷积（Dilated convolution）

文章目录

膨胀卷积

为什么需要膨胀卷积

gridding effect

连续使用三次膨胀卷积——1

连续使用三次膨胀卷积——2

连续使用三次膨胀卷积——3

Understanding Convolution for Semantic Segmentation

相关文章：

深度学习-【语义分割】学习笔记4 膨胀卷积（Dilated convolution）

【10】SCI易中期刊推荐——工程技术-计算机：人工智能（中科院2区）

模电计算反馈系数，有时候转化为计算电阻分压的问题

专治Java底子差，不要再认为泛型就是一对尖括号了

PayPal轮询收款的那些事儿

【Linux】项目自动化构建工具——make/Makefile

成本降低90%，OpenAI正式开放ChαtGΡΤ

hls.js如何播放m3u8文件（实例）？

大数据平台建设方法论集合

25- 卷积神经网络(CNN)原理 (TensorFlow系列) (深度学习)

把数组里面数值排成最小的数

云his系统源码 SaaS应用基于Angular+Nginx+Java+Spring开发

小红书场景营销怎么做?场景营销主要模式有哪些

c++基础——数组

odoo15 登录界面的标题自定义

【内网服务通过跳板机和公网通信】花生壳内网穿透+Nginx内网转发+mqtt服务搭建

【多线程常见面试题】

深度剖析指针（下）——“C”

爬虫与反爬虫技术简介

Pag的2D渲染执行流程

iOS 26 携众系统重磅更新，但“苹果智能”仍与国行无缘

Vue3 + Element Plus + TypeScript中el-transfer穿梭框组件使用详解及示例

解决Ubuntu22.04 VMware失败的问题 ubuntu入门之二十八

《用户共鸣指数（E）驱动品牌大模型种草：如何抢占大模型搜索结果情感高地》

vue3 定时器-定义全局方法 vue+ts

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个生活电费的缴纳和查询小程序

涂鸦T5AI手搓语音、emoji、otto机器人从入门到实战

ip子接口配置及删除

莫兰迪高级灰总结计划简约商务通用PPT模版

Qt 事件处理中 return 的深入解析