当前位置：首页 > news >正文

12.2深度学习_视觉处理CNN_池化层、卷积知识

news 2026/5/23 5:47:55

3.池化层

3.1 概述

池化层 (Pooling) 降低维度, 缩减模型大小，提高计算速度. 即: 主要对卷积层学习到的特征图进行下采样（SubSampling）处理。

池化层主要有两种:

最大池化 max pooling

最大池化是从每个局部区域中选择最大值作为池化后的值，这样可以保留局部区域中最显著的特征。最大池化在提取图像中的纹理、形状等方面具有很好的效果。
平均池化 avgPooling

平均池化是将局部区域中的值取平均作为池化后的值，这样可以得到整体特征的平均值。平均池化在提取图像中的整体特征、减少噪声等方面具有较好的效果。

3.2 池化层计算

整体结构

在这里插入图片描述

计算

最大池化:

max(0, 1, 3, 4)
max(1, 2, 4, 5)
max(3, 4, 6, 7)
max(4, 5, 7, 8)

平均池化:

mean(0, 1, 3, 4)
mean(1, 2, 4, 5)
mean(3, 4, 6, 7)
mean(4, 5, 7, 8)

3.3 步长Stride

最大池化:

max(0, 1, 4, 5)
max(2, 3, 6, 7)
max(8, 9, 12, 13)
max(10, 11, 14, 15)

平均池化:

mean(0, 1, 4, 5)
mean(2, 3, 6, 7)
mean(8, 9, 12, 13)
mean(10, 11, 14, 15)

3.4 边缘填充Padding

最大池化:

max(0, 0, 0, 0)
max(0, 0, 0, 1)
max(0, 0, 1, 2)
max(0, 0, 2, 0)
… 以此类推

平均池化:

mean(0, 0, 0, 0)
mean(0, 0, 0, 1)
mean(0, 0, 1, 2)
mean(0, 0, 2, 0)
… 以此类推

3.5 多通道池化计算

在处理多通道输入数据时，池化层对每个输入通道分别池化，而不是像卷积层那样将各个通道的输入相加。这意味着池化层的输出和输入的通道数是相等。

3.6 池化层的作用

池化操作的优势有：

通过降低特征图的尺寸，池化层能够减少计算量，从而提升模型的运行效率。
池化操作可以带来特征的平移、旋转等不变性，这有助于提高模型对输入数据的鲁棒性。
池化层通常是非线性操作，例如最大值池化，这样可以增强网络的表达能力，进一步提升模型的性能。

但是池化也有缺点：

池化操作会丢失一些信息，这是它最大的缺点；

3.7 池化API使用

import torch
import torch.nn as nn# 1. API 基本使用
def test01():inputs = torch.tensor([[0, 1, 2], [3, 4, 5], [6, 7, 8]]).float()inputs = inputs.unsqueeze(0).unsqueeze(0)# 1. 最大池化# 输入形状: (N, C, H, W)polling = nn.MaxPool2d(kernel_size=2, stride=1, padding=0)output = polling(inputs)print(output)# 2. 平均池化polling = nn.AvgPool2d(kernel_size=2, stride=1, padding=0)output = polling(inputs)print(output)# 2. stride 步长
def test02():inputs = torch.tensor([[0, 1, 2, 3], [4, 5, 6, 7], [8, 9, 10, 11], [12, 13, 14, 15]]).float()inputs = inputs.unsqueeze(0).unsqueeze(0)# 1. 最大池化polling = nn.MaxPool2d(kernel_size=2, stride=2, padding=0)output = polling(inputs)print(output)# 2. 平均池化polling = nn.AvgPool2d(kernel_size=2, stride=2, padding=0)output = polling(inputs)print(output)# 3. padding 填充
def test03():inputs = torch.tensor([[0, 1, 2], [3, 4, 5], [6, 7, 8]]).float()inputs = inputs.unsqueeze(0).unsqueeze(0)# 1. 最大池化polling = nn.MaxPool2d(kernel_size=2, stride=1, padding=1)output = polling(inputs)print(output)# 2. 平均池化polling = nn.AvgPool2d(kernel_size=2, stride=1, padding=1)output = polling(inputs)print(output)# 4. 多通道池化
def test04():inputs = torch.tensor([[[0, 1, 2], [3, 4, 5], [6, 7, 8]],[[10, 20, 30], [40, 50, 60], [70, 80, 90]],[[11, 22, 33], [44, 55, 66], [77, 88, 99]]]).float()inputs = inputs.unsqueeze(0)# 最大池化polling = nn.MaxPool2d(kernel_size=2, stride=1, padding=0)output = polling(inputs)print(output)if __name__ == '__main__':test04()

3.9 每日作业

概念理解题：
- 简述在卷积神经网络中池化层的作用，并解释其为何能帮助提高模型性能。
操作过程描述题：
- 描述最大池化和平均池化的具体计算步骤，包括如何进行窗口滑动、取最大值或平均值的操作。
参数设置意义题：
- 请说明池化层中的“步长”和“池化窗口大小”两个参数对输出特征图的影响，并举例说明不同参数组合下的结果差异。
功能分析题：
- 分析池化层如何实现下采样（downsampling），并讨论这种降维操作如何有助于防止过拟合。
应用效果比较题：
- 对比最大池化和平均池化的优缺点，并讨论在什么情况下更倾向于选择其中一个作为池化层的类型。
实践操作题：
- 假设有一个输入尺寸为32x32的图像数据通过一个池化窗口为2x2，步长为2的最大池化层，请计算输出特征图的尺寸。
泛化能力提升题：
- 池化层是如何通过保持局部不变性来增强模型对图像变换的鲁棒性的？请举例说明。
综合思考题：
- 在设计深度学习模型时，为什么我们通常会在连续的卷积层之间插入池化层？这背后体现了什么样的设计理念？

3.10 知识点扩展

深入理解题：
- 请详细解释池化层在卷积神经网络中的作用，并举例说明其如何通过降低空间维度和参数数量来提高模型的效率和泛化能力。
梯度传播分析题：
- 在反向传播过程中，池化层是如何计算并传递梯度的？请描述最大池化与平均池化的梯度计算差异。
自适应池化策略题：
- 介绍空间金字塔池化（Spatial Pyramid Pooling, SPP）或可变形池化（Deformable Pooling）等自适应池化策略的工作原理，以及它们如何解决标准池化层对输入尺寸固定依赖的问题。
多尺度特征融合题：
- 如何利用不同大小的池化窗口来提取多尺度特征？请结合具体实例阐述多尺度池化在目标检测、图像分类等任务中的应用价值。
理论探讨题：
- 池化层是否一定能够防止过拟合？是否存在可能引入欠拟合的风险？如果有，应如何平衡池化带来的优势和潜在问题？
未来发展方向题：
- 针对未来研究方向，你认为池化层的设计会有哪些可能的发展趋势或改进点，例如注意力机制在池化过程中的应用、动态池化策略等。

4. 整体结构

在这里插入图片描述

4.1 特征图变化

5. 卷积知识扩展

5.1 卷积结果

通过上述的动画，可以发现卷积实际上将原本图像中的某一特征进行提取。

5.2 二维卷积

分单通道版本和多通道版本。

5.2.1 单通道版本

之前所讲卷积相关内容其实真正意义上叫做二维卷积（单通道卷积版本）,即只有一个通道的卷积。

如下图，我们对于卷积核（kernel）的描述一般是大小3x3、步长（stride）为1、填充（Padding）为0

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

5.2.2 多通道版本

彩色图像拥有R、G、B这三层通道，因此我们在卷积时需要分别针对这三层进行卷积

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最后将三个通道的卷积结果进行合并（元素相加），得到卷积结果

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

5.3 三维卷积

二维卷积是在单通道的一帧图像上进行滑窗操作，输入是高度H宽度W的二维矩阵。

而如果涉及到视频上的连续帧或者立体图像中的不同切片，就需要引入深度通道，此时输入就变为高度H宽度W*深度C的三维矩阵。

不同于二维卷积核只在两个方向上运动，三维卷积的卷积核会在三个方向上运动，因此需要有三个自由度。

这种特性使得三维卷积能够有效地描述3D空间中的对象关系，它在一些应用中具有显著的优势，例如3D对象的分割以及医学图像的重构等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

5.4 反卷积

卷积是对输入图像及进行特征提取，这样会导致尺寸会越变越小，而反卷积是进行相反操作。并不会完全还原到跟输入图一样，只是保证了与输入图像尺寸一致，主要用于向上采样。从数学上看，反卷积相当于是将卷积核转换为稀疏矩阵后进行转置计算。也被称为转置卷积。

5.4.1 反卷积计算过程

如图，在2x2的输入图像上使用【步长1、边界全0填充】的3x3卷积核，进行转置卷积（反卷积）计算，向上采样后输出的图像大小为4x4

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如我们的语义分割里面就需要反卷积还原到原始图像大小。

5.4.2 反卷积底层计算

反卷积的计算过程如下图：

5.5 空洞卷积（膨胀卷积）

为扩大感受野，在卷积核俩面的元素之间插入空格“膨胀”内核，形成“空洞卷积”（或称膨胀卷积），并用膨胀率参数L表示要扩大内核的范围，即在内核元素之间插入L-1个空格。当L=1时，则内核元素之间没有插入空格，变为标准卷积。图中是L=2的空洞卷积。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

5.6 可分离卷积

5.6.1 空间可分离卷积

空间可分离卷积是将卷积核分解为两项独立的核分别进行操作。在数学中我们可以将矩阵分解：
$\left[ \begin{matrix} -1 & 0 & 1 \\ -2 & 0 & 2 \\ -1 & 0 & 1 \end{matrix} \right]= \left[ \begin{matrix} 1 \\ 2 \\ 1 \end{matrix} \right]\times \left[ \begin{matrix} -1 & 0 & 1 \end{matrix} \right]$
所以对3x3的卷积核，我们同样可以拆分成 3x1 和 1x3 的两个卷积核，对其进行卷积，且采用可分离卷积的计算量比标准卷积要少。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

5.6.2 深度可分离卷积

深度可分离卷积由两部组成：深度卷积核1x1卷积，我们可以使用Animated AI官网的图来演示这一过程

图1：输入图的每一个通道，我们都使用了对应的卷积核进行卷积。通道数量 = 卷积核个数

图2：完成卷积后，对输出内容进行1x通道数的卷积

5.7 扁平卷积

扁平卷积是将标准卷积拆分成为3个1x1的卷积核，然后再分别对输入层进行卷积计算。

标准卷积参数量XYC，计算量为MNCXY
拆分卷积参数量(X+Y+C)，计算量为MN(C+X+Y)

5.8 分组卷积

2012年，AlexNet论文中最先提出来的概念，当时主要为了解决GPU显存不足问题，将卷积分组放到两个GPU中并行执行。

在分组卷积中，卷积核被分成不同的组，每组负责对相应的输入层进行卷积计算，最后再进行合并。

下图中卷积核被分成两个组，前半部负责处理前半部的输入层，后半部负责后半部的输入层，最后将结果组合。

5.9 混洗分组卷积

分组卷积中最终结果会按照原先的顺序进行合并组合，阻碍了模型在训练时特征信息在通道间流动，削弱了特征表示。混洗分组卷积，主要是将分组卷积后的计算结果混合交叉在一起输出。

5.10 多通道卷积与偏执

卷积核卷完之后，偏置矩阵就会与输出特征矩阵相加，得到本次卷积的最终结果。

有两个结论：

输入特征的通道数决定了卷积核的通道数（卷积核通道个数=输入特征通道个数）。
卷积核的个数决定了输出特征矩阵的通道数与偏置矩阵的通道数（卷积核个数=输出特征通道数=偏置矩阵通道数）。

3.池化层

3.1 概述

3.2 池化层计算

3.3 步长Stride

3.4 边缘填充Padding

3.5 多通道池化计算

3.6 池化层的作用

3.7 池化API使用

3.9 每日作业

3.10 知识点扩展

4. 整体结构

4.1 特征图变化

5. 卷积知识扩展

5.1 卷积结果

5.2 二维卷积

5.2.1 单通道版本

5.2.2 多通道版本

5.3 三维卷积

5.4 反卷积

5.4.1 反卷积计算过程

5.4.2 反卷积底层计算

5.5 空洞卷积（膨胀卷积）

5.6 可分离卷积

5.6.1 空间可分离卷积

5.6.2 深度可分离卷积

5.7 扁平卷积

5.8 分组卷积

5.9 混洗分组卷积

5.10 多通道卷积与偏执

相关文章：