当前位置：首页 > news >正文

卷积神经网络（Convolutional Neural Networks, CNN）

news 2026/2/9 4:58:35

卷积神经网络（Convolutional Neural Networks, CNN）是深度学习领域中用于处理具有网格结构的输入（如图像和视频）的神经网络模型。下面以最简单、直观的方式概述CNN的主要流程及其基本概念：

1. 输入层

概念：输入层直接接收原始数据，比如一张图片，通常是一张二维或三维的矩阵，包含像素信息。
流程：例如，输入一张28x28像素的灰度图像，形成一个28x28的矩阵，每个元素代表一个像素的亮度值。

2. 卷积层

概念：卷积层通过卷积核（或称滤波器）扫描输入数据，识别特定的特征。卷积核是一个小的矩阵，它会与输入数据的局部区域做元素相乘再求和的操作。
流程：一个3x3的卷积核在输入图像上滑动，每次覆盖9个像素，计算一个值，这样就形成了一个“特征图”，能够捕捉图像中的基本特征，如边缘、纹理等。

3. 激活函数

概念：激活函数引入了非线性变换，使得网络能够学习更复杂的模式。
流程：通常在卷积操作后应用，如ReLU（Rectified Linear Unit），它会将所有负值置为0，保留和放大正值，增强网络的表达能力。

4. 池化层

概念：池化层用于降低数据的维度，同时保留重要信息，增强模型对位置轻微变化的鲁棒性。
流程：常见的有最大池化（取局部区域的最大值）和平均池化（取局部区域的平均值），通常使用2x2的窗口，步长为2，将特征图的尺寸减半。

5. 全连接层

概念：全连接层连接所有神经元，用于整合所有特征，做出最终的分类或回归预测。
流程：将卷积和池化后的多维特征图展平为一维向量，通过权重矩阵映射到分类标签的空间，输出每个类别的概率。

6. 输出层

概念：输出层给出最终的分类决策或回归结果。
流程：在分类任务中，通常通过softmax函数将全连接层的输出转换为概率分布，预测概率最高的类别为最终结果。

整个过程可以概括为：原始图像输入 → 卷积提取特征 → 激活非线性变换 → 池化降维 → 全连接层整合特征 → 输出层给出预测结果。

通过多层的卷积和池化处理，CNN能够从原始像素中自动学习和提取多层次的特征，最终用于识别和分类。

class CNN(nn.Module):def __init__(self):super(CNN, self).__init__()self.conv1 = nn.Sequential(         # 输入大小 (1, 28, 28)nn.Conv2d(in_channels=1,              # 灰度图out_channels=16,            # 要得到几 多少个特征图kernel_size=5,              # 卷积核大小stride=1,                   # 步长padding=2,                  # 如果希望卷积后大小跟原来一样，需要设置padding=(kernel_size-1)/2 if stride=1),                              # 输出的特征图为 (16, 28, 28)nn.ReLU(),                      # relu层nn.MaxPool2d(kernel_size=2),    # 进行池化操作（2x2 区域）, 输出结果为： (16, 14, 14))self.conv2 = nn.Sequential(         # 下一个套餐的输入 (16, 14, 14)nn.Conv2d(16, 32, 5, 1, 2),     # 输出 (32, 14, 14)nn.ReLU(),                      # relu层nn.Conv2d(32, 32, 5, 1, 2),nn.ReLU(),nn.MaxPool2d(2),                # 输出 (32, 7, 7))self.conv3 = nn.Sequential(         # 下一个套餐的输入 (16, 14, 14)nn.Conv2d(32, 64, 5, 1, 2),     # 输出 (32, 14, 14)nn.ReLU(),             # 输出 (32, 7, 7))self.out = nn.Linear(64 * 7 * 7, 10)   # 全连接层得到的结果def forward(self, x):x = self.conv1(x)x = self.conv2(x)x = self.conv3(x)x = x.view(x.size(0), -1)           # flatten操作，结果为：(batch_size, 32 * 7 * 7)output = self.out(x)return output

1. 再加入一层卷积，效果怎么样？

在神经网络中，增加一层卷积层通常可以增强模型的表征能力，使其能够学习到更复杂的特征。但是，这同样会增加模型的复杂度，可能导致模型训练时间变长，以及在数据量不足时容易发生过拟合。具体效果如何，需要通过实验验证。

例如，如果原模型有一层卷积层，你可以尝试在其后增加另一层卷积层，同时考虑使用更小的滤波器（例如 3x3）和合适的步长与填充，以保持输出尺寸不变。增加的卷积层可以使用ReLU激活函数，以保持非线性。

conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=1, padding=1)
conv2 = nn.Conv2d(out_channels, out_channels_next, kernel_size=3, stride=1, padding=1)

在实际操作中，需要监控模型的训练和验证集性能，确保增加的复杂性带来了实际的性能提升。

2. 当前任务中为什么全连接层是3277？每一个数字代表什么含义？

在卷积神经网络中，全连接层前的尺寸通常反映了特征图的大小和深度。3277中的每个数字有其特定含义：

32：代表特征图的深度（也就是上一层输出的通道数）。这通常是指在卷积层或池化层后，模型学习到的特征的数量。每个通道可以看作是模型学习到的某种特定特征的响应。
7 和 7：表示特征图的宽度和高度。这是经过一系列卷积和池化操作后，原始输入图像被降采样（或下采样）后的尺寸。

以典型的CNN架构为例，假设输入图像为224x224像素，使用一个7x7的卷积核，经过两次最大池化（每次池化核大小为2x2，步长为2），特征图的尺寸会从224x224降为56x56，再降为28x28，最后到14x14。如果在14x14的特征图上再使用卷积层，特征图的深度会增加，但宽度和高度保持不变，直到最后被展平（flatten）成1D向量送入全连接层。

因此，如果最终特征图的深度为32，而宽度和高度均为7，展平后的向量长度即为3277，这是在进入全连接层前，模型对图像特征的最终表征。全连接层将使用这些特征进行最终的分类决策。

卷积神经网络（Convolutional Neural Networks, CNN）

1. 输入层

2. 卷积层

3. 激活函数

4. 池化层

5. 全连接层

6. 输出层

1. 再加入一层卷积，效果怎么样？

2. 当前任务中为什么全连接层是3277？每一个数字代表什么含义？

相关文章：

卷积神经网络（Convolutional Neural Networks, CNN）

SpringBoot系列启动流程

vgg19提取特征

Qt 中的 QChartView

cheese安卓版纯本地离线文字识别插件

【C++】多肽

Linux下Socket编程

Scrapy 爬虫的大模型支持

数据仓库简介（一）

Kafka和RabbitMQ区别

go-zero学习

python如何查询函数

计算机视觉与深度学习 | 从激光雷达数据中提取地面点和非地面点（附matlab代码）

vulnhub-wakanda 1靶机

Bilibili视频如何保存到本地

C++之多线程

《C++音频降噪秘籍：让声音纯净如初》

C（十）for循环 --- 黑神话情景

记录一次docker报错无法访问文件夹，权限错误问题

react crash course 2024(8) useEffect

深入剖析AI大模型：大模型时代的 Prompt 工程全解析

深入浅出：JavaScript 中的 `window.crypto.getRandomValues()` 方法

《通信之道——从微积分到 5G》读书总结

linux 下常用变更-8

【决胜公务员考试】求职OMG——见面课测验1

Axios请求超时重发机制

UR 协作机器人「三剑客」：精密轻量担当（UR7e）、全能协作主力（UR12e）、重型任务专家（UR15）

mysql已经安装，但是通过rpm -q 没有找mysql相关的已安装包

并发编程 - go版

高保真组件库：开关