当前位置：首页 > news >正文

使用 PyTorch 实现标准卷积神经网络（CNN）

news 2026/2/10 2:47:58

卷积神经网络（CNN）是深度学习中的重要组成部分，广泛应用于图像处理、语音识别、视频分析等任务。在这篇博客中，我们将使用 PyTorch 实现一个标准的卷积神经网络（CNN），并介绍各个部分的作用。

什么是卷积神经网络（CNN）？

卷积神经网络（CNN）是一种专门用于处理图像数据的深度学习模型，它通过卷积层提取图像的特征。CNN 由多个层次组成，其中包括卷积层（Conv2d）、池化层（MaxPool2d）、全连接层（Linear）、激活函数（ReLU）等。这些层级合作，使得模型能够从原始图像中自动学习到重要特征。

CNN 的核心组成部分

卷积层（Conv2d）：用于提取输入图像的局部特征，通过多个卷积核对图像进行卷积运算。
激活函数（ReLU）：增加非线性，使得模型能够学习更复杂的特征。
池化层（MaxPool2d）：通过对特征图进行下采样来减少空间尺寸，降低计算复杂度，同时保留重要的特征。
全连接层（Linear）：将卷积和池化后得到的特征图展平，送入全连接层进行分类或回归预测。

PyTorch 实现 CNN

下面是我们实现的标准卷积神经网络模型。它包含三个卷积层和两个全连接层，适用于图像分类任务，如 MNIST 数据集。

代码实现

import torch
import torch.nn as nn
import torch.nn.functional as Fclass CNN(nn.Module):def __init__(self):super(CNN, self).__init__()# 卷积层1: 输入1个通道（灰度图像），输出32个通道self.conv1 = nn.Conv2d(in_channels=1, out_channels=32, kernel_size=3, stride=1, padding=1)# 卷积层2: 输入32个通道，输出64个通道self.conv2 = nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3, stride=1, padding=1)# 卷积层3: 输入64个通道，输出128个通道self.conv3 = nn.Conv2d(in_channels=64, out_channels=128, kernel_size=3, stride=1, padding=1)# 全连接层1: 输入128*7*7，输出1024个节点self.fc1 = nn.Linear(128 * 7 * 7, 1024)# 全连接层2: 输入1024个节点，输出10个节点（假设是10分类问题）self.fc2 = nn.Linear(1024, 10)# Dropout层: 避免过拟合self.dropout = nn.Dropout(0.5)def forward(self, x):# 第一层卷积 + ReLU 激活 + 最大池化x = F.relu(self.conv1(x))x = F.max_pool2d(x, 2, 2)  # 使用2x2的最大池化# 第二层卷积 + ReLU 激活 + 最大池化x = F.relu(self.conv2(x))x = F.max_pool2d(x, 2, 2)# 第三层卷积 + ReLU 激活 + 最大池化x = F.relu(self.conv3(x))x = F.max_pool2d(x, 2, 2)# 展平层（将卷积后的特征图展平成1D向量）x = x.view(-1, 128 * 7 * 7)  # -1代表自动推算batch size# 第一个全连接层 + ReLU 激活 + Dropoutx = F.relu(self.fc1(x))x = self.dropout(x)# 第二个全连接层（输出最终分类结果）x = self.fc2(x)return x# 创建CNN模型
model = CNN()# 打印模型架构
print(model)

代码解析

卷积层（Conv2d）：
- self.conv1 = nn.Conv2d(in_channels=1, out_channels=32, kernel_size=3, stride=1, padding=1)：该层的输入为 1 个通道（灰度图像），输出 32 个通道，卷积核大小为 3x3，步幅为 1，填充为 1，保持输出特征图的大小与输入相同。
- 后续的卷积层类似，只是输出通道数量逐渐增多。
激活函数（ReLU）：
- F.relu(self.conv1(x))：ReLU 激活函数将输入的负值转为 0，并保留正值，增加了模型的非线性。
池化层（MaxPool2d）：
- F.max_pool2d(x, 2, 2)：使用 2x2 的池化窗口和步幅为 2 进行池化，将特征图尺寸缩小一半，减少计算复杂度。
展平（Flatten）：
- x = x.view(-1, 128 * 7 * 7)：在经过卷积和池化操作后，我们将多维的特征图展平成一维向量，供全连接层输入。
Dropout：
- self.dropout = nn.Dropout(0.5)：Dropout 正则化技术在训练时随机丢弃一些神经元，防止过拟合。
全连接层（Linear）：
- self.fc1 = nn.Linear(128 * 7 * 7, 1024)：第一个全连接层的输入是卷积后得到的特征，输出 1024 个节点。
- self.fc2 = nn.Linear(1024, 10)：最后的全连接层将 1024 个节点压缩为 10 个输出，代表分类结果。

训练 CNN 模型

要训练该模型，我们需要加载一个数据集、定义损失函数和优化器，然后进行训练。以下是如何使用 MNIST 数据集进行训练的示例。

import torch.optim as optim
from torch.utils.data import DataLoader
from torchvision import datasets, transforms# 加载 MNIST 数据集
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])
train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)# 训练循环
num_epochs = 5
for epoch in range(num_epochs):model.train()running_loss = 0.0for batch_idx, (data, target) in enumerate(train_loader):optimizer.zero_grad()output = model(data)loss = criterion(output, target)loss.backward()optimizer.step()running_loss += loss.item()if batch_idx % 100 == 99:  # 每100个batch输出一次损失print(f'Epoch {epoch+1}, Batch {batch_idx+1}, Loss: {running_loss / 100:.4f}')running_loss = 0.0print("Finished Training")

训练过程说明

数据加载器（DataLoader）：用于批量加载训练数据，支持数据的随机打乱（shuffle）。
损失函数（CrossEntropyLoss）：用于多分类问题，计算预测和真实标签之间的交叉熵损失。
优化器（Adam）：Adam 优化器自适应调整学习率，通常在深度学习中表现良好。
训练循环：每个 epoch 处理整个数据集，通过前向传播、计算损失、反向传播和优化步骤，更新网络参数。

总结

在这篇文章中，我们实现了一个标准的卷积神经网络（CNN），并使用 PyTorch 对其进行了定义和训练。通过使用卷积层、池化层和全连接层，模型能够自动学习图像的特征并进行分类。我们还介绍了如何训练模型、加载数据集以及使用常见的优化器和损失函数。希望这篇文章能帮助你理解 CNN 的基本架构及其实现方式！

使用 PyTorch 实现标准卷积神经网络（CNN）

什么是卷积神经网络（CNN）？

CNN 的核心组成部分

PyTorch 实现 CNN

代码实现

代码解析

训练 CNN 模型

训练过程说明

总结

相关文章：

使用 PyTorch 实现标准卷积神经网络（CNN）

开题报告——基于Spring Boot的垃圾分类预约回收系统

YOLOv5 目标检测优化：降低误检与漏检

网络安全治理模型

网络原理-

HTML/CSS中交集选择器

机器学习（1）安装Pytorch

Spring Boot过滤器链：从入门到精通

vue3之echarts3D圆柱

Redux中间件redux-thunk和redux-saga的具体区别是什么？

代码随想录算法训练营第四十三天| 动态规划06

UI自动化教程 —— 元素定位技巧：精确找到你需要的页面元素

MySQL六大日志的功能介绍。

二级指针略解【C语言】

鸿蒙状态管理概述

【核心算法篇十三】《DeepSeek自监督学习：图像补全预训练方案》

由浅入深学习大语言模型RLHF(PPO强化学习- v1浅浅的)

网络安全三件套

瑞芯微RV1126部署YOLOv8全流程：环境搭建、pt-onnx-rknn模型转换、C++推理代码、错误解决、优化、交叉编译第三方库

【ISO 14229-1:2023 UDS诊断（会话控制0x10服务）测试用例CAPL代码全解析⑤】

HTML 语义化

Lombok 的 @Data 注解失效，未生成 getter/setter 方法引发的HTTP 406 错误

五年级数学知识边界总结思考-下册

第一篇：Agent2Agent (A2A) 协议——协作式人工智能的黎明

OPenCV CUDA模块图像处理-----对图像执行均值漂移滤波（Mean Shift Filtering）函数meanShiftFiltering()

【VLNs篇】07：NavRL—在动态环境中学习安全飞行

处理vxe-table 表尾数据是单独一个接口，表格tableData数据更新后，需要点击两下，表尾才是正确的

TSN交换机正在重构工业网络，PROFINET和EtherCAT会被取代吗？

给网站添加live2d看板娘

[USACO23FEB] Bakery S