当前位置：首页 > article >正文

使用 PyTorch 实现标准卷积神经网络（CNN）

article 2026/4/14 1:23:18

卷积神经网络（CNN）是深度学习中的重要组成部分，广泛应用于图像处理、语音识别、视频分析等任务。在这篇博客中，我们将使用 PyTorch 实现一个标准的卷积神经网络（CNN），并介绍各个部分的作用。

什么是卷积神经网络（CNN）？

卷积神经网络（CNN）是一种专门用于处理图像数据的深度学习模型，它通过卷积层提取图像的特征。CNN 由多个层次组成，其中包括卷积层（Conv2d）、池化层（MaxPool2d）、全连接层（Linear）、激活函数（ReLU）等。这些层级合作，使得模型能够从原始图像中自动学习到重要特征。

CNN 的核心组成部分

卷积层（Conv2d）：用于提取输入图像的局部特征，通过多个卷积核对图像进行卷积运算。
激活函数（ReLU）：增加非线性，使得模型能够学习更复杂的特征。
池化层（MaxPool2d）：通过对特征图进行下采样来减少空间尺寸，降低计算复杂度，同时保留重要的特征。
全连接层（Linear）：将卷积和池化后得到的特征图展平，送入全连接层进行分类或回归预测。

PyTorch 实现 CNN

下面是我们实现的标准卷积神经网络模型。它包含三个卷积层和两个全连接层，适用于图像分类任务，如 MNIST 数据集。

代码实现

import torch
import torch.nn as nn
import torch.nn.functional as Fclass CNN(nn.Module):def __init__(self):super(CNN, self).__init__()# 卷积层1: 输入1个通道（灰度图像），输出32个通道self.conv1 = nn.Conv2d(in_channels=1, out_channels=32, kernel_size=3, stride=1, padding=1)# 卷积层2: 输入32个通道，输出64个通道self.conv2 = nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3, stride=1, padding=1)# 卷积层3: 输入64个通道，输出128个通道self.conv3 = nn.Conv2d(in_channels=64, out_channels=128, kernel_size=3, stride=1, padding=1)# 全连接层1: 输入128*7*7，输出1024个节点self.fc1 = nn.Linear(128 * 7 * 7, 1024)# 全连接层2: 输入1024个节点，输出10个节点（假设是10分类问题）self.fc2 = nn.Linear(1024, 10)# Dropout层: 避免过拟合self.dropout = nn.Dropout(0.5)def forward(self, x):# 第一层卷积 + ReLU 激活 + 最大池化x = F.relu(self.conv1(x))x = F.max_pool2d(x, 2, 2)  # 使用2x2的最大池化# 第二层卷积 + ReLU 激活 + 最大池化x = F.relu(self.conv2(x))x = F.max_pool2d(x, 2, 2)# 第三层卷积 + ReLU 激活 + 最大池化x = F.relu(self.conv3(x))x = F.max_pool2d(x, 2, 2)# 展平层（将卷积后的特征图展平成1D向量）x = x.view(-1, 128 * 7 * 7)  # -1代表自动推算batch size# 第一个全连接层 + ReLU 激活 + Dropoutx = F.relu(self.fc1(x))x = self.dropout(x)# 第二个全连接层（输出最终分类结果）x = self.fc2(x)return x# 创建CNN模型
model = CNN()# 打印模型架构
print(model)

代码解析

卷积层（Conv2d）：
- self.conv1 = nn.Conv2d(in_channels=1, out_channels=32, kernel_size=3, stride=1, padding=1)：该层的输入为 1 个通道（灰度图像），输出 32 个通道，卷积核大小为 3x3，步幅为 1，填充为 1，保持输出特征图的大小与输入相同。
- 后续的卷积层类似，只是输出通道数量逐渐增多。
激活函数（ReLU）：
- F.relu(self.conv1(x))：ReLU 激活函数将输入的负值转为 0，并保留正值，增加了模型的非线性。
池化层（MaxPool2d）：
- F.max_pool2d(x, 2, 2)：使用 2x2 的池化窗口和步幅为 2 进行池化，将特征图尺寸缩小一半，减少计算复杂度。
展平（Flatten）：
- x = x.view(-1, 128 * 7 * 7)：在经过卷积和池化操作后，我们将多维的特征图展平成一维向量，供全连接层输入。
Dropout：
- self.dropout = nn.Dropout(0.5)：Dropout 正则化技术在训练时随机丢弃一些神经元，防止过拟合。
全连接层（Linear）：
- self.fc1 = nn.Linear(128 * 7 * 7, 1024)：第一个全连接层的输入是卷积后得到的特征，输出 1024 个节点。
- self.fc2 = nn.Linear(1024, 10)：最后的全连接层将 1024 个节点压缩为 10 个输出，代表分类结果。

训练 CNN 模型

要训练该模型，我们需要加载一个数据集、定义损失函数和优化器，然后进行训练。以下是如何使用 MNIST 数据集进行训练的示例。

import torch.optim as optim
from torch.utils.data import DataLoader
from torchvision import datasets, transforms# 加载 MNIST 数据集
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])
train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)# 训练循环
num_epochs = 5
for epoch in range(num_epochs):model.train()running_loss = 0.0for batch_idx, (data, target) in enumerate(train_loader):optimizer.zero_grad()output = model(data)loss = criterion(output, target)loss.backward()optimizer.step()running_loss += loss.item()if batch_idx % 100 == 99:  # 每100个batch输出一次损失print(f'Epoch {epoch+1}, Batch {batch_idx+1}, Loss: {running_loss / 100:.4f}')running_loss = 0.0print("Finished Training")

训练过程说明

数据加载器（DataLoader）：用于批量加载训练数据，支持数据的随机打乱（shuffle）。
损失函数（CrossEntropyLoss）：用于多分类问题，计算预测和真实标签之间的交叉熵损失。
优化器（Adam）：Adam 优化器自适应调整学习率，通常在深度学习中表现良好。
训练循环：每个 epoch 处理整个数据集，通过前向传播、计算损失、反向传播和优化步骤，更新网络参数。

总结

在这篇文章中，我们实现了一个标准的卷积神经网络（CNN），并使用 PyTorch 对其进行了定义和训练。通过使用卷积层、池化层和全连接层，模型能够自动学习图像的特征并进行分类。我们还介绍了如何训练模型、加载数据集以及使用常见的优化器和损失函数。希望这篇文章能帮助你理解 CNN 的基本架构及其实现方式！

使用 PyTorch 实现标准卷积神经网络（CNN）

什么是卷积神经网络（CNN）？

CNN 的核心组成部分

PyTorch 实现 CNN

代码实现

代码解析

训练 CNN 模型

训练过程说明

总结

相关文章：

使用 PyTorch 实现标准卷积神经网络（CNN）

Casbin 权限管理介绍及在 Go 语言中的使用入门

如何在Windows下使用Ollama本地部署DeepSeek R1

【分布式理论12】事务协调者高可用：分布式选举算法

详细介绍Tess4J的使用：从PDF到图像的OCR技术实现

postgres源码学习之简单sql查询

C#项目05-猜数字多线程

前端504错误分析

《C语言动态顺序表:从内存管理到功能实现》

通过API 调用本地部署 deepseek-r1 模型

DeepSeek-学习与实践

DeepSeek和ChatGPT的全面对比

无线网络安全配置指南：WPA、WPA2、WPA3及WAPI详解

撕碎QT面具（6）：调节窗口大小后，控件被挤得重叠的解决方法

解锁机器学习核心算法 | K-平均：揭开K-平均算法的神秘面纱

【Linux】匿名管道的应用场景-----管道进程池

机器学习（1）安装Pytorch

Linux 多Python版本统一和 PySpark 依赖 python 包方案

PostgreSQL的学习心得和知识总结（一百六十九）|深入理解PostgreSQL数据库之 Group By 键值消除的使用和实现

DeepSeek是什么？两种模型的对比？

跟着 Lua 5.1 官方参考文档学习 Lua (2)

Python基于循环神经网络的情感分类系统（附源码，文档说明）

Zookeeper应用案例-分布式锁-实现思路

java练习（32）

伯克利 CS61A 课堂笔记 10 —— Trees

让编程变成一种享受-明基RD320U显示器

10分钟上手DeepSeek开发：SpringBoot + Vue2快速构建AI对话系统

LeetCode 0624.数组列表中的最大距离：只关心最小最大值

如何解决服务器端口被攻击：全面防护与快速响应

Golang深度学习