当前位置：首页 > news >正文

现代神经网络(VGG)，并用VGG16进行实战CIFAR10分类

news 2025/11/6 2:34:14

专栏：神经网络复现目录

本章介绍的是现代神经网络的结构和复现，包括深度卷积神经网络（AlexNet），VGG，NiN，GoogleNet，残差网络（ResNet），稠密连接网络（DenseNet）。
文章部分文字和代码来自《动手学深度学习》

文章目录

使用块的网络(VGG)
VGG块
- 定义
- 实现
VGG16
- 模型设计
- 实现
利用VGG16进行CIFAR10分类
- 数据集
- 超参数，优化器，损失函数
- 训练

使用块的网络(VGG)

VGG是一种深度卷积神经网络，由牛津大学视觉几何组（Visual Geometry Group）在2014年提出。它是由多个卷积层和池化层组成的深度神经网络，具有很强的图像分类能力，特别是在图像识别领域，取得了很好的成果。

VGG的特点在于，它使用相对较小的卷积核（3x3），但是通过叠加多个卷积层和池化层，增加了网络的深度，从而达到更好的图像分类性能。VGG网络包含了多个版本，以卷积层数目为标志，如VGG16和VGG19等，其中VGG16和VGG19是最著名的两个版本。

VGG网络的设计非常简单和规整，容易理解和实现，因此也成为了很多深度学习新手的入门模型。

下图为VGG的六个版本，比较实用的是VGG16和VGG19，本文以VGG16为例子进行讲解
在这里插入图片描述

VGG块

定义

VGG块是VGG网络中的一个基本组成单元，由若干个卷积层和池化层组成，通常用于提取输入图像的特征。每个VGG块都由连续的1或2个卷积层，和一个最大池化层组成。其中，卷积层的卷积核大小都是3x3，而池化层的窗口大小通常是2x2。在每个VGG块中，卷积层的输出通道数都相同，可以通过超参数进行控制。

具体来说，假设一个VGG块由k个卷积层和一个池化层组成，输入为 $x$ ，则该块的输出可以表示为：

$VGG(x)=Pool(convk(convk−1(⋯conv1(x)))).\text{VGG}(x) = \text{Pool}(\text{conv}k(\text{conv}{k-1}(\cdots\text{conv}_1(x)))).$

其中， $convi(⋅)\text{conv}_i(\cdot)$ 表示第 $i$ 个卷积层， $Pool(⋅)\text{Pool}(\cdot)$ 表示池化层。在VGG块中，每个卷积层都会使用ReLU激活函数进行非线性变换，而最大池化层则用于下采样和特征压缩。

在VGG网络中，通常通过叠加多个VGG块来构建网络结构。通过增加VGG块的数量，可以增加网络的深度和宽度，从而提高网络的表达能力和泛化性能。

实现

self.conv1=nn.Sequential(nn.Conv2d(in_channels=3,out_channels=64,kernel_size=3,padding=1,stride=1),nn.ReLU(inplace=True),nn.Conv2d(in_channels=64,out_channels=64,kernel_size=3,padding=1,stride=1),nn.ReLU(inplace=True),nn.MaxPool2d(kernel_size=2,stride=2),)

inplace=True 表示对于输入的张量进行原地操作，即直接对原始的输入张量进行修改，而不是创建一个新的张量。这样做可以节省内存，但会覆盖原始的输入张量，可能会对后续的计算产生影响。因此，当我们需要保留原始的输入张量时，可以将 inplace 参数设置为 False。

VGG16

模型设计

VGG16是一个卷积神经网络模型，包含13个卷积层、5个池化层和3个全连接层，是由牛津大学计算机视觉组（Visual Geometry Group）在2014年提出的模型，具有较好的图像识别表现。

VGG16模型的架构如下：

输入层：输入图像的大小为224x224x3。

VGG块1

卷积层1：使用64个3x3大小的卷积核进行卷积操作，得到64张大小为224x224的特征图。采用SAME填充，步长为1。然后再通过ReLU非线性激活函数进行激活。

卷积层2：使用64个3x3大小的卷积核进行卷积操作，得到64张大小为224x224的特征图。采用SAME填充，步长为1。然后再通过ReLU非线性激活函数进行激活。

池化层1：使用2x2的最大池化操作，将64张大小为224x224的特征图缩小为64张大小为112x112的特征图。采用SAME填充，步长为2。

VGG块2

卷积层3：使用128个3x3大小的卷积核进行卷积操作，得到128张大小为112x112的特征图。采用SAME填充，步长为1。然后再通过ReLU非线性激活函数进行激活。

卷积层4：使用128个3x3大小的卷积核进行卷积操作，得到128张大小为112x112的特征图。采用SAME填充，步长为1。然后再通过ReLU非线性激活函数进行激活。

池化层2：使用2x2的最大池化操作，将128张大小为112x112的特征图缩小为128张大小为56x56的特征图。采用SAME填充，步长为2。

VGG块3

卷积层5：使用256个3x3大小的卷积核进行卷积操作，得到256张大小为56x56的特征图。采用SAME填充，步长为1。然后再通过ReLU非线性激活函数进行激活。

卷积层6：使用256个3x3大小的卷积核进行卷积操作，得到256张大小为56x56的特征图。采用SAME填充，步长为1。然后再通过ReLU非线性激活函数进行激活。

卷积层7：使用256个3x3大小的卷积核进行卷积操作，得到256张大小为56x56的特征图。采用SAME填充，步长为1。然后再通过ReLU非线性激活函数进行激活。

池化层3：使用2x2的最大池化操作，将256张大小为56x56的特征图缩小为256张大小为28x28的特征图。采用SAME填充，步长为2。

VGG块4

卷积层8-10：使用512个3x3大小的卷积核进行卷积操作，得到512张大小为28x28的特征图。采用SAME填充，步长为1。然后再通过ReLU非线性激活函数进行激活。

池化层4：使用2x2的最大池化操作，将512张大小为28x28的特征图缩小为512张大小为14x14的特征图。采用SAME填充，步长为2。

VGG块5

卷积层11-13：使用512个3x3大小的卷积核进行卷积操作，得到512张大小为14x14的特征图。采用SAME填充，步长为1。然后再通过ReLU非线性激活函数进行激活。

池化层5：使用2x2的最大池化操作，将512张大小为14x14的特征图缩小为512张大小为7x7的特征图。采用SAME填充，步长为2。

全连接层

3个全连接层，第1、2个都有4096个输出通道，第3个全连接层则有1000个输出通道。

实现

class VGG16(nn.Module):def __init__(self):super(VGG16,self).__init__()self.conv1=nn.Sequential(nn.Conv2d(in_channels=3,out_channels=64,kernel_size=3,padding=1,stride=1),nn.ReLU(inplace=True),nn.Conv2d(in_channels=64,out_channels=64,kernel_size=3,padding=1,stride=1),nn.ReLU(inplace=True),nn.MaxPool2d(kernel_size=2,stride=2),)self.conv2=nn.Sequential(nn.Conv2d(in_channels=64,out_channels=128,kernel_size=3,padding=1,stride=1),nn.ReLU(inplace=True),nn.Conv2d(in_channels=128,out_channels=128,kernel_size=3,padding=1,stride=1),nn.ReLU(inplace=True),nn.MaxPool2d(kernel_size=2,stride=2),)self.conv3=nn.Sequential(nn.Conv2d(in_channels=128,out_channels=256,kernel_size=3,padding=1,stride=1),nn.ReLU(inplace=True),nn.Conv2d(in_channels=256,out_channels=256,kernel_size=3,padding=1,stride=1),nn.ReLU(inplace=True),nn.Conv2d(in_channels=256,out_channels=256,kernel_size=3,padding=1,stride=1),nn.ReLU(inplace=True),nn.MaxPool2d(kernel_size=2,stride=2),)self.conv4=nn.Sequential(nn.Conv2d(in_channels=256,out_channels=512,kernel_size=3,padding=1,stride=1),nn.ReLU(inplace=True),nn.Conv2d(in_channels=512,out_channels=512,kernel_size=3,padding=1,stride=1),nn.ReLU(inplace=True),nn.Conv2d(in_channels=512,out_channels=512,kernel_size=3,padding=1,stride=1),nn.ReLU(inplace=True),nn.MaxPool2d(kernel_size=2,stride=2),)self.conv5=nn.Sequential(nn.Conv2d(in_channels=512,out_channels=512,kernel_size=3,padding=1,stride=1),nn.ReLU(inplace=True),nn.Conv2d(in_channels=512,out_channels=512,kernel_size=3,padding=1,stride=1),nn.ReLU(inplace=True),nn.Conv2d(in_channels=512,out_channels=512,kernel_size=3,padding=1,stride=1),nn.ReLU(inplace=True),nn.MaxPool2d(kernel_size=2,stride=2),)self.feature=nn.Sequential(self.conv1,self.conv2,self.conv3,self.conv4,self.conv5,)self.flatten=nn.Flatten()self.fc=nn.Sequential(nn.Linear(512*7*7,4096),nn.ReLU(inplace=True),nn.Dropout(0.4),nn.Linear(4096,4096),nn.ReLU(inplace=True),nn.Dropout(0.4),nn.Linear(4096,1000),#nn.Softmax(10))def forward(self,x):x=self.feature(x)# x=self.flatten(x)x = x.view(x.size(0), -1)x=self.fc(x)return x

查看结构

vgg = VGG16()
print(vgg)
x=torch.rand(1,3,224,224)
y=vgg(x)
print(y.shape)

利用VGG16进行CIFAR10分类

import torch.nn as nn
import torch
import torchvisionif(torch.cuda.is_available()):device = torch.device("cuda")print("使用GPU训练中：{}".format(torch.cuda.get_device_name()))
else:device = torch.device("cpu")print("使用CPU训练")

数据集

# transform的创建（compose方法）
from torchvision import transforms
def get_dataloader_workers():  #@save"""使用4个进程来读取数据"""return 4def load_data_cifar10(batch_size, resize=None):  #@savetrans = [transforms.ToTensor()]if resize:trans.insert(0, transforms.Resize(resize))trans = transforms.Compose(trans)mnist_train = torchvision.datasets.CIFAR10(root="../data", train=True, transform=trans, download=True)mnist_test = torchvision.datasets.CIFAR10(root="../data", train=False, transform=trans, download=True)return (torch.utils.data.DataLoader(mnist_train, batch_size, shuffle=True,num_workers=get_dataloader_workers()),torch.utils.data.DataLoader(mnist_test, batch_size, shuffle=False,num_workers=get_dataloader_workers()))
batch_size=4
train_iter, test_iter = load_data_cifar10(batch_size,resize=224)

超参数，优化器，损失函数

from torch import optim
net=VGG16()
lr=0.001
optimizer=optim.SGD(net.parameters(),lr=lr,momentum=0.9)
loss=nn.CrossEntropyLoss()
epochs=10

训练

def train(net,train_iter,test_iter,num_epochs, lr, device):def init_weights(m):if type(m) == nn.Linear or type(m) == nn.Conv2d:nn.init.xavier_uniform_(m.weight)net.apply(init_weights)print('training on', device)net.to(device)for epoch in range(num_epochs):net.train()train_step = 0for i, (X, y) in enumerate(train_iter):optimizer.zero_grad()X, y = X.to(device), y.to(device)y_hat = net(X)l=loss(y_hat,y)l.backward()optimizer.step()train_step+=1if(train_step%50==0):#每训练一百组输出一次损失print("第{}轮的第{}次训练的loss:{}".format((epoch+1),train_step,l.item()))

现代神经网络(VGG)，并用VGG16进行实战CIFAR10分类

专栏：神经网络复现目录本章介绍的是现代神经网络的结构和复现，包括深度卷积神经网络（AlexNet），VGG，NiN，GoogleNet，残差网络（ResNet），稠密连接网络…...

编程日记 2023/5/8 3:33:24

Java代码弱点与修复之——Dereference null return value(间接引用空返回值)

弱点描述 Dereference null return value，间接引用空返回值。是Coverity Scan静态代码分析工具中的一个警告，表示代码中有对可能为空（null）的方法或函数返回值进行间接引用（Dereference）操作。该类型的漏洞可能会导致 NullPointerException 异常，并且会导致程序崩溃或…...

编程日记 2023/5/8 3:33:22

【冲刺蓝桥杯的最后30天】day3

大家好😃，我是想要慢慢变得优秀的向阳🌞同学👨‍💻，断更了整整一年，又开始恢复CSDN更新，从今天开始更新备战蓝桥30天系列，一共30天，如果对你有帮助或者正在备…...

编程日记 2023/5/8 3:33:21

光伏发电嵌入式ARM工控机

随着智慧电力技术的不断发展和普及，越来越多的电力设备和系统需要采用先进的控制和监测技术来实现自动化管理和优化运行。其中，嵌入式 ARM 控制器技术在智慧电力领域中得到了广泛应用。同时，导轨安装也是该技术的重要应用场景之一。导轨安装…...

编程日记 2023/5/8 3:33:19

1.1基于知识图谱的项目实战：优酷搜索泛查询意图优化

NLU的技术实现主要分为在线识别和离线数据挖掘两块。 1.在线识别 NLU的在线识别技术栈如下图所示，共由下述2个部分组成：第一个部分是Slot Filling(成分分析)，负责对query进行实体识别和槽位抽取；第二部分Inention Detection（意图识别），根据提取的槽位进行意图的判定（目…...

编程日记 2023/5/8 3:33:15

[java Spring JdbcTemplate配合mysql实现数据批量删除

之前的文章 java Spring JdbcTemplate配合mysql实现数据批量添加和文章java Spring JdbcTemplate配合mysql实现数据批量修改先后讲解了 mysql数据库的批量添加和批量删除操作会了这两个操作之后批量删除就不要太简单我们看到数据库这里我们用的是mysql工具这里我们有…...

编程日记 2023/5/8 7:54:35

uos 20 统信 fprintd 记录 sudo busctl deepin-authenticate.service /usr/lib/systemd/system/deepin-authenticate.service [Unit] DescriptionDeepin Authentication[Service] Typedbus BusNamecom.deepin.daemon.Authenticate ExecStart/usr/lib/deepin-authenticate/d…...

编程日记 2023/5/8 7:54:33

vue移动端h5，文本溢出显示省略号，且展示‘更多’按钮

问题： 元素宽度100%，宽度会随着浏览器缩放而变化。元素内文本超过4行时显示省略号，同时展示‘更多’按钮，点击更多按钮展示全部文本。如下图所示超出四行显示省略号(…)的代码 .content{overflow:hidden;text-overflow: elli…...

编程日记 2023/5/8 7:54:29

php宝塔搭建部署实战兰空图床程序网站PHP源码

大家好啊，我是测评君，欢迎来到web测评。本期给大家带来一套Lsky Pro兰空图床程序网站PHP的源码。感兴趣的朋友可以自行下载学习。技术架构 PHP8.0 nginx mysql5.7 JS CSS HTMLcnetos7以上宝塔面板文字搭建教程下载源码，宝塔添加…...

编程日记 2023/5/8 7:54:21

软件测试面试：拿到一个产品(版本)如何开展测试？

产品提测后，如何开展测试？ 我们都了解软件测试的执行流程，......提测-冒烟测试-详细测试-提交缺陷报告-回归测试，但软件测试并不总是线性过程，它甚至可能是螺旋结构，不断地试错，不断地迭代&…...

编程日记 2023/5/8 7:54:09

【Opencv项目实战】图像的像素值反转

文章目录一、项目思路二、算法详解2.1、获取图像信息2.2、新建模板2.3、图像通道顺序三、项目实战：彩图的像素值反转（方法一）四、项目实战：彩图的像素值反转（方法二）五、项目实战：彩图转换为灰图…...

编程日记 2023/5/8 7:54:07

Swagger生成接口在线文档

OpenAPI规范（OpenAPI Specification 简称OAS）是Linux基金会的一个项目，试图通过定义一种用来描述API格式或API定义的语言，来规范RESTful服务开发过程，目前版本是V3.0，并且已经发布并开源在github上。&#…...

编程日记 2023/5/8 7:54:05

104.第十九章 MySQL数据库 -- MySQL主从复制、级联复制和双主复制（十四）

6.1.2 实现主从复制配置参考官网 https://dev.mysql.com/doc/refman/8.0/en/replication-configuration.html https://dev.mysql.com/doc/refman/5.7/en/replication-configuration.html https://dev.mysql.com/doc/refman/5.5/en/replication-configuration.html https://m…...

编程日记 2023/5/8 7:54:02

第一次使用Python for Qt中的问题

在创建带有form的python for qt的时候，使用的库是pySide6，而不是pyqt。因此，需要安装pyside6。 Running "/usr/bin/python3 -m pip install PySide6 --user" to install PySide6. ERROR: Could not find a version that satisfi…...

编程日记 2023/5/8 7:53:59

.Net Core WebApi 在Linux系统Deepin上部署Nginx并使用（一）

前言： Deepin最初是基于Ubuntu的发行版 2015年脱离Ubuntu开发，开始基于Ubuntu上游Debian操作系统 2019年脱离Debian，直接基于Linux开发，真正属于自己的上游Linux系统发行版 2022年8月，新版《Deepin V23》我下载开始了我…...

编程日记 2023/5/8 7:53:48

Java——打开轮盘锁

题目链接 leetcode在线oj题——打开轮盘锁题目描述你有一个带有四个圆形拨轮的转盘锁。每个拨轮都有10个数字： ‘0’, ‘1’, ‘2’, ‘3’, ‘4’, ‘5’, ‘6’, ‘7’, ‘8’, ‘9’ 。每个拨轮可以自由旋转：例如把 ‘9’ 变为 ‘0’&#xff0…...

编程日记 2023/5/8 7:53:42

JavaScript(2)

一、事件 HTML事件是发生在hTML元素上的“事情”。比如：按钮被点击、鼠标移动到元素上等… 事件绑定方式一：通过HTML标签中的事件属性进行绑定 <input type"button" value"点我" onclick"on()"><script>fun…...

编程日记 2023/5/8 7:53:37

FFMPEG 安装教程windowslinux(CentOS版)

ps: 从笔记中迁移至blog 版本概述 Windows 基于win10 Linux 基于CentOS 7.6 一.Windows安装笔记 1.下载安装 https://ffmpeg.org/download.html 2 解压缩，拷贝到需要目录，重命名 3 追加环境变量 echo %PATH%setx /m PATH "%PATH%;F:\dev_tools\…...

编程日记 2023/5/8 7:53:35

【虹科案例】虹科任意波形发生器在量子计算中的应用

虹科AWG在量子计算中的应用精度在研究中始终很重要，很少有研究领域需要比量子研究更高的精度。奥地利因斯布鲁克大学的量子光学和量子信息研究所需要一个任意波形发生器（AWG）来为他们的研究生成各种各样的信号。01无线电频率第一个应用是在射…...

编程日记 2023/5/8 7:53:30

龙虎榜——20250610

上证指数放量收阴线，个股多数下跌，盘中受消息影响大幅波动。深证指数放量收阴线形成顶分型，指数短线有调整的需求，大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技代表标的：御银股份、雄帝科技驱动…...

编程新知 2025/11/5 7:59:10

基于大模型的 UI 自动化系统

基于大模型的 UI 自动化系统下面是一个完整的 Python 系统，利用大模型实现智能 UI 自动化，结合计算机视觉和自然语言处理技术，实现"看屏操作"的能力。系统架构设计 #mermaid-svg-2gn2GRvh5WCP2ktF {font-family:"trebuchet ms",verdana,arial,sans-…...

编程新知 2025/10/22 11:16:20

服务器硬防的应用场景都有哪些？

服务器硬防是指一种通过硬件设备层面的安全措施来防御服务器系统受到网络攻击的方式，避免服务器受到各种恶意攻击和网络威胁，那么，服务器硬防通常都会应用在哪些场景当中呢？ 硬防服务器中一般会配备入侵检测系统和预防系统&#x…...

编程新知 2025/7/23 18:46:38

CMake 从 GitHub 下载第三方库并使用

有时我们希望直接使用 GitHub 上的开源库，而不想手动下载、编译和安装。可以利用 CMake 提供的 FetchContent 模块来实现自动下载、构建和链接第三方库。 FetchContent 命令官方文档✅ 示例代码我们将以 fmt 这个流行的格式化库为例，演示如何：使用 FetchContent 从 GitH…...

编程新知 2025/10/30 5:11:46

多种风格导航菜单 HTML 实现（附源码）

下面我将为您展示 6 种不同风格的导航菜单实现，每种都包含完整 HTML、CSS 和 JavaScript 代码。 1. 简约水平导航栏 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport&qu…...

编程新知 2025/10/30 22:15:39

分布式增量爬虫实现方案

之前我们在讨论的是分布式爬虫如何实现增量爬取。增量爬虫的目标是只爬取新产生或发生变化的页面，避免重复抓取，以节省资源和时间。在分布式环境下，增量爬虫的实现需要考虑多个爬虫节点之间的协调和去重。另一种思路：将增量判…...

编程新知 2025/11/3 0:39:14

Mac下Android Studio扫描根目录卡死问题记录

环境信息操作系统: macOS 15.5 (Apple M2芯片)Android Studio版本: Meerkat Feature Drop | 2024.3.2 Patch 1 (Build #AI-243.26053.27.2432.13536105, 2025年5月22日构建) 问题现象在项目开发过程中，提示一个依赖外部头文件的cpp源文件需要同步，点…...

编程新知 2025/11/3 0:36:59

云原生玩法三问：构建自定义开发环境

云原生玩法三问：构建自定义开发环境引言临时运维一个古董项目，无文档，无环境，无交接人，俗称三无。运行设备的环境老，本地环境版本高，ssh不过去。正好最近对腾讯出品的云原生 cnb 感兴趣&…...

编程新知 2025/11/5 17:01:57

九天毕昇深度学习平台 | 如何安装库？

pip install 库名 -i https://pypi.tuna.tsinghua.edu.cn/simple --user 举个例子： 报错 ModuleNotFoundError: No module named torch 那么我需要安装 torch pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple --user pip install 库名&#x…...

编程新知 2025/10/24 17:27:31

在Ubuntu24上采用Wine打开SourceInsight

1. 安装wine sudo apt install wine 2. 安装32位库支持，SourceInsight是32位程序 sudo dpkg --add-architecture i386 sudo apt update sudo apt install wine32:i386 3. 验证安装 wine --version 4. 安装必要的字体和库（解决显示问题） sudo apt install fonts-wqy…...

编程新知 2025/10/14 0:47:25