当前位置：首页 > news >正文

深度学习经典模型之VGGNet

news 2026/5/12 5:42:51

1 VGGNet

1.1 模型介绍

VGGNet是由牛津大学视觉几何小组（Visual Geometry Group, VGG）提出的一种深层卷积网络结构，他们以7.32%的错误率赢得了2014年ILSVRC分类任务的亚军（冠军由GoogLeNet以6.65%的错误率夺得）和25.32%的错误率夺得定位任务（Localization）的第一名（GoogLeNet错误率为26.44%） $^{[5]}$ ，网络名称VGGNet取自该小组名缩写。VGGNet是首批把图像分类的错误率降低到10%以内模型，同时该网络所采用的 $3\times3$ 卷积核的思想是后来许多模型的基础，该模型发表在2015年国际学习表征会议（International Conference On Learning Representations, ICLR）后至今被引用的次数已经超过1万4千余次。

1.2 模型结构

在这里插入图片描述

图 1 VGG16网络结构图

在原论文中的VGGNet包含了6个版本的演进，分别对应VGG11、VGG11-LRN、VGG13、VGG16-1、VGG16-3和VGG19，不同的后缀数值表示不同的网络层数（VGG11-LRN表示在第一层中采用了LRN的VGG11，VGG16-1表示后三组卷积块中最后一层卷积采用卷积核尺寸为 $1\times1$ ，相应的VGG16-3表示卷积核尺寸为 $3\times3$ ），本节介绍的VGG16为VGG16-3。图1中的VGG16体现了VGGNet的核心思路，使用 $3\times3$ 的卷积组合代替大尺寸的卷积（2个 $3\times3卷积即可与$ $5\times5$ 卷积拥有相同的感受视野），网络参数设置如表2所示。

表2 VGG16网络参数配置

网络层	输入尺寸	核尺寸	输出尺寸	参数个数
卷积层 $C_{11}$	$224\times224\times3$	$3\times3\times64/1$	$224\times224\times64$	$(3\times3\times3+1)\times64$
卷积层 $C_{12}$	$224\times224\times64$	$3\times3\times64/1$	$224\times224\times64$	$(3\times3\times64+1)\times64$
下采样层 $S_{max1}$	$224\times224\times64$	$2\times2/2$	$112\times112\times64$	$0$
卷积层 $C_{21}$	$112\times112\times64$	$3\times3\times128/1$	$112\times112\times128$	$(3\times3\times64+1)\times128$
卷积层 $C_{22}$	$112\times112\times128$	$3\times3\times128/1$	$112\times112\times128$	$(3\times3\times128+1)\times128$
下采样层 $S_{max2}$	$112\times112\times128$	$2\times2/2$	$56\times56\times128$	$0$
卷积层 $C_{31}$	$56\times56\times128$	$3\times3\times256/1$	$56\times56\times256$	$(3\times3\times128+1)\times256$
卷积层 $C_{32}$	$56\times56\times256$	$3\times3\times256/1$	$56\times56\times256$	$(3\times3\times256+1)\times256$
卷积层 $C_{33}$	$56\times56\times256$	$3\times3\times256/1$	$56\times56\times256$	$(3\times3\times256+1)\times256$
下采样层 $S_{max3}$	$56\times56\times256$	$2\times2/2$	$28\times28\times256$	$0$
卷积层 $C_{41}$	$28\times28\times256$	$3\times3\times512/1$	$28\times28\times512$	$(3\times3\times256+1)\times512$
卷积层 $C_{42}$	$28\times28\times512$	$3\times3\times512/1$	$28\times28\times512$	$(3\times3\times512+1)\times512$
卷积层 $C_{43}$	$28\times28\times512$	$3\times3\times512/1$	$28\times28\times512$	$(3\times3\times512+1)\times512$
下采样层 $S_{max4}$	$28\times28\times512$	$2\times2/2$	$14\times14\times512$	$0$
卷积层 $C_{51}$	$14\times14\times512$	$3\times3\times512/1$	$14\times14\times512$	$(3\times3\times512+1)\times512$
卷积层 $C_{52}$	$14\times14\times512$	$3\times3\times512/1$	$14\times14\times512$	$(3\times3\times512+1)\times512$
卷积层 $C_{53}$	$14\times14\times512$	$3\times3\times512/1$	$14\times14\times512$	$(3\times3\times512+1)\times512$
下采样层 $S_{max5}$	$14\times14\times512$	$2\times2/2$	$7\times7\times512$	$0$
全连接层 $FC_{1}$	$7\times7\times512$	$(7\times7\times512)\times4096$	$1\times4096$	$(7\times7\times512+1)\times4096$
全连接层 $FC_{2}$	$1\times4096$	$4096\times4096$	$1\times4096$	$(4096+1)\times4096$
全连接层 $FC_{3}$	$1\times4096$	$4096\times1000$	$1\times1000$	$(4096+1)\times1000$

1.3 模型特性

整个网络都使用了同样大小的卷积核尺寸 $3\times3$ 和最大池化尺寸 $2\times2$ 。
$1\times1$ 卷积的意义主要在于线性变换，而输入通道数和输出通道数不变，没有发生降维。
两个 $3\times3$ 的卷积层串联相当于1个 $5\times5$ 的卷积层，感受野大小为 $5\times5$ 。同样地，3个 $3\times3$ 的卷积层串联的效果则相当于1个 $7\times7$ 的卷积层。这样的连接方式使得网络参数量更小，而且多层的激活函数令网络对特征的学习能力更强。
VGGNet在训练时有一个小技巧，先训练浅层的的简单网络VGG11，再复用VGG11的权重来初始化VGG13，如此反复训练并初始化VGG19，能够使训练时收敛的速度更快。
在训练过程中使用多尺度的变换对原始数据做数据增强，使得模型不易过拟合。

深度学习经典模型之VGGNet

1 VGGNet

1.1 模型介绍

1.2 模型结构

1.3 模型特性

相关文章：

深度学习经典模型之VGGNet

Axure网络短剧APP端原型图，竖屏微剧视频模版40页

ES + SkyWalking + Spring Boot：日志分析与服务监控（三）

php 如何将数组转成对象数组

HTB：Photobomb[WriteUP]

图文组合-pytorch实现

CentOS AppStream 8 手动更新 yum源

虚拟化环境中香港服务器内存如何分配与管理？

Android源码中如何编译出fastboot.exe和adb.exe程序

C++ 参数传递笔记

【Linux】注释和配置文件的介绍

安卓主板_基于联发科MTK MT8788平台平板电脑方案_安卓核心板开发板定制

CLIP（Contrastive Language-Image Pre-Training）在SOPHON BM1684X上进行推理

Ascend Extension for PyTorch的源码解析

鸿蒙HarmonyOS开发：给应用添加基础类型通知和进度条类型通知（API 12）

从零开始使用YOLOv11——Yolo检测detect数据集自建格式转换为模型训练格式：20w+图片1w+类别代码测试成功

自动化新时代：机器取代工作，我们该如何重塑自我？

GEE 土地分类——利用Sentinel-2数据进行土地分类

《C++ 游戏开发》

2024年11月10日系统架构设计师考试题目回顾

Podgrab源码架构分析：深入理解Go语言播客管理工具的设计原理

Cursor编辑器Markdown规则集：AI生成文档自动化格式规范指南

从公式到代码：用STM32实现直线滑台S曲线加减速控制的保姆级教程

FPGA/CPLD数字系统设计实战：从器件选型到调试验证的工程指南

【研报 A109】2026年脑机接口产业化专题报告：首个侵入式产品获批，医保完成赋码

Unlock Music：3种创新用法让你重新掌控被加密的音乐收藏

英雄联盟智能助手：5个核心功能让你的游戏体验提升300%

告别LSMW！SAP S/4HANA数据迁移新宠：手把手激活Migration Cockpit (LTMC/LTMOM)服务

3步解锁网易云音乐NCM文件：ncmdump让你的音乐自由播放

从按键开机到I2C隔离：手把手拆解一个智能硬件项目里的MOS管实战配置