当前位置：首页 > news >正文

深度学习经典模型之ZFNet

news 2026/2/9 6:37:48

1 ZFNet

1.1 模型介绍

ZFNet是由 $M a tt h e w$ $D . Z e i l er$ 和 $R o b$ $F er gu s$ 在AlexNet基础上提出的大型卷积网络，在2013年ILSVRC图像分类竞赛中以11.19%的错误率获得冠军（实际上原ZFNet所在的队伍并不是真正的冠军，原ZFNet以13.51%错误率排在第8，真正的冠军是 $Cl a r i f ai$ 这个队伍，而 $Cl a r i f ai$ 这个队伍所对应的一家初创公司的CEO又是 $Z e i l er$ ，而且 $Cl a r i f ai$ 对ZFNet的改动比较小，所以通常认为是ZFNet获得了冠军） $^{[3-4]}$ 。ZFNet实际上是微调（fine-tuning）了的AlexNet，并通过反卷积（Deconvolution）的方式可视化各层的输出特征图，进一步解释了卷积操作在大型网络中效果显著的原因。

1.2 模型结构

在这里插入图片描述

图1 ZFNet网络结构图（原始结构图与AlexNet风格结构图）

如图4.4所示，ZFNet与AlexNet类似，都是由8层网络组成的卷积神经网络，其中包含5层卷积层和3层全连接层。两个网络结构最大的不同在于，ZFNet第一层卷积采用了 $7\times7\times3/2$ 的卷积核替代了AlexNet中第一层卷积核 $11\times11\times3/4$ 的卷积核。图4.5中ZFNet相比于AlexNet在第一层输出的特征图中包含更多中间频率的信息，而AlexNet第一层输出的特征图大多是低频或高频的信息，对中间频率特征的缺失导致后续网络层次如图4.5（c）能够学习到的特征不够细致，而导致这个问题的根本原因在于AlexNet在第一层中采用的卷积核和步长过大。

在这里插入图片描述

图2 （a）ZFNet第一层输出的特征图（b）AlexNet第一层输出的特征图（c）AlexNet第二层输出的特征图（d）ZFNet第二层输出的特征图

表3 ZFNet网络参数配置

网络层	输入尺寸	核尺寸	输出尺寸	可训练参数量
卷积层 $C_1$ $^*$	$224\times224\times3$	$7\times7\times3/2,96$	$110\times110\times96$	$(7\times7\times3+1)\times96$
下采样层 $S_{max}$	$110\times110\times96$	$3\times3/2$	$55\times55\times96$	0
卷积层 $C_2$ $^*$	$55\times55\times96$	$5\times5\times96/2,256$	$26\times26\times256$	$(5\times5\times96+1)\times256$
下采样层 $S_{max}$	$26\times26\times256$	$3\times3/2$	$13\times13\times256$	0
卷积层 $C_3$	$13\times13\times256$	$3\times3\times256/1,384$	$13\times13\times384$	$(3\times3\times256+1)\times384$
卷积层 $C_4$	$13\times13\times384$	$3\times3\times384/1,384$	$13\times13\times384$	$(3\times3\times384+1)\times384$
卷积层 $C_5$	$13\times13\times384$	$3\times3\times384/1,256$	$13\times13\times256$	$(3\times3\times384+1)\times256$
下采样层 $S_{max}$	$13\times13\times256$	$3\times3/2$	$6\times6\times256$	0
全连接层 $F_6$	$6\times6\times256$	$9216\times4096$	$1\times1\times4096$	$(9216+1)\times4096$
全连接层 $F_7$	$1\times1\times4096$	$4096\times4096$	$1\times1\times4096$	$(4096+1)\times4096$
全连接层 $F_8$	$1\times1\times4096$	$4096\times1000$	$1\times1\times1000$	$(4096+1)\times1000$

卷积层 $C_1$ 与AlexNet中的 $C_1$ 有所不同，采用 $7\times7\times3/2$ 的卷积核代替 $11\times11\times3/4$ ，使第一层卷积输出的结果可以包含更多的中频率特征，对后续网络层中多样化的特征组合提供更多选择，有利于捕捉更细致的特征。

卷积层 $C_2$ 采用了步长2的卷积核，区别于AlexNet中 $C_2$ 的卷积核步长，所以输出的维度有所差异。

1.3 模型特性

ZFNet与AlexNet在结构上几乎相同，此部分虽属于模型特性，但准确地说应该是ZFNet原论文中可视化技术的贡献。

可视化技术揭露了激发模型中每层单独的特征图。
可视化技术允许观察在训练阶段特征的演变过程且诊断出模型的潜在问题。
可视化技术用到了多层解卷积网络，即由特征激活返回到输入像素空间。
可视化技术进行了分类器输出的敏感性分析，即通过阻止部分输入图像来揭示那部分对于分类是重要的。
可视化技术提供了一个非参数的不变性来展示来自训练集的哪一块激活哪个特征图，不仅需要裁剪输入图片，而且自上而下的投影来揭露来自每块的结构激活一个特征图。
可视化技术依赖于解卷积操作，即卷积操作的逆过程，将特征映射到像素上。

深度学习经典模型之ZFNet

1 ZFNet

1.1 模型介绍

1.2 模型结构

1.3 模型特性

相关文章：

深度学习经典模型之ZFNet

Linux系统-ubuntu系统安装

2-Ubuntu/Windows系统启动盘制作

你使用过哪些MySQL中复杂且使用不频繁的函数？

Redis-07 Redis哨兵

7.qsqlquerymodel 与 qtableview使用

状态模式（State Pattern）详解

ajax微信静默登录不起效不跳转问题

参数估计理论

mybatis插入数据运行成功但数据库没有数据，id却在增长，是什么原因？？

Hadoop简介及单点伪分布式安装

网站架构知识之Ansible模块（day021）

是时候用开源降低AI落地门槛了

操作系统学习笔记-5.1-IO设备

页面、组件、应用、生命周期（微信小程序）

书生第四期实训营进阶岛——L2G4000 InternVL 多模态模型部署微调实践

国内 ChatGPT中文版镜像网站整理合集（2024/11/08）

SpringBoot整合Liquibase对数据库管理和迁移

太空旅游：科技能否让星辰大海变为现实？

[JAVAEE] 面试题(四) - 多线程下使用ArrayList涉及到的线程安全问题及解决

【大模型RAG】拍照搜题技术架构速览：三层管道、两级检索、兜底大模型

Chapter03-Authentication vulnerabilities

通过Wrangler CLI在worker中创建数据库和表

高频面试之3Zookeeper

测试markdown--肇兴

MODBUS TCP转CANopen 技术赋能高效协同作业

laravel8+vue3.0+element-plus搭建方法

基于IDIG-GAN的小样本电机轴承故障诊断

uniapp 开发ios， xcode 提交app store connect 和 testflight内测

tomcat指定使用的jdk版本