当前位置：首页 > news >正文

深度学习经典模型之LeNet-5

news 2025/7/9 0:44:23

1 LeNet-5

1.1 模型介绍

LeNet-5是由 $L e C u n$ 提出的一种用于识别手写数字和机器印刷字符的卷积神经网络（Convolutional Neural Network，CNN） $^{[1]}$ ，其命名来源于作者 $L e C u n$ 的名字，5则是其研究成果的代号，在LeNet-5之前还有LeNet-4和LeNet-1鲜为人知。LeNet-5阐述了图像中像素特征之间的相关性能够由参数共享的卷积操作所提取，同时使用卷积、下采样（池化）和非线性映射这样的组合结构，是当前流行的大多数深度图像识别网络的基础。

1.2 模型结构

在这里插入图片描述

图4.1 LeNet-5网络结构图

如图4.1所示，LeNet-5一共包含7层（输入层不作为网络结构），分别由2个卷积层、2个下采样层和3个连接层组成，网络的参数配置如表4.1所示，其中下采样层和全连接层的核尺寸分别代表采样范围和连接矩阵的尺寸（如卷积核尺寸中的 $“5\times5\times1/1,6”$ 表示核大小为 $5\times5\times1$ 、步长为 $1$ 且核个数为6的卷积核）。

表4.1 LeNet-5网络参数配置

网络层	输入尺寸	核尺寸	输出尺寸	可训练参数量
卷积层 $C_1$	$32\times32\times1$	$5\times5\times1/1,6$	$28\times28\times6$	$(5\times5\times1+1)\times6$
下采样层 $S_2$	$28\times28\times6$	$2\times2/2$	$14\times14\times6$	$(1+1)\times6$ $^*$
卷积层 $C_3$	$14\times14\times6$	$5\times5\times6/1,16$	$10\times10\times16$	$1516^*$
下采样层 $S_4$	$10\times10\times16$	$2\times2/2$	$5\times5\times16$	$(1+1)\times16$
卷积层 $C_5$ $^*$	$5\times5\times16$	$5\times5\times16/1,120$	$1\times1\times120$	$(5\times5\times16+1)\times120$
全连接层 $F_6$	$1\times1\times120$	$120\times84$	$1\times1\times84$	$(120+1)\times84$
输出层	$1\times1\times84$	$84\times10$	$1\times1\times10$	$(84+1)\times10$

$^*$ 在LeNet中，下采样操作和池化操作类似，但是在得到采样结果后会乘以一个系数和加上一个偏置项，所以下采样的参数个数是 $(1+1)\times6$ 而不是零。

$^*$ $C_3$ 卷积层可训练参数并未直接连接 $S_2$ 中所有的特征图（Feature Map），而是采用如图4.2所示的采样特征方式进行连接（稀疏连接），生成的16个通道特征图中分别按照相邻3个特征图、相邻4个特征图、非相邻4个特征图和全部6个特征图进行映射，得到的参数个数计算公式为 $6\times(25\times3+1)+6\times(25\times4+1)+3\times(25\times4+1)+1\times(25\times6+1)=1516$ ，在原论文中解释了使用这种采样方式原因包含两点：限制了连接数不至于过大（当年的计算能力比较弱）;强制限定不同特征图的组合可以使映射得到的特征图学习到不同的特征模式。

在这里插入图片描述

图4.2 $S_2$ 与 $C_3$ 之间的特征图稀疏连接

$^*$ $C_5$ 卷积层在图4.1中显示为全连接层，原论文中解释这里实际采用的是卷积操作，只是刚好在 $5\times5$ 卷积后尺寸被压缩为 $1\times1$ ，输出结果看起来和全连接很相似。

1.3 模型特性

卷积网络使用一个3层的序列组合：卷积、下采样（池化）、非线性映射（LeNet-5最重要的特性，奠定了目前深层卷积网络的基础）
使用卷积提取空间特征
使用映射的空间均值进行下采样
使用 $t anh$ 或 $s i g m o i d$ 进行非线性映射
多层神经网络（MLP）作为最终的分类器
层间的稀疏连接矩阵以避免巨大的计算开销

深度学习经典模型之LeNet-5

1 LeNet-5

1.1 模型介绍

1.2 模型结构

1.3 模型特性

相关文章：

深度学习经典模型之LeNet-5

Abaqus随机骨料过渡区孔隙三维网格插件：Random Agg ITZ Pore 3D (Mesh)

PG数据库 jsonb字段模糊查询

javascript-Web APLs （四）

Keras 3 示例：开启深度学习之旅

鸿蒙Next如何接入微信支付

nginx（五）：关于location匹配规则那些事

【论文阅读】Associative Alignment for Few-shot Image Classification

acmessl.cn提供接口API方式申请免费ssl证书

DBeaver如何快速格式化sql语句，真简单！

OpenCV C++ 计算两幅图像之间的多尺度结构相似性（MSSIM）

代码随想录第二十二天

【k8s】ClusterIP能http访问，但是不能ping 的原因

【力扣打卡系列】单调栈

使用docker安装zlmediakit服务(zlm)

SOLID原则-单一职责原则

Transformer究竟是什么？预训练又指什么？BERT

Jdbc批处理功能和MybatisPlus

对于相对速度的重新理解

Scala的属性访问权限(一)默认访问权限

7.4.分块查找

Leetcode 3577. Count the Number of Computer Unlocking Permutations

python如何将word的doc另存为docx

Java 加密常用的各种算法及其选择

Aspose.PDF 限制绕过方案：Java 字节码技术实战分享（仅供学习）

R 语言科研绘图第 55 期 --- 网络图-聚类

破解路内监管盲区：免布线低位视频桩重塑停车管理新标准

消息队列系统设计与实践全解析

Windows电脑能装鸿蒙吗_Windows电脑体验鸿蒙电脑操作系统教程

向量几何的二元性：叉乘模长与内积投影的深层联系