当前位置：首页 > news >正文

【深度学习基础知识（一）：卷积神经网络CNN基础知识】

news 2026/2/8 21:56:59

@深度学习基础知识

深度学习基础知识（一）：卷积神经网络CNN基础知识

卷积神经网络CNN基础知识

0、目录

1. CNN卷积神经网络的特点

2. 卷积操作基础知识

    2.1 卷积操作的概念2.2 卷积操作的种类2.3 卷积操作后特征图谱大小计算公式

3. 池化操作基础知识

	3.1 池化操作的作用/为什么要进行池化操作？3.2 池化操作的种类3.3 池化操作后特征图谱大小计算公式

1、CNN卷积神经网络的特点

CNN的使用范围是具有局部空间相关性的数据，比如图像、自然语言、语音。
局部连接（稀疏连接）：可以提取局部特征
权值共享：减少参数数量，降低训练难度，避免过拟合，提升模型“平移不变性”
降维：通过池化或卷积stride实现
多层次结构：将低层次的局部特征组合成较高层次的特征，不同层级的特征可以对应不同任务

2、卷积操作基础知识

2.1 卷积操作的概念

卷积操作
当卷积核在输入图像上扫描时，将卷积核与输入图像中对应位置的数值逐个相乘，最后汇总求和，就得到该位置的卷积结果。不断移动卷积核，就可算出各个位置的卷积结果。
卷积属性
- 卷积核（Kernel）：卷积操作的感受野，直观理解就是一个滤波矩阵，普遍使用的卷积核大小为3×3、5×5等；
- 步长（Stride）：卷积核遍历特征图时每步移动的像素，如步长为1则每次移动1个像素，步长为2则每次移动2个像素（即跳过1个像素），以此类推；
- 填充（Padding）：处理特征图边界的方式，一般有两种，一种是对边界外完全不填充，只对输入像素执行卷积操作，这样会使输出特征图的尺寸小于输入特征图尺寸；另一种是对边界外进行填充（一般填充为0），再执行卷积操作，这样可使输出特征图的尺寸与输入特征图的尺寸一致；
- 通道（Channel）：卷积层的通道数（层数）
卷积操作示意图
如下图所示，一个卷积核（kernel）为3×3、步长（stride）为1、填充（padding）为1的二维卷积过程：
卷积操作计算示意图
如下图所示，一个33大小的卷积核（矩阵）正在一个55大小的图像（矩阵）进行扫描，根据公式：y=wx进行叠加即可：

2.2 卷积操作的种类

二维卷积（单通道卷积版本）

2D Convolution: the single channel version
只有一个通道的卷积
如下图是一个卷积核（kernel）为3×3、步长（stride）为1、填充（padding）为0的卷积

二维卷积（多通道版本）

2D Convolution: the multi-channel version
拥有多个通道的卷积，例如处理彩色图像时，分别对R, G, B这3个层处理的3通道卷积，如下图：
再将三个通道的卷积结果进行合并（一般采用元素相加），得到卷积后的结果，如下图：

在这里插入图片描述

三维卷积3D Convolution

卷积有三个维度（高度、宽度、通道），沿着输入图像的3个方向进行滑动，最后输出三维的结果

1x1卷积

当卷积核尺寸为1x1时的卷积，也即卷积核变成只有一个数字。
1x1卷积的作用在于能有效地减少维度，降低计算的复杂度。

反卷积 / 转置卷积

Deconvolution / Transposed Convolution）
卷积是对输入图像提取出特征（可能尺寸会变小），而所谓的“反卷积”便是进行相反的操作。但这里说是“反卷积”并不严谨，因为并不会完全还原到跟输入图像一样，一般是还原后的尺寸与输入图像一致，主要用于向上采样。
从数学计算上看，“反卷积”相当于是将卷积核转换为稀疏矩阵后进行转置计算，因此，也被称为“转置卷积”
如下图，在2x2的输入图像上应用步长为1、边界全0填充的3x3卷积核，进行转置卷积（反卷积）计算，向上采样后输出的图像大小为4x4。

在这里插入图片描述
6. 空洞卷积（膨胀卷积）

Dilated Convolution / Atrous Convolution
为扩大感受野，在卷积核里面的元素之间插入空格来“膨胀”内核，形成“空洞卷积”（或称膨胀卷积），并用膨胀率参数L表示要扩大内核的范围，即在内核元素之间插入L-1个空格。
当L=1时，则内核元素之间没有插入空格，变为标准卷积。如下图为膨胀率L=2的空洞卷积：

空间可分离卷积（Spatially Separable Convolutions）

空间可分离卷积是将卷积核分解为两项独立的核分别进行操作。一个3x3的卷积核分解如下图：
分解后的卷积计算过程如下图，先用3x1的卷积核作横向扫描计算，再用1x3的卷积核作纵向扫描计算，最后得到结果。采用可分离卷积的计算量比标准卷积要少。

深度可分离卷积（Depthwise Separable Convolutions）

深度可分离卷积的方法有所不同。正常卷积核是对3个通道同时做卷积。也就是说，3个通道，在一次卷积后，输出一个数。
深度可分离卷积分为两步：
（1）用三个卷积对三个通道分别做卷积，这样在一次卷积后，输出3个数。
（2）这输出的三个数，再通过一个1x1x3的卷积核（pointwise核），得到一个数。所以深度可分离卷积其实是通过两次卷积实现的。
第一步，对三个通道分别做卷积，输出三个通道的属性：

具体运算过程如下：
在这里插入图片描述

第二步，用卷积核1x1x3对三个通道再次做卷积，这个时候的输出就和正常卷积一样，是8x8x1：
在这里插入图片描述

这步就是正常的卷积过程，只是卷积核大小为（3x1x1）,一个卷积核得到一个特征图；8x8x3 * 1x1x3x1 => 8x8x1。

深度可分离与普通卷积神经网络的区别

添加了一个1*1的卷积核
如果仅仅是提取一个属性，深度可分离卷积的方法，不如正常卷积
随着要提取的属性越来越多，深度可分离卷积就能够节省更多的参数

计算量比较

默认输入图像大小为D*D
默认卷积核大小为K*K
M：输入通道数，N：输出通道数，
普通卷积 = K * K * M * N * D * D 
深度可分离卷积 = K *K * M * D * D + M * N * D * D
优化比例 = （K *K * M * D * D + M * N * D * D）/ （K * K * M * N * D * D）=1/N+1/（K * K）

总结

==========
DSC作为普通卷积的一种替代品，它的最大优点是计算效率非常高。
因此使用DSC构建轻量级模型是当下非常常见的做法。
不过DSC的这种高效性是以低精度作为代价的。
===========

2.3 卷积操作后特征图谱大小计算公式

1.普通卷积

经过某层卷积操作后的特征图大小计算方式：

 ====h1代表输入图像的高度，w1代表输入图像的宽度，k代表卷积核大小，s代表步长====h2、w2分别代表输出的特征图像高度和宽度====h2 = （h1-k+2padding）/s + 1 w2 = （w1-k+2padding）/s + 1

2.空洞卷积

空洞卷积的等效卷积核大小

h1代表输入图像的高度，k代表卷积核大小，s代表步长，d为diarate参数
h2代表输出的特征图像高度
=====
h2=1+[h1-(k*d-1)+2padding]/s

注意：卷积（除不尽）向下取整，池化（除不尽）向上取整。

3. 常规卷积和深度可分离卷积的参数量

普通卷积：3x3x3x4=1083x3是卷积核尺寸,3是输入图片通道数目，4是输出卷积核的个数。
====================
深度可分离卷积：DW:3x3x3x1=27这里卷积核个数其实只设置为1。会形成3张feature mapPW:1x1x3x4=121x1为卷积核的尺寸,3为上一层feature map的数量，4为最终需要的维度。其实这里我们也得到了4维的feature map。
total: 27+12=39

明显可以看到，深度可分离卷积计算量比普通卷积小很多，只有其近三分之一的计算量。

3. 池化操作基础知识

3.1 池化操作的作用/为什么要进行池化操作？

池化层大大降低了网络模型参数和计算成本，也在一定程度上降低了网络过拟合的风险。概括来说，池化层主要有以下4点作用：

1.增大网络感受野
2.抑制噪声，降低信息冗余
3.降低模型计算量，降低网络优化难度，防止网络过拟合
4.使模型对输入图像中的特征位置变化更加鲁棒

3.2 池化操作的种类

1. Max Pooling(最大池化)

是将输入的图像划分为若干个矩形区域，对每个子区域输出最大值。
对于最大池化操作，只选择每个矩形区域中的最大值进入下一层，而其他元素将不会进入下一层。所以最大池化提取特征图中响应最强烈的部分进入下一层，这种方式摒弃了网络中大量的冗余信息，使得网络更容易被优化。
最大池化也常常丢失了一些特征图中的细节信息，所以最大池化更多保留些图像的纹理信息。

2. Average Pooling(平均池化)

将输入的图像划分为若干个矩形区域，对每个子区域输出所有元素的平均值。
平均池化取每个矩形区域中的平均值，可以提取特征图中所有特征的信息进入下一层，而不像最大池化只保留值最大的特征，所以平均池化可以更多保留些图像的背景信息。

3.Global Average Pooling(全局平均池化)

作用
在卷积神经网络训练初期，卷积层通过池化层后一般要接多个全连接层进行降维，最后再Softmax分类，这种做法使得全连接层参数很多，降低了网络训练速度，且容易出现过拟合的情况。在这种背景下，M Lin等人提出使用全局平均池化Global Average Pooling来取代最后的全连接层。用很小的计算代价实现了降维，更重要的是GAP极大减少了网络参数(CNN网络中全连接层占据了很大的参数)。
全局平均池化是一种特殊的平均池化，只不过它不划分若干矩形区域，而是将整个特征图中所有的元素取平均输出到下一层。
作为全连接层的替代操作，GAP对整个网络在结构上做正则化防止过拟合，直接剔除了全连接层中黑箱的特征，直接赋予了每个channel实际的类别意义。
使用GAP代替全连接层，可以实现任意图像大小的输入，而GAP对整个特征图求平均值，也可以用来提取全局上下文信息，全局信息作为指导进一步增强网络性能。
```
论文地址: https://arxiv.org/pdf/1312.4400.pdf%20http://arxiv.org/abs/1312.4400
代码链接: https://worksheets.codalab.org/worksheets/0x7b8f6fbc6b5c49c18ac7ca94aafaa1a7
```

4. Mix Pooling(混合池化)

为了提高训练较大CNN模型的正则化性能，受Dropout的启发，Dingjun Yu等人提出了一种随机池化Mix Pooling的方法，随机池化用随机过程代替了常规的确定性池化操作，在模型训练期间随机采用了最大池化和平均池化方法，并在一定程度上有助于防止网络过拟合现象。
其中，是0或1的随机值，表示选择使用最大池化或平均池化，换句话说，混合池化以随机方式改变了池调节的规则，这将在一定程度上解决最大池和平均池所遇到的问题。
混合池化优于传统的最大池化和平均池化方法，并可以解决过拟合问题来提高分类精度。
此外该方法所需要的计算开销可忽略不计，而无需任何超参数进行调整，可被广泛运用于CNN。

3.3 池化操作后特征图谱大小计算公式

 ====h1代表输入图像的高度，w1代表输入图像的宽度，k代表卷积核大小，s代表步长====h2、w2分别代表输出的特征图像高度和宽度====h2 = （h1-k) /s + 1 w2 = （w1-k) /s + 1

【深度学习基础知识（一）：卷积神经网络CNN基础知识】

深度学习基础知识深度学习基础知识（一）：卷积神经网络CNN基础知识卷积神经网络CNN基础知识 0、目录 1. CNN卷积神经网络的特点 2. 卷积操作基础知识 2.1 卷积操作的概念2.2 卷积操作的种类2.3 卷积操作后特征图谱大小计算公式 3. 池化操…...

编程日记 2023/10/22 2:49:09

Git使用入门

一、Git简介 Git 是一个开源的分布式版本控制系统。 Git版本控制的功能为保存不同版本的代码，保存代码的地方叫做仓库。每个仓库中有多个分支，每个分支上又有很多节点，每个节点代表一个版本，不同的分支可以进行合并&#xff0…...

编程日记 2023/10/22 2:48:07

电机矢量控制算法和例程

电机矢量控制算法是一种高级的电机控制方法，它通过将电机转子空间矢量转换到旋转坐标系中，并在该坐标系中进行控制来实现对电机的精确控制。下面是对电机矢量控制算法的详细解释： 坐标系变换：电机矢量控制首先将电机转子空间矢量变…...

编程日记 2023/10/22 2:46:05

std::string_view概念原理及应用

概念使用const string&作为参数是先使用字符串字面量编译器会创建一个临时字符串对象然后创建std::string。或者一个函数提供char*和const string&参数的两个版本函数，不是优雅的解决方案。于是需要一个只使用内存不维护内存的类。原理在visual s…...

编程日记 2023/10/22 2:44:03

lodash库_.chunk、_.pick、_.omit、_.cloneDeep、_.debounce方法

lodash 模块化、高性能的 JavaScript 实用工具库。官方文档：https://www.lodashjs.com 1.对数组进行分组 _.chunk(array, [size1]) 使用场景，如移动端页面一行能放5个元素，总共7条数据，将一维数组转为二维数组，让一个…...

编程日记 2023/10/22 2:43:02

Java使用FFmpeg对视频文件打标记

免安装 FFmpeg <dependency><groupId>ws.schild</groupId><artifactId>jave-all-deps</artifactId><version>3.0.1</version><exclusions><exclusion><groupId>ws.sch…...

编程日记 2023/10/22 2:42:00

Redux 学习笔记

在使用 React Redux 前，我们首先了解一下 Redux 的一些基础知识。 Redux 是 JavaScript 应用程序中用于状态管理的容器。它不依赖于任何框架，可以与任何 UI 库和框架一起使用。在应用程序中使用 Redux 时，Redux 是以可预测的方式管理状态。 …...

编程日记 2023/10/22 2:40:59

【Bug】8086汇编学习

文章目录随笔Bug1、masm编译报错：Illegal use of register2、debug中使用段前缀3、[idata]在编译器中的处理4、push立即数报错5、报错：improper operand type6、程序莫名跳转到未知位置 (doing)7、DOSBox失去响应8、程序运行显示乱码9、程序运行导致DOS…...

编程日记 2023/10/22 2:39:58

JetBrains系列IDE全家桶激活

jetbrains全家桶正版授权，这里有账号授权的渠道： https://www.mano100.cn/thread-1942-1-1.html 附加授权后的一张图片...

编程日记 2023/10/22 2:38:57

洛谷p1618三连击

import java.util.Scanner; //将 1-9 共9个数分成3组，分别组成3个三位数，且使这3个三位数构成A:B:C的比例，试求出所有满足条件的3个三位数。不满足输出“No!!!”。 public class Main {public static void main(String[] args) {Scanner sc …...

编程日记 2023/10/22 2:37:55

微信公众号h5写一个全局调用微信分享功能

1. 首先先安装依赖 npm install weixin-js-sdk --save 2. app.vue文件 <script> export default { onLaunch: function(e) {}, onShow: function(e) { console.log(App Show页面初始); // 路由参数存缓存的这是为了防止他…...

编程日记 2023/10/22 2:36:53

聊聊精益需求的产生过程

这是鼎叔的第七十八篇原创文章。行业大牛和刚毕业的小白，都可以进来聊聊。欢迎关注本公众号《敏捷测试转型》，星标收藏，大量原创思考文章陆续推出。本人新书《无测试组织-测试团队的敏捷转型》已出版&#xff…...

编程日记 2023/10/22 2:35:52

Linux - 还不懂 gdb 调试器？（调试软件）

前言当前，我们可以使用 make/makefile 来程序化执行代码文件；可以使用 gcc/g 等编译器来编译代码；可以使用 vim 编辑器来编写代码；其实在 Linux 当中还有一个工具，可以实现调试工作，这个工具就是 -- gdb。…...

编程日记 2023/10/22 2:34:51

Linux：程序地址空间/虚拟地址等相关概念理解

文章目录程序地址空间虚拟地址和物理地址地址的转换地址空间是什么？ 程序地址空间在C和C程序中，一直有一个观点是，程序中的各个变量等都会有一定的地址空间，因此才会有诸如取地址，通过地址访问等操作，那…...

编程日记 2023/10/22 2:33:50

Python之爬虫

目录 HTTP请求HTTP响应获得页面响应伪装用户访问打包数据爬取豆瓣top250 HTTP请求 HTTP：HypertextTransferProtcol 超文本传输协议 1、请求行 POST/user/info?new_usertrue HTTP/1.1#资源了路径user/info 查询参数new_usertrue 协议版本HTTP/1.1 2、请求头 Ho…...

编程日记 2023/10/22 2:32:49

打造自己的前端组件库(奶妈版，超详细)

打造自己的前端组件库 demo是开源的，自己上npm 或者 github 上都能搜到新建vue项目(sass js vue2) vue create yt-ui 修改文件目录(如下) 修改： 1.src 更名 examples; 2. src/components移动到项目最外层；3.vue.config.js更改入口文件 /…...

编程日记 2023/10/22 2:30:48

6.调制阶数相关

1、调制阶数与峰均比的关系调制阶数（modulation order）对峰均比（有一定的影响。峰均比是用于衡量调制信号或波形在幅度上的动态范围的指标。它表示信号的最大峰值与平均功率之间的比值。较高的峰均比可能导致信号在传输或放大过程中出现过…...

编程日记 2023/10/22 2:27:45

Maven多模块管理（转载）

注意：父模块需设定打包方式为pom https://cloud.tencent.com/developer/article/1667275 dependencyManagement 统一管理子类依赖版本在父类maven中加入，不会继承给子类，只能规定子类的依赖版本，子类加入dependence后无需写入 …...

编程日记 2023/10/22 2:26:43

运维学习CentOS 7进行Nightingale二进制部署

.因为Nightingale需要MySQL保存一些数据，所以可以参考《CentOS 7.6使用mysql-8.0.31-1.el7.x86_64.rpm-bundle.tar安装Mysql 8.0》部署MySQL。 https://github.com/ccfos/nightingale/releases是可以github上下载Nightingale二进制安装包。 https://n9e.github.io/…...

编程日记 2023/10/22 2:25:42

安装Docker

本安装教程参考Docker官方文档，地址如下：https://docs.docker.com/engine/install/centos/ 卸载旧版首先如果系统中已经存在旧的Docker，则先卸载： yum remove docker \ docker-client \ docker-client-latest \ docker-common…...

编程日记 2023/10/22 2:24:42

eNSP-Cloud(实现本地电脑与eNSP内设备之间通信)

说明： 想象一下，你正在用eNSP搭建一个虚拟的网络世界，里面有虚拟的路由器、交换机、电脑（PC）等等。这些设备都在你的电脑里面“运行”，它们之间可以互相通信，就像一个封闭的小王国。但是&#…...

编程新知 2026/2/8 4:37:17

【入坑系列】TiDB 强制索引在不同库下不生效问题

文章目录背景SQL 优化情况线上SQL运行情况分析怀疑1：执行计划绑定问题？尝试：SHOW WARNINGS 查看警告探索 TiDB 的 USE_INDEX 写法Hint 不生效问题排查解决参考背景项目中使用 TiDB 数据库，并对 SQL 进行优化了，添加了强制索引。 UAT 环境已经生效，但 PROD 环境强制索…...

编程新知 2026/1/31 21:56:58

Keil 中设置 STM32 Flash 和 RAM 地址详解

文章目录 Keil 中设置 STM32 Flash 和 RAM 地址详解一、Flash 和 RAM 配置界面（Target 选项卡）1. IROM1（用于配置 Flash）2. IRAM1（用于配置 RAM）二、链接器设置界面（Linker 选项卡）1. 勾选“Use Memory Layout from Target Dialog”2. 查看链接器参数（如果没有勾选上面…...

编程新知 2026/2/7 0:28:16

Nginx server_name 配置说明

Nginx 是一个高性能的反向代理和负载均衡服务器，其核心配置之一是 server 块中的 server_name 指令。server_name 决定了 Nginx 如何根据客户端请求的 Host 头匹配对应的虚拟主机（Virtual Host）。 1. 简介 Nginx 使用 server_name 指令来确定…...

编程新知 2025/9/6 16:47:17

Caliper 配置文件解析：config.yaml

Caliper 是一个区块链性能基准测试工具，用于评估不同区块链平台的性能。下面我将详细解释你提供的 fisco-bcos.json 文件结构，并说明它与 config.yaml 文件的关系。 fisco-bcos.json 文件解析这个文件是针对 FISCO-BCOS 区块链网络的 Caliper 配置文件，主要包含以下几个部…...

编程新知 2025/8/13 13:40:18

OpenLayers 分屏对比(地图联动)

注：当前使用的是 ol 5.3.0 版本，天地图使用的key请到天地图官网申请，并替换为自己的key 地图分屏对比在WebGIS开发中是很常见的功能，和卷帘图层不一样的是，分屏对比是在各个地图中添加相同或者不同的图层进行对比查看。…...

编程新知 2025/12/25 18:22:43

Spring AI与Spring Modulith核心技术解析

Spring AI核心架构解析 Spring AI（https://spring.io/projects/spring-ai）作为Spring生态中的AI集成框架，其核心设计理念是通过模块化架构降低AI应用的开发复杂度。与Python生态中的LangChain/LlamaIndex等工具类似，但特别为多语…...

编程新知 2025/12/14 17:38:21

【C++进阶篇】智能指针

C内存管理终极指南：智能指针从入门到源码剖析一. 智能指针1.1 auto_ptr1.2 unique_ptr1.3 shared_ptr1.4 make_shared 二. 原理三. shared_ptr循环引用问题三. 线程安全问题四. 内存泄漏4.1 什么是内存泄漏4.2 危害4.3 避免内存泄漏五. 最后一. 智能指针智能指…...

编程新知 2026/1/31 8:16:58

nnUNet V2修改网络——暴力替换网络为UNet++

更换前，要用nnUNet V2跑通所用数据集，证明nnUNet V2、数据集、运行环境等没有问题阅读nnU-Net V2 的 U-Net结构，初步了解要修改的网络，知己知彼，修改起来才能游刃有余。 U-Net存在两个局限，一是网络的最佳深度因应用场景而异，这取决于任务的难度和可用于训练的标注数…...

编程新知 2026/2/7 10:22:16

数学建模-滑翔伞伞翼面积的设计，运动状态计算和优化！

我们考虑滑翔伞的伞翼面积设计问题以及运动状态描述。滑翔伞的性能主要取决于伞翼面积、气动特性以及飞行员的重量。我们的目标是建立数学模型来描述滑翔伞的运动状态，并优化伞翼面积的设计。一、问题分析滑翔伞在飞行过程中受到重力、升力和阻力的作用。升力和阻力与伞翼面…...

编程新知 2026/2/6 5:55:05

深度学习基础知识（一）：卷积神经网络CNN基础知识

卷积神经网络CNN基础知识

0、目录

1. CNN卷积神经网络的特点

2. 卷积操作基础知识

3. 池化操作基础知识

1、CNN卷积神经网络的特点

2、卷积操作基础知识

2.1 卷积操作的概念

2.2 卷积操作的种类

2.3 卷积操作后特征图谱大小计算公式

1.普通卷积

2.空洞卷积

3. 常规卷积和深度可分离卷积的参数量

3. 池化操作基础知识

3.1 池化操作的作用/为什么要进行池化操作？

3.2 池化操作的种类

3.3 池化操作后特征图谱大小计算公式

相关文章：