当前位置：首页 > news >正文

卷积神经网络（CNN）基础知识

news 2026/2/9 5:01:54

文章目录

CNN的组成层
卷积层
- 卷积运算
- 卷积的变种
- - 分组卷积
  - 转置卷积
  - 空洞卷积
  - 可变形卷积
- 卷积层的输出尺寸和参数量

CNN的组成层

在卷积神经⽹络中，⼀般包含5种类型的⽹络层次结构：输入层、卷积层、激活层、池化层和输出层。

输入层（input layer）
输⼊层通常是输⼊卷积神经⽹络的原始数据或经过预处理的数据。以图像分类任务为例，输⼊层输⼊的图像⼀般包含RGB三个通道，是⼀个由长宽分别为H和W组成的3维像素值矩阵HW3 。
卷积层（convolution layer）
卷积层通常⽤作对输入层输入数据进行特征提取，通过卷积核矩阵对原始数据中隐含关联性的⼀种抽象。卷积操作原理上其实是对两张像素矩阵进⾏点乘求和的数学操作，其中⼀个矩阵为输⼊的数据矩阵，另⼀个矩阵则为卷积核（滤波器或特征矩阵），求得的结果表⽰为原始图像中提取的特定局部特征。
激活层（activation layer）
激活层负责对卷积层抽取的特征进⾏激活，由于卷积操作是由输⼊矩阵与卷积核矩阵进⾏相差的线性变化关系，需要激活层对其进⾏⾮线性的映射。激活层主要由激活函数组成，即在卷积层输出结果的基础上嵌套⼀个⾮线性函数，让输出的特征图具有⾮线性关系。【神经网络中的激活函数：https://wang11.blog.csdn.net/article/details/129189757】
池化层（downsampling layer）
池化层⼜称为降采样层，作⽤是对感受域内的特征进⾏筛选，提取区域内最具代表性的特征，能够有效地降低输出特征尺度，进⽽减少模型所需要的参数量。
全连接层（full connected layer）
全连接层负责对卷积神经⽹络学习提取到的特征进⾏汇总，将多维的特征输⼊映射为⼆维的特征输出。

卷积层

卷积运算

卷积层是通过特定数目的卷积核对输入的多通道特征图进行扫描和运算，从而得到多个拥有更高层语义信息的输出特征图。
在这里插入图片描述

深度学习中网络模型的卷积运算动图解析：https://download.csdn.net/download/weixin_43598687/70726671?spm=1001.2014.3001.5503

卷积的变种

分组卷积

在普通的卷积操作中，一个卷积核对应输出特征图的一个通道，而每个卷积核又会作用在输入特征图的所有通道上(即卷积核的通道数等于输入特征图的通道数) ；因此最终输出特征图的每个通道都与输入特征图的所有通道相连接。也就是说，普通的卷积操作，在“通道”这个维度上其实是“全连接”的。
在这里插入图片描述

所谓分组卷积，其实就是将输入通道和输出通道都划分为同样的组数，然后仅让处于相同组号的输入通道和输出通道相互进行“ 全连接”。如果记g为输入1输出通道所分的组数，则分组卷积能够将卷积操作的参数量和计算量都降低为普通卷积的1/g。
在这里插入图片描述

分组卷积最初是在AlexNet网络中引入的，为解决单个GPU无法处理含有较大计算量和存储需求的卷积层的问题，就采用分组卷积将计算和存储分配到多个GPU上。

转置卷积

先对原始特征矩阵进⾏填充使其维度扩⼤到适配卷积⽬标输出维度，然后进⾏普通的卷积操作的⼀个过程，其输⼊到输出的维度变换关系恰好与普通卷积的变换关系相反，但这个变换并不是真正的逆变换操作，通常称为转置卷积⽽不是反卷积。

在这里插入图片描述
普通卷积主要用来做特征提取，倾向于压缩特征图尺寸；而转置卷积用于对特征图进行扩张或上采样。 主要应用场景有：

语义分割/实例分割等任务:由于需要提取输入图像的高层语义信息，网络的特征图尺寸一般会先缩小，进行聚合:此外，这类任务一般需要输出与原始图像大小一致的像素级分割结果，因而需要扩张前面得到的具有较高语义信息的特征图，这就用到了转置卷积。
一些物体检测、关键点检测任务，需要输出与源图像大小一致的热图。
图像的自编码器、变分自编码器、生成式对抗网络等。

空洞卷积

空洞卷积就是在标准的卷积核中注入“空洞”，以增加卷积核的感受野。

空洞卷积引入扩张率来指定相邻采样点之间的间隔：扩张率为r的空洞卷积，卷积上相邻数据点之间有r-1个空洞。特别的，扩张率为1的空洞卷积实际上就是普通卷积。
在这里插入图片描述
空洞卷积利用空洞结构扩大了卷积核尺寸，不经过下采样操作即可增大感受野，同时还能保留输入数据的内部结构。

可变形卷积

普通的卷积操作是在固定的、规则的网格点上进行数据采样，这就束缚了网络的感受野形状，限制了网络对几何形变的适应能力。为克服这个限制，可变形卷积在卷积核的每个采样点上添加一个可学习的偏移量，让采样点不再局限于规则的网格点。
在这里插入图片描述
可变形卷积让网络具有了学习空间几何形变的能力，即可变形卷积引入了一个平行分支来端到端地学习卷积核采样点的位置偏移量。该平行分支先根据输入特征图计算出采样点的偏移量，然后再在输入特征图上采样对应的点进行卷积运算。这种结构让可变形卷积的采样点能根据当前图像的内容进行自适应调整。
在这里插入图片描述

卷积层的输出尺寸和参数量

假设一个卷积层的输入特征图的尺寸为l_i，卷积核大小为k，步长为s，填充为p，则输出特征图的尺寸为：（l + 2p - k）/ s + 1。

卷积层的参数量，主要取决于每个卷积核的参数量以及卷积核的个数，设输入输出的通道数分别为c_i和c_o，卷积核为k_w和k_h，则参数总量为：c_ik_wk_hc_o。

怎样才能减少卷积层参数量？

使用堆叠小卷积代替大卷积
添加1X1的卷积操作
在卷积层之前使⽤池化操作：池化可以降低卷积层的输⼊特征维度

卷积神经网络（CNN）基础知识

文章目录CNN的组成层卷积层卷积运算卷积的变种分组卷积转置卷积空洞卷积可变形卷积卷积层的输出尺寸和参数量CNN的组成层在卷积神经⽹络中，⼀般包含5种类型的⽹络层次结构：输入层、卷积层、激活层、池化层和输出层。输入层（input layer&a…...

编程日记 2023/3/10 7:04:08

opencv+python 常见图像预处理

import os import cv2 import numpy as np import pandas as pd from PIL import Image import matplotlib.pylab as plt """图像预处理"""#缩放 #灰度化 #二值化-otsu,自定义，自适应 #均值滤波 #中值滤波 #自定义滤波 #高斯/双倍滤波…...

编程日记 2023/3/10 7:03:06

如何实现一个单例模式

目录前言 1.饿汉式 2.懒汉式 3.双重检测 4.静态内部类 5.枚举总结： 前言单例模式是我们日常开发过程中，遇到的最多的一种设计模式。通过这篇文章主要分享是实现单例的几种实现方式。 1.饿汉式饿汉式的实现方式比较简单。在类加载的时候&#…...

编程日记 2023/3/10 7:02:01

传输线的物理基础（四）：传输线的驱动和返回路径

驱动一条传输线对于将信号发射到传输线的高速驱动器，传输线在传输时间内的输入阻抗将表现得像一个电阻，相当于线路的特性阻抗。鉴于此等效电路模型，我们可以构建驱动器和传输线的电路，并计算发射到传输线中的电压。等效电路如下图…...

编程日记 2023/3/10 7:00:59

Java多态性

文章目录对象的多态性多态的理解举例7.2 多态的好处和弊端7.3 虚方法调用(Virtual Method Invocation)7.4 成员变量没有多态性7.5 向上转型与向下转型7.6 为什么要类型转换呢？7.7 如何向上转型与向下转型7.8 instanceof关键字7.9 复习：类型转换7.10 练习…...

编程日记 2023/3/10 6:59:56

算法拾遗二十七之窗口最大值或最小值的更新结构

算法拾遗二十七之窗口最大值或最小值的更新结构滑动窗口题目一题目二题目三题目四滑动窗口第一种：R，R右动，数会从右侧进窗口第二种：L，L右动，数从左侧出窗口题目一 arr是N，窗口大小为W&…...

编程日记 2023/3/10 6:58:52

【带你搞定第二、三、四层交换机】

01 第二层交换机 OSI参考模型的第二层叫做数据链路层，第二层交换机通过链路层中的MAC地址实现不同端口间的数据交换。第二层交换机主要功能，就包括物理编址、错误校验、帧序列以及数据流控制。因为这是最基本的交换技术产品，目前桌面…...

编程日记 2023/3/10 6:57:47

C++基础了解-22-C++ 重载运算符和重载函数

C 重载运算符和重载函数一、C 重载运算符和重载函数 C 允许在同一作用域中的某个函数和运算符指定多个定义，分别称为函数重载和运算符重载。重载声明是指一个与之前已经在该作用域内声明过的函数或方法具有相同名称的声明，但是它们的参数列表和定义…...

编程日记 2023/3/10 6:56:43

$u_t=\beta u_{t-1}+(1-\beta)\theta_t$

BatchNormalization

目录 Covariate Shift Internal Covariate Shift BatchNormalization Ｑ1:BN的原理 Q2:BN的作用 Q3:BN的缺陷 Q4：BN的均值、方差的计算维度 Q5：BN在训练和测试时有什么区别 Q6：BN的代码实现 Covariate Shift 机器学习中&a…...

编程日记 2023/3/10 6:55:42

vue 中安装插件实现 rem 适配

vue 中实现 rem 适配vue 项目实现页面自适应，可以安装插件实现。 postcss-pxtorem 是 PostCSS 的插件，用于将像素单元生成 rem 单位。 autoprefixer 浏览器前缀处理插件。 amfe-flexible 可伸缩布局方案替代了原先的 lib-flexible 选用了当前众多浏览…...

编程日记 2023/3/10 6:54:38

Hadoop学习

1.分布式与集群 hosts文件： 域名映射文件 2.Linux常用命令 ls -a：查看当前目录下所有文件mkdir -p：如果没有对应的父文件夹，会自动创建rm -rf：-f：强制删除 -r：递归删除cp -r：复制文…...

编程日记 2023/3/10 6:53:34

Golang反射源码分析

在go的源码包及一些开源组件中，经常可以看到reflect反射包的使用，本文就与大家一起探讨go反射机制的原理、学习其实现源码首先，了解一下反射的定义： 反射是指计算机程序能够在运行时，能够描述其自身状态或行为、调整…...

编程日记 2023/3/10 6:52:32

Qt之悬浮球菜单

一、概述最近想做一个炫酷的悬浮式菜单，考虑到菜单展开和美观，所以考虑学习下Qt的动画系统和状态机内容，打开QtCreator的示例教程浏览了下，大致发现教程中2D Painting程序和Animated Tiles程序有所帮助，如下图所示&a…...

编程日记 2023/3/10 6:51:28

易优cms attribute 栏目属性列表

attribute 栏目属性列表 attribute 栏目属性列表 [基础用法] 标签：attribute 描述：获取栏目的属性列表，或者单独获取某个属性值。用法： {eyou:attribute typeauto} {$attr.name}：{$attr.value} {/eyou:attri…...

编程日记 2023/3/10 6:50:22

表格中的table-layout属性讲解

表格中的table-layout属性讲解定义和用法 tableLayout 属性用来显示表格单元格、行、列的算法规则。 table-layout有三个属性值：auto、fixed、inherit。 fixed：固定表格布局固定表格布局与自动表格布局相比，允许浏览器更快地对表格进行布…...

编程日记 2023/3/10 6:49:18

【MFA】windows环境下，使用Montreal-Forced-Aligner训练并对齐音频

文章目录一、安装MFA1.安装anaconda2.创建并进入虚拟环境3.安装pyTorch二、训练新的声学模型1.确保数据集的格式正确2.训练声音模型-导出模型和对齐文件3.报错处理1.遇到类似： Command ‘[‘createdb’,–host‘ ’, ‘Librispeech’]’ returned non-zero exit sta…...

编程日记 2023/3/10 6:48:14

C语言实验小项目实例源码大全订票信息管理系统贪吃蛇图书商品管理网络通信等

wx供重浩：创享日记对话框发送：c项目获取完整源码源文件视频讲解环境资源包文档说明等包括火车订票系统、学生个人消费管理系统、超级万年历、学生信息管理系统、网络通信编程、商品管理系统、通讯录管理系统、企业员工管理系统、贪吃蛇游戏、图书管理…...

编程日记 2023/3/10 6:47:11

电脑图片损坏是怎么回事

电脑图片损坏是怎么回事？对于经常使用电脑的我们，总是会下载各种各样的图片，用于平时的使用中。但难免会遇到莫名其妙就损坏的图片文件，一旦发生这种情况，要如何才能修复损坏的图片呢?下面小编为大家带来常用的修复方…...

编程日记 2023/3/10 6:46:07

【论文研读】无人机飞行模拟仿真平台设计

无人机飞行模拟仿真平台设计摘要： 为提高飞行控制算法的研发效率,降低研发成本,基于数字孪生技术设计一个无人机硬件在环飞行模拟仿真平台。从几何、物理和行为3个方面研究无人机数字模型构建方法,将物理实体以数字化方式呈现。设计一种多元融合场景建模法,依据属…...

编程日记 2023/3/10 6:45:04

【算法题】2379. 得到 K 个黑块的最少涂色次数

插： 前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。坚持不懈，越努力越幸运，大家一起学习鸭~~~ 题目： 给你一个长度为 n 下标从 0 开始的…...

编程日记 2023/3/10 6:44:00

观成科技：隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具，该工具基于TUN接口实现其功能，利用反向TCP/TLS连接建立一条隐蔽的通信信道，支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式，适应复杂网…...

编程新知 2026/2/8 4:37:24

多云管理“拦路虎”：深入解析网络互联、身份同步与成本可视化的技术复杂度

一、引言：多云环境的技术复杂性本质企业采用多云策略已从技术选型升维至生存刚需。当业务系统分散部署在多个云平台时，基础设施的技术债呈现指数级积累。网络连接、身份认证、成本管理这三大核心挑战相互嵌套：跨云网络构建数据…...

编程新知 2026/2/8 16:53:48

Vue3 + Element Plus + TypeScript中el-transfer穿梭框组件使用详解及示例

使用详解 Element Plus 的 el-transfer 组件是一个强大的穿梭框组件，常用于在两个集合之间进行数据转移，如权限分配、数据选择等场景。下面我将详细介绍其用法并提供一个完整示例。核心特性与用法基本属性 v-model：绑定右侧列表的值&…...

编程新知 2026/2/4 4:25:40

无法与IP建立连接，未能下载VSCode服务器

如题，在远程连接服务器的时候突然遇到了这个提示。查阅了一圈，发现是VSCode版本自动更新惹的祸！！！ 在VSCode的帮助->关于这里发现前几天VSCode自动更新了，我的版本号变成了1.100.3 才导致了远程连接出…...

编程新知 2026/1/22 21:24:01

【第二十一章 SDIO接口(SDIO)】

第二十一章 SDIO接口目录第二十一章 SDIO接口(SDIO) 1 SDIO 主要功能 2 SDIO 总线拓扑 3 SDIO 功能描述 3.1 SDIO 适配器 3.2 SDIOAHB 接口 4 卡功能描述 4.1 卡识别模式 4.2 卡复位 4.3 操作电压范围确认 4.4 卡识别过程 4.5 写数据块 4.6 读数据块 4.7 数据流…...

编程新知 2026/2/1 13:28:03

Leetcode 3577. Count the Number of Computer Unlocking Permutations

Leetcode 3577. Count the Number of Computer Unlocking Permutations 1. 解题思路2. 代码实现题目链接：3577. Count the Number of Computer Unlocking Permutations 1. 解题思路这一题其实就是一个脑筋急转弯，要想要能够将所有的电脑解锁&#x…...

编程新知 2026/1/4 2:33:39