当前位置：首页 > news >正文

【复旦邱锡鹏教授《神经网络与深度学习公开课》笔记】卷积

news 2026/2/10 11:38:55

卷积经常用在信号处理中，用于计算信号的延迟累积。假设一个信号发射器每个时刻 $t$ 产生一个信号 $x_t$ ，其信息的衰减率为 $w_k$ ，即在 $k - 1$ 个时间步长后，信息为原来的 $w_k$ 倍，时刻 $t$ 收到的信号 $y_t$ 为当前时刻产生的信息 $x_t$ 和以前时刻延迟信息 $w_{t-1}x_{t-1}+\cdots+w_1x_1$ 的叠加。假设 $w_1=1,w_2=\frac{1}{2},w_3=\frac{1}{4}$ 也就是
$\begin{aligned} &x_1&y_1=x_1\\ &x_2&y_2=x_2+\frac{1}{2}x_1\\ &x_3&y_3=x_3+\frac{1}{2}x_2+\frac{1}{4}x_1\\ &\vdots&\vdots \end{aligned}$
因此，时刻 $t$ （假设前面还有n个信号）收到的信号 $y_t$ 可以记作
$\begin{aligned} y_t &=w_1x_t+w_2x_{t-1}+\cdots+w_nx_{t-n+1}\\ &=\sum_{k=1}^nw_kx_{t-k+1} \end{aligned}$
其中 $w_k$ 叫做滤波器（filter） 或卷积核（convolution kernel）

定义

给定一个输入信号序列 $x$ 和滤波器 $w$ ，卷积输出为：
$y_t=\sum_{k=1}^Kw_kx_{t-k+1}$
也可记作 $y_t=x\ast w$ ，其中 $*$ 是卷积符号。要注意卷积核的序列顺序与输入信号序列顺序相反，在运算时需要将卷积核反转。

在这里插入图片描述

上图中，下面一行为输入序列 $x$ ，上面为输出序列 $y$ ，卷积核为 $[- 1, 0, 1]$ ，为了计算首先反转卷积核变为 $[1, 0, - 1]$ （或者从第三个开始往前计算，完成后再从开始的第三个再往后三个也就是第六个往前，以此类推），将反转后的卷积核在输入序列上平移得到输出序列。对于长度为 $N$ 的输入序列 $x$ 来说，若卷积核长度为 $K$ ，则输出序列 $y$ 长度为 $N - K + 1$

作用

近似微分

将输入序列 $x=[x_{t-1},x_t,x_{t+1}]$ 看作关于某时刻 $t$ 的函数，即 $x(t)=x_t$ ，根据一阶微分定义
$x^\prime(t)=\frac{x(t+\epsilon)-x(t-\epsilon)}{2\epsilon}$
令 $\epsilon=1$ 可得
$\begin{aligned} x^\prime(t) &=\frac{x(t+1)-x(t-1)}{2}\\ &=\frac{1}{2}x(t+1)+0\times x_t-\frac{1}{2}x(t-1)\\ &=x\ast w \end{aligned}$
其中 $w=[\frac{1}{2},0,-\frac{1}{2}]$ 。因此，当令卷积核 $w=[\frac{1}{2},0,-\frac{1}{2}]$ 时，可以近似信号序列的一阶微分

此外，根据泰勒公式
$x(t+\epsilon)=x(t)+x^\prime(t)\epsilon+\frac{x^{\prime\prime}(t)}{2!}\epsilon^2+O(\epsilon^3)$
因此可得
$\begin{aligned} x(t+1)=x(t)+x^\prime(t)+\frac{x^{\prime\prime}(t)}{2}\\ x(t-1)=x(t)-x^\prime(t)+\frac{x^{\prime\prime}(t)}{2} \end{aligned}$
两式相加得
$\begin{aligned} x(t+1)+x(t-1)&=2x(t)+x^{\prime\prime}(t)\\ x^{\prime\prime}&=x(t+1)+x(t-1)-2x(t)\\ &=x\ast w \end{aligned}$
其中 $w = [1, - 2, 1]$ 。因此，当令卷积核 $w = [1, - 2, 1]$ 时，可以近似信号序列的二阶微分

低通滤波/高通滤波

高频信息：在信号序列中，局部数值变化剧烈的信息
低频信息：在信号序列中，局部数值变化缓慢的信息

对于一个窗口大小为 $K$ 的卷积核，只需要将滤波器中的每一项设置为 $\frac{1}{K}$ 即可检测信号序列中的低频信息。
在这里插入图片描述

上图中 $K = 3$
一般来说，信号序列中的某个信息出现的频率越高，对应的阶数就越高。因此可以用二阶导数（ $w = [1, - 2, 1]$ ）的大小来表示其出现的频率。
在这里插入图片描述

对卷积进行扩展

为了更灵活的使用卷积，可以对卷积的过程进行扩展，引入滤波器的滑动步长（Stride） $S$ 和零填充（Padding） $P$
在这里插入图片描述

滑动步长是指卷积核在输入序列上每次平移的步长，一般默认滑动步长为1，也就是每次计算完输入序列上的一次卷积后，向前移动一个元素再进行卷积计算，通过增加步长可以减少输出序列的长度。
零填充是指在输入序列的两端各填充 $P$ 个0，这样做可以保证输入序列和输出序列长度相等。对于一个窗口大小为 $K$ （一般为奇数）的卷积核来说，在输入序列两端各填充 $\frac{K-1}{2}$

若输入长度为 $M$ ，步长为 $S$ ，卷积核窗口大小为 $K$ ，零填充为 $P$ ，则输出长度为 $M^\prime=\frac{M-K+2P}{S}+1$

卷积类型可以按照输出长度不同可以分为三类：

窄卷积：步长 $S = 1$ ，两端不补零（ $P = 0$ ），输出长度为 $M - K + 1$
宽卷积：步长 $S = 1$ ，两端补零（ $P = K - 1$ ），输出长度为 $M + K - 1$
等宽卷积：步长 $S = 1$ ，两端补零（ $P=\frac{K-1}{2}$ ），输出长度为 $M$

早期的文献中，卷积一般默认为窄卷积
目前的文献中，卷积一般默认为等宽卷积

二维卷积

输入序列扩展为二维，对这个二维输入序列进行卷积，一般用于图像处理。
给定图像 $X\in\mathbb{R}^{M\times N}$ 和一个滤波器 $W\in\mathbb{R}^{U\times V}$ （ $U\ll M,V\ll N$ ），其卷积为
$Y=W\ast X$
$y_{ij}=\sum_{u=1}^U\sum_{v=1}^Vw_{uv}x_{i-u+1, j-v+1}$

在这里插入图片描述

卷积核窗口在输入序列上进行滑动，可以计算出每个位置上的信号，最终得到输出。在计算时仍然要对卷积核进行反转。以上图为例，实际上是计算输入与反转后的卷积核的哈达玛积所有元素的和。
输入与输出大小与一维时规则相同，输出 $y\in\mathbb{R}^{(M-U+1)\times(N-V+1)}$ 。同样的也可以用滑动步长和零填充的方法来调整输出矩阵的大小：

对于步长为1，零填充0的输入序列，输出为 $\mathbb{R}^{(M-U+1)\times(N-V+1)}$
对于步长为2，零填充0的输入序列，输出为 $\mathbb{R}^{(\frac{M-U}{2}+1)\times(\frac{N-V}{2}+1)}$
对于步长为1，零填充1的输入序列，输出为 $\mathbb{R}^{M\times N}$
对于步长为2，零填充1的输入序列，输出为 $\mathbb{R}^{(M-U+1)\times(N-V+1)}$

在图像处理中，可以利用卷积作为特征提取器，设计不同的卷积核来提取图像的不同特征。
在这里插入图片描述

如上图，通过第一个卷积核（高斯卷积核）可以去除图像中的噪声（用周围点的信息平均中间不一样点的信息），使图像更加平滑；通过第二个卷积核，可以提取图像的边缘特征（上下左右信息的和减去中间信息，即提取图像中的高频信息）；第三个卷积核可以提取图像对角线上的边缘特征（右上角图像信息减去左下角图像信息）

【复旦邱锡鹏教授《神经网络与深度学习公开课》笔记】卷积

定义

作用

近似微分

低通滤波/高通滤波

对卷积进行扩展

二维卷积

相关文章：

【复旦邱锡鹏教授《神经网络与深度学习公开课》笔记】卷积

Trie字符串统计

Kali Linux源

【RT摩拳擦掌】基于RT106L/S语音识别的百度云控制系统

国标GB28181视频汇聚平台EasyCVR设备展示数量和显示条数不符的原因排查与解决

FastAPI教程I

如何在 HTML 中实现响应式设计以适应不同设备的屏幕尺寸？

【基础篇】第1章 Elasticsearch 引言

在区块链技术广泛应用的情况下，C 语言如何在区块链的底层开发中发挥更有效的作用，提高性能和安全性？

量化投资日周月报 2024-06-28

基于 Paimon 的袋鼠云实时湖仓入湖实战剖析

IPython相关了解

华为面试题及答案——机器学习(二)

PlatformIO开发环境

In install.packages(“devtools“, verbose = TRUE) :

计算机网络访问控制列表以及NAT

使用Oracle IMP导入数据

C++ 100 之容器插入和删除

提升 Selenium 测试稳定性的秘诀：深入理解等待 API 的使用

Python-算法编程100例-滑动窗口（入门级）

19c补丁后oracle属主变化，导致不能识别磁盘组

＜6＞-MySQL表的增删查改

AI Agent与Agentic AI：原理、应用、挑战与未来展望

srs linux

SpringBoot+uniapp 的 Champion 俱乐部微信小程序设计与实现，论文初版实现

第一篇：Agent2Agent (A2A) 协议——协作式人工智能的黎明

OpenLayers 分屏对比(地图联动)

CMake控制VS2022项目文件分组

算法岗面试经验分享-大模型篇

技术栈RabbitMq的介绍和使用