当前位置：首页 > news >正文

【机器学习】CNN的数学基础

news 文章来源：https://blog.csdn.net/qq_44214428/article/details/141089132 2025/5/4 20:14:07

🌈个人主页: 鑫宝Code
🔥热门专栏: 闲话杂谈｜炫酷HTML | JavaScript基础
💫个人格言: "如无必要，勿增实体"

文章目录

CNN的数学基础
- 1. 引言
- 2. 卷积运算
- - 2.1 连续卷积
  - 2.2 离散卷积
  - 2.3 互相关
- 3. 激活函数
- - 3.1 ReLU (Rectified Linear Unit)
  - 3.2 Sigmoid
  - 3.3 Tanh
- 4. 池化操作
- - 4.1 最大池化
  - 4.2 平均池化
- 5. 损失函数
- - 5.1 均方误差（MSE）
  - 5.2 交叉熵
- 6. 反向传播算法
- - 6.1 链式法则
  - 6.2 卷积层的反向传播
  - 6.3 池化层的反向传播
- 7. 优化算法
- - 7.1 随机梯度下降（SGD）
  - 7.2 动量法
  - 7.3 Adam
- 8. 正则化技术
- - 8.1 L2正则化
  - 8.2 Dropout
- 9. 初始化方法
- - 9.1 Xavier初始化
  - 9.2 He初始化
- 10. 结论

CNN的数学基础

1. 引言

卷积神经网络（Convolutional Neural Network，CNN）作为深度学习中的重要模型，其强大性能背后蕴含着丰富的数学原理。本文将深入探讨CNN的数学基础，包括卷积运算、激活函数、池化操作、反向传播算法以及优化方法等核心概念。通过对这些数学基础的理解，我们可以更好地把握CNN的本质，为进一步优化和创新CNN模型奠定基础。
在这里插入图片描述

2. 卷积运算

2.1 连续卷积

在数学中，连续函数的卷积定义如下：

$\int_{-\infty}^{\infty} f(\tau)g(t-\tau)d\tau$

其中， $f$ 和 $g$ 是两个可积函数， $*$ 表示卷积操作。

2.2 离散卷积

在CNN中，我们主要关注离散卷积。对于二维离散卷积，其定义为：

$\sum_{m}\sum_{n} I(m,n)K(i-m,j-n)$

其中， $I$ 是输入（如图像）， $K$ 是卷积核（或称滤波器）。

2.3 互相关

实际上，CNN中使用的"卷积"操作更准确地说是互相关（cross-correlation）：

$\star K)(i,j) = \sum_{m}\sum_{n} I(i+m,j+n)K(m,n)$

这里 $\star$ 表示互相关操作。与真正的卷积相比，互相关不需要将卷积核翻转。

在这里插入图片描述

3. 激活函数

激活函数为神经网络引入非线性，增强模型的表达能力。

3.1 ReLU (Rectified Linear Unit)

ReLU是目前最常用的激活函数之一：

$\max(0, x)$

其导数为：

$\begin{cases} 1, & \text{if } x > 0 \\ 0, & \text{if } x \leq 0 \end{cases}$

3.2 Sigmoid

Sigmoid函数将输入映射到(0, 1)区间：

$\sigma(x) = \frac{1}{1 + e^{-x}}$

其导数为：

$\sigma'(x) = \sigma(x)(1 - \sigma(x))$

3.3 Tanh

Tanh函数将输入映射到(-1, 1)区间：

$\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$

其导数为：

$tanh'(x) = 1 - \tanh^2(x)$

4. 池化操作

池化操作用于降低特征图的空间分辨率，减少参数数量和计算量。

4.1 最大池化

最大池化选择池化窗口内的最大值：

$y_{ij} = \max_{(m,n) \in R_{ij}} x_{mn}$

其中， $R_{ij}$ 是以 $(i, j)$ 为中心的池化窗口。

4.2 平均池化

平均池化计算池化窗口内的平均值：

$y_{ij} = \frac{1}{|R_{ij}|} \sum_{(m,n) \in R_{ij}} x_{mn}$
在这里插入图片描述

5. 损失函数

损失函数衡量模型预测与真实标签之间的差距。

5.1 均方误差（MSE）

对于回归问题，常用均方误差：

$L_{MSE} = \frac{1}{N} \sum_{i=1}^N (y_i - \hat{y}_i)^2$

其中， $y_i$ 是真实值， $\hat{y}_i$ 是预测值， $N$ 是样本数量。

5.2 交叉熵

对于分类问题，常用交叉熵损失：

$L_{CE} = -\sum_{i=1}^C y_i \log(\hat{y}_i)$

其中， $C$ 是类别数， $y_i$ 是真实标签（one-hot编码）， $\hat{y}_i$ 是预测概率。

6. 反向传播算法

反向传播是训练神经网络的核心算法，用于计算损失函数对各层参数的梯度。

6.1 链式法则

反向传播基于链式法则：

$\frac{\partial L}{\partial w} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial x} \cdot \frac{\partial x}{\partial w}$

其中， $L$ 是损失函数， $w$ 是待优化的参数。

6.2 卷积层的反向传播

对于卷积层，我们需要计算损失函数对卷积核权重的梯度：

$\frac{\partial L}{\partial K} = \sum_{i,j} \frac{\partial L}{\partial Y_{ij}} \cdot X_{ij}$

其中， $K$ 是卷积核， $Y$ 是输出特征图， $X$ 是输入特征图。

6.3 池化层的反向传播

对于最大池化，梯度只传递给池化窗口中的最大值元素：

$\frac{\partial L}{\partial x_{mn}} = \begin{cases} \frac{\partial L}{\partial y_{ij}}, & \text{if } x_{mn} = \max_{(m,n) \in R_{ij}} x_{mn} \\ 0, & \text{otherwise} \end{cases}$

对于平均池化，梯度平均分配给池化窗口内的所有元素：

$\frac{\partial L}{\partial x_{mn}} = \frac{1}{|R_{ij}|} \frac{\partial L}{\partial y_{ij}}$

7. 优化算法

优化算法用于更新网络参数，最小化损失函数。

7.1 随机梯度下降（SGD）

最基本的优化算法是随机梯度下降：

$w_{t+1} = w_t - \eta \nabla L(w_t)$

其中， $\eta$ 是学习率， $\nabla L(w_t)$ 是损失函数关于参数 $w_t$ 的梯度。

7.2 动量法

动量法引入了历史梯度信息，加速收敛：

$\begin{aligned} v_{t+1} &= \gamma v_t + \eta \nabla L(w_t) \\ w_{t+1} &= w_t - v_{t+1} \end{aligned}$

其中， $\gamma$ 是动量系数。

7.3 Adam

Adam结合了动量法和自适应学习率：

$\begin{aligned} m_t &= \beta_1 m_{t-1} + (1-\beta_1) \nabla L(w_t) \\ v_t &= \beta_2 v_{t-1} + (1-\beta_2) (\nabla L(w_t))^2 \\ \hat{m}_t &= \frac{m_t}{1-\beta_1^t} \\ \hat{v}_t &= \frac{v_t}{1-\beta_2^t} \\ w_{t+1} &= w_t - \frac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \hat{m}_t \end{aligned}$

其中， $\beta_1$ 和 $\beta_2$ 是衰减率， $\epsilon$ 是一个小常数。

8. 正则化技术

正则化用于防止过拟合，提高模型的泛化能力。

8.1 L2正则化

L2正则化在损失函数中添加参数的平方和：

$L_{reg} = L + \frac{\lambda}{2} \sum_w w^2$

其中， $\lambda$ 是正则化系数。

8.2 Dropout

Dropout随机丢弃一部分神经元，可以看作是集成学习的一种形式。在训练时：

$\odot m, \quad m_i \sim \text{Bernoulli}(p)$

其中， $\odot$ 表示元素wise乘法， $m$ 是一个二元掩码， $p$ 是保留神经元的概率。
在这里插入图片描述

9. 初始化方法

参数初始化对CNN的训练至关重要。

9.1 Xavier初始化

Xavier初始化适用于tanh激活函数：

$\sim U\left(-\sqrt{\frac{6}{n_{in} + n_{out}}}, \sqrt{\frac{6}{n_{in} + n_{out}}}\right)$

其中， $n_{in}$ 和 $n_{out}$ 分别是输入和输出的神经元数量。

9.2 He初始化

He初始化适用于ReLU激活函数：

$\sim N\left(0, \sqrt{\frac{2}{n_{in}}}\right)$

10. 结论

本文深入探讨了CNN的数学基础，包括卷积运算、激活函数、池化操作、反向传播算法、优化方法、正则化技术和初始化方法等核心概念。这些数学原理构成了CNN的理论基础，对于理解CNN的工作原理、改进现有模型和设计新的架构都至关重要。

随着深度学习的不断发展，CNN的数学理论也在不断完善和扩展。例如，群论在解释CNN的等变性方面发挥了重要作用，而信息论则为理解CNN的表示学习能力提供了新的视角。未来，结合更多数学分支的研究将有助于我们更深入地理解CNN，推动其在各个领域的应用和创新。

End

文章目录

CNN的数学基础

1. 引言

2. 卷积运算

2.1 连续卷积

2.2 离散卷积

2.3 互相关

3. 激活函数

3.1 ReLU (Rectified Linear Unit)

3.2 Sigmoid

3.3 Tanh

4. 池化操作

4.1 最大池化

4.2 平均池化

5. 损失函数

5.1 均方误差（MSE）

5.2 交叉熵

6. 反向传播算法

6.1 链式法则

6.2 卷积层的反向传播

6.3 池化层的反向传播

7. 优化算法

7.1 随机梯度下降（SGD）

7.2 动量法

7.3 Adam

8. 正则化技术

8.1 L2正则化

8.2 Dropout

9. 初始化方法

9.1 Xavier初始化

9.2 He初始化

10. 结论

相关文章：