当前位置：首页 > news >正文

神经网络反向传播算法公式推导

news 2025/7/15 2:50:03

要推导反向传播算法，并了解每一层的参数梯度如何计算，以及每一层的梯度受到哪些值的影响，我们使用一个简单的神经网络结构：

输入层有2个节点
一个有2个节点的隐藏层，激活函数是ReLU
一个输出节点，激活函数是线性激活（即没有激活函数）

假设权重矩阵和偏置如下：

输入层到隐藏层的权重矩阵 $W_1$ 是 $\times 2$
隐藏层的偏置向量 $b_1$ 是 $\times 1$
隐藏层到输出层的权重矩阵 $W_2$ 是 $\times 1$
输出层的偏置向量 $b_2$ 是一个标量

输入为 $x = [x_1, x_2]$ ，期望输出为 $y$ ，损失函数为均方误差（MSE）。

前向传播：

计算隐藏层的输入：
$z_1 = W_1 \cdot x + b_1$
计算隐藏层的激活：
$a_1 = \text{ReLU}(z_1)$
计算输出层的输入：
$z_2 = W_2^T \cdot a_1 + b_2$
输出值：
$\hat{y} = z_2$
计算损失：
$\frac{1}{2} (\hat{y} - y)^2$

反向传播：

计算输出层的梯度：
- 损失函数对输出层输入的梯度：
  $\frac{\partial L}{\partial z_2} = \hat{y} - y$
计算从输出层到隐藏层的梯度：
- 隐藏层激活对权重的梯度：
  $\frac{\partial L}{\partial W_2} = \frac{\partial L}{\partial z_2} \cdot a_1$
- 隐藏层激活对偏置的梯度：
  $\frac{\partial L}{\partial b_2} = \frac{\partial L}{\partial z_2}$
计算隐藏层的梯度：
- 损失函数对隐藏层激活的梯度：
  $\frac{\partial L}{\partial a_1} = W_2 \cdot \frac{\partial L}{\partial z_2}$
- 隐藏层对隐藏层输入的梯度（ReLU的梯度）：
  $\frac{\partial L}{\partial z_1} = \frac{\partial L}{\partial a_1} \cdot \text{ReLU}'(z_1)$
  - ReLU梯度 $\text{ReLU}'(z_1)$ 在 $z_1 > 0$ 时为1，否则为0
计算从输入层到隐藏层的梯度：
- 输入对权重的梯度：
  $\frac{\partial L}{\partial W_1} = \frac{\partial L}{\partial z_1} \cdot x^T$
- 输入对偏置的梯度：
  $\frac{\partial L}{\partial b_1} = \frac{\partial L}{\partial z_1}$

详细推导实例：

假设：

$x = [1, 2]$
$y = 3$
$W_1 = \begin{bmatrix} 0.5 & 0.2 \\ 0.3 & 0.7 \end{bmatrix}$
$b_1 = \begin{bmatrix} 0.1 \\ 0.2 \end{bmatrix}$
$W_2 = \begin{bmatrix} 0.6 \\ 0.9 \end{bmatrix}$
$b_2 = 0.3$

前向传播：
1.
$z_1 = W_1 \cdot x + b_1 = \begin{bmatrix} 0.5 & 0.2 \\ 0.3 & 0.7 \end{bmatrix} \cdot \begin{bmatrix} 1 \\ 2 \end{bmatrix} + \begin{bmatrix} 0.1 \\ 0.2 \end{bmatrix} = \begin{bmatrix} 1.0 \\ 1.9 \end{bmatrix}$
2.
$a_1 = \text{ReLU}(z_1) = \text{ReLU}(\begin{bmatrix} 1.0 \\ 1.9 \end{bmatrix}) = \begin{bmatrix} 1.0 \\ 1.9 \end{bmatrix}$
3.
$z_2 = W_2^T \cdot a_1 + b_2 = \begin{bmatrix} 0.6 \\ 0.9 \end{bmatrix}^T \cdot \begin{bmatrix} 1.0 \\ 1.9 \end{bmatrix} + 0.3 = 2.46$
4.
$\hat{y} = z_2 = 2.46$
5.
$\frac{1}{2} (2.46 - 3)^2 = 0.1458$

反向传播：
1.
$\frac{\partial L}{\partial z_2} = 2.46 - 3 = -0.54$

$\frac{\partial L}{\partial W_2} = \begin{bmatrix} -0.54 \end{bmatrix} \cdot \begin{bmatrix} 1.0 \\ 1.9 \end{bmatrix} = \begin{bmatrix} -0.54 \cdot 1.0 \\ -0.54 \cdot 1.9 \end{bmatrix} = \begin{bmatrix} -0.54 \\ -1.026 \end{bmatrix}$
$\frac{\partial L}{\partial b_2} = -0.54$
$\frac{\partial L}{\partial a_1} = \begin{bmatrix} 0.6 \\ 0.9 \end{bmatrix} \cdot -0.54 = \begin{bmatrix} -0.324 \\ -0.486 \end{bmatrix}$
$\frac{\partial L}{\partial z_1} = \frac{\partial L}{\partial a_1} \cdot \text{ReLU}'(z_1) = \begin{bmatrix} -0.324 \\ -0.486 \end{bmatrix} \cdot \begin{bmatrix} 1 \\ 1 \end{bmatrix} = \begin{bmatrix} -0.324 \\ -0.486 \end{bmatrix}$
$\frac{\partial L}{\partial W_1} = \frac{\partial L}{\partial z_1} \cdot x^T = \begin{bmatrix} -0.324 \\ -0.486 \end{bmatrix} \cdot \begin{bmatrix} 1 & 2 \end{bmatrix}^T = \begin{bmatrix} -0.324 & -0.648 \\ -0.486 & -0.972 \end{bmatrix}$
$\frac{\partial L}{\partial b_1} = \begin{bmatrix} -0.324 \\ -0.486 \end{bmatrix}$

从上述示例可以看到，每层的梯度依赖于上一层的激活值和当前层的损失梯度。梯度的传递通过链式法则一步步向前传播，从最初的损失函数计算开始，直到最终的输入层的权重和偏置。

神经网络反向传播算法公式推导

相关文章：

神经网络反向传播算法公式推导

Spark SQL 之 QueryStage

【shodan】（三）vnc漏洞利用

每日OJ_牛客_游游的字母串_枚举_C++_Java

51c深度学习~合集8

嵌入式：Flash的分类以及Jlink/J-flash的编程支持

【爬虫】Firecrawl对京东热卖网信息爬取（仅供学习）

遗传算法（Genetic Algorithm, GA）

【二分答案+倍增快速幂】课堂练习

LeetCode 力扣热题 100道（九）反转链表（C++）

Linux之网络基础

Oracle收缩表空间的简单方法

C++设计模式行为模式———中介者模式

YB2503HV：高效率降压IC，助力电动车、太阳能设备等领域的能源转换

如何使用Jest测试你的React组件

微网能量管理研究

Java基础面试题02：简述什么是值传递和引用传递？

【STL】10.set与map的模拟实现

Playwright(Java版) - 8: Playwright 元素交互的高级应用

播放器开发之ffmpeg 硬件解码方案

Admin.Net中的消息通信SignalR解释

多模态商品数据接口：融合图像、语音与文字的下一代商品详情体验

Matlab | matlab常用命令总结

Spring AI与Spring Modulith核心技术解析

Rapidio门铃消息FIFO溢出机制

C#中的CLR属性、依赖属性与附加属性

mac 安装homebrew (nvm 及git)

Kubernetes 网络模型深度解析：Pod IP 与 Service 的负载均衡机制，Service到底是什么？

Spring Security 认证流程——补充

es6+和css3新增的特性有哪些