当前位置：首页 > news >正文

交叉熵损失函数为代表的两层神经网络的反向传播量化求导计算公式

news 2026/2/9 8:22:14

反向传播（back propagation，BP）算法也称误差逆传播，是神经网络训练的核心算法。我们通常说的 BP 神经网络是指应用反向传播算法进行训练的神经网络模型。反向传播算法的工作机制究竟是怎样的呢？我们以一个两层（即单隐层）网络为例，也就是图 8-5 中的网络结构，给出反向传播的基本推导过程。

假设输入层为 $x$ ，有 $m$ 个训练样本，输入层与隐藏层之间的权重和偏置分别为 $w_1$ 和 $b_1$ ，线性加权计算结果为： $z_1 = w_1 x + b_1$ ，采用 Sigmoid 激活函数，激活输出为： $a_1 = \sigma(z_1)$
而隐藏层到输出层的权重和偏置分别为 $w_2$ 和 $b_2$ ，线性加权计算结果为： $z_2 = w_2 x + b_2$ ，激活输出为： $a_2 = \sigma(z_2)$ 。所以，这个两层网络的前向计算过程是为： $x → z_1 → a_1 → z_2→a_2$

直观而言，反向传播就是将前向计算过程反过来，但必须是梯度计算的方向反过来，假设这里采用如下交叉熵损失函数：
$\log a + (1 - y) \log (1 - a)) \tag{8-11}$

反向传播是基于梯度下降策略的，主要是从目标参数的负梯度方向更新参数，所以基于损失函数对前向计算过程中各个变量进行梯度计算是关键。将前向计算过程反过来，基于损失函数的梯度计算顺序就是 $da_2→ dz_2 → dw_2 → db_2→da_1→ dz_1→ dw_1 → db_1$

首先，计算损失函数 $L(y, a_2)$ 关于 $a_2$ 的导数 $da_2$ ，影响输出 $a_2$ 的是谁呢？由前向传播可知， $a_2$ 是由 $z_2$ 经激活函数激活后计算而来的，所以计算损失函数关于 $z_2$ 的导数 $dz_2$ ，必须经过 $a_2$ 进行复合函数求导，即微积分中常说的链式求导法则。然后继续往前推导，影响 $z_2$ 的又是哪些变量呢？由前向计算可知， $z_2 = w_2x + b_2$ ，影响 $z_2$ 的有 $w_2$ ， $a_1$ 和 $b_2$ ，继续按照链式求导法则进行求导即可。最终以交叉熵损失函数为代表的两层神经网络的反向传播量化求导计算公式如下：

$\frac{\partial L}{\partial a_2} = \frac{d}{da_2}L(a_2, y) = (-y\log a_2 - (1-y)\log(1-a_2))' = -\frac{y}{a_2}+ \frac{1-y}{1-a_2} \tag{8-12}$

$\frac{\partial L}{\partial Z_2} = \frac{\partial L}{\partial a_2}\frac{\partial a_2}{\partial Z_2} = a_2 - y \tag{8-13}$

$\frac{\partial L}{\partial w_2} = \frac{\partial L}{\partial a_2}\frac{\partial a_2}{\partial Z_2}\frac{\partial Z_2}{\partial w_2} = \frac{1}{m}\frac{\partial L}{\partial Z_2} a_1= \frac{1}{m}(a_2 - y)a_1 \tag{8-14}$

$\frac{\partial L}{\partial b_2} = \frac{\partial L}{\partial a_2}\frac{\partial a_2}{\partial Z_2}\frac{\partial Z_2}{\partial b_2} = \frac{\partial L}{\partial Z_2} = a_2 - y \tag{8-15}$

$\frac{\partial L}{\partial a_1} = \frac{\partial L}{\partial a_2}\frac{\partial a_2}{\partial Z_2}\frac{\partial Z_2}{\partial a_1} = (a_2 - y)w_2 \tag{8-16}$

$\frac{\partial L}{\partial Z_1} = \frac{\partial L}{\partial a_2}\frac{\partial a_2}{\partial Z_2}\frac{\partial Z_2}{\partial a_1} \frac{\partial a_1}{\partial Z_1} = (a_2 - y)w_2\sigma'(Z_1) \tag{8-17}$

$\frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial a_2}\frac{\partial a_2}{\partial Z_2}\frac{\partial Z_2}{\partial a_1} \frac{\partial a_1}{\partial Z_1}\frac{\partial Z_1}{\partial w_1} = (a_2 - y)w_2\sigma'(Z_1)x \tag{8-18}$

$\frac{\partial L}{\partial b_1} = \frac{\partial L}{\partial a_2}\frac{\partial a_2}{\partial Z_2}\frac{\partial Z_2}{\partial a_1} \frac{\partial a_1}{\partial Z_1}\frac{\partial Z_1}{\partial b_1} = (a_2 - y)w_2\sigma'(Z_1) \tag{8-19}$

以上公式具体的推导过程：
公式8-13：损失函数对输出层激活值Z2的导数
公式8-14：损失函数对输出层权重w2的梯度
公式8-15：损失函数对输出层偏置b2的梯度
公式8-16：损失函数对隐藏层激活值a1的梯度
公式8-17：损失函数对隐藏层加权输入Z1的导数
公式8-18：损失函数对隐藏层权重w1的梯度
公式8-19：损失函数对隐藏层偏置b1的梯度

交叉熵损失函数为代表的两层神经网络的反向传播量化求导计算公式

相关文章：

交叉熵损失函数为代表的两层神经网络的反向传播量化求导计算公式

数据结构——八大排序（上）

vxe-table 导入导出功能全解析

常用STL的操作以及特点

025 elasticsearch索引管理-Java原生客户端

Gin框架操作指南10：服务器与高级功能

AIGC技术的学习系列一

Milvus×Dify半小时轻松构建RAG系统

wireshark 解密浏览器https数据包

【HTML】构建网页的基石

rust不允许在全局区定义普通变量！

量化投资中的数据驱动决策：大数据如何改变金融市场

MySQL 设计数据表

【大数据技术基础 | 实验一】配置SSH免密登录

地级市碳排放效率测算2006-2021年

周易解读：四象

Java设计模式梳理：行为型模式（策略，观察者等）

【MySQL】入门篇—基本数据类型：使用LIMIT限制结果集

PostgreSQL与MySQL在语法上的区别

frameworks 之InputDispatcher

龙虎榜——20250610

Go 语言接口详解

【解密LSTM、GRU如何解决传统RNN梯度消失问题】

IT供电系统绝缘监测及故障定位解决方案

Typeerror: cannot read properties of undefined (reading ‘XXX‘)

游戏开发中常见的战斗数值英文缩写对照表

使用VMware克隆功能快速搭建集群

Java求职者面试指南：Spring、Spring Boot、Spring MVC与MyBatis技术点解析

CSS（2）

C++信息学竞赛中常用函数的一般用法