当前位置：首页 > article >正文

别再死记公式了！用Python手写一个反向传播，5分钟搞懂链式法则

article 2026/4/24 18:59:11

用Python代码拆解反向传播5分钟可视化链式法则当我在第一次接触神经网络时那些复杂的数学公式让我望而却步。直到有一天我决定用Python代码亲手实现一个简单的反向传播过程才真正理解了链式法则的精妙之处。本文将带你用不到50行代码直观感受误差是如何从输出层逆向流动到每一层权重的。1. 准备工作搭建最小神经网络我们需要构建一个足够简单但又完整的神经网络来演示反向传播。这个网络将包含输入层2个神经元隐藏层3个神经元使用Sigmoid激活函数输出层1个神经元使用Sigmoid激活函数import numpy as np # 随机初始化权重 def initialize_parameters(): np.random.seed(42) W1 np.random.randn(3, 2) * 0.01 b1 np.zeros((3, 1)) W2 np.random.randn(1, 3) * 0.01 b2 np.zeros((1, 1)) return {W1: W1, b1: b1, W2: W2, b2: b2}提示这里使用小随机数初始化权重是为了防止Sigmoid函数在初始阶段就进入饱和区。2. 前向传播计算预测值前向传播就像做一道数学题我们按顺序计算每一层的结果def sigmoid(x): return 1 / (1 np.exp(-x)) def forward_propagation(X, parameters): W1 parameters[W1] b1 parameters[b1] W2 parameters[W2] b2 parameters[b2] # 第一层计算 Z1 np.dot(W1, X) b1 A1 sigmoid(Z1) # 第二层计算 Z2 np.dot(W2, A1) b2 A2 sigmoid(Z2) cache {Z1: Z1, A1: A1, Z2: Z2, A2: A2} return A2, cache让我们用一个简单的输入测试一下X np.array([[0.5], [-0.3]]) # 2维输入 parameters initialize_parameters() A2, cache forward_propagation(X, parameters) print(f预测输出: {A2[0][0]:.4f})3. 反向传播链式法则在行动这才是最精彩的部分我们将一步步拆解误差是如何反向传播的def backward_propagation(parameters, cache, X, Y): m X.shape[1] W2 parameters[W2] A1 cache[A1] A2 cache[A2] # 输出层梯度 dZ2 A2 - Y dW2 (1/m) * np.dot(dZ2, A1.T) db2 (1/m) * np.sum(dZ2, axis1, keepdimsTrue) # 隐藏层梯度 dA1 np.dot(W2.T, dZ2) dZ1 dA1 * A1 * (1 - A1) # Sigmoid导数部分 dW1 (1/m) * np.dot(dZ1, X.T) db1 (1/m) * np.sum(dZ1, axis1, keepdimsTrue) grads {dW1: dW1, db1: db1, dW2: dW2, db2: db2} return grads关键点解析dZ2 A2 - Y这是输出层的误差项dW2 (1/m) * np.dot(dZ2, A1.T)应用链式法则计算W2的梯度dZ1 dA1 * A1 * (1 - A1)这是Sigmoid函数的导数部分4. 参数更新梯度下降实战有了梯度我们就可以更新参数了def update_parameters(parameters, grads, learning_rate0.01): W1 parameters[W1] b1 parameters[b1] W2 parameters[W2] b2 parameters[b2] dW1 grads[dW1] db1 grads[db1] dW2 grads[dW2] db2 grads[db2] W1 W1 - learning_rate * dW1 b1 b1 - learning_rate * db1 W2 W2 - learning_rate * dW2 b2 b2 - learning_rate * db2 return {W1: W1, b1: b1, W2: W2, b2: b2}5. 完整训练循环见证学习过程现在我们把所有部分组合起来观察网络如何学习def train(X, Y, iterations1000, learning_rate0.01): parameters initialize_parameters() for i in range(iterations): # 前向传播 A2, cache forward_propagation(X, parameters) # 计算损失 cost -np.mean(Y * np.log(A2) (1-Y) * np.log(1-A2)) # 反向传播 grads backward_propagation(parameters, cache, X, Y) # 参数更新 parameters update_parameters(parameters, grads, learning_rate) if i % 100 0: print(f迭代 {i}: 损失 {cost:.4f}) return parameters # 训练数据 X np.array([[0.5, -0.3, 0.1], [-0.3, 0.2, -0.1]]) # 3个样本 Y np.array([[1, 0, 1]]) # 3个标签 # 开始训练 final_parameters train(X, Y)运行这段代码你会看到损失值逐渐下降这就是反向传播和链式法则在发挥作用6. 梯度可视化理解链式法则的本质为了更直观地理解让我们打印出关键梯度值# 获取一次前向传播和反向传播的结果 A2, cache forward_propagation(X[:, 0:1], parameters) grads backward_propagation(parameters, cache, X[:, 0:1], Y[:, 0:1]) print(输出层梯度:) print(fdZ2:\n{grads[dZ2]}) print(fdW2:\n{grads[dW2]}) print(\n隐藏层梯度:) print(fdZ1:\n{grads[dZ1]}) print(fdW1:\n{grads[dW1]})观察这些数值你会发现梯度从输出层向输入层反向传播每一层的梯度都是前一层的梯度和当前层激活函数导数的乘积这正是链式法则的直观体现7. 常见问题与调试技巧在实际实现中你可能会遇到以下问题梯度消失当使用Sigmoid激活函数时深层网络的梯度可能会变得非常小解决方案使用ReLU等激活函数或进行梯度裁剪数值不稳定计算过程中可能出现NaN值检查初始化权重是否合适学习率是否过大学习速度慢损失下降不明显尝试调整学习率增加网络容量调试反向传播的一个有效技巧是使用梯度检验Gradient Checking虽然计算成本较高但能确保你的反向传播实现正确def gradient_check(parameters, grads, X, Y, epsilon1e-7): parameters_values parameters.copy() grad_approx {} for key in parameters: # 计算数值梯度 theta_plus parameters_values.copy() theta_plus[key] epsilon J_plus, _ forward_propagation(X, theta_plus) theta_minus parameters_values.copy() theta_minus[key] - epsilon J_minus, _ forward_propagation(X, theta_minus) grad_approx[key] (J_plus - J_minus) / (2 * epsilon) # 比较数值梯度和解析梯度 for key in grad_approx: difference np.linalg.norm(grads[dkey] - grad_approx[key]) print(f{key}梯度差异: {difference:.2e} (应该1e-7))通过这个完整的实现过程相信你已经对反向传播和链式法则有了直观的理解。记住在深度学习中代码实践往往比死记公式更能带来深刻的理解。

别再死记公式了！用Python手写一个反向传播，5分钟搞懂链式法则

相关文章：

别再死记公式了！用Python手写一个反向传播，5分钟搞懂链式法则

怎样高效压缩视频图片：3步掌握CompressO跨平台压缩神器

VSCode+LLM开发环境搭建，从零到生产级推理仅需8分钟（附可验证配置模板）

部署国标GB28181视频平台EasyGBS，授权方式怎么选？激活文件、加密狗、加密机，一次讲清楚

C程序员必读的7个内存越界陷阱：2026年LLVM 18+Clang静态分析实测避坑指南

从“拼时间”到“拼结构”：AI 时代的职业跃迁新范式

ABC选择思维：为什么中间价位总是最好卖

生信小白也能搞定！用miRcode批量预测lncRNA-miRNA互作关系（附保姆级操作截图）

nrf54l15使用I2C驱动SHT40温湿度传感器

AI安全进阶面试：高阶安全技术面试题与解析

20260423给万象奥科的开发板HD-RK3576-PI适配瑞芯微原厂的Buildroot时使用weston-screenshooter截屏

在openEuler 23.03上，我为什么放弃了直接编辑ifcfg文件，改用nmcli命令配置网卡？

机器学习工程师的纳达尔式训练法

LayerDivider：如何实现智能图像分层与PSD文件自动生成？

手把手教你用CLIP模型构建一个简易的“以图搜图”或“文搜图”系统（基于transformers 4.25.0）

产品经理必看：如何利用GB/T 4754-2017行业分类，做好你的用户画像与市场分析？

手把手教你部署GEO推广系统，在线扫码授权配置，手机PC双端自适应

虚拟电厂平台化运营与生态构建实战指南

免费的可以读取.iso文件的软件——虚拟光驱-下载

微电网多层控制架构设计的发展趋势

CVAT在线数据标注

告别‘Unable to find suitable Visual Studio toolchain’：一份给Flutter开发者的Windows环境自查清单

抖音无水印视频下载神器：5分钟掌握批量下载的完整解决方案

用Logitech G Hub写Lua脚本：手把手教你为PUBG M416调一个专属压枪宏

别再只玩Arduino了！用STM32的HAL库驱动RDA5807收音机模块，I2C通信保姆级教程

抖音视频批量下载神器：从新手到高手的完整指南

学术论文PDF怎么转结构化数据

代谢组学找差异物别再只画火山图了！试试用R语言做OPLS-DA，VIP筛选更精准

Vulkan开发环境搭建全记录：从SDK下载到第一个窗口弹出，我踩过的那些坑（Win11/VS2022实测）

蓝桥杯单片机DS1302时钟不走？手把手教你排查硬件连接与驱动代码问题