当前位置：首页 > news >正文

《动手学深度学习 Pytorch版》 8.7 通过时间反向传播

news 2026/2/9 23:13:31

8.7.1 循环神经网络的梯度分析

本节主要探讨梯度相关问题，因此对模型及其表达式进行了简化，进行如下表示：

$\begin{align} h_t&=f(x_t,h_{t-1},w_h)\\ o_t&=g(h_t,w_o) \end{align}$

参数字典：

$t$ 表示时间步
$h_t$ 表示时间步 $t$ 的隐状态
$x_t$ 表示输入
$o_t$ 表示输出
$w_h$ 表示隐藏层权重
$w_o$ 表示输出层权重
$f$ 表示隐藏层变换
$g$ 表示输出层权重

前向传播相当简单，一次一个时间步的遍历三元组 $x_t,h_t,o_t)$ ，然后通过一个目标函数在所有 $T$ 个时间步内评估输出 $o_t$ 和对应的标签 $y_t$ 之间的差异：

$L(x_1,\dots,x_T,y_1,\dots,y_T,w_h,w_o)=\frac{1}{T}\sum^T_{t=1}l(y_t,o_t)$

对于反向传播，就很棘手了，特别是计算目标函数 $L$ 关于参数 $w_h$ 的梯度时，按照链式法则：

$\begin{align} \frac{\partial L}{\partial w_h}&=\frac{1}{T}\sum^T_{t=1}\frac{\partial l(y_t,o_t)}{\partial w_h}\\ &=\frac{1}{T}\sum^T_{t=1}\frac{\partial l(y_t,o_t)}{\partial o_t}\frac{\partial g(h_t,w_o)}{\partial h_t}\frac{\partial h_t}{\partial w_h} \end{align}$

乘积的第一项和第二项很容易计算，而第三项 $\partial h_t/\partial w_h$ 是使事情变得棘手的地方，因为我们需要循环地计算参数 $w_h$ 对 $h_t$ 的影响。根据定义式中的递归计算， $h_t$ 既依赖于 $h_{t-1}$ 又依赖于 $w_h$ ，其中 $h_{t-1}$ 的计算也依赖于 $w_h$ 。因此，使用链式法则产生：

$\frac{\partial h_t}{\partial w_h}=\frac{\partial f(x_t,h_{t-1},w_h)}{\partial w_h}+\frac{\partial f(x_t,h_{t-1},w_h)}{\partial h_{t-1}}\frac{\partial h_{t-1}}{\partial w_h}$

消掉递归计算得

$\frac{\partial h_t}{\partial w_h}=\frac{\partial f(x_t,h_{t-1},w_h)}{\partial w_h}+\sum^{t-1}_{i=1}(\prod^t_{j=i+1}\frac{\partial f(x_t,h_{j-1},w_h)}{\partial h_{j-1}})\frac{\partial f(x_i,h_{i-1},w_h)}{\partial w_h}$

虽然我们可以使用链式法则递归地计算 $\partial h_t/\partial w_h$ ，但当 $t$ 很大时这个链就会变得很长。需要想办法来处理这一问题.

8.7.1.1 完全计算

最简单粗暴的方法，可以直接计算，然而，这样的计算非常缓慢，并且可能会发生梯度爆炸，因为初始条件的微小变化就可能会对结果产生巨大的影响。也就是说类似于蝴蝶效应，即初始条件的很小变化就会导致结果发生不成比例的变化。而我们正在寻找的是能够很好地泛化高稳定性模型的估计器。因此，在实践中，这种方法几乎从未使用过。

8.7.1.2 随即截断

可以用一个随机变量替换 $\partial h_t/\partial w_h$ ，该随机变量在预期中是正确的，但是会截断序列。这个随机变量是通过使用序列 $\xi_t$ 来实现的，序列预定义了 $0<\pi_t<1$ ，其中 $P(\xi_t=0)=1-\pi_t$ 且 $P(\xi_t=\pi_t^{-1}=\pi_t)$ ，因此 $E|\xi_t|=1$ 。我们使用它来替换梯度 $\partial h_t/\partial w_h$ 得到：

(8.7.8)

$z_t=\frac{\partial f(x_t,h_{t-1},w_h)}{\partial w_h}+\xi_t\frac{\partial f(x_t,h_{t-1},w_h)}{\partial h_{t-1}}\frac{\partial h_{t-1}}{\partial w_h}$

从 $\xi_t$ 的定义中推导出来 $E|\xi_t|=\partial h_t/\partial w_h$ 。每当 $\xi_t=0$ 时，递归计算终止在这个 $t$ 时间步。这导致了不同长度序列的加权和，其中长序列出现的很少，所以将适当地加大权重。

8.7.1.3 比较策略

在这里插入图片描述

行自上而下分别为:

第一行采用随机截断，方法是将文本划分为不同长度的片断；
第二行采用常规截断，方法是将文本分解为相同长度的子序列。这也是我们在循环神经网络实验中一直在做的；
第三行采用通过时间的完全反向传播，结果是产生了在计算上不可行的表达式。

虽然随机截断在理论上具有吸引力，但很可能是由于多种因素在实践中并不比常规截断更好:

首先，在对过去若干个时间步经过反向传播后，观测结果足以捕获实际的依赖关系。
其次，增加的方差抵消了时间步数越多梯度越精确的事实。
第三，我们真正想要的是只有短范围交互的模型。因此，模型需要的正是截断的通过时间反向传播方法所具备的轻度正则化效果。

8.7.2 通过时间反向传播

在这里插入图片描述

“通过时间反向传播”仅仅适用于反向传播在具有隐状态的序列模型。
截断是计算方便性和数值稳定性的需要。截断包括：规则截断和随机截断。
矩阵的高次幂可能导致神经网络特征值的发散或消失，将以梯度爆炸或梯度消失的形式表现。
为了计算的效率，“通过时间反向传播”在计算期间会缓存中间值。

《动手学深度学习 Pytorch版》 8.7 通过时间反向传播

8.7.1 循环神经网络的梯度分析

8.7.1.1 完全计算

8.7.1.2 随即截断

8.7.1.3 比较策略

8.7.2 通过时间反向传播

相关文章：

《动手学深度学习 Pytorch版》 8.7 通过时间反向传播

2023-10-20 游戏开发-cocos旧版本2.0.6-下载地址-记录

Python 框架学习 Django篇 (三) 链接数据库

【debug】安装diffusion的bug解决合集

面试题 01.02. 判定是否互为字符重排

笔记39：在Pycharm中为项目添加新解释器

C#—VB.NET的相同点与不同点

【Edabit 算法 ★☆☆☆☆☆】【返回数组第一个元素】 Return the First Element in an Array

在Qt中怎么操作MySQL数据库

C/C++网络编程基础知识超详细讲解上部分（系统性学习day11）

chrome Driver 使用教程

目标检测YOLO实战应用案例100讲-面向恶劣环境下的多模态行人识别

react-router-dom v6版本实现Tabs路由缓存切换

ArcGIS笔记9_数据源缺少空间参考信息？如何定义坐标系？

Elasticsearch实践：ELK+Kafka+Beats对日志收集平台的实现

离线语音与IoT结合：智能家居发展新增长点

STM32MP135和STM32MP157的区别

微信小程序文本横向无缝滚动

Layui 主窗口调用 iframe 弹出框模块，获取控件的相应值

镜头边缘的解析力通常比中心差很多的原因是什么？

Xshell远程连接Kali（默认 | 私钥）Note版

相机从app启动流程

现代密码学 | 椭圆曲线密码学—附py代码

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个生活电费的缴纳和查询小程序

JUC笔记(上)-复习涉及死锁 volatile synchronized CAS 原子操作

Swagger和OpenApi的前世今生

九天毕昇深度学习平台 | 如何安装库？

用机器学习破解新能源领域的“弃风”难题

Mysql中select查询语句的执行过程

MFC 抛体运动模拟：常见问题解决与界面美化