当前位置：首页 > news >正文

[PyTorch][chapter 46][LSTM -1]

news 2025/8/28 15:48:41

前言：

长短期记忆网络（LSTM，Long Short-Term Memory）是一种时间循环神经网络，是为了解决一般的RNN（循环神经网络）存在的长期依赖问题而专门设计出来的。

背景简介
LSTM Cell
LSTM 反向传播算法
为什么能解决梯度消失
LSTM 模型的搭建

一背景简介：

1.1 RNN

RNN 忽略 $o_t,L_t,y_t$ 模型可以简化成如下

　图中Rnn Cell 可以很清晰看出在隐藏状态 $h_t=f(x_t,h_{t-1})$ 。

得到 $h_t$ 后:

一方面用于当前层的模型损失计算，另一方面用于计算下一层的 $h_{t+1}$

　　　　由于RNN梯度消失的问题，后来通过LSTM 解决

1.2 LSTM 结构

二 LSTM Cell

LSTMCell(RNNCell) 结构

前向传播算法 Forward

2.1 更新： forget gate 忘记门

$f_t=\sigma(W_fh_{t-1}+U_{t}x_t+b_f)$

将值朝0 减少，激活函数一般用sigmoid

输出值[0,1]

2.2 更新： Input gate 输入门

$i_t=\sigma(W_ih_{t-1}+U_ix_t+b_i)$

决定是不是忽略输入值

2.3 更新：候选记忆单元

$a_t=\widetilde{c_t}=tanh(W_a h_{t-1}+U_ax_t+b_a)$

2.4 更新：记忆单元

$c_t=f_t \odot c_{t-1}+i_t \odot a_t$

2.5 更新：输出门

决定是否使用隐藏值

$o_t=\sigma(W_oh_{t-1}+U_ox_t+b_0)$

2.6. 隐藏状态

$h_t=o_t \odot tanh(c_t)$

2.7 模型输出

$\hat{y_t}=\sigma(Vh_t+b)$

LSTM 门设计的解释一：

输入门，遗忘门，输出门不同取值组合的时候，记忆单元的输出情况

三 LSTM 反向传播推导

3.1 定义两个 $\delta_t$

$\delta_h^t=\frac{\partial L}{\partial h_t}$

$\delta_c^t=\frac{\partial L}{\partial C_t}$

3.2 定义损失函数

损失函数 $L(t)$ 分为两部分:

时刻t的损失函数 $l(t)$

时刻t后的损失函数 $L(t+1)$

$L(t)=\left\{\begin{matrix} l(t)+L(t+1), if: t<T\\ l(t), if: t=T \end{matrix}\right.$

3.3 最后一个时刻 $\tau$ 的

这里面要注意这里的 $o^{\tau}= Vh_{\tau}+c$

证明一下第二项，主要应用到微分的两个性质,以及微分和迹的关系：

$dl= tr((\frac{\partial L^{\tau}}{\partial h^{\tau}})^Tdh^{\tau})$ ... 公式1：微分和迹的关系

$=tr((\delta_h^{\tau})^Tdh^{\tau})$

因为

$h^{\tau}=o^{\tau} \odot tanh(c^{\tau})$

$dh_T=o^{\tau}\odot(d(tanh (c^{\tau})))$

$=o^{\tau} \odot (1-tanh^2(c^{\tau})) \odot dc^{\tau}$

带入上面公式1：

$dl= tr((\delta_h^{\tau})^T (o^{\tau}\odot(1-tanh^2(c^{\tau}))\odot dc^{\tau})$

$=tr((\delta_h^{\tau} \odot o^{\tau} \odot(1-tanh^2(c^{\tau}))^Tdc^{\tau})$

所以

3.4 链式求导过程

求导结果：

这里详解一下推导过程：

这是一个符合函数求导：先把h 写成向量形成

$h=\begin{bmatrix} o_1*tanh(c_1)\\ o_2*tanh(c_2) \\ .... \\ o_n*tanh(c_n) \end{bmatrix}$

------------------------------------------------------------

第一项：

$h_{t+1}=o_{t+1}\odot tanh(c_{t+1})$

$o_{t+1}=\sigma(W_oh_t+U_ox_{t+1}+b_0)$

设 $a_{t+1}=W_oh_t+U_ox_{t+1}+b_0$

则    $\frac{\partial h_{t+1}}{\partial h_{t}}=\frac{\partial h_{t+1}}{\partial o_{t+1}}\frac{\partial o_{t+1}}{\partial a_{t+1}}\frac{\partial a_{t+1}}{\partial h_{t}}$

其中：（利用矩阵求导的定义法分子布局原理）

   $\frac{\partial h_{t+1}}{\partial o_{t+1}}=diag(tanh(c^{t+1}))$ 是一个对角矩阵

   $o=\begin{bmatrix} \sigma(a_1)\\ \sigma(a_2) \\ .... \\ \sigma(a_n) \end{bmatrix}$

$\frac{\partial o_{t+1}}{\partial a_{t+1}}=diag(o_{t+1}\odot(1-o_{t+1}))$

$\frac{\partial a_{t+1}}{\partial h_{t}}=W_o$

几个连乘起来就是第一项

第二项

$c_{t+1}=f_{t+1}\odot c_t+i_{t+1}\odot a_{t+1}$

$f_{t+1}=\sigma(W_fh_t+U_tx_{t+1}+b_f)$

$i_{t+1}=\sigma(W_ih_t+U_i x_{t+1}+b_i)$

$a_{t+1}=tanh(W_a h_t +U_ax_t +b_a)$

参考：

$h=\begin{bmatrix} o_1*tanh(c_1)\\ o_2*tanh(c_2) \\ .... \\ o_n*tanh(c_n) \end{bmatrix}$

其中：

$\frac{\partial h_{t+1}}{\partial c^{t+1}}=diag(o^{t+1}\odot (1-tanh^2(c^{t+1}))$

$\frac{\partial h_{t+1}}{\partial h_{t}}=\frac{\partial h_{t+1}}{\partial c_{t+1}}\frac{\partial c_{t+1}}{\partial f_{t+1}}\frac{\partial f_{t+1}}{\partial h_{t}}$

$\frac{\partial c_{t+1}}{\partial f_{t+1}}=diag(c^{t})$

$\frac{\partial a_{t+1}}{\partial h_{t}}=diag(f_t \odot(1-f_t))W_f$

其它也是相似，就有了上面的求导结果

四 为什么能解决梯度消失

4.1 RNN 梯度消失的原理

,复旦大学邱锡鹏书里面有更加详细的解释，通过极大假设：

在梯度计算中存在梯度的k 次方连乘，导致梯度消失原理。

4.2 LSTM 解决梯度消失解释1：

通过上面公式发现梯度计算中是加法运算，不存在连乘计算，

极大概率降低了梯度消失的现象。

4.3 LSTM 解决梯度消失解释2：

记忆单元c 作用相当于ResNet的残差部分.

比如 $f_{t}=1,\hat{c_t}=0$ 时候, $\frac{\partial c_t}{\partial c_{t-1}}=1$ ,不会存在梯度消失。

五模型的搭建

我们最后发现：

$O_t,C_t,H_t$ 的维度必须一致，都是hidden_size

通过 $C_t$ ,则 $I_t,F_t,\tilde{c}$ 最后一个维度也必须是hidden_size

# -*- coding: utf-8 -*-
"""
Created on Thu Aug  3 15:11:19 2023@author: chengxf2
"""# -*- coding: utf-8 -*-
"""
Created on Wed Aug  2 15:34:25 2023@author: chengxf2
"""import torch
from torch import nn
from d21 import torch as d21def normal(shape,devices):data = torch.randn(size= shape, device=devices)*0.01return datadef get_lstm_params(input_size, hidden_size,categorize_size,devices):#隐藏门参数W_xf= normal((input_size, hidden_size), devices)W_hf = normal((hidden_size, hidden_size),devices)b_f = torch.zeros(hidden_size,devices)#输入门参数W_xi= normal((input_size, hidden_size), devices)W_hi = normal((hidden_size, hidden_size),devices)b_i = torch.zeros(hidden_size,devices)#输出门参数W_xo= normal((input_size, hidden_size), devices)W_ho = normal((hidden_size, hidden_size),devices)b_o = torch.zeros(hidden_size,devices)#临时记忆单元W_xc= normal((input_size, hidden_size), devices)W_hc = normal((hidden_size, hidden_size),devices)b_c = torch.zeros(hidden_size,devices)#最终分类结果参数W_hq = normal((hidden_size, categorize_size), devices)b_q = torch.zeros(categorize_size,devices)params =[W_xf,W_hf,b_f,W_xi,W_hi,b_i,W_xo,W_ho,b_o,W_xc,W_hc,b_c,W_hq,b_q]for param in params:param.requires_grad_(True)return paramsdef init_lstm_state(batch_size, hidden_size, devices):cell_init = torch.zeros((batch_size, hidden_size),device=devices)hidden_init = torch.zeros((batch_size, hidden_size),device=devices)return (cell_init, hidden_init)def lstm(inputs, state, params):[W_xf,W_hf,b_f,W_xi,W_hi,b_i,W_xo,W_ho,b_o,W_xc,W_hc,b_c,W_hq,b_q] = params    (H,C) = stateoutputs= []for x in inputs:#input gateI = torch.sigmoid((x@W_xi)+(H@W_hi)+b_i)F = torch.sigmoid((x@W_xf)+(H@W_hf)+b_f)O = torch.sigmoid((x@W_xo)+(H@W_ho)+b_o)C_tmp = torch.tanh((x@W_xc)+(H@W_hc)+b_c)C = F*C+I*C_tmpH = O*torch.tanh(C)Y = (H@W_hq)+b_qoutputs.append(Y)return torch.cat(outputs, dim=0),(H,C)def main():batch_size,num_steps =32, 35train_iter, cocab= d21.load_data_time_machine(batch_size, num_steps)if __name__ == "__main__":main()

参考

CSDN

https://www.cnblogs.com/pinard/p/6519110.html

57 长短期记忆网络（LSTM）【动手学深度学习v2】_哔哩哔哩_bilibili

[PyTorch][chapter 46][LSTM -1]

前言： 长短期记忆网络（LSTM，Long Short-Term Memory）是一种时间循环神经网络，是为了解决一般的RNN（循环神经网络）存在的长期依赖问题而专门设计出来的。目录： 背景简介 LSTM C…...

编程日记 2023/8/4 12:21:47

寄存器详解(二)

目录内存中字的存储示例： 数据段寄存器DS与[address] 字的传送数据段简介 CPU提供的栈机制栈段寄存器SS和栈顶指针寄存器SP PUSH AX指令的完整描述示例图 POP AX指令的完整描述示例图栈顶超界问题示例一： 示例二： 内存中字…...

编程日记 2023/8/4 12:20:46

Java AIO

在Java中，AIO代表异步I/O（Asynchronous I/O），它是Java NIO的一个扩展，提供了更高级别的异步I/O操作。AIO允许应用程序执行非阻塞I/O操作，而无需使用Selector和手动轮询事件的方式。与传统的NIO和Java NIO…...

编程日记 2023/8/4 12:19:45

java集合总结

1.常见集合 Collection List：有序可重复集合，可直接根据元素的索引来访问 Vector-StackArrayListLinkedList Queue：队列集合 Deque-LinkedList、ArrayDequePriorityQueue Set：无序不可重复集合，只能根据元素本身来访问…...

编程日记 2023/8/4 12:18:43

list交并补差集合

list交并补差集合工具类依赖 <dependency><groupId>org.apache.commons</groupId><artifactId>commons-lang3</artifactId><version>3.8.1</version> </dependency><dependency><groupId>commons-collections&…...

编程日记 2023/8/4 12:17:40

【微信小程序】父组件修改子组件数据或调用子组件方法

一、使用场景页面中用到了自定义组件形成父子组件关系，在父组件某个特定时期想要操作子组件中的数据或方法，比如离开页面的时候清空子组件的数据。二、方法父组件可以通过this.selectComponent方法获取子组件实例对象，这样就可以直接访…...

编程日记 2023/8/4 12:16:37

frp通过nginx映射multipart/x-mixed-replace； boundary=frame流媒体出外网访问

要通过Nginx访问multipart/x-mixed-replace流媒体协议，并通过FRP进行映射访问，你可以按照以下步骤进行操作： 配置Nginx以支持multipart/x-mixed-replace流媒体协议。你需要编辑Nginx的配置文件（通常是nginx.conf）&…...

编程日记 2023/8/4 12:15:35

Kubernetes概述

Kubernetes概述使用kubeadm快速部署一个k8s集群 Kubernetes高可用集群二进制部署（一）主机准备和负载均衡器安装 Kubernetes高可用集群二进制部署（二）ETCD集群部署 Kubernetes高可用集群二进制部署（三）部署…...

编程日记 2023/8/4 12:14:32

Jmeter教程

目录安装与配置一：下载jdk——配置jdk环境变量二：下载JMeter——配置环境变量安装与配置一：下载jdk——配置jdk环境变量 1.新建环境变量变量名:JAVA_HOME变量值：（即JDK的安装路径） 2.编辑Path%J…...

编程日记 2023/8/4 12:13:31

用Rust实现23种设计模式之建造者模式

当使用 Rust 实现建造者模式时，我们可以通过结构体和方法链来实现。建造者模式是一种创建型设计模式，它允许你按照特定的顺序构建复杂对象，同时使你能够灵活地构建不同的变体。下面是一个使用 Rust 实现建造者模式的示例， 在示例中…...

编程日记 2023/8/4 12:12:30

聚观早报 | 腾讯字节等企业驰援防汛救灾；新能源车7月销量单出炉

【聚观365】8月4日消息腾讯字节等企业驰援防汛救灾新能源车7月销量成绩单出炉Model Y等车型低温续航衰减严重华为Mate60系列猜想图曝光支付宝做短视频引来羊毛党腾讯字节等企业驰援防汛救灾近日，京津冀地区遭遇极端降雨天气，引发洪涝和地质灾害&…...

编程日记 2023/8/4 12:11:29

Crack:CAD Exchanger SDK 3.20 Web Toolkit 应用

在CAD Exchanger SDK 版本 3.20.0中，我们在 Web Toolkit 中包含了绘图、BIM 和 MCAD 查看器的示例，以展示如何使用每个工具可视化数据。这些查看器具有显示不同类型数据的特定功能，允许用户根据自己的需求单独使用它们。我们将继续增强每个查…...

编程日记 2023/8/4 12:10:27

改造 ChatGPT-Next-Web 项目重新生成 Docker 镜像

改造 ChatGPT-Next-Web 项目重新生成 Docker 镜像 0.背景1. 修改代码2. 生成 Docker 镜像3. 上传 Docker 镜像4. 运行 Docker 镜像 0.背景需要通过 ChatGPT-Next-Web 使用自己搭建的 OpenAI API 兼容的服务器，需要对 ChatGPT-Next-Web 项目的少量代码进行改造。 …...

编程日记 2023/8/4 12:09:25

git修改commit日志

由于公司对版本提交日志进行检查，如果不符合要求，则push失败。以下是修改commit日志的方法： 1.进入到提交代码文件所在目录，即git所在目录下 cd app-repository 2.git log git log commit bf29e3e5e799d364fe2975677baf18c9…...

编程日记 2023/8/4 12:08:24

首先是创建一个widget项目然后需要添加qml和quick的插件使用 QT quickwidgets qml 接着要在界面上创建一个quickwidget和按钮创建一个c对象类 QObjectQml #ifndef QOBJECTQML_H #define QOBJECTQML_H#include <QObject> #include <QDebug> class QObjectQml …...

编程日记 2023/8/4 12:07:23

深度学习torch基础知识

torch. detach()拼接函数torch.stack()torch.nn.DataParallel()np.clip()torch.linspace()PyTorch中tensor.repeat()pytorch索引查找 index_select detach() detach是截断反向传播的梯度流将某个node变成不需要梯度的Varibale。因此当反向传播经过这个node时，梯度…...

编程日记 2023/8/4 12:06:22

【JAVA】正则表达式是啥？

个人主页：【😊个人主页】系列专栏：【❤️初识JAVA】文章目录前言正则表达式正则表达式语法正则表达式的特点捕获组实例前言如果我们想要判断给定的字符串是否符合正则表达式的过滤逻辑（称作“匹配”）&#xff0c…...

编程日记 2023/8/4 12:05:20

网络安全之原型链污染

目录： 目录： 一、概念二、举例三、实操了解总结四、抛出原题，历年原题复现第一题： 五、分析与原理第二题： 八、分析与原理九、具体操作，payload与结果结果： 一、概念 Java…...

编程日记 2023/8/4 12:04:18

【腾讯云Cloud Studio实战训练营】使用Cloud Studio迅捷开发一个3D家具个性化定制应用

目录前言： 一、腾讯云 Cloud Studio介绍： 1、接近本地 IDE 的开发体验 2、多环境可选，或连接到云主机 3、随时分享预览效果 4、兼容 VSCode 插件 5、 AI代码助手二、腾讯云Cloud Studio项目实践（3D家具个性化定制应用&…...

编程日记 2023/8/4 12:03:17

【计算机网络】第四章网络层（一）

文章目录第四章网络层4.1 网络层概述4.2 网络层提供的两种服务4.2.1 小结第四章网络层网络层是计算机网络体系结构中的一个关键层，位于传输层上方、数据链路层下方。它负责将传输层提供的数据分割成适当大小的数据包，并在不同网络之间进行路由选择和…...

编程日记 2023/8/4 12:02:16

谷歌浏览器插件

项目中有时候会用到插件 sync-cookie-extension1.0.0：开发环境同步测试 cookie 至 localhost，便于本地请求服务携带 cookie 参考地址：https://juejin.cn/post/7139354571712757767 里面有源码下载下来，加在到扩展即可使用FeHelp…...

编程新知 2025/8/16 3:55:30

day52 ResNet18 CBAM

在深度学习的旅程中，我们不断探索如何提升模型的性能。今天，我将分享我在 ResNet18 模型中插入 CBAM（Convolutional Block Attention Module）模块，并采用分阶段微调策略的实践过程。通过这个过程，我不仅提升…...

编程新知 2025/8/10 20:17:44

从零实现富文本编辑器#5-编辑器选区模型的状态结构表达

先前我们总结了浏览器选区模型的交互策略，并且实现了基本的选区操作，还调研了自绘选区的实现。那么相对的，我们还需要设计编辑器的选区表达，也可以称为模型选区。编辑器中应用变更时的操作范围，就是以模型选区为基准来…...

编程新知 2025/7/28 0:08:15

遍历 Map 类型集合的方法汇总

1 方法一先用方法 keySet() 获取集合中的所有键。再通过 gey(key) 方法用对应键获取值 import java.util.HashMap; import java.util.Set;public class Test {public static void main(String[] args) {HashMap hashMap new HashMap();hashMap.put("语文",99);has…...

编程新知 2025/8/22 3:50:38

linux 错误码总结

1，错误码的概念与作用在Linux系统中，错误码是系统调用或库函数在执行失败时返回的特定数值，用于指示具体的错误类型。这些错误码通过全局变量errno来存储和传递，errno由操作系统维护，保存最近一次发生的错误信息。值得注意的是，errno的值在每次系统调用或函数调用失败时…...

编程新知 2025/8/11 15:02:00

Nuxt.js 中的路由配置详解

Nuxt.js 通过其内置的路由系统简化了应用的路由配置，使得开发者可以轻松地管理页面导航和 URL 结构。路由配置主要涉及页面组件的组织、动态路由的设置以及路由元信息的配置。自动路由生成 Nuxt.js 会根据 pages 目录下的文件结构自动生成路由配置。每个文件都会对…...

编程新知 2025/8/12 1:19:44

mysql已经安装，但是通过rpm -q 没有找mysql相关的已安装包

文章目录现象：mysql已经安装，但是通过rpm -q 没有找mysql相关的已安装包遇到 rpm 命令找不到已经安装的 MySQL 包时，可能是因为以下几个原因：1.MySQL 不是通过 RPM 包安装的2.RPM 数据库损坏3.使用了不同的包名或路径4.使用其他包…...

编程新知 2025/8/23 4:15:44

图表类系列各种样式PPT模版分享

图标图表系列PPT模版，柱状图PPT模版，线状图PPT模版，折线图PPT模版，饼状图PPT模版，雷达图PPT模版，树状图PPT模版图表类系列各种样式PPT模版分享：图表系列PPT模板https://pan.quark.cn/s/20d40aa…...

编程新知 2025/8/26 19:08:45

DeepSeek 技术赋能无人农场协同作业：用 AI 重构农田管理 “神经网”

目录一、引言二、DeepSeek 技术大揭秘2.1 核心架构解析2.2 关键技术剖析三、智能农业无人农场协同作业现状3.1 发展现状概述3.2 协同作业模式介绍四、DeepSeek 的 “农场奇妙游”4.1 数据处理与分析4.2 作物生长监测与预测4.3 病虫害防治4.4 农机协同作业调度五、实际案例大…...

编程新知 2025/7/25 14:20:29

Mobile ALOHA全身模仿学习

一、题目 Mobile ALOHA：通过低成本全身远程操作学习双手移动操作传统模仿学习（Imitation Learning）缺点：聚焦与桌面操作，缺乏通用任务所需的移动性和灵活性本论文优点：（1）在ALOHA…...

编程新知 2025/8/22 3:42:05

[PyTorch][chapter 46][LSTM -1]

相关文章：

[PyTorch][chapter 46][LSTM -1]

寄存器详解(二)

Java AIO

java集合总结

list交并补差集合

【微信小程序】父组件修改子组件数据或调用子组件方法

frp通过nginx映射multipart/x-mixed-replace； boundary=frame流媒体出外网访问

Kubernetes概述

Jmeter教程

用Rust实现23种设计模式之建造者模式

聚观早报 | 腾讯字节等企业驰援防汛救灾；新能源车7月销量单出炉

Crack:CAD Exchanger SDK 3.20 Web Toolkit 应用

改造 ChatGPT-Next-Web 项目重新生成 Docker 镜像

git修改commit日志

Qt之qml和widget混合编程调用

深度学习torch基础知识

【JAVA】正则表达式是啥？

网络安全之原型链污染

【腾讯云Cloud Studio实战训练营】使用Cloud Studio迅捷开发一个3D家具个性化定制应用

【计算机网络】第四章网络层（一）

谷歌浏览器插件

day52 ResNet18 CBAM

从零实现富文本编辑器#5-编辑器选区模型的状态结构表达

遍历 Map 类型集合的方法汇总

linux 错误码总结

Nuxt.js 中的路由配置详解

mysql已经安装，但是通过rpm -q 没有找mysql相关的已安装包

图表类系列各种样式PPT模版分享

DeepSeek 技术赋能无人农场协同作业：用 AI 重构农田管理 “神经网”

Mobile ALOHA全身模仿学习