当前位置：首页 > news >正文

LSTM——长短期记忆神经网络

news 2026/5/21 18:37:37

1.LSTM 工作原理

2.LSTM的代码实现

3.代码详解

LSTM（Long Short-Term Memory）是一种特殊的循环神经网络（RNN），用于解决长序列中的长期依赖问题。它通过引入门机制，控制信息的流入、保留和输出，从而在避免梯度消失或爆炸的情况下捕获较长序列的依赖关系。以下是LSTM的工作原理和代码实现。

1.LSTM 工作原理

LSTM 通过引入 细胞状态（Cell State） 和 门控单元（Gates） 来控制信息流动，具体包含以下几个部分：

遗忘门（Forget Gate）
遗忘门决定了上一个时间步的细胞状态是否需要保留或遗忘。遗忘门通过一个 sigmoid 激活函数（输出在 0 和 1 之间）来控制。输入为当前输入 $x_t$ 和上一个隐藏状态 $h_{t-1}$ ：
$f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$
输入门（Input Gate）
输入门决定当前时间步的新信息是否要更新到细胞状态中。它包含两个部分：
- $i_t$ ：用于选择要添加的新信息。
- $\tilde{C}_t$ ：候选细胞状态，通过 tanh 函数生成可能的新状态信息。
细胞状态更新
细胞状态结合了遗忘门和输入门的输出来更新：
$C_t = f_t \ast C_{t-1} + i_t \ast \tilde{C}_t$
输出门（Output Gate）
输出门控制 LSTM 的最终输出，即新的隐藏状态 $h_t$ 。它将新的细胞状态 $C_t$ 调整后输出：
$o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)$ $h_t = o_t \ast \tanh(C_t)$

2.LSTM的代码实现

以下是使用 PyTorch 实现 LSTM 的代码示例：

import torch
import torch.nn as nn
import torch.optim as optim# 定义 LSTM 模型
class LSTMModel(nn.Module):def __init__(self, input_size, hidden_size, output_size, num_layers=1):super(LSTMModel, self).__init__()self.hidden_size = hidden_sizeself.num_layers = num_layersself.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True)self.fc = nn.Linear(hidden_size, output_size)def forward(self, x):# 初始化隐藏状态和细胞状态h0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device)c0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device)# 通过 LSTM 层out, _ = self.lstm(x, (h0, c0))# 获取最后一个时间步的输出out = self.fc(out[:, -1, :])return out# 定义模型参数
input_size = 10    # 输入维度
hidden_size = 20   # 隐藏层维度
output_size = 1    # 输出维度
num_layers = 2     # LSTM 层数# 初始化模型
model = LSTMModel(input_size, hidden_size, output_size, num_layers)# 定义损失函数和优化器
criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)# 训练模型
num_epochs = 100
for epoch in range(num_epochs):# 假设输入数据 x 和标签 yx = torch.randn(32, 5, input_size)  # (batch_size, sequence_length, input_size)y = torch.randn(32, output_size)# 前向传播outputs = model(x)loss = criterion(outputs, y)# 反向传播和优化optimizer.zero_grad()loss.backward()optimizer.step()if (epoch+1) % 10 == 0:print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}')

3.代码详解

输入数据：这里的 x 是一个三维张量，形状为 (批次大小, 序列长度, 输入维度)，其中 序列长度 是 LSTM 模型需要捕获依赖的时间步。
隐藏层和输出层：LSTM 输出的最后一个时间步的隐藏状态传递给全连接层 fc，用于输出预测结果。
初始化状态：LSTM 层需要初始化隐藏状态 h0 和细胞状态 c0，这通常在每个新序列的起点进行。
损失函数和优化器：使用均方误差损失函数（MSELoss）和 Adam 优化器来优化模型。

通过调整输入、隐藏和输出维度，这种结构可以适用于各种时间序列预测、自然语言处理等任务。

LSTM——长短期记忆神经网络

目录 1.LSTM 工作原理 2.LSTM的代码实现 3.代码详解 LSTM（Long Short-Term Memory）是一种特殊的循环神经网络（RNN），用于解决长序列中的长期依赖问题。它通过引入门机制，控制信息的流入、保留和输出&…...

编程日记 2024/11/1 9:29:50

10进阶篇：运用第一性原理解答“是什么”类型题目

在667分析题题型中，关于“如何做”和“好处是什么”的题目，许多同学都能较好地运用前述的667作答地图开展答题，但是唯独在“是什么”类型题目（也可以叫做认识型题目），不知从何下手。这种题目通常要求我们理解、分析，并展望未来的发展方向，而结构化、逻辑清晰的答案往往…...

编程日记 2024/11/1 9:24:46

【elkb】索引生命周期管理

索引生命周期管理 Index lifecycle management(索引生命周期管理)是elasticsearch提供的一种用于自动管理索引的生命周期的功能。允许使用者定义索引的各个阶段，从创建至删除。并允许使用者在每个阶段定义索引需要执行的特定动作。这些动作包含索引创建&#xff0c…...

编程日记 2024/11/1 9:22:41

江协科技STM32学习- P25 UART串口协议

🚀write in front🚀 🔎大家好，我是黄桃罐头，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流 🎁欢迎各位→点赞👍 收藏⭐️ 留言📝…...

编程日记 2024/11/1 9:21:40

15分钟学 Go 第 22 天：包的使用

第22天：包的使用欢迎来到Go语言的第22天！今天，我们将深入探讨如何创建和使用包。通过学习包的使用，你将能够更好组织你的代码，提高复用性和可维护性。 1. 包的概念在Go语言中，包是代码的基本组织单位。…...

编程日记 2024/11/1 9:16:34

【Leecode】Leecode刷题之路第35天之搜索插入位置

题目出处 35-搜索插入位置-题目出处题目描述个人解法思路： 1.依次遍历数组，看目标值是否在数组中 2.如果不在，将目标值插入数组（涉及到数组移动、扩容），返回下标代码示例：（Java…...

编程日记 2024/11/1 9:13:30

速盾：海外cdn高防

随着互联网的快速发展，网站的安全性和稳定性变得越来越重要。尤其是对于大型企业和电商平台来说，保护用户数据和维护网站稳定运行是至关重要的。为了应对日益增长的网络攻击和恶意访问，海外CDN高防服务成为了一种非常受欢迎的解决方案。首先…...

编程日记 2024/11/1 9:09:21

图书管理系统（JDBC）

AdminUser是管理员类 NormalUser是用户类 AddOperation是增加图书类 BorrowOperation是借书类 DelOperation是删除图书类 ExitOperation是退出类 FindOperation是查找图书类 IOPeration是接口 ReturnOperation是还书类 ShowOperation是显示所有图书类注意&#xff1a…...

编程日记 2024/11/1 9:08:20

模板初阶及STL简介

目录一.模板初阶 1.泛型函数 2.函数模板 1.函数模板概念 2.函数模板使用格式 3.函数模板的原理 4.函数模板的实例化 5.模板参数的匹配原则 3.类模板 1.类模板的定义格式 2.类模板的实例化二.STL简介 1.什么是STL 2.STL的版本 3.STL的六大组件 4.如何学习STL …...

编程日记 2024/11/1 9:07:19

UE5 不同的编译模式下，module的组织形式

由于最近在琢磨UE5.4这个引擎，在学习过程中，碰到了一些非常有意思的事情，我在尝试把之前写的一些底层库搬到UE里面，比如底层库，网络库等等，我通过建立module，将这些库用源代码的方式整合进了UE5…...

编程日记 2024/11/1 9:06:18

安装环境 pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simplepip install modelscope vllm ‘ms-swift[llm]’ -U 下载模型 modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-Instruct 微调实验环境：…...

编程日记 2024/11/1 9:05:12

Linux：网络基础

计算机是人的工具，人需要协作，于是有了网络专用服务器->专用计算机局域网：随着计算机的数量增加，通过交换机和路由器连接计算机广域网：将远隔千里的计算机都连在一起协议协议就是约定俗成计算机之间用光信号…...

编程日记 2024/11/1 9:03:08

mysql 的内连接、左连接、右连接有什么区别？

在MySQL中，内连接、左连接和右连接是三种常见的连接类型，它们用于通过共享一个或多个字段的值，将两个或多个表组合在一起进行查询。以下是这三种连接类型的详细区别： 一、内连接（INNER JOIN） 定义&#x…...

编程日记 2024/11/1 9:02:06

update-alternatives（选择工具）

0 Preface/foreword 1 update-alternatives介绍 1.1 选项和用法 1.2 install用法 update-alternatives --install <link> <name> <path> <priority> [--slave <link> <name> <path>] link：符号链接（软链…...

编程日记 2024/11/1 9:01:05

php解密，sg11解密-sg15解密如何由sourceGuardian11-sourceGuardian15加密（sg11加密~sg15加密）的源码

sg11加密~sg11加密的PHP文件运行需安装SG11加密-SG15加密组件使用、支持WINDOW及LINUX各版本 sg11解密(SourceGuardian)-sg15解密(SourceGuardian)，号称目前最安全的组件加密已可以解密，解密率99.9%，基本可以直接使用，代码特征是…...

编程日记 2024/11/1 8:59:01

b站小土堆PyTorch视频学习笔记（二）

Dataloader:提供不同类型的数据集；为后面的网络提供不同的数据形式 Dataset：提供一种方式去获取数据及其label（标签） 主要实现以下两个功能： {如何获取每一个数据及其lable；告诉我们总共有多少数据} fr…...

编程日记 2024/11/1 8:55:57

Linux的压缩及其解压命令

1、zip文件压缩 zip linux.zip linux 解压 unzip linux.zip 2、gz文件压缩 gzip 1.tar 解压 gzip -d 1.tar.gz 3、tar文件(tar可打/解包，压缩/解压文件) 打包 tar -cf 1.rar test 解包 tar -xf 1.tar 解压gz并解包 tar -xjvf archive_name.tar.bz2&#…...

编程日记 2024/11/1 8:49:51

GXYCTF2019：gakki

把题目给的附件解压后给了张图片，顺带着瞟一眼属性，没有值得注意的 binwalk检测一手，看见有个rar压缩包提取出来的压缩包是有密码的，但是题目并没有给出获取密码的途径，所以先爆破试试，用最常用的四位数爆…...

编程日记 2024/11/1 8:41:42

顺序表（C 语言）

目录一、线性表二、顺序表1. 静态顺序表2. 动态顺序表2.1 动态顺序表的实现分析2.2 动态顺序表的实现2.3 动态顺序表存在的问题三、与数组有关的面试题1. 移除元素2. 删除有序数组中的重复项一、线性表线性表（linear list）是n个具有相同特性的数据元…...

编程日记 2024/11/1 8:36:36

一：时序数据库-Influx应用

目录 0、版本号 1、登录页面 2、账号基本信息 3、数据库案例 4、可视化 5、java案例 0、版本号 InfluxDB v2.4.0 1、登录页面 http://127.0.0.1:8086/signin 账号：自己账号密码：自己密码 2、账号基本信息查看用户id和组织id！&…...

编程日记 2024/11/1 8:34:34

2026年第二次答辩前论文降AI攻略：二次答辩AIGC超标4.8元彻底解决完整处理方案

2026年第二次答辩前论文降AI攻略：二次答辩AIGC超标4.8元彻底解决完整处理方案关于第二次答辩论文降AI，我总结了一个最重要的教训：别只降标红段落，要全文处理。之前逐段降，整体检测还是超标。换成全文上传&#xff…...

编程新知 2026/5/21 17:40:58

三分钟完成Taotoken的API Key配置与curl调用测试

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度三分钟完成Taotoken的API Key配置与curl调用测试基础教程类，面向刚注册Taotoken并获取了API Key的开发者，…...

编程新知 2026/5/21 16:46:40

2026年盘点最好的5款许可优化工具

你有没有遇到过这种情况：研发部门天天喊许可证不够用，采购那边一年几百万的软件授权费还在往上涨，结果你一查，发现有人开着一个几万块的CAD软件，人已经去开了一个小时的会。钱就这么白白烧掉了。我今年专门把这行摸了一…...

编程新知 2026/5/21 15:41:56

百考通AI：答辩PPT智能生成，覆盖从开题到终答的全流程,让毕业答辩更从容

毕业答辩是学术生涯的关键一战，一份逻辑清晰、专业美观的PPT是顺利通关的核心保障，却也让无数毕业生熬夜奋战：从提炼研究核心到规划答辩流程，从设计页面排版到打磨讲稿，繁琐的准备工作常常让人焦头烂额。百考通AI&…...

编程新知 2026/5/21 14:30:08

从B站视频到高品质音频：BilibiliDown音频提取全攻略

从B站视频到高品质音频：BilibiliDown音频提取全攻略【免费下载链接】BilibiliDown (GUI-多平台支持) B站哔哩哔哩视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mirrors/bi/…...

编程新知 2026/5/21 14:28:06

获 800 万美元融资，MAU 超 40 万！「shapes」AI 社交能否成下一代聊天应用？

《「shapes」获 800 万美元种子轮融资，AI 助力社交“入场”，能否成下一代聊天应用？》这几天，我在「shapes」随机进了个陌生群聊，发了句 "hello"，三秒内就有 AI 角色接上，回了串热情有…...

编程新知 2026/5/21 14:24:01

3分钟终极指南：用trackerslist让你的BT下载速度提升5倍

3分钟终极指南：用trackerslist让你的BT下载速度提升5倍【免费下载链接】trackerslist Updated list of public BitTorrent trackers 项目地址: https://gitcode.com/GitHub_Trending/tr/trackerslist 还在为BT下载速度慢而烦恼吗？trackerslist项…...

编程新知 2026/5/21 14:17:48

Win11Debloat：Windows 11系统优化终极指南，免费提升电脑性能50%

Win11Debloat：Windows 11系统优化终极指南，免费提升电脑性能50% 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes…...

编程新知 2026/5/21 14:10:56

海外渠道通知短信接口

在跨境业务体系中，企业常面临区域代理商分散、信息同步滞后、补货提醒不及时的问题，传统邮件、即时通讯易出现漏读、延迟，而国际渠道通知短信接口凭借触达稳定、实时性强的优势，成为跨境企业对接代理商的高效通信方案。本文从接口…...

编程新知 2026/5/21 12:54:48

ARMv8内存访问指令STLUR与STLXP详解

1. ARMv8内存访问指令概述在ARMv8架构中，内存访问指令构成了处理器与内存系统交互的基础设施。作为RISC架构的典型代表，ARMv8通过精简但功能明确的指令集实现了高效的内存操作。其中存储(Store)类指令负责将寄存器数据写入内存，而根据不同的…...

编程新知 2026/5/21 11:59:56

LSTM——长短期记忆神经网络

1.LSTM 工作原理

2.LSTM的代码实现

3.代码详解

相关文章：

LSTM——长短期记忆神经网络

10进阶篇：运用第一性原理解答“是什么”类型题目

【elkb】索引生命周期管理

江协科技STM32学习- P25 UART串口协议

15分钟学 Go 第 22 天：包的使用

【Leecode】Leecode刷题之路第35天之搜索插入位置

速盾：海外cdn高防

图书管理系统（JDBC）

模板初阶及STL简介

UE5 不同的编译模式下，module的组织形式

【ms-swift 大模型微调实战】

Linux：网络基础

mysql 的内连接、左连接、右连接有什么区别？

update-alternatives（选择工具）

php解密，sg11解密-sg15解密如何由sourceGuardian11-sourceGuardian15加密（sg11加密~sg15加密）的源码

b站小土堆PyTorch视频学习笔记（二）

Linux的压缩及其解压命令

GXYCTF2019：gakki

顺序表（C 语言）

一：时序数据库-Influx应用

2026年第二次答辩前论文降AI攻略：二次答辩AIGC超标4.8元彻底解决完整处理方案

三分钟完成Taotoken的API Key配置与curl调用测试

2026年盘点最好的5款许可优化工具

百考通AI：答辩PPT智能生成，覆盖从开题到终答的全流程,让毕业答辩更从容

从B站视频到高品质音频：BilibiliDown音频提取全攻略

获 800 万美元融资，MAU 超 40 万！「shapes」AI 社交能否成下一代聊天应用？

3分钟终极指南：用trackerslist让你的BT下载速度提升5倍

Win11Debloat：Windows 11系统优化终极指南，免费提升电脑性能50%

海外渠道通知短信接口

ARMv8内存访问指令STLUR与STLXP详解