当前位置：首页 > news >正文

什么是长短期记忆网络？

news 2026/4/1 3:25:45

一、概念

长短期记忆网络（Long Short-Term Memory, LSTM）是一种特殊的循环神经网络（RNN），旨在解决标准RNN在处理长序列时的梯度消失和梯度爆炸问题。LSTM通过引入三个门（输入门、遗忘门和输出门）来控制信息的流动。其中，每个门都是一个神经网络层，用于决定哪些信息应该被保留，哪些信息应该被丢弃。LSTM的核心是细胞状态（cell state），它通过这些门的控制来更新和传递信息。

二、核心算法

令 $x_{t}$ 为时间步 t 的输入向量， $h_{t-1}$ 为前一个时间步的隐藏状态向量， $h_{t}$ 为当前时间步的隐藏状态向量， $C_{t-1}$ 为前一个时间步的细胞状态向量， $C_{t}$ 为当前时间步的细胞状态变量， $f_{t}$ 为当前时间步的遗忘门向量， $i_{t}$ 为当前时间步的输入门向量， $\bar{C_{t}}$ 为当前时间步的候选细胞状态向量， $o_{t}$ 为当前时间步的输出门向量， $W_{f},W_{i},W_{C},W_{o}$ 分别为各门的权重矩阵， $b_{f},b_{i},b_{C},b_{o}$ 为偏置向量， $\sigma$ 为sigmoid激活函数，tanh为tanh激活函数，*为元素级乘法。LSTM的核心内容包括以下几个部分：

1、遗忘门（Forget Gate）

遗忘门决定细胞状态中哪些信息需要被遗忘。通过sigmoid激活函数，遗忘门的输出在0到1之间，表示每个细胞状态元素被保留的比例。

$f_{t} = \sigma(W_{f} \cdot \left [ h_{t-1}, x_{t} \right ] + b_{f})$

2、输入门（Input Gate）

输入门决定哪些新的信息需要被写入细胞状态。通过sigmoid激活函数，输入门的输出在0到1之间，表示每个候选细胞状态元素被写入的比例。候选细胞状态通过tanh激活函数生成，表示新的信息。

$i_{t} = \sigma(W_{i} \cdot \left [ h_{t-1}, x_{t} \right ] + b_{i})$

$\bar{C}_{t} = tanh(W_{C} \cdot \left [ h_{t-1}, x_{t} \right ] + b_{C})$

3、细胞状态更新

细胞状态结合遗忘门和输入门的结果进行更新。遗忘门的输出与前一个时间步的细胞状态相乘，表示保留的旧信息。输入门的输出与候选细胞状态相乘，表示写入的新信息。两者相加得到当前时间步的细胞状态。

$C_{t} = f_{t} \ast C_{t-1}+i_{t} \ast \bar{C}_{t}$

4、输出门（Output Gate）

输出门决定细胞状态的哪些部分将作为输出。通过sigmoid激活函数，输出门的输出在0到1之间，表示每个细胞状态元素被输出的比例。细胞状态通过tanh激活函数进行非线性变换，然后与输出门的输出相乘，得到当前时间步的隐藏状态。

$o_{t} = \sigma(W_{o} \cdot \left [ h_{t-1}, x_{t} \right ] + b_{o})$

$h_{t} = o_{t} \ast tanh(C_{t})$

三、python实现

import torch
import torch.nn as nn
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split# 生成正弦波数据
def generate_sine_wave(seq_length, num_samples):x = np.linspace(0, num_samples, num_samples)y = np.sin(x)data = []for i in range(len(y) - seq_length):data.append(y[i:i+seq_length+1])return np.array(data)# 定义LSTM模型
class LSTMModel(nn.Module):def __init__(self, input_size, hidden_size, output_size, num_layers):super(LSTMModel, self).__init__()self.hidden_size = hidden_sizeself.num_layers = num_layersself.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True)self.fc = nn.Linear(hidden_size, output_size)def forward(self, x):h0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device)c0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device)out, _ = self.lstm(x, (h0, c0))out = self.fc(out[:, -1, :])return out# 超参数设置
seq_length = 50
num_samples = 1000
input_size = 1
hidden_size = 50
output_size = 1
num_layers = 2
batch_size = 64
learning_rate = 0.001
num_epochs = 5
test_size = 0.2  # 测试集占比# 生成数据
data = generate_sine_wave(seq_length, num_samples)
X = data[:, :-1]
y = data[:, -1]# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=42)# 转换为Tensor
X_train = torch.tensor(X_train.reshape(-1, seq_length, input_size), dtype=torch.float32)
y_train = torch.tensor(y_train.reshape(-1, output_size), dtype=torch.float32)
X_test = torch.tensor(X_test.reshape(-1, seq_length, input_size), dtype=torch.float32)
y_test = torch.tensor(y_test.reshape(-1, output_size), dtype=torch.float32)# 创建数据加载器
train_dataset = torch.utils.data.TensorDataset(X_train, y_train)
train_loader = torch.utils.data.DataLoader(dataset=train_dataset, batch_size=batch_size, shuffle=True)
test_dataset = torch.utils.data.TensorDataset(X_test, y_test)
test_loader = torch.utils.data.DataLoader(dataset=test_dataset, batch_size=batch_size, shuffle=False)# 初始化模型、损失函数和优化器
model = LSTMModel(input_size, hidden_size, output_size, num_layers)
criterion = nn.MSELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)# 训练模型
for epoch in range(num_epochs):model.train()for i, (inputs, labels) in enumerate(train_loader):outputs = model(inputs)loss = criterion(outputs, labels)optimizer.zero_grad()loss.backward()optimizer.step()print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}')# 测试模型
model.eval()
with torch.no_grad():predicted = []actual = []for inputs, labels in test_loader:outputs = model(inputs)predicted.extend(outputs.numpy())actual.extend(labels.numpy())# 绘制结果
plt.plot(actual, label='Actual data')
plt.plot(predicted, label='Predicted data')
plt.legend()
plt.show()

四、总结

LSTM能够捕捉长时间依赖关系，使得模型在处理长序列数据时表现得比标准的RNN更好。但由于LSTM的计算依赖于前一个时间步的输出，这使得这样的网络结构难以并行化，在处理大规模数据时的效率较低。

什么是长短期记忆网络？

一、概念长短期记忆网络（Long Short-Term Memory, LSTM）是一种特殊的循环神经网络（RNN），旨在解决标准RNN在处理长序列时的梯度消失和梯度爆炸问题。LSTM通过引入三个门（输入门、遗忘门和输出门&#xff09…...

编程日记 2025/1/31 21:15:02

git中有关old mode 100644、new mode 10075的问题解决小结

在 Git 版本控制系统中，文件权限变更是一种常见情况。当你看到类似 old mode 100644 和 new mode 100755 的信息时，这通常表示文件的权限发生了变化。本文将详细解析这种情况，并提供解决方法和注意事项。问题背景在 Git 中，文…...

编程日记 2025/1/31 21:05:53

Jenkins上生成的allure report打不开怎么处理

目录问题背景： 原因： 解决方案： Jenkins上修改配置通过Groovy脚本在Script Console中设置和修改系统属性步骤验证是否清空成功进一步的定制也可以使用Nginx去解决使用逆向代理服务器Nginx： 通过合理调整CSP配置&a…...

编程日记 2025/1/31 21:03:46

JSR303校验教学

1、什么是JSR303校验 JSR是Java Specification Requests的缩写，意思是Java 规范提案。是指向JCP(Java Community Process)提出新增一个标准化技术规范的正式请求。任何人都可以提交JSR，以向Java平台增添新的API和服务。JSR已成为Java界的一个重要标准。…...

编程日记 2025/1/31 21:00:27

使用DeepSeek技巧：提升内容创作效率与质量

一、引言在当今快节奏的数字时代，内容创作的需求不断增加，无论是企业营销、个人博客还是学术研究，高效且高质量的内容生成变得至关重要。DeepSeek作为一款先进的人工智能写作助手，凭借其强大的语言生成能力，为创作者…...

编程日记 2025/1/31 20:59:13

【第六天】零基础入门刷题Python-算法篇-数据结构与算法的介绍-一种常见的贪心算法（持续更新）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Python数据结构与算法的详细介绍1.Python中的常用的贪心算法2.贪心算法3.详细的贪心代码1）一种常见的贪心算法总结前言提示：这里…...

编程日记 2025/1/31 20:57:00

C# Winform制作一个登录系统

using System; using System.Collections; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Windows.Forms;namespace 登录 {p…...

编程日记 2025/1/31 20:49:37

算法总结-哈希表

文章目录 1.赎金信1.答案2.思路 2.字母异位词分组1.答案2.思路 3.两数之和1.答案2.思路 4.快乐数1.答案2.思路 5.最长连续序列1.答案2.思路 1.赎金信 1.答案 package com.sunxiansheng.arithmetic.day14;/*** Description: 383. 赎金信** Author sun* Create 2025/1/22 11:10…...

编程日记 2025/1/31 20:48:31

向下调整算法（详解）c++

算法流程： 与⽗结点的权值作⽐较，如果⽐它⼤，就与⽗亲交换； 交换完之后，重复 1 操作，直到⽐⽗亲⼩，或者换到根节点的位置大家可能会有点疑惑，这个是大根堆，22是怎么跑到…...

编程日记 2025/1/31 20:46:28

蓝桥杯之c++入门（一）【C＋＋入门】

目录前言5. 算术操作符5.1 算术操作符5.2 浮点数的除法5.3 负数取模5.4 数值溢出5.5 练习练习1：计算 ( a b ) ⋆ c (ab)^{\star}c (ab)⋆c练习2：带余除法练习3：整数个位练习4：整数十位练习5：时间转换练习6&#xff…...

编程日记 2025/1/31 20:43:25

使用Python爬虫获取1688商品拍立淘API接口（item_search_img）的实战指南

在电商领域，通过图片搜索商品（拍立淘）已经成为一种重要的商品检索方式。1688平台的item_search_img接口允许用户通过上传图片来搜索相似商品，这为商品信息采集和市场分析提供了极大的便利。本文将详细介绍如何使用Python爬虫技术调…...

编程日记 2025/1/31 20:42:14

ElasticSearch-文档元数据乐观并发控制

文章目录什么是文档？文档元数据文档的部分更新Update 乐观并发控制最近日常工作开发过程中使用到了 ES，最近在检索资料的时候翻阅到了 ES 的官方文档，里面对 ES 的基础与案例进行了通俗易懂的解释，读下来也有不少收获&#xff0…...

编程日记 2025/1/31 20:40:59

使用Navicat Premium管理数据库时，如何关闭事务默认自动提交功能？

使用Navicat Premium管理数据库时，最糟心的事情莫过于事务默认自动提交，也就是你写完语句运行时，它自动执行commit提交至数据库，此时你就无法进行回滚操作。建议您尝试取消勾选“选项”中的“自动开始事务”，点击“工…...

编程日记 2025/1/31 20:30:34

【单细胞-第三节多样本数据分析】

文件在单细胞\5_GC_py\1_single_cell\1.GSE183904.Rmd GSE183904 数据原文 1.获取临床信息筛选样本可以参考临床信息 rm(list ls()) library(tinyarray) a geo_download("GSE183904")$pd head(a) table(a$Characteristics_ch1) #统计各样本有多少2.批量读取学…...

编程日记 2025/1/31 20:28:17

(java) IO流

学习IO流之前，我们需要先认识file对象，帮助我们更好的使用IO流 1.1 file 作用：关联硬盘上的文件写法： File(String path); (推荐)File(String parent, String child); //由父级路径，再子级路径拼接而成File(File p…...

编程日记 2025/1/31 20:26:00

2025年1月个人工作生活总结

本文为 2025年1月工作生活总结。研发编码使用sqlite3命令行查询表数据可以直接使用sqlite3查询数据表，不需进入命令行模式。示例如下： sqlite3 database_name.db "SELECT * FROM table_name;"linux shell使用read超时一例先前有个编译…...

编程日记 2025/1/31 20:21:49

线性调整器——耗能型调整器

线性调整器又称线性电压调节器，以下是关于它的介绍： 基本工作原理线性调整器的基本电路如图1.1(a)所示,晶体管Q1(工作于线性状态,或非开关状态)构成一个连接直流源V和输出端V。的可调电气电阻,直流源V由60Hz隔离变压器（电气隔离和整流&#…...

编程日记 2025/1/31 20:19:47

【2025美赛D题】为更美好的城市绘制路线图建模｜建模过程+完整代码论文全解全析

你是否在寻找数学建模比赛的突破点？数学建模进阶思路！ 作为经验丰富的美赛O奖、国赛国一的数学建模团队，我们将为你带来本次数学建模竞赛的全面解析。这个解决方案包不仅包括完整的代码实现，还有详尽的建模过程和解析&#xff0c…...

编程日记 2025/1/31 20:15:31

【Numpy核心编程攻略：Python数据处理、分析详解与科学计算】1.28 存储之道：跨平台数据持久化方案

好的，我将按照您的要求生成一篇高质量的Python NumPy文章。以下是第28篇《存储之道：跨平台数据持久化方案》的完整内容，包括目录、正文和参考文献。 1.28 存储之道：跨平台数据持久化方案目录 #mermaid-svg-n1z37AP8obEgptkD {f…...

编程日记 2025/1/31 20:12:12

拼车（1094）

1094. 拼车 - 力扣（LeetCode） 解法： class Solution { public:bool carPooling(vector<vector<int>>& trips, int capacity) {uint32_t passenger_cnt 0;//将原数据按照from排序auto func_0 [](vector<int> & …...

编程日记 2025/1/31 20:08:06

Spring Boot 实现网络限速：让流量“收放自如”

Spring Boot 实现网络限速：让流量“收放自如” 一、为啥要网络限速？ 在当今这个数字化时代，网络服务就像我们生活中的水电一样不可或缺，而网络限速则是保障这些服务稳定、高效运行的关键一环。它能确保在各种复杂的网络环境下&…...

编程新知 2026/4/1 2:36:19

Android设备指纹采集指南：从get_token协议看短视频SDK如何生成唯一设备ID

Android设备指纹生成机制深度解析：从基础原理到合规实践在移动应用生态中，设备指纹技术扮演着至关重要的角色。它不仅关系到用户体验的连贯性，更是风控系统的基础支撑。本文将系统性地剖析Android平台下设备指纹的生成逻辑、技术实现方案以及…...

编程新知 2026/4/1 2:05:58

Python智能内存管理策略深度评测（CPython 3.9–3.12全版本横评）：谁真正降低了47.6% OOM风险？

第一章：Python智能内存管理策略深度评测总览Python 的内存管理并非由开发者手动控制，而是依托于一套高度集成的智能机制——包括引用计数、循环垃圾回收器（gc 模块）以及内存池（pymalloc）三层协同体系。这种…...

编程新知 2026/4/1 1:39:45

Amlogic S9XXX设备Armbian系统刷机全攻略：从问题诊断到优化配置

Amlogic S9XXX设备Armbian系统刷机全攻略：从问题诊断到优化配置【免费下载链接】amlogic-s9xxx-armbian Supports running Armbian on Amlogic, Allwinner, and Rockchip devices. Support a311d, s922x, s905x3, s905x2, s912, s905d, s905x, s905w, s905, s905l,…...

编程新知 2026/3/31 23:41:07

生成式AI系统“内容生成”合规：架构师如何避免“虚假信息”？附4个方法

生成式AI内容生成合规指南：架构师如何系统性规避虚假信息？ 元数据框架标题生成式AI内容生成合规指南：架构师如何系统性规避虚假信息？——从理论到实践的4大核心策略关键词生成式AI合规, 虚假信息防范, 事实一致性, 架构设计, …...

编程新知 2026/3/31 22:20:02

Qwen2.5-14B-Instruct开源大模型实战：像素剧本圣殿8-Bit UI部署详解

Qwen2.5-14B-Instruct开源大模型实战：像素剧本圣殿8-Bit UI部署详解 1. 项目概览像素剧本圣殿（Pixel Script Temple）是一款基于Qwen2.5-14B-Instruct大模型深度微调的专业剧本创作工具。这个独特的创作环境将强大的AI推理能力与复古8-Bit视…...

编程新知 2026/3/31 22:17:59

5分钟攻克Windows苹果设备驱动安装难题

5分钟攻克Windows苹果设备驱动安装难题【免费下载链接】Apple-Mobile-Drivers-Installer Powershell script to easily install Apple USB and Mobile Device Ethernet (USB Tethering) drivers on Windows! 项目地址: https://gitcode.com/gh_mirrors/ap/Apple-Mobile-Driv…...

编程新知 2026/3/31 22:07:48

基于AkShare构建A股基础数据自动化采集方案

1. 为什么需要自动化采集A股基础数据做量化研究的朋友都知道，获取准确、完整的股票基础数据是策略开发的基石。我刚开始做量化时，最头疼的就是每次跑策略前都要手动更新股票列表，经常因为数据不全导致回测结果失真。后来发现AkShare这个宝藏…...

编程新知 2026/3/31 21:57:32

Obsidian表格处理革新：Excel插件的无缝集成方案

Obsidian表格处理革新：Excel插件的无缝集成方案【免费下载链接】obsidian-excel 项目地址: https://gitcode.com/gh_mirrors/ob/obsidian-excel 在知识管理的日常工作中，你是否经常遇到这样的困境：在Obsidian中记录项目数据时&#…...

编程新知 2026/3/31 21:02:43

手把手调试：从V8引擎的ArrayBuffer到WebAssembly，一步步拆解Chrome CVE-2020-6507漏洞利用链

深入解析Chrome V8引擎漏洞利用：从ArrayBuffer到WebAssembly的内存操控实战浏览器安全研究领域近年来持续升温，其中V8引擎作为Chrome和Node.js的核心组件，其安全性直接影响着数十亿用户。本文将带您深入探索一个典型V8漏洞（CVE-2…...

编程新知 2026/3/31 21:00:40