当前位置：首页 > news >正文

【深度学习】深入解析长短期记忆网络（LSTMs）

news 2026/5/20 3:26:15

在这里插入图片描述

长短期记忆网络（Long Short-Term Memory networks, LSTMs）是一种特殊的递归神经网络（RNN），专门设计用来解决标准 RNN 在处理长序列数据时的梯度消失和梯度爆炸问题。LSTMs 在许多序列数据任务中表现出色，如自然语言处理、时间序列预测和语音识别等。本文将深入探讨 LSTMs 的基本结构、工作原理、关键技术及其应用。

一、LSTMs 的基本结构

LSTM 的基本单元与传统 RNN 的单元不同，主要由以下几个部分组成：

1.1 单元状态（Cell State）

LSTM 维护一个称为单元状态的内部记忆，能够在时间步之间传递长期信息。单元状态通过不同的门控机制进行更新和调整。

1.2 门控机制

LSTM 使用三种门控机制来控制信息的流动：

遗忘门（Forget Gate）：决定保留多少先前单元状态的信息。遗忘门的输出是一个介于 0 和 1 之间的值，表示当前信息的重要性。计算公式为：
输入门（Input Gate）：决定当前输入信息对于单元状态的影响。输入门的输出同样是一个介于 0 和 1 之间的值。计算公式为：
输出门（Output Gate）：决定当前单元状态对输出的影响。计算公式为：

在这里插入图片描述

1.3 单元状态更新

通过上述门控机制，LSTM 更新单元状态的公式如下：

更新单元状态：

在这里插入图片描述

其中，(\tilde{C}_t) 是当前输入的候选值，计算公式为：

在这里插入图片描述

计算输出：

在这里插入图片描述

二、LSTMs 的工作原理

LSTM 的工作流程可以概括为以下几个步骤：

输入序列：接收输入序列 (x_1, x_2, \ldots, x_T)。
逐步处理：在每个时间步 (t)：
- 计算遗忘门、输入门和输出门的值。
- 更新单元状态。
- 计算当前时间步的输出。
序列输出：根据任务的需要，输出最后的隐藏状态 (h_T) 或所有时间步的隐藏状态。

三、 LSTMs 的关键技术

3.1 梯度截断

在训练 LSTM 时，可能会遇到梯度爆炸的问题。为了解决这一问题，常用的技术是梯度截断（Gradient Clipping），即在反向传播时限制梯度的最大值，以防止其过大。

3.2 双向 LSTM

双向 LSTM 通过同时考虑序列的正向和反向信息，能够更全面地捕捉上下文信息。它由两个 LSTM 组成，一个处理正向序列，一个处理反向序列，最终将两者的输出结合。

3.3 多层堆叠

通过堆叠多个 LSTM 层，可以构建更深的网络，从而增强模型的表达能力。每一层的输出都可以作为下一层的输入，以捕捉更复杂的特征。

四、LSTMs 的应用

LSTMs 在多个领域取得了显著的成就，尤其在以下几个方面：

4.1 自然语言处理

LSTMs 在文本生成、情感分析、机器翻译等任务中表现出色。例如，在机器翻译中，LSTM 能够有效捕捉上下文信息，从而提高翻译质量。

4.2 时间序列预测

在金融市场预测、气象预报等领域，LSTM 被广泛应用于处理时间序列数据。通过学习历史数据中的模式，LSTM 可以有效预测未来趋势。

4.3 语音识别

LSTM 的序列建模能力使其在语音识别任务中表现优异。它能处理变长的语音信号，并有效识别出语音内容。

五、应用介绍：使用 LSTM 进行情感分析

在本节中，我们将构建一个使用长短期记忆网络（LSTMs）进行情感分析的项目。我们将使用 IMDB 电影评论数据集，该数据集包含大量标记为正面或负面的评论。我们的目标是构建一个 LSTM 模型，能够有效地预测评论的情感。

项目概述

目标

通过构建和训练 LSTM 模型，对 IMDB 数据集中的电影评论进行情感分类，判断其为正面或负面。

数据集

IMDB 数据集包含 50,000 条评论，其中 25,000 条用于训练，25,000 条用于测试。每条评论被标记为正面（1）或负面（0）。

环境准备

确保安装以下库：

pip install tensorflow keras numpy matplotlib

实现代码

下面是实现情感分析的完整代码，包括数据加载、预处理、模型构建、训练和评估。

import numpy as np
import matplotlib.pyplot as plt
from tensorflow.keras import datasets, layers, models, preprocessing
from tensorflow.keras.preprocessing.sequence import pad_sequences# 1. 数据加载
max_features = 10000  # 只考虑前 10,000 个最常用的词
maxlen = 200  # 每条评论最长 200 个词# 加载 IMDB 数据集
(train_data, train_labels), (test_data, test_labels) = datasets.imdb.load_data(num_words=max_features)# 2. 数据预处理
# 将评论填充到相同的长度
train_data = pad_sequences(train_data, maxlen=maxlen)
test_data = pad_sequences(test_data, maxlen=maxlen)# 3. 建立 LSTM 模型
model = models.Sequential([layers.Embedding(max_features, 128, input_length=maxlen),  # 嵌入层layers.LSTM(128),  # LSTM 层layers.Dense(1, activation='sigmoid')  # 输出层
])# 4. 编译模型
model.compile(optimizer='adam',loss='binary_crossentropy',metrics=['accuracy'])# 5. 训练模型
history = model.fit(train_data, train_labels, epochs=5, batch_size=64, validation_split=0.2)# 6. 评估模型
test_loss, test_acc = model.evaluate(test_data, test_labels, verbose=2)
print(f'\nTest accuracy: {test_acc}')# 7. 可视化训练过程
plt.figure(figsize=(12, 4))# 绘制准确率
plt.subplot(1, 2, 1)
plt.plot(history.history['accuracy'], label='Training Accuracy')
plt.plot(history.history['val_accuracy'], label='Validation Accuracy')
plt.xlabel('Epoch')
plt.ylabel('Accuracy')
plt.title('Model Accuracy')
plt.legend()# 绘制损失值
plt.subplot(1, 2, 2)
plt.plot(history.history['loss'], label='Training Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.title('Model Loss')
plt.legend()plt.tight_layout()
plt.show()

代码详解

1. 数据加载

我们使用 Keras 提供的 IMDB 数据集，并限制词汇表的大小为前 10,000 个最常用的词。

max_features = 10000
(train_data, train_labels), (test_data, test_labels) = datasets.imdb.load_data(num_words=max_features)

2. 数据预处理

在这一步，我们将评论填充到相同的长度，以便输入到模型中。我们设定每条评论的最大长度为 200 个词。

train_data = pad_sequences(train_data, maxlen=maxlen)
test_data = pad_sequences(test_data, maxlen=maxlen)

3. 建立 LSTM 模型

模型由以下几部分组成：

嵌入层（Embedding Layer）：将词汇转换为向量表示。
LSTM 层：使用 LSTM 单元来捕捉评论中的时序特征。
输出层：使用 Sigmoid 激活函数输出预测结果。

model = models.Sequential([layers.Embedding(max_features, 128, input_length=maxlen),layers.LSTM(128),layers.Dense(1, activation='sigmoid')
])

4. 编译模型

我们选择 Adam 优化器和二元交叉熵作为损失函数，评估指标为准确率。

model.compile(optimizer='adam',loss='binary_crossentropy',metrics=['accuracy'])

5. 训练模型

我们在训练数据上训练模型，并将 20% 的数据用于验证。

history = model.fit(train_data, train_labels, epochs=5, batch_size=64, validation_split=0.2)

6. 评估模型

使用测试集评估模型性能，输出测试集的准确率。

test_loss, test_acc = model.evaluate(test_data, test_labels, verbose=2)
print(f'\nTest accuracy: {test_acc}')

7. 可视化训练过程

使用 Matplotlib 绘制训练和验证过程中的准确率和损失变化，以便分析模型的学习情况。

plt.figure(figsize=(12, 4))
# 绘制准确率和损失值...

模型结果分析

训练与验证准确率

在训练过程中，可以观察到训练准确率和验证准确率的变化。通常，随着训练轮数的增加，训练准确率会逐步提高，验证准确率也应该随之上升。

测试准确率

在训练结束后，评估模型在测试集上的准确率。例如，如果测试集的准确率达到 85% 以上，说明模型在未见过的数据上表现良好。

可视化结果

通过绘制训练和验证的准确率及损失曲线，可以直观地了解模型的学习过程。这有助于调整模型超参数、选择合适的训练轮数和早停策略。

小结

通过这个项目，展示了如何使用 LSTM 进行情感分析。从数据加载、预处理到模型构建、训练和评估，完整地实现了一个情感分类器。
这个项目不仅帮助我们理解 LSTM 的工作原理，还展示了如何在实际应用中利用深度学习技术处理文本数据。通过不断调整模型结构和超参数，我们可以进一步提高模型的表现。

六、结论

长短期记忆网络（LSTMs）作为递归神经网络的一种变体，有效解决了标准 RNN 在处理长序列数据时的局限性。通过引入门控机制，LSTMs 能够在长时间跨度内保持信息，广泛应用于自然语言处理、时间序列预测和语音识别等领域。随着深度学习技术的发展，LSTMs 仍然是序列数据建模的重要工具，未来可能会与其他先进技术（如 Transformer）结合，进一步提升性能。

【深度学习】深入解析长短期记忆网络（LSTMs）

长短期记忆网络（Long Short-Term Memory networks, LSTMs）是一种特殊的递归神经网络（RNN），专门设计用来解决标准 RNN 在处理长序列数据时的梯度消失和梯度爆炸问题。LSTMs 在许多序列数据任务中表现出色，如…...

编程日记 2024/12/7 5:46:57

从Web3到智能合约：探索新一代数据交互模式

随着互联网技术的不断演进，Web3的到来标志着互联网的一个新纪元。与传统的Web2相比，Web3倡导去中心化、更加开放和透明的网络架构，而智能合约则是其中的核心技术之一。本文将介绍Web3与智能合约的概念、应用以及它们如何改变数据交互模式&…...

编程日记 2024/12/7 5:45:56

排查bug的通用思路

⭐️前言⭐️ APP点击某个按钮没有反应/PC端执行某个操作后，响应较慢，通用的问题排查方法: 从多个角度来排查问题 🍉欢迎点赞 👍 收藏 ⭐留言评论 🍉博主将持续更新学习记录收获，友友们有任何问题可以在评…...

编程日记 2024/12/7 5:44:55

如何利用Python爬虫获得商品类目

在当今数字化时代，获取和分析数据的能力对于任何希望在市场上保持竞争力的企业来说都是至关重要的。对于电子商务平台和市场研究公司而言，获取商品类目数据尤为重要，因为这些数据可以帮助他们更好地理解市场趋势、优化产品目录并制定有效的营…...

编程日记 2024/12/7 5:43:54

如何通过 Windows 自带的启动管理功能优化电脑启动程序

在日常使用电脑的过程中，您可能注意到开机后某些程序会自动运行。这些程序被称为“自启动”或“启动项”，它们可以在系统启动时自动加载并开始运行，有时甚至在后台默默工作。虽然一些启动项可能是必要的（如杀毒软件）&a…...

编程日记 2024/12/7 5:42:53

大模型学习有什么发展前景？

前景人工智能大模型是指拥有超大规模参数（通常在十亿个以上）、复杂计算结构的机器学习模型。它通常能够处理海量数据，完成各种复杂任务，如自然语言处理、图像识别等。 2024年政府工作报告提出“发展新质生产力”，并将…...

编程日记 2024/12/7 5:41:51

Excel技巧：如何批量调整excel表格中的图片？

插入到excel表格中的图片大小不一，如何做到每张图片都完美的与单元格大小相同？并且能够根据单元格来改变大小？今天分享，excel表格里的图片如何批量调整大小。方法如下： 点击表格中的一个图片，然后按住Ct…...

编程日记 2024/12/7 5:40:50

独著与编著的区别是？

独著和编著主要有以下区别： 一、创作性质 - 独著 - 独著是作者完全独立进行创作的作品。其内容是作者自己的研究成果、观点见解或者经验总结。作者从最初的选题构思，到资料收集、分析研究，再到内容撰写、修改润色等全过程都是独立完成的。…...

编程日记 2024/12/7 5:39:49

vue中pdf.js的使用，包括pdf显示，跳转指定页面，高亮关键词

目录一、下载pdf.js 二、引入到本地的项目中三、实现预览pdf 四、跳转到指定页面五、利用pdf里面的find查找关键词六、修改页面大小为实际大小一、下载pdf.js https://github.com/mozilla/pdf.js 里面有很多的版本， 高版本的可能浏览器不兼容或者还要考…...

编程日记 2024/12/7 5:38:48

【Spring Boot】自动装配机制详解

1. 传统的 Spring 注入方式（基于 XML 配置） 在传统的 Spring 中，依赖注入（DI）通常通过 XML 配置文件来进行管理。常见的方式有两种： 通过 <property> 元素进行属性注入： <bean id&qu…...

编程日记 2024/12/7 5:37:46

Flink集群搭建整合Yarn运行

Flink 集群 1. 服务器规划服务器h1、h4、h5 2. StandAlone 模式（不推荐） 2.1 会话模式在h1操作 #1、解压 tar -zxvf flink-1.19.1-bin-scala_2.12.tgz -C /app/#2、修改配置文件 cd /app/flink-1.19.1/conf vim conf.yaml ##内容：## j…...

编程日记 2024/12/7 5:32:35

Linux Ubuntu 安装配置RabbitMQ，springboot使用RabbitMQ

rabbit-Ubuntu 一篇文章学会RabbitMQ 在Ubuntu上查看RabbitMQ状态可以通过多种方式进行，包括使用命令行工具和Web管理界面。以下是一些常用的方法： 1-使用systemctl命令： sudo systemctl start rabbitmq-server sudo systemctl status ra…...

编程日记 2024/12/7 5:31:33

云数据库 MongoDB

MongoDB 是一个基于文档的 NoSQL 数据库，它与传统的关系型数据库不同，采用的是灵活的文档结构（类似 JSON 格式）。MongoDB 是开源的，且高度可扩展，通常用于处理大量的非结构化或半结构化数据。云数据库 Mon…...

编程日记 2024/12/7 5:29:31

Ionic 8.4 简介

Ionic 是一个用于开发混合移动应用、渐进式Web应用（PWA）以及桌面应用的开源框架。它结合了 Angular、React 或 Vue.js 等现代前端框架与 Cordova/PhoneGap 的力量，允许开发者使用 Web 技术（HTML, CSS, JavaScript）构建…...

编程日记 2024/12/7 5:28:30

蓝桥杯系列---class1

🌈个人主页：羽晨同学 💫个人格言:“成为自己未来的主人~” 我们今天会再开一个系列，那就是蓝桥杯系列，我们会从最基础的开始讲起，大家想要备战明年蓝桥杯的，让我们一起加油。工具安装 DevC…...

编程日记 2024/12/7 5:27:29

目录结构源码 exportOptions.js export default reactive([{label: 导出本页,key: 1,},{label: 导出全部,key: 2,}, ])index.vue <template><div class"flex flex-justify-between flex-items-end"><div><el-button-group><slot name…...

编程日记 2024/12/7 5:26:27

Junit5 单元测试入门

基础知识常用注解含义 Test：标记一个方法为测试方法BeforeEach：标记的方法会在每个测试方法执行前执行AfterEach：标记的方法会在每个测试方法执行后执行BeforeAll：标记的方法会在所有测试方法执行前执行一次AfterAll&#xff1…...

编程日记 2024/12/7 5:23:25

数字信号处理-数学基础

来源哪都有，个人复习使用一积分常用积分公式： 基本积分方法凑微分法(也称第一换元法)： 换元： 分部积分： 卷积这里有动图解释： https://mathworld.wolfram.com/Convolution.html 欧拉公式 e i x…...

编程日记 2024/12/7 5:21:23

【Exp】# Microsoft Visual C++ Redistributable 各版本下载地址

Microsoft官方页面 https://support.microsoft.com/en-us/help/2977003/the-latest-supported-visual-c-downloads Redistributable 2019 X86: https://aka.ms/vs/16/release/VC_redist.x86.exe X64: https://aka.ms/vs/16/release/VC_redist.x64.exe Redistributable 201…...

编程日记 2024/12/7 5:20:22

一、LSTMs 的基本结构

1.1 单元状态（Cell State）

1.2 门控机制

1.3 单元状态更新

二、LSTMs 的工作原理

三、 LSTMs 的关键技术

3.1 梯度截断

3.2 双向 LSTM

3.3 多层堆叠

四、LSTMs 的应用

4.1 自然语言处理

4.2 时间序列预测

4.3 语音识别

五、应用介绍：使用 LSTM 进行情感分析

项目概述

目标

数据集

环境准备

实现代码

代码详解

1. 数据加载

2. 数据预处理

3. 建立 LSTM 模型

4. 编译模型

5. 训练模型

6. 评估模型

7. 可视化训练过程

模型结果分析

训练与验证准确率

测试准确率

可视化结果

小结

六、结论

相关文章：