当前位置：首页 > news >正文

【深度学习】LSTM、BiLSTM详解

news 2025/7/12 13:24:02

文章目录

1. LSTM简介：
2. LSTM结构图：
3. 单层LSTM详解
4. 双层LSTM详解
5. BiLSTM
6. Pytorch实现LSTM示例
7. nn.LSTM参数详解

1. LSTM简介：

LSTM是一种循环神经网络，它可以处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM通过使用门控单元来控制信息的流动，从而缓解RNN中的梯度消失和梯度爆炸的问题。LSTM的核心是三个门：输入门、遗忘门和输出门。

遗忘门： 遗忘门的作用是决定哪些信息从记忆单元中遗忘，它使用sigmoid激活函数，可以输出在0到1之间的值，可以理解为保留信息的比例。
输入门： 作用是决定哪些新信息被存储在记忆单元中
输出门： 输出门决定了下一个隐藏状态，即生成当前时间步的输出并传递到下一时间步
记忆单元：负责长期信息的存储，通过遗忘门和输入门的相互作用，记忆单元能够学习如何选择性地记住或忘记信息

2. LSTM结构图：

在这里插入图片描述

涉及到的计算公式如下：
在这里插入图片描述

3. 单层LSTM详解

（1）设定有3个字的序列【“早”“上”“好”】要经过LSTM处理，每个序列由20个元素组成的列向量构成，所以input size就为20。

（2）设定全连接层中有100个隐藏单元，LSTM的层数为1。

（3）因为是3个字的序列，所以LSTM需要3个时间步（即会自循环3次）才能处理完这个序列。

（4）nn.LSTM()每层也可以拆开写，这样每层的隐藏单元个数就可以分别设定。

在这里插入图片描述
LSTM单元包含三个输入参数x、c、h；首先t1时刻作为第一个时间步，输入到第一个LSTM单元中，此时输入的初始从c(0)和h(0)都是0矩阵，计算完成后，第一个LSTM单元输出一组h(t1)\c(t1)，作为本层LSTM的第二个时间步的输入参数；因此第二个时间步的输入就是h(t1)，c(t1)，x(t2)，而输出是h(t2)，c(t2)；因此第三个时间步的输入就是h(t2)，c(t2)，x(t3)，而输出是h(t3)，c(t3)。

4. 双层LSTM详解

（1）设定有3个字的序列【“早”“上”“好”】要经过LSTM处理，每个序列由20个元素组成的列向量构成，所以input size就为20。

（2）设定全连接层中有100个隐藏单元，LSTM的层数为2。

（3）因为是3个字的序列，所以LSTM需要3个时间步（即会自循环3次）才能处理完这个序列。

（4）nn.LSTM()每层也可以拆开写，这样每层的隐藏单元个数就可以分别设定。

在这里插入图片描述
第二层LSTM没有输入参数x(t1)、x(t2)、x(t3)；所以我们将第一层LSTM输出的h(t1)、h(t2)、h(t3)作为第二层LSTM的输入x(t1)、x(t2)、x(t3)。第一个时间步输入的初始c(0)和h(0)都为0矩阵，计算完成后，第一个时间步输出新的一组h(t1)、c(t1)，作为本层LSTM的第二个时间步的输入参数；因此第二个时间步的输入就是h(t1)，c(t1)，x(t2)，而输出是h(t2)，c(t2)；因此第三个时间步的输入就是h(t2)，c(t2)，x(t3)，而输出是h(t3)，c(t3)。

5. BiLSTM

单层的BiLSTM其实就是2个LSTM，一个正向去处理序列，一个反向去处理序列，处理完后，两个LSTM的输出会拼接起来。
在这里插入图片描述

6. Pytorch实现LSTM示例

import torch 
import torch.nn as nndevice = torch.device("cuda" if torch.cuda.is_available() else "cpu")class LSTM(nn.Module):def __init__(self, input_dim, hidden_dim, num_layers, output_dim):super(LSTM, self).__init__()self.hidden_dim = hidden_dim  # 隐藏层维度self.num_layers = num_layers  # LSTM层的数量# LSTM网络层self.lstm = nn.LSTM(input_dim, hidden_dim, num_layers, batch_first=True)# 全连接层，用于将LSTM的输出转换为最终的输出维度self.fc = nn.Linear(hidden_dim, output_dim)def forward(self, x):# 初始化隐藏状态和细胞状态h0 = torch.zeros(self.num_layers, x.size(0), self.hidden_dim).to(device)c0 = torch.zeros(self.num_layers, x.size(0), self.hidden_dim).to(device)# 前向传播LSTM，返回输出和最新的隐藏状态与细胞状态out, (hn, cn) = self.lstm(x, (h0.detach(), c0.detach()))# 将LSTM的最后一个时间步的输出通过全连接层out = self.fc(out[:, -1, :])return out

7. nn.LSTM参数详解

pytorch官方定义：

CLASS torch.nn.LSTM(
input_size,
hidden_size,
num_layers=1,
bias=True,
batch_first=False,
dropout=0.0,
bidirectional=False,
proj_size=0,
device=None,
dtype=None
)

input_size – 输入 x 中预期的特征数量
hidden_size – 隐藏状态 h 中的特征数量
num_layers – 循环层的数量。例如，设置 num_layers=2 表示将两个 LSTM 堆叠在一起形成一个 stacked LSTM，其中第二个 LSTM 接收第一个 LSTM 的输出并计算最终结果。默认值：1
bias – 如果 False，则该层不使用偏差权重 b_ih 和 b_hh。默认值：True
batch_first – 如果 True，则输入和输出张量将以 (batch, seq, feature) 而不是 (seq, batch, feature) 的形式提供。请注意，这并不适用于隐藏状态或单元状态。有关详细信息，请参见下面的输入/输出部分。默认值：False
dropout – 如果非零，则在除最后一层之外的每个 LSTM 层的输出上引入一个 Dropout 层，其 dropout 概率等于 dropout。默认值：0
bidirectional – 如果 True，则变为双向 LSTM。默认值：False
proj_size – 如果 > 0，则将使用具有相应大小的投影的 LSTM。默认值：0

对于输入序列每一个元素，每一层都会进行以下计算：
在这里插入图片描述
网络输入：

网络输出：
在这里插入图片描述

本文参考：https://blog.csdn.net/qq_34486832/article/details/134898868
https://pytorch.ac.cn/docs/stable/generated/torch.nn.LSTM.html#

LSTM每层的输出都要经过全连接层吗，还是直接对隐藏层进行输出？
通过在代码中对lstm的输出进行print输出：

import torch 
import torch.nn as nndevice = torch.device("cuda" if torch.cuda.is_available() else "cpu")class LSTM(nn.Module):def __init__(self, input_dim, hidden_dim, num_layers, output_dim):super(LSTM, self).__init__()self.hidden_dim = hidden_dim  # 隐藏层维度self.num_layers = num_layers  # LSTM层的数量# LSTM网络层self.lstm = nn.LSTM(input_dim, hidden_dim, num_layers, batch_first=True)# 全连接层，用于将LSTM的输出转换为最终的输出维度self.fc = nn.Linear(hidden_dim, output_dim)def forward(self, x):# 初始化隐藏状态和细胞状态h0 = torch.zeros(self.num_layers, x.size(0), self.hidden_dim).to(device)c0 = torch.zeros(self.num_layers, x.size(0), self.hidden_dim).to(device)# 前向传播LSTM，返回输出和最新的隐藏状态与细胞状态out, (hn, cn) = self.lstm(x, (h0.detach(), c0.detach()))print(out)print(hn)print(cn)# 将LSTM的最后一个时间步的输出通过全连接层out = self.fc(out[:, -1, :])return out
if __name__ == "__main__":input_dim = 3        # 输入特征的维度hidden_dim = 4       # 隐藏层的维度num_layers = 1       # LSTM 层的数量output_dim = 1       # 输出特征的维度lstm = LSTM(input_dim, hidden_dim, num_layers, output_dim).to(device)batch_size = 1seq_length = 10input_tensor = torch.randn(batch_size, seq_length, input_dim).to(device)output = lstm(input_tensor)

通过对LSTM网络的输出我们可以看到，out的最后一层与最后一层隐藏层hn一致，说明并未经过全连接层，而是直接输出隐藏层
在这里插入图片描述

【深度学习】LSTM、BiLSTM详解

文章目录 1. LSTM简介：2. LSTM结构图：3. 单层LSTM详解4. 双层LSTM详解5. BiLSTM6. Pytorch实现LSTM示例7. nn.LSTM参数详解 1. LSTM简介： LSTM是一种循环神经网络，它可以处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM通…...

编程日记 2024/11/13 21:29:21

分子对接--软件安装

分子对接相关软件安装一、软件 AutoDock，下载链接: linkMGLtools，下载链接: link 自行选择合适版本下载，这里主要叙述在win上的具体安装流程： 下载得到： 二、运行运行autodocksuite-4.2.6.i86Windows得到&#…...

编程日记 2024/11/13 21:28:18

【Python无敌】在 QGIS 中使用 Python

QGIS 中有 Python 的运行环境，可以很好地执行各种任务。这里的问题是如何在 Jupyter 中调用 QGIS 的功能。首先可以肯定的是涉及到 GUI 的一些任务是无法在 Jupyter 中访问的，这样可以用的功能主要是地处理工具。按如下方式进行了尝试。原想使用 gdal:hillshade ，但是…...

编程日记 2024/11/13 21:27:15

全面解读：低代码开发平台的必备要素——系统策划篇

在传统开发过程中，系统策划起着举足轻重的作用，它宛如一位幕后的总指挥，把控着整个软件开发项目的走向。而随着技术的不断进步，低代码开发平台逐渐崭露头角，它以快速开发、降低技术门槛等优势吸引了众多企业和开发者的…...

编程日记 2024/11/13 21:26:14

Vue开发自动生成验证码功能前端实现不使用第三方插件实现随机验证码功能，生成的验证码添加干扰因素

Vue实现不使用第三方插件，开发随机生成验证码功能效果图，其中包含了短信验证码功能,以及验证码输入是否正确功能 dom结构 <div class="VerityInputTu"><div class="labelClass">图形验证码</div><div class="tuxingInput…...

编程日记 2024/11/13 21:25:12

# filezilla连接虚拟机ubuntu系统出错“尝试连接 ECONNREFUSED - 连接被服务器拒绝，失败，无法连接服务器”解决方案

filezilla连接虚拟机ubuntu系统出错“尝试连接 ECONNREFUSED - 连接被服务器拒绝， 失败，无法连接服务器”解决方案一、问题描述： 当我们用filezilla客户端连接虚拟机ubuntu系统时，报错“尝试连接 ECONNREFUSED - 连接被服务…...

编程日记 2024/11/13 21:24:11

2024/11/13 英语每日一段

The new policy has drawn many critics. Data and privacy experts said the Metropolitan Transit Authority’s new initiative doesn’t address the underlying problem that causes fare evasion, which is related to poverty and access. Instead, the program tries “…...

编程日记 2024/11/13 21:22:10

【全栈开发平台】全面解析 StackBlitz 最新力作 Bolt.new：AI 驱动的全栈开发平台

文章目录 [TOC]🌟 Bolt.new 的独特价值1. **无需配置，立刻开发**2. **AI 驱动，智能生成代码**3. **极致的速度与安全性**4. **一键部署，轻松上线**5. **免费开放，生态丰富** 🛠️ Bolt.new 使用教程一、快速…...

编程日记 2024/11/13 21:21:09

文献解读-DNAscope: High accuracy small variant calling using machine learning

关键词：基准与方法研究；基因测序；变异检测； 文献简介标题（英文）：DNAscope: High accuracy small variant calling using machine learning标题（中文）：DNAsc…...

编程日记 2024/11/13 21:16:04

成都睿明智科技有限公司解锁抖音电商新玩法

在这个短视频风起云涌的时代，抖音电商以其独特的魅力迅速崛起，成为众多商家争夺的流量高地。而在这片充满机遇与挑战的蓝海中，成都睿明智科技有限公司犹如一颗璀璨的新星，以其专业的抖音电商服务，助力无数品牌实现从零…...

编程日记 2024/11/13 21:15:02

【操作系统】——调度算法

🌹😊🌹博客主页：【Hello_shuoCSDN博客】 ✨操作系统详见【操作系统专项】 ✨C语言知识详见：【C语言专项】目录先来先服务（FCFS, First Come First Serve) 短作业优先（SJF, Shortest Job Fi…...

编程日记 2024/11/13 21:13:00

MySQL LOAD DATA INFILE导入数据报错

1.导入命令 LOAD DATA INFILE "merge.csv" INTO TABLE 报名数据 FIELDS TERMINATED BY , ENCLOSED BY " LINES TERMINATED BY \n IGNORE 1 LINES; 2.表结构 CREATE TABLE IF NOT EXISTS 报名数据 ( pid VARCHAR(100) NOT NULL, 查询日期 VARCHAR(25) NO…...

编程日记 2024/11/13 21:10:58

AI 写作（五）核心技术之文本摘要：分类与应用（5/10）

一、文本摘要：AI 写作的关键技术文本摘要在 AI 写作中扮演着至关重要的角色。在当今信息爆炸的时代，人们每天都被大量的文本信息所包围，如何快速有效地获取关键信息成为了一个迫切的需求。文本摘要技术正是为了解决这个问题而诞生的&#x…...

编程日记 2024/11/13 21:08:56

CTFL（二）贯穿软件开发生存周期中的测试

贯穿软件开发生存周期中的测试验收测试（acceptance testing），黑盒测试（black-box testing），组件集成测试（component integration testing），组件测试（compone…...

编程日记 2024/11/13 21:05:52

PMIC FS8405

FS8495 具有多个SMPS和LDO的故障安全系统基础芯片。 FS8X 大多数参数都是通过OTP寄存器设置的。概述 FS85/FS84设备系列是按照ASIL D流程开发的，FS84具有ASIL B能力，而FS85具有ASIL D能力。所有的设备选项都是引脚到引脚和软件兼容的。 FS85/FS84是一种汽车功能安全…...

编程日记 2024/11/13 21:01:47

matlab建模入门指导

本文以水池中鸡蛋温度随时间的变化为切入点，对其进行数学建模并进行MATLAB求解，以更为通俗地进行数学建模问题入门指导。一、问题简述一个煮熟的鸡蛋有98摄氏度，将它放在18摄氏度的水池中，五分钟后鸡蛋的温度为38摄氏度&#x…...

编程日记 2024/11/13 21:00:46

微搭低代码入门03函数

目录 1 函数的定义与调用2 参数与返回值3 默认参数4 将功能拆分成小函数5 函数表达式6 箭头函数7 低代码中的函数总结在用低代码开发软件的时候，除了我们上两节介绍的变量、条件语句外，还有一个重要的概念叫函数。函数是执行特定功能的代码片段&#xf…...

编程日记 2024/11/13 20:59:45

零基础Java第十六期：抽象类接口（二）

目录一、接口（补） 1.1. 数组对象排序 1.2. 克隆接口 1.3. 浅拷贝和深拷贝 1.4. 抽象类和接口的区别一、接口（补） 1.1. 数组对象排序我们在讲一维数组的时候，使用到冒泡排序来对数组里的元素进行从小到大或从大…...

编程日记 2024/11/13 20:58:44

【css】html里面的图片宽度设为百分比，高度要与宽度一样

场景：展示图片列表的时候，原始图片宽高不一致。外层div的宽度自适应，图片宽度不能固定数值，只能设置百分比。图片高度也不能设置固定数值。如何让图片的高度与图片的宽度一样呢？ html代码 ： <div cl…...

编程日记 2024/11/13 20:57:43

前端三大组件之CSS，三大选择器，游戏网页仿写

回顾 full stack全栈 Web前端三大组件结构(html) 样式(css) 动作/交互(js) --- 》框架vue，安哥拉 div 常用的标签扩展标签列表 ul/ol order——有序号 unordered——没序号的黑点 <!DOCTYPE html> <html><head><meta charset"…...

编程日记 2024/11/13 20:56:42

Linux 文件类型，目录与路径，文件与目录管理

文件类型后面的字符表示文件类型标志普通文件：-（纯文本文件，二进制文件，数据格式文件） 如文本文件、图片、程序文件等。目录文件：d（directory） 用来存放其他文件或子目录。设备…...

编程新知 2025/7/11 17:16:31

DeepSeek 赋能智慧能源：微电网优化调度的智能革新路径

目录一、智慧能源微电网优化调度概述1.1 智慧能源微电网概念1.2 优化调度的重要性1.3 目前面临的挑战二、DeepSeek 技术探秘2.1 DeepSeek 技术原理2.2 DeepSeek 独特优势2.3 DeepSeek 在 AI 领域地位三、DeepSeek 在微电网优化调度中的应用剖析3.1 数据处理与分析3.2 预测与…...

编程新知 2025/6/15 19:07:20

从零实现富文本编辑器#5-编辑器选区模型的状态结构表达

先前我们总结了浏览器选区模型的交互策略，并且实现了基本的选区操作，还调研了自绘选区的实现。那么相对的，我们还需要设计编辑器的选区表达，也可以称为模型选区。编辑器中应用变更时的操作范围，就是以模型选区为基准来…...

编程新知 2025/7/9 19:27:38

FFmpeg 低延迟同屏方案

引言在实时互动需求激增的当下，无论是在线教育中的师生同屏演示、远程办公的屏幕共享协作，还是游戏直播的画面实时传输，低延迟同屏已成为保障用户体验的核心指标。FFmpeg 作为一款功能强大的多媒体框架，凭借其灵活的编解码、数据…...

编程新知 2025/6/21 15:38:27

大数据零基础学习day1之环境准备和大数据初步理解

学习大数据会使用到多台Linux服务器。一、环境准备 1、VMware 基于VMware构建Linux虚拟机是大数据从业者或者IT从业者的必备技能之一也是成本低廉的方案所以VMware虚拟机方案是必须要学习的。 （1）设置网关打开VMware虚拟机，点击编辑…...

编程新知 2025/7/10 3:40:44

现代密码学 | 椭圆曲线密码学—附py代码

Elliptic Curve Cryptography 椭圆曲线密码学（ECC）是一种基于有限域上椭圆曲线数学特性的公钥加密技术。其核心原理涉及椭圆曲线的代数性质、离散对数问题以及有限域上的运算。椭圆曲线密码学是多种数字签名算法的基础，例如椭圆曲线数字签…...

编程新知 2025/7/11 12:39:51

企业如何增强终端安全？

在数字化转型加速的今天，企业的业务运行越来越依赖于终端设备。从员工的笔记本电脑、智能手机，到工厂里的物联网设备、智能传感器，这些终端构成了企业与外部世界连接的 “神经末梢”。然而，随着远程办公的常态化和设备接入的爆炸式…...

编程新知 2025/7/11 1:13:22

Go 并发编程基础：通道（Channel）的使用

在 Go 中，Channel 是 Goroutine 之间通信的核心机制。它提供了一个线程安全的通信方式，用于在多个 Goroutine 之间传递数据，从而实现高效的并发编程。本章将介绍 Channel 的基本概念、用法、缓冲、关闭机制以及 select 的使用。一、Channel…...

编程新知 2025/6/21 14:20:00

快刀集(1): 一刀斩断视频片头广告

一刀流：用一个简单脚本，秒杀视频片头广告，还你清爽观影体验。 1. 引子作为一个爱生活、爱学习、爱收藏高清资源的老码农，平时写代码之余看看电影、补补片，是再正常不过的事。电影嘛，要沉浸，…...

编程新知 2025/7/7 16:35:25

【从零开始学习JVM | 第四篇】类加载器和双亲委派机制(高频面试题)

前言： 双亲委派机制对于面试这块来说非常重要，在实际开发中也是经常遇见需要打破双亲委派的需求，今天我们一起来探索一下什么是双亲委派机制，在此之前我们先介绍一下类的加载器。目录编辑前言： 类加载器 1. …...

编程新知 2025/7/12 1:31:28