当前位置: 首页 > news >正文

LSTM——长短期记忆神经网络

目录

1.LSTM 工作原理

2.LSTM的代码实现

3.代码详解


        LSTM(Long Short-Term Memory)是一种特殊的循环神经网络(RNN),用于解决长序列中的长期依赖问题。它通过引入门机制,控制信息的流入、保留和输出,从而在避免梯度消失或爆炸的情况下捕获较长序列的依赖关系。以下是LSTM的工作原理和代码实现


1.LSTM 工作原理

        LSTM 通过引入 细胞状态(Cell State)门控单元(Gates) 来控制信息流动,具体包含以下几个部分:

  1. 遗忘门(Forget Gate)
    遗忘门决定了上一个时间步的细胞状态是否需要保留或遗忘。遗忘门通过一个 sigmoid 激活函数(输出在 0 和 1 之间)来控制。输入为当前输入 x_t 和上一个隐藏状态 h_{t-1}​:

    f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)
  2. 输入门(Input Gate)
    输入门决定当前时间步的新信息是否要更新到细胞状态中。它包含两个部分:

    • i_t:用于选择要添加的新信息。
    • \tilde{C}_t:候选细胞状态,通过 tanh 函数生成可能的新状态信息。
    i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)                          \tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C)
  3. 细胞状态更新
    细胞状态结合了遗忘门和输入门的输出来更新:

    C_t = f_t \ast C_{t-1} + i_t \ast \tilde{C}_t
  4. 输出门(Output Gate)
    输出门控制 LSTM 的最终输出,即新的隐藏状态 h_t。它将新的细胞状态 C_t​ 调整后输出:

    o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)                                      h_t = o_t \ast \tanh(C_t)

2.LSTM的代码实现

        以下是使用 PyTorch 实现 LSTM 的代码示例:

import torch
import torch.nn as nn
import torch.optim as optim# 定义 LSTM 模型
class LSTMModel(nn.Module):def __init__(self, input_size, hidden_size, output_size, num_layers=1):super(LSTMModel, self).__init__()self.hidden_size = hidden_sizeself.num_layers = num_layersself.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True)self.fc = nn.Linear(hidden_size, output_size)def forward(self, x):# 初始化隐藏状态和细胞状态h0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device)c0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device)# 通过 LSTM 层out, _ = self.lstm(x, (h0, c0))# 获取最后一个时间步的输出out = self.fc(out[:, -1, :])return out# 定义模型参数
input_size = 10    # 输入维度
hidden_size = 20   # 隐藏层维度
output_size = 1    # 输出维度
num_layers = 2     # LSTM 层数# 初始化模型
model = LSTMModel(input_size, hidden_size, output_size, num_layers)# 定义损失函数和优化器
criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)# 训练模型
num_epochs = 100
for epoch in range(num_epochs):# 假设输入数据 x 和标签 yx = torch.randn(32, 5, input_size)  # (batch_size, sequence_length, input_size)y = torch.randn(32, output_size)# 前向传播outputs = model(x)loss = criterion(outputs, y)# 反向传播和优化optimizer.zero_grad()loss.backward()optimizer.step()if (epoch+1) % 10 == 0:print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}')

3.代码详解

  • 输入数据:这里的 x 是一个三维张量,形状为 (批次大小, 序列长度, 输入维度),其中 序列长度 是 LSTM 模型需要捕获依赖的时间步。
  • 隐藏层和输出层:LSTM 输出的最后一个时间步的隐藏状态传递给全连接层 fc,用于输出预测结果。
  • 初始化状态:LSTM 层需要初始化隐藏状态 h0 和细胞状态 c0,这通常在每个新序列的起点进行。
  • 损失函数和优化器:使用均方误差损失函数(MSELoss)和 Adam 优化器来优化模型。

        通过调整输入、隐藏和输出维度,这种结构可以适用于各种时间序列预测、自然语言处理等任务。

相关文章:

LSTM——长短期记忆神经网络

目录 1.LSTM 工作原理 2.LSTM的代码实现 3.代码详解 LSTM(Long Short-Term Memory)是一种特殊的循环神经网络(RNN),用于解决长序列中的长期依赖问题。它通过引入门机制,控制信息的流入、保留和输出&…...

10进阶篇:运用第一性原理解答“是什么”类型题目

在667分析题题型中,关于“如何做”和“好处是什么”的题目,许多同学都能较好地运用前述的667作答地图开展答题,但是唯独在“是什么”类型题目(也可以叫做认识型题目),不知从何下手。这种题目通常要求我们理解、分析,并展望未来的发展方向,而结构化、逻辑清晰的答案往往…...

【elkb】索引生命周期管理

索引生命周期管理 Index lifecycle management(索引生命周期管理)是elasticsearch提供的一种用于自动管理索引的生命周期的功能。允许使用者定义索引的各个阶段,从创建至删除。并允许使用者在每个阶段定义索引需要执行的特定动作。这些动作包含索引创建&#xff0c…...

江协科技STM32学习- P25 UART串口协议

🚀write in front🚀 🔎大家好,我是黄桃罐头,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流 🎁欢迎各位→点赞👍 收藏⭐️ 留言📝​…...

15分钟学 Go 第 22 天:包的使用

第22天:包的使用 欢迎来到Go语言的第22天!今天,我们将深入探讨如何创建和使用包。通过学习包的使用,你将能够更好组织你的代码,提高复用性和可维护性。 1. 包的概念 在Go语言中,包是代码的基本组织单位。…...

【Leecode】Leecode刷题之路第35天之搜索插入位置

题目出处 35-搜索插入位置-题目出处 题目描述 个人解法 思路: 1.依次遍历数组,看目标值是否在数组中 2.如果不在,将目标值插入数组(涉及到数组移动、扩容),返回下标代码示例:(Java…...

速盾:海外cdn高防

随着互联网的快速发展,网站的安全性和稳定性变得越来越重要。尤其是对于大型企业和电商平台来说,保护用户数据和维护网站稳定运行是至关重要的。为了应对日益增长的网络攻击和恶意访问,海外CDN高防服务成为了一种非常受欢迎的解决方案。 首先…...

图书管理系统(JDBC)

AdminUser是管理员类 NormalUser是用户类 AddOperation是增加图书类 BorrowOperation是借书类 DelOperation是删除图书类 ExitOperation是退出类 FindOperation是查找图书类 IOPeration是接口 ReturnOperation是还书类 ShowOperation是显示所有图书类 注意&#xff1a…...

模板初阶及STL简介

目录 一.模板初阶 1.泛型函数 2.函数模板 1.函数模板概念 2.函数模板使用格式 3.函数模板的原理 4.函数模板的实例化 5.模板参数的匹配原则 3.类模板 1.类模板的定义格式 2.类模板的实例化 二.STL简介 1.什么是STL 2.STL的版本 3.STL的六大组件 4.如何学习STL …...

UE5 不同的编译模式下,module的组织形式

由于最近在琢磨UE5.4这个引擎,在学习过程中,碰到了一些非常有意思的事情,我在尝试把之前写的一些底层库搬到UE里面,比如底层库,网络库等等,我通过建立module,将这些库用源代码的方式整合进了UE5…...

【ms-swift 大模型微调实战】

安装环境 pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simplepip install modelscope vllm ‘ms-swift[llm]’ -U 下载模型 modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-Instruct 微调 实验环境:…...

Linux:网络基础

计算机是人的工具,人需要协作,于是有了网络 专用服务器->专用计算机 局域网:随着计算机的数量增加,通过交换机和路由器连接计算机 广域网:将远隔千里的计算机都连在一起 协议 协议就是约定俗成 计算机之间用光信号…...

mysql 的内连接、左连接、右连接有什么区别?

在MySQL中,内连接、左连接和右连接是三种常见的连接类型,它们用于通过共享一个或多个字段的值,将两个或多个表组合在一起进行查询。以下是这三种连接类型的详细区别: 一、内连接(INNER JOIN) 定义&#x…...

update-alternatives(选择工具)

0 Preface/foreword 1 update-alternatives介绍 1.1 选项和用法 1.2 install用法 update-alternatives --install <link> <name> <path> <priority> [--slave <link> <name> <path>] link&#xff1a;符号链接&#xff08;软链…...

php解密,sg11解密-sg15解密 如何由sourceGuardian11-sourceGuardian15加密(sg11加密~sg15加密)的源码

sg11加密~sg11加密的PHP文件运行需安装SG11加密-SG15加密组件使用、支持WINDOW及LINUX各版本 sg11解密(SourceGuardian)-sg15解密(SourceGuardian)&#xff0c;号称目前最安全的组件加密已可以解密&#xff0c;解密率99.9%&#xff0c;基本可以直接使用&#xff0c;代码特征是…...

b站小土堆PyTorch视频学习笔记(二)

Dataloader:提供不同类型的数据集&#xff1b;为后面的网络提供不同的数据形式 Dataset&#xff1a;提供一种方式去获取数据及其label&#xff08;标签&#xff09; 主要实现以下两个功能&#xff1a; {如何获取每一个数据及其lable&#xff1b;告诉我们总共有多少数据} fr…...

Linux的压缩及其解压命令

1、zip文件 压缩 zip linux.zip linux 解压 unzip linux.zip 2、gz文件 压缩 gzip 1.tar 解压 gzip -d 1.tar.gz 3、tar文件(tar可打/解包&#xff0c;压缩/解压文件) 打包 tar -cf 1.rar test 解包 tar -xf 1.tar 解压gz并解包 tar -xjvf archive_name.tar.bz2&#…...

GXYCTF2019:gakki

把题目给的附件解压后给了张图片&#xff0c;顺带着瞟一眼属性&#xff0c;没有值得注意的 binwalk检测一手&#xff0c;看见有个rar压缩包 提取出来的压缩包是有密码的&#xff0c;但是题目并没有给出获取密码的途径&#xff0c;所以先爆破试试&#xff0c;用最常用的四位数爆…...

顺序表(C 语言)

目录 一、线性表二、顺序表1. 静态顺序表2. 动态顺序表2.1 动态顺序表的实现分析2.2 动态顺序表的实现2.3 动态顺序表存在的问题 三、与数组有关的面试题1. 移除元素2. 删除有序数组中的重复项 一、线性表 线性表&#xff08;linear list&#xff09;是n个具有相同特性的数据元…...

一:时序数据库-Influx应用

目录 0、版本号 1、登录页面 2、账号基本信息 3、数据库案例 4、可视化 5、java案例 0、版本号 InfluxDB v2.4.0 1、登录页面 http://127.0.0.1:8086/signin 账号&#xff1a;自己账号 密码&#xff1a;自己密码 2、账号基本信息 查看用户id和组织id&#xff01;&…...

2026年第二次答辩前论文降AI攻略:二次答辩AIGC超标4.8元彻底解决完整处理方案

2026年第二次答辩前论文降AI攻略&#xff1a;二次答辩AIGC超标4.8元彻底解决完整处理方案 关于第二次答辩论文降AI&#xff0c;我总结了一个最重要的教训&#xff1a;别只降标红段落&#xff0c;要全文处理。 之前逐段降&#xff0c;整体检测还是超标。换成全文上传&#xff…...

三分钟完成Taotoken的API Key配置与curl调用测试

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 三分钟完成Taotoken的API Key配置与curl调用测试 基础教程类&#xff0c;面向刚注册Taotoken并获取了API Key的开发者&#xff0c;…...

2026年盘点最好的5款许可优化工具

你有没有遇到过这种情况&#xff1a;研发部门天天喊许可证不够用&#xff0c;采购那边一年几百万的软件授权费还在往上涨&#xff0c;结果你一查&#xff0c;发现有人开着一个几万块的CAD软件&#xff0c;人已经去开了一个小时的会。钱就这么白白烧掉了。我今年专门把这行摸了一…...

百考通AI:答辩PPT智能生成,覆盖从开题到终答的全流程,让毕业答辩更从容

毕业答辩是学术生涯的关键一战&#xff0c;一份逻辑清晰、专业美观的PPT是顺利通关的核心保障&#xff0c;却也让无数毕业生熬夜奋战&#xff1a;从提炼研究核心到规划答辩流程&#xff0c;从设计页面排版到打磨讲稿&#xff0c;繁琐的准备工作常常让人焦头烂额。百考通AI&…...

从B站视频到高品质音频:BilibiliDown音频提取全攻略

从B站视频到高品质音频&#xff1a;BilibiliDown音频提取全攻略 【免费下载链接】BilibiliDown (GUI-多平台支持) B站 哔哩哔哩 视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader &#x1f633; 项目地址: https://gitcode.com/gh_mirrors/bi/…...

获 800 万美元融资,MAU 超 40 万!「shapes」AI 社交能否成下一代聊天应用?

《「shapes」获 800 万美元种子轮融资&#xff0c;AI 助力社交“入场”&#xff0c;能否成下一代聊天应用&#xff1f;》这几天&#xff0c;我在「shapes」随机进了个陌生群聊&#xff0c;发了句 "hello"&#xff0c;三秒内就有 AI 角色接上&#xff0c;回了串热情有…...

3分钟终极指南:用trackerslist让你的BT下载速度提升5倍

3分钟终极指南&#xff1a;用trackerslist让你的BT下载速度提升5倍 【免费下载链接】trackerslist Updated list of public BitTorrent trackers 项目地址: https://gitcode.com/GitHub_Trending/tr/trackerslist 还在为BT下载速度慢而烦恼吗&#xff1f;trackerslist项…...

Win11Debloat:Windows 11系统优化终极指南,免费提升电脑性能50%

Win11Debloat&#xff1a;Windows 11系统优化终极指南&#xff0c;免费提升电脑性能50% 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes…...

海外渠道通知短信接口

在跨境业务体系中&#xff0c;企业常面临区域代理商分散、信息同步滞后、补货提醒不及时的问题&#xff0c;传统邮件、即时通讯易出现漏读、延迟&#xff0c;而国际渠道通知短信接口凭借触达稳定、实时性强的优势&#xff0c;成为跨境企业对接代理商的高效通信方案。本文从接口…...

ARMv8内存访问指令STLUR与STLXP详解

1. ARMv8内存访问指令概述 在ARMv8架构中&#xff0c;内存访问指令构成了处理器与内存系统交互的基础设施。作为RISC架构的典型代表&#xff0c;ARMv8通过精简但功能明确的指令集实现了高效的内存操作。其中存储(Store)类指令负责将寄存器数据写入内存&#xff0c;而根据不同的…...