当前位置: 首页 > article >正文

LSTM实战:遗忘门、输入门与输出门解决长期依赖

LSTM实战遗忘门、输入门与输出门解决长期依赖本文是上篇《Word2Vec与CBOW算法实战》的续篇。上篇解决了如何用词向量表示词语的问题但还有一个关键问题没解决如何让模型理解前后词语之间的关联关系这就是 RNN 到 LSTM 要解决的问题。一、为什么RNN无法处理长期依赖1.1 RNN的基本结构RNN循环神经网络的核心思想是每个时间步的隐藏状态不仅取决于当前输入还取决于上一时间步的隐藏状态。x(t) ──→ [U] ──┐ ├──→ [激活] ──→ h(t) ──→ y(t) h(t-1) ─→ [W] ──┘RNN 的三个特点每个时间步使用的参数 U、W、b都是共享的这是 RNN 的重要特点引入隐状态 hhidden state来提取序列特征输入和输出序列必须等长1.2 RNN 的致命缺陷梯度消失问题来源“当出现’我的职业是程序员…我最擅长的是电脑’。需要预测最后的词’电脑’需要先前提到的’职业是程序员’的上下文。相关信息和当前预测位置之间的间隔相当大。”根本原因反向传播时梯度需要从时间步 t 传回到时间步 1。每经过一个时间步梯度就要乘以参数 W。当 W1 时梯度 W^n × 初始梯度 → 随着 n 增大趋近于 0这就是梯度消失Vanishing Gradient距离越远早期信息对当前预测的影响越弱最终完全消失。图解虚线箭头表示远处词语的信息传递随着距离增加梯度指数衰减导致 RNN 只能记住短期依赖无法捕捉长序列中的语义关联。二、LSTM登场选择性记忆的解决方案2.1 LSTM的核心思想LSTMLong Short-Term Memory Network长短时记忆网络由 Sepp Hochreiter 和 Jürgen Schmidhuber 于 1997 年提出专门解决 RNN 的长期依赖问题。生动比喻“当你想在网上购买生活用品时会查看用户评价。大脑下意识记住’好看’、‘真酷’等关键词而不关心’我’、‘也’、‘是’等字样。第二天你问评价说了什么你不可能会全部记住而是说出大脑里记得的主要观点比如’下次肯定还会来买’。”LSTM 的核心思想记忆能力有限记住重要的忘记无关紧要的。2.2 LSTM vs RNN 的根本区别区别RNNLSTM信息传递方式仅隐状态 h(t)隐状态 h(t) 细胞状态 C(t)门控机制无有3个门长期依赖❌ 无法处理✅ 通过门控选择性地传递梯度消失严重通过门控机制缓解三、LSTM核心三大门机制LSTM 引入了**门Gate**的概念每个门是一个神经网络层输出 0~1 之间的值控制信息流动的比例。3.1 遗忘门Forget Gate功能决定从上一个细胞状态中丢弃哪些信息。f σ(Wf · [h(t-1), x(t)] bf)将 h(t-1) 和 x(t) 同时传入 sigmoid 层输出 f ∈ [0, 1]0 表示完全丢弃1 表示完全保留例如当新输入是新的主语时遗忘门会降低旧主语相关信息的权重3.2 输入门Input Gate功能决定向细胞状态中添加哪些新信息。分为两步第一步候选值生成 C~ tanh(Wc · [h(t-1), x(t)] bc) 第二步决定更新哪些 i σ(Wi · [h(t-1), x(t)] bi)sigmoid 输出 i ∈ [0, 1]决定候选值中哪些值得保留tanh 输出 -1~1生成候选值向量两者的乘积才是真正添加到细胞状态的新信息3.3 细胞状态更新C(t) f * C(t-1) i * C~f * C(t-1)遗忘门控制丢弃旧信息i * C~输入门控制添加新候选信息这就是 LSTM 的核心公式选择性遗忘 选择性记忆3.4 输出门Output Gate功能决定当前隐藏状态 h(t) 中输出哪些信息。o σ(Wo · [h(t-1), x(t)] bo) h(t) o * tanh(C(t))tanh 将细胞状态压缩到 [-1, 1]突出重要信息o 控制输出比例生成最终的隐藏状态 h(t)h(t) 即为当前时间步的输出向量四、LSTM完整前向传播时序图LSTM 核心思想选择性遗忘 选择性记忆 长期依赖的精准控制五、RNN vs LSTM vs GRU 深度对比核心对比特性RNNLSTMGRU门控机制无3个门遗忘/输入/输出2个门更新/重置长期依赖❌ 梯度消失✅ 门控选择记忆✅ 门控处理细胞状态❌ 无✅ 专有细胞状态 C(t)❌ 无参数量最少最多W×4矩阵中等训练难度最难梯度消失较难门控计算开销大较易结构简单适用场景短序列、简单模式长序列、需长期记忆性能接近LSTM资源受限推理速度最快较慢3个门计算较快表达能力★☆☆☆☆★★★★★★★★★☆一句话选型短序列 → RNN长序列 → LSTM资源受限 → GRU综合最优 → LSTM。六、LSTM典型应用场景应用说明示例NLP 文本生成根据前文预测下一个词输入今→输出天→输出气…机器翻译编码器LSTM读取源语言解码器LSTM生成目标语言“I love China” → “我爱中国”情感分析捕捉评论中的情感倾向“太好吃了下次还来” → 正面(0.92)股票预测捕捉时序数据中的长期趋势[p(t-7)…p(t)] → p(t1)七、总结与扩展LSTM 的本质LSTM RNN 三大门 信息传递通道 × 三个信息过滤器 遗忘门选择性丢弃 输入门选择性添加 输出门选择性输出核心优势通过门控机制LSTM 解决了 RNN 的梯度消失问题能够选择性记忆长期信息同时自动遗忘无关信息。扩展方向方向说明GRULSTM 的简化版只有 2 个门参数量更少效果接近 LSTM双向LSTMBi-LSTM同时考虑前向和后向上下文效果更好多层LSTM堆叠多层 LSTM提取更高级的语义特征注意力机制Transformer 的核心让模型自动关注重要信息Seq2Seq编码器-解码器架构机器翻译、对话生成的基础

相关文章:

LSTM实战:遗忘门、输入门与输出门解决长期依赖

LSTM实战:遗忘门、输入门与输出门解决长期依赖 本文是上篇《Word2Vec与CBOW算法实战》的续篇。上篇解决了"如何用词向量表示词语"的问题,但还有一个关键问题没解决:如何让模型理解前后词语之间的关联关系? 这就是 RNN 到…...

4月18日腾讯云「龙虾公开课」落地合肥!免费线下AI实战课,还有限定周边等你拿

合肥线下:免费AI实战课的吸引力4月18日,腾讯云开发者社区「龙虾公开课」将在合肥高新区中安创谷科技园二期H1栋国际会客厅举办。此次活动提供免费的线下AI Agent实战课,即使是零基础的参与者也能参与。课程涵盖1对1装机指导、现场实操工坊&am…...

工业物联网设备接入终极方案:Apache PLC4X统一协议访问平台

工业物联网设备接入终极方案:Apache PLC4X统一协议访问平台 【免费下载链接】plc4x PLC4X The Industrial IoT adapter 项目地址: https://gitcode.com/gh_mirrors/pl/plc4x 在智能制造和工业4.0时代,工厂车间里往往混杂着西门子、施耐德、三菱、…...

PyQt5入门实战:安装、QtDesigner设计与PyUIC转换完整指南

PyQt5 入门实战:安装、QtDesigner 设计与 PyUIC 转换完整指南环境说明:Python 3.9 PyQt5 5.15.4 PyCharm(Community/Professional 均适用)一、什么是 PyQt5? PyQt5 是 Qt5 框架的 Python 绑定,由 Riverba…...

别只盯着内核!RT-Thread v5.2.2里这些开发工具和测试框架的更新,同样能提升你的效率

别只盯着内核!RT-Thread v5.2.2里这些开发工具和测试框架的更新,同样能提升你的效率 当大多数开发者都在关注RT-Thread v5.2.2的内核优化和驱动升级时,那些隐藏在更新日志后半部分的工具链改进,正在悄然重塑嵌入式开发的效率边界。…...

Python数据科学实战:list、numpy与torch.tensor高效互转指南

1. 为什么需要掌握数据结构互转技巧 在数据科学和机器学习项目中,数据格式的混乱往往是bug的主要来源之一。我遇到过太多这样的情况:模型训练时突然报错,排查半天发现是输入数据的格式不对;或者在不同库之间传递数据时&#xff0c…...

生成式AI时代的产品创新:以AI Agent为核心功能的下一代APP设计

生成式AI时代的产品创新:以AI Agent为核心功能的下一代APP设计 1. 引入与连接 1.1 一个引人入胜的未来场景 想象一下,2025年的一个普通早晨: 你的手机闹钟响起,但这不是预设好的固定时间,而是你的"私人生活助理"AI Agent根据你的睡眠质量、当天日程和天气情…...

别再到处找下载链接了!Linux系统压力测试工具stress和stress-ng最新稳定版安装包获取指南

Linux系统压力测试工具stress与stress-ng权威获取指南 在Linux系统运维和性能调优领域,压力测试是不可或缺的环节。作为最常用的两款开源压测工具,stress和stress-ng能够模拟CPU、内存、IO等多种资源的高负载场景,帮助开发者验证系统稳定性。…...

5分钟搞定!Android Studio中文界面完整汉化终极指南

5分钟搞定!Android Studio中文界面完整汉化终极指南 【免费下载链接】AndroidStudioChineseLanguagePack AndroidStudio中文插件(官方修改版本) 项目地址: https://gitcode.com/gh_mirrors/an/AndroidStudioChineseLanguagePack 还在为Android St…...

如何在3分钟内免费获得Apex Legends终极压枪助手

如何在3分钟内免费获得Apex Legends终极压枪助手 【免费下载链接】Apex-NoRecoil-2021 Scripts to reduce recoil for Apex Legends. (auto weapon detection, support multiple resolutions) 项目地址: https://gitcode.com/gh_mirrors/ap/Apex-NoRecoil-2021 还在为Ap…...

从I2C波形到数据校验:用逻辑分析仪深度调试STM32驱动SHT30的全过程

从I2C波形到数据校验:用逻辑分析仪深度调试STM32驱动SHT30的全过程 当你的STM32代码无法正确读取SHT30温湿度数据时,示波器或逻辑分析仪捕获的I2C波形往往比串口打印的调试信息更有说服力。本文将带你走进硬件调试的真实战场,通过分析四种典型…...

从代码审计到漏洞挖掘:深度解析Gerapy项目管理模块的RCE漏洞(CVE-2021-32849)

从代码审计到漏洞挖掘:深度解析Gerapy项目管理模块的RCE漏洞(CVE-2021-32849) 在分布式爬虫管理领域,Gerapy作为整合Scrapy、Django等技术栈的解决方案,其安全性直接影响企业数据采集业务的稳定性。2021年曝光的CVE-20…...

ST MCSDK V6.2.0实战:手把手教你配置HSO-ST观测器,体验无感电机控制的‘快准稳’

ST MCSDK V6.2.0深度实战:HSO-ST观测器配置与无感控制优化指南 在电机控制领域,实现高精度、快速响应的无感控制一直是工程师们追求的目标。ST最新发布的MCSDK V6.2.0软件包中引入的HSO-ST(High Sensitivity Observer)观测器技术,为这一目标提…...

Multisim14仿真进阶:单管共射放大电路参数扫描与性能优化实战

1. 单管共射放大电路基础与Multisim14环境搭建 单管共射放大电路是模拟电路学习的经典案例,它就像电子世界的"扩音器",能把微弱的电信号放大到我们需要的强度。在Multisim14这个电子工程师的"虚拟实验室"里,我们可以安全…...

深入Linux内核:cgroup v2如何用单一层级解决容器资源管理的世纪难题?

Linux内核革命:cgroup v2如何用单一层级重塑容器资源管理 1. 从混乱到秩序:cgroup的演进之路 在云计算和容器化技术蓬勃发展的今天,Linux内核中的控制组(cgroup)技术已成为资源隔离和管理的基石。然而,cgro…...

052篇:NLP文本分类:判断邮件是投诉还是咨询

1. 前言 在RPA自动化中,经常会遇到需要理解文本内容的场景: 客户发来的邮件是投诉还是咨询? 工单描述属于哪个部门处理? 用户评价是正面还是负面? NLP(自然语言处理)可以自动分析文本,判断类别和情感。本文以百度NLP为例,讲解如何调用情感分析和自定义分类接口,并将…...

三步解除极域电子教室控制:JiYuTrainer让你重获电脑操作自由

三步解除极域电子教室控制:JiYuTrainer让你重获电脑操作自由 【免费下载链接】JiYuTrainer 极域电子教室防控制软件, StudenMain.exe 破解 项目地址: https://gitcode.com/gh_mirrors/ji/JiYuTrainer 还在为课堂上被老师全屏控制电脑而束手无策吗&#xff1f…...

终极跨平台漫画阅读器:nhentai-cross完全指南,5分钟解锁全设备同步阅读体验

终极跨平台漫画阅读器:nhentai-cross完全指南,5分钟解锁全设备同步阅读体验 【免费下载链接】nhentai-cross A nhentai client 项目地址: https://gitcode.com/gh_mirrors/nh/nhentai-cross 还在为在不同设备间切换阅读漫画而烦恼吗?…...

保姆级教程:在YOLOv8中手把手集成SCAM注意力模块(附完整代码与配置文件)

零基础实战:YOLOv8集成SCAM注意力模块全流程解析 1. 环境准备与模块理解 在开始集成SCAM注意力模块之前,我们需要先搭建好开发环境并理解SCAM的工作原理。SCAM(Spatial Contextual Attention Module)是一种能够捕捉空间上下文信息…...

大理石平台的精度维护:日常保养与误差校正方法

好的,我们来详细说明大理石平台的精度维护方法,包括日常保养与误差校正两部分。大理石平台(或称花岗石平台)因其稳定性好、精度高,常作为精密测量和加工的基准平面。要维持其精度,需做好日常保养并掌握误差…...

嵌入式Linux驱动新选择:基于TinyDRM为ST7789V TFT屏幕编写现代化显示驱动

1. 为什么选择TinyDRM替代传统fbtft驱动 第一次接触ST7789V这类SPI接口的TFT屏幕时,大多数开发者都会选择fbtft驱动方案。我也不例外,当时在树莓派上折腾了好几天终于让屏幕亮起来。但随着项目深入,逐渐发现fbtft在嵌入式Linux上的局限性——…...

OFDM同步入门避坑指南:从‘符号对不上’到看懂STO估计曲线图

OFDM同步技术实战解析:从STO曲线图到MATLAB仿真避坑指南 刚接触OFDM同步的同学,一定对"符号定时偏差(STO)"这个术语感到既熟悉又陌生。教科书上定义清晰,但一到实际仿真就会遇到各种困惑:为什么F…...

剖析Powershell挖矿病毒:从WMI驻留到永恒之蓝横向移动的攻防实战

1. 初识Powershell挖矿病毒:当服务器CPU突然飙高时 那天早上刚到公司,运维同事小李就急匆匆跑过来:"张哥,咱们三台Web服务器CPU直接冲到100%了,用户投诉页面卡成PPT!"我连咖啡都没来得及喝就冲进…...

ELK Stack实战:构建高效企业日志分析平台

1. ELK Stack:企业日志管理的瑞士军刀 想象一下你管理着几十台服务器,每天产生的日志文件像雪片一样飞来。当系统出现故障时,你需要在海量日志中寻找那个关键的报错信息——这就像在干草堆里找一根针。这就是为什么越来越多的企业选择ELK St…...

深入解析ToTensor():从PIL到OpenCV的图像预处理最佳实践

1. ToTensor()的隐藏技能:不只是格式转换 很多人第一次看到ToTensor()这个函数名时,都会以为它只是简单地把图像数据转换成PyTorch的Tensor格式。但当我深入研究源码后才发现,这个函数背后藏着不少容易被忽略的重要细节。让我用一个实际项目中…...

扩散模型 vs GAN:哪个更适合你的图像生成任务?(含对比实验)

扩散模型与GAN的深度对比:如何选择适合你的图像生成方案 在计算机视觉领域,图像生成技术正经历着前所未有的变革。从早期的变分自编码器(VAE)到生成对抗网络(GAN),再到如今备受瞩目的扩散模型(Diffusion Model),每种技术都带来了独…...

关于缩微组别疯狂电路赛题T2计分规则的建议

简 介: 本文针对缩微组别疯狂电路赛题的计分规则提出了改进建议。作者分析当前存在四类争议观点,指出限制成品车模和放宽100g门槛都不可行。通过数据对比发现,由于T2三次累加计算,重量差距被过度放大(如120g车模与100g…...

SpringBoot集成PowerJob实战:从零构建高可靠分布式任务调度平台

1. 为什么选择PowerJob构建分布式任务调度平台 第一次接触分布式任务调度是在三年前的一个电商项目中,当时系统每天需要处理上百万订单的状态同步,用单机版的Spring定时任务经常出现执行超时甚至服务崩溃的情况。那时候尝试过XXL-JOB,直到后来…...

从CAN到CANFD:一文搞懂协议差异、电平实测与车载网络升级实战

从CAN到CANFD:车载通信协议的深度解析与实战升级指南 引言 在智能汽车快速发展的今天,车载电子控制单元(ECU)数量呈指数级增长,传统的CAN总线技术已逐渐显露出带宽瓶颈。我曾参与过多个车载网络升级项目,亲…...

Dematel法实战:从关系矩阵到要素权重的系统影响力解码

1. Dematel法:系统要素影响力的解码器 第一次接触Dematel法是在分析一个智能家居系统的功能模块时。当时产品经理抛出一个难题:十几个功能模块相互影响,到底哪个才是撬动用户体验的关键支点?传统的主观打分法总是引发团队争论&…...