当前位置: 首页 > article >正文

一篇吃透RNN(循环神经网络),LSTM(长短期记忆网络),BiLSTM(双向长短期记忆网络)算法,计算机小白也能轻松看懂

NLP-AHU-125神秘暗号哈喽各位CSDN的小伙伴们我是一名专注AI入门干货的大学生博主 相信刚接触深度学习序列模型的同学都被RNN、LSTM、BiLSTM这三个“孪生兄弟”绕晕过明明都是处理序列数据为啥RNN频频拉胯LSTM成了香饽饽BiLSTM又凭啥在NLP里封神今天我将从设计灵感、核心结构和数学表达三个方面讲解一下这三个模型话不多说直接开始。一、先搞懂为啥要发明RNN灵感藏在人类记忆里在RNN出现之前传统神经网络比如CNN、全连接网络就是个“没记性”的呆子处理图片、独立数据时很拿手可碰到序列数据文本、语音、时间序列、股票数据直接傻眼——完全记不住前面的信息根本没法理解上下文关联。这时候研究者就琢磨人类处理序列信息靠的是记忆啊 比如我们读一句话看到后半句时脑子里还记着前半句的内容才能读懂整句话的意思听一首歌后面的旋律要结合前面的节奏才好听。RNN设计灵感RNNRecurrent Neural Network循环神经网络的设计灵感正是模仿人类的短时记忆机制让神经网络拥有“记忆功能”处理当前输入时能把之前的信息存起来和当前信息结合一起输出结果。简单说RNN的核心就是“循环复用隐藏状态”同一个网络结构在序列的每个时间步重复使用把上一时刻的记忆传递到当前时刻完美适配序列数据的时序依赖特性。RNN核心结构RNN的结构十分简单就像一条单向链条包含三个核心部分1. 输入层每个时间步t的输入比如一句话里第t个词的词向量2. 隐藏层存储记忆的核心表示t时刻的隐藏状态既接收当前输入也接收上一时刻的隐藏状态3. 输出层根据当前隐藏状态生成输出比如文本分类、词性标注结果。这里要吐槽一句RNN虽然想法很美好但它是个“金鱼脑子”记忆只有7秒。处理短序列还行一旦序列变长比如长文本、长时间序列前面的信息就会彻底丢失还会出现梯度消失/梯度爆炸问题根本学不到长距离的依赖关系这也是后来LSTM诞生的原因。RNN数学表达1. 隐藏状态更新公式核心•输入层到隐藏层的权重矩阵•隐藏层自循环的权重矩阵•隐藏层偏置项•双曲正切激活函数把隐藏状态值压缩到[-1,1]之间保证数值稳定。2. 输出层公式•隐藏层到输出层的权重矩阵•输出层偏置项• 要是做分类任务后面再加个softmax函数转概率就行。二、LSTMRNN的“升级版学霸”专治长序列健忘症眼看着RNN在长序列面前频频翻车研究者们坐不住了既然是记性差那就给它装个“可控记忆仓库”于是LSTMLong Short-Term Memory长短期记忆网络横空出世完美解决了RNN的梯度消失问题成了序列建模的顶流。LSTM设计灵感LSTM的灵感很直接人类不会记住所有信息而是选择性记忆、遗忘比如我们看完一篇长文会记住核心观点忘掉无关紧要的细节早上出门会记住带钥匙忘掉昨晚无关紧要的小事。基于这个思路LSTM在RNN的基础上新增了细胞状态Cell State 这个“长期记忆传送带”再搭配三个门控单元像三个小管家一样精准控制哪些信息该忘、哪些该记、哪些该输出彻底告别“金鱼记忆”。LSTM核心结构LSTM的结构比RNN复杂一丢丢但每个部分都有明确作用。1. 细胞状态长期记忆仓库像一条贯穿整个序列的传送带只做少量线性操作信息能轻松流过负责存储长期重要信息不容易丢失2. 遗忘门“忘事小管家”决定把细胞状态里哪些旧信息丢掉比如长文中的冗余词汇、无关数据3. 输入门“记事小管家”决定把当前输入的哪些新信息存进细胞状态比如长文的核心论点、关键数据4. 候选细胞状态待存入的新信息相当于要记的新内容5. 输出门“输出小管家”决定从细胞状态里提取哪些信息作为当前隐藏状态输出。LSTM数学表达每个门控都用sigmoid激活函数输出[0,1]之间的值0代表完全丢弃1代表完全保留公式安排1. 遗忘门2. 输入门3. 细胞状态更新旧记忆新信息融合出当前长期记忆4. 输出门5. 隐藏状态输出从长期记忆里提取当前输出简单总结LSTM通过门控实现了长期记忆的可控读写长序列文本、语音、时间序列随便拿捏比RNN的性能强了不止一个档次。三、BiLSTM双向拿捏上下文NLP场景的神LSTM已经很厉害了但它还有个小短板只能单向处理序列从前往后记信息没法看到后面的内容反过来理解前面的。可在NLP里上下文是双向的。比如一句话“我今天去____买了一杯奶茶”光看前面不知道填啥看后面“买奶茶”就知道是奶茶店。这种需要结合前后文理解的场景LSTM就力不从心了于是BiLSTMBidirectional LSTM双向长短期记忆网络应运而生。BiLSTM的设计灵感人类理解语言会兼顾前文和后文不是只顺着读倒着看也能辅助理解。比如做词性标注、命名实体识别只有结合上下文才能准确判断词义。BiLSTM它没有改动LSTM的内部结构而是把两个LSTM拼在一起一个正向LSTM从左到右处理序列一个反向LSTM从右到左处理序列最后把两个方向的隐藏状态拼接起来同时捕捉过去和未来的信息。BiLSTM核心结构BiLSTM的结构就是“正向LSTM反向LSTM”1. 对同一个输入序列x_1,x_2,...,x_t正向LSTM计算出正向隐藏状态记录从开头到当前时刻的信息2. 反向LSTM从序列末尾开始处理计算出反向隐藏状态记录从当前时刻到结尾的信息3. 把正向和反向隐藏状态拼接得到最终的隐藏状态再输入输出层得到结果。这种双向结构让模型能完整捕捉上下文信息在文本分类、情感分析、命名实体识别、机器翻译等NLP任务中效果远超单向LSTM。BiLSTM数学表达BiLSTM的公式就是正向和反向LSTM的结合核心是隐藏状态拼接1. 正向LSTM隐藏状态2. 反向LSTM隐藏状态3. 最终隐藏状态代表向量拼接4. 输出层四、总结RNN、LSTM、BiLSTM到底有什么区别模型核心特点优点缺点使用场景RNN单向循环短时记忆结构简单计算快记性差长序列梯度消失短序列任务LSTM门控细胞状态长时记忆解决梯度消失长序列友好结构复杂计算量稍大长序列、时序依赖强的任务BiLSTM双向LSTM兼顾上下文整捕捉上下文NLP效果好计算量翻倍参数更多NLP核心任务文本标注、翻译、分类

相关文章:

一篇吃透RNN(循环神经网络),LSTM(长短期记忆网络),BiLSTM(双向长短期记忆网络)算法,计算机小白也能轻松看懂

NLP-AHU-125(神秘暗号)哈喽各位CSDN的小伙伴们,我是一名专注AI入门干货的大学生博主~ 相信刚接触深度学习序列模型的同学,都被RNN、LSTM、BiLSTM这三个“孪生兄弟”绕晕过:明明都是处理序列数据&#xff0c…...

Golutra:超越 IDE , 一个人,一个 AI 军团!使用赛博监工系统,指挥你的 AI 牛马

⚡ 你有没有想过,如何能像管理微信群一样管理你的 AI 团队,让多 Agent 协同工作不再是幻想! | 以下观点都是个人使用,以及测评观点。 AI 工具革命的下一个阶段 如何能通过多路协同的方式调用不同的 AI 工具,然后又让…...

全域数学理论宇宙本源正式宣言(乖乖数学)

全域数学理论宇宙本源正式宣言 宣告日期:公元二〇二六年四月二日 宣告事由:庄严确立全域数学理论之宇宙本源核心定论,昭示宇宙根本运行法则,正式向世间宣告本理论之终极核心要义 序言 宇宙之本体、时空之本质、物质之根源&#xf…...

WarcraftHelper:魔兽争霸III终极优化指南 - 解决宽屏、帧率、地图限制三大痛点

WarcraftHelper:魔兽争霸III终极优化指南 - 解决宽屏、帧率、地图限制三大痛点 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 你是否还在…...

【教程4>第12章>第8节】基于FPGA的图像缩放实现——图像横向压缩仿真测试以及MATLAB辅助验证

本课程学习成果预览 目录 1.软件版本 2.图像横向压缩testbench编写 3.仿真测试 4.程序操作视频 欢迎订阅FPGA/MATLAB/Simulink系列教程 《★教程1:matlab入门100例》 《★教程2:fpga入门100例》 《★教程3:simulink入门60例》 《★教程4:FPGA/MATLAB/Simulink联合开发入门与…...

遗传算法VRP问题:VRP,多车容量约束 针对物流问题,根据实际情况,设置多车多容量,采用遗传...

遗传算法VRP问题:VRP,多车容量约束 针对物流问题,根据实际情况,设置多车多容量,采用遗传算法分析求解,在matlab实现并画图,展示求解结果前阵子帮做物流的表哥捋了捋他们的配送问题,本…...

根据所给文字范围,为您提供的总结标题为:“使用栅格法结合蚁群算法规划机器人全局路径

使用栅格法通过蚁群算法规划机器人全局路径上周帮实验室的学弟调他的机器人路径规划代码,他对着满屏的栅格地图挠头:明明地图里堵了个外卖柜,为啥机器人非要往那撞?后来聊到用蚁群算法做全局规划,才发现不少人把栅格法…...

Claude Code 之父:AI 的改变不止于代码,程序员需要改变整个工作流

高水平工程劳动,正在离开手写代码。编译 | 王启隆出品丨AI 科技大本营(ID:rgznai100)这两天,Claude Code 以一种多少有点尴尬的方式被更多人看见了。不是因为新模型发布,也不是因为哪场演示太惊艳&#xff…...

基于单片机的井盖监测系统

摘 要 当前我国设计的井盖监测主要通过在井盖上放置标识等放置被盗,然后监测到被盗后,通过摄像头对其进行跟踪,导致当前还是存在很多井盖被盗,因此此次设计一款主要针对井盖防盗系统,监测到井盖移动时发送信息到管理人…...

Java协议解析慢得离谱?5个被90%团队忽略的字节级优化陷阱,今天必须修复!

第一章:Java协议解析慢得离谱?5个被90%团队忽略的字节级优化陷阱,今天必须修复!Java应用在高频网络通信场景(如金融行情推送、IoT设备接入)中,常因协议解析层性能瓶颈导致端到端延迟飙升——问题…...

【预测模型】基于VMD-SE-GRU+Transformer多变量时序预测 Matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。👇 关注我领取海量matlab电子书和数学建模资料🍊个人信条:格物致知,完整Matl…...

Android compose 可见性动画未执行问题修复

接着修改待办事项demo, 动画有问题, 导致初始不显示数据,其实数据库是有数据的。原代码如下:package com.example.testcompose1import androidx.compose.animation.AnimatedVisibility import androidx.compose.animation.core.Fa…...

3步高效获取电子课本:tchMaterial-parser让国家中小学智慧教育平台资源轻松到手

3步高效获取电子课本:tchMaterial-parser让国家中小学智慧教育平台资源轻松到手 【免费下载链接】tchMaterial-parser 国家中小学智慧教育平台 电子课本下载工具,帮助您从智慧教育平台中获取电子课本的 PDF 文件网址并进行下载,让您更方便地获…...

2026 AI简历工具排行榜:写出专业简历,助你直通面试

求职市场对人才的要求日益精细化,一份高质量的简历已成为开启职业大门的“敲门砖”。然而,对于许多求职者而言,“不会排版”、“不擅措辞”依然是制作简历时面临的两大难题。幸运的是,AI技术的飞速发展为我们带来了福音——AI简历…...

AI算力芯片黑马!“图灵进化”完成新一轮数千万级别融资

AI算力芯片赛道再添重磅玩家!近日,AI算力芯片创新企业图灵进化(TuringEvo)宣布完成新一轮数千万级别融资 ,本轮融资资金将主要用于核心产品量产、研发团队扩充及全球市场拓展。图灵进化定位于“覆盖云边端全场景AI算力…...

【Ease UI】2026-04-03组件更新:新增组件xly-china-map中国地图组件

🚀 即插即用的 Vue 3 业务组件库,让中后台开发回归简单Ease UI 是一套为「快速复制」而生的 Vue 3 业务组件库。每个组件都是独立的 .vue 单文件,不依赖任何外部样式或工具函数,直接复制到你的项目即可使用。它仅依赖 Element Plu…...

蓝桥杯备赛:Day3-P1102 A-B 数对

📚 算法笔记:P1102 A-B 数对 (枚举与哈希查找) 1. 题目简述 P1102 A-B 数对 - 洛谷 给出一个长度为 NNN 的正整数数列和一个整数 CCC,求有多少个不同的数对 (A,B)(A, B)(A,B) 满足 A−BCA - B CA−BC。 数据范围:N≤2105N \l…...

AI未来五年发展路径

AI的发展路径:生成能力-推理能力-Agent能力-数字虚拟人-具身机器人-脑机接口。(1)生成现在生成都已经渐入佳境:文本:文本报告生成、代码生成,如Claude Code语音:语音生成图片:图片生…...

【大模型智能体】【Harness Engineering】Natural-Language Agent Harnesses

摘要 智能体性能日益依赖于约束工程,然而约束设计通常深嵌于控制器代码与运行时特定规范中,难以作为科学对象进行转移、比较和研究。我们提出:智能体的高层控制逻辑能否被外化为一种可移植的可执行制品?我们引入了自然语言智能体约…...

模型评估体系架构解析

模型评估是量化系统表现的核心基准。本架构基于分类树结构,将系统切分为传统机器学习范式(ML Models)与检索增强生成代理(RAG Agent)两大赛道,并向下延展至具体的评估算子。 1. ML Models (传统机器学习模型…...

AI Agent架构入门到精通:LangChain重磅DeepAgents深度拆解,看这一篇就够了!

引言:为什么传统Agent总是"浅尝辄止"? 你有没有遇到过这样的尴尬场景: 让AI助手帮你完成一个复杂任务,比如"调研一下LangGraph技术,写一份技术报告,并创建相应的代码示例"。刚开始&a…...

7张图看懂Claude Code:从架构图解到工程实现

这篇文章用7张图架构图解的方式,系统讲解Claude Code的工程实现。 为什么要关注Claude Code? 2026年3月31日,Anthropic的Claude Code CLI工具因npm发布包意外暴露了.map文件,导致完整源码泄露。 这虽然说不是一次主动的开源&am…...

V数据库设计

一、章节核心定位第二章通常是数据库设计的需求分析与概念结构设计阶段,是整个数据库设计流程的核心起点,直接决定后续逻辑结构、物理结构设计的合理性,是从业务需求到数据模型的关键转化环节。二、核心知识点梳理1. 需求分析阶段&#xff08…...

算法会梦见电子羊,但人类需要学会与有偏见的AI共存 | 嗨点小圆桌

点击文末“阅读原文”即可参与节目互动剪辑、音频 / 卷圈 运营 / 卷圈 监制 / 姝琦 封面 / 姝琦 产品统筹 / bobo 场地支持 / AI原点社区我们避开关于算力和估值的宏大叙事,在 AI 原点社区的小圆桌旁,和两位刚刚从硅谷大厂“回归”实验室的科学家聊…...

ONES 签约全国汽车电子精密制造领先者——维科精密

ONES 签约全国汽车电子精密制造领先者 —— 维科精密。作为上市的国家级专精特新“小巨人”企业,维科精密凭借领先的技术实力与制造能力,成为全球知名客户高度信赖的汽车电子精密制造领域标杆。ONES 助力维科精密实现研发与制造流程的数字化升级&#xf…...

告别串口打印!用STM32F103C8T6和0.96寸OLED打造迷你温湿度计

用STM32F103C8T6和0.96寸OLED打造极简温湿度监测终端 在创客圈里,总有些小项目能让人眼前一亮——比如把枯燥的传感器数据变成桌面上的精致显示装置。今天我们要做的,就是用一个STM32F103C8T6开发板、0.96寸OLED屏幕和DHT22传感器,打造一个完…...

告别命令行手敲:用Python脚本自动化你的第一个OpenFOAM腔体流动模拟

用Python脚本解放双手:OpenFOAM腔体流动模拟自动化实战 每次打开终端,重复输入相同的OpenFOAM命令,修改几乎雷同的参数文件,这种机械操作是否让你感到效率低下?作为CFD工程师,我们真正应该投入时间的是分析…...

Linux下CST8XX触摸屏驱动调试实战:从I2C波形异常到内核崩溃的完整解决记录

Linux下CST8XX触摸屏驱动调试实战:从I2C波形异常到内核崩溃的完整解决记录 在嵌入式Linux开发中,触摸屏驱动的调试往往是最具挑战性的环节之一。本文将详细记录CST8XX系列电容触摸屏在Linux平台上的完整调试过程,涵盖从硬件信号异常到内核崩溃…...

你的Spring Boot项目安全吗?快速排查并修复Fastjson2历史版本(<=2.0.26)的隐藏风险

Spring Boot项目安全自查:Fastjson2历史版本(≤2.0.26)风险排查与修复指南 最近在帮几个客户做代码审计时,发现不少Spring Boot项目还在使用Fastjson2的老版本。说实话,这个问题比想象中普遍——很多团队甚至不知道自…...

OpenClaw(小龙虾)Windows 避坑安装指南

最近“小龙虾”(OpenClaw)可以说是 AI 圈最火的话题之一,这个能真正执行任务的 AI 智能体让无数人看到了自动化的无限可能。作为一个热衷于折腾各种 AI 工具的开发者,我也第一时间在 Windows 上尝试部署,结果一上来就被…...