当前位置: 首页 > article >正文

探索大语言模型(LLM):循环神经网络的深度解析与实战(RNN、LSTM 与 GRU)

一、循环神经网络(RNN)

1.1 基本原理

循环神经网络之所以得名,是因为它在处理序列数据时,隐藏层的节点之间存在循环连接。这意味着网络能够记住之前时间步的信息,并利用这些信息来处理当前的输入。
想象一下,我们正在处理一段文本,每个单词就是一个时间步的输入。RNN 在读取每个单词时,不仅会考虑当前单词的含义,还会结合之前已经读过的单词信息,从而更好地理解整个句子的语境。
用数学公式来表示,假设我们有一个输入序列 x 1 , x 2 , . . . , x T x_1,x_2,...,x_T x1,x2,...,xT,在时间步t,RNN 的隐藏状态 h t h_ t ht的计算方式如下: h t = σ ( W x h x t + W h h h t − 1 + b h ) h_t=σ(W_{xh}x_t+W_{hh}h_{t−1}+b_h) ht=σ(Wxhxt+Whhht1+bh)
其中,σ是激活函数(通常为 tanh 或 sigmoid), W x h W_{xh} Wxh是输入到隐藏层的权重矩阵, W h h W_{hh} Whh是隐藏层到隐藏层的权重矩阵, b h b_h bh是偏置项。输出 y t y_t yt通常通过以下公式计算:
y t = W h y h t + b y ​ y_t =W_{hy}h_t+b_y ​ yt=Whyht+by

这里 W h y W_{hy} Why是隐藏层到输出层的权重矩阵, b y b_y by是输出层的偏置项。

1.2 前向传播过程

以前文提到的文本处理为例,假设我们有一个简单的句子 “我喜欢深度学习”,我们将每个单词通过词向量表示后作为输入 x t x_t xt依次输入到 RNN 中。在第一个时间步,输入 “我” 对应的词向量 x 1 x_1 x1,结合初始隐藏状态 h 0 h_0 h0(通常初始化为零向量),通过上述公式计算得到隐藏状态 h 1 h_1 h1。接着,输入 “喜欢” 对应的词向量 x 2 x_2 x2,此时结合 h 1 h_1 h1计算 h 2 h_2 h2,以此类推,直到处理完整个句子。最终的隐藏状态
h T h_T hT可以用于预测句子的情感倾向(比如是积极还是消极)等任务。

1.3 训练过程

RNN 的训练通常使用反向传播通过时间(Backpropagation Through Time, BPTT)算法。BPTT 算法本质上是标准反向传播算法在时间序列上的扩展。它通过计算损失函数(比如交叉熵损失)关于网络参数( W x h W_{xh} Wxh , W h h W_{hh} Whh , W h y W_{hy} Why , b h b_h bh , b y b_y by等)的梯度,然后使用梯度下降等优化算法来更新参数,使得损失函数逐渐减小。在计算梯度时,由于隐藏层状态在时间步之间的循环连接,梯度会在时间维度上进行反向传播,这也是 BPTT 名称的由来。

1.4 面临的挑战

RNN 虽然具有记忆能力,但在处理长序列时,会面临梯度消失或梯度爆炸的问题。简单来说,当反向传播的时间步数增多时,梯度在传递过程中可能会变得非常小(梯度消失),导致前面时间步的信息对当前时间步的影响几乎可以忽略不计,使得模型难以学习到长距离的依赖关系;或者梯度变得非常大(梯度爆炸),导致参数更新不稳定,模型无法正常训练。

挑战类型描述对模型的影响
梯度消失反向传播时梯度逐渐变小难以学习长距离依赖关系,模型性能下降
梯度爆炸反向传播时梯度逐渐变大参数更新不稳定,模型无法正常训练

二、长短期记忆网络(LSTM)

2.1 结构与原理

为了解决 RNN 的梯度问题,LSTM 应运而生。LSTM 引入了一种特殊的结构 —— 细胞状态(Cell State),它就像一条信息高速公路,能够让信息在序列中相对轻松地流动,从而有效捕捉长期依赖关系。
LSTM 通过三个门来控制细胞状态中的信息:遗忘门(Forget Gate)、输入门(Input Gate)和输出门(Output Gate)。
遗忘门决定从上一个时间步的细胞状态 C t − 1 C_{t−1} Ct1中丢弃哪些信息,其计算公式为:
f t = σ ( W x f x t + W h f h t − 1 + b f ) f_t=σ(W_{xf}x_t+W_{hf}h_{t−1}+b_f) ft=σ(Wxfxt+Whfht1+bf)
这里 W x f , W h f , b f W_{xf} ,W_{hf} ,b_f Wxf,Whf,bf分别是遗忘门对应的权重矩阵和偏置项。
输入门决定将哪些新信息添加到细胞状态中,它由两部分组成。首先是输入门值 i t i_t it,计算公式为:
i t = σ ( W x i x t + W h i h t − 1 + b i ) i_t=σ(W_{xi}x_t+W_{hi}h_{t−1}+b_i) it=σ(Wxixt+Whiht1+bi)
然后是候选细胞状态 C ~ t \tilde C_t C~t,计算公式为:
C ~ t = t a n h ( W x C x t + W h C h t − 1 + b C ) \tilde C_t =tanh(W_{xC}x_t+W_{hC}h_{t−1}+b_C) C~t=tanh(WxCxt+WhCht1+bC)
最终更新后的细胞状态 C t C_t Ct为:
C t = f t ⊙ C t − 1 + i t ⊙ C ~ t C_t =f_t ⊙C_{t−1} +i_t⊙ \tilde C_t Ct=ftCt1+itC~t
其中 ⊙ ⊙ 表示逐元素相乘。
输出门决定细胞状态的哪些部分将作为当前时间步的输出 h t h_t ht,计算公式为:
o t = σ ( W x o x t + W h o h t − 1 + b o ) o_t=σ(W_{xo}x_t+W_{ho}h_{t−1}+b_o) ot=σ(Wxoxt+Whoht1+bo)
然后当前时间步的隐藏状态 h t h_t ht为:
h t = o t ⊙ t a n h ( C t ) h_t=o_t⊙tanh(C_t) ht=ottanh(Ct)
LSTM 结构示意图:

image

2.2 工作流程

在每个时间步,LSTM 首先通过遗忘门决定保留或丢弃上一个时间步细胞状态中的哪些信息。然后通过输入门和候选细胞状态决定添加哪些新信息到细胞状态中。更新完细胞状态后,再通过输出门决定输出哪些信息作为当前时间步的隐藏状态。这个过程不断重复,使得 LSTM 能够有效处理长序列数据。

2.3 应用案例 - 股价预测

假设我们要预测某只股票未来的价格走势。我们将过去一段时间(比如 100 天)的股票价格作为输入序列,通过 LSTM 模型进行训练。在训练过程中,LSTM 可以学习到股票价格之间的长期依赖关系,比如某些宏观经济因素对股价的长期影响。当训练完成后,我们可以输入最近一段时间的股价,让模型预测未来几天的股价。与传统的时间序列预测方法相比,LSTM 能够更好地捕捉股价波动中的复杂模式,从而提高预测的准确性。


三、门控循环单元(GRU)

3.1 结构与原理

GRU 可以看作是 LSTM 的简化版本。它将 LSTM 中的遗忘门和输入门合并为一个更新门(Update Gate),同时取消了单独的细胞状态,直接通过隐藏状态传递信息。
更新门 z t z_t zt的计算公式为:
z t = σ ( W x z x t + W h z h t − 1 + b z ) z_t=σ(W_{xz}x_t+W_{hz}h_{t−1}+b_z) zt=σ(Wxzxt+Whzht1+bz)
重置门(Reset Gate) r t r_t rt的计算公式为:
r t = σ ( W x r x t + W h r h t − 1 + b r ) r_t=σ(W_{xr}x_t +W_{hr} h_{t−1} +b_r) rt=σ(Wxrxt+Whrht1+br)
候选隐藏状态 h ~ t \tilde h_t h~t的计算公式为:
h ~ t = t a n h ( W x h x t + r t ⊙ ( W h h h t − 1 ) + b h ) \tilde h_t=tanh(W_{xh}x_t +r_t ⊙(W_{hh}h_{t−1})+b_h) h~t=tanh(Wxhxt+rt(Whhht1)+bh)
最终的隐藏状态 h t h_t ht 为:
h t = ( 1 − z t ) ⊙ h t − 1 + z t ⊙ h ~ t ​ h_t =(1−z_t )⊙h_{t−1} +z_t ⊙\tilde h_t ​ ht=(1zt)ht1+zth~t
GRU 结构示意图:

image

3.2 与 LSTM 的比较

与 LSTM 相比,GRU 结构更简单,参数更少,因此训练速度更快。在一些对实时性要求较高或者数据量较小的场景中,GRU 可能会表现得更好。但在处理非常复杂的长序列数据时,LSTM 由于其更精细的门控机制,可能会取得更好的效果。

模型结构特点参数数量训练速度适用场景
LSTM有细胞状态,三个门控较多较慢复杂长序列数据
GRU无细胞状态,两个门控较少较快实时性要求高或数据量小

3.3 应用案例 - 实时语音识别

在实时语音识别系统中,需要快速处理连续的语音流数据。GRU 由于其简单高效的结构,能够在保证一定准确率的前提下,快速对语音数据进行处理和识别。它可以实时地将输入的语音信号转换为文字,满足人们在语音交互场景中的需求。


总结

循环神经网络(RNN)为处理序列数据提供了基础框架,但其在长序列处理上的局限性促使了长短期记忆网络(LSTM)和门控循环单元(GRU)的诞生。LSTM 通过精细的门控机制和细胞状态,有效地解决了梯度问题,能够处理复杂的长序列数据。GRU 则在保持一定性能的同时,通过简化结构提高了训练效率。在实际应用中,我们需要根据具体任务的特点和需求,选择合适的模型。希望通过本文的介绍,你对 RNN、LSTM 和 GRU 有了更深入的理解,并能够在自己的项目中灵活运用它们。

相关文章:

探索大语言模型(LLM):循环神经网络的深度解析与实战(RNN、LSTM 与 GRU)

一、循环神经网络(RNN) 1.1 基本原理 循环神经网络之所以得名,是因为它在处理序列数据时,隐藏层的节点之间存在循环连接。这意味着网络能够记住之前时间步的信息,并利用这些信息来处理当前的输入。 想象一下&#xf…...

山东大学软件学院创新项目实训开发日志(15)之中医知识问答历史对话查看bug处理后端信息响应成功但前端未获取到

在开发中医知识问答历史对话查看功能的时候,出现了前后端信息获取异同的问题,在经过非常非常非常艰难的查询之后终于解决了这一问题,而这一问题的罪魁祸首就是后端没有setter和getter方法!!!!&a…...

poj1067 取石子游戏 威佐夫博弈

题目 有两堆石子,数量任意,可以不同。游戏开始由两个人轮流取石子。游戏规定,每次有两种不同的取法, 一是可以在任意的一堆中取走任意多的石子;二是可以在两堆中同时取走相同数量的石子。最后把石子全部取完者为胜者…...

优先级队列的实模拟实现

优先级队列底层默认用的是vector来存储数据,实现了类似我们数据结构中学习过的堆的队列,他的插入和删除都是优先级高先插入和删除。下面我们来模拟实现它们常见的接口来熟悉优先级队列。 仿函数 在介绍优先级队列之前,我们先熟悉一个概念&a…...

中国高校光芯片技术进展:前沿突破与产业化路径分析——基于材料、集成与系统协同创新的视角

引言&#xff1a;光电子技术的范式变革 随着摩尔定律逼近物理极限&#xff0c;光芯片技术成为突破电子芯片性能瓶颈的核心路径。光芯片以光子为载体&#xff0c;在传输速率&#xff08;>100 Gbps&#xff09;、能耗效率&#xff08;<1 pJ/bit&#xff09;及抗电磁干扰等…...

swagger 导入到apipost中

打开swagger json链接 保存到本地转为json格式文件 上传文件就行...

网安加·百家讲坛 | 刘志诚:AI安全风险与未来展望

作者简介&#xff1a;刘志诚&#xff0c;乐信集团信息安全中心总监、OWASP广东区域负责人、网安加社区特聘专家。专注于企业数字化过程中网络空间安全风险治理&#xff0c;对大数据、人工智能、区块链等新技术在金融风险治理领域的应用&#xff0c;以及新技术带来的技术风险治理…...

熵权法+TOPSIS+灰色关联度综合算法(Matlab实现)

熵权法TOPSIS灰色关联度综合算法&#xff08;Matlab实现&#xff09; 代码获取私信回复&#xff1a;熵权法TOPSIS灰色关联度综合算法&#xff08;Matlab实现&#xff09; 摘要&#xff1a; 熵权法TOPSIS灰色关联度综合算法&#xff08;Matlab实现&#xff09;代码实现了一种…...

React 中如何获取 DOM:用 useRef 操作非受控组件

&#x1f4cc; 场景说明 在写 React 的时候&#xff0c;通常我们是通过“受控组件”来管理表单元素&#xff0c;比如用 useState 控制 <input> 的值。 但有些时候&#xff0c;控制的需求只是临时性的&#xff0c;或者完全不需要重新渲染组件&#xff0c;这时候直接访问…...

YAFFS2 的页缓存机制原理及配置优化方法详解

YAFFS2&#xff08;Yet Another Flash File System 2&#xff09;通过其独特的 页缓存机制 和 日志结构设计 优化了 NAND 闪存的读写性能与寿命。以下是其页缓存实现的核心机制及关键流程&#xff1a; 一、YAFFS2 页缓存架构 1. 缓存结构 YAFFS2 的页缓存基于 动态缓存池 设计…...

神经接口安全攻防:从技术漏洞到伦理挑战

随着脑机接口&#xff08;BCI&#xff09;技术的快速发展&#xff0c;神经接口设备已从实验室走向消费市场。然而&#xff0c;2025年曝光的某品牌脑机接口设备漏洞&#xff08;CVE-2025-3278&#xff09;引发了行业对神经数据安全的深度反思。本文围绕神经接口安全的核心矛盾&a…...

Clickhouse 配置参考

Clickhouse 配置参考 适用版本 21.3.9.84 config.xml 配置 <?xml version"1.0"?> <!--NOTE: User and query level settings are set up in "users.xml" file. --> <yandex><access_control_path>/data/clickhouse/clickhous…...

利用deepseek+Mermaid画流程图

你是一个产品经理&#xff0c;请绘制一个流程图&#xff0c;要求生成符合Mermaid语法的代码&#xff0c;要求如下&#xff1a; 用户下载文件、上传文件、删除文件的流程过程符合安全规范细节具体到每一步要做什么 graph LRclassDef startend fill:#F5EBFF,stroke:#BE8FED,str…...

高频面试题:Android MVP/MVVM/MVI这几种架构在实际生产中,各自的优缺点和适用场景是什么

安卓开发早期的架构模式相对简单&#xff0c;许多开发者直接在Activity或Fragment中堆砌业务逻辑和UI操作&#xff0c;这种方式虽然在小型项目中看似高效&#xff0c;但随着代码量的增加&#xff0c;很快就会导致逻辑混乱、难以测试和维护的问题。Activity和Fragment作为安卓框…...

leetcode0146. LRU 缓存-medium

1 题目&#xff1a;LRU 缓存 官方标定难度&#xff1a;中 请你设计并实现一个满足 LRU (最近最少使用) 缓存 约束的数据结构。 实现 LRUCache 类&#xff1a; LRUCache(int capacity) 以 正整数 作为容量 capacity 初始化 LRU 缓存 int get(int key) 如果关键字 key 存在于缓…...

SuperMap iClient3D for WebGL 如何加载WMTS服务

在 SuperMap iClient3D for WebGL 中加载WMTS服务时&#xff0c;参数配置很关键&#xff01;下面我们详细介绍如何正确填写参数&#xff0c;确保影像服务完美加载。 一、数据制作 对于上述视频中的地图制作&#xff0c;此处不做讲述&#xff0c;如有需要可访问&#xff1a;Onl…...

组件自身如何向外暴露一个子组件

最近在开发是遇到一个问题,原本是在组件内的一个功能被ui设计稿给搞到了外面,产品也不同意放在子组件内。于是一个问题就来,抽出来放到外面的部分依赖的也是组件内部的数据和逻辑,所以如果外面再重写这一部分,显然浪费感情,并且又要把依赖关系挪出去,也不划算。 于是,…...

《软件设计师》复习笔记(11.4)——处理流程设计、系统设计、人机界面设计

目录 一、业务流程建模 二、流程设计工具 三、业务流程重组&#xff08;BPR&#xff09; 四、业务流程管理&#xff08;BPM&#xff09; 真题示例&#xff1a; 五、系统设计 1. 主要目的 2. 设计方法 3. 主要内容 4. 设计原则 真题示例&#xff1a; 六、人机界面设…...

深入解析B站androidApp接口:从bilibili.api.ticket.v1.Ticket/GetTicket到SendMsg的技术分析

前言 最近一段时间&#xff0c;我对B站的App接口进行了深入分析&#xff0c;特别是关注了认证机制和私信功能的实现。通过逆向工程和网络抓包&#xff0c;发现了B站移动端API的底层工作原理&#xff0c;包括设备标识生成机制、认证流程和消息传输协议。本文将分享这些研究成果…...

#去除知乎中“盐选”付费故事

添加油猴脚本&#xff0c;去除知乎中“盐选”付费故事 // UserScript // name 盐选内容隐藏脚本 // namespace http://tampermonkey.net/ // version 0.2 // description 自动隐藏含有“盐选专栏”或“盐选”文字的回答卡片 // author YourName // mat…...

MATLAB脚本实现了一个转子系统的参数扫描和分岔分析

% 参数扫描范围 clc; clear; close all;S_values 500:200:20000; % 转速范围% 定义系统参数 N 5; % 质量点数量 num_nodes N; % 节点数 num_dofs_per_node 4; % 每个节点的自由度数 num_elements num_nodes-1; % 单元数 total_dofs num_nodes * num_dofs_per_node; % 总自…...

UWP发展历程

通用Windows平台(UWP)发展历程 引言 通用Windows平台(Universal Windows Platform, UWP)是微软为实现"一次编写&#xff0c;处处运行"的愿景而打造的现代应用程序平台。作为微软统一Windows生态系统的核心战略组成部分&#xff0c;UWP代表了从传统Win32应用向现代应…...

数据库相关概念,关系型数据库的核心要素,MySQL(特点,安装,环境变量配置,启动,停止,客户端连接),数据模型

目录 数据库相关概念 MySQL&#xff08;特点&#xff0c;安装&#xff0c;环境变量配置&#xff0c;启动和停止&#xff0c;客户端连接&#xff09; MySQL数据库的特点 Windows下安装MySQL MySQL 8.0.36&#xff08;安装版&#xff09; MySQL安装 配置Path环境变量 MySQ…...

Facebook隐私保护:从技术到伦理的探索

在这个数字化时代&#xff0c;隐私保护已成为公众关注的焦点。Facebook&#xff0c;作为全球最大的社交媒体平台之一&#xff0c;其用户隐私保护问题更是引起了广泛的讨论。本文将从技术层面和伦理层面探讨 Facebook 在隐私保护方面的努力和挑战。 技术层面的隐私保护 在技术…...

三维点拟合平面ransac c++

理论 平面的一般定义 在三维空间中&#xff0c;一个平面可以由两个要素唯一确定&#xff1a; 法向量 n(a,b,c)&#xff1a;垂直于平面的方向 平面上一点 平面上任意一点 p(x,y,z) 满足&#xff1a; ( p − p 0 ) ∗ n 0 (p - p0) * n 0 (p−p0)∗n0 即 a ( x − x 0 ) …...

香港服务器CPU对比:Intel E3与E5系列核心区别与使用场景

香港服务器的 CPU 配置(核心数与主频)直接决定了其并发处理能力和数据运算效率&#xff0c;例如高频多核处理器可显著提升多线程任务响应速度。在实际业务场景中&#xff0c;不同负载需求对 CPU 架构的要求存在显著差异——以 Intel E3 和 E5 系列为例&#xff0c;由于两者在性…...

ChatGPT-o3辅助学术大纲效果如何?

目录 1 引言 2 背景综述 2.1 自动驾驶雷达感知 2.2 生成模型演进&#xff1a;从 GAN 到 Diffusion 3 相关工作 3.1 雷达点云增强与超分辨率 3.2 扩散模型在数据增广中的应用 4 方法论 4.1 问题定义与总览 4.2 数据预处理与雷达→体素表示 4.3 潜在体素扩散网络&…...

AI大模型API文档的核心内容概述,以通用框架和典型实现为例

以下是AI大模型API文档的核心内容概述&#xff0c;以通用框架和典型实现为例&#xff1a; 一、API基础架构 1. 基础信息 API类型&#xff1a;RESTful API或gRPC&#xff08;如阿里云通义千问支持HTTPS接口&#xff09;请求方式&#xff1a;通常为POST方法基础URL&#xff1a…...

使用pnpm第一次运行项目报错 ERR_PNPM_NO_PKG_MANIFEST No package.json found in E:\

开始用unibestpnpm写一个小程序 运行pnpm init报错 如标题所示没有package.json这个文件 博主犯了一个很愚蠢的错误。。 准备方案手动创建一个json文件 此时才发现没到根目录下&#xff0c;创建了一个项目之后就没有切入文件夹里。 切入根目录再下载就成功啦...

单线服务器有什么优点

单线服务器是一个普遍存在的术语&#xff0c;它是指一种服务器连接互联网时只使用一个物理线路的服务器。简单来说&#xff0c;就是使用一条网络线路的服务器&#xff0c;上传和下载的数据都通过一个通道实现。在当今数字化的时代&#xff0c;服务器的选择至关重要。今天&#…...