当前位置：首页 > article >正文

NLP学习路线图（二十二）：循环神经网络（RNN）

article 2026/2/8 12:01:06

在自然语言处理（NLP）的广阔天地中，序列数据是绝对的核心——无论是流淌的文本、连续的语音还是跳跃的时间序列，都蕴含着前后紧密关联的信息。传统神经网络如同面对一幅打散的拼图，无法理解词语间的顺序关系，注定在序列任务上举步维艰。而循环神经网络（RNN）的诞生，正是为了解决这一核心挑战，为机器赋予了处理序列信息的记忆能力。

一、序列数据：NLP世界的基石

序列数据无处不在：

文本序列： "我爱自然语言处理" – 每个字的位置都影响语义
语音信号： 随时间变化的声波，前后帧高度相关
时间序列： 股票价格、气象数据、用户行为日志

关键特性： 序列中元素的顺序至关重要。"猫追老鼠"与"老鼠追猫"意义截然相反。传统神经网络（如MLP、CNN）的固定输入输出结构无法有效建模这种动态的、长度可变的依赖关系。

二、RNN：赋予网络记忆的灵魂

RNN的核心思想直击要害：引入“记忆”概念，使网络具备对历史信息的持续感知能力。

1. 循环结构：时间展开的秘密

想象一个不断自我更新的笔记本：

输入序列： 在时间步 t，接收输入 x_t（如句子中的第t个词向量）
隐藏状态 h_t： 网络的“记忆体”，编码了截至当前时间步的所有历史信息
输出 y_t： 基于当前记忆 h_t 生成的预测（如下一个词的概率分布）

核心递归公式：
h_t = f(W_{xh} * x_t + W_{hh} * h_{t-1} + b_h)
y_t = g(W_{hy} * h_t + b_y)

其中：

f 和 g 是激活函数（如 tanh, softmax）
W_{xh}, W_{hh}, W_{hy} 是权重矩阵
b_h, b_y 是偏置向量
h_{t-1} 是前一时间步的隐藏状态，充当了记忆的角色

RNN在时间维度上展开，形成深度网络链，共享参数W

2. 参数共享：智慧的传承

与传统网络不同，RNN在所有时间步共享同一组参数 (W_{xh}, W_{hh}, W_{hy})。这带来两大优势：

模型尺寸恒定： 无论输入序列多长，参数量不变，大大提升内存效率
泛化能力增强： 网络学会的“处理序列片段”的知识可泛化到序列的不同位置

3. 前向传播：记忆的流动之旅

以句子“我爱NLP”为例（分词为["我", "爱", "NLP"]）：

t=1：输入 x1 = "我"，初始 h0 常置零向量
h1 = tanh(W_{xh} * "我" + W_{hh} * h0 + b_h) → 记忆更新为包含“我”
t=2：输入 x2 = "爱"
h2 = tanh(W_{xh} * "爱" + W_{hh} * h1 + b_h) → 记忆融合了“我爱”
t=3：输入 x3 = "NLP"
h3 = tanh(W_{xh} * "NLP" + W_{hh} * h2 + b_h) → 记忆包含完整句子信息
输出 y3 可能预测句子结束符或下一个可能词

三、RNN的训练：穿越时间的反向传播（BPTT）

训练RNN如同教导一个拥有记忆的学生回顾历史错误。BPTT算法是标准反向传播在时间轴上的扩展：

前向传播： 沿时间轴展开网络，计算所有 h_t 和 y_t
计算损失： 汇总各时间步损失（如交叉熵）L = Σ L_t(y_t, y_true_t)
反向传播： 从 t=T 开始倒序计算梯度：
- 损失 L 对 y_t 的梯度
- y_t 梯度反向传播至 h_t
- 关键： h_t 的梯度不仅来自当前输出，还来自下一时刻的隐藏状态 h_{t+1}（因为 h_t 影响 h_{t+1}），梯度计算变为：
  ∂L/∂h_t = (∂L/∂h_t|_{direct}) + (∂L/∂h_{t+1} * ∂h_{t+1}/∂h_t)
参数更新： 累加所有时间步梯度，更新共享权重 W

四、RNN的阿喀琉斯之踵：挑战与局限

尽管开创性，基础RNN面临严峻挑战：

1. 梯度消失/爆炸：记忆的消散与风暴

问题本质： 计算 h_t 对 h_k (k<<t) 的梯度时，涉及多次矩阵连乘：
∂h_t / ∂h_k ≈ ∏_{i=k}^{t-1} (diag(f') * W_{hh})
梯度消失： 若 W_{hh} 的特征值 <1，梯度指数级衰减 → 网络无法学习长距离依赖（如段落开头的主题词影响结尾）
梯度爆炸： 若 W_{hh} 的特征值 >1，梯度指数级增长 → 数值溢出，训练崩溃
影响： RNN实际只能有效利用有限历史（约10步），成为处理长序列的瓶颈。

2. 长程依赖建模困难

梯度消失直接导致模型难以关联序列中相隔较远的相关元素，如：

“在遥远东方的古老王国里，住着一位...（数百词后）... 巨龙守护着宝藏。”
基础RNN可能遗忘关键主语“巨龙”与开头的关联。

3. 计算效率与并行化

RNN的顺序依赖性（计算 h_t 必须先有 h_{t-1}）阻碍了GPU的并行加速潜力，训练速度受限。

五、进化之路：RNN的强力变体

为克服基础RNN缺陷，研究者提出革命性改进：

1. LSTM：长短期记忆网络（记忆的精密控制）

LSTM引入“门控”机制和细胞状态 C_t，如同一个可精确读写擦除的记忆板：

遗忘门 f_t： 决定丢弃哪些旧记忆 C_{t-1}
f_t = σ(W_f * [h_{t-1}, x_t] + b_f)
输入门 i_t： 控制新信息 ̃C_t 的写入量
i_t = σ(W_i * [h_{t-1}, x_t] + b_i)
̃C_t = tanh(W_C * [h_{t-1}, x_t] + b_C)
细胞状态更新： C_t = f_t ⊙ C_{t-1} + i_t ⊙ ̃C_t → 核心！梯度高速公路
输出门 o_t： 基于 C_t 生成当前输出 h_t
o_t = σ(W_o * [h_{t-1}, x_t] + b_o)
h_t = o_t ⊙ tanh(C_t)

LSTM通过门控机制保护梯度，解决长程依赖问题

2. GRU：门控循环单元（简约高效的记忆）

GRU融合LSTM的门控思想，结构更简洁：

重置门 r_t： 控制历史记忆 h_{t-1} 对当前新候选状态的影响
r_t = σ(W_r * [h_{t-1}, x_t])
更新门 z_t： 平衡旧状态 h_{t-1} 和新候选状态 ̃h_t
z_t = σ(W_z * [h_{t-1}, x_t])
候选状态： ̃h_t = tanh(W * [r_t ⊙ h_{t-1}, x_t])
隐藏状态更新： h_t = (1 - z_t) ⊙ h_{t-1} + z_t ⊙ ̃h_t

GRU在效果接近LSTM的同时，参数更少，计算效率更高，成为许多场景的首选。

六、RNN在NLP中的璀璨应用

RNN及其变体推动了NLP的爆发式发展：

语言建模： 预测下一个词的概率 P(w_t | w_1, w_2, ..., w_{t-1})，是机器翻译、语音识别的基石。
文本生成： 基于历史词序列生成连贯文本（诗歌、故事、代码）。
机器翻译： 经典Seq2Seq架构：编码器RNN压缩源语言句义为向量，解码器RNN据此生成目标语言序列。
情感分析： 分析评论/推文的整体情感倾向（正面/负面），需理解上下文语气。
命名实体识别： 序列标注任务，识别文本中人名、地名、组织名（如 [B-PER, I-PER, O, O, B-LOC])。

语音识别： 将声学特征序列映射为文字序列。

# 使用PyTorch实现一个简单的GRU情感分类器
import torch
import torch.nn as nnclass SentimentGRU(nn.Module):def __init__(self, vocab_size, embed_dim, hidden_dim, output_dim):super().__init__()self.embedding = nn.Embedding(vocab_size, embed_dim)self.gru = nn.GRU(embed_dim, hidden_dim, batch_first=True)self.fc = nn.Linear(hidden_dim, output_dim)  # 输出情感类别def forward(self, text):# text: [batch_size, seq_length]embedded = self.embedding(text)  # [batch_size, seq_len, embed_dim]output, hidden = self.gru(embedded)# 取最后一个时间步的隐藏状态作为句子表示return self.fc(hidden.squeeze(0))

七、总结与展望：RNN的遗产与新篇章

循环神经网络（RNN）及其变体LSTM、GRU，是序列建模史上的里程碑。它们通过循环结构与隐藏状态，赋予神经网络处理序列数据的关键能力——记忆，解决了传统模型处理不定长、依赖关系的难题。

尽管如今Transformer凭借其自注意力机制和强大的并行能力，在诸多NLP任务中（如BERT、GPT）取得更优表现，但RNN的价值并未褪色：

历史地位： 深刻理解RNN是掌握序列建模思想的必经之路。
特定场景优势： 在流式数据处理（实时语音识别）、超长序列（某些时序预测）、资源受限环境（GRU的轻量性）中，RNN及其变体仍有独特价值。
模型融合： RNN常作为Transformer架构中的组件，如编码器的补充层。

NLP学习路线图（二十二）：循环神经网络（RNN）

在自然语言处理（NLP）的广阔天地中，序列数据是绝对的核心——无论是流淌的文本、连续的语音还是跳跃的时间序列，都蕴含着前后紧密关联的信息。传统神经网络如同面对一幅打散的拼图，无法理解词语间的顺序关系&#xff0c…...

编程日记 2026/2/5 15:16:09

每日一C（1）C语言的内存分布

目录代码区常量区全局/静态区初始化数据段（.data） 未初始化数据段（.bss） 堆区栈区总结今天我们学习的是C语言的内存分布，以及这些分区所存储的内容和其特点。今天的思维导图如下。 C语言作为一款直接处…...

编程日记 2026/2/5 15:16:07

Photoshop使用钢笔绘制图形

1、绘制脸部路径选择钢笔工具，再选择“路径”。基于两个点绘制一个弯曲的曲线使用Alt键移动单个点，该点决定了后续的曲线方向继续绘制第3个点最后一个点首尾是同一个点，使用钢笔保证是闭合回路。以同样的方式绘制2个眼睛外框。使用椭…...

编程日记 2026/2/4 17:21:35

应用层协议：HTTP

目录 HTTP：超文本传输协议 1.1 HTTP报文 1.1.1 请求报文 1.1.2 响应报文 1.2 HTTP请求过程和原理 1.2.1 请求过程 1、域名（DNS）解析 2、建立TCP连接（三次握手） 3、发送HTTP请求 4、服务器处理请求 5、返回H…...

编程日记 2026/2/5 15:16:02

复习——C++

1、scanf和scanf_s区别 2、取地址，输出 char ba; char* p&b; cout<<*p; cout<<p; p(char*)"abc"; cout<<*p; cout<<p; cout<<(void*)p; 取地址，把b的地址给p 输出*p，是输出p的空间内的值…...

编程日记 2026/2/6 1:41:31

SPI通信协议（软件SPI读取W25Q64）

SPI通信协议文章目录 SPI通信协议1.SPI通信2.SPI硬件和软件规定2.1SPI硬件电路2.2移位示意图2.3SPI基本时序单元2.3.1起始和终止条件2.3.2交换一个字节（模式1） 2.4SPI波形分析（辅助理解）2.4.1发送指令2.4.2指定地址写2.4.3指定地…...

编程日记 2026/2/6 1:41:29

PostgreSQL-基于PgSQL17和11版本导出所有的超表建表语句

最新版本更新 https://code.jiangjiesheng.cn/article/368?fromcsdn 推荐《高并发 & 微服务 & 性能调优实战案例100讲源码下载》 1. 基于pgsql 17.4 研究查询psql版本：SELECT version(); 查看已知1条建表语句和db中数据关系 SELECT create_hypert…...

编程日记 2025/7/28 15:29:37

JavaWeb：前后端分离开发-部门管理

今日内容前后端分离开发准备工作页面布局整体布局-头部布局 Container 布局容器左侧布局资料\04. 基础文件\layout/index.vue <script setup lang"ts"></script><template><div class"common-layout"><el-containe…...

编程日记 2026/2/6 1:41:27

ArcGIS计算多个栅格数据的平均栅格

3种方法计算多个栅格数据的平均栅格 1->使用“ 栅格计算器”工具原理就是把多幅影像数据相加，然后除以个数，就能得到平均栅格。 2-> 使用“像元统计数据”工具，如果是ArcGIS pro，则是“像元统计”工具。使用这个工具可以…...

编程日记 2025/12/23 17:59:24

字节开源FlowGram：AI时代可视化工作流新利器

字节终于开源“扣子”同款引擎了！FlowGram：AI 时代的可视化工作流利器字节FlowGram创新性地融合图神经网络与多模态交互技术，构建了支持动态拓扑重构的可视化流程引擎。该系统通过引入 f ( G ) ( V ′ ， E ′ ) f(\mathcal{G})…...

编程日记 2026/2/6 1:41:25

如何选择合适的分库分表策略

选择合适的分库分表策略需要综合考虑业务特点、数据规模、访问模式、技术成本等多方面因素。以下是系统性的选择思路和关键决策点： 一、核心决策因素业务需求分析数据规模：当前数据量（如亿级）、增长速度（如每日新增百…...

编程日记 2025/10/31 23:16:56

(LeetCode 每日一题)3403. 从盒子中找出字典序最大的字符串 I （贪心+枚举）

题目：3403. 从盒子中找出字典序最大的字符串 I 题目：贪心枚举字符串，时间复杂度0(n)。最优解的长度一定是在[1,n-numFriends]之间。字符串在前缀都相同的情况下，长度越长越大。 C版本： class Solution { public:st…...

编程日记 2026/2/5 11:09:13

GPIO的内部结构与功能解析

一、GPIO总体结构总体构成 1.APB2(外设总线) APB2总线是微控制器内部连接CPU与外设（如GPIO）的总线，负责CPU对GPIO寄存器的读写访问，支持低速外设通信 2.寄存器控制GPIO的配置（输入/输出模式、上拉/下拉等&#x…...

编程日记 2026/2/7 14:21:10

Python训练打卡Day42

Grad-CAM与Hook函数知识点回顾回调函数lambda函数hook函数的模块钩子和张量钩子Grad-CAM的示例在深度学习中，我们经常需要查看或修改模型中间层的输出或梯度。然而，标准的前向传播和反向传播过程通常是一个黑盒，我们很难直接访问中间层的信…...

编程日记 2025/11/26 8:55:47

深度学习中的负采样

深度学习中的负采样负采样（Negative Sampling） 是一种在训练大型分类或概率模型（尤其是在输出类别很多时）中，用来加速训练、降低计算量的方法。它常用于： 词向量训练（如 Word2Vec&#xff…...

编程日记 2025/11/24 23:39:05

php7+mysql5.6单用户中医处方管理系统V1.0

php7mysql5.6中医处方管理系统说明文档一、系统简介 ----------- 本系统是一款专为中医诊所设计的处方管理系统，基于PHPMySQL开发，不依赖第三方框架，采用原生HTML5CSS3AJAX技术，适配手机和电脑访问。系统支持药品管理、处方开…...

编程日记 2026/2/6 1:41:22

Java 大视界 — Java 大数据在智能安防视频监控中的异常事件快速响应与处理机制

/*Java 大数据在智能安防视频监控中的异常事件快速响应与处理机制（简化示例）*/// 1. Event.java - 异常事件模型 package com.security.model;public class Event {private String id;private String type; // 如: "入侵", "火警"pr…...

编程日记 2025/9/23 23:07:21

智慧物流园区整体解决方案

该智慧物流园区整体解决方案借助云计算、物联网、ICT 等技术，从咨询规划阶段介入，整合供应链上下游资源，实现物流自动化、信息化与智能化。方案涵盖智慧仓储管理（如自动化立体仓储系统、温湿度监控）、智慧物流（运输管理系统 TMS、GPS 监控）、智慧车辆管理（定位、调度、…...

编程日记 2026/2/1 22:24:39

审批流程管理系统开发记录：layui前端交互的实践

一、需求拆解与技术选型本次开发围绕企业审批流程管理场景，需实现以下核心功能：前端申请表单与流程进度可视化底部滑动审批弹窗交互多版本MySQL数据库支持流程数据的增删改查与状态管理技术栈选择：前端采用LayUI框架，利用其时间线组件（lay-timeline）实现流程进度展示…...

编程日记 2025/12/9 18:33:45

【会员专享数据】1960—2023年我国省市县三级逐年降水量数据（Shp/Excel格式）

之前我们分享过1960-2023年我国0.1分辨率的逐日、逐月、逐年降水栅格数据（可查看之前的文章获悉详情），是研究者Jinlong Hu与Chiyuan Miao分享在Zenodo平台上的数据，很多小伙伴拿到数据后反馈栅格数据不太方便使用，问我…...

编程日记 2026/2/6 5:52:27

2025年精通MVCC

今年找工作，无一例外又问到了MVCC这个知识点。几乎每次换工作都会被问到这个面试有用，工作毫无 * 用的知识。但是环境就是这样，既然如此，我们用一篇文章彻底搞懂MVCC 1.MVCC是什么 MVCC（Multi-Version Concurrency C…...

编程日记 2025/12/9 18:33:43

硬路由与软路由

目录核心区别 ⚙️ 性能与功能定位如何选择？ 核心区别硬路由： 本质： 专用的硬件设备。构成： 厂家将特定的路由器操作系统（通常是高度定制化、封闭或精简的）固化在专用的硬件平台上。硬件&#xff1a…...

编程日记 2025/12/14 18:54:49

OpenCV C++ 心形雨动画

❤️ OpenCV C 心形雨动画 ❤️ 本文将引导你使用 C 和 OpenCV 库创建一个可爱的心形雨动画。在这个动画中，心形会从屏幕顶部的随机位置落下，模拟下雨的效果。使用opencv定制自己的专属背景目录简介先决条件核心概念实现步骤创建项目定义心形结构…...

编程日记 2026/2/2 0:08:36

Fullstack 面试复习笔记：Java 基础语法 / 核心特性体系化总结

Fullstack 面试复习笔记：Java 基础语法 / 核心特性体系化总结上一篇笔记：Fullstack 面试复习笔记：操作系统 / 网络 / HTTP / 设计模式梳理目前上来说，这个系列的笔记本质上来说，是对不理解的知识点进行的一个梳理&…...

编程日记 2026/2/7 10:27:34

安卓Compose实现鱼骨加载中效果

安卓Compose实现鱼骨加载中效果文章目录安卓Compose实现鱼骨加载中效果背景与简介适用场景Compose骨架屏与传统View实现对比Shimmer动画原理简介常见问题与优化建议参考资料本文首发地址 https://h89.cn/archives/404.html 背景与简介在移动应用开发中，加载中占…...

编程日记 2026/2/6 5:51:33

使用qt 定义全局钩子捕获系统的键盘事件

使用qt 定义全局钩子捕获系统的键盘事件即使焦点不在自定义软件上，也能够触发以下待接口代码： class Hook :public QObject { Q_OBJECT public: Hook(); enum Type { CTRL_E, CTRL_W, SPACE, Enter, C };//自定义枚举，定义“修改”、“撤回…...

编程日记 2026/1/8 18:04:07

FreeType 字体信息检查工具 - 现代C++实现

文章目录获取字体的版权信息工具简介主要特点1. 现代C实现2. 完整的功能3. 健壮的错误处理4. 国际化支持使用说明技术亮点获取字体的版权信息 #include <iostream> // 标准输入输出流库 #include <string> // 字符串处理库 #include <vector>…...

编程日记 2026/1/8 21:18:45

el-table 树形数据，子行数据可以异步加载

1、 <el-tableborder:header-cell-style"tableStyle?.headerCellStyle"ref"tableRef":data"tableData"row-key"id":default-expand-all"false" // 默认不展开所有树形节点:tree-props"{ children: children, hasC…...

编程日记 2025/10/1 11:29:18

【使用JAVA调用deepseek】实现自能回复

在Spring Boot系统中接入DeepSeek服务，并将其提供给用户使用，通常需要以下步骤： 一、准备工作 （1）注册DeepSeek开发者账号访问DeepSeek官网，注册并创建应用，获取API Key。 API文档&#xff1…...

编程日记 2026/2/2 0:08:09

【Linux系列】rsync命令详解与实践

博客目录高效文件同步的艺术：rsync 命令详解与实践rsync 命令解析rsync 的核心优势1. 增量传输：效率的革命2. 归档模式(-a)：保留文件所有属性3. 人性化输出(-h)与进度显示(--progress) 实际应用场景1. 文件备份与版本管理2. 跨设备同步3. 大…...

编程日记 2026/2/8 6:37:26