当前位置：首页 > news >正文

四、自然语言处理_02RNN基础知识笔记

news 2026/2/9 6:39:53

1、RNN的定义

RNN（Recurrent Neural Network，循环神经网络）是一种专门用于处理序列数据的神经网络架构，它与传统的前馈神经网络（Feedforward Neural Network）不同，主要区别在于它能够处理输入数据之间的时间依赖性，这使得它特别适合于处理时间序列数据、自然语言文本、语音信号等类型的数据

2、RNN的工作原理与结构

2.1 工作原理

RNN通过在网络中引入循环结构来处理序列数据，使得网络能够在处理当前输入时考虑到之前的所有输入，这种结构允许信息在网络中持续存在，从而实现对序列数据的动态特征抽取

循环结构：网络中的循环允许信息在时间步之间传递（通过循环的方式来抽取时序信号的特征）
逐个处理：序列中的每个元素都被逐一处理，但每个元素的处理都依赖于前一个元素的处理结果
前后依赖：当前的输出不仅依赖于当前的输入，还依赖于之前所有输入的累积效应（前面的处理会影响后面的处理）
中间隐藏状态：RNN通过隐藏状态来存储和传递之前输入的信息，从而实现对序列的长期依赖关系的捕捉

2.2 工作结构

2.3.1 结构图

上图是RNN的工作结构示意图，包含X、A、h三个主要的模块，其简洁地展示了RNN如何通过循环结构处理序列数据，以及如何通过隐藏状态在时间步之间传递信息：

循环结构：图中显示了RNN的核心特性——循环，每个方框 A 代表网络中的一个重复模块（其实也就是权重矩阵），这个模块在每个时间步都会接收新的输入并产生输出
时间步：图中的 X0,X1,X2,…,Xt 表示输入序列在不同时间步的输入，例如，如果处理的是文本数据，则 X0 可能是第一个词的向量表示，X1 是第二个词的向量表示，以此类推
隐藏状态：h0,h1,h2,…,ht 表示在每个时间步的隐藏状态，隐藏状态是RNN的“记忆”，它携带了之前时间步的信息，在每个时间步，隐藏状态不仅依赖于当前的输入 Xt，还依赖于前一个时间步的隐藏状态 ht−1 ，在序列的末尾，最终的隐藏状态 hn 可以作为整个序列的上下文信息，用于分类、情感分析等任务
信息传递：在每个时间步，隐藏状态 ht 会作为下一个时间步的输入的一部分，这样信息就可以在时间步之间传递，这种传递是通过循环连接实现的，使得网络能够捕捉到序列中元素之间的依赖关系
输出：在每个时间步，RNN可以产生一个输出，这个输出可以是基于当前隐藏状态的，也可以是整个序列处理完毕后的最终输出
参数共享：在RNN中，所有时间步的重复模块“A”共享相同的参数，这意味着无论序列有多长，网络都使用相同的权重来处理每个元素
训练：RNN的训练通常涉及到反向传播算法的变种，如反向传播通过时间（Backpropagation Through Time, BPTT），以处理序列数据的时序特性

2.3.2 示例

对于句子“宝，你吃饭了吗？ ”，分词后得到的结果是['宝', '，', '你', '吃饭', '了', '吗', '？'] ，这些词会被循环地进行处理，具体如下： x0 = “宝”，x0 输入到权重矩阵 A ，得到 h0 （在实际的RNN实现中，如PyTorch或TensorFlow，h0 通常是由用户手动初始化的，以确保网络从一个已知的状态开始学习，这是因为RNN在处理序列的第一个元素之前没有先前的隐藏状态可以依赖。）

x1 = “，”，x1 再输入到权重矩阵 A ，并与上一步的 h0 相结合，得到 h1

x2 = “你”，x2 再输入到权重矩阵 A ，并与上一步的 h1 相结合，得到 h2

x3 = “吃饭'”，x3 再输入到权重矩阵 A ，并与上一步的 h2 相结合，得到 h3

x4 = “了”，x4 再输入到权重矩阵 A ，并与上一步的 h3 相结合，得到 h4

x5 = “吗”，x5 再输入到权重矩阵 A ，并与上一步的 h4 相结合，得到 h5

x6 = “？”，x6 再输入到权重矩阵 A ，并与上一步的 h5 相结合，得到 h6 最后得到的h6就是最终隐藏状态，可以作为整个序列的上下文信息

3、RNN的隐藏状态更新公式

上面的公式是RNN中隐藏状态更新的一个常见表达式，它结合了当前时间步的输入和前一时间步的隐藏状态，具体说明如下：

xt：在时间步 t 的输入向量，表示当前输入
Wih：输入到隐藏状态的权重矩阵，用于将当前输入 xt 转换为隐藏状态的输入部分
Whh：隐藏状态到隐藏状态的权重矩阵，用于将前一时间步的隐藏状态 ht−1 传递到当前时间步
bih 和 bhh：分别是输入和隐藏状态的偏置项
tanh：激活函数，通常用于引入非线性特性，使模型能够学习复杂的模式
ht：输出结果，即：在时间步 t 的隐藏状态，表示当前时间步的记忆

Tanh激活函数与‌Sigmoid、ReLU的区别：

输出范围
- Sigmoid函数‌：输出范围在0到1之间，其输出值可以被看作是一个概率值，用于表示某个事件发生的概率‌
- ReLU函数‌：输出范围在0到正无穷之间，输入小于0时输出为0，输入大于0时输出等于输入值
- Tanh函数‌：输出范围在-1到1之间
梯度特性
- Sigmoid函数‌：在输入值较大或较小时，梯度接近于0，导致训练过程中梯度消失的问题；此外，Sigmoid函数的计算开销较大，涉及指数运算，可能会影响大规模数据和深层网络的计算效率‌
- ReLU函数‌：在正值区间内具有线性特性，解决了梯度消失问题；ReLU函数在负值区间梯度为0，可能导致一些神经元永远不会被激活，从而停止更新‌
- ‌Tanh函数‌：也存在梯度饱和的问题，但其输出值范围在-1到1之间，相对于Sigmoid函数，其输出值范围更大，可能导致模型学习更快‌
适用场景
- Sigmoid函数‌：适用于二分类问题或输出概率的场景
- ReLU函数‌：适用于需要快速计算的场景，特别是在深层网络中，因为它解决了梯度消失问题，并且在正值区间内具有线性特性，所以计算速度很快‌
- Tanh函数‌：通常用于隐藏层的激活函数，因为其输出范围更广，可以更好地表示数据的分布‌

4、RNN的使用方法及示例

由于时序数据通常需要进行向量转换（如文本词向量），经过训练和预测后，再解析为用户所需内容，所以整个处理过程通常会包含编码器和解码器两部分

在深度学习框架（如PyTorch）中，，RNN可以通过以下两种方式结合使用：

nn.RNN：这是一个封装好的RNN层，可以自动处理循环逻辑，通常用于编码器部分
nn.RNNCell：这是一个基本的RNN单元，需要手动实现循环逻辑，通常用于解码器部分，特别是在需要更精细控制的场景下

nn.RNN示例：

import torch 
from torch import nn# 定义输入语句和初始隐藏状态h0
# 5表示序列长度（sequence length），3表示批次大小（batch size），10表示每个时间步的输入特征数（input size）
X = torch.randn(5, 3, 10)
# 1表示RNN层的数量（这里只有一层），3表示批次大小，20表示隐藏层的维度（hidden size）
h0 = torch.zeros(1, 3, 20, dtype=torch.float32)# 调用RNN（与input和h0的最后一个参数相对应）
rnn = nn.RNN(input_size=10, hidden_size=20)
# 获得output和hn（output包含了每个时间步的隐藏状态的输出，hn只包含最后一个时间步的隐藏状态）
output, hn = rnn(X, h0)# 查看output和hn的形状和内容
print(output.shape, hn.shape)
print(output)
print(hn)

nn.RNNCell示例：

import torch 
from torch import nnX = torch.randn(5, 3, 10)
hn = torch.zeros(3, 20, dtype=torch.float32)
# 定义一个output空列表，用于存储每个时间步的隐藏状态
output = []# 调用RNN（与input和hn的最后一个参数相对应）
rnn_cell = nn.RNNCell(input_size=10, hidden_size=20)# 循环存储每个时间步的隐藏状态
for x in X:hn = rnn_cell(x, hn)output.append(hn)# 将列表中的所有隐藏状态堆叠成一个张量，形状为 (sequence_length, 3, 20)
output = torch.stack(output)# 查看output的形状和内容
print(output.shape)
print(output)

四、自然语言处理_02RNN基础知识笔记

1、RNN的定义

2、RNN的工作原理与结构

2.1 工作原理

2.2 工作结构

2.3.1 结构图

2.3.2 示例

3、RNN的隐藏状态更新公式

4、RNN的使用方法及示例

相关文章：

四、自然语言处理_02RNN基础知识笔记

Spring 容器管理 Bean

SpringBoot开发——Spring Boot3.4 强大的结构化日志记录

信号和槽思维脑图+相关练习

Unity Feel插件快速入门

数据链路层（四）---PPP协议的工作状态

【C++】入门【六】

UE5 C++ 不规则按钮识别，复选框不规则识别 UPIrregularWidgets

Elasticsearch Serverless 现已正式发布

如何使用apache部署若依前后端分离项目

openEuler安装UKUI桌面

深入理解Oracle DB的锁和闩

jenkins+github+springboot自动部署

HTML5系列（10）-- 地理位置服务指南

【MySQL 进阶之路】SQL 优化

Web3的技术栈详解：解读区块链、智能合约与分布式存储

[在线实验]-在docker中运行clickhouse

Rust常用命令总结

Ant-Design X，AI组件库

Matplotlib 内置的170种颜色映射（colormap）

云计算——弹性云计算器（ECS）

三维GIS开发cesium智慧地铁教程（5）Cesium相机控制

理解 MCP 工作流：使用 Ollama 和 LangChain 构建本地 MCP 客户端

蓝桥杯 2024 15届国赛 A组儿童节快乐

cf2117E

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院查看报告小程序

AI书签管理工具开发全记录（十九）：嵌入资源处理

高效线程安全的单例模式：Python 中的懒加载与自定义初始化参数

保姆级教程：在无网络无显卡的Windows电脑的vscode本地部署deepseek

面向无人机海岸带生态系统监测的语义分割基准数据集