当前位置：首页 > news >正文

多层 RNN原理以及实现

news 2025/7/8 10:30:38

数学原理

多层 RNN 的核心思想是堆叠多个 RNN 层，每一层的输出作为下一层的输入，从而逐层提取更高层次的抽象特征。

1. 单层 RNN 的数学表示

首先，单层 RNN 的计算过程如下。对于一个时间步 $t$ ，单层 RNN 的隐藏状态 $h_t$ 和输出 $y_t$ 可以表示为：

$h_t = \text{activation}(W_{ih} x_t + b_{ih} + W_{hh} h_{t-1} + b_{hh})$
$y_t = W_{ho} h_t + b_{ho}$

其中：

$x_t$ 是时间步 $t$ 的输入。
$h_t$ 是时间步 $t$ 的隐藏状态。
$h_{t-1}$ 是时间步 $t - 1$ 的隐藏状态。
$W_{ih}$ 、 $W_{hh}$ 、 $W_{ho}$ 是权重矩阵。
$b_{ih}$ 、 $b_{hh}$ 、 $b_{ho}$ 是偏置项。
$\text{activation}$ 是激活函数（如 $\tanh$ 或 $\text{ReLU}$ ）。

2. 多层 RNN 的数学表示

假设我们有一个 $L$ 层的 RNN，每一层的隐藏状态为 $h_t^{(l)}$ ，其中 $l$ 表示第 $l$ 层， $t$ 表示时间步。多层 RNN 的计算过程如下：

(1) 第一层（ $l = 1$ ）

第一层的输入是原始输入序列 $x_t$ ，隐藏状态 $h_t^{(1)}$ 的计算公式为：

$h_t^{(1)} = \text{activation}(W_{ih}^{(1)} x_t + b_{ih}^{(1)} + W_{hh}^{(1)} h_{t-1}^{(1)} + b_{hh}^{(1)})$

其中：

$W_{ih}^{(1)}$ 、 $W_{hh}^{(1)}$ 是第一层的权重矩阵。
$b_{ih}^{(1)}$ 、 $b_{hh}^{(1)}$ 是第一层的偏置项。

(2) 第 $l$ 层（ $l > 1$ ）

第 $l$ 层的输入是第 $l - 1$ 层的输出 $h_t^{(l-1)}$ ，隐藏状态 $h_t^{(l)}$ 的计算公式为：

$h_t^{(l)} = \text{activation}(W_{ih}^{(l)} h_t^{(l-1)} + b_{ih}^{(l)} + W_{hh}^{(l)} h_{t-1}^{(l)} + b_{hh}^{(l)})$

其中：

$W_{ih}^{(l)}$ 、 $W_{hh}^{(l)}$ 是第 $l$ 层的权重矩阵。
$b_{ih}^{(l)}$ 、 $b_{hh}^{(l)}$ 是第 $l$ 层的偏置项。

(3) 输出层

最后一层（第 $L$ 层）的输出 $h_t^{(L)}$ 作为整个网络的输出 $y_t$ ：

$y_t = W_{ho} h_t^{(L)} + b_{ho}$

其中：

$W_{ho}$ 、 $b_{ho}$ 是输出层的权重矩阵和偏置项。

3. 多层 RNN 的数据流向

以下是一个 $L$ 层 RNN 的数据流向的数学描述：

(1) 输入序列

输入序列为 $x_1, x_2, \dots, x_T$ ，其中 $T$ 是序列长度。

(2) 初始化隐藏状态

每一层的初始隐藏状态 $h_0^{(l)}$ 通常初始化为零或随机值：

$h_0^{(l)} = \mathbf{0} \quad \text{或} \quad h_0^{(l)} \sim \mathcal{N}(0, \sigma^2)$

(3) 时间步 $t$ 的计算

对于每个时间步 $t$ ，从第一层到第 $L$ 层依次计算隐藏状态：

第一层：
$h_t^{(1)} = \text{activation}(W_{ih}^{(1)} x_t + b_{ih}^{(1)} + W_{hh}^{(1)} h_{t-1}^{(1)} + b_{hh}^{(1)})$
第 $l$ 层（ $l > 1$ ）：
$h_t^{(l)} = \text{activation}(W_{ih}^{(l)} h_t^{(l-1)} + b_{ih}^{(l)} + W_{hh}^{(l)} h_{t-1}^{(l)} + b_{hh}^{(l)})$
输出：
$y_t = W_{ho} h_t^{(L)} + b_{ho}$

(4) 序列输出

最终，整个序列的输出为 $y_1, y_2, \dots, y_T$ 。

4. 多层 RNN 的特点

(1) 逐层抽象

每一层 RNN 可以看作是对输入序列的不同层次的抽象。
较低层捕捉局部和细节信息，较高层捕捉全局和语义信息。

(2) 参数共享

每一层的参数（权重矩阵和偏置项）在时间步之间共享。
不同层的参数是独立的。

(3) 梯度传播

在反向传播时，梯度会通过时间步和层数传播。
由于梯度消失或爆炸问题，训练深层 RNN 可能会比较困难。

可视化原理

下面是一个可视化的结构显示图：其中每一层神经元都要有两个方向的输出，一个是向本时间步的下一层传送，另一个是向下一个时间步的本层传送。而且，每一个神经元都有两个权重矩阵。注意：下方右图仅仅是逻辑上展开的数据流，其中不同世间步上的同一层，用的是同一个权重矩阵。

在这里插入图片描述

代码实现

1. 示例任务

假设有一个简单的任务：

处理一个长度为 4 的序列
批次大小为 2
每个时间步的输入特征维度为 3
希望使用一个 2 层的单向 RNN
隐藏状态维度为 5。

2. 输入数据

输入句子

句子 1: “I love PyTorch”
句子 2: “RNN is fun”

输入数据的形状

序列长度 (seq_len): 4（假设每个单词是一个时间步）
批次大小 (batch_size): 2
输入特征维度 (input_size): 3（假设每个单词用一个 3 维向量表示）

具体输入数据

import torch# 输入数据形状: (seq_len, batch_size, input_size)
input_data = torch.tensor([# 时间步 1[[0.1, 0.2, 0.3],  # 句子 1 的第一个单词[0.4, 0.5, 0.6]], # 句子 2 的第一个单词# 时间步 2[[0.7, 0.8, 0.9],  # 句子 1 的第二个单词[1.0, 1.1, 1.2]], # 句子 2 的第二个单词# 时间步 3[[1.3, 1.4, 1.5],  # 句子 1 的第三个单词[1.6, 1.7, 1.8]], # 句子 2 的第三个单词# 时间步 4[[1.9, 2.0, 2.1],  # 句子 1 的第四个单词[2.2, 2.3, 2.4]]  # 句子 2 的第四个单词
])
print("Input shape:", input_data.shape)  # 输出: torch.Size([4, 2, 3])

3. 初始隐藏状态

初始隐藏状态的形状

RNN 层数 (num_layers): 2
方向数 (num_directions): 1（单向 RNN）
批次大小 (batch_size): 2
隐藏状态维度 (hidden_size): 5

具体初始隐藏状态

# 初始隐藏状态形状: (num_layers * num_directions, batch_size, hidden_size)
h0 = torch.zeros(2, 2, 5)  # 2层RNN，批次大小为2，隐藏状态维度为5
print("h0 shape:", h0.shape)  # 输出: torch.Size([2, 2, 5])

4. 定义 RNN 模型

import torch.nn as nn# 定义 RNN
rnn = nn.RNN(input_size=3,  # 输入特征维度hidden_size=5, # 隐藏状态维度num_layers=2,  # RNN 层数batch_first=False  # 输入形状为 (seq_len, batch_size, input_size)
)

5. 前向传播

计算输出

# 前向传播
output, hn = rnn(input_data, h0)print("Output shape:", output.shape)  # 输出: torch.Size([4, 2, 5])
print("hn shape:", hn.shape)          # 输出: torch.Size([2, 2, 5])

输出解析

output:
- 形状为 (seq_len, batch_size, hidden_size)，即 (4, 2, 5)。
- 包含了每个时间步的隐藏状态。
- 例如，output[0] 是第一个时间步的隐藏状态，output[-1] 是最后一个时间步的隐藏状态。
hn:
- 形状为 (num_layers, batch_size, hidden_size)，即 (2, 2, 5)。
- 包含了最后一个时间步的隐藏状态。
- 例如，hn[0] 是第一层的最终隐藏状态，hn[1] 是第二层的最终隐藏状态。

6. 具体输出值

`output` 的值

print("Output (所有时间步的隐藏状态):")
print(output)

输出示例：

tensor([[[ 0.1234,  0.5678,  0.9101,  0.1121,  0.3141],[ 0.4151,  0.6171,  0.8191,  0.0212,  0.2232]],[[ 0.4252,  0.6272,  0.8292,  0.0313,  0.2333],[ 0.4353,  0.6373,  0.8393,  0.0414,  0.2434]],[[ 0.4454,  0.6474,  0.8494,  0.0515,  0.2535],[ 0.4555,  0.6575,  0.8595,  0.0616,  0.2636]],[[ 0.4656,  0.6676,  0.8696,  0.0717,  0.2737],[ 0.4757,  0.6777,  0.8797,  0.0818,  0.2838]]],grad_fn=<StackBackward>)

`hn` 的值

print("hn (最后一个时间步的隐藏状态):")
print(hn)

输出示例：

tensor([[[ 0.4656,  0.6676,  0.8696,  0.0717,  0.2737],[ 0.4757,  0.6777,  0.8797,  0.0818,  0.2838]],[[ 0.4858,  0.6878,  0.8898,  0.0919,  0.2939],[ 0.4959,  0.6979,  0.8999,  0.1020,  0.3040]]],grad_fn=<StackBackward>)

batch_first=True时

以下是一个具体的例子，展示当 batch_first=True 时，PyTorch 中 torch.nn.RNN 的输入、输出以及参数的作用。

任务

假设有一个简单的任务：

处理一个长度为 4 的序列
批次大小为 2
每个时间步的输入特征维度为 3
希望使用一个 2 层的单向 RNN
隐藏状态维度为 5
并且设置 batch_first=True。

2. 输入数据

输入句子

句子 1: “I love PyTorch”
句子 2: “RNN is fun”

输入数据的形状

批次大小 (batch_size): 2
序列长度 (seq_len): 4（假设每个单词是一个时间步）
输入特征维度 (input_size): 3（假设每个单词用一个 3 维向量表示）

具体输入数据

import torch# 输入数据形状: (batch_size, seq_len, input_size)
input_data = torch.tensor([# 句子 1[[0.1, 0.2, 0.3],  # 第一个单词[0.7, 0.8, 0.9],  # 第二个单词[1.3, 1.4, 1.5],  # 第三个单词[1.9, 2.0, 2.1]], # 第四个单词# 句子 2[[0.4, 0.5, 0.6],  # 第一个单词[1.0, 1.1, 1.2],  # 第二个单词[1.6, 1.7, 1.8],  # 第三个单词[2.2, 2.3, 2.4]]  # 第四个单词
])
print("Input shape:", input_data.shape)  # 输出: torch.Size([2, 4, 3])

3. 初始隐藏状态

初始隐藏状态的形状

RNN 层数 (num_layers): 2
方向数 (num_directions): 1（单向 RNN）
批次大小 (batch_size): 2
隐藏状态维度 (hidden_size): 5

具体初始隐藏状态

# 初始隐藏状态形状: (num_layers * num_directions, batch_size, hidden_size)
h0 = torch.zeros(2, 2, 5)  # 2层RNN，批次大小为2，隐藏状态维度为5
print("h0 shape:", h0.shape)  # 输出: torch.Size([2, 2, 5])

4. 定义 RNN 模型

import torch.nn as nn# 定义 RNN
rnn = nn.RNN(input_size=3,  # 输入特征维度hidden_size=5, # 隐藏状态维度num_layers=2,  # RNN 层数batch_first=True  # 输入形状为 (batch_size, seq_len, input_size)
)

5. 前向传播

计算输出

# 前向传播
output, hn = rnn(input_data, h0)print("Output shape:", output.shape)  # 输出: torch.Size([2, 4, 5])
print("hn shape:", hn.shape)          # 输出: torch.Size([2, 2, 5])

输出解析

output:
- 形状为 (batch_size, seq_len, hidden_size)，即 (2, 4, 5)。
- 包含了每个时间步的隐藏状态。
- 例如，output[0] 是第一个句子的所有时间步的隐藏状态，output[1] 是第二个句子的所有时间步的隐藏状态。
hn:
- 形状为 (num_layers, batch_size, hidden_size)，即 (2, 2, 5)。
- 包含了最后一个时间步的隐藏状态。
- 例如，hn[0] 是第一层的最终隐藏状态，hn[1] 是第二层的最终隐藏状态。

6. 具体输出值

`output` 的值

print("Output (所有时间步的隐藏状态):")
print(output)

输出示例：

tensor([[[ 0.1234,  0.5678,  0.9101,  0.1121,  0.3141],[ 0.4252,  0.6272,  0.8292,  0.0313,  0.2333],[ 0.4454,  0.6474,  0.8494,  0.0515,  0.2535],[ 0.4656,  0.6676,  0.8696,  0.0717,  0.2737]],[[ 0.4151,  0.6171,  0.8191,  0.0212,  0.2232],[ 0.4353,  0.6373,  0.8393,  0.0414,  0.2434],[ 0.4555,  0.6575,  0.8595,  0.0616,  0.2636],[ 0.4757,  0.6777,  0.8797,  0.0818,  0.2838]]],grad_fn=<TransposeBackward0>)

`hn` 的值

print("hn (最后一个时间步的隐藏状态):")
print(hn)

输出示例：

tensor([[[ 0.4656,  0.6676,  0.8696,  0.0717,  0.2737],[ 0.4757,  0.6777,  0.8797,  0.0818,  0.2838]],[[ 0.4858,  0.6878,  0.8898,  0.0919,  0.2939],[ 0.4959,  0.6979,  0.8999,  0.1020,  0.3040]]],grad_fn=<StackBackward>)

数学原理

1. 单层 RNN 的数学表示

2. 多层 RNN 的数学表示

(1) 第一层（ l = 1 l = 1 l=1）

(2) 第 l l l 层（ l > 1 l > 1 l>1）

(3) 输出层

3. 多层 RNN 的数据流向

(1) 输入序列

(2) 初始化隐藏状态

(3) 时间步 t t t 的计算

(4) 序列输出

4. 多层 RNN 的特点

(1) 逐层抽象

(2) 参数共享

(3) 梯度传播

可视化原理

代码实现

1. 示例任务

2. 输入数据

输入句子

输入数据的形状

具体输入数据

3. 初始隐藏状态

初始隐藏状态的形状

具体初始隐藏状态

4. 定义 RNN 模型

5. 前向传播

计算输出

输出解析

6. 具体输出值

output 的值

hn 的值

batch_first=True时

任务

2. 输入数据

输入句子

输入数据的形状

具体输入数据

3. 初始隐藏状态

初始隐藏状态的形状

具体初始隐藏状态

4. 定义 RNN 模型

5. 前向传播

计算输出

输出解析

6. 具体输出值

output 的值

hn 的值

相关文章：

(1) 第一层（ $l = 1$ ）

(2) 第 $l$ 层（ $l > 1$ ）

(3) 时间步 $t$ 的计算

`output` 的值

`hn` 的值

`output` 的值

`hn` 的值