当前位置：首页 > news >正文

[深度学习]循环神经网络RNN

news 2026/2/8 23:42:37

RNN（Recurrent Neural Network，即循环神经网络）是一类用于处理序列数据的神经网络，广泛应用于自然语言处理（NLP）、时间序列预测、语音识别等领域。与传统的前馈神经网络不同，RNN具有循环结构，能够通过“记忆”前一时刻的信息来处理序列数据。

RNN的基本结构和工作原理

RNN的关键特性在于它的循环连接，即网络中的隐藏层节点不仅接收当前输入，还接收前一个时刻隐藏层的状态。这个结构使得RNN能够捕捉到数据序列中的时间依赖关系。

具体结构

输入层（Input Layer）：接收当前时刻的输入数据。
隐藏层（Hidden Layer）：具有循环连接，既接收当前时刻的输入，也接收前一个时刻隐藏层的输出。
输出层（Output Layer）：根据隐藏层的状态生成当前时刻的输出。

RNN的工作流程

假设输入序列为 x1,x2,…,xT，其中xt 代表序列在时间 t 的输入。隐藏层的状态 ht 可以表示为：
在这里插入图片描述
其中：

Wxh 是输入到隐藏层的权重矩阵。
Whh 是隐藏层到隐藏层的权重矩阵。
bh 是隐藏层的偏置向量。
σ 是激活函数（例如tanh或ReLU）。

输出 yt 则可以表示为：
在这里插入图片描述
其中：

Why 是隐藏层到输出层的权重矩阵。
by 是输出层的偏置向量。
ϕ 是输出层的激活函数（例如softmax用于分类任务）。

RNN的训练

RNN的训练过程使用反向传播算法，但因为其循环结构，具体使用的是“反向传播通过时间（Backpropagation Through Time，BPTT）”算法。BPTT算法将序列展开成多个时间步长，然后像传统的神经网络一样进行反向传播。

RNN的局限性

梯度消失和梯度爆炸：由于RNN在时间步长上进行反向传播，长序列训练时可能会遇到梯度消失或梯度爆炸的问题。这使得RNN难以学习长距离依赖关系。
长距离依赖问题：标准RNN难以捕捉到长时间步长之间的依赖关系。

RNN的改进

为了解决上述问题，有几种RNN的变体被提出：

长短期记忆网络（LSTM）：通过引入遗忘门、输入门和输出门来控制信息的流动，有效缓解梯度消失问题。
门控循环单元（GRU）：简化了LSTM的结构，但仍然能够有效处理长距离依赖。

代码示例

使用随机生成的销售数据作为输入序列，并尝试预测序列的下一个值。

import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import SimpleRNN, Dense
import matplotlib.pyplot as plt# 生成随机销售数据
def generate_sales_data(seq_length, num_samples):X = []y = []for _ in range(num_samples):start = np.random.rand() * 100data = np.cumsum(np.random.rand(seq_length + 1) - 0.5) + startX.append(data[:-1])y.append(data[-1])return np.array(X), np.array(y)# 参数设置
seq_length = 50
num_samples = 1000
X, y = generate_sales_data(seq_length, num_samples)# 数据集拆分为训练集和测试集
split = int(0.8 * num_samples)
X_train, X_test = X[:split], X[split:]
y_train, y_test = y[:split], y[split:]# 将数据调整为RNN输入的形状
X_train = X_train.reshape((X_train.shape[0], X_train.shape[1], 1))
X_test = X_test.reshape((X_test.shape[0], X_test.shape[1], 1))# 模型构建
model = Sequential([SimpleRNN(50, activation='tanh', input_shape=(seq_length, 1)),Dense(1)
])# 模型编译
model.compile(optimizer='adam', loss='mse')# 打印模型摘要
model.summary()# 模型训练
history = model.fit(X_train, y_train, epochs=20, validation_data=(X_test, y_test))# 模型评估
loss = model.evaluate(X_test, y_test)
print(f"Test Loss: {loss}")# 预测一些值并可视化
y_pred = model.predict(X_test)
plt.plot(y_test, label='True')
plt.plot(y_pred, label='Predicted')
plt.legend()
plt.show()

RNN的应用

自然语言处理（NLP）：如语言模型、机器翻译、文本生成等。
时间序列预测：如股票价格预测、天气预测等。
语音识别：如自动语音识别系统。
视频处理：如视频分类、动作识别等。

总之，RNN及其变体是处理序列数据的强大工具，通过循环结构捕捉时间依赖关系，为许多应用领域提供了有效的解决方案。

[深度学习]循环神经网络RNN

RNN的基本结构和工作原理

具体结构

RNN的工作流程

RNN的训练

RNN的局限性

RNN的改进

代码示例

RNN的应用

相关文章：

[深度学习]循环神经网络RNN

【C++：list】

解锁 Apple M1/M2 上的深度学习力量：安装 TensorFlow 完全指南

Apache Iceberg：现代数据湖存储格式的未来

【离散数学·图论】（复习）

【ONLYOFFICE震撼8.1】ONLYOFFICE8.1版本桌面编辑器测评

Shell 脚本编程保姆级教程（上）

凸优化相关文章汇总

Java鲜花下单预约系统源码小程序源码

网络变压器和RJ45接线的方法

Matlab/simulink三段式电流保护

OOXML入门学习

k8s集群node节点加入失败

layui+jsp项目中实现table单元格嵌入下拉选择框功能，下拉选择框可手动输入内容或选择默认值，修改后数据正常回显。

2024年客户体验的几个预测

【C++】动态内存管理new和delete

Java面向对象特性

odoo17 tree视图添加按钮

PreparedStatement 与Statement 的区别，以及为什么推荐使用 PreparedStatement ？

wsl ubuntu 安装Anaconda3步骤

深度学习在微纳光子学中的应用

【Linux】shell脚本忽略错误继续执行

Mybatis逆向工程，动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件

《Playwright：微软的自动化测试工具详解》

DAY 47

Leetcode 3577. Count the Number of Computer Unlocking Permutations

学习STC51单片机31（芯片为STC89C52RCRC）OLED显示屏1

C++ 基础特性深度解析

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个生活电费的缴纳和查询小程序

OPENCV形态学基础之二腐蚀