当前位置：首页 > article >正文

图解循环神经网络（RNN）

article 2026/4/15 3:42:02

1.循环神经网络介绍

2.网络结构

3.结构分类

4.模型工作原理

5.模型工作示例

6.总结

1.循环神经网络介绍

RNN（Recurrent Neural Network，循环神经网络）是一种专门用于处理序列数据的神经网络结构。与传统的神经网络不同，RNN具有记忆能力，能够捕捉序列数据中的时间依赖关系。

也就是说相比其他仅靠输入单一预测结果的神经网络，循环神经网络可以考虑前面输入的多个因素。比如现在流行的语言模型，他能记住你前面输入的内容，当你新输入某一个问题时候，他会去寻找是否和你前面输入的问题有联系。

2.网络结构

RNN的基本结构包括输入层、隐藏层和输出层。在每个时间步，RNN都会接收当前的输入数据（如一个词的嵌入表示）和前一个时间步的隐藏状态，然后生成一个新的隐藏状态和输出。这个新的隐藏状态不仅包含了当前时间步的信息，还融合了之前所有时间步的信息，因此RNN能够捕捉到序列数据中的上下文信息。

具体来说，RNN的隐藏状态是记忆部分，它在每个时间步都会被更新。隐藏状态的计算通常包括将当前时间步的输入数据和前一个时间步的隐藏状态传递给一个激活函数（如tanh或ReLU），从而生成新的隐藏状态。这个隐藏状态随后会被用作下一个时间步的输入之一，同时也可能用于生成当前时间步的输出。

3.结构分类

一对一结构：单个神经网络，即输入和输出都是单个值或向量。

一对多结构：单一输入转为序列输出。这类RNN可以处理图片，然后输出图片的描述信息。

多对一结构：序列输入转为单个输出。这种结构多用在电影评价分析等领域。

N对N结构：输入输出等长序列。这类限制比较大，常见的应用有作诗机器人等。

多对多结构（Seq2Seq结构）：输入输出不等长的多对多结构，又叫Encoder-Decoder模型。这种结构的应用范围非常广泛，包括语言翻译、文本摘要、阅读理解、对话生成等。

4.模型工作原理

初始化状态：在序列的开始，RNN会有一个初始隐藏状态，通常是一个零向量或通过某种方式初始化。

序列处理：对于序列中的每个元素，RNN会计算当前时间步的隐藏状态。这通常通过一个激活函数（如tanh或ReLU）来完成。

信息传递：隐藏状态会传递到下一个时间步，与新的输入一起更新。

输出生成：在每个时间步，RNN可以生成一个输出，这通常通过另一个激活函数来完成。

序列结束：当序列结束时，RNN可以输出最终的隐藏状态，或者通过一个额外的输出层来生成最终的预测。

5.模型工作示例

对于一个词汇表，先将其转换成向量的形式。

这里那填词案例来演示，就是说当一段词语有一个空白需要填词，一般的神经网络是考虑前一个词语来预测这个空白，而循环神经网络不光是考虑空白前的那个词，还会考虑前面的已有的词，进一步预测空白处的词语，RNN可以捕捉到前面输入词语之间的联系，提高填入的词语的准确度。

通过RNN的隐藏层获取输入之间的联系，下一个输入的同时会联系到上一个输入的隐藏状态，当输入结束时候输出最终的结果。

6.总结

循环神经网络可以很好的捕捉到之前的各项输入之间的联系，相对于其他传统的神经网络更加灵活，应用的场景也更多，结果也更准确。并且RNN中的权重参数是共享的，这有助于减少模型的参数数量并提高计算效率。但是循环神经网络也存在一些不足，比如梯度消失和梯度爆炸问题：在长序列任务中，RNN容易出现梯度消失或梯度爆炸的问题，导致模型难以训练。

图解循环神经网络（RNN）

1.循环神经网络介绍

2.网络结构

3.结构分类

4.模型工作原理

5.模型工作示例

6.总结

相关文章：

图解循环神经网络（RNN）

【数据结构】(9) 优先级队列（堆）

4、IP查找工具-Angry IP Scanner

【Linux】命令操作、打jar包、项目部署

瑞萨RA-T系列芯片ADCGPT功能模块的配合使用

python爬虫系列课程1：初识爬虫

【笔记】Huggingface Transformers 库加载预训练模型的 4 种方式

Unity Shader学习6：多盏平行光+点光源 ( 逐像素 ) 前向渲染 (Built-In)

tailwindcss学习01

DIN：引入注意力机制的深度学习推荐系统，

【前端】如何安装配置WebStorm软件？

【Golang学习之旅】Go 语言微服务架构实践（gRPC、Kafka、Docker、K8s）

Spring核心思想之—AOP（面向切面编程）

使用 Openpyxl 操作 Excel 文件详解

关于使用雪花算法生成唯一ID,返回给前端ID不一致的问题

axios post请求接收sse[eventsource]数据的

Spring Boot 示例项目：从零开始构建 Web 应用

大语言模型常用微调与基于SFT微调DeepSeek R1指南

聚焦地灾防治，助力城市地质安全风险防控

为什么WP建站更适合于谷歌SEO优化？

基于JavaScript的实时数据监控仪表盘开发实践

同步异步日志系统-日志落地模块的实现

大模型常识：什么是大模型/大语言模型/LLM

用deepseek学大模型08-长短时记忆网络 (LSTM)

IOT通道MQTT

（蓝桥杯——10. 小郑做志愿者）洛斯里克城志愿者问题详解

小胡说技书博客分类（部分目录）：服务治理、数据治理与安全治理对比表格

开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B-LoRA微调-LLaMA-Factory-单机单卡-V100（一）

如何避免redis长期运行持久化AOF文件过大的问题：AOF重写

uni-app发起网络请求的三种方式