当前位置：首页 > news >正文

【深度学习】05-RNN循环神经网络-02- RNN循环神经网络的发展历史与演化趋势/LSTM/GRU/Transformer

news 2026/2/10 12:27:54

RNN网络的发展历史与演化趋势

RNN（Recurrent Neural Network，循环神经网络）是一类用于处理序列数据的神经网络，特别擅长捕捉数据的时间或上下文依赖性。在其发展的过程中，不断出现各种改进和变体，以解决不同的问题。我们可以从时间线的角度来梳理RNN的历史发展、发明背景、以及关键应用

1. 1980s-1990s：RNN的早期提出与梯度问题

1986年：反向传播算法

背景：在此之前，神经网络的训练是一个巨大的挑战，尤其是在多层网络的情况下。训练复杂网络需要传播误差信息，但没有有效的方法来解决这个问题。
提出者：David Rumelhart 等人。
贡献：提出了反向传播算法（Backpropagation），为训练多层神经网络提供了理论基础。随后，反向传播算法被扩展为通过时间的反向传播（Backpropagation Through Time, BPTT），使得RNN可以在时间维度上传播误差信息并更新参数。
局限性：尽管BPTT为训练RNN提供了方法，但RNN仍然面临着梯度消失和梯度爆炸问题，特别是在处理长时间序列时。梯度在反向传播的过程中要么变得过小，导致无法有效更新参数，要么过大，导致梯度爆炸，无法收敛。

1990年：Hopfield网络与递归网络

背景：Hopfield网络是早期递归网络的一种形式，主要用于记忆模型和时间序列数据。
提出者：John Hopfield。
贡献：提出了将神经网络用于动力学系统和联想记忆的概念。虽然Hopfield网络的思路启发了后续递归网络的研究，但它在处理复杂长时间依赖任务时效果有限。
局限性：与早期RNN一样，Hopfield网络难以处理长时间依赖，因为它无法有效解决梯度消失问题。

2. 1997年：LSTM的提出（为了解决梯度消失问题）

背景

问题：传统RNN由于梯度消失问题，难以捕捉长时间序列中的依赖关系，模型无法记住远距离的上下文信息，尤其在长时间序列的数据处理任务（如文本、时间序列预测）中，表现受限。

解决方案：LSTM（Long Short-Term Memory，长短期记忆网络）的引入就是为了解决梯度消失问题，使得RNN能够有效地记住长期依赖。

提出者

Sepp Hochreiter 和 Jürgen Schmidhuber。

LSTM的核心机制

记忆单元和门控机制：LSTM通过设计输入门、遗忘门和输出门来控制信息在网络中的流动：

这种设计使得LSTM能够动态调节信息的保留和遗忘，从而更好地捕捉长期依赖关系。

输入门决定新信息如何进入单元。
遗忘门决定旧信息是否应该被丢弃。
输出门决定当前时刻的输出。

应用场景

自然语言处理（NLP）：LSTM能够在长文本的处理过程中捕捉到远距离的依赖关系，提升了翻译、文本生成等任务的性能。
语音识别：语音识别任务中的语音信号具有长时间依赖性，LSTM在捕捉语音片段间的关联上表现出色。

3. 2014年：GRU的提出（简化LSTM）

背景

问题：尽管LSTM解决了梯度消失问题，但其结构较为复杂，计算开销较大。为提高计算效率，同时保留长时间依赖的处理能力，研究者们希望设计出更简洁的网络结构。
解决方案：门控循环单元（Gated Recurrent Unit, GRU）的提出，是对LSTM的简化版本。

提出者

Kyunghyun Cho等人。

GRU的核心机制

两门机制：GRU去掉了LSTM中的输出门，只保留了重置门和更新门，从而简化了网络结构。

重置门：控制当前输入与过去信息的融合程度。
更新门：控制新旧信息的交换程度，类似于LSTM的遗忘门。

优势

GRU在某些任务中的表现与LSTM相当，但由于结构更简单，GRU具有更快的训练速度和更低的计算成本。

应用场景

文本分类、文本生成：GRU因其计算效率，在自然语言处理的多个任务中被广泛应用，特别是文本分类和机器翻译。

4. 2017年：注意力机制与Transformer的提出

背景

问题：尽管LSTM和GRU在处理长时间依赖任务中表现优秀，但RNN的序列化处理特性使得它无法并行计算，训练速度相对较慢，尤其是处理超长序列时效率较低。
解决方案：Transformer模型通过引入自注意力机制（Self-Attention），彻底摆脱了RNN的循环结构，可以并行处理序列数据，极大提升了训练速度和性能。

提出者

Ashish Vaswani 等人在2017年提出。

Transformer的核心机制

自注意力机制：每个输入单元通过计算与序列中所有其他单元的关系，生成上下文依赖。这样，Transformer无需依赖时间步的前后顺序即可捕捉到序列中的远距离依赖。
并行处理：Transformer允许序列中的每个位置并行处理数据，解决了RNN不能并行处理的局限性。

应用场景

自然语言处理（NLP）：Transformer在NLP任务中迅速崛起，特别是在机器翻译、文本生成和语言建模等任务中大放异彩。基于Transformer的模型，如BERT和GPT，已经成为主流模型，几乎取代了RNN在许多任务中的地位。

BERT（Bidirectional Encoder Representations from Transformers）：Google在2018年发布的预训练模型，利用双向Transformer捕捉上下文依赖，广泛应用于问答、分类、情感分析等任务。
GPT（Generative Pre-trained Transformer）：OpenAI基于Transformer架构提出的生成模型，能够进行高质量的文本生成和对话系统构建，极大提升了自然语言生成任务的性能。

语音识别与合成：Transformer也被应用于语音识别与语音合成任务中，如Transformer-TTS，使得语音合成质量更自然。

5. RNN的改进与变体

随着时间推移，研究者们不断对RNN进行改进，以增强其对复杂序列数据的处理能力。这些变体在不同任务中发挥了独特作用。

5.1. 双向RNN（Bidirectional RNN）

问题：在许多任务中，单向RNN只能从前向后处理序列信息，但实际序列中的信息可能同时依赖于前后文。
解决方案：双向RNN通过在两个方向上同时处理序列信息，使得模型既可以依赖前序信息，也可以利用后序信息。

提出者

Mike Schuster 和 Kuldip K. Paliwal 在1997年提出。

双向RNN的优势

在自然语言处理任务中，当前单词不仅依赖于前面的单词，也依赖于后面的单词。例如，处理句子“我爱你”的时候，双向RNN能够更好地理解“我”与“你”之间的联系。

应用场景

语音识别：双向RNN（如双向LSTM）在语音识别任务中表现尤为优异。例如，Google的语音助手、百度的Deep Speech等语音识别系统广泛采用双向LSTM来处理语音信号。
机器翻译：双向RNN在机器翻译任务中，通过同时捕捉源语言和目标语言的上下文信息，提升了翻译的准确性和流畅度。

5.2. 深度RNN（Deep RNN）

问题：原始的RNN层数较少，无法充分捕捉复杂序列中的深层次依赖。
解决方案：通过堆叠多个RNN层形成深度RNN，可以提升模型的表达能力和对复杂时序任务的处理效果。

提出者

Alex Graves等人在2013年率先提出深度RNN，通过增加网络层数来提升模型的表达能力。

深度RNN的优势

处理复杂序列依赖：通过多层RNN堆叠，深度RNN能够捕捉到更复杂的时间序列关系，并具备更高的特征抽象能力。

应用场景

语音识别：Baidu的Deep Speech 2系统采用了深度双向LSTM，通过训练深度网络，语音识别的准确率得到了显著提升，特别是在嘈杂环境下的表现更加优异。
时间序列预测：深度RNN在金融、气象等领域的时间序列预测任务中表现突出，能够捕捉更复杂的模式。

6. RNN的局限与Transformer的崛起

6.1. RNN的局限性

尽管RNN及其变体（LSTM、GRU）解决了很多序列处理中的问题，但仍存在以下局限：

并行化困难：RNN由于其依赖于前后时间步的计算结果，难以并行处理，训练速度较慢。
长距离依赖问题：即使是LSTM和GRU，在处理极长的序列时，仍然面临一定程度的长距离依赖困难，信息可能随着时间步衰减。

6.2. Transformer的崛起（2017年）

背景：RNN的计算限制（如不能并行化）推动了新的模型结构的探索。Transformer通过自注意力机制完全摆脱了循环结构，使得模型能够并行处理序列，并极大提升了长距离依赖问题的解决能力。
Transformer的优势：
- 并行计算：序列中的所有位置都可以同时进行计算，大大提高了训练速度。
- 长距离依赖：自注意力机制能够捕捉到序列中任意距离的依赖关系，而无需像RNN那样逐步传递信息。
应用场景：Transformer的出现使得RNN在NLP中的地位逐渐被取代。
- BERT和GPT等基于Transformer的模型在机器翻译、文本生成、文本分类等任务中表现优异，已成为NLP领域的标准模型。

7. 近期RNN的应用与未来趋势

尽管Transformer在NLP等领域迅速崛起，但RNN及其变体（LSTM、GRU）仍在许多领域发挥着重要作用，特别是在处理需要时间序列建模的任务中。

7.1. 近期应用

金融领域：LSTM和GRU仍然广泛应用于股票市场预测、期货分析等金融时间序列数据的建模中。
医疗领域：在医学诊断、病人生命体征监控等任务中，LSTM用于处理复杂的时间序列数据，帮助预测病情发展。
语音处理：尽管Transformer模型逐步进入语音识别领域，但在低资源和小规模的应用场景中，RNN（尤其是GRU）仍然表现优异。

7.2. 未来趋势

Transformer模型的进一步扩展：Transformer模型已经在自然语言处理和计算机视觉领域取得了显著成果，未来的趋势是更多任务和领域转向Transformer架构。
RNN与其他网络的结合：未来可能会出现更多RNN与CNN、RNN与Transformer结合的混合模型，以充分利用不同模型的优势。

总结

RNN的早期发展：RNN的提出解决了序列数据的建模问题，但面临梯度消失和梯度爆炸的挑战。
LSTM和GRU的提出：LSTM和GRU通过门控机制缓解了梯度消失问题，使得RNN能够有效处理长时间依赖。
Transformer的崛起：Transformer通过自注意力机制替代了RNN，解决了并行化和长距离依赖的问题，逐渐取代RNN成为NLP中的主流模型。
RNN的应用与未来：尽管Transformer正在许多领域取代RNN，但RNN仍在时间序列预测、语音处理和金融分析等领域发挥着重要作用。未来，RNN与其他模型的结合将成为重要发展方向。

【深度学习】05-RNN循环神经网络-02- RNN循环神经网络的发展历史与演化趋势/LSTM/GRU/Transformer

RNN网络的发展历史与演化趋势 RNN（Recurrent Neural Network，循环神经网络）是一类用于处理序列数据的神经网络，特别擅长捕捉数据的时间或上下文依赖性。在其发展的过程中，不断出现各种改进和变体，以解决不…...

编程日记 2024/9/28 9:39:08

C++学习9.27

1、顺序表、栈、队列都更改成模板类 （1）顺序表 #include <iostream> #include <cstring>using namespace std;template <typename T1,typename T2,typename T3> class My_string { private:T1 *ptr; //指向字符数组的指针T2…...

编程日记 2024/9/28 9:38:07

【STM32开发环境搭建】-1-Keil(MDK) 5.27软件安装和注册教程

目录 1 安装前装备工作 2 安装KEIL(MDK-ARM) 5.27软件 3 注册KEIL(MDK-ARM) 5.27软件，获取License许可证 4 手动安装STM32F0，STM32F1，STM32F4，STM32F7，STM32H7的支持包 4.1 下载STM32的支持包 4.2 安装STM32的支…...

编程日记 2024/9/28 9:36:05

武汉正向科技格雷母线公司，无人天车系统，采用格雷母线定位技术

正向科技-格雷母线高精确定位技术-实操视频高精度格雷母线内胆采用刚性内胆，基板采用精密度数控加工工艺，穿线卡采用高精度模具制作，不采用泡沫板填充，提高了地址检测精度和线性度。最新一代的格雷母线定位技术特点是全数字化检…...

编程日记 2024/9/28 9:32:01

【保姆级教程】批量下载Pexels视频Python脚本（以HumanVid数据集为例）

目录方案一：转换链接为download模式方案二：获取源链接后下载附录：HumanVid链接方案一：转换链接为download模式将下载链接的后缀加入 /download 然后用下面的脚本下载： import argparse import json import o…...

编程日记 2024/9/28 9:31:00

Python画笔案例-067 绘制配乐七角星

1、绘制橙子通过 python 的turtle 库绘制配乐七角星，如下图： 2、实现代码绘制配乐七角星，以下为实现代码： """配乐七角星.py本程序需要coloradd模块支持,安装方法:pip install coloradd""" import turtle from coloradd import color…...

编程日记 2024/9/28 9:29:59

Spark Job 对象详解

在 Apache Spark 中，Job 对象是执行逻辑的核心组件之一，它代表了对一系列数据操作（如 transformations 和 actions）的提交。理解 Job 的本质和它在 Spark 中的运行机制，有助于深入理解 Spark 的任务调度、执行模型和容…...

编程日记 2024/9/28 9:27:57

C#中NModbus4中常用的方法

NModbus4 是一个用于 Modbus 协议通信的 C# 库，它支持串行 ASCII、RTU、TCP 和 UDP 协议。以下是 NModbus4 中常用的一些方法： 创建连接： ModbusSerialMaster.CreateRtu(SerialPort serialPort): 创建一个 RTU 串行连接。ModbusSerialMaster.…...

编程日记 2024/9/28 9:23:52

【Linux】线程同步与互斥

一、线程间互斥 1 .进程线程间的互斥相关概念临界资源：多线程执行流共享的资源就叫做临界资源临界区：每个线程内部，访问临界资源的代码，就叫做临界区互斥：任何时刻，互斥保证有且只有一个执行流进入临界…...

编程日记 2024/9/28 9:22:51

1. nginx配置404跳转回默认路由 https://blog.csdn.net/masteryee/article/details/83689954 https://blog.csdn.net/IbcVue/article/details/133230460 https://www.jb51.net/server/317970ynk.htm https://blog.csdn.net/u014438244/article/details/120531287 https://blog…...

编程日记 2024/9/28 9:20:49

Eclipse 快捷键：提高开发效率的利器

Eclipse 快捷键：提高开发效率的利器 Eclipse 是一款广泛使用的集成开发环境（IDE），它为Java、C、PHP等编程语言提供了强大的开发支持。对于开发者来说，熟练掌握Eclipse的快捷键不仅能提高编码效率，还能减少…...

编程日记 2024/9/28 9:19:48

Agent智能体

Agent（智能体）是一个能够感知环境并采取行动的自主实体，通常被设计用于在特定的环境中执行任务。智能体可以通过学习、推理等方式来决策，目标是最大化某种效用或实现某个预定的目标。它们广泛应用于自动化系统、游戏AI、机器人、自…...

编程日记 2024/9/28 9:17:47

用Promise实现前端并发请求

/** * 构造假请求 */ async function request(url) {return new Promise((resolve) > {setTimeout(() > {resolve(url);},// Math.random() * 500 800,1000,);}); }请求一次，查看耗时，预计应该是1s： async function requestOnce() {c…...

编程日记 2024/9/28 9:16:46

通过队列实现栈

请你仅使用两个队列实现一个后入先出（LIFO）的栈，并支持普通栈的全部四种操作（push、top、pop 和 empty）。实现 MyStack 类： void push(int x) 将元素 x 压入栈顶。int pop() 移除并返回栈顶元素。int to…...

编程日记 2024/9/28 9:14:44

Mac下可以平替paste的软件pastemate，在windows上也能用，还可以实现数据多端同步

Mac平台上非常经典的剪贴板管理工具：「Paste」。作为一款功能完善且易用的工具，「Paste」在实际使用中体现出了许多令人欣赏的特点。但是它是一个收费软件，一年至少要24美元. 现有一平替软件pastemate,功能更加丰富,使用更加方便。下载地址…...

编程日记 2024/9/28 9:13:43

106. 从中序与后序遍历序列构造二叉树

文章目录 106. 从中序与后序遍历序列构造二叉树思路 105. 从前序与中序遍历序列构造二叉树思路思考 106. 从中序与后序遍历序列构造二叉树 106. 从中序与后序遍历序列构造二叉树给定两个整数数组 inorder 和postorder，其中 inorder 是二叉树的中序遍历&#xff…...

编程日记 2024/9/28 9:11:41

监控和日志管理：深入了解Nagios、Zabbix和Prometheus

在现代IT运维中，监控和日志管理是确保系统稳定性和性能的关键环节。本文将介绍三种流行的监控工具：Nagios、Zabbix和Prometheus，帮助您了解它们的特点、使用场景以及如何进行基本配置。一、Nagios Nagios 是一个强大的开源监控系统&#x…...

编程日记 2024/9/28 9:10:40

Win10下载Python：一步步指南

Win10下载Python：一步步指南在Win10操作系统中下载并安装Python可能是一项挑战性的任务，但是在本文中，我们将向您提供三个不同的方法，以便轻松地完成这项任务。方法一：使用Microsoft Store Microsoft Store是一个…...

编程日记 2024/9/28 9:09:38

Race Karts Pack 全管线卡丁车赛车模型素材

是8辆高细节、可定制的赛车，内部有纹理。经过优化，可在手机游戏中使用。Unity车辆系统已实施-准备驾驶。此套装包含8种不同的车辆，每种车辆有8-10种颜色变化，总共有75种车辆变化！技术细节： -每辆卡丁车模型使用4种材料（车身、玻璃、车轮和BrakeFlare）纹理大小： -车…...

编程日记 2024/9/28 9:08:37

C#——switch案例讲解

案例：根据输入的内容判断执行哪一条输出语句 string number txtUserName.Text; switch(number) { case"101":MessageBox.Show("您进入了101房间");break; case"102":MessageBox.Show("您进入了102房间");break; case&quo…...

编程日记 2024/9/28 9:07:35

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…...

编程新知 2026/2/7 23:18:39

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造，完美适配AGV和无人叉车。同时，集成以太网与语音合成技术，为各类高级系统（如MES、调度系统、库位管理、立库等）提供高效便捷的语音交互体验。 L…...

编程新知 2026/2/8 4:23:14

AI Agent与Agentic AI：原理、应用、挑战与未来展望

文章目录一、引言二、AI Agent与Agentic AI的兴起2.1 技术契机与生态成熟2.2 Agent的定义与特征2.3 Agent的发展历程三、AI Agent的核心技术栈解密3.1 感知模块代码示例：使用Python和OpenCV进行图像识别 3.2 认知与决策模块代码示例：使用OpenAI GPT-3进…...

编程新知 2026/1/23 7:04:53

UDP(Echoserver)

网络命令 Ping 命令检测网络是否连通使用方法: ping -c 次数网址ping -c 3 www.baidu.comnetstat 命令 netstat 是一个用来查看网络状态的重要工具. 语法：netstat [选项] 功能：查看网络状态常用选项： n 拒绝显示别名&#…...

编程新知 2026/1/24 7:56:15

【项目实战】通过多模态+LangGraph实现PPT生成助手

PPT自动生成系统基于LangGraph的PPT自动生成系统，可以将Markdown文档自动转换为PPT演示文稿。功能特点 Markdown解析：自动解析Markdown文档结构PPT模板分析：分析PPT模板的布局和风格智能布局决策：匹配内容与合适的PPT布局自动…...

编程新知 2026/2/10 10:35:58

python爬虫：Newspaper3k 的详细使用（好用的新闻网站文章抓取和解析的Python库）

更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录一、Newspaper3k 概述1.1 Newspaper3k 介绍1.2 主要功能1.3 典型应用场景1.4 安装二、基本用法2.2 提取单篇文章的内容2.2 处理多篇文档三、高级选项3.1 自定义配置3.2 分析文章情感四、实战案例4.1 构建新闻摘要聚合器…...

编程新知 2025/10/25 7:51:48

Neo4j 集群管理：原理、技术与最佳实践深度解析

Neo4j 的集群技术是其企业级高可用性、可扩展性和容错能力的核心。通过深入分析官方文档，本文将系统阐述其集群管理的核心原理、关键技术、实用技巧和行业最佳实践。 Neo4j 的 Causal Clustering 架构提供了一个强大而灵活的基石，用于构建高可用、可扩展且一致的图数据库服务…...

编程新知 2025/12/27 16:43:24

解决本地部署 SmolVLM2 大语言模型运行 flash-attn 报错

出现的问题安装 flash-attn 会一直卡在 build 那一步或者运行报错解决办法是因为你安装的 flash-attn 版本没有对应上，所以报错，到 https://github.com/Dao-AILab/flash-attention/releases 下载对应版本，cu、torch、cp 的版本一定要对…...

编程新知 2025/11/3 2:11:24

JVM 内存结构详解

内存结构运行时数据区： Java虚拟机在运行Java程序过程中管理的内存区域。程序计数器： 线程私有，程序控制流的指示器，分支、循环、跳转、异常处理、线程恢复等基础功能都依赖这个计数器完成。每个线程都有一个程序计数…...

编程新知 2026/2/6 3:24:58

RNN网络的发展历史与演化趋势

1. 1980s-1990s：RNN的早期提出与梯度问题

1986年：反向传播算法

1990年：Hopfield网络与递归网络

2. 1997年：LSTM的提出（为了解决梯度消失问题）

背景

LSTM的核心机制

应用场景

3. 2014年：GRU的提出（简化LSTM）

背景

提出者

GRU的核心机制

优势

应用场景

4. 2017年：注意力机制与Transformer的提出

背景

提出者

Transformer的核心机制

应用场景

5. RNN的改进与变体

5.1. 双向RNN（Bidirectional RNN）

提出者

双向RNN的优势

应用场景

5.2. 深度RNN（Deep RNN）

提出者

深度RNN的优势

应用场景

6. RNN的局限与Transformer的崛起

6.1. RNN的局限性

6.2. Transformer的崛起（2017年）

7. 近期RNN的应用与未来趋势

7.1. 近期应用

7.2. 未来趋势

总结

相关文章：