transformer和 RNN以及他的几个变体区别 改进
Transformer、RNN 及其变体(LSTM/GRU)是深度学习中处理序列数据的核心模型,但它们的架构设计和应用场景有显著差异。以下从技术原理、优缺点和适用场景三个维度进行对比分析:
核心架构对比
模型 | 核心机制 | 并行计算能力 | 长序列依赖处理 | 主要缺点 |
---|---|---|---|---|
RNN | 循环结构(隐状态传递) | 否(时序依赖) | 差(梯度消失 / 爆炸) | 无法处理长序列 |
LSTM | 门控机制(输入 / 遗忘 / 输出门) | 否(时序依赖) | 中(缓解梯度问题) | 计算效率低、长序列仍受限 |
GRU | 简化门控(更新门 + 重置门) | 否(时序依赖) | 中(略优于 LSTM) | 长序列能力有限 |
Transformer | 自注意力机制(Self-Attention) | 是(完全并行) | 强(全局依赖建模) | 计算复杂度高、缺乏时序建模 |
技术改进点详解
1. RNN → LSTM/GRU:引入门控机制
- 问题:传统 RNN 在处理长序列时,梯度在反向传播中指数级衰减或爆炸(如 1.1^100≈13780,0.9^100≈0.003)。
- 改进:
- LSTM:通过门控单元控制信息的流入、流出和保留,公式如下:
plaintext
遗忘门:ft = σ(Wf[ht-1, xt] + bf) 输入门:it = σ(Wi[ht-1, xt] + bi) 细胞状态更新:Ct = ft⊙Ct-1 + it⊙tanh(Wc[ht-1, xt] + bc) 输出门:ot = σ(Wo[ht-1, xt] + bo) 隐状态:ht = ot⊙tanh(Ct)
(其中 σ 为 sigmoid 函数,⊙为逐元素乘法) - GRU:将遗忘门和输入门合并为更新门,减少参数约 30%,计算效率更高。
- LSTM:通过门控单元控制信息的流入、流出和保留,公式如下:
2. LSTM/GRU → Transformer:抛弃循环,引入注意力
- 问题:LSTM/GRU 仍需按顺序处理序列,无法并行计算,长序列处理效率低。
- 改进:
- 自注意力机制:直接建模序列中任意两个位置的依赖关系,无需按时间步逐次计算。
plaintext
Attention(Q, K, V) = softmax(QK^T/√d_k)V
(其中 Q、K、V 分别为查询、键、值矩阵,d_k 为键向量维度) - 多头注意力(Multi-Head Attention):通过多个注意力头捕捉不同子空间的依赖关系。
- 位置编码(Positional Encoding):手动注入位置信息,弥补缺少序列顺序的问题。
- 自注意力机制:直接建模序列中任意两个位置的依赖关系,无需按时间步逐次计算。
关键优势对比
模型 | 长序列处理 | 并行计算 | 参数效率 | 语义理解能力 |
---|---|---|---|---|
RNN | ❌ | ❌ | 低 | 弱 |
LSTM/GRU | ✅(有限) | ❌ | 中 | 中 |
Transformer | ✅✅✅ | ✅✅✅ | 高 | 强 |
典型应用场景
-
RNN/LSTM/GRU 适用场景:
- 实时序列预测(如股票价格、语音识别):需按顺序处理输入。
- 长序列长度有限(如短文本分类):LSTM/GRU 可处理数百步的序列。
-
Transformer 适用场景:
- 长文本理解(如机器翻译、摘要生成):能捕捉远距离依赖。
- 并行计算需求(如大规模训练):自注意力机制支持全并行。
- 多模态任务(如视觉问答、图文生成):通过注意力融合不同模态信息。
代码实现对比(PyTorch)
1. LSTM 实现
python
import torch
import torch.nn as nnclass LSTMModel(nn.Module):def __init__(self, input_size, hidden_size, num_layers, output_size):super().__init__()self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True, bidirectional=True)self.fc = nn.Linear(hidden_size * 2, output_size) # 双向LSTMdef forward(self, x):# x shape: [batch_size, seq_len, input_size]out, _ = self.lstm(x) # out shape: [batch_size, seq_len, hidden_size*2]out = self.fc(out[:, -1, :]) # 取最后时间步的输出return out
2. Transformer 实现(简化版)
python
class TransformerModel(nn.Module):def __init__(self, input_dim, d_model, nhead, num_layers, output_dim):super().__init__()self.embedding = nn.Linear(input_dim, d_model)self.pos_encoder = PositionalEncoding(d_model) # 位置编码self.transformer_encoder = nn.TransformerEncoder(nn.TransformerEncoderLayer(d_model, nhead),num_layers)self.fc = nn.Linear(d_model, output_dim)def forward(self, x):# x shape: [seq_len, batch_size, input_dim]x = self.embedding(x) * math.sqrt(self.d_model)x = self.pos_encoder(x)x = self.transformer_encoder(x)x = self.fc(x[-1, :, :]) # 取最后时间步的输出return xclass PositionalEncoding(nn.Module):def __init__(self, d_model, max_len=5000):super().__init__()pe = torch.zeros(max_len, d_model)position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))pe[:, 0::2] = torch.sin(position * div_term)pe[:, 1::2] = torch.cos(position * div_term)self.register_buffer('pe', pe)def forward(self, x):# x shape: [seq_len, batch_size, embedding_dim]return x + self.pe[:x.size(0), :]
总结与选择建议
-
选择 Transformer 的场景:
- 任务需要捕捉长距离依赖(如机器翻译、长文本摘要)。
- 计算资源充足,可支持大规模并行训练。
- 序列长度极长(如超过 1000 步)。
-
选择 LSTM/GRU 的场景:
- 序列需按时间步实时处理(如语音流、实时预测)。
- 数据量较小,Transformer 可能过拟合。
- 内存受限,无法支持 Transformer 的高计算复杂度。
-
混合架构:
- CNN+Transformer:用 CNN 提取局部特征,Transformer 建模全局依赖(如 BERT 中的 Token Embedding)。
- RNN+Transformer:RNN 处理时序动态,Transformer 处理长距离关系(如视频理解任务)。
相关文章:
transformer和 RNN以及他的几个变体区别 改进
Transformer、RNN 及其变体(LSTM/GRU)是深度学习中处理序列数据的核心模型,但它们的架构设计和应用场景有显著差异。以下从技术原理、优缺点和适用场景三个维度进行对比分析: 核心架构对比 模型核心机制并行计算能力长序列依赖处…...

构建云原生安全治理体系:挑战、策略与实践路径
📝个人主页🌹:一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹 一、引言:从传统安全走向“云原生安全” 随着企业 IT 架构从传统单体系统向容器化、微服务和云原生平台转型…...
vue-print-nb 打印相关问题
一、背景与解决方案 1、ElementUI表格打印通病,均面临边框丢失、宽度超出问题:相关解决代码有注释; 2、大多数情况下不会打印页眉页脚的日期、网址、未配置popTitle显示的undefined:相关解决代码有注释; 3、打印预览页…...

vcs仿真产生fsdb波形的两种方式
目录 方法一: 使用verilog自带的系统函数 方法二: 使用UCLI command 2.1 需要了解什么是vcs的ucli,怎么使用ucli? 2.2 使用ucli dump波形的方法 使用vcs仿真产生fsdb波形有两种方式,本文参考《vcs user guide 20…...
每日算法 -【Swift 算法】三数之和
Swift|三数之和(3Sum)详细题解 注释 拓展(LeetCode 15) ✨题目描述 给你一个包含 n 个整数的数组 nums,判断 nums 中是否存在三个元素 a, b, c,使得 a b c 0。请你找出所有和为 0 且不重…...

Go语言底层(三): sync 锁 与 对象池
1. 背景 在并发编程中,正确地管理共享资源是构建高性能程序的关键。Go 语言标准库中的 sync 包提供了一组基础而强大的并发原语,用于实现安全的协程间同步与资源控制。本文将简要介绍 sync 包中常用的类型和方法: sync 锁 与 对象池,帮助开发…...
登高架设作业操作证考试:理论题库高频考点有哪些?
一、安全基础知识 法律法规 《安全生产法》《特种作业人员安全技术培训考核管理规定》中关于登高作业的强制性要求(如持证上岗、培训时限等)。 事故责任划分:未系安全带、无监护作业等违规行为的法律后果。 个人防护 安全带使用标准&#…...

2025年06月06日Github流行趋势
项目名称:agent-zero 项目地址url:https://github.com/frdel/agent-zero项目语言:Python历史star数:8958今日star数:324项目维护者:frdel, 3clyp50, linuztx, evrardt, Jbollenbacher项目简介:A…...
华为云CentOS配置在线yum源,连接公网后,逐步复制粘贴,看好自己对应的版本即可,【新手必看】
华为云镜像源配置 YUM 源的详细步骤: 1. 备份原有的 YUM 源配置文件 在修改 YUM 源之前,建议备份原有的配置文件。通常,YUM 源的配置文件位于 /etc/yum.repos.d/ 目录下。例如,备份 CentOS 的默认 YUM 源配置文件: …...
http头部注入攻击
1.HTTP请求的组成部分 HTTP(HyperText Transfer Protocol)请求由 请求行(Request Line)、请求头(Headers)、空行(Blank Line)和请求体(Request Body) 组成。具体结构如下: 1. 请求行(Request Line) 请求行是HTTP请求的第一行,包含三个部分…...
三类 Telegram 账号的风控差异分析与使用建议
在使用 Telegram 过程中,很多用户会遇到账号被限制、封禁、加群失败等问题。除了操作行为外,账号本身的注册方式、活跃时间、环境匹配程度也会直接影响风控等级。 本篇文章从账号风控角度出发,分析三类常见 Telegram 账号的特点与适用环境&am…...
Matlab | matlab中的点云处理详解
点云处理 ⚙️ **一、点云基础操作**🧹 **二、点云预处理**📊 **三、特征提取与分析**🔄 **四、点云配准(对齐点云)**🔷 **五、三维重建与应用**⚡️ **六、高级功能与性能优化**💎 **七、实战技巧与参数调优**📚 **学习资源**MATLAB 的点云处理能力主要依赖 Poi…...
【机试题解法笔记】寻找最大价值的矿堆
题目 给你一个由 0(空地)、1(银矿)、2(金矿) 组成的的地图,矿堆只能由上下左右相邻的金矿或银矿连接形成。超出地图范围可以认为是空地。 假设银矿价值 1,金矿价值 2,请你找出地图中最大价值的矿堆并输出该矿堆的价值。 输入描述 地图元素信…...

动态规划 熟悉30题 ---上
本来是要写那个二维动态规划嘛,但是我今天在问题时候,一个大佬就把他初一时候教练让他练dp的30题发出来了(初一,啊虽然知道计算机这一专业,很多人从小就学了,但是我每次看到一些大佬从小学还是会很羡慕吧或…...
嵌入式学习笔记- freeRTOS 带FromISR后缀的函数
FreeRTOS中带FromISR后缀的函数 是用于中断的函数,它有两个特点 一个是无等待延时, 一个是无立刻触发任务切换, 那么 一 为什么中断中不能等待(阻塞)? 因为中断中等待的,一般都是任务给予的…...

Linux系统:ELF文件的定义与加载以及动静态链接
本节重点 ELF文件的概念与结构可执行文件,目标文件ELF格式的区别ELF文件的形成过程ELF文件的加载动态链接与静态链接动态库的编址与方法调用 一、ELF文件的概念与结构 1.1 文件概述 ELF(Executable and Linkable Format)即“可执行与可链…...
迷宫与陷阱--bfs+回路+剪枝
1.用bfs板子,同时会出现回路,但不能不用bo数组,要减去一部分没有用的回路 2.什么叫没有用的回路--因为我有无敌了,以前遇到的陷阱就能过了,那这就是有用的回路, 所以我记录(x,y)点…...

【国产化适配】如何选择高效合规的安全数据交换系统?
一、安全数据交换系统的核心价值与国产化需求 在数字化转型浪潮中,企业数据流动的频率与规模呈指数级增长,跨网文件传输已成为日常运营的刚需,所以安全数据交换系统也是企业必备的工具。然而,数据泄露事件频发、行业合规要求趋严…...
基于深度学习的裂缝检测与分割研究方向的 数据集介绍
目录 一、基于深度学习的裂缝检测与分割研究方向 1. 任务定义与挑战 2. 主流方法与技术演进 3. 实际应用优化 二、裂缝检测与分割常用数据集详解 1. SDNET2018 2. CrackTree(CrackTree200) 3. AigleRN 4. CFD(Concrete Crack Detect…...
【Prompt实战】国际翻译小组
本文原创作者:姚瑞南 AI-agent 大模型运营专家/音乐人/野生穿搭model,先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗;多年人工智能行业智能产品运营及大模型落地经验,拥有AI外呼方向国家专利与PMP项目管理证书。&#…...

简化复杂系统的优雅之道:深入解析 Java 外观模式
一、外观模式的本质与核心价值 在软件开发的世界里,我们经常会遇到这样的场景:一个复杂的子系统由多个相互协作的类组成,这些类之间可能存在错综复杂的依赖关系和交互逻辑。当外部客户端需要使用这个子系统时,往往需要了解多个类…...

设计模式杂谈-模板设计模式
在进入正题之前,先引入这样一个场景: 程序员A现在接到这样一个需求:这个需求有10个接口,这些接口都需要接收前端的传参,以及给前端返回业务状态信息。出于数据保密的要求,不管是前端传参还是最终参数返回都…...
LangChain【8】之工具包深度解析:从基础使用到高级实践
文章目录 1. LangChain工具包概述1.1 工具包的基本概念1.2 工具包的主要类型 2. SQL数据库工具包深度解析2.1 基本配置与初始化2.2 数据库连接与验证2.3 工具包初始化与工具获取2.4 创建Agent并执行查询2.5 完整代码 3. 高级使用技巧3.1 自定义工具集成3.2 多工具包组合使用3.3…...

C#入门学习笔记 #6(字段、属性、索引器、常量)
欢迎进入这篇文章,文章内容为学习C#过程中做的笔记,可能有些内容的逻辑衔接不是很连贯,但还是决定分享出来,由衷的希望可以帮助到你。 笔记内容会持续更新~~ 将这四种成语放在一起讲是因为这四种成员都是用来表达数据的。 字段…...

广目软件GM DC Monitor
广目(北京)软件有限公司成立于2024年,技术和研发团队均来自于一家具有近10年监控系统研发的企业。广目的技术团队一共实施了9家政府单位、1家股份制银行、1家芯片制造企业的数据中心监控预警项目。这11家政企单位由2家正部级、1家副部级、6家…...

每日八股文6.6
每日八股-6.6 Mysql1.怎么查看一条sql语句是否走了索引?2.能说说 MySQL 事务都有哪些关键特性吗?3.MySQL 是如何保证事务的原子性的?4.MySQL 是如何保证事务的隔离性的?5.能简单介绍一下 MVCC 吗?或者说,你…...
动静态库的使用(Linux下)
1.库 通俗来说,库就是现有的,可复用的代码,例如:在C/C语言编译时,就需要依赖相关的C/C标准库。本质上来说库是一种可执行代码的二进制形式,可以被操作系统载入内存执行。通常我们可以在windows下看到一些后…...

PostgreSQL17 编译安装+相关问题解决
更新时间:2025.6.6,当前最新稳定版本17.5,演示的是17.5,最新测试版本18beta1 演示系统:debian12 很多时候,只有编译安装才能用上最新的软件版本或指定的版本。这也是编译安装的意义。 一、编译安装 &…...
FFMPEG 提取视频中指定起始时间及结束时间的视频,给出ffmpeg 命令
以下是提取视频中指定起始时间及结束时间的 ffmpeg 命令示例: bash 复制 ffmpeg -i input.mp4 -ss 00:01:30.00 -to 00:05:00.00 -c copy output.mp4 其中,-i input.mp4 是指定要处理的输入视频文件为 “input.mp4”。 -ss 00:01:30.00 表示指定视频的起始时间为 1 分 30 …...

React 第五十六节 Router 中useSubmit的使用详解及注意事项
前言 useSubmit 是 React Router v6.4 引入的强大钩子,用于以编程方式提交表单数据。 它提供了对表单提交过程的精细控制,特别适合需要自定义提交行为或非标准表单场景的应用。 一、useSubmit 核心用途 编程式表单提交:不依赖 <form>…...