【深度学习】Transformer简介
近年来,Transformer模型在自然语言处理(NLP)领域中横扫千军,以BERT、GPT为代表的模型屡屡屠榜,目前已经成为了该领域的标准模型。同时,在计算机视觉等领域中,Transformer模型也逐渐得到了重视,越来越多的研究工作开始将这类模型引入到算法中。本文基于2017年Google发表的论文,介绍Transformer模型的原理。
一、为什么要引入Transformer?
最早提出的Transformer模型[1]针对的是自然语言翻译任务。在自然语言翻译任务中,既需要理解每个单词的含义,也需要利用单词的前后顺序关系。常用的自然语言模型是循环神经网络(Recurrent Neural Network,RNN)和卷积神经网络(Convolutional Neural Network,CNN)。
其中,循环神经网络模型每次读入一个单词,并基于节点当前的隐含状态和输入的单词,更新节点的隐含状态。从上述过程来看,循环神经网络在处理一个句子的时候,只能一个单词一个单词按顺序处理,必须要处理完前边的单词才能开始处理后边的单词,因此循环神经网络的计算都是串行化的,模型训练、模型推理的时间都会比较长。
另一方面,卷积神经网络把整个句子看成一个1*D维的向量(其中D是每个单词的特征的维度),通过一维的卷积对句子进行处理。在卷积神经网络中,通过堆叠卷积层,逐渐增加每一层卷积层的感受野大小,从而实现对上下文的利用。由于卷积神经网络对句子中的每一块并不加以区分,可以并行处理句子中的每一块,因此在计算时,可以很方便地将每一层的计算过程并行化,计算效率高于循环神经网络。但是卷积神经网络模型中,为了建立两个单词之间的关联,所需的网络深度与单词在句子中的距离正相关,因此通过卷积神经网络模型学习句子中长距离的关联关系的难度很大。
Transformer模型的提出就是为了解决上述两个问题:(1)可以高效计算;(2)可以准确学习到句子中长距离的关联关系。
二、Transformer模型介绍
如下图所示,Transformer模型采用经典的encoder-decoder结构。其中,待翻译的句子作为encoder的输入,经过encoder编码后,再输入到decoder中;decoder除了接收encoder的输出外,还需要当前step之前已经得到的输出单词;整个模型的最终输出是翻译的句子中下一个单词的概率。

现有方法中,encoder和decoder通常都是通过多层循环神经网络或卷积实现,而Transformer中则提出了一种新的、完全基于注意力的网络layer,用来替代现有的模块,如下图所示。图中encoder、decoder的结构类似,都是由一种模块堆叠N次构成的,但是encoder和decoder中使用的模块有一定的区别。具体来说,encoder中的基本模块包含多头注意力操作(Multi-Head Attention)、多层感知机(Feed Forward)两部分;decoder中的基本模块包含2个不同的多头注意力操作(Masked Multi-Head Attention和Multi-Head Attention)、多层感知机(Feed Forward)三部分。

在上述这些操作中,最核心的部分是三种不同的Multi-Head Attention操作,该操作的过程如下图所示,可以简单理解为对输入feature的一种变换,通过特征之间的关系(attention),增强或减弱特征中不同维度的强度。模型中使用的三种注意力模块如下:
- Encoder中的Multi-Head Attention:encoder中的multi-head attention的输入只包含编码器中上一个基本模块的输出,使用上一个基本模块的输出计算注意力,并调整上一个基本模块的输出,因此是一种“自注意力”机制;
- Decoder中的Masked Multi-Head Attention:Transformer中,decoder的输入是完整的目标句子,为了避免模型利用还没有处理到的单词,因此在decoder的基础模块中,在“自注意力”机制中加入了mask,从而屏蔽掉不应该被模型利用的信息;
- Decoder中的Multi-Head Attention:decoder中,除了自注意力外,还要利用encoder的输出信息才能正确进行文本翻译,因此decoder中相比encoder多使用了一个multi-head attention来融合输入语句和已经翻译出来的句子的信息。这个multi-head attention结合使用decoder中前一层“自注意力”的输出和encoder的输出计算注意力,然后对encoder的输出进行变换,以变换后的encoder输出作为输出结果,相当于根据当前的翻译结果和原始的句子来确定后续应该关注的单词。

除核心的Multi-Head Attention操作外,作者还采用了位置编码、残差连接、层归一化、dropout等操作将输入、注意力、多层感知机连接起来,从而构成了完整的Transformer模型。通过修改encoder和decoder中堆叠的基本模块数量、多层感知机节点数、Multi-Head Attention中的head数量等参数,即可得到BERT、GPT-3等不同的模型结构。
三、实验效果
实验中,作者在newstest2013和newstest2014上训练模型,并测试了模型在英语-德语、英语-法语之间的翻译精度。实验结果显示,Transformer模型达到了State-of-the-art精度,并且在训练开销上比已有方法低一到两个数量级,展现出了该方法的优越性。
与已有方法的对比实验,显示出更高的BLEU得分和更低的计算开销:

模块有效性验证,模型中每个单次的特征维度、多头注意力中头的数量、基本模块堆叠数量等参数对模型的精度有明显的影响:

参考文献
[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin. Attention Is All You Need. NIPS 2017.
相关文章:
【深度学习】Transformer简介
近年来,Transformer模型在自然语言处理(NLP)领域中横扫千军,以BERT、GPT为代表的模型屡屡屠榜,目前已经成为了该领域的标准模型。同时,在计算机视觉等领域中,Transformer模型也逐渐得到了重视&a…...
Linux 是否被过誉了?
Linux 是否被过誉了? 有些人眼里,电脑这种东西就应该是华丽丽的桌面,手握鼠标戳戳按钮,键盘只为偶尔打打字,仿佛windows式的桌面形式才是理所应当,GUI才是理所应当,x86才是理所应当,…...
【SpringBoot篇】Spring_Task定时任务框架
文章目录 🌹概述🌺应用场景🎄cron表达式🛸入门案例🎍实际应用 🌹概述 Spring Task 是 Spring 框架提供的一种任务调度和异步处理的解决方案。可以按照约定的时间自动执行某个代码逻辑它可以帮助开发者在 S…...
智能导视电子指路牌是什么?
SVIP-3800系列智能电子指路牌也称智慧指路灯杆,智能指路牌,导航立柱,多功能指示牌,多功能路标,智能指路机器人,智能导视指路牌,问路导航机器人,智能路牌,叁仟智慧路牌、智…...
Android 13.0 无源码app修改它的icon图标
1.概述 在13.0的系统产品rom定制化开发中,有些产品需要对Launcher3中桌面显示的app的icon做替换,如果没有源码的话更换会麻烦点,需要从pms解析app的时候, 可以替换掉app的icon图标就可以了,接下来就来实现相关的功能 2.无源码app修改它的icon图标的相关核心类 framework…...
【钉钉】通过链接方式跳转到应用机器人聊天窗口
使用这个方式: dingtalk://dingtalkclient/action/jumprobot?dingtalkid可以通过机器人回调拿到chatbotUserId这个字段,这个就是dingtalkid。 示例:(chatbotUserId是不规则字符串,链接拼上这个参数最好 urlencode一…...
Linux平台下使用.NET Core访问Access数据库
运行环境 操作系统:Ubuntu 22.04.3 LTS (Jammy)开发工具:Visual Studio 2022 (17.8.0)运行时版本:.NET Runtime 8.0依赖库:unixodbc、mdbtools、odbc-mdbtools 依赖库安装 apt-get update sudo apt-get install unixodbc mdbto…...
SpringCloud - 新版淘汰 Ribbon,在 OpenFeign 中整合 LoadBalancer 负载均衡
目录 一、LoadBalancer 负载均衡 1.1、前言 1.2、LoadBalancer 负载均衡底层实现原理 二、整合 OpenFeign LoadBalancer 2.1、所需依赖 2.2、具体实现 2.3、自定义负载均衡策略 一、LoadBalancer 负载均衡 1.1、前言 在 2020 年以前的 SpringCloud 采用 Ribbon 作为负载…...
[MySQL-基础]SQL语句
目录 hello! 这里是欧_aita的频道。 今日语录: 只有放弃才是真正的失败。 祝福语:愿你的代码生活充满注释,逻辑清晰,debug之路畅通无阻。 大家可以在评论区畅所欲言,可以指出我的错误,在交流中共同进步。 欢迎关注我的…...
CentOS 7实现类似于Kali Linux中的自动补全功能
在CentOS 7中,可以通过安装和使用Bash-completion来实现自动补全功能,类似于Kali Linux中的自动补全。以下是安装和使用Bash-completion的步骤: 首先,确保您的系统已更新并安装了EPEL存储库。(非必要,直接…...
skywalking中gateway的拓扑图没有出现
背景: 刚开始的时候gateway没有出现,后来百度说添加插件的jar包, apm-spring-cloud-gateway-2.1.x-plugin-8.15.0.jar apm-spring-webflux-5.x-plugin-8.15.0.jar 然后解决了gateway节点出来了, 但是:拓扑图却是User指…...
【前端学java】java中的日期操作(12)
往期回顾: 【前端学java】JAVA开发的依赖安装与环境配置 (0)【前端学 java】java的基础语法(1)【前端学java】JAVA中的packge与import(2)【前端学java】面向对象编程基础-类的使用 (…...
用eclipse搭建简单的JavaWeb环境
在 Eclipse 中搭建 JavaWeb 项目的环境涉及到配置服务器、创建项目、添加库等步骤。以下是基于 Eclipse 的 JavaWeb 项目搭建的简要步骤: 步骤: 1. 安装 Eclipse IDE for Java EE Developers 确保你已经安装了 Eclipse IDE for Java EE Developers 版…...
【精选】改进的YOLOv5:红外遥感图像微型目标的高效识别系统
1.研究背景与意义 随着科技的不断发展,红外遥感技术在军事、安防、环境监测等领域中得到了广泛应用。红外遥感图像具有独特的优势,可以在夜间或恶劣天气条件下获取目标信息,因此在小目标检测方面具有重要的应用价值。然而,由于红…...
HarmonyOS ArkTS语言,运行Hello World(一)
一、下载与安装DevEco Studio 在HarmonyOS应用开发学习之前,需要进行一些准备工作,首先需要完成开发工具DevEco Studio的下载与安装以及环境配置。 进入DevEco Studio下载官网,单击“立即下载”进入下载页面。 DevEco Studio提供了Windows…...
IDEA中注释快捷键及模板
单行注释 将光标放置于要注释所在行,使用 Ctrl /, 添加行注释,再次使用,去掉行注释 若需要将多行进行单行注释,只需要选中要注释的多行,然后使用 Ctrl /, 添加行注释,再次使用&a…...
centos7系统下postgresql15离线安装,卸载
1. 创建postgres用户 #[rootVMTest postgresql16]# useradd -g postgres postgres [rootVMTest postgresql16]# useradd postgres 插曲:在线YUM安装 在线安装参考: PostgreSQL: Linux downloads (Red Hat family) 2. 下载并安装离线rpm包 2.1 从postgresql官网下…...
C#线程 ConcurrentQueue安全队列介绍
https://blog.csdn.net/qq_41230604/article/details/126305068 C#线程安全队列ConcurrentQueue ConcurrentQueue队列是一个高效的线程安全的队列,是Net Framework 4.0,System.Collections.Concurrent命名空间下的一个数据结构。 ConcurrentQueue内部结…...
CURL踩坑记录
因为项目使用的windows server,且没有安装Postman,所以对于在本地的Postman上执行的请求,要拷贝到服务器执行,只能先转化成为curl命令,操作也很简单,如下: 注意,Postman默认对url包围…...
Python 自动化(十八)admin后台管理
admin后台管理 什么是admin后台管理 django提供了比较完善的后台数据库的接口,可供开发过程中调用和测试使用 django会搜集所有已注册的模型类,为这些模型类提供数据管理界面,供开发使用 admin配置步骤 创建后台管理账号 该账号为管理后…...
2025终极身份验证指南:双因素认证如何保护80%账户免遭入侵
2025终极身份验证指南:双因素认证如何保护80%账户免遭入侵 【免费下载链接】Back-End-Developer-Interview-Questions A list of back-end related questions you can be inspired from to interview potential candidates, test yourself or completely ignore 项…...
Locale-Emulator完全指南:从零掌握Windows区域模拟的5个关键步骤
Locale-Emulator完全指南:从零掌握Windows区域模拟的5个关键步骤 【免费下载链接】Locale-Emulator Yet Another System Region and Language Simulator 项目地址: https://gitcode.com/gh_mirrors/lo/Locale-Emulator 你是否曾经因为日文游戏乱码、繁体软件…...
Claude Code 十大必装 MCP 排行榜(2026年最新版)
🏆 Claude Code 十大必装 MCP 排行榜(2026年最新版) 作为一名重度使用 Claude Code 的开发者,我踩过不少坑,也发现了许多能极大提升开发效率的 MCP。今天就把我心目中最值得安装的10个 MCP 整理出来,附带详…...
无老板公司自治投票程序,颠覆公司老板决策制,全员链上投票决定事务,实现去中心化小微团队管理。
整体定位为:小微团队去中心化管理实验原型,不包含政治主张,仅从技术与组织设计角度探讨“老板角色弱化”的可能性。一、实际应用场景描述在 3–15 人的小型创业团队、DAO 实验小组、自由职业者协作网络中,常见如下治理模式&#x…...
美国数据中心扩张浪潮下的农村抗争与资源之争
在伊利诺伊州塔兹韦尔县,农民迈克尔德佩特依靠农场沙质土壤下天然的地下水源,灌溉着他田间种植的南瓜、玉米和大豆。当一个数据中心项目被提议建在距其农场约八英里处时,他开始担忧该项目会抽取同一含水层,进而损害农作物产量和收…...
光储系统控制与光伏阵列故障检测【附代码】
✨ 本团队擅长数据搜集与处理、建模仿真、程序设计、仿真代码、EI、SCI写作与指导,毕业论文、期刊论文经验交流。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流,查看文章底部二维码(1)改进粒子群与扰动观察融合的全局MPPT控制ÿ…...
别再被SRIO IP的时钟搞晕了!手把手教你理清log_clk、phy_clk和gt_clk的关系(附Vivado配置避坑指南)
深度解析SRIO IP时钟架构:从理论到Vivado实战配置 第一次在Vivado中配置SRIO IP核时,面对log_clk、phy_clk、gt_clk和refclk这四个时钟选项,我的鼠标指针在GUI界面上徘徊了整整十五分钟——每个选项都像是一个未解之谜。这场景让我想起刚入行…...
SMHasher问题排查:常见错误及其解决方案
SMHasher问题排查:常见错误及其解决方案 【免费下载链接】smhasher Hash function quality and speed tests 项目地址: https://gitcode.com/gh_mirrors/smha/smhasher SMHasher是一款用于测试哈希函数质量和速度的开源工具,广泛应用于哈希算法的…...
独立TBOX,才是车载通信绕不开的终极答案
很多人都在唱衰独立TBOX。都说域控大一统、硬件高度集成,独立通信盒子很快就要退出历史舞台。作为深耕车载网联多年的老兵,我反倒有完全不一样的看法。今天只聊个人行业观察,不代表任何车企、供应链立场。也不涉及任何内部技术规划࿰…...
别再手动翻页了!用Word宏一键给Zotero引用加超链接(附完整VBA代码)
告别手动翻页:用Word宏为Zotero引用创建智能超链接系统 当论文修改进入最后冲刺阶段,最令人抓狂的莫过于在正文引用和文末参考文献之间反复横跳。想象一下:你正在核对第37条引用,突然发现格式有误,于是滚动鼠标滚轮回到…...
