当前位置: 首页 > news >正文

Attention Is All Your Need论文笔记

论文解决了什么问题?

提出了一个新的简单网络架构——transformer,仅仅是基于注意力机制,完全免去递推和卷积,使得神经网络训练地速度极大地提高。

We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely.

论文采用了什么方法?

用多头注意力取代推导层。

论文达到了什么效果?

  • 该论文提出的模型,在WMT2014英语翻译德语和英语翻译法语的任务实验中,打破了当时的最好记录,并且其训练成本仅仅是最好模型的一小部分。

  • 提出的模型成功地泛化到其他任务上。

Author:Google Brain

Key words:神经网络,transformer

Abstract:

作者提出了一个新的简单网络架构transformer。该模型是基于注意力机制,完全免去递推和卷积。模型的质量上更好,有着更好的并行性,训练地速度极大地减少,可以很好地泛化到其他任务中。

Introduction:

过去,关于语言模型和机器翻译,主要使用RNN、LSTM、GRNN。但这些模型中计算步骤是,使用前一个状态ht-1的输出来做为后一个状态ht的输入,这种顺序性质限制了其计算效率。尽管最近的工作提升了模型的性能,但其根本的顺序计算限制仍然存在。

Transformer模型就是为了解决这一个问题而提出来的,它有着显著更多的并行性并且在翻译质量上达到最先进水平。

Background:

transformer的目标是减少序列化计算,这同时也是ByteNet和ConvS2S的基础。但是这些模块中,被要求关联两个任意输入或输出位置的信号的操作数量随着位置间距离的增长而增长,这使得学习两个远距离位置的依赖关系困难。

提出自我注意力机制,是将单个序列不同位置联系起来以计算一个序列表示的注意力机制。

Model Architecture:

该章节主要讲解transformer的架构,是编码-解码架构。

编码器和解码器都是由6个相同层的堆栈组成。注意力函数被描述为将查询和一组键值对映射到输出,查询、键、值和输出都是向量。输出被计算为值的加权和。

缩放点积注意力:附加注意力使用具有一个单隐藏层的前反馈网络计算兼容性函数。

多头注意力:允许这个模型共同关注来自不同地点、不同表示子空间的信息。

注意力在模型中的应用:

1.在“encoder-decoder attention" layer中,这个查询来自之前的解码层。

2.编码器包含自我注意力层。

3.解码器中自注意力层允许解码器中每个位置关注解码器中达到并包含该位置的所有位置。

位置式前反馈网络:

除了注意力层,在我们”encoder-decoder“中的每一层包含了一个全连接前向反馈网络,这被分别相同地应用到每个位置。

嵌入和softmax:

使用学习嵌入去把输入标记和输出标记转换为维度dmodel的向量。

位置编码:

由于本文提出的模型中不包含递归或卷积,为使模型利用序列的顺序,必须投入一些有关序列中标记的相关或者绝对位置的信息。因此,把”位置编码“添加到在编码和解码栈底部的输入其纳入中。

Why Self-Attention:

作者把自注意力和循环层以及卷积层进行比较,体现自注意力的优点。

作者考虑使用自注意力的三个需求,

1.每层的总计算复杂度

2.可以并行化的计算量

3.网络中远程范围依赖之间的路径长度。

Training:

本章节即实验部分,作者使用WMT2014上的数据训练文章提出的模型,并得出实验结果。

Reults:

对于transfomer实验结果的分析,发现transformer在机器翻译的结果优于最新模型,并且在英语选区解析上的表现结果也出奇的好。

Conclusion:

1.本文提出了一个完全基于注意力的序列转导模型,用多头自我注意力取代在编码-解码架构中最常使用的推导层——Transformer。

2.未来计划将Transformer扩展到文本以外的输入和输出模式的问题。

参考资料:

国外大神写这篇文章非常通俗易懂

详解Transformer——知乎

Attention is all your need 精读

相关文章:

Attention Is All Your Need论文笔记

论文解决了什么问题? 提出了一个新的简单网络架构——transformer,仅仅是基于注意力机制,完全免去递推和卷积,使得神经网络训练地速度极大地提高。 We propose a new simple network architecture, the Transformer, based sole…...

vue-进阶语法(四)

目录 v-model原理 v-model应用于组件 sync修饰符 ref 和 $refs(重点) $nextTick v-model原理 原理:v-model本质上是一个语法糖。例如应用在输入框上,就是 value属性 和 input事件 的合写。 作用:提供数据的双向…...

CGAL::2D Arrangements-7

7 几何Traits 几何Traits封装了几何实体的定义以及处理这些几何实体的几何predicates和构造的实现,供Arrangement_on_surface_2类模板和其他周边模块使用。应用于Arrangement的各种算法所确定的最小要求被组织在精细几何特征概念的层次中。每个概念列出的需求只包括…...

linux系统下vscode portable版本的rust环境搭建004:rust

目的:希望在获得一个新的系统之后,以最简便快速的方式搭配一个rust的编程环境命令在线安装只执行这句就行了 :curl --proto https --tlsv1.2 -sSf https://sh.rustup.rs | sh,因为是要portable安装所以按照以下的方式执行。 下载…...

从汇编角度解释线程间互斥-mutex互斥锁与lock_guard的使用

多线程并发的竞态问题 我们创建三个线程同时进行购票&#xff0c;代码如下 #include<iostream> #include<thread> #include<list> using namespace std; //总票数 int ticketCount100; //售票线程 void sellTicket(int idx) {while(ticketCount>0){cou…...

高程 | 多态性(c++)

文章目录 &#x1f4da;多态&#x1f4da;运算符重载&#x1f407;定义&#x1f407;规则&#x1f407;友元运算符重载函数&#x1f407;成员运算符重载函数 &#x1f4da;虚函数&#x1f4da;纯虚函数和抽象类 &#x1f4da;多态 多态&#xff1a;同样的消息被不同类型的对象…...

LV.23 D2 开发环境搭建及平台介绍 学习笔记

一、Keil MDK-ARM简介及安装 Keil MDK&#xff0c;也称MDK-ARM&#xff0c;Realview MDK &#xff08;Microcontroller Development Kit&#xff09;等。目前Keil MDK 由三家国内代理商提供技术支持和相关服务。 MDK-ARM软件为基于Cortex-M、Cortex-R4、ARM7、ARM9处理器设备…...

[uniapp生命周期]详细讲解uniapp中那些属于vue生命周期,那些属于uniapp独有的生命周期,以及这中间的区别 相关的内容和api 代码注释

目录 1. Vue.js生命周期函数2.Vue生命周期函数代码beforeCreatecreatedbeforeMountmountedbeforeUpdateupdatedbeforeDestroydestroyed$nextTick$forceUpdate$destroy 3. UniApp独有的生命周期函数onLaunchonShowonHideonError 4.总结 在UniApp中&#xff0c;除了Vue.js的生命周…...

【动态规划】【记忆化搜索】【状态压缩】1681. 最小不兼容性

作者推荐 【数位dp】【动态规划】【状态压缩】【推荐】1012. 至少有 1 位重复的数字 本文涉及知识点 动态规划汇总 状态压缩 记忆化搜索 1681. 最小不兼容性 给你一个整数数组 nums​​​ 和一个整数 k 。你需要将这个数组划分到 k 个相同大小的子集中&#xff0c;使得同一…...

JVM-类加载器 双亲委派机制

申明&#xff1a;文章内容是本人学习极客时间课程所写&#xff0c;文字和图片基本来源于课程资料&#xff0c;在某些地方会插入一点自己的理解&#xff0c;未用于商业用途&#xff0c;侵删。 什么是JVM JVM是Java Virtual Machine&#xff08;Java虚拟机&#xff09;的缩写&a…...

vue axios 请求后端无法传参问题

vue请求后端无法传参问题 问题描述处理过程总结 问题描述 在学习vue时&#xff0c;使用axios调用后端&#xff0c;发现无法把参数正确传到后端&#xff0c;现象如下&#xff1a; 使用vue发起请求&#xff0c;浏览器上已经有传参&#xff0c;但是后端没接收到对应的用户名密码&…...

打印最小公倍数

打印最小公倍数 题目描述&#xff1a; 输入2个整数m和n&#xff0c;计算m和n的最小公倍数&#xff0c;并打印出结果 测试1&#xff1a; 输入&#xff1a;18 24 输出&#xff1a;72 测试2&#xff1a; 输入&#xff1a;18 6 输出&#xff1a;18解法思路: 最小公倍数是指两个…...

[AIGC] Java 和 Kotlin 的区别

好的&#xff0c;我还是以“萌萌哒小码农”的身份继续回答您的问题。 Java 和 Kotlin 是两种不同的编程语言&#xff0c;它们有许多共同点&#xff0c;但也有一些重要的区别。以下是一些常见的 Java 和 Kotlin 的区别&#xff1a; 语法 Kotlin 的语法比 Java 简洁得多&#…...

蓝桥杯电子类单片机提升一——超声波测距

前言 单片机资源数据包_2023 一、超声波测距原理 二、超声波测距的应用 1.超声波的发射 2.单片机知识补充&#xff1a;定时器 3.超声波的接收与计时 4.距离的计算 1&#xff09;定时器1为16位自动重载&#xff0b;1T11.0592MHz 2&#xff09;定时器1为16位自动重载&am…...

前端架构: 脚手架开发流程中的难点梳理

脚手架的开发流程 1 &#xff09;开发流程 创建 npm 项目创建脚手架入口文件&#xff0c;最上方添加&#xff1a; #!/usr/bin/env node 配置 package.json, 添加 bin 属性编写脚手架代码将脚手架发布到 npm 2 &#xff09;使用流程 安装脚手架 npm install -g your-own-cli …...

django中配置使用websocket

Django 默认情况下并不支持 WebSocket&#xff0c;但你可以通过集成第三方库如 channels 来实现 WebSocket 功能。channels 是一个 Django 应用&#xff0c;它提供了对 WebSocket、HTTP2 和其他协议的支持。 下面是如何在 Django 项目中使用 WebSocket 的基本步骤&#xff1a;…...

Rust复合类型详解

在Rust中&#xff0c;复合类型是一种能够将多个值组合在一起的数据类型。本篇博客将介绍两种常见的复合类型&#xff1a;元组&#xff08;Tuple&#xff09;和数组&#xff08;Array&#xff09;。 Tuple&#xff08;元组&#xff09; 元组是Rust中的一种复合类型&#xff0c…...

学习 JavaScript 闭包

1. 前言 闭包是 JavaScript 中一种非常重要的概念&#xff0c;它允许函数访问其外部作用域中的变量&#xff0c;即使在函数被返回或者在其原始定义的作用域之外执行时仍然可以访问这些变量。 在讲解闭包之前我们得弄清楚下面的概念&#xff1a; 作用域链&#xff1a; JavaSc…...

VScode中配置 C/C++ 环境 | IT拯救者

文章目录 0 引言1. 下载编辑器VScode2. 下载编译器MinGW并解压3. 将MinGW添加至环境变量4. 配置VScode插件5. 运行代码6. 调整和优化7. 提示8. 例行格式条款9. 例行格式条款 0 引言 由于VScode毛毛张使用不习惯&#xff0c;因此配置教程记不住&#xff0c;不过毛毛张看到一篇不…...

基于Python实现Midjourney集成到(个人/公司)平台中

目前Midjourney没有对外开放Api&#xff0c;想体验他们的服务只能在discord中进入他们的频道进行体验或者把他们的机器人拉入自己创建的服务器中&#xff1b;而且现在免费的也用不了了&#xff0c;想使用就得订阅。本教程使用midjourney-api这个开源项目&#xff0c;搭建Midjou…...

Pixel Aurora Engine惊艳图集:基于‘进化像素’哲学的跨时代视觉融合

Pixel Aurora Engine惊艳图集&#xff1a;基于进化像素哲学的跨时代视觉融合 1. 像素极光引擎概览 Pixel Aurora Engine是一款革命性的AI绘图工作站&#xff0c;它将现代扩散模型技术与复古像素艺术完美融合。这款工具重新定义了数字艺术创作方式&#xff0c;让用户能够通过简…...

从原理到实战:PID位置式、增量式与串级PID的嵌入式实现与调参指南

1. PID控制算法基础&#xff1a;从生活场景理解控制原理 想象一下你正在用淋浴洗澡&#xff0c;发现水温太烫时的自然反应&#xff1a;首先会快速把阀门往冷水方向调&#xff08;比例控制&#xff09;&#xff0c;如果水温还是偏高&#xff0c;你会持续微调阀门&#xff08;积分…...

Ubuntu 22.04 改IP重启失效?别急,可能是OVS的ovsdb-server在捣鬼

Ubuntu 22.04网络配置失效&#xff1a;当OVS与netplan的隐秘博弈 在虚拟化技术大行其道的今天&#xff0c;Open vSwitch&#xff08;OVS&#xff09;作为开源虚拟交换机的标杆&#xff0c;已经成为众多云计算平台和容器网络的核心组件。然而&#xff0c;当它遇上Ubuntu 22.04默…...

别再手动查ID了!用R包一键搞定单细胞Marker基因ID转换(附org.Hs.eg.db实战)

单细胞Marker基因ID转换实战&#xff1a;用org.Hs.eg.db实现高效精准映射 刚完成单细胞聚类分析的研究者&#xff0c;常常会面临一个看似简单却极其耗时的任务——将Marker基因的Symbol标识转换为标准的Entrez ID。这个步骤虽然基础&#xff0c;却直接影响后续GO富集分析的可靠…...

【数据结构】树的定义、核心术语与关键性质全解析

在数据结构的世界里&#xff0c;树&#xff08;Tree&#xff09; 是一种极其重要的非线性结构&#xff0c;它完美模拟了自然界中树的层次关系&#xff0c;从文件系统、组织结构&#xff0c;到算法中的二叉搜索树、堆&#xff0c;再到 AI 中的决策树&#xff0c;树的身影无处不在…...

【人生底稿 03】2012 末日传说与我踏入 IT 的起点

接上《人生底稿》系列&#xff0c;本篇记录一段真实的成长碎片&#xff0c;不严格按时间线更新&#xff0c;只为记下一个农村少年&#xff0c;一步步走向社会的真实轨迹。 在参加某科技公司 ITMS 培训之前&#xff0c;我先经历了一轮面试 —— 上机题 技术面&#xff0c;分数…...

Vue 中的 deep、v-deep 和 >>> 有什么区别?什么时候该用

点赞 收藏 学会&#x1f923;&#x1f923;&#x1f923; “你用 Element Plus 写了个按钮&#xff0c;想改下 hover 颜色&#xff0c;结果死活不生效&#xff01;最后查了半天&#xff0c;发现得加个 :deep() 才行” 其实&#xff0c;这是 Vue 中一个非常常见的坑&#xf…...

为什么你的Windows 11需要专业优化:4步高效解决方案

为什么你的Windows 11需要专业优化&#xff1a;4步高效解决方案 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter and cust…...

新手避坑指南:从GEO数据库下载单细胞测序数据的5个关键步骤(附实操截图)

单细胞测序数据下载实战&#xff1a;5个避坑技巧与决策逻辑 第一次打开GEO数据库时&#xff0c;满屏的测序数据就像走进了一个没有地图的迷宫。作为刚接触单细胞转录组分析的研究生&#xff0c;我花了整整两周时间才搞明白哪些数据值得下载——期间踩过的坑包括下载了样本命名混…...

2026年全国优质网站建设公司权威甄选榜,推荐十家公司官网搭建与设计制作服务商能力评估正式发布

据Gartner、QuestMobile联合发布的2026年企业数字化服务报告显示&#xff0c;国内网站建设行业市场规模突破1870亿元&#xff0c;同比增长19.3%&#xff1b;上海作为长三角数字经济核心枢纽&#xff0c;企业官网新建与升级需求同比提升27.8%&#xff0c;其中高端定制建站需求增…...