当前位置: 首页 > news >正文

阅读笔记 | REFORMER: THE EFFICIENT TRANSFORMER

阅读论文:

Kitaev, Nikita, Łukasz Kaiser, and Anselm Levskaya. “Reformer: The efficient transformer.” arXiv preprint arXiv:2001.04451 (2020).

背景与动机

这篇论文发表较早,主要关注Transformer的效率问题。标准的Transformer模型在许多自然语言处理任务上取得了最先进的结果,但它在长序列上的训练和推理代价非常大。主要的计算和内存瓶颈在于自注意力机制中的点积注意力,其复杂度为 O ( L 2 ) \Omicron(L^2) O(L2),其中 L L L是序列长度。随着 L L L的增大,计算和内存需求急剧增加。因此,Transformer难以扩展到处理长序列的任务。

模型与方法

  1. 引入基于局部敏感哈希(LSH)的近似注意力机制,将自注意力的复杂度从 O ( L 2 ) \Omicron(L^2) O(L2)降低到 O ( L log ⁡ L ) \Omicron(L\log L) O(LlogL),大大减少了内存和计算需求。具体来说,文章首先使用随机投影作为敏感哈希函数。相似的query和key通过投影转换后可以映射到相同的哈希桶中。然后根据query和key的哈希值对序列进行排序。相似的query和key会聚集在一起。在排序后的序列上,将每个query块只与相邻的几个query块计算注意力。这样可以大约保证每个块内的query可以attend到相似的key。最后使用多轮不同的哈希函数和注意力计算,综合多个注意力输出,可以降低哈希误差。
  2. 使用17年别人提出的一个可逆残差网络取代标准的前馈和残差连接以减少内存占用。这允许在训练过程中只需保存每层的一个激活副本,而不是N个副本,其中N是层数。
  3. 将前馈网络中的激活拆分为多块分别处理,减小每层的内存占用。

实验

在拼写重复、机器翻译以及图像生成等多个任务上验证了Reformer的有效性。结果表明,Reformer模型比标准Transformer有相同的建模能力,但在长序列任务上速度更快,内存占用也少得多。例如,在64K词元的英文文本建模任务上,12层的Reformer只需要一个GPU就可以高效训练,而Transformer基本无法进行训练。

总的来说,Reformer是一个既高效又强大的长序列Transformer模型。它结合了可缩放的近似注意力机制与高效的网络结构,能够在单机单卡上处理长度达10万词元的任务,为Transformer的工业应用提供了可能性。

个人思考

  • 文章中实现更高效自注意力的方式是寻找近似方法进行替代,这对于后面的改进是有启发的,因为类似的替代并非只有一种。而且这类改进存在一个好处就是可以在用于电负荷时序预测模型中去带一个计算与存储效率的点,这也是前面阅读的所有时序预测论文都在关注的一个点。
  • 这篇论文也从网络结构方面对内存消耗进行了优化,对残差连接进行了优化。在Informer中也对结构进行了关注,具体是改进了decoder的自回归方式。可见结构方面进行考虑的优化也是大有可为的。此外,几个最近的Transformer时序预测模型在残差连接上基本没有考虑太多,用的是标准残差连接,可以将可逆残差连接放到里面试试效果。

相关文章:

阅读笔记 | REFORMER: THE EFFICIENT TRANSFORMER

阅读论文: Kitaev, Nikita, Łukasz Kaiser, and Anselm Levskaya. “Reformer: The efficient transformer.” arXiv preprint arXiv:2001.04451 (2020). 背景与动机 这篇论文发表较早,主要关注Transformer的效率问题。标准的Transformer模型在许多自然…...

光路科技:工业以太网交换机引领工业互联网新篇章

随着全球范围内工业4.0的浪潮不断涌动,工业互联网作为其核心驱动力,正引领着工业生产向智能化、网络化的崭新阶段迈进。在这一转型的浪潮中,光路科技凭借其卓越的工业互联设备与创新解决方案,正为工业互联网领域的发展注入新的活力…...

航拍无人机技术,航拍无人机方案详解,无人机摄影技术

航拍无人机是利用遥控技术和摄像设备,在空中进行拍摄和录像的无人机。这种无人机通常具有高清摄像设备、图像传输设备、GPS定位系统、智能控制系统等,可以轻松实现各种拍摄角度和高度,广泛应用于影视制作、旅游景区航拍、城市规划、环保监测等…...

【ArcPy】游标访问几何数据

访问质心坐标相关数据 结果展示 代码 import arcpy shppath r"C:\Users\admin\Desktop\excelfile\a2.shp" with arcpy.da.SearchCursor(shppath, ["SHAPE","SHAPEXY","SHAPETRUECENTROID","SHAPEX","SHAPEY",&q…...

Java云计算k8s

云计算k8s k8s简介容器技术的发展使用kubeadm安装k8skubectlKubernetes 架构k8s节点节点与控制面之间的通信控制器k8s kubectl命令详解k8s容器Kubernetes 对象Kubernetes 对象管理Kubernetes 对象管理 指令式命令Kubernetes 对象管理 指令式对象配置k8s对象管理 声明式对象配置…...

蜂窝物联:物联网大数据云平台功能模块简介

蜂窝云平台可远程获取现场环境(如温室大棚、稻田)的空气温湿度、土壤水分温度、二氧化碳浓度、光照强度及视频图像,通过数据模型分析,可以自动控制湿帘、风机、喷淋滴灌、内外遮阳、顶窗侧窗、加温补光、增氧机等设备;…...

Docker镜像导出/导入

Docker镜像导出/导入 一、前言 在实际操作中,为了便于docker镜像环境和服务配置的迁移,我们有时需要将已在测试环境主机上完成一系列配置的docker镜像或运行中的容器镜像导出,并传输到生产或其他目标环境主机上运行。为此,本文主…...

SwiftUI 如何在运行时从底层动态获取任何 NSObject 对象实例

概览 众所周知,SwiftUI 的推出极大地方便了我们这些秃头码农们搭建 App 界面。不过,有时我们仍然需要和底层的 UIKit 对象打交道。比如:用 SwiftUI 未暴露出对象的接口改变视图的行为或外观。 从上图可以看到,我们 SwiftUI 代码并没有设置视图的背景色,那么它是怎么变成绿…...

LeetCode 2161.根据给定数字划分数组

给你一个下标从 0 开始的整数数组 nums 和一个整数 pivot 。请你将 nums 重新排列,使得以下条件均成立: 所有小于 pivot 的元素都出现在所有大于 pivot 的元素 之前 。 所有等于 pivot 的元素都出现在小于和大于 pivot 的元素 中间 。 小于 pivot 的元素…...

ip获取+归属地实现

1.背景 现在的社交平台一般都需要展示用户的归属地,这个功能有下面二个主要功能点,接下来我们来介绍下具体实现。 IP 获取 IP 转归属地 2.ip获取 2.1 Http请求 对于controller的请求,我们只需要写个拦截器,将用户的ip设置进上下文即可,非常方便。 @Override public bo…...

Python的错误和异常

文章目录 python的语法错误异常异常处理用户自定义异常定义清理行为预定义的清理行为 python的语法错误 语法错误(Syntax Error)是指代码不符合Python语言的语法规则。当解释器在执行代码之前对其进行解析时,如果发现代码中有语法错误&#…...

C语言-------指针进阶(2)

1.指针数组 指针数组表较简单,类比整型数组,字符数组,整型数组里面的元素都是整型变量,字符数组里面 的元素是字符类型,那么指针数组就是数组里面的每个元素都是指针类型,例如int*arr[5]就是一个 指针数…...

Spring El表达式官方文档学习

文章目录 推荐一、概述1、什么是SpEL2、SpEL能做什么 二、SpEL表达式使用1、文字表达式2、属性, 数组, List, Map,和 索引(1)属性操作(2)数组和List(3)Map 3、内嵌List4、内嵌Map5、构建数组6、调用类的方法…...

RK3568 android11 调试陀螺仪模块 MPU6500

一,MPU6500功能介绍 1.简介 MPU6500是一款由TDK生产的运动/惯性传感器,属于惯性测量设备(IMU)的一种。MPU6500集成了3轴加速度计、3轴陀螺仪和一个板载数字运动处理器(DMP),能够提供6轴的运动…...

【HTML】HTML基础6.1(表格以及常见属性)

目录 表格介绍 表格标签 表格标签的常见属性 案例 知识点总结 表格介绍 在浏览器中,我们经常见到形如 这样的表格形式,一般来说,表格是为了让数据看起来更加清晰,增强数据的可读性 有的程序员也会用表格进行排版 表格标签 &…...

数字电路三宝:锁存器、寄存器和触发器

在数字电路设计中,很多电子工程师经常会用到锁存器、寄存器和触发器,它们各自承担着不同的功能,但共同为数字电路的稳定性和高效性提供了坚强保障,下面将谈谈这三大元件,希望对小伙伴们有所帮助。 1、锁存器&#xff0…...

VLC相关资源及使用方法

资源 VLC源码: VLC的源码,与VLC Contrib配合使用可以编译相应的库、程序等,如果没有Contrib,可以使用源码下面的contrib文件夹下对应程序自动下载,单独编译,但是速度很慢。 下载地址: 官网&…...

4_相机透镜畸变

理论上讲,是可能定义一种透镜而不引入任何畸变的。然而现实世界没有完美的透镜。这主要是制造上的原因,因为制作一个“球形”透镜比制作一个数学上理想的透镜更容易。而且从机械方面也很难把透镜和成像仪保持平行。下面主要描述两种主要的透镜畸变并为他…...

微信小程序(四十六)登入界面-进阶版

注释很详细,直接上代码 上一篇 此文使用了vant组件库,没有安装配置的可以参考此篇vant组件的安装与配置 新增内容: 1.手机号与验证码格式验证 2.验证码的网络申请和校验 wechat-http模块在好几篇以前已经讲了咋安装的,不记得的友…...

CSP-201712-2-游戏

CSP-201712-2-游戏 解题思路 初始化变量:定义整数变量n和k,分别用来存储小朋友的总数和淘汰的特定数字。然后定义了num(用来记录当前报的数)和peopleIndex(用来记录当前报数的小朋友的索引)。 初始化小朋…...

逻辑回归:给不确定性划界的分类大师

想象你是一名医生。面对患者的检查报告(肿瘤大小、血液指标),你需要做出一个**决定性判断**:恶性还是良性?这种“非黑即白”的抉择,正是**逻辑回归(Logistic Regression)** 的战场&a…...

在四层代理中还原真实客户端ngx_stream_realip_module

一、模块原理与价值 PROXY Protocol 回溯 第三方负载均衡(如 HAProxy、AWS NLB、阿里 SLB)发起上游连接时,将真实客户端 IP/Port 写入 PROXY Protocol v1/v2 头。Stream 层接收到头部后,ngx_stream_realip_module 从中提取原始信息…...

基础测试工具使用经验

背景 vtune,perf, nsight system等基础测试工具,都是用过的,但是没有记录,都逐渐忘了。所以写这篇博客总结记录一下,只要以后发现新的用法,就记得来编辑补充一下 perf 比较基础的用法: 先改这…...

[Java恶补day16] 238.除自身以外数组的乘积

给你一个整数数组 nums,返回 数组 answer ,其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积 。 题目数据 保证 数组 nums之中任意元素的全部前缀元素和后缀的乘积都在 32 位 整数范围内。 请 不要使用除法,且在 O(n) 时间复杂度…...

css3笔记 (1) 自用

outline: none 用于移除元素获得焦点时默认的轮廓线 broder:0 用于移除边框 font-size&#xff1a;0 用于设置字体不显示 list-style: none 消除<li> 标签默认样式 margin: xx auto 版心居中 width:100% 通栏 vertical-align 作用于行内元素 / 表格单元格&#xff…...

项目部署到Linux上时遇到的错误(Redis,MySQL,无法正确连接,地址占用问题)

Redis无法正确连接 在运行jar包时出现了这样的错误 查询得知问题核心在于Redis连接失败&#xff0c;具体原因是客户端发送了密码认证请求&#xff0c;但Redis服务器未设置密码 1.为Redis设置密码&#xff08;匹配客户端配置&#xff09; 步骤&#xff1a; 1&#xff09;.修…...

中医有效性探讨

文章目录 西医是如何发展到以生物化学为药理基础的现代医学&#xff1f;传统医学奠基期&#xff08;远古 - 17 世纪&#xff09;近代医学转型期&#xff08;17 世纪 - 19 世纪末&#xff09;​现代医学成熟期&#xff08;20世纪至今&#xff09; 中医的源远流长和一脉相承远古至…...

libfmt: 现代C++的格式化工具库介绍与酷炫功能

libfmt: 现代C的格式化工具库介绍与酷炫功能 libfmt 是一个开源的C格式化库&#xff0c;提供了高效、安全的文本格式化功能&#xff0c;是C20中引入的std::format的基础实现。它比传统的printf和iostream更安全、更灵活、性能更好。 基本介绍 主要特点 类型安全&#xff1a…...

什么是VR全景技术

VR全景技术&#xff0c;全称为虚拟现实全景技术&#xff0c;是通过计算机图像模拟生成三维空间中的虚拟世界&#xff0c;使用户能够在该虚拟世界中进行全方位、无死角的观察和交互的技术。VR全景技术模拟人在真实空间中的视觉体验&#xff0c;结合图文、3D、音视频等多媒体元素…...

Kubernetes 节点自动伸缩(Cluster Autoscaler)原理与实践

在 Kubernetes 集群中&#xff0c;如何在保障应用高可用的同时有效地管理资源&#xff0c;一直是运维人员和开发者关注的重点。随着微服务架构的普及&#xff0c;集群内各个服务的负载波动日趋明显&#xff0c;传统的手动扩缩容方式已无法满足实时性和弹性需求。 Cluster Auto…...