阅读笔记 | REFORMER: THE EFFICIENT TRANSFORMER
阅读论文:
Kitaev, Nikita, Łukasz Kaiser, and Anselm Levskaya. “Reformer: The efficient transformer.” arXiv preprint arXiv:2001.04451 (2020).
背景与动机
这篇论文发表较早,主要关注Transformer的效率问题。标准的Transformer模型在许多自然语言处理任务上取得了最先进的结果,但它在长序列上的训练和推理代价非常大。主要的计算和内存瓶颈在于自注意力机制中的点积注意力,其复杂度为 O ( L 2 ) \Omicron(L^2) O(L2),其中 L L L是序列长度。随着 L L L的增大,计算和内存需求急剧增加。因此,Transformer难以扩展到处理长序列的任务。
模型与方法
- 引入基于局部敏感哈希(LSH)的近似注意力机制,将自注意力的复杂度从 O ( L 2 ) \Omicron(L^2) O(L2)降低到 O ( L log L ) \Omicron(L\log L) O(LlogL),大大减少了内存和计算需求。具体来说,文章首先使用随机投影作为敏感哈希函数。相似的query和key通过投影转换后可以映射到相同的哈希桶中。然后根据query和key的哈希值对序列进行排序。相似的query和key会聚集在一起。在排序后的序列上,将每个query块只与相邻的几个query块计算注意力。这样可以大约保证每个块内的query可以attend到相似的key。最后使用多轮不同的哈希函数和注意力计算,综合多个注意力输出,可以降低哈希误差。
- 使用17年别人提出的一个可逆残差网络取代标准的前馈和残差连接以减少内存占用。这允许在训练过程中只需保存每层的一个激活副本,而不是N个副本,其中N是层数。
- 将前馈网络中的激活拆分为多块分别处理,减小每层的内存占用。
实验
在拼写重复、机器翻译以及图像生成等多个任务上验证了Reformer的有效性。结果表明,Reformer模型比标准Transformer有相同的建模能力,但在长序列任务上速度更快,内存占用也少得多。例如,在64K词元的英文文本建模任务上,12层的Reformer只需要一个GPU就可以高效训练,而Transformer基本无法进行训练。
总的来说,Reformer是一个既高效又强大的长序列Transformer模型。它结合了可缩放的近似注意力机制与高效的网络结构,能够在单机单卡上处理长度达10万词元的任务,为Transformer的工业应用提供了可能性。
个人思考
- 文章中实现更高效自注意力的方式是寻找近似方法进行替代,这对于后面的改进是有启发的,因为类似的替代并非只有一种。而且这类改进存在一个好处就是可以在用于电负荷时序预测模型中去带一个计算与存储效率的点,这也是前面阅读的所有时序预测论文都在关注的一个点。
- 这篇论文也从网络结构方面对内存消耗进行了优化,对残差连接进行了优化。在Informer中也对结构进行了关注,具体是改进了decoder的自回归方式。可见结构方面进行考虑的优化也是大有可为的。此外,几个最近的Transformer时序预测模型在残差连接上基本没有考虑太多,用的是标准残差连接,可以将可逆残差连接放到里面试试效果。
相关文章:
阅读笔记 | REFORMER: THE EFFICIENT TRANSFORMER
阅读论文: Kitaev, Nikita, Łukasz Kaiser, and Anselm Levskaya. “Reformer: The efficient transformer.” arXiv preprint arXiv:2001.04451 (2020). 背景与动机 这篇论文发表较早,主要关注Transformer的效率问题。标准的Transformer模型在许多自然…...
光路科技:工业以太网交换机引领工业互联网新篇章
随着全球范围内工业4.0的浪潮不断涌动,工业互联网作为其核心驱动力,正引领着工业生产向智能化、网络化的崭新阶段迈进。在这一转型的浪潮中,光路科技凭借其卓越的工业互联设备与创新解决方案,正为工业互联网领域的发展注入新的活力…...
航拍无人机技术,航拍无人机方案详解,无人机摄影技术
航拍无人机是利用遥控技术和摄像设备,在空中进行拍摄和录像的无人机。这种无人机通常具有高清摄像设备、图像传输设备、GPS定位系统、智能控制系统等,可以轻松实现各种拍摄角度和高度,广泛应用于影视制作、旅游景区航拍、城市规划、环保监测等…...
【ArcPy】游标访问几何数据
访问质心坐标相关数据 结果展示 代码 import arcpy shppath r"C:\Users\admin\Desktop\excelfile\a2.shp" with arcpy.da.SearchCursor(shppath, ["SHAPE","SHAPEXY","SHAPETRUECENTROID","SHAPEX","SHAPEY",&q…...
Java云计算k8s
云计算k8s k8s简介容器技术的发展使用kubeadm安装k8skubectlKubernetes 架构k8s节点节点与控制面之间的通信控制器k8s kubectl命令详解k8s容器Kubernetes 对象Kubernetes 对象管理Kubernetes 对象管理 指令式命令Kubernetes 对象管理 指令式对象配置k8s对象管理 声明式对象配置…...
蜂窝物联:物联网大数据云平台功能模块简介
蜂窝云平台可远程获取现场环境(如温室大棚、稻田)的空气温湿度、土壤水分温度、二氧化碳浓度、光照强度及视频图像,通过数据模型分析,可以自动控制湿帘、风机、喷淋滴灌、内外遮阳、顶窗侧窗、加温补光、增氧机等设备;…...
Docker镜像导出/导入
Docker镜像导出/导入 一、前言 在实际操作中,为了便于docker镜像环境和服务配置的迁移,我们有时需要将已在测试环境主机上完成一系列配置的docker镜像或运行中的容器镜像导出,并传输到生产或其他目标环境主机上运行。为此,本文主…...
SwiftUI 如何在运行时从底层动态获取任何 NSObject 对象实例
概览 众所周知,SwiftUI 的推出极大地方便了我们这些秃头码农们搭建 App 界面。不过,有时我们仍然需要和底层的 UIKit 对象打交道。比如:用 SwiftUI 未暴露出对象的接口改变视图的行为或外观。 从上图可以看到,我们 SwiftUI 代码并没有设置视图的背景色,那么它是怎么变成绿…...
LeetCode 2161.根据给定数字划分数组
给你一个下标从 0 开始的整数数组 nums 和一个整数 pivot 。请你将 nums 重新排列,使得以下条件均成立: 所有小于 pivot 的元素都出现在所有大于 pivot 的元素 之前 。 所有等于 pivot 的元素都出现在小于和大于 pivot 的元素 中间 。 小于 pivot 的元素…...
ip获取+归属地实现
1.背景 现在的社交平台一般都需要展示用户的归属地,这个功能有下面二个主要功能点,接下来我们来介绍下具体实现。 IP 获取 IP 转归属地 2.ip获取 2.1 Http请求 对于controller的请求,我们只需要写个拦截器,将用户的ip设置进上下文即可,非常方便。 @Override public bo…...
Python的错误和异常
文章目录 python的语法错误异常异常处理用户自定义异常定义清理行为预定义的清理行为 python的语法错误 语法错误(Syntax Error)是指代码不符合Python语言的语法规则。当解释器在执行代码之前对其进行解析时,如果发现代码中有语法错误&#…...
C语言-------指针进阶(2)
1.指针数组 指针数组表较简单,类比整型数组,字符数组,整型数组里面的元素都是整型变量,字符数组里面 的元素是字符类型,那么指针数组就是数组里面的每个元素都是指针类型,例如int*arr[5]就是一个 指针数…...
Spring El表达式官方文档学习
文章目录 推荐一、概述1、什么是SpEL2、SpEL能做什么 二、SpEL表达式使用1、文字表达式2、属性, 数组, List, Map,和 索引(1)属性操作(2)数组和List(3)Map 3、内嵌List4、内嵌Map5、构建数组6、调用类的方法…...
RK3568 android11 调试陀螺仪模块 MPU6500
一,MPU6500功能介绍 1.简介 MPU6500是一款由TDK生产的运动/惯性传感器,属于惯性测量设备(IMU)的一种。MPU6500集成了3轴加速度计、3轴陀螺仪和一个板载数字运动处理器(DMP),能够提供6轴的运动…...
【HTML】HTML基础6.1(表格以及常见属性)
目录 表格介绍 表格标签 表格标签的常见属性 案例 知识点总结 表格介绍 在浏览器中,我们经常见到形如 这样的表格形式,一般来说,表格是为了让数据看起来更加清晰,增强数据的可读性 有的程序员也会用表格进行排版 表格标签 &…...
数字电路三宝:锁存器、寄存器和触发器
在数字电路设计中,很多电子工程师经常会用到锁存器、寄存器和触发器,它们各自承担着不同的功能,但共同为数字电路的稳定性和高效性提供了坚强保障,下面将谈谈这三大元件,希望对小伙伴们有所帮助。 1、锁存器࿰…...
VLC相关资源及使用方法
资源 VLC源码: VLC的源码,与VLC Contrib配合使用可以编译相应的库、程序等,如果没有Contrib,可以使用源码下面的contrib文件夹下对应程序自动下载,单独编译,但是速度很慢。 下载地址: 官网&…...
4_相机透镜畸变
理论上讲,是可能定义一种透镜而不引入任何畸变的。然而现实世界没有完美的透镜。这主要是制造上的原因,因为制作一个“球形”透镜比制作一个数学上理想的透镜更容易。而且从机械方面也很难把透镜和成像仪保持平行。下面主要描述两种主要的透镜畸变并为他…...
微信小程序(四十六)登入界面-进阶版
注释很详细,直接上代码 上一篇 此文使用了vant组件库,没有安装配置的可以参考此篇vant组件的安装与配置 新增内容: 1.手机号与验证码格式验证 2.验证码的网络申请和校验 wechat-http模块在好几篇以前已经讲了咋安装的,不记得的友…...
CSP-201712-2-游戏
CSP-201712-2-游戏 解题思路 初始化变量:定义整数变量n和k,分别用来存储小朋友的总数和淘汰的特定数字。然后定义了num(用来记录当前报的数)和peopleIndex(用来记录当前报数的小朋友的索引)。 初始化小朋…...
【应用实战】基于Dify与多Agent的凭证与档案管理
一、智能文档处理:基于Dify与多Agent的凭证与档案管理革新 在金融行业,文档处理贯穿业务始终。传统的纯人工方式不仅耗时费力,而且极易出错。智能文档处理(Intelligent Document Processing, IDP)融合了OCR、自然语言处…...
项目介绍 基于Python的大学生竞赛组队系统设计与实现(含模型描述及部分示例代码)专栏近期有大量优惠 还请多多点一下关注 加油 谢谢 你的鼓励是我前行的动力 谢谢支持 加油 谢谢
基于Python的大学生竞赛组队系统设计与实现的详细项目实例 请注意此篇内容只是一个项目介绍 更多详细内容可直接联系博主本人 或者访问对应标题的完整博客或者文档下载页面(含完整的程序,GUI设计和代码详解) 大学生竞赛已成为高校人才培养…...
CNKI-download:3步实现知网文献批量下载与管理的Python自动化工具
CNKI-download:3步实现知网文献批量下载与管理的Python自动化工具 【免费下载链接】CNKI-download :frog: 知网(CNKI)文献下载及文献速览爬虫 (Web Scraper for Extracting Data) 项目地址: https://gitcode.com/gh_mirrors/cn/CNKI-download 你是否曾为手动…...
Unity离线语音识别插件:解决无网/隐私/延迟三大痛点
1. 这不是“又一个语音识别SDK”——它解决的是Unity开发者真正卡脖子的三个痛点我在2022年做一款医疗陪护类AR应用时,被语音识别拖垮过整整三个月。当时用的是某云厂商的在线SDK,结果在医院内网环境下,每次识别都要等2.3秒以上,患…...
别再死记硬背了!从AMBA总线到实际芯片,深入理解Verilog仲裁器的设计哲学
从AMBA总线到芯片设计:Verilog仲裁器的工程哲学与实践 在数字芯片设计的浩瀚宇宙中,仲裁器就像交通警察,默默协调着数据洪流的通行秩序。当多个主设备同时请求访问共享资源时,这个看似简单的模块决定了谁先谁后——这个决策过程直…...
RK3588开发环境搭建三步曲:从零构建嵌入式Linux编译与烧录系统
1. 项目概述与核心价值拿到一块全新的RK3588核心板或开发板,看着它强大的八核CPU和NPU,心里盘算着各种AI和多媒体应用的你,是不是也曾在环境搭建这一步卡住过?从官方SDK下载、编译工具链配置,到内核编译、文件系统烧录…...
大模型应用开发到底在开发什么?
你平时用 ChatGPT、Claude 或者各种 AI 助手的时候,可能觉得这玩意就是"发一句话、拿一个回答"。但你想过没有——那些企业里用的 AI 客服、智能答疑机器人,也是这么简单吗? 其实,大模型应用开发真正做的,不…...
Ventoy解决方案:告别重复格式化的万能启动盘制作神器
Ventoy解决方案:告别重复格式化的万能启动盘制作神器 【免费下载链接】Ventoy A new bootable USB solution. 项目地址: https://gitcode.com/GitHub_Trending/ve/Ventoy Ventoy是一款革命性的开源可启动USB解决方案,通过创新的免格式化技术&…...
Agent怎样做到在信创环境全栈兼容?2026企业级智能体信创适配技术全解析
进入2026年,随着信创(信息技术应用创新)产业进入深水区,企业数字化转型已不再仅仅是简单的“去IOE”或系统迁移,而是演变为以AI Agent(智能体)为核心的新型生产力重构。在这一背景下,…...
30岁之后IT人士(程序员)的职业规划是什么呢?
前段也看到ibm的寇卫东的一篇文章关于职业规划的,现在看看,这些职业规划都是理想状态下的产物,很多时候,限于我们自身水平、时间、空间的影响,很多是看着很美,其实却远远的达不到,不能仅仅说让人…...
