当前位置: 首页 > article >正文

(论文速读)Funnel-Transformer: 过滤掉顺序冗余的高效语言处理

论文题目Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing过滤掉顺序冗余的高效语言处理会议NeurIPS 2020摘要随着语言预训练的成功人们迫切希望开发出更高效、具有良好可扩展性的体系结构以更低的成本利用大量的未标记数据。为了提高效率我们研究了在维护全长令牌级表示时经常被忽视的冗余特别是对于只需要序列的单向量表示的任务。基于这种直觉我们提出了Funnel-Transformer它将隐藏状态序列逐渐压缩为更短的序列从而降低了计算成本。更重要的是通过将从长度减少中节省的FLOPs重新投资于构建更深或更宽的模型我们进一步提高了模型的容量。此外为了按照通用预训练目标的要求执行令牌级预测漏斗转换器能够通过解码器从减少的隐藏序列中恢复每个令牌的深度表示。从经验上看在具有相当或更少的FLOPs的情况下Funnel-Transformer在各种序列级预测任务(包括文本分类、语言理解和阅读理解)上优于标准Transformer。代码和预训练模型https://github.com/laiguokun/Funnel-TransformerFunnel-Transformer详解——通过序列压缩实现高效语言处理引言在NLP领域Transformer模型通过大规模预训练取得了巨大成功。然而预训练和微调这些模型的计算成本极其高昂这极大地限制了它们的应用范围。今天要介绍的这篇论文提出了Funnel-TransformerF-TFM一种通过逐层压缩序列长度来提高效率的创新架构。一、为什么需要Funnel-Transformer1.1 标准Transformer的冗余问题标准Transformer有一个被忽视的特点它在所有层都维持完整长度的token-level表示。让我们思考一个问题对于文本分类任务我们最终只需要一个向量来表示整个句子为什么要在每一层都维持512个token的完整表示呢论文指出这就像在图像识别中我们不会在网络的每一层都保持原始图像的分辨率。CNN通过逐层降低空间分辨率来提取更高级的特征。同样的思路也应该适用于序列处理。1.2 计算复杂度分析对于一个处理长度为T、隐藏维度为D的序列的Transformer层其复杂度为Self-Attention: O(T²D)Feed-Forward: O(TD²)当序列长度减半时计算复杂度会超线性下降因为T²项。这意味着用1个全长layer的FLOPs可以换来第m个block中的2^(m-1)个压缩层例如B6-6-618层的FLOPs仅相当于6 6/2 6/4 10.5个全长层二、Funnel-Transformer的核心设计2.1 整体架构Funnel-Transformer由两部分组成编码器Encoder逐渐压缩序列长度由多个block组成如B6-6-6有3个block每个6层Block之间通过pooling将序列长度减半形成一个漏斗形状因此得名解码器Decoder恢复token-level表示仅在需要时使用通过up-sampling恢复全长序列与低层特征建立skip connection用于预训练或序列标注等token-level任务2.2 关键创新Pool-Query-Only设计这是论文最重要的技术创新之一。标准做法对隐藏状态h进行pooling得到h然后在attention中使用S-Attn(Qh, KVh) # 简单但压缩能力有限Funnel-Transformer的做法S-Attn(Qh, KVh) # 只有query被poolkey和value保持未压缩为什么这样更好压缩不仅由pooling操作决定还由attention的加权求和决定Attention相当于一个线性压缩层将T个基向量组合成T个压缩基计算开销最小但表达能力大大增强具体实现使用stride2, window2的mean pooling每次将序列长度减半。2.3 解码器设计对于需要token-level预测的任务如MLM预训练解码器的工作流程Up-sampling将编码器输出h^M直接重复2^(M-1)次h^up_i h^M_{i//2^(M-1)}Skip Connection与第一个block的输出h^1相加g h^1 h^up深度融合再堆叠2层Transformer进行特征融合这个设计的优点简单高效单次大倍率up-sampling而非多次小倍率保留了低层的细粒度信息便于优化残差连接2.4 实现细节分离[cls] token预训练中通常用[cls]的hidden state表示整个序列Pooling时单独处理[cls]不参与pooling操作避免破坏这个特殊结构相对位置编码使用Transformer-XL的relative positional attention论文发现这对F-TFM至关重要见消融实验因为pooling可能破坏绝对位置信息三、实验结果详解3.1 Base规模对比与标准Transformer公平比较论文在相同数据集Wikipedia BookCorpus上预训练100万步batch size 256。GLUE Benchmark结果的关键观察B6-6-6用更少FLOPs达到更好性能平均提升0.9分FLOPs减少12%B6-3x2-3x2通过参数共享保持了相同参数量性能与baseline相当在大多数任务上都有提升尤其是RTE2.9文本分类结果错误率越低越好模型IMDBYelp-2Yelp-5Amazon-5L12H7685.3282.01329.3533.14B6-6-64.9081.93929.0332.91在所有文本分类任务上都有明显提升使用ELECTRA目标的结果趋势类似证明了方法的通用性。3.2 Large规模结果与SOTA对比在更大规模上5个数据集batch size 819250万步F-TFM的优势更加明显。Dev Set单模型结果模型CoLASST-2MNLIQNLIRTE平均ELECTRA-Large69.196.990.995.088.089.5B10-10-10H102472.496.891.195.189.590.0RoBERTa-Base63.694.887.692.878.786.4B6-6-6H76870.196.389.793.783.488.3惊人的发现B10-10-10超越ELECTRA-Large 0.5分B6-6-6base模型超越RoBERTa-Base 1.9分CoLA任务提升尤其显著6.5和6.5Test Set排行榜结果单任务单模型模型平均分ELECTRA-Large85.2B10-10-10H102485.4ELECTRA-Base82.7B6-6-6H76884.0F-TFM在官方排行榜上也取得了最佳结果RACE测试集性能模型TotalHighMiddleXLNet-Large85.484.088.6B10-10-1085.784.488.8MPNet-Base72.076.370.3B6-6-679.778.283.4在需要复杂推理的长文本任务上F-TFM依然表现出色B6-6-6比MPNet-Base提升了7.7分SQuAD 2.0 Dev Set模型EMF1ELECTRA-Large88.090.6B10-10-1087.690.4RoBERTa-Base80.583.7B6-6-685.187.7虽然在token-level任务上F-TFM的优势略小因为需要详细的token信息但base模型依然大幅超越baseline4.6 EM4.0 F1。3.3 实际运行速度理论FLOPs的减少能转化为实际加速吗论文在GPU和TPU上都做了测试。GPU (V100) 上的加速序列长度512模型运行时间内存占用GLUE分数L12H7681.00x14.3G84.40B6-6-60.94x12.5G85.37B4-4-40.64x9.0G83.99TPU (v2-8) 上的加速模型序列128序列256序列512L12H7681.00x1.00x1.00xB6-6-60.99x0.88x0.81xB4-4-40.69x0.62x0.55x观察序列越长加速效果越明显符合超线性复杂度减少TPU上的加速比GPU更显著序列512时B6-6-6快19%内存占用全面降低B6-6-6同时实现了加速和性能提升即使加上解码器预训练阶段依然有明显加速B10-10-10快17%。3.4 消融实验论文做了详尽的消融研究来验证各个设计的重要性。关键设计的贡献GLUE平均分ID配置Pool操作Pool-query-only分离[cls]相对AttnGLUE(1)B6-6-6 (完整)Mean✓✓✓83.5(2)去掉Pool-query-onlyMean✗✓✓82.9 (-0.6)(3)去掉分离[cls]Mean✓✗✓83.0 (-0.5)(4)去掉相对AttnMean✓✓✗81.4 (-2.1)(5)Max poolingMax✓✓✓83.4 (-0.1)(6)Attention-basedTop-Attn✓✓✓75.8 (-7.7)重要发现相对位置编码最关键-2.1分Pooling会破坏绝对位置信息Pool-query-only很重要-0.6分使压缩更具表达力Mean和Max pooling性能相近都远优于attention-based选择分离[cls]也有帮助-0.5分Block布局设计配置FLOPs参数GLUEB8-8 (2-block)1.14x0.91x83.4B6-6-6 (3-block)1.00x1.00x83.5B5-5-5-5 (4-block)0.89x1.08x82.93-block设计是最优选择在FLOPs/性能权衡上最好。四、深入理解4.1 为什么Funnel-Transformer有效消除序列冗余序列级任务不需要维持完整token信息类似CNN的分层特征提取思想符合语言学中词→短语→句子的层次结构深度换长度的策略节省的FLOPs投入到更深的网络更深的网络有更强的表达能力在压缩块中每个token都能看到更多全局信息Pool-query-only的妙用让attention参与压缩过程比固定的pooling策略更灵活最小开销获得最大收益4.2 适用场景最适合的任务✅ 文本分类✅ 句子对匹配NLI✅ 阅读理解选择题形式✅ 语义相似度次优但仍可用⚠️ 抽取式问答SQuAD⚠️ 序列标注不太适合❌ 生成任务需要详细token信息4.3 与其他方法的对比方法核心思想优势劣势Funnel-TFM压缩序列长度直接减少计算可训练性强Token-level任务稍弱Sparse Attention稀疏化attention保持全长表示实现复杂硬件不友好Knowledge Distillation蒸馏到小模型模型小需要大模型teacherPruning/Quantization压缩权重推理快训练阶段无益Funnel-Transformer的独特优势在于训练和推理都高效且无需依赖其他大模型。五、实现建议如果你想使用Funnel-Transformer这里有一些实践建议5.1 模型配置选择对于序列级任务Base规模推荐B6-6-6H768性能最佳Large规模推荐B10-10-10H1024如果内存受限使用B6-3x2-3x2H768参数共享版本如果需要极致速度使用B4-4-4H768对于token-level任务使用带decoder的版本可能需要调整decoder层数默认2层5.2 超参数论文提供的关键超参数Pooling: Stride2, Window2的mean poolingDecoder layers: 2层Position encoding: Transformer-XL的relative attention必须[cls] token: 要单独处理5.3 训练技巧预训练可以使用MLM或ELECTRA目标ELECTRA通常效果稍好超大模型(24层)可能需要降低学习率避免不稳定微调序列级任务直接去掉decoder学习率搜索范围{1e-5, 2e-5, 3e-5}使用layer-wise learning rate decay如0.75六、总结与展望主要贡献识别了被忽视的冗余全长序列表示在序列级任务中存在冗余提出了高效架构通过压缩序列长度并再投资节省的FLOPs验证了有效性在多个benchmark上取得SOTA或接近SOTA的结果实现了真正的加速不仅是理论FLOPs实际运行时间也明显减少适用性分析优势场景序列分类、匹配、排序等任务资源受限的环境需要处理大量数据的应用长序列处理压缩效果更明显局限性Token-level任务性能略有下降需要相对位置编码对已有模型的迁移有要求Block布局设计仍需探索未来方向论文提出了几个值得探索的方向更好的压缩方案动态决定压缩率任务自适应的pooling策略可学习的压缩函数Block布局优化自动搜索最优布局任务特定的布局设计与其他技术结合知识蒸馏 Funnel-TFM量化 Funnel-TFM可能实现更大的效率提升扩展到其他领域视频理解时间维度压缩多模态模型图结构数据结语Funnel-Transformer提供了一个简单而有效的思路不是所有层都需要维持全长序列。通过借鉴CNN的分层抽象思想它成功地在保持甚至提升性能的同时显著降低了计算成本。这篇论文的启发意义在于在追求更大模型的同时我们也应该思考如何更聪明地使用计算资源。有时候架构层面的创新比单纯堆砌参数更有价值。对于实践者来说Funnel-Transformer提供了一个即插即用的高效替代方案。无论是在学术研究还是工业应用中它都值得一试特别是在处理序列级任务和长序列场景时。希望这篇详细的介绍能帮助你理解Funnel-Transformer的设计思想和实现细节。如果你在实践中有任何问题欢迎交流讨论

相关文章:

(论文速读)Funnel-Transformer: 过滤掉顺序冗余的高效语言处理

论文题目:Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing(过滤掉顺序冗余的高效语言处理)会议:NeurIPS 2020摘要:随着语言预训练的成功,人们迫切希望开发出更…...

抱怨的时间

25年也就那么过去了,现在是26年了,25年到是跌宕起伏的一年了。24年记得工作不稳定,工作找了好2个,结果都不理想,被解雇了。5月时候媳妇她父亲去世了,我们闹了一次离婚,没有主见,处处…...

三 开发机器学习系统的过程

1.机器学习开发的迭代循环1.1 开发机器学习模型的过程这是开发机器学习模型时通常会有的感觉,首先,你需要决定系统的整体架构。这意味着选择你的机器学习模型,以及决定使用什么数据,可能还需要选择超参数。看一个简单的例子&#…...

【愚公系列】《剪映+DeepSeek+即梦:短视频制作》001-初识剪映:快速打开短视频制作的大门(下载、安装与登录)

💎【行业认证权威头衔】 ✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家 ✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主 ✔ 技术生态共建先锋&am…...

【愚公系列】《人人都是AI程序员》024-项目实战2: 构建商业级AI 图像生成平台(十分钟实战:用 Vercel 部署并配置生产环境)

💎【行业认证权威头衔】 ✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家 ✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主 ✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域…...

蓝桥杯学习笔

1.天线晶振电感禁止普通,2.开关电源注意,输入输出尽量接到一个地上,加上过孔。3.继电器的走现在底层走大粗线4.对于路径最短:从输出采样点到芯片反馈引脚的走线应尽可能短而直,减少寄生天线效应。远离噪声源&#xff1…...

Node.js 流(Stream)处理大数据文件:高效与灵活的解决方案

Node.js 流(Stream)处理大数据文件:高效与灵活的解决方案 在当今数据驱动的时代,处理大型文件已成为开发者日常工作中的常见任务。无论是日志分析、视频处理还是数据导入导出,大数据文件的有效处理都至关重要。Node.js…...

Node.js 事件驱动模型与非阻塞 I/O:构建高效应用的基石

Node.js 事件驱动模型与非阻塞 I/O:构建高效应用的基石 在当今的 Web 开发领域,Node.js 以其独特的特性脱颖而出,成为众多开发者构建高性能应用的热门选择。其中,事件驱动模型与非阻塞 I/O 是 Node.js 的核心特性,它们…...

[技术解析] 构建AI驱动的GEO搜索引擎优化平台

一、背景与挑战:传统SEO的技术瓶颈与AI搜索带来的新机遇随着全球化数字营销的深入,出海品牌对搜索引擎优化的需求日益增长。然而,传统SEO(Search Engine Optimization)以关键词排名和链接建设为核心,其技术…...

Python爬虫实战:构建蚂蚁森林公益项目/树种数据库

㊗️本期内容已收录至专栏《Python爬虫实战》,持续完善知识体系与项目实战,建议先订阅收藏,后续查阅更方便~ ㊙️本期爬虫难度指数:⭐⭐ 🉐福利: 一次订阅后,专栏内的所有文章可永久…...

Python爬虫实战:Apple Music华语榜每日增量追踪与峰值计算!

㊗️本期内容已收录至专栏《Python爬虫实战》,持续完善知识体系与项目实战,建议先订阅收藏,后续查阅更方便~ ㊙️本期爬虫难度指数:⭐⭐ 🉐福利: 一次订阅后,专栏内的所有文章可永久…...

解决Windows系统下Matplotlib中文显示问题:从警告到完美渲染

解决Windows系统下Matplotlib中文显示问题:从警告到完美渲染 在Windows系统中使用Matplotlib绘图时,中文显示异常(乱码、方框、字体缺失警告)是高频问题,本文基于Windows环境提供精准、可复现的解决方案,彻…...

leetcode 1357. Apply Discount Every n Orders 每隔 n 个顾客打折-耗时100

Problem: 1357. Apply Discount Every n Orders 每隔 n 个顾客打折 耗时100%&#xff0c;用哈希表存储每种产品对应的价格prod&#xff0c;然后计算总和即可 Code class Cashier { public:int prod[201], nn, cnt 0;double disc;Cashier(int n, int discount, vector<int&…...

TensorFlow学习笔记:猫狗识别

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 一、基础设置与导入数据 import matplotlib.pyplot as plt import numpy as np import os import PIL import tensorflow as tf from tensorflow import ker…...

若依(ruoyi)前后端分离版—从0到1带你搭建项目(7)—表单构建、代码生成、系统接口

1.表单构建 表单构建功能是一个强大的可视化工具&#xff0c;用于快速生成前端表单页面。 左侧组件部分是常见的组件&#xff0c;包含单行文本、多行文本、下拉选择、级联选择等。 后侧的组件属性可以修改组件的一些属性信息&#xff0c;比如大小&#xff0c;等 如何把前端页…...

leetcode 1356. Sort Integers by The Number of 1 Bits 根据数字二进制下 1 的数目排序-耗时100

Problem: 1356. Sort Integers by The Number of 1 Bits 根据数字二进制下 1 的数目排序 耗时100%&#xff0c;首先拿到每个数字的二进制表达的1的个数&#xff0c;然后按照题意排序&#xff0c;排好序以后放入结果数组ret内 Code class Solution { public:vector<int> …...

PyCharm新手必看:解决‘No module named serial’报错的3种实用方法(附pyserial安装指南)

PyCharm 开发实战&#xff1a;彻底攻克“No module named serial”及其背后的Python环境管理哲学 刚接触 Python 和 PyCharm 的朋友&#xff0c;十有八九会在某个阳光明媚的下午&#xff0c;被一行冰冷的红色错误信息迎头浇上一盆冷水&#xff1a;ModuleNotFoundError: No modu…...

【linux】Samba用户添加失败排查指南:从Failed to add entry for user到完美解决

1. 当Samba对你说“不”&#xff1a;Failed to add entry for user 到底在抱怨什么&#xff1f; 嘿&#xff0c;朋友们&#xff0c;今天咱们来聊聊一个在Linux上配置Samba共享时&#xff0c;几乎人人都会踩到的经典大坑&#xff1a;Failed to add entry for user。这个错误提示…...

医疗 Java 实战:HIS 系统多协议对接全解析

1. HIS系统&#xff1a;医疗信息化的“心脏”与“交通枢纽” 在医院这个庞大而精密的体系里&#xff0c;信息流就像人体的血液&#xff0c;必须时刻保持畅通、准确。而HIS系统&#xff0c;也就是医院信息系统&#xff0c;就是驱动这整个信息循环的“心脏”。它负责着患者从踏入…...

造相 Z-Image效果展示:768×768分辨率相比512×512提升127%画质实测

造相 Z-Image效果展示&#xff1a;768768分辨率相比512512提升127%画质实测 最近在测试各种文生图模型时&#xff0c;我遇到了一个很实际的问题&#xff1a;很多模型号称能生成高清大图&#xff0c;但真跑起来&#xff0c;要么显存爆炸&#xff0c;要么生成速度慢到让人抓狂。…...

CSS毛玻璃效果实战:backdrop-filter与filter的兼容性解决方案

CSS毛玻璃效果实战&#xff1a;backdrop-filter与filter的兼容性解决方案 最近在重构一个数据仪表盘项目时&#xff0c;我遇到了一个挺有意思的挑战&#xff1a;设计师给了一个非常漂亮的玻璃拟态&#xff08;Glassmorphism&#xff09;设计稿&#xff0c;要求在侧边导航栏和悬…...

圣女司幼幽-造相Z-Turbo开源镜像深度解析:版权合规下的个人学习与研究实践

圣女司幼幽-造相Z-Turbo开源镜像深度解析&#xff1a;版权合规下的个人学习与研究实践 1. 镜像概述与核心价值 圣女司幼幽-造相Z-Turbo是一个基于Z-Image-Turbo LoRA版本的专业文生图模型&#xff0c;专门用于生成《牧神记》中圣女司幼幽角色的高质量图像。这个开源镜像为AI艺…...

13.9K Star,开源问答系统如何重塑企业知识管理

1. 从知识孤岛到智慧大脑&#xff1a;一个真实的企业困境 想象一下&#xff0c;你在一家快速发展的科技公司工作。公司有几百号人&#xff0c;产品线从软件到硬件有好几条&#xff0c;技术栈五花八门。新员工入职&#xff0c;想了解某个老项目的架构设计&#xff0c;得去翻找三…...

Veritas NetBackup 9.1 在Red Hat 7.6上的完整安装与配置指南(含避坑技巧)

Veritas NetBackup 9.1 在RHEL 7.6上的企业级部署&#xff1a;从零构建到生产级调优 对于任何一家将数据视为生命线的企业而言&#xff0c;一套可靠、高效且易于管理的备份系统&#xff0c;其重要性不亚于核心业务应用本身。Veritas NetBackup作为业界公认的企业级数据保护解决…...

拯救杂乱模型!Simulink自动连线脚本的7个实战技巧(附2023版脚本)

拯救杂乱模型&#xff01;Simulink自动连线脚本的7个实战技巧&#xff08;附2023版脚本&#xff09; 如果你在汽车电子、航空航天或者工业控制领域工作超过三年&#xff0c;并且深度使用Simulink进行模型开发&#xff0c;那么你一定经历过这样的场景&#xff1a;一个复杂的ECU&…...

新手必看!VL812 USB3.0扩展坞四层板PCB设计全流程(附嘉立创EDA工程)

从零到一&#xff1a;基于VL812的USB 3.0扩展坞四层PCB实战设计指南 你是否曾对电脑上那永远不够用的USB接口感到烦恼&#xff1f;是否想过自己动手&#xff0c;打造一个性能稳定、外观独特的USB扩展坞&#xff1f;对于硬件爱好者而言&#xff0c;从原理图到一块沉甸甸的PCB板&…...

小白也能玩转CVPR模型:MogFace人脸检测工具部署实录

小白也能玩转CVPR模型&#xff1a;MogFace人脸检测工具部署实录 1. 引言 你有没有想过&#xff0c;自己也能轻松用上那些在顶级学术会议上发表的最新AI模型&#xff1f;今天&#xff0c;我要带你体验的&#xff0c;就是一个来自CVPR 2022的“明星”模型——MogFace&#xff0…...

构建无限免费的AI编程伙伴:VSCode + Roo Code + Gemini Balance负载均衡策略详解

1. 为什么你需要一个“无限免费”的AI编程伙伴&#xff1f; 作为一名写了十几年代码的老兵&#xff0c;我太懂那种感觉了&#xff1a;面对一个棘手的技术难题&#xff0c;或者想快速搭建一个功能模块时&#xff0c;多么希望身边能有一个随时待命、知识渊博的“编程大神”可以请…...

深入解析MANGOS数据库结构表:魔兽世界私服开发者的终极指南

1. 从零开始&#xff1a;为什么你需要吃透MANGOS数据库 如果你正在折腾魔兽世界私服&#xff0c;或者打算自己动手搭建一个&#xff0c;那你肯定绕不开一个东西&#xff1a;MANGOS的数据库。这东西就像是你服务器的“大脑”&#xff0c;所有游戏世界的规则、内容、逻辑&#xf…...

CTFHUB-XSS-反射型实战:从漏洞检测到Cookie窃取

1. 初探反射型XSS&#xff1a;一个“弹窗”引发的思考 很多刚接触网络安全的朋友&#xff0c;一听到XSS&#xff08;跨站脚本攻击&#xff09;就觉得头大&#xff0c;各种类型、各种绕过&#xff0c;听起来很复杂。但说实话&#xff0c;反射型XSS可以说是其中最“直白”、也最适…...