当前位置: 首页 > article >正文

补全Query Norm缺失!哈工深团队重构线性注意力,显存直降92.3%

当 Transformer 席卷计算机视觉领域高分辨率图像、超长序列任务带来的算力与显存瓶颈愈发凸显标准 Softmax 注意力的二次复杂度让 70Ktoken 的超分辨率任务直接显存爆炸高分辨率图像分割、检测的推理延迟居高不下。线性注意力虽通过核函数重构实现了线性复杂度完美解决了算力开销问题却始终无法摆脱性能退化的问题与原生 Softmax 注意力的精度差距始终难以弥合。近日哈工深张正团队、联合鹏城实验室、昆士兰大学等团队发布重磅论文 Norm×Direction提出 NaLaFormerNorm-aware Linear Attention Transformer框架。首次通过模长-方向分解精准定位并解决了线性注意力的两大核心缺陷在保持线性复杂度的同时实现了视觉任务的精度全面超越更在 70Ktoken 超分任务中实现 92.3% 的峰值显存降低为线性注意力在视觉领域的落地开辟了全新范式。论文标题Norm×Direction: Restoring the Missing Query Norm in Vision Linear Attention论文链接https://arxiv.org/pdf/2506.21137作者团队哈尔滨工业大学深圳SMULL Group、鹏城实验室、昆士兰大学 UQMM Lab核心作者Weikang Meng、Yadan Luo、Liangyu Huo、Yingjian Li、Yaowei Wang、Xin Li、Zheng Zhang通讯作者痛点直击线性注意力性能崩塌的两大致命伤线性注意力的核心目标是通过线性可分核函数替代 Softmax 中的指数算子利用矩阵结合律将计算复杂度从 O(N²) 降至 O(N)。但在 NaLaFormer 的研究中首次系统性揭示了现有方案始终无法逼近 Softmax 性能的两大根源1. Query Norm 被抵消注意力尖峰性彻底丢失团队通过数学推导与实验验证发现在 Softmax 注意力中Query 向量的模长Norm与注意力分布的熵呈强负相关。Query 模长越大注意力分布越尖锐熵越低模型越能精准聚焦于语义关键的 token这是 Softmax 注意力具备强表征能力的核心原因。但在传统线性注意力中归一化操作会直接抵消 Query Norm 的影响让线性注意力彻底失去了对注意力分布尖峰性的动态调控能力最终输出过于平滑的注意力分布无法聚焦关键信息表征能力大幅退化。〓 图1. Softmax 注意力中熵与模长的相关性Query 模长x 轴与注意力熵y 轴呈强负相关Key 模长则无稳定影响2. 非负性约束导致不可逆的信息损失线性注意力的核函数必须满足非负性才能将注意力得分解释为归一化的概率分布。现有方案普遍通过 ReLU、1ELU 等激活函数直接抹除向量中的负值却直接导致了 q-k 内积中有效交互信息的丢失——原本具有区分度的负向语义关联被直接清零最终让相似度表征变得稀疏且缺乏细粒度信息。〓 图2. 不同非负策略的内积贡献对比ReLU、1ELU 均丢失了原始内积的尖峰性与细粒度信息而本文提出的余弦方向方法完美保留了原始分布特征核心创新Norm×Direction 分解双管齐下补全线性注意力短板针对上述两大核心痛点SMULL 团队提出了基于 Norm×DirectionND向量分解的解决方案将向量的模长Norm表征信息重要性与方向Direction编码语义信息解耦。分别针对性解决两大缺陷最终实现了对 Softmax 注意力核心特性的完美复刻同时完整保留线性复杂度。1. Query-Norm-Aware Feature Map重建丢失的模长-信息熵关联团队首先通过 ND 分解对线性注意力的计算过程进行了数学重构。精准定位了 Query Norm 被抵消的核心环节清晰揭示了传统线性注意力的输出仅受 Key Norm 影响Query Norm 在归一化中被完全抵消导致模型对 Query Norm的无感。对此团队设计了Query-Norm-Aware 特征映射将 Query Norm 显式编码进核函数中通过 Norm 依赖的锐化函数动态调控注意力熵其中锐化函数可根据 Query Norm 动态调整幂次完美复刻了 Softmax 注意力中 “Query 模长越大注意力分布越尖锐” 的核心特性重建了 Query Norm 与注意力熵的负相关关系。2. 余弦方向相似度无损实现非负性零信息丢失针对传统非负约束的信息丢失问题团队基于三角同构理论提出了全新的余弦方向相似度机制对方向分量进行几何变换在保证非负性的同时完整保留内积的细粒度信息。团队为每个标量方向分量设计了二维向量映射经过变换后Query 与 Key 的内积可转化为通过 tanh 映射将方向分量缩放至即可保证余弦项始终非负同时完整保留了原始内积的方向交互信息彻底避免了传统激活函数带来的信息损失。3. NaLaFormer统一的 Norm 感知线性注意力架构基于上述两大核心创新团队构建了端到端的 NaLaFormer 架构将 Norm 感知线性注意力模块与门控架构深度融合实现了对视觉 Transformer 的无缝替换。〓 图3. NaLaFormer 整体架构与核心机制aNaLaFormer 基础模块bNorm 感知方法恢复了 Query Norm - 熵负相关c余弦方向机制实现无损非负性约束最终的注意力输出公式为其中与为融合了 Norm 感知与余弦方向映射的 Query/Key 特征映射G 为门控矩阵实现了对注意力输出的自适应调制。✅ 图像分类刷新线性注意力 ImageNet 纪录在 ImageNet-1K 图像分类基准上NaLaFormer 实现了对现有线性注意力模型的全面超越。轻量级 NaLaFormer-XT 仅 8M 参数量就拿下 79.1% Top-1 精度同量级下较基线最高提升 7.5%大规模 NaLaFormer-L 以 95M 参数量实现 85.7% Top-1 精度刷新了线性注意力模型在该基准上的新纪录。✅ 密集预测检测、分割全面领跑同量级模型在 COCO 目标检测、ADE20K/CityScapes 语义分割等密集预测任务中NaLaFormer 展现出极强的细粒度表征能力。COCO 数据集上NaLaFormer-T 基于 Mask R-CNN 框架实现 47.6% 检测 AP、43.0% 分割 AP全面超越同量级经典视觉 Transformer 骨干。ADE20K 语义分割任务中较同量级基线最高提升 4.7% mIoUCityScapes 城市场景分割也以 82.5% mIoU 领跑同规模模型。✅ 超分辨率70Ktoken 峰值显存直降 92.3%在 70Ktoken 的高分辨率超分任务中NaLaFormer 的线性复杂度优势被彻底释放。在保持重建精度与主流方案持平的同时Urban100 4× 超分任务中实现 36.4% 的推理延迟降低峰值显存从 69G 降至 5.3G降幅高达 92.3%彻底解决了高分辨率视觉任务的显存爆炸痛点。✅ 长序列与跨模态能力LRA 新 SOTA语言建模超越 Mamba。团队进一步验证了 NaLaFormer 的跨模态泛化性与长序列建模能力在长序列建模基准 Long Range ArenaLRA上NaLaFormer 实现 61.2% 的平均精度刷新了线性注意力模型的 SOTA 纪录同时保持 827.7 的高吞吐量与极低的显存占用。从零训练 340M 参数量的语言模型在常识推理任务中NaLaFormer 平均得分超越 Mamba、RetNet、GLA 等强基线证明了其在语言模态的超强适配性。✅ 扩散生成DiT/SiT 性能稳步提升团队进一步在扩散 TransformerDiT框架中验证了 NaLaFormer 的生成建模能力。在 ImageNet-1K 256×256 生成任务中将原始注意力模块替换为 NaLaFormer 后NaLaDiT 相比原版 DiTFID 从 68.40 降至 61.64IS 提升至 23.24生成质量稳步提升NaLaSiT 在 SiT 变体中的表现FID 低至 53.08sFID 8.94IS 27.63实现基于 SiT 架构的高效能生成。更多阅读#投 稿 通 道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·

相关文章:

补全Query Norm缺失!哈工深团队重构线性注意力,显存直降92.3%

当 Transformer 席卷计算机视觉领域,高分辨率图像、超长序列任务带来的算力与显存瓶颈愈发凸显:标准 Softmax 注意力的二次复杂度,让 70Ktoken 的超分辨率任务直接显存爆炸,高分辨率图像分割、检测的推理延迟居高不下。线性注意力…...

OpenClaw怎么集成?OpenClaw京东云10分钟安装及使用超详细步骤【最全】

OpenClaw怎么集成?OpenClaw京东云10分钟安装及使用超详细步骤【最全】。OpenClaw怎么部署?本文面向零基础用户,完整说明在轻量服务器与本地Windows11、macOS、Linux系统中部署OpenClaw(Clawdbot)的流程,包含…...

别再死记硬背ATT报文了!用Wireshark抓包实战,带你搞懂BLE通信里Handle和UUID的映射过程

实战拆解BLE通信:用Wireshark透视Handle与UUID的动态映射 当你第一次看到BLE设备通信时,那些十六进制数字在屏幕上闪烁,就像在看天书。Handle、UUID、ATT报文——这些概念在文档里写得清清楚楚,但真正抓包分析时,却总感…...

【开题答辩全过程】以 基于Android的个人财务管理系统的设计与实现为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…...

零基础玩转物联网:借助快马ai生成带详细注释的esp8266wifi连接新手教程代码

最近在折腾物联网项目,发现ESP8266这个WiFi模块特别适合新手入门。作为一个小白,刚开始接触硬件编程时真的是一头雾水,好在发现了InsCode(快马)平台,它能根据自然语言描述直接生成带详细注释的代码,大大降低了学习门槛…...

[特殊字符] 为什么99%的数字孪生都是“假的”?——镜像视界三维重构与视频反演技术重塑空间智能底层逻辑

🚀 为什么99%的数字孪生都是“假的”?——镜像视界三维重构与视频反演技术重塑空间智能底层逻辑如果你接触过数字孪生项目,或者看过相关展示系统,大概率见过这样一种典型场景:一个极具视觉冲击力的三维城市或工业模型&…...

零基础快速入门前端蓝桥杯Web应用开发 DOM 核心知识点(适配省赛/国赛高频考点)(可用于备赛蓝桥杯Web应用开发)

DOM 是蓝桥杯 Web 赛道的必考核心,贯穿所有实操编程题,从基础元素获取到复杂交互、性能优化均有覆盖,以下按考点优先级和模块完整梳理,适配历年真题考情。 一、DOM 基础认知与元素获取(所有题的前置基础,1…...

深度解析:智能体认知动力学

引言:智能体认知的变革在人工智能从 "大炼模型" 转向 "大用模型" 的关键时期,张家林的《智能体认知动力学导论:从生成式控制到拓扑几何求解》(2026 年版)如同一颗投入平静湖面的巨石,激…...

3步解锁VR视频自由:让3D内容在任何设备重生

3步解锁VR视频自由:让3D内容在任何设备重生 【免费下载链接】VR-reversal VR-Reversal - Player for conversion of 3D video to 2D with optional saving of head tracking data and rendering out of 2D copies. 项目地址: https://gitcode.com/gh_mirrors/vr/V…...

OpenClaw+ollama-QwQ-32B自动化写作:从指令到公众号草稿全流程

OpenClawollama-QwQ-32B自动化写作:从指令到公众号草稿全流程 1. 为什么需要自动化写作助手 作为一个技术博主,我每周都要产出2-3篇原创文章。最痛苦的环节不是写作本身,而是那些重复性的准备工作:收集资料、整理格式、调整排版…...

别再只会用ST-Link了!手把手教你用串口给STM32F103C8T6远程更新固件(IAP实战)

突破有线束缚:基于串口的STM32F103C8T6固件无线更新实战指南 当你的STM32开发板被嵌入产品外壳深处,当生产线上的设备需要批量升级,当野外部署的传感器需要修复漏洞——传统ST-Link烧录方式立刻显得笨拙不堪。本文将揭示如何仅用5元的USB转TT…...

腾讯小龙虾使用指南

腾讯小龙虾使用指南腾讯小龙虾是一款集成了多种实用功能的工具,广泛应用于数据分析、自动化处理和团队协作等领域。以下指南将详细介绍其核心功能、操作方法和最佳实践。安装与配置下载腾讯小龙虾的安装包,支持Windows、Mac和Linux系统。运行安装程序后&…...

AI Agent交互设计避坑指南:从Manus到Cursor的7个实战技巧

AI Agent交互设计避坑指南:从Manus到Cursor的7个实战技巧 当AI Agent从简单的指令执行者进化为能自主规划、调用工具并修正错误的"数字伙伴"时,交互设计的复杂度呈指数级增长。去年某知名设计团队调研显示,78%的AI产品失败案例源于…...

Tessent Shell双Pass插入策略深度解读:为什么MemoryBIST要先于EDT/OCC插入?

Tessent Shell双Pass插入策略:MemoryBIST优先于EDT/OCC的技术本质解析 在芯片测试领域,Tessent Shell的双Pass插入流程(Two-Pass Insertion Process)是一个被广泛采用却鲜少深入探讨的核心方法论。当工程师首次接触"先Memory…...

Vue项目中优雅集成turn.js实现3D翻书特效

1. 为什么选择turn.js实现3D翻书效果 第一次在产品手册里看到3D翻页效果时,那种纸张自然弯曲的物理质感让我眼前一亮。作为从业十年的前端开发者,我测试过多种实现方案:纯CSS的transform虽然简单,但缺少页面厚度和阴影细节&#…...

eUICC 配置文件结构 (Profile Structure) 的核心组件与权限管理解析

1. eUICC配置文件结构入门指南 想象一下你的手机SIM卡突然变成了一张"万能卡"——这就是eUICC技术带来的变革。与传统SIM卡不同,eUICC(嵌入式通用集成电路卡)最神奇的地方在于它能远程切换不同运营商的配置文件(Profil…...

NoFences:重构桌面空间的区域化引擎

NoFences:重构桌面空间的区域化引擎 【免费下载链接】NoFences 🚧 Open Source Stardock Fences alternative 项目地址: https://gitcode.com/gh_mirrors/no/NoFences 副标题:三步打造个性化桌面系统 痛点分析:你的桌面是…...

思源宋体:七重字体音阶如何重塑中文数字美学

思源宋体:七重字体音阶如何重塑中文数字美学 【免费下载链接】source-han-serif-ttf Source Han Serif TTF 项目地址: https://gitcode.com/gh_mirrors/so/source-han-serif-ttf 当数字界面与中文排版相遇时,你是否有过这样的困惑:为什…...

告别英文界面:VSCode 最新版中文语言包安装与配置全攻略(Windows/macOS通用)

告别英文界面:VSCode 最新版中文语言包安装与配置全攻略(Windows/macOS通用) 作为一名长期使用VSCode的开发者,我深知英文界面给非英语母语用户带来的困扰。菜单栏里那些专业术语、设置项中的生僻词汇,常常让我们在开…...

springboot-vue+nodejs 的酒店客房预定管理系统的设计与实现

目录技术栈选择系统模块划分后端实现前端实现中间层实现数据库设计支付集成测试与部署项目技术支持源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作技术栈选择 Spring Boot 作为后端框架,提供 RESTful API 接口;Vue.…...

书匠策AI:解锁毕业论文写作新姿势,你的学术“超级大脑”已上线!

毕业季的钟声敲响,论文写作的“战役”也随之打响。面对堆积如山的文献、错综复杂的逻辑框架,以及那令人抓狂的格式要求,你是不是也感到力不从心,甚至开始怀疑人生?别怕,今天咱们就来认识一位学术界的“超级…...

Qwen3-32B-Chat中文优化:提升OpenClaw本地任务理解准确率

Qwen3-32B-Chat中文优化:提升OpenClaw本地任务理解准确率 1. 为什么需要优化本地模型的中文理解能力 去年冬天,当我第一次尝试用OpenClaw自动化整理电脑上的文件时,遇到了一个令人哭笑不得的场景。我对它说"把上周下载的PDF文件按日期…...

告别80类限制!用YOLO-World+CLIP实现‘指哪打哪’的任意物体检测(保姆级教程)

突破类别限制:YOLO-World与CLIP联动的开放词汇检测实战 想象一下,当你需要检测一张照片中"左手边的马克杯"或"书架第三层的编程书籍"时,传统物体检测模型会告诉你:"抱歉,这不在我的80类识别范…...

从仿真到实物:音频功率放大器PCB设计前的Proteus验证全流程

从仿真到实物:音频功率放大器PCB设计前的Proteus验证全流程 在硬件开发领域,音频功率放大器的设计往往需要经历多次迭代才能达到理想性能。传统开发流程中,工程师们常常需要反复制作PCB原型并进行实测,这不仅耗时耗力,…...

订单日记×禧巢汇家居:共同打造行业数字化标杆

一、客户背景 禧巢汇(上海)家居科技有限公司,成立于2025年,位于中国(上海)自由贸易试验区,是一家以从事销售家具为主的企业。 在业务不断壮大的过程中,面临订单处理效率低、统计数据麻烦等问题,需要一种既能提升运营效…...

Windows 11三指拖拽功能完全配置指南:从驱动安装到手势优化

Windows 11三指拖拽功能完全配置指南:从驱动安装到手势优化 【免费下载链接】ThreeFingersDragOnWindows Enables macOS-style three-finger dragging functionality on Windows Precision touchpads. 项目地址: https://gitcode.com/gh_mirrors/th/ThreeFingersD…...

深入解析PyTorch中.pth文件的保存与加载机制

1. 揭开.pth文件的神秘面纱 第一次接触PyTorch时,看到那些以.pth结尾的文件,你是不是也和我当初一样充满疑惑?这些看似普通的文件,实际上是PyTorch模型持久化的关键。简单来说,.pth文件就像是给AI模型拍的一张"照…...

Switch视频播放完全指南:使用wiliwili实现离线媒体娱乐

Switch视频播放完全指南:使用wiliwili实现离线媒体娱乐 【免费下载链接】wiliwili 专为手柄控制设计的第三方跨平台B站客户端,目前可以运行在PC全平台、PSVita、PS4 和 Nintendo Switch上 项目地址: https://gitcode.com/GitHub_Trending/wi/wiliwili …...

终极指南:如何使用爱享素材下载器轻松获取多平台资源

终极指南:如何使用爱享素材下载器轻松获取多平台资源 【免费下载链接】res-downloader 资源下载器、网络资源嗅探,支持微信视频号下载、网页抖音无水印下载、网页快手无水印视频下载、酷狗音乐下载等网络资源拦截下载! 项目地址: https://gitcode.com/…...

Xftp访问服务器文件夹报错?可能是你Xshell打开的方式不对(附正确操作截图)

Xftp访问服务器文件夹报错?可能是你Xshell打开的方式不对(附正确操作截图) 当你使用Xftp连接服务器时,突然遇到"无法显示远程文件夹"的报错,这往往不是Xftp本身的问题,而是权限和会话上下文在作…...