当前位置：首页 > article >正文

北大团队改造DeepSeek注意力，速度快四倍还不丢精度

article 2026/4/7 12:36:09

听雨发自凹非寺量子位 | 公众号 QbitAI就在大家都急头白脸地等待DeepSeek-V4的时候冷不丁一篇新论文引起了网友们的注意——提出新稀疏注意力机制HISA分层索引稀疏注意力突破64K上下文的索引瓶颈相比DeepSeek正在用的DSADeepSeek Sparse Attention提速2-4倍。不仅做到了大幅提速而且几乎不丢精度、即插即用不用重新训练。论文直接在DeepSeek-V3.2和GLM-5上替换索引器无需微调。并且在找关键信息、长文本理解等任务上精度都和原方法几乎持平。两步消除上下文索引瓶颈这篇论文想解决的问题很明确给大模型的稀疏注意力机制换个更高效的 “检索器”。现有主流的DSA等token级稀疏注意力核心就是通过只计算关键token的注意力降低了核心计算成本。但这个设计有个致命隐藏问题要挑出相关字符得靠一个 “索引器”——它需要把每个待查字符和前面所有字符挨个打分再选分数最高的。文本长度L越长这个打分的工作量是L的平方级增长。比如长度翻倍工作量就会翻4倍。到超长文本时这个索引器的平方级成本反而成了拖慢速度的元凶甚至反而比真正的注意力计算还耗时。基于此研究团队开始思考一个问题能否在不改变最终稀疏注意力结果的前提下降低索引器的搜索成本于是他们提出了HISA分层索引稀疏注意力核心思路也很简单既然挨个打分太费时间那就先按块筛掉大部分无关内容再在剩下的小块里精细选。在功能逻辑上实现对原有模块的等价替换无需修改后续注意力计算逻辑相当于 “换了个更高效的筛子筛出来的东西几乎没变”。具体就两步全程复用原模型的打分规则零学习成本第一步块级粗过滤。把长文本切成固定大小的 “字符块”比如128个字符一块给每个块算一个 “整体特征向量”相当于给每块贴个总标签用原索引器的打分方式只给这些块标签打分挑出分数最高的m个块比如64个直接扔掉剩下的所有块——块的数量远少于字符数。这一步能省掉绝大部分工作量。第二步块内精挑字符。只在第一步选出来的m个块里用原索引器的规则给单个字符打分再挑出最终需要的k个相关字符。还加了个小优化文本的第一个块和最后一个块必选保证开头的背景信息、结尾的最新上下文不被误筛也能处理文本拼接的边界问题。HISA的关键优势在于复杂度骤降还能 “无缝替换”。HISA把原索引器每一层 O (L²) 的算力成本降到了O(L²/B L×m×B)B 是块大小、m 是选的块数。文本越长、块选得越精准提速效果越明显。更重要的是它的工程友好性输出和原索引器完全一致下游的注意力计算模块不用改不用重新训练模型、不用调整KV缓存结构直接替换原索引器就行短文本时会自动 “退化” 成原方法只有超长文本时才触发分层筛选全程自适应。实测提速超猛精度几乎没丢论文在DeepSeek-V3.2、GLM-5两大主流大模型上做了全面测试结果很亮眼速度上在64K长度的文本下HISA 比原DSA索引器最高提速3.75倍常规设置也能提速2倍多。上下文长度越长HISA的提速效果越显著完全契合超长上下文128K/1M的实际应用需求。精度上HISA也几乎完全保留原DSA的精度且显著优于纯块稀疏方法。论文进行了“大海捞针”测试该测试衡量在超长无关文本中精准检索指定位置关键信息的能力。结果HISA和DSA几乎一样准在所有长度和插入深度下检索精度均接近DSA的近乎满分。在长文本理解LongBench 基准上HISA的分数也和DSA基本持平。甚至在部分场景比如合成检索、少样本学习等对token筛选精度要求高的任务中HISA做到了小幅反超。而在超参数测试中不同块大小、选块数量下HISA表现都很稳定分数均与DSA高度接近无显著性能差异。这也说明HISA对超参数的选择不敏感鲁棒性强工程落地时无需精细调参。不过目前HISA还有小瑕疵作者也提出了后续改进思路第一现在块是固定大小的若一个块里混了无关和相关内容块的 “整体标签” 会不准。未来可以搞自适应块、重叠块或换更好的块特征计算方式。第二目前只是推理时直接用未来可以把块筛选和模型一起训练让筛选更精准。第三现在只测了索引器的速度未来整合到完整的大模型服务框架里测端到端的吞吐量和延迟。团队背景这篇论文出自北京大学的张牧涵团队。张牧涵北京大学人工智能研究院的Tanure-track助理教授和博士生导师。回国前曾在Facebook AI现为 Meta AI担任研究员从事大规模图学习系统和问题的研究。其Google Scholar总引用量超过13000次其中两篇一作文章引用量分别达到3100和2400次连续多年入选Elsevier全球前2%顶尖科学家生涯影响力榜单。Yufei Xu徐宇飞和Fanxu Meng孟繁续为论文的共同一作。参考链接[1]https://arxiv.org/abs/2603.28458—完— 风云变幻的Q1谁是AI超级应用量子位智库「AI 100」旗舰、创新双产品榜单开启招募扫码申报让你的产品成为季度风向标。

北大团队改造DeepSeek注意力，速度快四倍还不丢精度

相关文章：

北大团队改造DeepSeek注意力，速度快四倍还不丢精度

如何通过CPUDoc智能调度技术提升CPU性能与能效比

低配显卡也能玩转Flux.1！实测schnell版文生图效果与性能优化技巧

G-Helper深度解析：华硕笔记本轻量级控制工具的技术架构与实战手册

从Android 1.0到Android 11：SDK版本演进史与开发适配指南

告别系统卡顿困扰：Win11Debloat开源工具的全方位优化解决方案

OpenClaw对接Qwen2.5-VL-7B：3步完成模型地址配置

5分钟解锁B站m4s缓存：跨平台无损转换工具深度解析

Tao-8k在智能硬件原型开发中的应用：从固件开发到语音交互

Win11Debloat：Windows系统优化工具——3步释放系统性能

WSL2 子系统配置 SSH 并实现 VSCode 远程开发

告别网络依赖：MedGemma 1.5医疗助手，离线环境下的智能健康顾问

Vue3 + Cesium 1.103 项目实战：手把手教你集成 MVTImageryProvider 加载矢量切片地图

电源噪声克星：手把手教你用陷波滤波器消除60Hz工频干扰（Matlab/示波器实测）

利用快马AI快速生成浏览器内容增强插件原型

TMSpeech：完全免费开源的Windows实时语音转文字工具终极指南

【Matlab Simulink】从Excel到2-D Lookup Table：数据导入与模型搭建实战

别再直接kubectl apply了！手把手教你定制化部署Kuboard v3管理面板

LN4056A 1.0A 具有 USB 接口兼容的线性电池管理芯片

协程生命周期调试困局破解（含Clang 18.1.0调试信息补丁实测数据）

ai辅助开发新体验：在快马平台上打造会思考的智能成片ppt生成网站

LN3608 2A 高效率升压 DC/DC 电压调整器

G-Helper华硕笔记本优化指南：告别臃肿控制软件，3步打造高效设备

「码动四季·开源同行」go语言：如何使用 ELK 进行日志采集以及统一处理？

【LLMs篇】Qwen模型家族：从架构设计到多模态应用的全面解析

Leather Dress Collection效果展示：12款皮革服饰LoRA高清生成作品集

2026年国内企业AI私有化部署服务商测评盘点

终极风扇控制指南：3个步骤实现Windows系统智能温控与静音优化

libhv实战：从零构建一个可扩展的微型HTTP服务器

解决Lumerical(FDTD)中lumapi模块导入失败的完整指南