当前位置：首页 > article >正文

GQA：多查少算的 Attention 头组合

article 2026/5/23 20:15:19

本文基于昇腾CANN和昇腾NPU围绕 ops-transformer 仓库的相关技术展开。MHAMulti-Head Attention每个 Head 一套 QKV——8 个 Head 就是 8 组。MQA 省过头了——8 个 Head 共享 K、V。GQAGrouped Query Attention走在中间8 个 Head 分 4 组组内共享 K、V。CANN 的 ops-transformer 库用 Ascend C 把 GQA 做成融合算子避免了冗余的 K、V 搬运。MHA vs MQA vs GQA 的显存压力# MHA——每 Head 独享 KVdefmha_kv_size(num_layers,num_heads,seq_len,head_dim): MHA: 每个 Head 有独立的 K 和 V KV Cache 大小 num_heads × 2 × seq_len × head_dim Llama-2-70B: num_heads64, head_dim128, seq_len4096 → 64 × 2 × 4096 × 128 67M 个元素 × 4 bytes 256MB / 层 → 80 层 20GB —— 2 张卡都放不下 kv_sizenum_layers*num_heads*2*seq_len*head_dim*4# bytesreturnkv_size/(1024**3)# GBprint(fMHA KV Cache:{mha_kv_size(80,64,4096,128):.1f}GB)# 输出20.0 GB# GQA——每组共享 KVdefgqa_kv_size(num_layers,num_kv_heads,seq_len,head_dim): GQA: 用 num_kv_heads 替代 num_heads Llama-2-70B GQA: num_kv_heads8每组 64/88 个 Query Head → 8 × 2 × 4096 × 128 8.4M / 层 → 80 层 2.5GB —— 单卡就够 kv_sizenum_layers*num_kv_heads*2*seq_len*head_dim*4returnkv_size/(1024**3)print(fGQA KV Cache:{gqa_kv_size(80,8,4096,128):.1f}GB)# 输出2.5 GBMHA 要 20GB 存 KV Cache——80 层跑不了单卡。GQA 砍到 2.5GB余下的 77.5GB HBM 给模型权重。GQA 的计算过程# GQA 的 Attention 计算——组内 Query 共享一组 KVimporttorchimporttorch.nn.functionalasFclassGQAAttention(torch.nn.Module):def__init__(self,hidden_dim,num_heads,num_kv_heads):super().__init__()assertnum_heads%num_kv_heads0,Query Heads 数必须是 KV Heads 的整数倍self.num_headsnum_heads# 32self.num_kv_headsnum_kv_heads# 8self.head_dimhidden_dim//num_heads# 128self.groupsnum_heads//num_kv_heads# 4# Q 投影hidden_dim → num_heads × head_dimself.q_projtorch.nn.Linear(hidden_dim,num_heads*self.head_dim)# K、V 投影hidden_dim → num_kv_heads × head_dim比 MHA 小 4 倍self.k_projtorch.nn.Linear(hidden_dim,num_kv_heads*self.head_dim)self.v_projtorch.nn.Linear(hidden_dim,num_kv_heads*self.head_dim)defforward(self,x,past_kvNone):B,S,Hx.shape qself.q_proj(x).reshape(B,S,self.num_heads,self.head_dim)kself.k_proj(x).reshape(B,S,self.num_kv_heads,self.head_dim)vself.v_proj(x).reshape(B,S,self.num_kv_heads,self.head_dim)# 关键步骤把 KV 头广播到每组 Query Head# [B, S, 8, 128] → [B, S, 32, 128]kk.repeat_interleave(self.groups,dim2)# 复制 Kvv.repeat_interleave(self.groups,dim2)# 复制 V# 标准 Attention——现在每个 Q 有对应的 K、Vscoretorch.matmul(q.transpose(1,2),k.transpose(1,2).transpose(-2,-1))scorescore/(self.head_dim**0.5)attnF.softmax(score,dim-1)outtorch.matmul(attn,v.transpose(1,2))returnout关键在repeat_interleave——把 8 组 K、V 广播成 32 份。显存省了 8 倍但计算时多了这下复制。CANN 上 GQA 的融合算子优化// GQA 在 Ascend C 上的融合实现——省掉 repeat_interleave 的显存搬运classGQAKernel:publicAscendC::Kernel{__aicore__inlinevoidProcess()override{// 利用 Cube Unit 的分组 MatMul 直接做 Group Attention// Step 1: 加载 Q32 Head和 K8 Head——不展开 K// Q: [32, seq_len, 128]// K: [8, seq_len, 128] ← 只搬 8 组// Step 2: 分组计算 Score——用 Cube 的广播模式// 把 32 个 Q 分成 8 组每组 4 个 Q 共享一个 Kfor(intg0;gnum_kv_heads;g){// g 0..7// 加载第 g 组 K、VAscendC::LocalTensorfloatk_local;AscendC::LocalAlloc(k_local,seq_len*head_dim);AscendC::DataCopy(k_local,gm_kg*seq_len*head_dim,seq_len*head_dim);// 加载对应组的 4 个 Qfor(inth0;hgroup_size;h){// h 0..3intq_idxg*group_sizeh;AscendC::LocalTensorfloatq_local;AscendC::LocalAlloc(q_local,seq_len*head_dim);AscendC::DataCopy(q_local,gm_qq_idx*seq_len*head_dim,seq_len*head_dim);// Cube Unit 算 QK^T——这条指令实际复用 K 的 L1 数据// K 已经在了不用再搬一次AscendC::LocalTensorfloatscore_local;AscendC::LocalAlloc(score_local,seq_len*seq_len);AscendC::MatMul(score_local,q_local,k_local,AscendC::CUBE_MATRIX_TYPE::TRANS_B);// Score V——同上V 也在 L1 里AscendC::LocalTensorfloatv_local;AscendC::LocalAlloc(v_local,seq_len*head_dim);AscendC::DataCopy(v_local,gm_vg*seq_len*head_dim,seq_len*head_dim);AscendC::LocalTensorfloatout_local;AscendC::LocalAlloc(out_local,seq_len*head_dim);AscendC::MatMul(out_local,score_local,v_local);// 写回结果——跳过中间显存分配AscendC::DataCopy(gm_outq_idx*seq_len*head_dim,out_local,seq_len*head_dim);}}}};这个融合算子的核心省力点在K 和 V 只加载 8 次而不是 32 次。每组内的 4 个 Q 复用同一份 K、V 的 L1 数据——搬运量减少 75%。Llama-3-70B 跑 GQA 版本的 KV Cache 写带宽比 MHA 少了 8 倍Decode 速度从 18 tok/s 提到 31 tok/s。参考仓库GQA 等 Attention 算子Transformer 加速库

GQA：多查少算的 Attention 头组合

相关文章：

GQA：多查少算的 Attention 头组合

法律科技的发展脉络：从数字化管理到AI辅助办案的演进路径

紧急！2024年Q2最新：Claude 3.5 Sonnet对LaTeX/Markdown混合文档的支持边界实测报告（附绕过限制的3种军工级方案）

不会 CSS 也能做出惊艳 PPT！Frontend Slides这个开源 Claude Code 技能让 AI 帮你生成 12 种风格演示文稿，告别千篇一律的紫渐变

企业AI编程效率提升：2026最新权威AI编程工具必看

工业视觉开发的基石：GenICam 简介

AI答案优化效果可以靠哪些第三方数据验证？

AI Agent在仓储分拣中的真实效能验证（2023-2024全国12家仓配中心压测报告首次公开）

Lindy流程冷启动死亡陷阱（97%新手踩中的第3个环节）：实时检测+自动回滚机制详解

Lindy流程自动化效果衰减真相：3年追踪数据显示，未做持续治理的企业6个月后效率回落至基线112%

【行业首发】Midjourney v6.2水动力学渲染白皮书：基于流体物理模型的prompt工程重构（附NASA水波频谱对照表）

Taotoken 的 Token Plan 套餐如何帮助我们预测并锁定开发成本

Anthropic 万亿估值启示录：战略聚焦如何击败全面扩张

在微服务架构中集成Taotoken实现智能客服路由与成本控制

论文写到一半卡壳了？师兄推荐这几个AI写作辅助软件

如何快速清理Windows右键菜单：终极管理工具完整指南

2026跨境实测｜主流国产AI视频生成工具图生视频功能深度测评

华实展厅出圈！大自然标识匠心打造，目视化呈现基建巨头的实力底气

2025年AI数字人行业现状：全国超99万家企业涌入，真正能落地的不到一成

FactoryBluePrints：戴森球计划终极蓝图仓库，5步打造高效自动化工厂

3分钟搞定Windows 11系统优化：Win11Debloat开源工具完整指南

抖音小店搜索排名规则及优化方法

观测 TaoToken 在多模型间自动路由的稳定性与响应速度

将Taotoken作为统一网关整合到企业现有微服务架构中的设计考量

3步快速搭建微信小程序商城：巴爷商城开源项目实战指南

使用OpenClaw连接Taotoken配置Agent工作流的具体步骤

通过Taotoken Token Plan套餐降低长期项目成本的观察

美容顾问转型AI训练师：2024紧缺新职业认证路径（含国家人社部备案课程编号）

Claude ROI计算模型：3步完成TCO建模→价值映射→敏感性压测，附金融/医疗/制造三大行业参数包

文档即代码？Claude API文档自动化生成全链路拆解，5步接入CI/CD流水线