当前位置：首页 > news >正文

【注意力MHA,MQA,GQA,MLA】

news 2026/2/10 7:49:36

注意力机制优化简明图解

1. 多头注意力（MHA）

图示：

Input --> [Attention Head 1]--> [Attention Head 2]--> [Attention Head 3]--> ...--> [Attention Head N]--> [Concatenate] --> Output

公式：

$\text{Output} = \text{Concat}(\text{head}_1, \text{head}_2, \ldots, \text{head}_N)$
$\text{head}_i = \text{Attention}(Q, K, V)$

2. 多查询注意力（MQA）

图示：

Input --> [Shared Keys & Values]--> [Attention Head 1]--> [Attention Head 2]--> [Attention Head 3]--> ...--> [Concatenate] --> Output

公式：
$\text{Output} = \text{Concat}(\text{head}_1, \text{head}_2, \ldots, \text{head}_N)$
$\text{head}_i = \text{Attention}(Q, K_{\text{shared}}, V_{\text{shared}})$

3. 分组查询注意力（GQA）

图示：

Input --> [Attention Group 1]--> [Attention Group 2]--> ...--> [Concatenate] --> Output

公式：
$\text{Output} = \text{Concat}(\text{group}_1, \text{group}_2, \ldots, \text{group}_M)$
$\text{group}_j = \text{Attention}(Q_{\text{group}_j}, K_{\text{group}_j}, V_{\text{group}_j})$

4. 多头潜在注意力（MLA）

图示：

Input --> [Compressed Keys & Values]--> [Attention Head 1]--> [Attention Head 2]--> [Attention Head 3]--> ...--> [Concatenate] --> Output

公式：
$\text{Output} = \text{Concat}(\text{head}_1, \text{head}_2, \ldots, \text{head}_N)$
$\text{head}_i = \text{Attention}(Q, K_{\text{compressed}}, V_{\text{compressed}})$

低秩键值联合压缩公式：

$K_{\text{compressed}} = U_K \cdot S_K \cdot V_K^T$
$V_{\text{compressed}} = U_V \cdot S_V \cdot V_V^T$

图示概述

MHA： 每个头独立操作，最终结果拼接。
MQA： 多个头共享键和值，只计算一次查询，减少计算量。
GQA： 查询分组，每组共享键和值，进一步减少计算量。
MLA： 键和值进行压缩，减少内存和计算需求。

这些方法通过不同的策略优化注意力机制，提高了计算效率，降低了内存消耗，使Transformer模型在实际应用中更加高效。

【注意力MHA,MQA,GQA,MLA】

注意力机制优化简明图解

1. 多头注意力（MHA）

2. 多查询注意力（MQA）

3. 分组查询注意力（GQA）

4. 多头潜在注意力（MLA）

图示概述

相关文章：

【注意力MHA,MQA,GQA,MLA】

《从零开始做个摸鱼小网站! · 序》灵感来源

计算机基础（Windows 10+Office 2016）教程 —— 第5章文档编辑软件Word 2016（上）

短视频矩阵管理系统源码：实现短视频内容全面布局

系统设计中15 个最重要的权衡

12年外贸实战经验，一定对你有帮助！

Linux---进程(3)---进程状态

Drools规则引擎实现停车计费

【python虚拟环境】安装第三方包失败/failed with error code1

DiffusionModel-latent diffusion,VAE,U-Net,Text-encoder

C# form的移植工作

linux防火墙相关命令

实习中学到的一点计算机知识（MP4在企业微信打不开？）

ElasticSearch入门语法基础知识

【C++】C++应用案例-dolphin海豚记账本

Matlab数据处理学习笔记

浏览器中的同源策略、CORS 以及相关的 Fetch API 使用

爬虫 APP 逆向 ---＞粉笔考研

2024河南萌新联赛第（三）场河南大学

回溯法---分割回文串

React 第五十五节 Router 中 useAsyncError的使用详解

云原生核心技术 (7/12): K8s 核心概念白话解读(上)：Pod 和 Deployment 究竟是什么？

React Native 开发环境搭建（全平台详解）

【Java学习笔记】Arrays类

多模态商品数据接口：融合图像、语音与文字的下一代商品详情体验

【OSG学习笔记】Day 16: 骨骼动画与蒙皮（osgAnimation）

【HarmonyOS 5 开发速记】如何获取用户信息（头像/昵称/手机号）

【开发技术】.Net使用FFmpeg视频特定帧上绘制内容

【网络安全】开源系统getshell漏洞挖掘

【Linux】自动化构建-Make/Makefile