当前位置：首页 > news >正文

为什么KV Cache只需缓存K矩阵和V矩阵，无需缓存Q矩阵？

news 2026/2/10 20:15:39

大家都知道大模型是通过语言序列预测下一个词的概率。假定{ $x_1$ ， $x_2$ ， $x_3$ ，…， $x_{n-1}$ }为已知序列，其中 $x_1$ ， $x_2$ ， $x_3$ ，…， $x_{n-1}$ 均为维度是 $d_{model}$ 的向量， $q_{n}$ 、 $k_{n}$ 、 $v_{n}$ 同为向量。当输入 $x_n$ 时，需要预测 $x_{n+1}$ 的概率分布。

KV Cache干了什么？

Attention机制的目标是输入 $x_n$ ，输出 $z_n$ 。在具体实现过程中，输入 $x_n$ ，生成 $q_n$ 、 $k_n$ 和 $v_n$ ，并在实际计算中不再需要重复计算 $k_1$ ， $k_2$ ，…， $k_{n-1}$ 和 $v_1$ ， $v_2$ ，…， $v_{n-1}$ ，直接从缓存中取即可。

具体Attention机制计算流程如下图所示。

观察注意力矩阵最下面一行（放大图我放下面了）。新输入的 $x_n$ 通过矩阵 $W_q$ 生成 $q_n$ ，其中 $q_n$ 与 $k_1$ ， $k_2$ ，…， $k_n$ 均有运算关系。所以可以通过缓存 $k_1$ ， $k_2$ ，…， $k_{n-1}$ 向量加速推理。这是K矩阵需要缓存的原因。

不过很意外的发现最右边一列 $q_1$ ， $q_2$ ，…， $q_{n-1}$ 与 $k_{n}$ 之间存在计算。

不是说好的只有KV缓存，没有Q矩阵缓存？如果推导成立，新输入 $x_{n}$ 是否会改变 $x_1$ ， $x_2$ ，…， $x_{n-1}$ 的注意力分布？

推导没有错，也没有Q矩阵缓存。因为在推理阶段，Attention机制有一个非常重要的细节：mask掩码

注意力矩阵在训练推理过程中，为了模拟真实推理场景，当前位置token是看不到下一位置的，且只能看到上一位置以及前面序列的信息，所以在训练推理的时候加了attention mask。具体实现如下图所示：

将上图灰色区域全部重置为-inf(负无穷大) ，这样方便softmax的时候置为0。当新输入 $x_n$ ，注意力的计算（见注意力矩阵最下面一行）与 $q_1$ ， $q_2$ ，…， $q_{n-1}$ 无关，因此无需缓存Q矩阵

另外，还有个V矩阵，参照图1就干了一件事。

$z_n = a1*v_1+a2*v_2+...+a_n*v_n$

我可以提前缓存 $v_1$ ， $v_2$ ，…， $v_{n-1}$ ，计算的时候从缓存中取即可，这是V矩阵需要缓存的原因。

为什么KV Cache只需缓存K矩阵和V矩阵，无需缓存Q矩阵？

相关文章：

为什么KV Cache只需缓存K矩阵和V矩阵，无需缓存Q矩阵？

VS code修改底部的行号的状态栏颜色

【鸿蒙学习笔记】MVVM模式

端、边、云三级算力网络

java —— JSP 技术

【Python学习笔记】菜鸟教程Scrapy案例 + B站amazon案例视频

Pycharm的终端（Terminal）中切换到当前项目所在的虚拟环境

Nginx 高效加速策略：动静分离与缓存详解

Unity3D 游戏摇杆的制作与实现详解

从nginx返回404来看http1.0和http1.1的区别

MySQL 代理层：ProxySQL

异步主从复制

论文解析——Full Stack Optimization of Transformer Inference: a Survey

selenium处理cookie问题实战

(十五)GLM库对矩阵操作

android中activity与fragment之间的各种跳转

动态规划算法-以中学排课管理系统为例

本安防爆手机：危险环境下的安全通信解决方案

算法学习笔记（8）-动态规划基础篇

数据库常见问题(持续更新)

KubeSphere 容器平台高可用：环境搭建与可视化操作指南

stm32G473的flash模式是单bank还是双bank？

（十）学生端搭建

【JavaEE】-- HTTP

Vue2 第一节_Vue2上手_插值表达式{{}}_访问数据和修改数据_Vue开发者工具

Nuxt.js 中的路由配置详解

CocosCreator 之 JavaScript/TypeScript和Java的相互交互

WEB3全栈开发——面试专业技能点P2智能合约开发（Solidity）

自然语言处理——Transformer

第 86 场周赛：矩阵中的幻方、钥匙和房间、将数组拆分成斐波那契序列、猜猜这个单词