当前位置：首页 > article >正文

vLLM中paged attention算子分析

article 2025/12/19 17:51:12

简要分析vLLM中PA的代码架构和v1与v2的区别

vLLM版本：0.8.4

整体结构分析

首先从torch_bindings.cpp入手分析：
在这里插入图片描述
这里可以看到vLLM向pytorch中注册了两个PA算子：v1和v2
其中paged_attention_v1和paged_attention_v2分别实现在csrc/attention/paged_attention_v1.cu以及csrc/attention/paged_attention_v2.cu中：

paged_attention_v1和paged_attention_v2都是PA实现的顶层接口，是Python接口调用的入口点，接收来自PyTorch的张量和各种配置参数。
根据csrc/attention/paged_attention_v1.cu中的代码逻辑，我们可以知道vLLM使用了多层分发机制来实现灵活的算子调用，以csrc/attention/paged_attention_v1.cu中的paged_attention_v1为例，分发层级为：
paged_attention_v1：
-> DISPATCH_BY_KV_CACHE_DTYPE
-> CALL_V1_LAUNCHER_BLOCK_SIZE
-> CALL_V1_LAUNCHER_SPARSITY
-> CALL_V1_LAUNCHER
-> paged_attention_v1_launcher
-> LAUNCH_PAGED_ATTENTION_V1
-> paged_attention_v1_kernel （csrc/attention/attention_kernels.cuh实现）
-> paged_attention_kernel（csrc/attention/attention_kernels.cuh实现）

可知paged_attention_kernel是具体的PA算子，csrc/attention/attention_kernels.cuh的代码主要包含以下几个函数：
在这里插入图片描述
paged_attention_v1_kernel和paged_attention_v2_kernel分别是v1和v2对paged_attention_kernel的封装，功能是类似的。

v1与v2的具体区别

总体上：

v1版本提供了直接、无分区的注意力计算，适用于中短序列，实现简单，内核启动开销低。
v2版本引入了分区计算和归约合并的两阶段处理，解决了长序列的共享内存限制问题，提高了GPU利用率。

函数参数

在这里插入图片描述
paged_attention_v1和paged_attention_v2参数对比可以发现，v2版本新增了三个参数：exp_sums，max_logits，tmp_out，他们是用于分区注意力计算。
这三个参数的维度包含了max_num_partitions，表示序列被划分的最大分区数。

分区计算策略

v2版本引入了固定大小的分区（默认512个token），将长序列分割成多个分区并行处理。

 // v1版本 - 整体处理序列
dim3 grid(num_heads, num_seqs, 1);  // 注意z维度为1// v2版本 - 分区处理序列
int max_num_partitions = DIVIDE_ROUND_UP(max_seq_len, PARTITION_SIZE);// 默认分区大小PARTITION_SIZE = 512
dim3 grid(num_heads, num_seqs, max_num_partitions);  // z维度为分区数

v2两阶段计算

#define LAUNCH_PAGED_ATTENTION_V2(HEAD_SIZE)                                   \vllm::paged_attention_v2_kernel<T, CACHE_T, HEAD_SIZE, BLOCK_SIZE,           \NUM_THREADS, KV_DTYPE, IS_BLOCK_SPARSE,      \PARTITION_SIZE>                              \<<<grid, block, shared_mem_size, stream>>>(                              \exp_sums_ptr, max_logits_ptr, tmp_out_ptr, query_ptr, key_cache_ptr, \value_cache_ptr, num_kv_heads, scale, block_tables_ptr,              \seq_lens_ptr, max_num_blocks_per_seq, alibi_slopes_ptr, q_stride,    \kv_block_stride, kv_head_stride, k_scale_ptr, v_scale_ptr, tp_rank,  \blocksparse_local_blocks, blocksparse_vert_stride,                   \blocksparse_block_size, blocksparse_head_sliding_step);              \vllm::paged_attention_v2_reduce_kernel<T, HEAD_SIZE, NUM_THREADS,            \PARTITION_SIZE>                       \<<<reduce_grid, block, reduce_shared_mem_size, stream>>>(                \out_ptr, exp_sums_ptr, max_logits_ptr, tmp_out_ptr, seq_lens_ptr,    \max_num_partitions);

相对于v1，v2包含两阶段计算，分别是：

// 第一阶段：分区计算
vllm::paged_attention_v2_kernel<<< ... >>>(/* 参数 */);// 第二阶段：合并结果
vllm::paged_attention_v2_reduce_kernel<<< ... >>>(/* 参数 */);

而v1版本只需一个核函数：

vllm::paged_attention_v1_kernel<<< ... >>>(/* 参数 */);

共享内存的使用上

// v1版本 - 需要为整个序列分配共享内存
int padded_max_seq_len = DIVIDE_ROUND_UP(max_seq_len, BLOCK_SIZE) * BLOCK_SIZE;
int logits_size = padded_max_seq_len * sizeof(float);// v2版本 - 只需为一个分区分配共享内存
int logits_size = PARTITION_SIZE * sizeof(float);

v2版本显著减少了每个线程块需要的共享内存大小.

v2版本的规约

v2版本在paged_attention_v2_reduce_kernel中实现了复杂的跨分区归约。

// 计算全局最大logit
max_logit = fmaxf(max_logit, VLLM_SHFL_XOR_SYNC(max_logit, mask));// 计算重新缩放的指数和
float rescaled_exp_sum = exp_sums_ptr[i] * expf(l - max_logit);// 聚合分区结果
float acc = 0.0f;
for (int j = 0; j < num_partitions; ++j) {acc += to_float(tmp_out_ptr[j * HEAD_SIZE + i]) * shared_exp_sums[j] * inv_global_exp_sum;
}

若有错误，欢迎指正！

vLLM中paged attention算子分析

简要分析vLLM中PA的代码架构和v1与v2的区别

整体结构分析

v1与v2的具体区别

函数参数

分区计算策略

v2两阶段计算

共享内存的使用上

v2版本的规约

相关文章：

vLLM中paged attention算子分析

多样本整合Banksy空间聚类分析(Visium HD, Xenium, CosMx)

C++：公有，保护及私有继承

ElasticSearch聚合操作案例

使用 OAuth 2.0 保护 REST API

解决下拉框数据提交后回显名称不对

lenis滑动插件的笔记

基于Python的高效批量处理Splunk Session ID并写入MySQL的解决方案

Android Framework

JVM对象分配与程序崩溃排查

OpenMCU(六)：STM32F103开发板功能介绍

(自用)Java学习-5.12(Redis，B2C电商)

Rspack:字节跳动自研 Web 构建工具-基于 Rust打造高性能前端工具链

深度解析LLM参数：Top-K、Top-p和温度如何影响输出随机性？

高速系统设计实例设计分析

查看购物车

疑难杂症：dex安装部署

【idea】快捷键ctrl+shift+F(Find in files)不起作用

开发工具分享: Web前端编码常用的在线编译器

EnumUtils：你的枚举“变形金刚“——让枚举操作不再手工作业

智启未来：新一代云MSP管理服务助力企业实现云成本管理和持续优化

window 显示驱动开发-将虚拟地址映射到内存段（二）

C++：构造函数

【文心智能体】使用文心一言来给智能体设计一段稳定调用工作流的提示词

K8S中构建双架构镜像-从零到成功

pth的模型格式怎么变成SafeTensors了？

iOS safari和android chrome开启网页调试与检查器的方法

c语言第一个小游戏：贪吃蛇小游戏03

大规模预训练范式（Large-scale Pre-training）

基于Flink的用户画像 OLAP 实时数仓统计分析