当前位置：首页 > article >正文

【vllm】deepep

article 2026/3/18 11:12:58

auto recv_x torch::empty({num_recv_tokens, hidden}, x.options());这行代码的作用是为当前 GPU 分配一块显存缓冲区用于存放即将从其他所有 GPU 接收到的 token 数据。这是dispatch操作中一个至关重要的步骤我们可以把它理解为“为客人准备好房间”。详细解释让我们把dispatch操作想象成一个“派对”每个 GPU 都是派对的组织者同时也扮演着客人的角色。x张量: 这是当前 GPU 自己拥有的、准备分发出去的原始 token 数据。可以看作是“我要带去派对的礼物”。dispatch的目标: 将x中需要发送给其他 GPU 的 token通过网络NVLink/RDMA发送出去。同时接收其他 GPU 发送给自己的 token。num_recv_tokens: 在这行代码被执行之前deep_ep已经通过notify_dispatch阶段完成了一轮“尺寸元数据”的交换。每个 GPU 都向全网广播了它将要接收多少个 token。通过对这些信息进行all_reduce求和每个 GPU 都精确地计算出了自己总共将要从所有其他 GPU 接收到的 token 数量这个总数就是num_recv_tokens。可以理解为派对开始前每个组织者都已经统计好了“总共会有多少位客人来我这里”。torch::empty({num_recv_tokens, hidden}, x.options()): 这就是“准备房间”的核心操作。torch::empty(...): 这是 PyTorch C API 中用于分配一块未初始化的 GPU 内存的函数。使用empty而不是zeros是为了性能因为我们知道这块内存马上就会被从网络接收到的数据完全覆盖没有必要预先清零。{num_recv_tokens, hidden}: 这是新分配的缓冲区的形状 (Shape)。num_recv_tokens: 缓冲区的行数正好等于我们要接收的 token 总数。不多不少精确匹配。hidden: 缓冲区的列数与原始 token 的隐藏层维度一致。x.options(): 这是一个方便的写法它告诉torch::empty新创建的张量recv_x应该具有与输入张量x相同的属性包括dtype: 数据类型例如torch::kBFloat16。device: 所在的设备例如torch::kCUDA。layout: 内存布局例如torch::kStrided(表示是稠密的)。最终效果执行完这行代码后在当前 GPU 的显存中一块名为recv_x的、大小为[num_recv_tokens, hidden]的连续内存区域被成功分配。这块内存已经准备就绪可以作为后续dispatchCUDA Kernel 的写入目标 (Destination)。当dispatchKernel 运行时它会从网络NVLink/RDMA 缓冲区中读取数据并直接将接收到的 token 一个个地填充到recv_x这块预留好的“客房”里。为什么必须先分配CUDA Kernel 和网络硬件如 RDMA 网卡不能凭空写入内存它们需要一个明确的、合法的、已经分配好的目标内存地址。这行代码就是提供了这个必需的目标地址。如果事先不知道要接收多少数据 (num_recv_tokens)就无法精确地分配缓冲区这会导致要么内存浪费分配过大要么内存溢出分配过小。因此notify_dispatch阶段的尺寸交换是dispatch操作能够高效、安全执行的前提。

【vllm】deepep

相关文章：

【vllm】deepep

【cuda】deepep 学习 cudaHostGetDevicePointer cudaHostAllocMapped

收藏！小白程序员必看：手把手带你理解大模型Manus的核心架构与工作原理

颠覆性信息聚合工具全景指南：从知识管理到信息筛选的开源解决方案

Qwen3-0.6B-FP8惊艳效果：中文法律条文解读与案例匹配准确率

计算机毕业设计springboot基于内容推荐算法的职业选择推荐系统基于SpringBoot与内容推荐算法的智能职业匹配平台 SpringBoot驱动的个性化职业发展规划推荐系统

深港无缝清关的未来发展趋势

程序员通吃版：从 0 到 1 学 AI Agent！用 LangGraph 六步实现，新手也能上手的实操指南

PX4 Gazebo仿真入门：如何快速替换飞机模型和地图（附常见错误排查）

如何用GPU租用服务高效完成模型微调？｜星宇智算实测

AI 真的会让程序员失业吗？我的答案是 “会，但也不会”

RS232协议在OIF-ITLA-MSA光模块通信中的实战应用（附源码解析）

Qwen3-ASR-0.6B与算法优化：提升语音识别准确率的技巧

网络流量分析AI工具：从PCAP中自动识别C2通信和隧道

UI-TARS-desktop与Anaconda集成的数据科学工作流

datetime 和 timestamp 核心区别与用法

WhisperLiveKit：实时本地语音转写与说话人分离的高效集成方案

PROJECT MOGFACE智能客服应用：结合MySQL实现对话历史管理与分析

FunASR语音识别WebUI零基础教程：5分钟搭建中文语音转文字系统

长鑫存储笔试题库在线测评校招社招求职入职测试在线笔试

Z-Image Turbo多模型切换教程：Z-Image-Turbo/Z-Image-XL/Z-Image-Light一键切换

python+Ai技术的流浪宠物领养平台_

Chrony vs NTP：为什么现代Linux系统都推荐用Chrony做时间同步？

【AIGC】Tool-Augmented LLMs

MiniCPM-V-2_6入门实战：从安装到使用，完整流程图文详解

Cadence Capture到Allegro全流程避坑指南：从原理图到PCB的完整网络表导出

手把手教你用OS-AIGC API接入ERNIE和GPT-3：加密传输全流程解析

【算能】Docker容器内高效调用PCIe加速卡的实战指南

Everything高效搜索：从基础语法到高级筛选技巧

题目：复合材料缠绕压力容器复合材料的概率断裂模型