当前位置: 首页 > article >正文

昇腾CANN shmem:把多张 NPU 的 HBM 变成一块全局内存

hccl 的通信模型是消息传递——发送方调 send接收方调 recv两边同步。hixl 的模型是单边推送——发送方调 put接收方不用参与。shmem 是第三种模型PGASPartitioned Global Address Space每张 NPU 的 HBM 都是全局地址空间的一部分任何一张 NPU 可以直接读写其他 NPU 的 HBM 地址像访问本地内存一样。这意味着8 张 Ascend 910 的 HBM8×32GB 256GB在编程模型上是一块 256GB 的全局内存。不用消息传递不用同步配对直接用地址访问。PGAS 和消息传递的区别用一段代码感受差异。8 张 NPU 各持有一个大矩阵的一行需要更新第 3 张 NPU 上的某个元素// 消息传递模型hccl 风格// 卡0想更新卡3上的数据必须让卡3配合// 卡0发一个更新请求消息hcclSend(update_value,1,FLOAT,dst3,comm);// 卡3必须调 recv 来收这个值hcclRecv(local_buffer,1,FLOAT,src0,comm);local_matrix[row][col]local_buffer;// 卡3手动写入// PGAS 模型shmem 风格// 卡0直接写卡3的 HBM 地址// 初始化时注册了远程地址映射shmem_float_p(remote_matrix[3][row][col],update_value,pe3);// 一行代码卡3不参与shmem_float_p的语义是把update_value写到 PEProcessing Element3 的remote_matrix[3][row][col]地址上。PE 3 不需要调任何函数——数据直接出现在它的 HBM 里。这种编程模型在什么场景下最有价值不规则数据访问。消息传递擅长规则的全局通信AllReduce但对于「卡 0 需要更新卡 3 上的第 7 行第 12 列」这种随机地址写入消息传递的开销在同步上PGAS 的开销只在网络延迟上。shmem 的核心操作Put / Get单边读写#includeshmem.h// 初始化 shmemshmem_init();intmy_peshmem_my_pe();// 当前 NPU 编号 (0-7)intn_peshmem_n_pes();// 总 NPU 数量 (8)// 每张 NPU 分配本地数组也是全局可见的double*local_datashmem_malloc(1024*sizeof(double));// Put把本地的值写到远程 NPU 的地址// 语义local_data[100] 42.0但写的是 PE 3 上的地址doubleval42.0;shmem_double_p(local_data[100],val,3);// 写到 PE 3// Get从远程 NPU 的地址读值// 语义val remote_data[200]但读的是 PE 5 上的地址doubleremote_valshmem_double_g(local_data[200],5);// 从 PE 5 读shmem_malloc和aclrtMalloc的区别shmem_malloc分配的内存自动注册到全局地址空间——其他 NPU 可以用shmem_*_p/shmem_*_g直接访问。aclrtMalloc分配的内存只有本地可见。批量传输单元素 Put/Get 的粒度太细网络延迟吃不掉。shmem 提供了批量操作// 批量 Put把本地的 256 个 double 写到 PE 3 的地址doublesend_buf[256];for(inti0;i256;i)send_buf[i]my_pe*1000i;shmem_double_put(local_data,send_buf,256,3);// 参数目标地址远程PE上的、源地址本地的、元素数、目标PE编号// 批量 Get从 PE 5 的地址读 256 个 doubledoublerecv_buf[256];shmem_double_get(recv_buf,local_data,256,5);// 参数目标地址本地的、源地址远程PE上的、元素数、源PE编号批量操作走的是 RDMA 传输——数据从一张 NPU 的 HBM 经 RoCE 网卡直接写到另一张 NPU 的 HBM不经过 CPU。批量越大RDMA 的启动开销约 5μs摊得越薄有效带宽越接近 RoCE 的峰值100 Gbps 单链路。同步原语PGAS 模型下Put 完成不代表远程 NPU 能看到数据——RDMA Write 完成只代表数据到了对端 HBM对端 CPU/NPU 的缓存可能还没更新。shmem 提供了几种同步机制// fence保证之前所有的 Put 操作在全局可见shmem_fence();// quiet阻塞等待直到之前所有的 Put/Get 操作全部完成shmem_quiet();// barrier全局同步——所有 PE 到齐后才继续shmem_barrier_all();// sync两个 PE 之间的点对点同步shmem_sync(pe3);// 和 PE 3 同步实际开发中最常用的模式是 Put quiet// 写一批数据到远程等写入完成后再通知对方shmem_double_put(remote_buf,local_buf,count,target_pe);shmem_quiet();// 确保数据已经到达远程 HBMshmem_int_atomic_inc(flag,target_pe);// 原子递增通知标志原子操作shmem 支持在远程 HBM 上执行原子操作——不需要加锁不需要对方配合// 远程原子加把 PE 3 上的 counter 原子地加 1shmem_int_atomic_add(counter,1,3);// 远程原子比较交换// 如果 PE 5 上的 lock 0把它设为 1获取锁intoldshmem_int_atomic_compare_swap(lock,0,1,5);if(old0){// 成功获取锁可以安全操作 PE 5 上的共享数据}// 远程原子取值并加// 读取 PE 2 上的 ticket 的当前值然后加 1intmy_ticketshmem_int_atomic_fetch_add(ticket,1,2);原子操作在分布式锁、全局计数器、任务队列等场景中直接可用不需要消息传递那套 request-response 往返。图计算场景为什么 shmem 比 hccl 合适图神经网络GNN的分布式训练是不规则访问的典型场景。一张大图的节点分布在 8 张 NPU 上每个节点需要聚合邻居节点的特征——但邻居可能在其他 NPU 上且每个节点的邻居数量和位置完全不规则。# GNN 的邻居聚合用 shmem 实现importshmem4pyasshm# 初始化shm.init()my_peshm.my_pe()# 本地节点特征local_featuresshm.alloc(NODES_PER_PE,dtypenp.float32)# 邻居聚合对于每个本地节点从远程 PE 聚合邻居特征fornodeinlocal_nodes:forneighborinnode.neighbors:# 邻居在远程 PE 上——直接读它的特征不需要对方配合remote_peneighbor.owner_pe remote_offsetneighbor.local_idx neighbor_featshm.float_get(remote_features[remote_offset],peremote_pe)aggregated[node]neighbor_feat# 用 fence 确保所有远程读取完成shm.fence()同样的逻辑用 hccl 实现需要先通过 AllGather 把所有节点的特征聚到每张卡上再做本地聚合——对于稀疏图来说AllGather 传了大量不需要的冗余数据。shmem 的按需读取避免了这种冗余。和 hixl 的区别两者都做单边通信但编程模型不同维度hixlshmem编程模型显式连接 内存窗口全局地址空间内存管理手动注册 远程地址获取shmem_malloc自动全局可见同步hixl 内部处理fence/quiet/barrier 显式控制适用粒度大块传输MB 级任意粒度元素级到 MB 级原子操作不支持支持典型场景PD 分离 KV Cache 传输GNN / 不规则计算 / 全局数据结构hixl 更适合大规模、单向、低频的传输——设计目标就是 PD 分离。shmem 更适合细粒度、双向、高频的随机访问——设计目标是通用分布式计算。三种通信模型的本质区别在于谁拥有数据的主动权。消息传递hccl双方都要参与。单边推送hixl发送方单方面推数据。全局地址空间shmem任何一方随时读写任何位置。主动权越分散编程灵活性越高但一致性管理的复杂度也越高。shmem 的 fence/quiet/barrier 体系就是为这个一致性管理而设计的——用显式同步换来了完全自由的访问模式。

相关文章:

昇腾CANN shmem:把多张 NPU 的 HBM 变成一块全局内存

hccl 的通信模型是消息传递——发送方调 send,接收方调 recv,两边同步。hixl 的模型是单边推送——发送方调 put,接收方不用参与。shmem 是第三种模型:PGAS(Partitioned Global Address Space),…...

CSS锚点定位(Anchor Positioning)完全指南:实现精准定位

引言 CSS锚点定位(Anchor Positioning)是CSS定位领域的重大突破,它允许元素相对于其他元素进行定位,而不仅仅是相对于视口或父容器。这为实现复杂的UI组件如弹出菜单、工具提示、下拉选择器等提供了原生支持。 一、锚点定位核心概念 1.1 什么是锚点定位 …...

C语言编程实战:用ASCII码表玩转字符大小写转换(附完整代码)

C语言编程实战:用ASCII码表玩转字符大小写转换(附完整代码) 在编程的世界里,字符处理是最基础却又最容易被忽视的技能之一。很多C语言初学者在学习过程中,往往对字符和字符串的操作感到困惑——为什么a和A是不同的&…...

OpenWrt opkg配置进阶:手把手教你设置代理、跳过证书检查,解决国内下载慢问题

OpenWrt opkg高效配置指南:突破网络限制的实战技巧 每次在OpenWrt上安装软件时,看着缓慢的下载进度条或者突如其来的连接错误,是不是感觉既熟悉又无奈?作为一款强大的路由器操作系统,OpenWrt的opkg包管理器本该是我们的…...

告别HAL_Delay!用STM32CubeMX定时器PWM模式优雅驱动ULN2003步进电机

基于STM32CubeMX的PWM硬件驱动ULN2003步进电机全方案 在嵌入式开发中,步进电机控制是一个经典课题。传统方法往往依赖软件延时或基础定时器中断,这不仅消耗宝贵的CPU资源,在多任务场景下还会导致系统响应迟滞。本文将展示如何利用STM32定时器…...

别再只会真彩色了!用ENVI玩转波段组合:揭秘植被红、水体蓝背后的遥感密码

遥感图像解译的艺术:ENVI波段组合背后的科学密码 当一张卫星遥感图像首次展现在眼前时,未经训练的眼睛往往只能看到一片模糊的色块。然而,对于掌握波段组合奥秘的解译专家来说,这些色彩背后隐藏着丰富的地表信息——健康的植被、水…...

从Quill光标到用户头像:手把手教你为Yjs协同编辑器添加完整的在线用户列表(附状态同步技巧)

从Quill光标到用户头像:构建企业级协同编辑器的完整用户感知系统 在数字化办公场景中,协同编辑器的用户体验往往决定了团队协作效率的上限。当多个用户同时编辑同一份文档时,简单的光标显示已无法满足现代团队对协作透明度的需求。本文将深入…...

从Simulink模型到S32K3xx芯片:手把手教你玩转NXP官方MBD工具包(v1.4实战)

从Simulink模型到S32K3xx芯片:手把手教你玩转NXP官方MBD工具包(v1.4实战) 在汽车电子开发领域,时间就是竞争力。当传统手写代码遇上复杂的汽车MCU外设配置,工程师们常常陷入寄存器手册的海洋。而基于模型的设计&#x…...

别再傻傻分不清了!Linux下共享内存(shm)和内存映射(mmap)到底有啥区别?

Linux下共享内存(shm)与内存映射(mmap)的本质区别与工程实践 在Linux系统编程中,当我们需要在进程间高效传递数据时,共享内存(shm)和内存映射(mmap)这两个概念常常让开发者感到困惑。它们看似都能实现内存共…...

CREO新手避坑指南:从拉伸到抽壳,这10个建模细节90%的人都踩过

CREO新手避坑指南:从拉伸到抽壳,这10个建模细节90%的人都踩过 刚接触CREO三维建模时,许多初学者会被软件强大的功能所吸引,却往往在基础操作上反复踩坑。本文将从实际案例出发,剖析那些看似简单却暗藏玄机的建模细节&a…...

用STM32F103和LORA模块,从零搭建一个轮询式本地传感网(附避坑点)

基于STM32F103与LoRa的工业级轮询传感网实战指南 在工业物联网和智能农业领域,稳定可靠的无线传感网络是数据采集的基石。当我们手头有几个STM32F103开发板和LoRa模块时,如何构建一个抗干扰性强、响应及时的轮询式传感网络?本文将深入解析从硬…...

uni-app视频播放二选一:手把手对比调试video.js与MuiPlayer插件(H5/m3u8实战)

uni-app视频播放方案深度对比:video.js与MuiPlayer在H5/m3u8场景下的实战抉择 当uni-app开发者面临H5端m3u8视频播放需求时,技术选型往往成为项目推进的第一道门槛。video.js与MuiPlayer作为两大主流解决方案,各自拥有独特的生态优势与适配特…...

终极指南:如何用5分钟安装FF14动画跳过插件提升副本效率

终极指南:如何用5分钟安装FF14动画跳过插件提升副本效率 【免费下载链接】FFXIV_ACT_CutsceneSkip 项目地址: https://gitcode.com/gh_mirrors/ff/FFXIV_ACT_CutsceneSkip 还在为《最终幻想14》国服副本中冗长的动画而烦恼吗?FFXIV_ACT_Cutscene…...

如何实现虚拟游戏控制器:ViGEmBus驱动完整技术解析

如何实现虚拟游戏控制器:ViGEmBus驱动完整技术解析 【免费下载链接】ViGEmBus Windows kernel-mode driver emulating well-known USB game controllers. 项目地址: https://gitcode.com/gh_mirrors/vi/ViGEmBus ViGEmBus是一款专业的Windows内核模式驱动&am…...

深入CAN总线时序测试:如何用PicoScope精准测量Tbit与Tmess(以CAN ID 0x380为例解析异常)

深入CAN总线时序测试:如何用PicoScope精准测量Tbit与Tmess(以CAN ID 0x380为例解析异常) 在汽车电子和工业控制领域,CAN总线的时序一致性测试是确保通信可靠性的关键环节。当工程师面对Tbit计算结果异常或特殊报文结构时&#xff…...

网络工程师面试必看:通过一个华为ENSP综合实验,拆解中小型网络规划的核心思路

网络工程师面试必看:中小型网络规划的设计思维与实战解析 当面试官抛出"请描述你如何设计一个中小型网络"这个问题时,大多数求职者会陷入两种极端:要么机械罗列配置命令,要么泛泛而谈架构概念。真正能打动面试官的&…...

从宿舍区隔离到无线网配置:手把手教你用Cisco Packet Tracer实现企业级网络策略

企业级网络隔离与无线接入实战:Cisco Packet Tracer全流程配置指南 在数字化转型浪潮中,网络架构设计已成为企业IT基础设施的核心竞争力。想象这样一个场景:某科技园区需要为研发部门、行政部门和访客区域构建差异化的网络访问策略——研发数…...

别再死记硬背了!用Python+仿真软件复现莱顿瓶实验,轻松理解电容器原理

用Python仿真软件复现莱顿瓶实验:从历史装置到现代电容教学 在工程教育中,电容原理常常是学生遇到的第一个抽象概念。传统的板书推导和公式记忆往往让学习者陷入"知其然而不知其所以然"的困境。18世纪的莱顿瓶作为人类最早的电容器&#xff0c…...

别再硬编码了!ABAP Text Elements 三分钟搞定报表字段中文显示(附图标添加技巧)

ABAP文本元素实战:告别硬编码的报表开发艺术 每次看到报表界面上那些冷冰冰的字段名——MATNR、WERKS、VBELN——你是不是也感到一丝尴尬?业务用户可不懂这些技术缩写,他们需要的是直观的"物料编号"、"工厂"和"销售…...

Qt项目实战:用CryptoPP库给本地配置文件做AES加密(C++保姆级教程)

Qt项目实战:用CryptoPP库实现本地配置文件AES加密(C完整指南) 在桌面应用开发中,配置文件的安全性常常被忽视。想象一下,当用户打开你的应用目录,轻易就能用记事本查看到数据库密码或API密钥——这种赤裸裸…...

ARM SVE架构LD1H指令详解与性能优化

1. ARM SVE架构与LD1H指令概述在Armv8.2架构引入的可扩展向量扩展(Scalable Vector Extension, SVE)彻底改变了传统SIMD指令集的设计理念。与固定128位或256位宽度的NEON指令不同,SVE采用向量长度不可知(Vector Length Agnostic, VLA)编程模型,允许同一套…...

告别黑白日志!用Xshell正则高亮集,让服务器报错、成功信息一目了然

告别黑白日志!用Xshell正则高亮集,让服务器报错、成功信息一目了然 在运维和开发人员的日常工作中,与服务器打交道是家常便饭。无论是查看系统日志、调试应用程序,还是执行自动化脚本,我们都需要面对大量的命令行输出信…...

非线性声学与强化学习融合的智能声学处理技术

1. 非线性声学与强化学习的融合框架解析在复杂声学环境中,传统线性声学模型往往难以应对高阶声学现象。非线性声学理论通过Westervelt方程和KZK方程等物理模型,能够准确描述声波在非线性介质中的传播特性。这些方程考虑了介质压缩性和边界反射等非线性效…...

从AT24C02 EEPROM的I2C时序出发,手把手调试你的蓝桥杯单片机存储模块

从AT24C02 EEPROM的I2C时序出发,手把手调试你的蓝桥杯单片机存储模块 在蓝桥杯单片机竞赛中,AT24C02 EEPROM存储模块的稳定读写是基本功,但真正的高手往往能在底层通信协议层面发现问题、解决问题。本文将带你从I2C时序的微观视角&#xff0c…...

SpringBoot 2.6.2 + MyBatis-Plus 3.5.2 集成人大金仓Kingbase 8.6.0保姆级教程(含本地JAR安装避坑)

SpringBoot 2.6.2 MyBatis-Plus 3.5.2 集成人大金仓Kingbase 8.6.0实战指南 在国产化技术浪潮下,越来越多的企业开始采用国产数据库解决方案。作为国内领先的关系型数据库产品,人大金仓Kingbase以其高兼容性和稳定性受到广泛关注。本文将手把手带你完成…...

别光盯着分号!从C2143编译错误,聊聊C++预处理和语法解析那些事儿

别光盯着分号!从C2143编译错误,聊聊C预处理和语法解析那些事儿 当你盯着屏幕上的C2143错误,反复检查分号却依然无解时,有没有想过编译器到底"看"到了什么?这个看似简单的语法错误背后,隐藏着从源…...

Jetson Orin Nano 新手避坑:从零部署YoloV5,我踩过的那些环境配置的‘雷’

Jetson Orin Nano 边缘AI部署实战:YOLOv5环境配置全攻略与避坑指南 1. 硬件准备与系统烧录 Jetson Orin Nano作为NVIDIA新一代边缘计算设备,其强大的AI算力与紧凑体积使其成为计算机视觉项目的理想选择。但在开始YOLOv5部署前,正确的硬件准…...

Mac/Win双平台保姆级教程:从零配置ADB环境到连接真机/模拟器

Mac/Win双平台保姆级教程:从零配置ADB环境到连接真机/模拟器 第一次接触Android开发或测试时,配置ADB环境往往是让人头疼的第一步。不同操作系统、不同设备品牌、不同模拟器之间的差异,让很多新手在"adb devices"命令前败下阵来。…...

仓库盘点、物流交接?用UniApp+PDA扫码提升效率的实战配置与避坑指南

UniAppPDA扫码在仓储物流中的实战配置与效率提升指南 当仓储管理员小李第一次使用传统扫码枪配合PC系统进行月度盘点时,他需要反复核对Excel表格与实物位置,8小时的工作量常常延长到深夜。而现在,通过UniApp开发的移动端应用配合工业级PDA设备…...

实战指南:如何将SPIN的超像素思想,迁移到你的图像修复项目里(附思路)

超像素注意力机制在图像修复中的工程实践指南 当你在处理一张模糊的老照片时,是否曾为那些无法辨认的面部细节而苦恼?或者在增强低分辨率监控画面时,发现传统方法总是让边缘变得生硬不自然?这些问题背后,隐藏着一个被大…...