当前位置: 首页 > article >正文

昇腾CANN ascend-boost-comm:M×N 算子复用是怎么做到的

CANN 生态里 50 多个仓库每个仓库有十几到几十个算子。这些算子之间存在大量公共功能内存搬运算子需要数据切分、通信算子需要拓扑发现、融合算子需要 shape 推导。如果每个仓库各自实现一遍代码膨胀的同时任何一个公共功能的 bug 修复或性能优化需要推开几十个仓库的 PR。ascend-boost-comm 的设计目标就是把这个问题变成 M×N 的复用M 个上层算子仓库通过 N 个公共模块共享实现而不是 M×N 的各自重复。它不是通信库——名字里带 comm 容易误读。ascend-boost-comm 是算子公共平台提供的是中间件性质的基础能力数据切片、拓扑感知、生命周期管理、跨算子状态共享。为什么需要中间件层看一个实际例子。CANN 里有三个仓库都需要对输入张量做二维切分ops-math 的 Reduction 算子需要沿 dim 切分ops-nn 的 MatMul 需要按 M×K 分块ops-transformer 的 FlashAttention 需要按 Br×Bc 分块没有 ascend-boost-comm 时三个仓库各自写切分逻辑// ops-math/reduce/tiling.cpp —— 自己的切分代码// ops-nn/matmul/tiling.cpp —— 差不多的切分代码换了个名字// ops-transformer/flash_attn/tiling.cpp —— 还是差不多的切分代码有 ascend-boost-comm 时三个仓库共用统一的切分框架// ascend-boost-comm/tiling/tiling_framework.h// 所有算子仓库共用此接口templateintDIMstructTilingStrategy{intnum_blocks[DIM];// 每维切多少块intblock_size[DIM];// 每块的大小intremainder_block[DIM];// 尾块的策略对齐/不对齐staticTilingStrategycompute(constShapeDIMtotal_shape,// 总shapeconstShapeDIMmax_block,// 单块最大容量L1约束TilingPolicy policy// 切分策略){TilingStrategy result;for(intd0;dDIM;d){// 按 L1 容量约束计算最优分块intmax_elementsmax_block[d];inttotaltotal_shape[d];result.num_blocks[d](totalmax_elements-1)/max_elements;result.block_size[d]max_elements;// 尾块处理可以选择对齐到 16Cube 约束或保持原始大小intlast_sizetotal-(result.num_blocks[d]-1)*max_elements;if(policyALIGN_TO_CUBElast_size%16!0){result.remainder_block[d](last_size15)/16*16;}else{result.remainder_block[d]last_size;}}returnresult;}};三个仓库的代码变成// 三个仓库各自只用一行调用autotilingTilingStrategy2::compute({M,N},// 矩阵尺寸{MAX_M_TILE,MAX_N_TILE},// L1 容量上限ALIGN_TO_CUBE// 对齐策略);修复一个切分 bug升级 ascend-boost-comm 里的 TilingStrategy 就行——所有 50 个仓库自动受益。五大公共模块一、数据切片引擎除了前面的 shape 维切分还处理数据布局转换。算子从 NCHW 换到 NHWC、从 RowMajor 换到 ColMajor 的跨步映射全部由切片引擎提供// 数据布局转换 分块一次调用#includeascend-boost-comm/tiling/data_slice.hautosliceDataSlice::builder().shape({BATCH,CHANNEL,HEIGHT,WIDTH}).layout(LAYOUT_NCHW)// 输入格式.target_layout(LAYOUT_NHWC)// 输出格式Cube 友好.max_block_size(L1_CAPACITY)// L1 容量约束.build();// slice 自动生成最优的切分计划——// 包含了 layout 转换所需的 stride 映射二、拓扑发现服务分布式算子AllReduce、AllGather 等需要知道 NPU 之间的物理拓扑来选最优算法。ascend-boost-comm 提供统一的拓扑发现// 任何算子仓库都可以调拓扑发现#includeascend-boost-comm/topology/topo_discovery.hTopologyGraph topoTopologyDiscovery::get_instance()-discover();// 判断任意两张 NPU 之间走什么链路for(inti0;inum_npus;i){for(intji1;jnum_npus;j){autopathtopo.shortest_path(i,j);// path.type: NVLink / RoCE / PCIe// path.bandwidth: 链路有效带宽GB/s// path.latency: 链路延迟μs}}// 基于拓扑选算法if(topo.is_nvlink_full_mesh()){returnALG_HALVING_DOUBLING;}elseif(topo.is_ring()){returnALG_RING;}else{returnALG_NAIVE;}这个接口被 hcomm、hccl、asc-comm 三个通信层共用。拓扑发现逻辑只在 ascend-boost-comm 里维护一份改动了 NPU 拓扑描述数据结构后三个通信层自动同步。三、算子生命周期管理CANN 算子从注册到执行有完整的生命周期注册 → InferShape → Tiling → 内存分配 → Kernel Dispatch → 执行 → 内存释放。ascend-boost-comm 管理这个生命周期让每个算子只关注「计算逻辑」部分// 算子生命周期——ascend-boost-comm 统一管理#includeascend-boost-comm/lifecycle/op_lifecycle.h// 算子开发者只需要实现 OpInterfaceclassMyAddOp:publicOpInterface{ShapeInferShape(constvectorShapeinputs)override{...}KernelTypeDispatchKernel(constOpConfigconfig)override{...}StatusExecute(constvectorTensorinputs,Tensoroutput)override{...}};// ascend-boost-comm 管剩下的所有事// - 内存预分配从内存池复用// - workspace 管理// - 异步执行流绑定// - 执行完成的同步点autolifecycleOpLifecycle::createMyAddOp();lifecycle-infer_shape(inputs);lifecycle-allocate_memory();lifecycle-dispatch_kernel();lifecycle-execute();lifecycle-free_memory();四、跨算子状态共享某些状态需要跨多个算子共享——比如混合精度训练的 loss scale 因子、推理的 KV Cache 块池。ascend-boost-comm 提供了一个分布式状态管理器// 跨算子全局状态#includeascend-boost-comm/state/global_state.h// 设置全局状态任意算子可读写GlobalState::set(amp_loss_scale,65536.0f);GlobalState::set(kv_cache_block_pool,pool_ptr);// op-nn 的 LayerNorm 读 loss_scalefloatscaleGlobalState::getfloat(amp_loss_scale);// op-transformer 的 Attention 读 KV Cache 池auto*poolGlobalState::getvoid*(kv_cache_block_pool);状态管理器解决了「全局配置项到处传参数」的问题——loss_scale 只需要在 AMP 初始化时设一次后续所有算子的梯度缩放自动感知。五、调试与诊断算子出问题时快速定位是哪个阶段出的错。ascend-boost-comm 内建了分阶段的 profiling 和诊断// 分阶段 profiling// ascend-boost-comm 在生命周期每个阶段自动插桩#includeascend-boost-comm/debug/profiler.hOpProfilerprofiler(MatMulV2);profiler.enable_trace();// 开启全生命周期跟踪// 执行后输出// [MatMulV2] InferShape: 0.12ms// [MatMulV2] Tiling: 0.05ms// [MatMulV2] AllocMem: 0.23ms ← 瓶颈内存分配慢了// [MatMulV2] Dispatch: 0.01ms// [MatMulV2] Execute: 2.34ms// [MatMulV2] FreeMem: 0.08msProfiling 是分阶段自动注入的不需要算子开发者手动加计时器。依赖关系全景ascend-boost-comm 在 CANN 依赖链中的位置opbase基础组件Tensor、DataType ↓ ascend-boost-comm公共平台Tiling、Topology、Lifecycle、State、Debug ↓ ├─ ops-math / ops-nn / ops-blas / ops-cv ...核心算子仓库 ├─ hccl集合通信库——用 Topology 做算法选择 ├─ hcomm高层通信原语——用 Topology Lifecycle └─ ge图编译器——用 Lifecycle 管理算子执行流每个上层仓库通过 ascend-boost-comm 的模块各取所需。hccl 可能只用 Topology 模块ops-nn 用了 Tiling Lifecycle Debug 三个模块——但代码是同一套维护也是同一套。M×N 复用不是新鲜的架构概念——操作系统的内核模块、浏览器的渲染引擎、游戏引擎的 ECS 框架——在各自领域用了几十年。但算子生态里的 M×N 复用在 CANN 开源之前从未被系统性解决。大多数框架的做法是让每个算子仓库自己维护一套 tiling/topology/lifecycle 代码靠 code review 保持一致性。ascend-boost-comm 把这条路径反过来了——先建公共层再在上面长

相关文章:

昇腾CANN ascend-boost-comm:M×N 算子复用是怎么做到的

CANN 生态里 50 多个仓库,每个仓库有十几到几十个算子。这些算子之间存在大量公共功能:内存搬运算子需要数据切分、通信算子需要拓扑发现、融合算子需要 shape 推导。如果每个仓库各自实现一遍,代码膨胀的同时,任何一个公共功能的…...

Option ‘importsNotUsedAsValues‘ has been removed. Please remove it from your configuration

1、背景 在前端项目中的tsconfig.json中 compilerOptions 报红,鼠标放上去,会显示如下内容: Option importsNotUsedAsValues has been removed. Please remove it from your configuration. Use verbatimModuleSyntax instead.ts Option p…...

从Java到AI大模型:小白程序员必备转型指南,收藏学习不迷路!

本文为传统Java开发者提供了从入门到精通AI大模型的四步转型路径。首先利用成熟AI接口,其次掌握Langchain和LlamaIndex开发工具,再次深入Agent机制设计自动化流程,最后搭建本地专属模型。作者结合自身经验,分享了实战项目和避坑指…...

昇腾CANN shmem:把多张 NPU 的 HBM 变成一块全局内存

hccl 的通信模型是消息传递——发送方调 send,接收方调 recv,两边同步。hixl 的模型是单边推送——发送方调 put,接收方不用参与。shmem 是第三种模型:PGAS(Partitioned Global Address Space),…...

CSS锚点定位(Anchor Positioning)完全指南:实现精准定位

引言 CSS锚点定位(Anchor Positioning)是CSS定位领域的重大突破,它允许元素相对于其他元素进行定位,而不仅仅是相对于视口或父容器。这为实现复杂的UI组件如弹出菜单、工具提示、下拉选择器等提供了原生支持。 一、锚点定位核心概念 1.1 什么是锚点定位 …...

C语言编程实战:用ASCII码表玩转字符大小写转换(附完整代码)

C语言编程实战:用ASCII码表玩转字符大小写转换(附完整代码) 在编程的世界里,字符处理是最基础却又最容易被忽视的技能之一。很多C语言初学者在学习过程中,往往对字符和字符串的操作感到困惑——为什么a和A是不同的&…...

OpenWrt opkg配置进阶:手把手教你设置代理、跳过证书检查,解决国内下载慢问题

OpenWrt opkg高效配置指南:突破网络限制的实战技巧 每次在OpenWrt上安装软件时,看着缓慢的下载进度条或者突如其来的连接错误,是不是感觉既熟悉又无奈?作为一款强大的路由器操作系统,OpenWrt的opkg包管理器本该是我们的…...

告别HAL_Delay!用STM32CubeMX定时器PWM模式优雅驱动ULN2003步进电机

基于STM32CubeMX的PWM硬件驱动ULN2003步进电机全方案 在嵌入式开发中,步进电机控制是一个经典课题。传统方法往往依赖软件延时或基础定时器中断,这不仅消耗宝贵的CPU资源,在多任务场景下还会导致系统响应迟滞。本文将展示如何利用STM32定时器…...

别再只会真彩色了!用ENVI玩转波段组合:揭秘植被红、水体蓝背后的遥感密码

遥感图像解译的艺术:ENVI波段组合背后的科学密码 当一张卫星遥感图像首次展现在眼前时,未经训练的眼睛往往只能看到一片模糊的色块。然而,对于掌握波段组合奥秘的解译专家来说,这些色彩背后隐藏着丰富的地表信息——健康的植被、水…...

从Quill光标到用户头像:手把手教你为Yjs协同编辑器添加完整的在线用户列表(附状态同步技巧)

从Quill光标到用户头像:构建企业级协同编辑器的完整用户感知系统 在数字化办公场景中,协同编辑器的用户体验往往决定了团队协作效率的上限。当多个用户同时编辑同一份文档时,简单的光标显示已无法满足现代团队对协作透明度的需求。本文将深入…...

从Simulink模型到S32K3xx芯片:手把手教你玩转NXP官方MBD工具包(v1.4实战)

从Simulink模型到S32K3xx芯片:手把手教你玩转NXP官方MBD工具包(v1.4实战) 在汽车电子开发领域,时间就是竞争力。当传统手写代码遇上复杂的汽车MCU外设配置,工程师们常常陷入寄存器手册的海洋。而基于模型的设计&#x…...

别再傻傻分不清了!Linux下共享内存(shm)和内存映射(mmap)到底有啥区别?

Linux下共享内存(shm)与内存映射(mmap)的本质区别与工程实践 在Linux系统编程中,当我们需要在进程间高效传递数据时,共享内存(shm)和内存映射(mmap)这两个概念常常让开发者感到困惑。它们看似都能实现内存共…...

CREO新手避坑指南:从拉伸到抽壳,这10个建模细节90%的人都踩过

CREO新手避坑指南:从拉伸到抽壳,这10个建模细节90%的人都踩过 刚接触CREO三维建模时,许多初学者会被软件强大的功能所吸引,却往往在基础操作上反复踩坑。本文将从实际案例出发,剖析那些看似简单却暗藏玄机的建模细节&a…...

用STM32F103和LORA模块,从零搭建一个轮询式本地传感网(附避坑点)

基于STM32F103与LoRa的工业级轮询传感网实战指南 在工业物联网和智能农业领域,稳定可靠的无线传感网络是数据采集的基石。当我们手头有几个STM32F103开发板和LoRa模块时,如何构建一个抗干扰性强、响应及时的轮询式传感网络?本文将深入解析从硬…...

uni-app视频播放二选一:手把手对比调试video.js与MuiPlayer插件(H5/m3u8实战)

uni-app视频播放方案深度对比:video.js与MuiPlayer在H5/m3u8场景下的实战抉择 当uni-app开发者面临H5端m3u8视频播放需求时,技术选型往往成为项目推进的第一道门槛。video.js与MuiPlayer作为两大主流解决方案,各自拥有独特的生态优势与适配特…...

终极指南:如何用5分钟安装FF14动画跳过插件提升副本效率

终极指南:如何用5分钟安装FF14动画跳过插件提升副本效率 【免费下载链接】FFXIV_ACT_CutsceneSkip 项目地址: https://gitcode.com/gh_mirrors/ff/FFXIV_ACT_CutsceneSkip 还在为《最终幻想14》国服副本中冗长的动画而烦恼吗?FFXIV_ACT_Cutscene…...

如何实现虚拟游戏控制器:ViGEmBus驱动完整技术解析

如何实现虚拟游戏控制器:ViGEmBus驱动完整技术解析 【免费下载链接】ViGEmBus Windows kernel-mode driver emulating well-known USB game controllers. 项目地址: https://gitcode.com/gh_mirrors/vi/ViGEmBus ViGEmBus是一款专业的Windows内核模式驱动&am…...

深入CAN总线时序测试:如何用PicoScope精准测量Tbit与Tmess(以CAN ID 0x380为例解析异常)

深入CAN总线时序测试:如何用PicoScope精准测量Tbit与Tmess(以CAN ID 0x380为例解析异常) 在汽车电子和工业控制领域,CAN总线的时序一致性测试是确保通信可靠性的关键环节。当工程师面对Tbit计算结果异常或特殊报文结构时&#xff…...

网络工程师面试必看:通过一个华为ENSP综合实验,拆解中小型网络规划的核心思路

网络工程师面试必看:中小型网络规划的设计思维与实战解析 当面试官抛出"请描述你如何设计一个中小型网络"这个问题时,大多数求职者会陷入两种极端:要么机械罗列配置命令,要么泛泛而谈架构概念。真正能打动面试官的&…...

从宿舍区隔离到无线网配置:手把手教你用Cisco Packet Tracer实现企业级网络策略

企业级网络隔离与无线接入实战:Cisco Packet Tracer全流程配置指南 在数字化转型浪潮中,网络架构设计已成为企业IT基础设施的核心竞争力。想象这样一个场景:某科技园区需要为研发部门、行政部门和访客区域构建差异化的网络访问策略——研发数…...

别再死记硬背了!用Python+仿真软件复现莱顿瓶实验,轻松理解电容器原理

用Python仿真软件复现莱顿瓶实验:从历史装置到现代电容教学 在工程教育中,电容原理常常是学生遇到的第一个抽象概念。传统的板书推导和公式记忆往往让学习者陷入"知其然而不知其所以然"的困境。18世纪的莱顿瓶作为人类最早的电容器&#xff0c…...

别再硬编码了!ABAP Text Elements 三分钟搞定报表字段中文显示(附图标添加技巧)

ABAP文本元素实战:告别硬编码的报表开发艺术 每次看到报表界面上那些冷冰冰的字段名——MATNR、WERKS、VBELN——你是不是也感到一丝尴尬?业务用户可不懂这些技术缩写,他们需要的是直观的"物料编号"、"工厂"和"销售…...

Qt项目实战:用CryptoPP库给本地配置文件做AES加密(C++保姆级教程)

Qt项目实战:用CryptoPP库实现本地配置文件AES加密(C完整指南) 在桌面应用开发中,配置文件的安全性常常被忽视。想象一下,当用户打开你的应用目录,轻易就能用记事本查看到数据库密码或API密钥——这种赤裸裸…...

ARM SVE架构LD1H指令详解与性能优化

1. ARM SVE架构与LD1H指令概述在Armv8.2架构引入的可扩展向量扩展(Scalable Vector Extension, SVE)彻底改变了传统SIMD指令集的设计理念。与固定128位或256位宽度的NEON指令不同,SVE采用向量长度不可知(Vector Length Agnostic, VLA)编程模型,允许同一套…...

告别黑白日志!用Xshell正则高亮集,让服务器报错、成功信息一目了然

告别黑白日志!用Xshell正则高亮集,让服务器报错、成功信息一目了然 在运维和开发人员的日常工作中,与服务器打交道是家常便饭。无论是查看系统日志、调试应用程序,还是执行自动化脚本,我们都需要面对大量的命令行输出信…...

非线性声学与强化学习融合的智能声学处理技术

1. 非线性声学与强化学习的融合框架解析在复杂声学环境中,传统线性声学模型往往难以应对高阶声学现象。非线性声学理论通过Westervelt方程和KZK方程等物理模型,能够准确描述声波在非线性介质中的传播特性。这些方程考虑了介质压缩性和边界反射等非线性效…...

从AT24C02 EEPROM的I2C时序出发,手把手调试你的蓝桥杯单片机存储模块

从AT24C02 EEPROM的I2C时序出发,手把手调试你的蓝桥杯单片机存储模块 在蓝桥杯单片机竞赛中,AT24C02 EEPROM存储模块的稳定读写是基本功,但真正的高手往往能在底层通信协议层面发现问题、解决问题。本文将带你从I2C时序的微观视角&#xff0c…...

SpringBoot 2.6.2 + MyBatis-Plus 3.5.2 集成人大金仓Kingbase 8.6.0保姆级教程(含本地JAR安装避坑)

SpringBoot 2.6.2 MyBatis-Plus 3.5.2 集成人大金仓Kingbase 8.6.0实战指南 在国产化技术浪潮下,越来越多的企业开始采用国产数据库解决方案。作为国内领先的关系型数据库产品,人大金仓Kingbase以其高兼容性和稳定性受到广泛关注。本文将手把手带你完成…...

别光盯着分号!从C2143编译错误,聊聊C++预处理和语法解析那些事儿

别光盯着分号!从C2143编译错误,聊聊C预处理和语法解析那些事儿 当你盯着屏幕上的C2143错误,反复检查分号却依然无解时,有没有想过编译器到底"看"到了什么?这个看似简单的语法错误背后,隐藏着从源…...

Jetson Orin Nano 新手避坑:从零部署YoloV5,我踩过的那些环境配置的‘雷’

Jetson Orin Nano 边缘AI部署实战:YOLOv5环境配置全攻略与避坑指南 1. 硬件准备与系统烧录 Jetson Orin Nano作为NVIDIA新一代边缘计算设备,其强大的AI算力与紧凑体积使其成为计算机视觉项目的理想选择。但在开始YOLOv5部署前,正确的硬件准…...