当前位置: 首页 > article >正文

CANN/catccos AllGather反量化算子

AllGather矩阵乘法反量化算子设计文档【免费下载链接】catccosCATCCOS昇腾计算-通信融合算子模板库是一个聚焦于提供高性能计算通信融合类算子基础模板的代码库。项目地址: https://gitcode.com/cann/catccos1. 算子概述1.1 功能描述AllGather矩阵乘法反量化算子AllGatherMatmulDequant是一个支持INT8量化和偏置Bias的分布式矩阵乘法算子它结合AllGather通信模式用于推理场景。算子的执行是一个流水线过程首先AIV核执行AllGather操作将各个Rank的INT8输入矩阵A收集到一块共享工作空间中。接着AIC核基于这块共享空间中的A矩阵和本地的B矩阵执行INT8矩阵乘法加上偏置并将INT32结果写回。最后AIV核对INT32结果执行反量化得到最终的FP16输出。1.2 算子签名void AllGatherDequantMatmul( uint64_t fftsAddr, GM_ADDR aDevice, // 输入矩阵A: [M, K], int8 GM_ADDR bDevice, // 输入矩阵B: [K, N], int8 GM_ADDR cDevice, // INT32累加结果矩阵: [M*rankSize, N], int32 GM_ADDR bias, // 偏置向量: [N], int32 GM_ADDR symmetricPtr, // 用于Rank间通信的共享内存工作空间 (workspace) GM_ADDR dDevice, // 输出矩阵: [M*rankSize, N], fp16 GM_ADDR deviceScale, // per-channel 量化缩放因子: [N], float32 uint32_t m, uint32_t n, uint32_t k );1.3 输入输出规格参数形状数据类型描述aDevice[M, K]int8量化后的输入矩阵AbDevice[K, N]int8量化后的输入矩阵BcDevice[M*rankSize, N]int32INT32累加器结果矩阵bias[N]int32加到累加结果上的偏置向量dDevice[M*rankSize, N]fp16输出矩阵deviceScale[N]float32B矩阵的per-channel量化缩放因子symmetricPtr-GM_ADDR用于AllGather通信的共享内存工作区2. 量化算法设计2.1 核心计算流程2.2 量化与反量化公式// 伪代码: AllGather (on AIV) // Gathers matrix A from all ranks into a shared workspace gathered_a_int8 allgather(a_int8); // 伪代码: Matmul Bias (on AIC) // Uses the gathered A to perform the matmul result_int32 matmul(gathered_a_int8, b_int8) bias; // 伪代码: 反量化 (on AIV) // Note: per-token scale is not used result_fp32 result_int32 * scale; output_fp16 cast_to_fp16(result_fp32);3. 核心实现架构3.1 计算与通信分离算子采用计算AIC和通信/后处理AIV分离的设计。AIC (AI Core): 负责执行高密度的INT8 × INT8 → INT32矩阵乘法计算并加上偏置。AIV (AI Vector Core): 负责执行AllGather通信以及后续的Dequantize反量化处理。3.2 主要模块BlockMmad:catlass库提供的矩阵乘法模块通过MmadAtlasA2Pingpong调度策略执行分块的INT8矩阵乘法。CommBlockEpilogue:catccos库提供的通信Epilogue用于执行AllGather操作。它将所有Rank的INT8矩阵A收集到每个Rank。BlockEpilogueDequant:catlass库提供的后处理Epilogue用于在AllGather完成后对INT32结果进行反量化并转换为FP16。4. 内存布局设计4.1 全局内存 (Global Memory)输入布局:aDevice,bDevice,bias,deviceScale均存储在GM中。中间结果布局: 每个Rank计算出的INT32累加器结果存储在各自的GM空间中形状为[M*rankSize, N]。输出布局: 最终的FP16输出也存储在GM中形状为[M*rankSize, N]。4.2 共享内存 (Symmetric Memory)用途:symmetricPtr指向的共享内存区域被用作AllGather操作的临时工作空间Workspace。工作方式: 在AllGather过程中每个Rank需要将自己的INT8矩阵A写入到共享内存区域然后所有Rank从这个区域读取完整的矩阵A。布局:Catlass::layout::RowMajor layoutSymmetric{ WORKSPACE_STAGES * rankSize * commSizeM, K, K };5. 通信模式适配5.1 流水线计算与通信算子的核心是一个计算与通信流水线而不是分立的阶段。通信 (AIV): AIV核启动AllGather操作将一个分片(chunk)的A矩阵从所有Rank收集到共享内存工作区。计算 (AIC): 一旦某个分片的A矩阵数据准备就绪AIC核立即对该分片执行Matmul(A_chunk, B) Bias计算并将结果累加到C矩阵。后处理 (AIV): 在所有计算完成后AIV核对最终的C矩阵INT32执行反量化生成最终的FP16输出。这个过程通过多级缓冲WORKSPACE_STAGES进行流水线处理以重叠通信和计算隐藏延迟。5.2 流程图6. 工作空间管理6.1 多阶段流水线算子使用WORKSPACE_STAGES 2的多阶段流水线设计通过commInterval 3控制通信间隔实现计算与通信的重叠。6.2 内存复用策略共享内存复用: 使用共享内存作为AllGather操作的临时缓冲区避免重复分配。流水线缓冲: 通过多阶段设计实现计算与通信的并行执行。7. 总结该量化算子通过将高成本的通信操作AllGather在INT8数据上完成避免了在FP16或FP32上进行通信从而优化了性能。同时通过精确的量化参数处理确保了在多Rank环境下的计算精度。共享内存Symmetric Memory在此过程中扮演了关键的临时数据交换区的角色。8. 使用指南8.1 编译cd examples/allgather_matmul_dequant/ bash scripts/build.sh8.2 运行# 在2个设备上运行设备0和1 bash scripts/run.sh 0,1 # 在4个设备上运行设备1, 3, 5, 7 bash scripts/run.sh 1,3,5,78.3 测试形状测试形状定义在scripts/test_shapes.csv中M,K,N 16384,27392,4096 131072,8192,3072 64,16384,71688.4 数据文件在output/目录中生成以下数据文件x1_gm.bin: 量化输入矩阵A (int8)x2_gm.bin: 量化输入矩阵B (int8)bias_gm.bin: 偏置向量 (int32)c_gm.bin: 中间累加结果矩阵 (int32)d_gm.bin: 输出矩阵 (fp16)scale_x2_gm.bin: 矩阵B的per-channel量化缩放因子 (float32)golden.bin: 验证用的期望输出 (fp16)output.bin: 算子的实际输出 (fp16)8.5 验证脚本会自动验证输出结果与黄金参考的差异使用现有的verify_result.py进行精度验证。该验证脚本支持 fp16 数据类型的精度检查。8.6 调试模式设置环境变量启用调试模式export debug1 bash scripts/run.sh 0,1调试模式下会使用全1矩阵和固定缩放因子便于问题排查。8.7 环境要求Ascend Toolkit 已正确安装SHMEM 环境已配置PyTorch 支持用于数据生成和验证支持 fp16 数据类型的硬件环境【免费下载链接】catccosCATCCOS昇腾计算-通信融合算子模板库是一个聚焦于提供高性能计算通信融合类算子基础模板的代码库。项目地址: https://gitcode.com/cann/catccos创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN/catccos AllGather反量化算子

AllGather矩阵乘法反量化算子设计文档 【免费下载链接】catccos CATCCOS昇腾计算-通信融合算子模板库,是一个聚焦于提供高性能计算通信融合类算子基础模板的代码库。 项目地址: https://gitcode.com/cann/catccos 1. 算子概述 1.1 功能描述 AllGather矩阵乘…...

律师上课记干货太吃力!2026年3款b站视频怎么转文字工具,1分钟导出整理办案笔记

做内容测评这么久,我发现不同人对视频转文字工具的需求差得真多:普通博主转口播只要能出字就行,学生转公开课只要能看懂,像律师整理上课干货、学术研究人员整理访谈讲座,最看重长音频处理能力和专业词汇识别&#xff0…...

CANN社区机器人能力列表

Robot 能力列表 【免费下载链接】infrastructure 本仓库用于托管CANN社区基础设施团队的公开信息,包括不限于:会议日程,成员信息,服务文档和配置等信息 项目地址: https://gitcode.com/cann/infrastructure 能力分类具体功…...

CANN/PTO-ISA自定义算子示例

Custom PyTorch Operator (KERNEL_LAUNCH) Example 【免费下载链接】pto-isa Parallel Tile Operation (PTO) is a virtual instruction set architecture designed by Ascend CANN, focusing on tile-level operations. This repository offers high-performance, cross-platf…...

从SPI到8080:一文搞懂MIPI DBI(Type C)如何驱动你的LCD屏并优化帧率

从SPI到8080:一文搞懂MIPI DBI(Type C)如何驱动你的LCD屏并优化帧率 当你拿到一块标称支持"MIPI DBI"的LCD屏幕时,可能会被这个专业术语吓到。但别担心,这类屏幕通常采用DBI Type C接口——它本质上就是SPI或…...

CANN/catlass 逐令牌反量化

Block Epilogue Per Token Dequant 【免费下载链接】catlass 本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。 项目地址: https://gitcode.com/cann/catlass 代码位置 功能说明 BlockEpilogue偏特化实现,使用perToke…...

2026届必备的六大降AI率助手实测分析

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 要降低AIGC检测率,需从文本特征着手。首先,替换高频词汇&#xff0c…...

高德地图SDK避坑指南:离线地图下载失败的5个常见原因及解决方法

高德地图SDK避坑指南:离线地图下载失败的5个常见原因及解决方法 在移动应用开发中,离线地图功能对于需要在地理位置偏远或网络不稳定环境下运行的应用至关重要。高德地图SDK作为国内领先的地图服务提供商,其离线地图功能被广泛应用于各类Andr…...

CANN/cann-recipes-train:基于昇腾NPU的多轮工具调用代码强化学习

Code RL with Multi-Turn Tool Calling on Ascend NPUs 【免费下载链接】cann-recipes-train 本项目针对LLM与多模态模型训练业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-train Overview This…...

3分钟掌握微信聊天记录解密:WechatDecrypt让你的数据重获自由

3分钟掌握微信聊天记录解密:WechatDecrypt让你的数据重获自由 【免费下载链接】WechatDecrypt 微信消息解密工具 项目地址: https://gitcode.com/gh_mirrors/we/WechatDecrypt 想象一下这样的场景:你刚换了新手机,却发现珍贵的微信聊天…...

黑湖科技完成近10亿融资:要加速工业AI应用落地和全球扩张

雷递网 乐天 4月23日黑湖科技日前宣布完成近10亿元D轮融资,不过,黑湖科技并未公布投资方。黑湖科技称,本轮融资将主要用于加速工业AI应用落地和全球扩张,进一步推动AI与制造业真实业务场景的深度结合。黑湖科技创始人兼CEO 周宇翔…...

3个核心优势:阴阳师自动化脚本的智能解决方案

3个核心优势:阴阳师自动化脚本的智能解决方案 【免费下载链接】OnmyojiAutoScript Onmyoji Auto Script | 阴阳师脚本 项目地址: https://gitcode.com/gh_mirrors/on/OnmyojiAutoScript 阴阳师自动化脚本(Onmyoji Auto Script)是一款专…...

普渡机器人宣布融资近10亿:北汽产投与蓝思科技是投资方

雷递网 乐天 4月23日商用服务机器人领军企业普渡机器人日前宣布完成近10亿元新一轮融资,本轮融资后,公司估值突破百亿元。普渡机器人本轮融资由龙岗金控、亚投资本联合领投,北汽产投、蓝思科技、弘晖基金、珠三角与长三角等多地政府引导基金及…...

AI与VR/AR技术如何重塑人力资源管理:从招聘到培训的实战应用

1. 项目概述:当HR遇见下一代技术浪潮最近几年,和不少做人力资源的朋友聊天,发现一个挺有意思的现象:大家嘴上都在聊数字化转型,但真到了实操层面,很多公司还停留在用Excel做报表、用邮件发通知的阶段。直到…...

CANN/ops-math矩阵对角线算子

MatrixDiag 【免费下载链接】ops-math 本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-math 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产…...

AI与P-VAR模型融合:量化电子商务对国际贸易的动态影响

1. 项目概述:当AI遇见P-VAR,如何洞察电商的全球贸易脉搏最近和几位做国际贸易和宏观经济研究的朋友聊天,大家不约而同地提到了一个现象:传统的贸易模型在解释当下跨境电商、直播带货等新业态对全球货物流通的影响时,越…...

初创团队如何利用Taotoken低成本试用多种大模型

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 初创团队如何利用Taotoken低成本试用多种大模型 对于初创团队而言,在有限的预算内快速验证不同大语言模型的能力&#…...

CANN/pto-isa库开发者规则与限制

This file lists some rules and limitations on the implementation of this library for pto-isa developers. 【免费下载链接】pto-isa Parallel Tile Operation (PTO) is a virtual instruction set architecture designed by Ascend CANN, focusing on tile-level operati…...

CANN运行时IPC内存共享示例

11_ipc_memory_withoutpid 【免费下载链接】runtime 本项目提供CANN运行时组件和维测功能组件。 项目地址: https://gitcode.com/cann/runtime 描述 本样例展示了同一个Device、两个进程间的内存共享,在内存共享时关闭进程白名单校验。 产品支持情况 本样…...

Taotoken用量看板如何帮助项目管理者精细化控制AI成本

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 Taotoken用量看板如何帮助项目管理者精细化控制AI成本 对于项目管理者而言,将大模型能力集成到产品中,除了…...

从IMU到自动驾驶:卡尔曼滤波参数(Q,R)怎么调?一个Python仿真实验说清楚

卡尔曼滤波参数调优实战:用Python仿真破解Q/R矩阵之谜 在自动驾驶和机器人定位领域,卡尔曼滤波器的性能往往取决于两个神秘参数——过程噪声协方差Q和测量噪声协方差R。许多工程师能够熟练实现算法代码,却在参数调试阶段陷入反复试错的泥潭。…...

CANN/ops-blas快速入门指南

快速入门:基于ops-blas仓 【免费下载链接】ops-blas 本项目是CANN提供的高性能线性代数计算以及轻量化GEMM调用算子库。 项目地址: https://gitcode.com/cann/ops-blas 使用须知 本指南旨在帮助您快速上手CANN和ops-blas算子仓的使用。为方便快速了解算子开…...

基于MFDFA、传递熵与Kuramoto模型的EEG信号特征工程实践

1. 项目概述:从EEG信号到网络动力学特征的工程化探索在神经科学和脑机接口领域,脑电图信号分析一直是个既迷人又充满挑战的课题。我们面对的是一系列从头皮表面采集到的、看似杂乱无章的微弱电信号,它们背后却隐藏着大脑这个复杂系统运作的奥…...

5分钟让小爱音箱变身AI语音助手:MiGPT完整指南

5分钟让小爱音箱变身AI语音助手:MiGPT完整指南 【免费下载链接】mi-gpt 🏠 将小爱音箱接入 ChatGPT 和豆包,改造成你的专属语音助手。 项目地址: https://gitcode.com/GitHub_Trending/mi/mi-gpt 你是否曾经对着小爱音箱提问&#xff…...

生成式AI在医疗领域的伦理挑战与GREAT PLEA治理框架实践

1. 项目概述:当生成式AI走进手术室与战场最近和几位在医疗信息化和国防科技领域的朋友聊天,话题不约而同地聚焦在了同一个“新工具”上:生成式人工智能。一位三甲医院的影像科主任正在为科室是否引入AI辅助报告生成系统而纠结,他既…...

PowerShell效率翻倍:给你的终端加个‘时光机’,永久保存并快速检索所有历史命令(基于PSReadLine)

PowerShell效率革命:构建你的命令时光机与智能检索系统 每次在终端里反复输入相似的命令时,你是否想过——那些曾经敲过的命令,其实是你最宝贵的数字资产?PowerShell的默认历史记录功能就像沙滩上的脚印,一次退潮就会消…...

构建AI for Science统一生态:从数据、模型到社区的核心架构与实践

1. 项目概述:当AI遇见科学,一场范式革命正在发生“AI for Science”这个词,最近几年在科研圈和工业界的热度是肉眼可见地飙升。它早已不是实验室里的概念玩具,而是正在实实在在地重塑我们探索未知、解决复杂科学问题的方式。简单来…...

从问题到解决方案:Atmosphere大气层系统深度配置与优化指南

从问题到解决方案:Atmosphere大气层系统深度配置与优化指南 【免费下载链接】Atmosphere-stable 大气层整合包系统稳定版 项目地址: https://gitcode.com/gh_mirrors/at/Atmosphere-stable Atmosphere大气层系统作为Nintendo Switch最受欢迎的自定义固件之一…...

别再买错USB转串口模块了!手把手教你用CH340G芯片自己做一个(附完整原理图)

从零打造高性价比USB转串口模块:CH340G实战指南 为什么选择自制USB转串口模块? 市面上充斥着各种USB转串口模块,价格从几元到几十元不等,质量却参差不齐。不少开发者都遇到过这样的糟心事:买回来的模块要么驱动装不上&…...

数据分析中的车辆重新分配

在数据分析中,我们常常需要处理和重新排列数据以满足特定需求。今天我们将讨论一个有趣的案例:如何使用Python中的Pandas库重新排序一个数据框(DataFrame),以确保在重新分配车辆时遵循特定的分配规则。 案例背景 假设你有一份车辆重新分配的记录表,每个车辆从一个账户转…...