当前位置：首页 > article >正文

CANN/HCOMM通信域配置

article 2026/5/9 12:54:09

HcclCommConfig【免费下载链接】hcommHCOMMHuawei Communication是HCCL的通信基础库提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm功能说明初始化具有特定配置的通信域时此数据类型用于定义通信域配置信息包含缓存区大小、确定性计算开关和通信域名称。定义原型const uint32_t HCCL_COMM_CONFIG_INFO_BYTES 24; const uint32_t COMM_NAME_MAX_LENGTH 128; const uint32_t BUFFER_NAME_MAX_LENGTH 128; const uint32_t UDI_MAX_LENGTH 128; const uint32_t HCCL_COMM_ALGO_MAX_LENGTH 1600; const uint32_t HCCL_COMM_RETRY_ENABLE_MAX_LENGTH 50; const uint32_t HCCL_COMM_RETRY_PARAMS_MAX_LENGTH 128; typedef struct HcclCommConfigDef { char reserved[HCCL_COMM_CONFIG_INFO_BYTES]; /* 保留字段不可修改 */ uint32_t hcclBufferSize; uint32_t hcclDeterministic; char hcclCommName[COMM_NAME_MAX_LENGTH]; char hcclUdi[UDI_MAX_LENGTH]; uint32_t hcclOpExpansionMode; uint32_t hcclRdmaTrafficClass; uint32_t hcclRdmaServiceLevel; uint32_t hcclWorldRankID; uint64_t hcclJobID; uint8_t aclGraphZeroCopyEnable; int32_t hcclExecTimeOut; char hcclAlgo[HCCL_COMM_ALGO_MAX_LENGTH]; char hcclRetryEnable[HCCL_COMM_RETRY_ENABLE_MAX_LENGTH]; char hcclRetryParams[HCCL_COMM_RETRY_PARAMS_MAX_LENGTH]; char hcclBufferName[BUFFER_NAME_MAX_LENGTH]; uint32_t hcclQos; uint64_t hcclSymWinMaxMemSizePerRank; } HcclCommConfig;参数说明hcclBufferSize共享数据的缓存区大小取值需大于等于1单位为MByte。hcclDeterministic确定性计算开关支持如下型号下面分别列出不同AI处理器支持的取值及含义未列出的代表不支持配置。Ascend 950PR/Ascend 950DT仅支持配置为“1”或不配置代表开启归约类通信算子的确定性计算支持通信算子AllReduce、ReduceScatter、Reduce、ReduceScatterV。Atlas A3 训练系列产品/Atlas A3 推理系列产品支持的取值及含义如下0默认值代表关闭确定性计算。1开启归约类通信算子的确定性计算支持通信算子AllReduce和ReduceScatter。2单算子模式下配置为“2“时与配置为“1“的功能保持一致静态图模式下暂不支持配置为“2”。Atlas A2 训练系列产品/Atlas A2 推理系列产品支持的取值及含义如下0默认值代表关闭确定性计算。1开启归约类通信算子的确定性计算支持通信算子AllReduce、ReduceScatter、Reduce、ReduceScatterV。2开启归约类通信算子的严格确定性计算即保序功能在确定性的基础上保证所有bit位的归约顺序均一致。支持通信算子为AllReduce、ReduceScatter、ReduceScatterV配置为该参数时需满足以下条件仅支持多机对称分布场景不支持非对称分布的场景。开启保序时不支持饱和模式仅支持INF/NaN模式。相较于确定性计算开启保序功能后会产生一定的性能下降建议在推理场景下使用该功能。[!NOTE]说明在不开启确定性计算的场景下多次执行的结果可能不同。这个差异的来源一般是因为在算子实现中存在异步的多线程执行会导致浮点数累加的顺序变化。当开启确定性计算后算子在相同的硬件和输入下多次执行将产生相同的输出。默认情况下无需开启确定性计算但当发现模型执行多次结果不同或者精度调优时可以开启确定性计算辅助进行调试调优但开启后算子执行时间会变慢导致性能下降。hcclCommName通信域名称最大长度为128。指定的通信域名称需确保与其他通信域中的名称不重复不指定时由HCCL自动生成。hcclUdi用户自定义信息最大长度为128默认为空。hcclOpExpansionMode配置通信算子的展开模式为通信域粒度的配置。下面分别列出不同AI处理器支持的取值及含义未列出的代表不支持配置。针对Ascend 950PR/Ascend 950DT支持的取值及含义如下0使用默认算子展开模式针对Ascend 950PR/Ascend 950DT通信算子默认在CCU展开使用调度模式。2通信算子在AI CPU计算单元展开。该配置项仅支持Broadcast、Reduce、AllReduce、Scatter、ReduceScatter、ReduceScatterV、AllGather、AllGatherV、AlltoAll、AlltoAllV、AlltoAllVC算子。图模式Ascend IR或者图捕获aclgraph场景当通信算法采用AI CPU模式时单卡上的并发图数量不能超过6个否则可能会因AI CPU核被占满而导致通信阻塞。3通信算子在Device侧的Vector Core计算单元展开。Ascend 950PR不支持此配置。该配置仅支持对称组网、推理特性。该配置下若数据量不满足在“Vector Core”上的运行要求部分算子会自动切换到默认模式。该配置项仅支持Broadcast、Reduce、AllReduce、ReduceScatter、Scatter、AllGather、AlltoAll、AlltoAllV算子当前仅支持单机场景。针对Broadcast、Scatter、AllGather、AlltoAll、AlltoAllV算子数据类型支持int8、uint8、int16、uint16、int32、uint32、int64、uint64、float16、float32、bfp16。针对Reduce、AllReduce、ReduceScatter算子数据类型支持int8、int16、int32、float16、float32、bfp16。该配置项下AllReduce、ReduceScatter、AllGather、AlltoAll算子支持控核能力建议业务根据实际使用场景中计算算子与通信算子的并发情况进行Vector Core核数的配置。若业务编译分配的Vector Core核数无法满足算法编排的要求HCCL会报错并提示所需要的最低Vector Core核数。4代表通信算子在Device侧的Vector Core计算单元展开但不会随着数据量的变化进行模式切换始终使用Vector Core计算如果不满足Vector Core的运行条件会报错退出。Ascend 950PR不支持此配置。该配置仅支持对称组网、推理特性。该配置项支持的算子及约束限制参见配置“3”。5通信算子在CCUCollective Communication Unit集合通信加速单元展开使用MSMemory Slice模式。Ascend 950PR不支持此配置。MS模式为与多个远端通信时使用CCU片上Memory Slice作为中转用于节省内存读写带宽Memory Slice的特点是大小较小但速度较快。当CCU资源不足时系统会自动切换为“2AI CPU模式”。6通信算子在CCU展开使用调度模式。调度模式指使用CCU作为调度器向UB引擎调度UB WQE任务。调度模式下不使用CCU的片上MS直接在两个rank间进行HBM到HBM的数据传输。针对单机通信场景的AllReduce、ReduceScatter、Reduce算子当数据量超过一定值时为防止性能下降系统会自动切换为“2AI_CPU模式”该阈值并非固定会根据算子运行模式及网络规模等因素有所调整。当CCU资源不足时系统会自动切换为“2AI CPU模式”。针对Atlas A3 训练系列产品/Atlas A3 推理系列产品支持的取值及含义如下0使用默认算子展开模式Atlas A3 训练系列产品/Atlas A3 推理系列产品默认使用Device侧的AI CPU计算单元。2通信算子在AI CPU计算单元展开。3通信算子在Device侧的Vector Core计算单元展开。该配置仅支持对称组网、推理特性。该配置下若数据量不满足在“Vector Core”上的运行要求部分算子会自动切换到默认模式。该配置项仅支持Broadcast、AllReduce、ReduceScatter、AllGather、AlltoAll、AlltoAllV、AlltoAllVC算子。针对Broadcast算子数据类型支持int8、uint8、int16、uint16、int32、uint32、float16、float32、bfp16仅支持超节点内的单机通信仅支持单算子模式和Ascend IR图模式不支持多机和跨超节点间通信。针对AllReduce算子数据类型支持int8、int16、int32、float16、float32、bfp16reduce的操作类型仅支持sum、max、min仅支持超节点内的单机/多机通信不支持跨超节点间通信。针对ReduceScatter算子数据类型支持int8、int16、int32、float16、float32、bfp16reduce的操作类型仅支持sum、max、min仅支持超节点内的单机/多机通信不支持跨超节点间通信。针对AllGather、AlltoAll、AlltoAllV、AlltoAllVC算子数据类型支持int8、uint8、int16、uint16、int32、uint32、float16、float32、bfp16仅支持超节点内的单机/多机通信不支持跨超节点间通信。针对Broadcast、AllReduce、ReduceScatter、AllGather、AlltoAll单机通信场景算子当数据量超过一定值时为防止性能下降系统会自动切换为“2AI CPU模式”该阈值并非固定会根据算子运行模式、是否启动确定性计算及网络规模等因素有所调整针对AlltoAllV、AlltoAllVC、AlltoAll多机通信场景算子系统不会自动切换为“2AI CPU”模式为避免性能劣化当任意两个rank之间的最大通信数据量不超过1MB时建议配置为“3AIV模式”否则请采用“2AI CPU模式”。该配置项下集合通信支持控核能力建议业务根据实际使用场景中计算算子与通信算子的并发情况进行Vector Core核数的配置。针对Broadcast算子建议至少分配ranksize个vector核。针对AllReduce、ReduceScatter、AllGather、AlltoAll、AlltoAllV、AlltoAllVC算子建议最少分配max(2, ranksize/20 1)个vector核。若业务编译分配的Vector Core核数无法满足算法编排的要求HCCL会报错并提示所需要的最低Vector Core核数。4代表通信算子在Device侧的Vector Core计算单元展开但不会随着数据量的变化进行模式切换始终使用Vector Core计算如果不满足Vector Core的运行条件会报错退出。该配置仅支持对称组网、推理特性。该配置项支持AllReduce、ReduceScatter、AllGather、AlltoAll、AlltoAllV、AlltoAllVC算子。相关算子支持的数据类型及场景限制参见配置“3”。该配置项下集合通信支持控核能力不同算子的Vector Core核数要求与配置“3”相同。针对Atlas A2 训练系列产品/Atlas A2 推理系列产品支持的取值及含义如下0使用默认算子展开模式Atlas A2 训练系列产品/Atlas A2 推理系列产品默认使用Host侧CPU。1通信算子在Host侧CPU展开。2通信算子在AI CPU计算单元展开。该配置项仅支持AllGather、AlltoAll、AlltoAllV、AlltoAllVC算子。图模式Ascend IR或者图捕获aclgraph场景当通信算法采用AI CPU模式时单卡上的并发图数量不能超过6个否则可能会因AI CPU核被占满而导致通信阻塞。3通信算子在Device侧的Vector Core计算单元展开。该配置仅支持对称组网、推理特性。该配置下若数据量不满足在“Vector Core”上的运行要求部分算子会自动切换到默认模式。该配置项仅支持Broadcast、AllReduce、AlltoAll、AlltoAllV、AlltoAllVC、AllGather、ReduceScatter、AllGatherV、ReduceScatterV算子。针对Broadcast算子数据类型支持int8、uint8、int16、uint16、int32、uint32、float16、float32、bfp16仅支持单机场景8卡以内的单算子模式。针对AllReduce算子数据类型支持int8、int16、int32、float16、float32、bfp16reduce的操作类型仅支持sum、max、min。针对AlltoAll、AlltoAllV、AlltoAllVC算子数据类型支持int8、uint8、int16、uint16、int32、uint32、float16、float32、bfp16。针对AlltoAllV、AlltoAllVC算子仅支持单机场景针对AlltoAll算子的图模式运行方式仅支持单机场景。针对AllGather算子数据类型支持int8、uint8、int16、uint16、int32、uint32、float16、float32、bfp16。针对该算子的图模式运行方式仅支持单机场景。针对ReduceScatter算子数据类型支持int8、int16、int32、float16、float32、bfp16reduce的操作类型仅支持sum、max、min。针对该算子的图模式运行方式仅支持单机场景。针对AllGatherV算子数据类型支持int8、uint8、int16、uint16、int32、uint32、float16、float32、bfp16仅支持单算子模式。针对ReduceScatterV算子数据类型支持int8、int16、int32、float16、float32、bfp16reduce的操作类型仅支持sum、max、min。该配置项下集合通信支持控核能力建议业务根据实际使用场景中计算算子与通信算子的并发情况进行Vector Core核数的配置。针对AllReduce、ReduceScatter、ReduceScatterV算子建议最少分配24个核。针对Broadcast、AlltoAll、AlltoAllV、AlltoAllVC、AllGather、AllGatherV算子建议最少分配16个核。若业务编译分配的Vector Core核数无法满足算法编排的要求HCCL会报错并提示所需要的最低Vector Core核数。4代表通信算子在Device侧的Vector Core计算单元展开但不会随着数据量的变化进行模式切换始终使用Vector Core计算如果不满足Vector Core的运行条件会报错退出。该配置仅支持对称组网、推理特性。该配置项仅支持AllReduce、AlltoAll、AlltoAllV、AlltoAllVC、AllGather、ReduceScatter算子。相关算子支持的数据类型及场景限制参见配置“3”。该配置项下集合通信支持控核能力不同算子的Vector Core核数要求与配置“3”相同。[!NOTE]说明多通信域并行场景下不支持多个通信域同时配置为“3”或“4”AIV Only模式。针对Atlas A2 训练系列产品/Atlas A2 推理系列产品通信算子展开模式设置为“3”或“4”时同时设置hcclDeterministic配置为“1”开启确定性计算在单机的单算子和图模式场景下当数据量≤8MB时仅AllReduce和ReduceScatter算子的确定性计算生效其他场景和算子则以hcclDeterministic配置为准。针对Atlas A2 训练系列产品/Atlas A2 推理系列产品若hcclDeterministic配置为“2”开启保序功能hcclOpExpansionMode不支持配置为“3”或“4”以保序功能为准。针对Atlas A3 训练系列产品/Atlas A3 推理系列产品通信算子展开模式设置为“3”或“4”时若同时设置hcclDeterministic为“1”开启确定性计算或“2”开启保序功能当数据量8MB时仅AllReduce和ReduceScatter算子的确定性计算生效其他场景和算子则以hcclDeterministic配置为准。hcclRdmaTrafficClass配置RDMA网卡的traffic class取值范围为[0,255]需要配置为4的整数倍。在RoCE V2协议中该值对应IP报文头中ToSType of Service域段。共8个bit其中bit[0,1]固定为0bit[2,7]为DSCP因此该值除以4即为DSCP的值。注意事项0xFFFFFFFF被用作优先级判断标识当配置为0xFFFFFFFF时此通信域配置无效会按照优先级取环境变量配置或默认值132。hcclRdmaServiceLevel配置RDMA网卡的service level取值需要和网卡配置的PFC优先级保持一致若配置不一致可能导致性能劣化。需要配置为无符号整数取值范围[0,7]。注意事项0xFFFFFFFF被用作优先级判断标识当配置为0xFFFFFFFF时此通信域配置无效会按照优先级取环境变量配置或默认值4。hcclWorldRankIDNSLB-DPNetwork Scale Load Balance-Data Plane数据面网络级负载均衡场景使用字段代表当前进程在AI框架如Pytorch中的全局rank ID。**hcclJobID**NSLB-DP场景使用字段代表当前分布式业务的唯一标识由AI框架生成。aclGraphZeroCopyEnable该参数仅在图捕获模式aclgraph下对Reduce类算子生效用于控制其是否开启零拷贝功能。0默认值关闭零拷贝功能。1开启零拷贝功能。hcclExecTimeOut不同设备进程在分布式训练或推理过程中存在卡间执行任务不一致的场景如仅特定进程会保存checkpoint数据通过该参数可控制设备间执行时同步等待的时间在该配置时间内各设备进程等待其他设备执行通信同步。单位为s取值范围和针对不同产品类型的使用约束请参见环境变量HCCL_EXEC_TIMEOUT。注意事项0xFFFFFFFF被用作优先级判断标识当配置为0xFFFFFFFF时此通信域配置无效会按照优先级取环境变量配置或默认值1836。hcclAlgo用于配置集合通信Server间通信算法以及超节点间通信算法支持全局配置算法类型与按算子配置算法类型两种配置方式。需注意HCCL提供自适应算法选择功能默认会根据产品形态、数据量和Server个数选择合适的算法一般情况下用户无需手工指定。若通过此参数指定了Server间通信算法则自适应算法选择功能不再生效。配置方式的参数信息及针对不同产品类型支持的算法类型请参见环境变量HCCL_ALGO配置方式如下全局配置算法类型hcclAlgo level0:NA;level1:algo;level2:algo 示例hcclAlgo level0:NA;level1:H-D_R按算子配置算法类型hcclAlgo op0level0:NA;level1:algo0;level2:algo1/op1level0:NA;level1:algo3;level2:algo4示例# AllReduce算子使用Ring算法AllGather算子使用RHD算法其他算子根据产品形态、节点数以及数据量自动选择通信算法。 hcclAlgo allreducelevel0:NA;level1:ring/allgatherlevel0:NA;level1:H-D_RhcclRetryEnable用于配置是否开启HCCL算子的重执行特性。重执行是指当通信算子执行报 SDMA 或者RDMA CQE类型的错误时HCCL会尝试重新执行此通信算子。仅支持在Atlas A3 训练系列产品/Atlas A3 推理系列产品上使用。通过此参数开发者可以在Server间、超节点间两个物理层级的通信域中配置是否开启重执行特性每个层级支持配置两种状态开启或关闭使用约束请参见环境变量HCCL_OP_RETRY_ENABLE配置方式为hcclRetryEnable L1:1, L2:0参数取值如下。L1代表通信域的物理范围为Server间通信域取值为0表示通信域内Server间通信task不开启重执行取值为1表示通信域内Server间通信task开启重执行默认值为0。L2代表通信域的物理范围为超节点间通信域取值为0表示通信域内超节点间通信task不开启重执行取值为1表示通信域内超节点间通信task开启重执行默认值为0。hcclRetryParams只有当开发者通过参数hcclRetryEnable开启了HCCL的算子重执行特性时可通过本参数配置第一次重执行的等待时间、最大重执行的次数以及两次重执行的间隔时间。仅支持在Atlas A3 训练系列产品/Atlas A3 推理系列产品上使用。使用约束请参见环境变量HCCL_OP_RETRY_PARAMS。配置方式为hcclRetryParams MaxCnt:3, HoldTime:5000, IntervalTime:1000参数取值如下MaxCnt最大重传次数uint32类型取值范围为[1,10]默认值为1单位次。HoldTime从检测到通信算子执行失败到开始第一次重新执行的等待时间uint32类型取值范围[0,60000]默认值为5000单位ms。IntervalTime同一个通信算子两次重执行的间隔时间uint32类型取值范围[0,60000]默认值为1000单位ms。hcclBufferNameCCLBuffer名称多通信域使用同一Buffer名称共享同一片CCLBuffer不指定时默认不共享最大长度为128。需注意传入同一CCLBuffer名称的通信域需将算子下发到同一条Stream上。hcclQos用于配置超平面QoS的级别取值范围0~7默认值6。hcclSymWinMaxMemSizePerRank为当前通信域中每个rank预留的对称内存大小单位GB取值范围[1, 当前环境中允许分配的物理内存最大值]默认值16。该参数当前仅支持Atlas A3 训练系列产品/Atlas A3 推理系列产品。配置优先级说明以上配置为通信域级别的配置对于部分参数HCCL提供了全局级别的环境变量配置优先级如下通信域级别HcclCommConfig高于环境变量。若在 HcclCommConfig中配置了某参数则以该配置值为准。环境变量优先级次之。若未在HcclCommConfig中配置对应参数但设置了环境变量则使用环境变量的值。默认值最后生效。若HcclCommConfig和环境变量均未配置则使用下列表格中列出的默认值。表 1配置优先级说明详表配置项配置优先级hcclBufferSize配置项hcclBufferSize通信域粒度配置环境变量HCCL_BUFFSIZE全局配置默认值200。hcclDeterministic配置项hcclDeterministic通信域粒度配置环境变量HCCL_DETERMINISTIC全局配置默认值0关闭确定性计算。hcclOpExpansionMode配置项hcclOpExpansionMode通信域粒度配置环境变量HCCL_OP_EXPANSION_MODE全局配置默认算子展开模式。Ascend 950PR/Ascend 950DTCCU_SCHEDAtlas A3 训练系列产品/Atlas A3 推理系列产品AI_CPUAtlas A2 训练系列产品/Atlas A2 推理系列产品HOSThcclRdmaTrafficClass配置项hcclRdmaTrafficClass通信域粒度配置环境变量HCCL_RDMA_TC全局配置默认值132。hcclRdmaServiceLevel配置项hcclRdmaServiceLevel通信域粒度配置环境变量HCCL_RDMA_SL全局配置默认值4。hcclExecTimeOut配置项hcclExecTimeOut通信域粒度配置环境变量HCCL_EXEC_TIMEOUT全局配置默认值1836。hcclAlgo配置项hcclAlgo通信域粒度配置环境变量HCCL_ALGO全局配置自适应选择算法。hcclRetryEnable配置项hcclRetryEnable通信域粒度配置环境变量HCCL_OP_RETRY_ENABLE全局配置默认值0。hcclRetryParams配置项hcclRetryParams通信域粒度配置环境变量HCCL_OP_RETRY_PARAMS全局配置默认配置MaxCnt1HoldTime5000IntervalTime1000。【免费下载链接】hcommHCOMMHuawei Communication是HCCL的通信基础库提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN/HCOMM通信域配置

相关文章：

CANN/HCOMM通信域配置

CANN/pyasc数据拷贝填充API文档

CANN Lightning Indexer Prolog算子文档

3步快速解密：让网易云音乐加密文件重获自由的完整指南

基于FPGA的ANN智能检测系统：从算法到硬件的协同优化实践

CANN向量步幅切片约束

范式革新：时序媒体智能解析引擎与结构化知识蒸馏技术

生成式AI应用场景深度拆解（2026奇点大会闭门报告首次公开）

CANN/hccl：自定义通信算子 - 点对点通信

深度剖析Go语言，一文告诉你为什么大厂开始增加Go的招聘量

利用 Taotoken 模型广场为学术研究项目筛选性价比最高的模型

ARM SIMD浮点与定点转换指令VCVT详解

嵌入式ROM代码启动机制与优化实践

集成电路PVT角点分析的零调优智能方法

cann-bench TopK算子API描述

三步解锁QQ音乐加密文件：qmc-decoder让你的音乐真正自由播放

CANN/catccos计算通信融合算子模板库

CANN设备运行时事实

RAP中的派生变量%说明

CANN/tensorflow AOE调优配置

长期使用Taotoken服务在API延迟与稳定性方面的实际感受分享

企业内如何通过Taotoken实现AI模型调用的统一审计与风控

我给 MariaDB 装了个“副驾驶”：DBLens for MariaDB

马斯克投1200亿建芯片工厂，微美全息加速量子算力集群进入全球“AI军备竞赛”

CANN/runtime算子信息订阅API

CANN/runtime多Stream同步示例

AI时代知识工作者的创造力重塑：从复用、随机性到形式与内容的边界

CANN/ops-nn Gelu梯度算子

科学拉丁文献翻译评测：ChatGPT与Google Translate的深度对比

通过 Taotoken 管理控制台精细化设置 API Key 的访问权限与审计日志