当前位置: 首页 > article >正文

CANN/HCOMM通信域配置

HcclCommConfig【免费下载链接】hcommHCOMMHuawei Communication是HCCL的通信基础库提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm功能说明初始化具有特定配置的通信域时此数据类型用于定义通信域配置信息包含缓存区大小、确定性计算开关和通信域名称。定义原型const uint32_t HCCL_COMM_CONFIG_INFO_BYTES 24; const uint32_t COMM_NAME_MAX_LENGTH 128; const uint32_t BUFFER_NAME_MAX_LENGTH 128; const uint32_t UDI_MAX_LENGTH 128; const uint32_t HCCL_COMM_ALGO_MAX_LENGTH 1600; const uint32_t HCCL_COMM_RETRY_ENABLE_MAX_LENGTH 50; const uint32_t HCCL_COMM_RETRY_PARAMS_MAX_LENGTH 128; typedef struct HcclCommConfigDef { char reserved[HCCL_COMM_CONFIG_INFO_BYTES]; /* 保留字段不可修改 */ uint32_t hcclBufferSize; uint32_t hcclDeterministic; char hcclCommName[COMM_NAME_MAX_LENGTH]; char hcclUdi[UDI_MAX_LENGTH]; uint32_t hcclOpExpansionMode; uint32_t hcclRdmaTrafficClass; uint32_t hcclRdmaServiceLevel; uint32_t hcclWorldRankID; uint64_t hcclJobID; uint8_t aclGraphZeroCopyEnable; int32_t hcclExecTimeOut; char hcclAlgo[HCCL_COMM_ALGO_MAX_LENGTH]; char hcclRetryEnable[HCCL_COMM_RETRY_ENABLE_MAX_LENGTH]; char hcclRetryParams[HCCL_COMM_RETRY_PARAMS_MAX_LENGTH]; char hcclBufferName[BUFFER_NAME_MAX_LENGTH]; uint32_t hcclQos; uint64_t hcclSymWinMaxMemSizePerRank; } HcclCommConfig;参数说明hcclBufferSize共享数据的缓存区大小取值需大于等于1单位为MByte。hcclDeterministic确定性计算开关支持如下型号下面分别列出不同AI处理器支持的取值及含义未列出的代表不支持配置。Ascend 950PR/Ascend 950DT仅支持配置为“1”或不配置代表开启归约类通信算子的确定性计算支持通信算子AllReduce、ReduceScatter、Reduce、ReduceScatterV。Atlas A3 训练系列产品/Atlas A3 推理系列产品支持的取值及含义如下0默认值代表关闭确定性计算。1开启归约类通信算子的确定性计算支持通信算子AllReduce和ReduceScatter。2单算子模式下配置为“2“时与配置为“1“的功能保持一致静态图模式下暂不支持配置为“2”。Atlas A2 训练系列产品/Atlas A2 推理系列产品支持的取值及含义如下0默认值代表关闭确定性计算。1开启归约类通信算子的确定性计算支持通信算子AllReduce、ReduceScatter、Reduce、ReduceScatterV。2开启归约类通信算子的严格确定性计算即保序功能在确定性的基础上保证所有bit位的归约顺序均一致。支持通信算子为AllReduce、ReduceScatter、ReduceScatterV配置为该参数时需满足以下条件仅支持多机对称分布场景不支持非对称分布的场景。开启保序时不支持饱和模式仅支持INF/NaN模式。相较于确定性计算开启保序功能后会产生一定的性能下降建议在推理场景下使用该功能。[!NOTE]说明 在不开启确定性计算的场景下多次执行的结果可能不同。这个差异的来源一般是因为在算子实现中存在异步的多线程执行会导致浮点数累加的顺序变化。当开启确定性计算后算子在相同的硬件和输入下多次执行将产生相同的输出。 默认情况下无需开启确定性计算但当发现模型执行多次结果不同或者精度调优时可以开启确定性计算辅助进行调试调优但开启后算子执行时间会变慢导致性能下降。hcclCommName通信域名称最大长度为128。指定的通信域名称需确保与其他通信域中的名称不重复不指定时由HCCL自动生成。hcclUdi用户自定义信息最大长度为128默认为空。hcclOpExpansionMode配置通信算子的展开模式为通信域粒度的配置。下面分别列出不同AI处理器支持的取值及含义未列出的代表不支持配置。针对Ascend 950PR/Ascend 950DT支持的取值及含义如下0使用默认算子展开模式针对Ascend 950PR/Ascend 950DT通信算子默认在CCU展开使用调度模式。2通信算子在AI CPU计算单元展开。该配置项仅支持Broadcast、Reduce、AllReduce、Scatter、ReduceScatter、ReduceScatterV、AllGather、AllGatherV、AlltoAll、AlltoAllV、AlltoAllVC算子。图模式Ascend IR或者图捕获aclgraph场景当通信算法采用AI CPU模式时单卡上的并发图数量不能超过6个否则可能会因AI CPU核被占满而导致通信阻塞。3通信算子在Device侧的Vector Core计算单元展开。Ascend 950PR不支持此配置。该配置仅支持对称组网、推理特性。该配置下若数据量不满足在“Vector Core”上的运行要求部分算子会自动切换到默认模式。该配置项仅支持Broadcast、Reduce、AllReduce、ReduceScatter、Scatter、AllGather、AlltoAll、AlltoAllV算子当前仅支持单机场景。针对Broadcast、Scatter、AllGather、AlltoAll、AlltoAllV算子数据类型支持int8、uint8、int16、uint16、int32、uint32、int64、uint64、float16、float32、bfp16。针对Reduce、AllReduce、ReduceScatter算子数据类型支持int8、int16、int32、float16、float32、bfp16。该配置项下AllReduce、ReduceScatter、AllGather、AlltoAll算子支持控核能力建议业务根据实际使用场景中计算算子与通信算子的并发情况进行Vector Core核数的配置。若业务编译分配的Vector Core核数无法满足算法编排的要求HCCL会报错并提示所需要的最低Vector Core核数。4代表通信算子在Device侧的Vector Core计算单元展开但不会随着数据量的变化进行模式切换始终使用Vector Core计算如果不满足Vector Core的运行条件会报错退出。Ascend 950PR不支持此配置。该配置仅支持对称组网、推理特性。该配置项支持的算子及约束限制参见配置“3”。5通信算子在CCUCollective Communication Unit集合通信加速单元展开使用MSMemory Slice模式。Ascend 950PR不支持此配置。MS模式为与多个远端通信时使用CCU片上Memory Slice作为中转用于节省内存读写带宽Memory Slice的特点是大小较小但速度较快。当CCU资源不足时系统会自动切换为“2AI CPU模式”。6通信算子在CCU展开使用调度模式。调度模式指使用CCU作为调度器向UB引擎调度UB WQE任务。调度模式下不使用CCU的片上MS直接在两个rank间进行HBM到HBM的数据传输。针对单机通信场景的AllReduce、ReduceScatter、Reduce算子当数据量超过一定值时为防止性能下降系统会自动切换为“2AI_CPU模式”该阈值并非固定会根据算子运行模式及网络规模等因素有所调整。当CCU资源不足时系统会自动切换为“2AI CPU模式”。针对Atlas A3 训练系列产品/Atlas A3 推理系列产品支持的取值及含义如下0使用默认算子展开模式Atlas A3 训练系列产品/Atlas A3 推理系列产品默认使用Device侧的AI CPU计算单元。2通信算子在AI CPU计算单元展开。3通信算子在Device侧的Vector Core计算单元展开。该配置仅支持对称组网、推理特性。该配置下若数据量不满足在“Vector Core”上的运行要求部分算子会自动切换到默认模式。该配置项仅支持Broadcast、AllReduce、ReduceScatter、AllGather、AlltoAll、AlltoAllV、AlltoAllVC算子。针对Broadcast算子数据类型支持int8、uint8、int16、uint16、int32、uint32、float16、float32、bfp16仅支持超节点内的单机通信仅支持单算子模式和Ascend IR图模式不支持多机和跨超节点间通信。针对AllReduce算子数据类型支持int8、int16、int32、float16、float32、bfp16reduce的操作类型仅支持sum、max、min仅支持超节点内的单机/多机通信不支持跨超节点间通信。针对ReduceScatter算子数据类型支持int8、int16、int32、float16、float32、bfp16reduce的操作类型仅支持sum、max、min仅支持超节点内的单机/多机通信不支持跨超节点间通信。针对AllGather、AlltoAll、AlltoAllV、AlltoAllVC算子数据类型支持int8、uint8、int16、uint16、int32、uint32、float16、float32、bfp16仅支持超节点内的单机/多机通信不支持跨超节点间通信。针对Broadcast、AllReduce、ReduceScatter、AllGather、AlltoAll单机通信场景算子当数据量超过一定值时为防止性能下降系统会自动切换为“2AI CPU模式”该阈值并非固定会根据算子运行模式、是否启动确定性计算及网络规模等因素有所调整针对AlltoAllV、AlltoAllVC、AlltoAll多机通信场景算子系统不会自动切换为“2AI CPU”模式为避免性能劣化当任意两个rank之间的最大通信数据量不超过1MB时建议配置为“3AIV模式”否则请采用“2AI CPU模式”。该配置项下集合通信支持控核能力建议业务根据实际使用场景中计算算子与通信算子的并发情况进行Vector Core核数的配置。针对Broadcast算子建议至少分配ranksize个vector核。针对AllReduce、ReduceScatter、AllGather、AlltoAll、AlltoAllV、AlltoAllVC算子建议最少分配max(2, ranksize/20 1)个vector核。若业务编译分配的Vector Core核数无法满足算法编排的要求HCCL会报错并提示所需要的最低Vector Core核数。4代表通信算子在Device侧的Vector Core计算单元展开但不会随着数据量的变化进行模式切换始终使用Vector Core计算如果不满足Vector Core的运行条件会报错退出。该配置仅支持对称组网、推理特性。该配置项支持AllReduce、ReduceScatter、AllGather、AlltoAll、AlltoAllV、AlltoAllVC算子。相关算子支持的数据类型及场景限制参见配置“3”。该配置项下集合通信支持控核能力不同算子的Vector Core核数要求与配置“3”相同。针对Atlas A2 训练系列产品/Atlas A2 推理系列产品支持的取值及含义如下0使用默认算子展开模式Atlas A2 训练系列产品/Atlas A2 推理系列产品默认使用Host侧CPU。1通信算子在Host侧CPU展开。2通信算子在AI CPU计算单元展开。该配置项仅支持AllGather、AlltoAll、AlltoAllV、AlltoAllVC算子。图模式Ascend IR或者图捕获aclgraph场景当通信算法采用AI CPU模式时单卡上的并发图数量不能超过6个否则可能会因AI CPU核被占满而导致通信阻塞。3通信算子在Device侧的Vector Core计算单元展开。该配置仅支持对称组网、推理特性。该配置下若数据量不满足在“Vector Core”上的运行要求部分算子会自动切换到默认模式。该配置项仅支持Broadcast、AllReduce、AlltoAll、AlltoAllV、AlltoAllVC、AllGather、ReduceScatter、AllGatherV、ReduceScatterV算子。针对Broadcast算子数据类型支持int8、uint8、int16、uint16、int32、uint32、float16、float32、bfp16仅支持单机场景8卡以内的单算子模式。针对AllReduce算子数据类型支持int8、int16、int32、float16、float32、bfp16reduce的操作类型仅支持sum、max、min。针对AlltoAll、AlltoAllV、AlltoAllVC算子数据类型支持int8、uint8、int16、uint16、int32、uint32、float16、float32、bfp16。针对AlltoAllV、AlltoAllVC算子仅支持单机场景针对AlltoAll算子的图模式运行方式仅支持单机场景。针对AllGather算子数据类型支持int8、uint8、int16、uint16、int32、uint32、float16、float32、bfp16。针对该算子的图模式运行方式仅支持单机场景。针对ReduceScatter算子数据类型支持int8、int16、int32、float16、float32、bfp16reduce的操作类型仅支持sum、max、min。针对该算子的图模式运行方式仅支持单机场景。针对AllGatherV算子数据类型支持int8、uint8、int16、uint16、int32、uint32、float16、float32、bfp16仅支持单算子模式。针对ReduceScatterV算子数据类型支持int8、int16、int32、float16、float32、bfp16reduce的操作类型仅支持sum、max、min。该配置项下集合通信支持控核能力建议业务根据实际使用场景中计算算子与通信算子的并发情况进行Vector Core核数的配置。针对AllReduce、ReduceScatter、ReduceScatterV算子建议最少分配24个核。针对Broadcast、AlltoAll、AlltoAllV、AlltoAllVC、AllGather、AllGatherV算子建议最少分配16个核。若业务编译分配的Vector Core核数无法满足算法编排的要求HCCL会报错并提示所需要的最低Vector Core核数。4代表通信算子在Device侧的Vector Core计算单元展开但不会随着数据量的变化进行模式切换始终使用Vector Core计算如果不满足Vector Core的运行条件会报错退出。该配置仅支持对称组网、推理特性。该配置项仅支持AllReduce、AlltoAll、AlltoAllV、AlltoAllVC、AllGather、ReduceScatter算子。相关算子支持的数据类型及场景限制参见配置“3”。该配置项下集合通信支持控核能力不同算子的Vector Core核数要求与配置“3”相同。[!NOTE]说明多通信域并行场景下不支持多个通信域同时配置为“3”或“4”AIV Only模式。针对Atlas A2 训练系列产品/Atlas A2 推理系列产品通信算子展开模式设置为“3”或“4”时同时设置hcclDeterministic配置为“1”开启确定性计算在单机的单算子和图模式场景下当数据量≤8MB时仅AllReduce和ReduceScatter算子的确定性计算生效其他场景和算子则以hcclDeterministic配置为准。针对Atlas A2 训练系列产品/Atlas A2 推理系列产品若hcclDeterministic配置为“2”开启保序功能hcclOpExpansionMode不支持配置为“3”或“4”以保序功能为准。针对Atlas A3 训练系列产品/Atlas A3 推理系列产品通信算子展开模式设置为“3”或“4”时若同时设置hcclDeterministic为“1”开启确定性计算或“2”开启保序功能当数据量8MB时仅AllReduce和ReduceScatter算子的确定性计算生效其他场景和算子则以hcclDeterministic配置为准。hcclRdmaTrafficClass配置RDMA网卡的traffic class取值范围为[0,255]需要配置为4的整数倍。在RoCE V2协议中该值对应IP报文头中ToSType of Service域段。共8个bit其中bit[0,1]固定为0bit[2,7]为DSCP因此该值除以4即为DSCP的值。注意事项0xFFFFFFFF被用作优先级判断标识当配置为0xFFFFFFFF时此通信域配置无效会按照优先级取环境变量配置或默认值132。hcclRdmaServiceLevel配置RDMA网卡的service level取值需要和网卡配置的PFC优先级保持一致若配置不一致可能导致性能劣化。需要配置为无符号整数取值范围[0,7]。注意事项0xFFFFFFFF被用作优先级判断标识当配置为0xFFFFFFFF时此通信域配置无效会按照优先级取环境变量配置或默认值4。hcclWorldRankIDNSLB-DPNetwork Scale Load Balance-Data Plane数据面网络级负载均衡场景使用字段代表当前进程在AI框架如Pytorch中的全局rank ID。**hcclJobID**NSLB-DP场景使用字段代表当前分布式业务的唯一标识由AI框架生成。aclGraphZeroCopyEnable该参数仅在图捕获模式aclgraph下对Reduce类算子生效用于控制其是否开启零拷贝功能。0默认值关闭零拷贝功能。1开启零拷贝功能。hcclExecTimeOut不同设备进程在分布式训练或推理过程中存在卡间执行任务不一致的场景如仅特定进程会保存checkpoint数据通过该参数可控制设备间执行时同步等待的时间在该配置时间内各设备进程等待其他设备执行通信同步。单位为s取值范围和针对不同产品类型的使用约束请参见环境变量HCCL_EXEC_TIMEOUT。注意事项0xFFFFFFFF被用作优先级判断标识当配置为0xFFFFFFFF时此通信域配置无效会按照优先级取环境变量配置或默认值1836。hcclAlgo用于配置集合通信Server间通信算法以及超节点间通信算法支持全局配置算法类型与按算子配置算法类型两种配置方式。需注意HCCL提供自适应算法选择功能默认会根据产品形态、数据量和Server个数选择合适的算法一般情况下用户无需手工指定。若通过此参数指定了Server间通信算法则自适应算法选择功能不再生效。配置方式的参数信息及针对不同产品类型支持的算法类型请参见环境变量HCCL_ALGO配置方式如下全局配置算法类型hcclAlgo level0:NA;level1:algo;level2:algo 示例hcclAlgo level0:NA;level1:H-D_R按算子配置算法类型hcclAlgo op0level0:NA;level1:algo0;level2:algo1/op1level0:NA;level1:algo3;level2:algo4示例# AllReduce算子使用Ring算法AllGather算子使用RHD算法其他算子根据产品形态、节点数以及数据量自动选择通信算法。 hcclAlgo allreducelevel0:NA;level1:ring/allgatherlevel0:NA;level1:H-D_RhcclRetryEnable用于配置是否开启HCCL算子的重执行特性。重执行是指当通信算子执行报 SDMA 或者RDMA CQE类型的错误时HCCL会尝试重新执行此通信算子。仅支持在Atlas A3 训练系列产品/Atlas A3 推理系列产品上使用。通过此参数开发者可以在Server间、超节点间两个物理层级的通信域中配置是否开启重执行特性每个层级支持配置两种状态开启或关闭使用约束请参见环境变量HCCL_OP_RETRY_ENABLE配置方式为hcclRetryEnable L1:1, L2:0参数取值如下。L1代表通信域的物理范围为Server间通信域取值为0表示通信域内Server间通信task不开启重执行取值为1表示通信域内Server间通信task开启重执行默认值为0。L2代表通信域的物理范围为超节点间通信域取值为0表示通信域内超节点间通信task不开启重执行取值为1表示通信域内超节点间通信task开启重执行默认值为0。hcclRetryParams只有当开发者通过参数hcclRetryEnable开启了HCCL的算子重执行特性时可通过本参数配置第一次重执行的等待时间、最大重执行的次数以及两次重执行的间隔时间。仅支持在Atlas A3 训练系列产品/Atlas A3 推理系列产品上使用。使用约束请参见环境变量HCCL_OP_RETRY_PARAMS。配置方式为hcclRetryParams MaxCnt:3, HoldTime:5000, IntervalTime:1000参数取值如下MaxCnt最大重传次数uint32类型取值范围为[1,10]默认值为1单位次。HoldTime从检测到通信算子执行失败到开始第一次重新执行的等待时间uint32类型取值范围[0,60000]默认值为5000单位ms。IntervalTime同一个通信算子两次重执行的间隔时间uint32类型取值范围[0,60000]默认值为1000单位ms。hcclBufferNameCCLBuffer名称多通信域使用同一Buffer名称共享同一片CCLBuffer不指定时默认不共享最大长度为128。需注意传入同一CCLBuffer名称的通信域需将算子下发到同一条Stream上。hcclQos用于配置超平面QoS的级别取值范围0~7默认值6。hcclSymWinMaxMemSizePerRank为当前通信域中每个rank预留的对称内存大小单位GB取值范围[1, 当前环境中允许分配的物理内存最大值]默认值16。该参数当前仅支持Atlas A3 训练系列产品/Atlas A3 推理系列产品。配置优先级说明以上配置为通信域级别的配置对于部分参数HCCL提供了全局级别的环境变量配置优先级如下通信域级别HcclCommConfig高于环境变量。若在 HcclCommConfig中配置了某参数则以该配置值为准。环境变量优先级次之。若未在HcclCommConfig中配置对应参数但设置了环境变量则使用环境变量的值。默认值最后生效。若HcclCommConfig和环境变量均未配置则使用下列表格中列出的默认值。表 1配置优先级说明详表配置项配置优先级hcclBufferSize配置项hcclBufferSize通信域粒度配置 环境变量HCCL_BUFFSIZE全局配置 默认值200。hcclDeterministic配置项hcclDeterministic通信域粒度配置 环境变量HCCL_DETERMINISTIC全局配置 默认值0关闭确定性计算。hcclOpExpansionMode配置项hcclOpExpansionMode通信域粒度配置 环境变量HCCL_OP_EXPANSION_MODE全局配置 默认算子展开模式。Ascend 950PR/Ascend 950DTCCU_SCHEDAtlas A3 训练系列产品/Atlas A3 推理系列产品AI_CPUAtlas A2 训练系列产品/Atlas A2 推理系列产品HOSThcclRdmaTrafficClass配置项hcclRdmaTrafficClass通信域粒度配置 环境变量HCCL_RDMA_TC全局配置 默认值132。hcclRdmaServiceLevel配置项hcclRdmaServiceLevel通信域粒度配置 环境变量HCCL_RDMA_SL全局配置 默认值4。hcclExecTimeOut配置项hcclExecTimeOut通信域粒度配置 环境变量HCCL_EXEC_TIMEOUT全局配置 默认值1836。hcclAlgo配置项hcclAlgo通信域粒度配置 环境变量HCCL_ALGO全局配置 自适应选择算法。hcclRetryEnable配置项hcclRetryEnable通信域粒度配置 环境变量HCCL_OP_RETRY_ENABLE全局配置 默认值0。hcclRetryParams配置项hcclRetryParams通信域粒度配置 环境变量HCCL_OP_RETRY_PARAMS全局配置 默认配置MaxCnt1HoldTime5000IntervalTime1000。【免费下载链接】hcommHCOMMHuawei Communication是HCCL的通信基础库提供通信域以及通信资源的管理能力。项目地址: https://gitcode.com/cann/hcomm创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN/HCOMM通信域配置

HcclCommConfig 【免费下载链接】hcomm HCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。 项目地址: https://gitcode.com/cann/hcomm 功能说明 初始化具有特定配置的通信域时,此数据类…...

CANN/pyasc数据拷贝填充API文档

asc.language.basic.data_copy_pad 【免费下载链接】pyasc 本项目为Python用户提供算子编程接口,支持在昇腾AI处理器上加速计算,接口与Ascend C一一对应并遵守Python原生语法。 项目地址: https://gitcode.com/cann/pyasc asc.language.basic.dat…...

CANN Lightning Indexer Prolog算子文档

custom_pypto.npu_lightning_indexer_prolog_pto 【免费下载链接】cann-recipes-infer 本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-infer 产品支持情况 产品是…...

3步快速解密:让网易云音乐加密文件重获自由的完整指南

3步快速解密:让网易云音乐加密文件重获自由的完整指南 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 你是否曾遇到过这样的困扰:从网易云音乐精心下载的歌曲,却只能在特定软件中播放,…...

基于FPGA的ANN智能检测系统:从算法到硬件的协同优化实践

1. 项目概述:当AI遇上硬件,为快速检测开辟新路径最近几年,大家对于快速、准确的病原体检测需求达到了前所未有的高度。传统的检测方法,无论是PCR还是抗原检测,都面临着流程复杂、耗时较长或灵敏度不足的挑战。作为一名…...

CANN向量步幅切片约束

Vec Stride and Slicing Constraints 【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills Read this file when a vec oper…...

范式革新:时序媒体智能解析引擎与结构化知识蒸馏技术

范式革新:时序媒体智能解析引擎与结构化知识蒸馏技术 【免费下载链接】extract-video-ppt extract the ppt in the video 项目地址: https://gitcode.com/gh_mirrors/ex/extract-video-ppt 在数字内容爆炸式增长的今天,视频已成为知识传递的主要载…...

生成式AI应用场景深度拆解(2026奇点大会闭门报告首次公开)

更多请点击: https://intelliparadigm.com 第一章:生成式AI应用场景:2026奇点智能大会 2026奇点智能大会首次设立“生成式AI产业落地全景沙盘”,聚焦大模型从实验室走向千行百业的关键跃迁。大会现场部署了12个实时交互式AI应用展…...

CANN/hccl:自定义通信算子 - 点对点通信

自定义通信算子 - 点对点通信 【免费下载链接】hccl 集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案 项目地址: https://gitcode…...

深度剖析Go语言,一文告诉你为什么大厂开始增加Go的招聘量

最近这两年大厂青睐Go,不是因为Go比Java"更好",而是因为Go比Java"更适合云原生时代"。我在G7汇通天下做后端架构时,亲历了从Java全面转向Go的过程。今天用一篇文章,说清Go语言的核心竞争力,以及你…...

利用 Taotoken 模型广场为学术研究项目筛选性价比最高的模型

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 利用 Taotoken 模型广场为学术研究项目筛选性价比最高的模型 为学术研究项目选择合适的大语言模型,常常需要在模型能力…...

ARM SIMD浮点与定点转换指令VCVT详解

1. ARM SIMD浮点与定点转换指令概述在ARM架构的SIMD(单指令多数据)指令集中,VCVT系列指令承担着浮点数与定点数之间相互转换的关键任务。这类指令通过单条指令同时处理多个数据元素,实现了数值格式转换的并行化处理。作为ARM NEON技术的重要组成部分&…...

嵌入式ROM代码启动机制与优化实践

1. 嵌入式ROM代码启动机制解析在嵌入式系统开发领域,ROM代码是处理器上电后最先执行的固件,它如同系统的"基因代码"决定了硬件初始化的基本行为。以TI OMAP系列处理器为例,其ROM代码存储在芯片内部掩膜ROM中,主要完成三…...

集成电路PVT角点分析的零调优智能方法

1. 多元角点分析的技术挑战与突破在集成电路设计领域,工艺-电压-温度(PVT)角点分析是确保芯片可靠性的关键环节。随着工艺节点不断缩小,晶体管级变异效应日益显著,传统的单角点验证方法已无法满足现代芯片设计的严苛要…...

cann-bench TopK算子API描述

TopK 算子 API 描述 【免费下载链接】cann-bench 评测AI在处理CANN领域代码任务的能力,涵盖算子生成、算子优化等领域,支撑模型选型、训练效果评估,统一量化评估标准,识别Agent能力短板,构建CANN领域评测平台&#xff…...

三步解锁QQ音乐加密文件:qmc-decoder让你的音乐真正自由播放

三步解锁QQ音乐加密文件:qmc-decoder让你的音乐真正自由播放 【免费下载链接】qmc-decoder Fastest & best convert qmc 2 mp3 | flac tools 项目地址: https://gitcode.com/gh_mirrors/qm/qmc-decoder 你是否曾经在QQ音乐下载了心爱的歌曲,却…...

CANN/catccos计算通信融合算子模板库

CATCCOS 【免费下载链接】catccos CATCCOS昇腾计算-通信融合算子模板库,是一个聚焦于提供高性能计算通信融合类算子基础模板的代码库。 项目地址: https://gitcode.com/cann/catccos 📌 简介 CATCCOS(CANN Templates for Compute-Communication …...

CANN设备运行时事实

Device and Runtime Facts 【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills Use this file for device caps, pipe mapp…...

RAP中的派生变量%说明

1. %msg是 BDEF 派生类型(Derived Types)的一个组件。它被用作 REPORTED 响应参数的一个组成部分。%msg 提供了一个消息接口 IF_ABAP_BEHV_MESSAGE 的实例。如果不需要对该接口进行自定义实现,可以使用继承而来的 new_message( ) 或 new_mess…...

CANN/tensorflow AOE调优配置

AOE 【免费下载链接】tensorflow Ascend TensorFlow Adapter 项目地址: https://gitcode.com/cann/tensorflow [!NOTE]说明 AOE调优特性仅支持如下产品的训练场景: Atlas A3 训练系列产品/Atlas A3 推理系列产品Atlas A2 训练系列产品/Atlas A2 推理系列产品A…...

长期使用Taotoken服务在API延迟与稳定性方面的实际感受分享

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 长期使用Taotoken服务在API延迟与稳定性方面的实际感受分享 在持续数月的项目开发中,我们团队将多个AI应用的后端服务统…...

企业内如何通过Taotoken实现AI模型调用的统一审计与风控

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 企业内如何通过Taotoken实现AI模型调用的统一审计与风控 对于有合规与安全要求的企业而言,直接让各部门或应用分别对接…...

我给 MariaDB 装了个“副驾驶”:DBLens for MariaDB

有时候我觉得,数据库不是难用,是太会藏东西了。 你问它:“订单状态在哪?” 它沉默。 你问:“这个字段谁在用?” 它继续沉默。 你打开表列表,看着一串似曾相识但又不敢乱点的名字,心里…...

马斯克投1200亿建芯片工厂,微美全息加速量子算力集群进入全球“AI军备竞赛”

据报道,埃隆马斯克的太空探索技术公司准备斥资1200亿美元建造一家人工智能(AI)芯片工厂,这将是世界上最大的人工智能芯片工厂。AI芯片工厂重构算力马斯克在社交媒体平台X上写道:“这是为建设全球最大、最先进芯片制造设…...

CANN/runtime算子信息订阅API

# 19-03 订阅算子信息 【免费下载链接】runtime 本项目提供CANN运行时组件和维测功能组件。 项目地址: https://gitcode.com/cann/runtime 本章节描述算子信息订阅接口,用于订阅模型中算子的执行信息(类型、名称、耗时等)…...

CANN/runtime多Stream同步示例

2_multi_stream 【免费下载链接】runtime 本项目提供CANN运行时组件和维测功能组件。 项目地址: https://gitcode.com/cann/runtime 描述 本样例展示了多个Stream之间流间任务同步功能。 产品支持情况 本样例支持以下产品: 产品是否支持Atlas A3 训练系列…...

AI时代知识工作者的创造力重塑:从复用、随机性到形式与内容的边界

1. 项目概述:当知识工作遇上AI,创造力如何被重新定义?最近和不少做内容、做产品、做策略的朋友聊天,大家都有一个共同的感受:自从ChatGPT、Midjourney这些AI工具普及后,工作流程确实快了不少,但…...

CANN/ops-nn Gelu梯度算子

GeluGrad 【免费下载链接】ops-nn 本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-nn 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产品√A…...

科学拉丁文献翻译评测:ChatGPT与Google Translate的深度对比

1. 项目缘起与核心价值作为一名长期在生物、医药和古典文献领域打交道的从业者,我几乎每天都要和拉丁文打交道。无论是解读一份18世纪的植物志手稿,还是理解一篇现代药理学论文中引用的经典术语,拉丁语都是横亘在面前的一道坎。过去&#xff…...

通过 Taotoken 管理控制台精细化设置 API Key 的访问权限与审计日志

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 通过 Taotoken 管理控制台精细化设置 API Key 的访问权限与审计日志 在团队协作或项目开发中,统一管理大模型 API 的调…...