当前位置：首页 > article >正文

CANN/TensorFlow HCCL代码示例

article 2026/5/9 15:30:05

代码示例【免费下载链接】tensorflowAscend TensorFlow Adapter项目地址: https://gitcode.com/cann/tensorflow该代码示例针对TensorFlow 1.15网络使用默认的全局通信域进行通信。假设代码文件命名为hccl_test.py。import tensorflow as tf import sys import os import numpy as np import time import argparse from npu_bridge.npu_init import * def tensor_type(list1, type): tensor1[] tensor1 tf.Variable(list1, dtypetf.int64) return tensor1 def numpy_type(type): input_type np.int64 return input_type def hccl_operator(rank_id, root_rank, rank_size, group, dtype, data): tensors{} # allreduce list_1[sum,max,min,prod] for i in range(len(list_1)): exec(list_1[sum,max,min,prod]) exec(element_liststr(i)[1 for i in range(data)]) exec(tensor_str(i) tensor_type(element_liststr(i), dtype)) exec(tensor_tmpstr(i) tf.add(tensor_str(i), rank_id 1)) exec(new_tensorstr(i) tf.reshape(tensor_tmpstr(i), [rank_size, -1])) exec(tensors[\allreduce_list_1[i]\] hccl_ops.allreduce(new_tensorstr(i),\list_1[i]\, groupgroup)) # broadcast exec(list_test np.ones((1,data))) exec(tensor_test tensor_type(list_test, dtype)) exec(tensor_z tf.add(tensor_test, rank_id 1)) exec(new_tensor10 tf.reshape(tensor_z, [rank_size, -1])) exec(test_list1[new_tensor10]) exec(tensors[\broadcast\] hccl_ops.broadcast(test_list1, root_rank, groupgroup)) # allgather exec(tensors[\gather_tensor\] hccl_ops.allgather(new_tensorstr(1), rank_size, groupgroup)) # reducescatter for i in range(len(list_1)): exec(list_1[sum,max,min,prod]) exec(element_liststr(i5)[1 for i in range(data)]) exec(tensor_str(i5) tensor_type(element_liststr(i5), dtype)) exec(tensor_tmpstr(i5) tf.add(tensor_str(i5), rank_id 1)) exec(new_tensorstr(i5) tf.reshape(tensor_tmpstr(i5), [rank_size, -1])) exec(tensors[\reducescatter_list_1[i]\] hccl_ops.reduce_scatter(new_tensorstr(i5),\list_1[i]\, rank_size, groupgroup)) # reduce for i in range(len(list_1)): exec(list_1[sum,max,min,prod]) exec(element_liststr(i10)[1 for i in range(data)]) exec(tensor_str(i10) tensor_type(element_liststr(i10), dtype)) exec(tensor_tmpstr(i10) tf.add(tensor_str(i10), rank_id 1)) exec(new_tensorstr(i10) tf.reshape(tensor_tmpstr(i10), [rank_size, -1])) exec(tensors[\reduce_list_1[i]\] hccl_ops.reduce(new_tensorstr(i10),\list_1[i]\, root_rank, groupgroup)) input_type numpy_type(dtype) data1_shape data*rank_size (rank_size-1)*rank_size data1_ np.arange(1,data1_shape1).astype(input_type) check_data_shape (data rank_id) * rank_size check_data_ np.arange(1,check_data_shape1).astype(input_type) send_data tf.Variable(data1_) check_data tf.Variable(check_data_) send_counts_list [datai for i in range(rank_size)] send_counts tf.constant(send_counts_list,dtypetf.int64) send_displacements tf.constant([rank_id*(datai) for i in range(rank_size)],dtypetf.int64) # 静态shape recv_counts和recv_displacements必须使用tf.constant recv_counts tf.constant([rank_iddata for _ in range(rank_size)],dtypetf.int64) recv_displacements tf.constant([(rank_iddata)*i for i in range(rank_size)],dtypetf.int64) alltoallv_result hccl_ops.all_to_all_v(send_data,send_counts,send_displacements,recv_counts,recv_displacements,groupgroup) tensors[alltoallv_tensor] alltoallv_result tensors[check_tensors] check_data return tensors def main(): config {} hccl_session_config tf.ConfigProto() custom_op hccl_session_config.graph_options.rewrite_options.custom_optimizers.add() custom_op.name NpuOptimizer custom_op.parameter_map[use_off_line].b True npu_init npu_ops.initialize_system() npu_shutdown npu_ops.shutdown_system() with tf.Session(confighccl_session_config) as sess: # 进行集合通信初始化 sess.run(npu_init) # 获取group内rank数量 config[rank_size] get_rank_size() # 获取device在group中对应的rank序号 config[rank_id] get_rank_id() try: # 下发集合通信算子 tensors hccl_operator(config[rank_id], 0, config[rank_size], hccl_world_group, float32, 1024) # tf框架全局变量初始化 init_var tf.global_variables_initializer() sess.run(init_var) # 执行训练此处仅为示例 v sess.run(tensors) tf.logging.info(v) except Exception as e: print(ERROR : %s % e) print(train fail) else: print(train success) # 关闭session sess.run(npu_shutdown) if __name__ __main__: # 开启日志记录 tf.logging.set_verbosity(tf.logging.INFO) # 执行main函数 main()【免费下载链接】tensorflowAscend TensorFlow Adapter项目地址: https://gitcode.com/cann/tensorflow创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN/TensorFlow HCCL代码示例

相关文章：

CANN/TensorFlow HCCL代码示例

基于MPC的以太坊RPC服务：构建去中心化签名与私钥安全管理方案

从零搭建一个S3兼容的私有云盘：我用MinIO+Docker的完整实践与踩坑记录

OpenAI发布MRC超算协议，重塑10万GPU集群通信，AMD等合作推进

CANN ops-math Fill算子

别再让Langchain卡住你的前端！一个FastAPI + SSE的保姆级流式输出教程（附完整可运行代码）

ARGO：本地部署AI智能体，打造私有化多智能体协作平台

CANN ATC模型转换指南

基于AI的自动化代理框架：用自然语言驱动网页操作实践

CANN/pypto的expand_clone函数

对比自行维护多个 API 密钥使用 Taotoken 的管理效率提升

告别官方镜像站卡顿：国内镜像源加速下载树莓派系统（Raspberry Pi OS）与常用软件包

CANN/ops-cv算子跨平台迁移指导

基于TwoAI框架构建多智能体对话系统：原理、配置与实战

CANN/ops-transformer FlashAttentionScore算子

数据科学实战：从零构建高质量数据集资源库与预处理指南

【AI原生应用安全红宝书】：SITS2026框架下7大高危攻击面与零信任加固路径

5大核心技术揭秘：Seraphine如何通过LCU API重塑英雄联盟游戏体验

别再只盯着告警了：从Pikachu靶场搭建看SRE可观测性的实战落地（含日志与调用链配置）

SAP ABAP开发避坑：WS_DELIVERY_UPDATE函数调用时，COMMIT和NO_MESSAGES_UPDATE参数到底怎么设？

6G+AI重塑医疗影像：云边端协同架构与智能诊断实践

基于AgentScope与ReMe构建开源AI助手工作站CoPaw实战指南

CANN可变长FlashAttentionV2

AI for Science中的分布外泛化：从理论到实践的挑战与应对

WeChatExporter终极指南：5步解锁你的微信聊天记录备份神器

基于语义搜索的代码索引工具：从原理到部署实战

联邦学习与Transformer融合：破解数据孤岛下的视觉与安全AI落地难题

CANN驱动LLC性能参数查询

Kubernetes Job与CronJob深度解析与实践

苹果神经引擎(ANE)上的LLM全栈解决方案Orion解析