当前位置：首页 > article >正文

CANN竞赛Add算子测试设计

article 2026/5/9 14:49:09

决赛题目Add 算子测试用例设计【免费下载链接】cann-competitions本仓库用于 CANN 开源社区各类竞赛、开源课题、社区任务等课题发布、开发者作品提交和展示。项目地址: https://gitcode.com/cann/cann-competitions任务说明本题目要求参赛者为 CANN ops-math 仓库中的Add逐元素加法算子编写端到端测试用例。参赛者需要在官方提供的 example 测试代码基础上进行扩展尽可能覆盖算子的各种执行路径并深入分析算子的精度特性。算子定义$y x_1 \alpha \times x_2$其中 $\alpha$ 为标量缩放因子默认为 1。当两个输入的 shape 不一致时按广播规则对齐后逐元素计算。算子概况Add 算子位于math/add/目录下采用 op_api → op_host → op_kernel 的三层架构。Add 算子引入了alpha缩放参数和 V3 版本 API。目录结构math/add/ ├── op_api/ # 接口层 │ ├── aclnn_add.h / aclnn_add.cpp # API 声明与实现713 行 │ ├── aclnn_add_v3.h / .cpp # V3 版本 API247 行 │ ├── add.h / add.cpp # 底层接口与设备路由162 行 ├── op_host/ # 主机计算层 │ ├── add_def.cpp # 算子注册声明支持的 dtype 组合 │ ├── add_infershape.cpp # shape 推断 │ └── arch35/ │ └── add_tiling_arch35.cpp # tiling 切分策略190 行 ├── op_kernel/ # 设备计算层 │ └── ... ├── examples/ # 使用示例 └── tests/ # 单元测试支持的数据类型Add 算子支持 14 种数据类型组合包括 BF16、FLOAT16、FLOAT32、INT32、UINT8、INT8、INT64、BOOL、COMPLEX32、COMPLEX64 等同类型运算以及 FLOAT16-FLOAT、BF16-FLOAT 等混合类型运算。完整列表可查看op_host/add_def.cpp。API 变体Add 算子对外提供 6 个 API分为标准版和 V3 版两组API语义aclnnAdd(self, other, alpha, out)out self alpha * othertensor 加 tensoraclnnAdds(self, other, alpha, out)out self alpha * scalartensor 加标量aclnnInplaceAdd(selfRef, other, alpha)selfRef alpha * other原地加 tensoraclnnInplaceAdds(selfRef, other, alpha)selfRef alpha * scalar原地加标量aclnnAddV3(self, other, alpha, out)out scalar alpha * other标量加 tensoraclnnInplaceAddV3(selfRef, other, alpha)V3 版本的原地加法注意Add 的所有 API 都包含一个alpha参数aclScalar*类型用于对第二个输入进行缩放。当alpha 1时等价于普通加法当alpha取其他值时会走不同的计算路径。这是 Add 算子的重要测试维度。V3 版本 API 说明aclnnAddV3与标准aclnnAdd的核心区别在于self参数的类型不同aclnnAddaclnnAddV3self 参数类型const aclTensor*tensorconst aclScalar*标量语义tensor alpha * tensorscalar alpha * tensorV3 版本本质上是ScalarTensor 形式的加法——第一个输入是标量而非 tensor。它在aclnn_add_v3.cpp247 行中有完全独立的实现包括独立的类型提升逻辑和三分支调度alpha1 直接 Add / 支持 Axpy 的类型走融合算子 / 其余先 Mul 再 Add。不调用 V3 API该文件中的代码就不会被覆盖。调用 V3 API 时需要引入对应的头文件aclnnop/aclnn_add_v3.h并注意 self 参数用aclCreateScalar创建。任务要求官方示例代码位于math/add/examples/test_aclnn_add.cpp。参赛者的任务1扩展测试覆盖面并补充结果验证为每个测试用例在 CPU 端独立计算期望值并与算子输出进行数值比对。Add 算子的期望值计算需要考虑 alpha 参数// x1, x2 为 float 输入alpha 为缩放因子 double expected (double)x1[i] alpha * (double)x2[i];浮点类型使用容差比较$|actual - expected| \leq atol rtol \times |expected|$建议容差FLOAT32: atol1e-6, rtol1e-6FLOAT16: atol1e-4, rtol1e-4INT32: 精确匹配覆盖维度包括但不限于数据类型FLOAT32、FLOAT16、BF16、INT32、INT8 等不同 dtype 触发不同的 tiling 策略分支alpha 参数alpha1标准加法、alpha0、alpha 为负数、alpha 为浮点数等Shape 组合同 shape、广播、标量、较大 tensor 等数值边界零值、极大值、NaN、Inf、整数溢出等API 变体Add、Adds、InplaceAdd、InplaceAdds、AddV3、InplaceAddV3 共 6 个 API异常输入nullptr、不支持的 dtype 等V3 API 调用示例#include aclnnop/aclnn_add_v3.h // 创建 scalar self注意不是 tensor float scalarValue 10.0f; aclScalar* self aclCreateScalar(scalarValue, ACL_FLOAT); // 调用 V3 API ret aclnnAddV3GetWorkspaceSize(self, other, alpha, out, workspaceSize, executor); ret aclnnAddV3(workspaceAddr, workspaceSize, executor, stream); // 清理 aclDestroyScalar(self);2精度测试与分析分析精度问题的场景和原因并在测试报告中详细记录每个场景仅举一例即可。以下场景提供参考场景提示1大数小数尝试[1e10, 1e10] [1e-5, 1e-5]这样的输入观察小数是否被大数吞没分析浮点数有效位数的限制场景提示2正负抵消尝试[1.0000001, 2.0000001] [-1.0, -2.0]这样的输入观察接近值相减时的精度损失分析 Catastrophic Cancellation 现象其他可探索的精度场景Alpha 参数引入的额外误差混合类型运算的精度损失浮点特殊值NaN, Inf, 次正规数的处理3输出格式每个测试用例输出[PASS]或[FAIL]程序结尾输出汇总有失败用例返回非 0 值。输出示例Test case 1: Basic Add (float32) Expected: [1.200000, 2.200000, 3.200000] Actual: [1.200000, 2.200000, 3.200000] [PASS] Test case 2: Large Small (precision loss) Expected: [10000000000.000010, 10000000000.000010] Actual: [10000000000.000000, 10000000000.000000] Error: [0.000010, 0.000010] [FAIL] Precision loss detected Summary: 1 passed, 1 failed编译与运行前置步骤修复 CMakeLists 以启用 Host 层覆盖率问题现象默认的math/add/CMakeLists.txt在ascend910_93SOC 下存在两处配置问题导致op_host/arch35/add_tiling_arch35.cpp的.gcno / .gcda均无法生成Host 层覆盖率将为0%直接拉低综合得分SUPPORT_COMPUTE_UNIT列表中不包含ascend910_93查表返回空即便补上 SOCSUPPORT_TILING_DIR也需要对应一个存在的目录仓库只有arch35/。解决方案编译前先修改math/add/CMakeLists.txt补齐 SOC 列表并统一映射到arch35- set(SUPPORT_COMPUTE_UNIT ascend950 mc62cm12a) - set(SUPPORT_TILING_DIR arch35 arch35) set(SUPPORT_COMPUTE_UNIT ascend310p ascend910_93 ascend910b ascend950 mc62cm12a) set(SUPPORT_TILING_DIR arch35 arch35 arch35 arch35 arch35)两行sed命令搞定sed -i s|set(SUPPORT_COMPUTE_UNIT ascend950 mc62cm12a)|set(SUPPORT_COMPUTE_UNIT ascend310p ascend910_93 ascend910b ascend950 mc62cm12a)|; s|set(SUPPORT_TILING_DIR arch35 arch35)$|set(SUPPORT_TILING_DIR arch35 arch35 arch35 arch35 arch35)| \ math/add/CMakeLists.txt根因简述tiling 代码运行在CPUhost 侧gcov 完全可观测。之所以测不到不是架构限制而是 CMake 层面的 SOC→arch 目录映射配置错误导致源码未进入编译。注意修改 CMakeLists 后如已经跑过一次编译请先rm -rf build build_out清空产物再重新编译否则缓存中的旧配置仍然生效。编译运行流程# 编译启用覆盖率插桩 bash build.sh --pkg --socascend910_93 --opsadd --vendor_namecustom --cov # 安装算子包 ./build_out/cann-ops-math-custom_linux-aarch64.run # 运行测试真实 NPU 环境 bash build.sh --run_example add eager cust \ --vendor_namecustom --socascend910_93 --cov # 查看覆盖率 find build -name *.gcda | grep add gcov -b -c gcda文件路径注意使用--socascend910_93参数不使用--simulator参数直接在真实 NPU 上运行每次修改测试用例后需要重新执行编译 → 安装 → 运行的完整流程以更新覆盖率数据编译后务必校验 host 层产物find build -name add_tiling*.gcno应能查到对应文件若为空说明前置 CMakeLists 修复未生效请回到上面的前置步骤重新操作评分标准决赛采用五维综合评分如下维度 1. 编译通过率提交的测试代码必须能在评测环境中通过下述完整流程正常执行bash build.sh --pkg --socascend910_93 --opsadd --vendor_namecustom --cov → ./build_out/cann-ops-math-custom_linux-aarch64.run → bash build.sh --run_example add eager cust --vendor_namecustom --socascend910_93 --cov编译或运行任何一步失败都会影响整体得分。评测系统会尝试从提交的 build 目录提取覆盖率数据作为参考但编译失败的提交整体得分受限。维度 2. 行覆盖率覆盖率统计范围op_api 层的 3 个文件 op_host 层的 1 个 tiling 文件共 4 个源文件。文件layerop_api/aclnn_add.cppapiop_api/aclnn_add_v3.cppapiop_api/add.cppapiop_host/arch35/add_tiling_arch35.cpphost综合行覆盖率由各文件的命中行数与总行数加总后计算$$ Coverage_{line} \frac{\sum Lines_Covered_i}{\sum Total_Lines_i} $$提示aclnn_add_v3.cpp是独立的 V3 API 实现文件若不调用aclnnAddV3系列接口整个文件会是 0% 覆盖率add_tiling_arch35.cpp涵盖 Add 算子的 tiling 切分策略不同 dtype 组合走不同分支维度 3. 分支覆盖率对上述同样的 4 个文件统计分支覆盖率gcov -b输出$$ Coverage_{branch} \frac{\sum Branches_Covered_i}{\sum Total_Branches_i} $$维度 4. 精度分析根据测试报告中对精度问题的场景发现与原理分析综合评分。维度 5. 测试报告根据测试报告的完整性、结构、分析深度评分。前置条件编译通过提交的test_aclnn_add.cpp必须能在评测环境中通过编译和运行流程正常执行。编译失败的提交将无法获得覆盖率得分但评测系统会尝试从提交的 build 目录中提取覆盖率数据作为参考。结果验证测试代码中必须包含有效的结果验证逻辑即计算期望值并与实际输出比对仅打印结果而不验证的提交将被扣分。测试报告必须提交测试报告按照提供的模版编写。提交要求提交一个压缩包.zip包含队名/ ├── test_aclnn_add.cpp # 测试用例源文件必须 ├── build/ # 编译产物目录必须见下方说明 └── report.md # 测试设计说明必须按模版编写build 目录提交说明重要为减小提交包大小只需提交评分相关的.gcda和.gcno文件。涉及两个路径op_api 层目录名abs非笔误是 CMake 聚合 object library 的挂载点build/math/abs/CMakeFiles/ophost_math_opapi_obj.dir/__/add/op_api/ ├── aclnn_add.cpp.gcda ├── aclnn_add.cpp.gcno ├── aclnn_add_v3.cpp.gcda ├── aclnn_add_v3.cpp.gcno ├── add.cpp.gcda └── add.cpp.gcnoop_host 层tilingbuild/math/add/CMakeFiles/ophost_math_tiling_obj.dir/op_host/arch35/ ├── add_tiling_arch35.cpp.gcda └── add_tiling_arch35.cpp.gcno不要提交完整的 build 目录可能有几百 MB只提交上述覆盖率文件即可。如需偷懒也可以使用以下命令快速筛选find build -name aclnn_add.cpp.gc* \ -o -name aclnn_add_v3.cpp.gc* \ -o -name add.cpp.gc* \ -o -name add_tiling*.gc* \ | tar czvf add_gcov.tar.gz -T -【免费下载链接】cann-competitions本仓库用于 CANN 开源社区各类竞赛、开源课题、社区任务等课题发布、开发者作品提交和展示。项目地址: https://gitcode.com/cann/cann-competitions创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN竞赛Add算子测试设计

相关文章：

CANN竞赛Add算子测试设计

Java基础十六：枚举，包，反射

如何彻底解决显卡驱动冲突问题：Display Driver Uninstaller深度解析与实战指南

论文阅读：MMA: Multi-Modal Adapter for Vision-Language Models

华为CANN/ops-math反射填充3D梯度算子

OnmyojiAutoScript：阴阳师手游智能自动化脚本终极指南

从入门到精通：彻底讲懂Agent的Skill，不做“炫技式浪费”

Ceph 对象存储深度解析系列第二部分：RGW 数据路径、分片和自动化

Godot引擎集成本地大语言模型：从原理到实战的完整指南

联邦学习与Transformer融合：在CV与入侵检测中的隐私保护分布式智能实践

CANN/metadef Add函数API文档

【路径规划】基于启发式搜索与增量启发式搜索方法MRPP或MAPF的多机器人路径规划算法附matlab代码

Parquet文件原理与实战：列式存储如何提升查询性能和压缩效率

VLA-0视觉语言动作模型：零修改部署与多模态AI实践

CANN/ops-math矩阵乘法压缩反量化算子

CANN KV压缩Epilog算子

SQL PIVOT原理与实战：从行转列到高性能宽表生成

CANN/asc-tools msopgen算子模板样例

2025最权威的降重复率神器实际效果

GPT-3.5在独裁者游戏中的公平性实验：AI决策的统计模式与伦理启示

CANN双三次上采样算子

AI赋能引力波数据分析：从信号检测到参数估计的实践与挑战

CANN/cannbot-skills NPU推理优化

2026 毕业季必藏：9 款 AI 论文查重降重工具全测评，Paperxie 领衔高效通关

Llama 3.2 Vision轻量微调实战：500图打造电商级图文生成模型

CANN/pyasc取小数计算函数

CANN/hccl故障诊断定位思路

CANN学习中心CMake配置详解

MRCV开源工具库：用AI潜在表示与神经网络重塑音乐创作与声音设计

感知-通信-计算一体化：破解边缘AI资源困局的核心架构