当前位置：首页 > article >正文

CANN量化注意力梯度算子

article 2026/5/10 1:13:05

aclnnQuantFlashAttentionScoreGrad【免费下载链接】ops-transformer本项目是CANN提供的transformer类大模型算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产品xAtlas A2 训练系列产品/Atlas A2 推理系列产品xAtlas 200I/500 A2 推理产品×Atlas 推理系列产品×Atlas 训练系列产品×功能说明接口功能实现“Transformer Attention Score”的融合量化的反向计算。计算公式$$ YSoftmax(\frac{\hat{Q}\hat{K}^T*(dS_q*dS_k)}{\sqrt{d}})\hat{V}*dS_v $$为方便表达以变量$S$和$P$表示计算公式$$ S\frac{\hat{Q}\hat{K}^T*(dS_q * dS_k)}{\sqrt{d}} $$$$ PSoftmax(S) $$$$ YP\hat{V} * dS_v $$则注意力的反向计算公式为$$ \hat{dS} dS * dsScale $$$$ \hat{P} P * pScale $$$$ dV\hat{P}^T\hat{dY} * (dS_{dy} * dS_p) $$$$ dQ\frac{(\hat{(dS)}\hat{K})}{\sqrt{d}}(dS_{ds} * dS_k) $$$$ dK\frac{(\hat{(dS)}^T*\hat{Q})}{\sqrt{d}} * (dS_{ds} * dS_q) $$函数原型每个算子分为两段式接口必须先调用“aclnnQuantFlashAttentionScoreGradGetWorkspace”接口获取计算所需workspace大小以及包含了算子计算流程的执行器再调用“aclnnQuantFlashAttentionScoreGrad”接口执行计算。aclnnStatus aclnnQuantFlashAttentionScoreGradGetWorkspace( const aclTensor *query, const aclTensor *keyIn, const aclTensor *value, const aclTensor *dy, const aclTensor *attenMaskOptional, const aclTensor *softmaxMax, const aclTensor *softmaxSum, const aclTensor *attentionIn, const aclTensor *dScaleQ, const aclTensor *dScaleK, const aclTensor *dScaleV, const aclTensor *dScaleDy, const aclTensor *dsScale, const aclTensor *pScale, double scaleValue, int64_t preTokens, int64_t nextTokens, int64_t headNum, char *inputLayout, int64_t sparseMode, int64_t outDtype, aclTensor *dqOut, aclTensor *dkOut, aclTensor *dvOut, uint64_t *workspaceSize, aclOpExecutor **executor)aclnnStatus aclnnQuantFlashAttentionScoreGrad( void *workspace, uint64_t workspaceSize, aclOpExecutor *executor, aclrtStream stream)aclnnQuantFlashAttentionScoreGradGetWorkspace参数说明参数名输入/输出描述使用说明数据类型数据格式维度(shape)非连续Tensorquery输入公式中的Q。数据类型与keyIn/value一致。HIFLOAT8ND4√keyIn输入公式中的K。数据类型与query/value一致。HIFLOAT8ND4√value输入公式中的V。数据类型与query/keyIn一致。HIFLOAT8ND4√dy输入公式中的dY。-HIFLOAT8ND4√attenMaskOptional可选输入暂不使用BOOL、UINT8ND4√softmaxMax输入注意力正向计算的中间输出。shape[B,N,Sq,1]。FLOAT32ND4√softmaxSum输入注意力正向计算的中间输出。shape[B,N,Sq,1]。FLOAT32ND4√attentionIn输入注意力正向的最终输出。数据类型和shape与query一致。BFLOAT16ND4√dScaleQ输入是query输入的反量化参数。支持[B,N1,Ceil(Sq/blocksize),1], blocksize目前支持512FLOAT32ND4√dScaleK输入是key输入的反量化参数。支持[B,N2,Ceil(Skv/blocksize),1], blocksize目前支持512FLOAT32ND4√dScaleV输入是value输入的反量化参数。支持[B,N2,Ceil(Skv/blocksize),1], blocksize目前支持512FLOAT32ND4√dScaleDy输入是dy输入的反量化参数。支持[B,N1,Ceil(Sq/blocksize),1], blocksize目前支持512FLOAT32ND4√dsScale输入是ds的量化参数。支持[1]FLOAT32ND1√pScale输入是p的量化参数。支持[1]FLOAT32ND1√scaleValue输入公式中的scale缩放系数默认值为1。-DOUBLE---preTokens可选输入暂不使用。-INT64---nextTokens可选输入暂不使用。-INT64---headNum输入单卡head个数对应query的N轴。-INT64---inputLayout输入query/key/value的数据排布格式。支持BSND。String---sparseMode可选输入暂不使用。-INT64---outDtype输入值为0表示dqOut等输出是FLOAT16为1表示是BFLOAT16。-INT64---dqOut输出公式中的dQquery的梯度。-BFLOAT16ND4√dkOut输出公式中的dKkeyIn的梯度。-BFLOAT16ND4√dvOut输出公式中的dVvalue的梯度。-BFLOAT16ND4√workspaceSize输出返回Device侧需要申请的workspace大小。-----executor输出返回算子执行器包含计算流程。-----返回值返回aclnnStatus状态码具体参见aclnn返回码。第一段接口完成入参校验出现以下场景时报错返回码错误码描述ACLNN_ERR_PARAM_NULLPTR161001传入参数是必选输入输出或者必选属性且是空指针。ACLNN_ERR_PARAM_INVALID161002query、keyIn、value、dy、softmaxMax、softmaxSum、attentionIn、dScaleQ、dScaleK、dScaleV、dScaleDy、dqOut、dkOut、dvOut的数据类型和shape不在支持的范围内。aclnnQuantFlashAttentionScoreGrad参数说明参数名输入/输出描述workspace输入在Device侧申请的workspace内存地址。workspaceSize输入在Device侧申请的workspace大小由第一段接口aclnnQuantFlashAttentionScoreGradGetWorkspaceSize获取。executor输入op执行器包含了算子计算流程。stream输入指定执行任务的Stream。返回值aclnnStatus返回状态码具体参见aclnn返回码。约束说明确定性计算aclnnQuantFlashAttentionScoreGrad默认确定性实现。输入query、key、value、dy的约束如下Bbatchsize必须相等。inputLayout必须一致。D支持128。输入query/dy的N和key/value的N必须相等。关于数据shape的约束目前支持以下场景LayoutQueryShapeKeyShapeBSND[1, 54000, 5, 128][1, 54000, 5, 128]BSND[1, 9360, 40, 128][1, 9360, 40, 128]BSND[1, 54000, 10, 128][1, 54000, 10, 128]BSND[1, 9360, 80, 128][1, 9360, 80, 128]BSND[1, 57600, 5, 128][1, 57600, 5, 128]BSND[1, 7200, 40, 128][1, 512, 40, 128]部分场景下如果计算量过大可能会导致算子执行超时aicore error类型报错errorStr为timeout or trap error此时建议做轴切分处理注这里的计算量会受B、S、N、D等参数的影响值越大计算量越大。关于softmaxMax与softmaxSum参数的约束输入格式固定为[B, N, S, 1]。headNum的取值必须和传入的Query中的N值保持一致。调用示例示例代码如下仅供参考具体编译和执行过程请参考编译与运行样例。#include iostream #include vector #include cstdint #include cmath #include acl/acl.h #include aclnnop/aclnn_flash_attention_score_grad.h #define CHECK_RET(cond, return_expr) \ do { \ if (!(cond)) { \ return_expr; \ } \ } while (0) #define LOG_PRINT(message, ...) \ do { \ printf(message, ##__VA_ARGS__); \ } while (0) int64_t GetShapeSize(const std::vectorint64_t shape) { int64_t shapeSize 1; for (auto i : shape) { shapeSize * i; } return shapeSize; } void PrintOutResult(std::vectorint64_t shape, void** deviceAddr) { auto size GetShapeSize(shape); std::vectorfloat resultData(size, 0); auto ret aclrtMemcpy(resultData.data(), resultData.size() * sizeof(resultData[0]), *deviceAddr, size * sizeof(resultData[0]), ACL_MEMCPY_DEVICE_TO_HOST); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(copy result from device to host failed. ERROR: %d\n, ret); return); for (int64_t i 0; i size; i) { LOG_PRINT(mean result[%ld] is: %f\n, i, resultData[i]); } } int Init(int32_t deviceId, aclrtStream* stream) { // 固定写法资源初始化 auto ret aclInit(nullptr); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclInit failed. ERROR: %d\n, ret); return ret); ret aclrtSetDevice(deviceId); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtSetDevice failed. ERROR: %d\n, ret); return ret); ret aclrtCreateStream(stream); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtCreateStream failed. ERROR: %d\n, ret); return ret); return 0; } template typename T int CreateAclTensor(const std::vectorT hostData, const std::vectorint64_t shape, void** deviceAddr, aclDataType dataType, aclTensor** tensor) { auto size GetShapeSize(shape) * sizeof(T); // 调用aclrtMalloc申请device侧内存 auto ret aclrtMalloc(deviceAddr, size, ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtMalloc failed. ERROR: %d\n, ret); return ret); // 调用aclrtMemcpy将host侧数据拷贝到device侧内存上 ret aclrtMemcpy(*deviceAddr, size, hostData.data(), size, ACL_MEMCPY_HOST_TO_DEVICE); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtMemcpy failed. ERROR: %d\n, ret); return ret); // 计算连续tensor的strides std::vectorint64_t strides(shape.size(), 1); for (int64_t i shape.size() - 2; i 0; i--) { strides[i] shape[i 1] * strides[i 1]; } // 调用aclCreateTensor接口创建aclTensor *tensor aclCreateTensor(shape.data(), shape.size(), dataType, strides.data(), 0, aclFormat::ACL_FORMAT_ND, shape.data(), shape.size(), *deviceAddr); return 0; } int main() { // 1. 固定写法device/stream初始化参考acl API手册 // 根据自己的实际device填写deviceId int32_t deviceId 0; aclrtStream stream; auto ret Init(deviceId, stream); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(Init acl failed. ERROR: %d\n, ret); return ret); // 2. 构造输入与输出需要根据API的接口自定义构造 int64_t B 1; int64_t N1 40; int64_t N2 40; int64_t S1 7200; int64_t S2 512; int64_t D 128; int64_t H1 N1 * D; int64_t H2 N2 * D; int64_t blockNumQ (S1 511)/ 512; int64_t blockNumKV (S2 511)/ 512; int64_t q_size B * N1 * S1 * D; int64_t kv_size B * N2 * S2 * D; int64_t softmax_size B * N1 * S1 * 1; int64_t scaleSizeQ B * N1 * blockNumQ * 1; int64_t scaleSizeKV B * N1 * blockNumKV * 1; std::vectorint64_t qShape {B, S1, N1, D}; std::vectorint64_t kShape {B, S2, N2, D}; std::vectorint64_t vShape {B, S2, N2, D}; std::vectorint64_t dxShape {B, S1, N1, D}; std::vectorint64_t attenmaskShape {S1, S2}; std::vectorint64_t softmaxMaxShape {B, N1, S1, 1}; std::vectorint64_t softmaxSumShape {B, N1, S1, 1}; std::vectorint64_t attentionInShape {B, S1, N1, D}; std::vectorint64_t dScaleQShape {B, N1, blockNumQ, 1}; std::vectorint64_t dScaleKShape {B, N1, blockNumKV, 1}; std::vectorint64_t dScaleVShape {B, N1, blockNumKV, 1}; std::vectorint64_t dScaleDyShape {B, N1, blockNumQ, 1}; std::vectorint64_t dsScaleShape {1}; std::vectorint64_t pScaleShape {1}; std::vectorint64_t dqShape {B, S1, N1, D}; std::vectorint64_t dkShape {B, S2, N2, D}; std::vectorint64_t dvShape {B, S2, N2, D}; std::vectorint64_t printShape {B, S2, 1, D}; void* qDeviceAddr nullptr; void* kDeviceAddr nullptr; void* vDeviceAddr nullptr; void* dxDeviceAddr nullptr; void* softmaxMaxDeviceAddr nullptr; void* softmaxSumDeviceAddr nullptr; void* attentionInDeviceAddr nullptr; void* dScaleQDeviceAddr nullptr; void* dScaleKDeviceAddr nullptr; void* dScaleVDeviceAddr nullptr; void* dScaleDyDeviceAddr nullptr; void* dsScaleDeviceAddr nullptr; void* pScaleDeviceAddr nullptr; void* dqDeviceAddr nullptr; void* dkDeviceAddr nullptr; void* dvDeviceAddr nullptr; aclTensor* q nullptr; aclTensor* k nullptr; aclTensor* v nullptr; aclTensor* dx nullptr; aclTensor* attenmask nullptr; aclTensor* softmaxMax nullptr; aclTensor* softmaxSum nullptr; aclTensor* attentionIn nullptr; aclTensor* dScaleQ nullptr; aclTensor* dScaleK nullptr; aclTensor* dScaleV nullptr; aclTensor* dScaleDy nullptr; aclTensor* dsScale nullptr; aclTensor* pScale nullptr; aclTensor* dq nullptr; aclTensor* dk nullptr; aclTensor* dv nullptr; std::vectoruint8_t qHostData(q_size, 1); std::vectoruint8_t kHostData(kv_size, 1); std::vectoruint8_t vHostData(kv_size, 1); std::vectoruint8_t dxHostData(q_size, 1); std::vectorfloat softmaxMaxHostData(softmax_size, 3.0); std::vectorfloat softmaxSumHostData(softmax_size, 3.0); std::vectorfloat attentionInHostData(q_size, 1.0); std::vectorfloat dScaleQHostData(scaleSizeQ, 1.0); std::vectorfloat dScaleKHostData(scaleSizeKV, 1.0); std::vectorfloat dScaleVHostData(scaleSizeKV, 1.0); std::vectorfloat dScaleDyHostData(scaleSizeQ, 1.0); std::vectorfloat dsScaleHostData(1, 1.0); std::vectorfloat pScaleHostData(1, 1.0); std::vectorfloat dqHostData(q_size, 0); std::vectorfloat dkHostData(kv_size, 0); std::vectorfloat dvHostData(kv_size, 0); ret CreateAclTensor(qHostData, qShape, qDeviceAddr, aclDataType::ACL_HIFLOAT8, q); CHECK_RET(ret ACL_SUCCESS, return ret); ret CreateAclTensor(kHostData, kShape, kDeviceAddr, aclDataType::ACL_HIFLOAT8, k); CHECK_RET(ret ACL_SUCCESS, return ret); ret CreateAclTensor(vHostData, vShape, vDeviceAddr, aclDataType::ACL_HIFLOAT8, v); CHECK_RET(ret ACL_SUCCESS, return ret); ret CreateAclTensor(dxHostData, dxShape, dxDeviceAddr, aclDataType::ACL_HIFLOAT8, dx); CHECK_RET(ret ACL_SUCCESS, return ret); ret CreateAclTensor(softmaxMaxHostData, softmaxMaxShape, softmaxMaxDeviceAddr, aclDataType::ACL_FLOAT, softmaxMax); CHECK_RET(ret ACL_SUCCESS, return ret); ret CreateAclTensor(softmaxSumHostData, softmaxSumShape, softmaxSumDeviceAddr, aclDataType::ACL_FLOAT, softmaxSum); CHECK_RET(ret ACL_SUCCESS, return ret); ret CreateAclTensor(attentionInHostData, attentionInShape, attentionInDeviceAddr, aclDataType::ACL_BF16, attentionIn); CHECK_RET(ret ACL_SUCCESS, return ret); ret CreateAclTensor(dScaleQHostData, dScaleQShape, dScaleQDeviceAddr, aclDataType::ACL_FLOAT, dScaleQ); CHECK_RET(ret ACL_SUCCESS, return ret); ret CreateAclTensor(dScaleKHostData, dScaleKShape, dScaleKDeviceAddr, aclDataType::ACL_FLOAT, dScaleK); CHECK_RET(ret ACL_SUCCESS, return ret); ret CreateAclTensor(dScaleVHostData, dScaleVShape, dScaleVDeviceAddr, aclDataType::ACL_FLOAT, dScaleV); CHECK_RET(ret ACL_SUCCESS, return ret); ret CreateAclTensor(dScaleDyHostData, dScaleDyShape, dScaleDyDeviceAddr, aclDataType::ACL_FLOAT, dScaleDy); CHECK_RET(ret ACL_SUCCESS, return ret); ret CreateAclTensor(dsScaleHostData, dsScaleShape, dsScaleDeviceAddr, aclDataType::ACL_FLOAT, dsScale); CHECK_RET(ret ACL_SUCCESS, return ret); ret CreateAclTensor(pScaleHostData, pScaleShape, pScaleDeviceAddr, aclDataType::ACL_FLOAT, pScale); CHECK_RET(ret ACL_SUCCESS, return ret); ret CreateAclTensor(dqHostData, dqShape, dqDeviceAddr, aclDataType::ACL_BF16, dq); CHECK_RET(ret ACL_SUCCESS, return ret); ret CreateAclTensor(dkHostData, dkShape, dkDeviceAddr, aclDataType::ACL_BF16, dk); CHECK_RET(ret ACL_SUCCESS, return ret); ret CreateAclTensor(dvHostData, dvShape, dvDeviceAddr, aclDataType::ACL_BF16, dv); CHECK_RET(ret ACL_SUCCESS, return ret); double scaleValue 1.0/sqrt(128); int64_t preTokens INT32_MAX; int64_t nextTokens INT32_MAX; int64_t headNum N1; int64_t sparseMode 0; char layOut[6] {B, S, N, D, 0}; int64_t outDtype 1; // 3. 调用CANN算子库API需要修改为具体的Api名称 uint64_t workspaceSize 0; aclOpExecutor* executor; // 调用aclnnFlashAttentionScoreGradV2第一段接口 ret aclnnQuantFlashAttentionScoreGradGetWorkspaceSize(q, k, v, dx, attenmask, softmaxMax, softmaxSum, attentionIn, dScaleQ, dScaleK, dScaleV,dScaleDy, dsScale, pScale, scaleValue, preTokens, nextTokens, headNum, layOut, sparseMode, outDtype, dq, dk, dv, workspaceSize, executor); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclnnQuantFlashAttentionScoreGradGetWorkspaceSize failed. ERROR: %d\n, ret); return ret); // 根据第一段接口计算出的workspaceSize申请device内存 void* workspaceAddr nullptr; if (workspaceSize 0) { ret aclrtMalloc(workspaceAddr, workspaceSize, ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(allocate workspace failed. ERROR: %d\n, ret); return ret); } // 调用aclnnFlashAttentionScoreGradV2第二段接口 ret aclnnQuantFlashAttentionScoreGrad(workspaceAddr, workspaceSize, executor, stream); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclnnFlashAttentionScoreGradV2 failed. ERROR: %d\n, ret); return ret); // 4. 固定写法同步等待任务执行结束 ret aclrtSynchronizeStream(stream); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtSynchronizeStream failed. ERROR: %d\n, ret); return ret); // 5. 获取输出的值将device侧内存上的结果拷贝至host侧需要根据具体API的接口定义修改 PrintOutResult(printShape, dqDeviceAddr); PrintOutResult(printShape, dkDeviceAddr); PrintOutResult(printShape, dvDeviceAddr); // 6. 释放aclTensor和aclScalar需要根据具体API的接口定义修改 aclDestroyTensor(q); aclDestroyTensor(k); aclDestroyTensor(v); aclDestroyTensor(dx); aclDestroyTensor(attenmask); aclDestroyTensor(softmaxMax); aclDestroyTensor(softmaxSum); aclDestroyTensor(attentionIn); aclDestroyTensor(dScaleQ); aclDestroyTensor(dScaleK); aclDestroyTensor(dScaleV); aclDestroyTensor(dScaleDy); aclDestroyTensor(dsScale); aclDestroyTensor(pScale); aclDestroyTensor(dq); aclDestroyTensor(dk); aclDestroyTensor(dv); // 7. 释放device资源 aclrtFree(qDeviceAddr); aclrtFree(kDeviceAddr); aclrtFree(vDeviceAddr); aclrtFree(dxDeviceAddr); aclrtFree(softmaxMaxDeviceAddr); aclrtFree(softmaxSumDeviceAddr); aclrtFree(attentionInDeviceAddr); aclrtFree(dScaleQDeviceAddr); aclrtFree(dScaleKDeviceAddr); aclrtFree(dScaleVDeviceAddr); aclrtFree(dScaleDyDeviceAddr); aclrtFree(dsScaleDeviceAddr); aclrtFree(pScaleDeviceAddr); aclrtFree(dqDeviceAddr); aclrtFree(dkDeviceAddr); aclrtFree(dvDeviceAddr); if (workspaceSize 0) { aclrtFree(workspaceAddr); } aclrtDestroyStream(stream); aclrtResetDevice(deviceId); aclFinalize(); return 0; }【免费下载链接】ops-transformer本项目是CANN提供的transformer类大模型算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN量化注意力梯度算子

相关文章：

CANN量化注意力梯度算子

lvgl_v8之arc控件修改前景色和背景色代码示例

云原生开发脚手架Jetski：从工具集设计到自动化部署实战

通用人工智能系统（GPAIS）架构、挑战与可信治理实践

对话式AI的学术诚信挑战：从技术原理到架构级解决方案

3分钟彻底清理Windows右键菜单：ContextMenuManager让你的电脑操作效率提升200%

2026国内GPT API稳定服务商TOP10：企业级99.9%可用率口碑榜

ChatCat：基于Electron的本地AI聊天客户端部署与配置指南

多模态大模型Awesome列表：从资源导航到高效学习与开发实践

一键提取视频PPT：开源智能视频内容自动化提取的革命性工具

ACL 2025 最佳论文解读：《Language Models Resist Alignment: Evidence From Data Compression》

09-扩展知识——05. date 类 - 处理日期

React聊天机器人组件集成指南：从UI定制到AI后端连接

STM32F103 学习笔记-21-串口通信（第5节）—串口2345代码移植和讲解

保姆级 Kali Linux 安装教程｜零基础小白也能看懂，从镜像下载到虚拟机配置全程图文详解，零报错上手

LLMCompiler：大语言模型并行函数调用编译器原理与实践

2026 年了，国产大模型和 GPT/Claude的差距还有多大？

通用人工智能系统(GPAIS)的技术挑战与可信AI治理框架

容器是怎么管理 Bean 的？

医学影像分割：2D超图像与3D网络性能对比与选型指南

Bean 会被 JVM 回收吗？

Bean 什么时候会被销毁？

航空发动机齿轮有限元可靠性分析与齿廓修形优化【附仿真】

CANN/hcomm通信域初始化

OBS虚拟摄像头插件：4个虚拟摄像头同时工作的终极指南

ThinkPad风扇控制革命：如何用TPFanCtrl2告别过热与噪音困扰

深度解析 MCP (Model Context Protocol)：构建 AI Agent 的核心纽带

收藏必看！2026年AI内卷混战风口拆解，小白也能轻松入局大模型

收藏！2026年转AI大模型应用开发，正确学习顺序别踩坑（小白/程序员必看）

【2026最新版｜收藏备用】用Skill简化大模型知识库连接，小白程序员入门必看