当前位置: 首页 > article >正文

CANN/ops-transformer FlashAttentionScore算子

FlashAttentionScore【免费下载链接】ops-transformer本项目是CANN提供的transformer类大模型算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品√Atlas A3 推理系列产品×Atlas A2 训练系列产品√Atlas A2 推理系列产品×功能说明算子功能训练场景下使用FlashAttention算法实现self-attention自注意力的计算pseType1时需要先add再mul。pseType≠1时需要先mul再add。计算公式注意力的正向计算公式如下pseType1时公式如下 $$ attention_outDropout(Softmax(Mask(scale*(pse(queryd_scale_q)(keyd_scale_k)^T), atten_mask)), keep_prob)(value*d_scale_v) $$pseType≠1时公式如下 $$ attention_outDropout(Softmax(Mask(scale*((queryd_scale_q)(keyd_scale_k)^T) pse),atten_mask),keep_prob)(value*d_scale_v) $$参数说明参数名输入/输出/属性描述数据类型数据格式query输入公式中的输入query。BFLOAT16、FLOAT16、FLOAT、FLOAT8_E5M2、FLOAT8_E4M3FN、HIFLOAT8NDkey输入公式中的输入key。BFLOAT16、FLOAT16、FLOAT、FLOAT8_E5M2、FLOAT8_E4M3FN、HIFLOAT8NDvalue输入公式中的输入value。BFLOAT16、FLOAT16、FLOAT、FLOAT8_E5M2、FLOAT8_E4M3FN、HIFLOAT8NDrealShiftOptional可选输入公式中的pse表示位置编码。BFLOAT16、FLOAT16、FLOATNDdropMaskOptional可选输入公式中的Dropout表示数据丢弃掩码。取值为1代表保留该数据为0代表丢弃该数据。UINT8NDattenMaskOptional可选输入公式中的atten_mask表示注意力掩码取值为1代表该位不参与计算不生效为0代表该位参与计算。BOOL、UINT8NDdScaleQOptional可选输入公式中的d_scale_qFP8场景下query的全量化参数。FLOATNDdScaleKOptional可选输入公式中的d_scale_kFP8场景下key的全量化参数。FLOATNDdScaleVOptional可选输入公式中的d_scale_vFP8场景下value的全量化参数。FLOATNDscaleValue可选属性公式中的scale表示缩放系数作为计算流中Muls的scalar值。默认值为1.0。DOUBLE-keepProb可选属性公式中的keep_prob表示数据需要保留的概率。默认值为1.0。DOUBLE-pseType可选属性控制add与mul的执行次序支持配置值为0、1、2、3。默认值为1。INT64-softmaxMaxOut输出Softmax计算的Max中间结果用于反向计算。FLOATNDsoftmaxSumOut输出Softmax计算的Sum中间结果用于反向计算。FLOATNDattentionOut输出公式中的attention_out。BFLOAT16、FLOAT16、FLOATNDAtlas A2 训练系列产品 不支持FLOAT8_E5M2、FLOAT8_E4M3FN、HIFLOAT8三种数据类型。Atlas A3 训练系列产品 不支持FLOAT8_E5M2、FLOAT8_E4M3FN、HIFLOAT8三种数据类型。约束说明输入query、key、value、realShiftOptional的数据类型必须一致。输入query、key、value的inputLayout必须一致。关于数据shape的约束以inputLayout的BSND、BNSD为例BSH、SBH下HN*D其中B取值范围为1~2M。当prefixOptional的时候B最大支持2K。N取值范围为1~256。S取值范围为1~1M。D取值范围为1~768。输入query、key、value类型为FLOAT8_E5M2、FLOAT8_E4M3FN、HIFLOAT8时D取值范围为1~128。输入query、key、value类型为FLOAT8_E5M2、FLOAT8_E4M3FN、HIFLOAT8时, 不支持queryRopeOptional、keyRopeOptional、realShiftOptional、attenMaskOptional、dropMaskOptional、keepProb、pseType等相关可选参数。keepProb的取值范围为(0, 1]。部分场景下如果计算量过大可能会导致算子执行超时aicore error类型报错errorStr为timeout or trap error此时建议做轴切分处理注这里的计算量会受B、S、N、D等参数的影响值越大计算量越大。pseType为2或3的时候当前只支持Sq和Skv等长。调用说明调用方式调用样例说明aclnn调用test_aclnn_flash_attention_score非TND场景通过aclnnFlashAttentionScore接口方式调用FlashAttention算子。参考资源算子设计原理【免费下载链接】ops-transformer本项目是CANN提供的transformer类大模型算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN/ops-transformer FlashAttentionScore算子

FlashAttentionScore 【免费下载链接】ops-transformer 本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-transformer 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练…...

数据科学实战:从零构建高质量数据集资源库与预处理指南

1. 项目概述:为什么你需要一个专属的“数据弹药库”在数据科学、机器学习乃至更广阔的AI领域摸爬滚打这些年,我最大的体会是:想法不值钱,数据才是硬通货。你可能有绝妙的算法构思,有清晰的业务逻辑,但如果没…...

【AI原生应用安全红宝书】:SITS2026框架下7大高危攻击面与零信任加固路径

更多请点击: https://intelliparadigm.com 第一章:SITS2026框架演进与AI原生安全范式跃迁 SITS2026(Secure Intelligence Trust Stack 2026)标志着安全架构从“防御叠加”向“智能内生”的根本性转变。其核心不再依赖边界检测与规…...

5大核心技术揭秘:Seraphine如何通过LCU API重塑英雄联盟游戏体验

5大核心技术揭秘:Seraphine如何通过LCU API重塑英雄联盟游戏体验 【免费下载链接】Seraphine 英雄联盟战绩查询工具 项目地址: https://gitcode.com/gh_mirrors/se/Seraphine 在竞技游戏的激烈对抗中,信息差往往是决定胜负的关键因素。Seraphine作…...

别再只盯着告警了:从Pikachu靶场搭建看SRE可观测性的实战落地(含日志与调用链配置)

从Pikachu靶场搭建看SRE可观测性的实战落地 当我们在本地搭建一个Web漏洞练习平台时,往往只关注漏洞利用本身,却忽略了服务运行时的状态感知。最近在配置Pikachu靶场时,我尝试将SRE的可观测性理念应用到这个微型PHP服务中,意外发现…...

SAP ABAP开发避坑:WS_DELIVERY_UPDATE函数调用时,COMMIT和NO_MESSAGES_UPDATE参数到底怎么设?

SAP ABAP开发实战:WS_DELIVERY_UPDATE函数参数组合的黄金法则 在SAP物流模块开发中,WS_DELIVERY_UPDATE函数就像一把瑞士军刀——功能强大但参数复杂。许多ABAP开发者第一次接触这个函数时,往往会被其十余个控制参数弄得晕头转向。更棘手的是…...

6G+AI重塑医疗影像:云边端协同架构与智能诊断实践

1. 项目概述:当6G遇见AI,磁共振影像的“超进化”最近和几位三甲医院影像科的朋友聊天,他们都在为一个问题头疼:磁共振(MRI)检查量越来越大,一个病人动辄几十个序列、上百GB的原始数据&#xff0…...

基于AgentScope与ReMe构建开源AI助手工作站CoPaw实战指南

1. 项目概述:一个开源的个人AI助手工作站最近在折腾AI智能体,发现了一个挺有意思的开源项目,叫CoPaw。简单来说,你可以把它理解成一个“个人AI助手工作站”。它不是某个单一的聊天机器人,而是一个能让你在本地或云端部…...

CANN可变长FlashAttentionV2

aclnnFlashAttentionVarLenScoreV2 【免费下载链接】ops-transformer 本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-transformer 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√…...

AI for Science中的分布外泛化:从理论到实践的挑战与应对

1. 项目概述:当AI遇见科学,泛化能力成为“卡脖子”难题最近几年,AI for Science(科学智能)火得一塌糊涂,从预测蛋白质结构的AlphaFold,到加速新材料发现的生成模型,AI正在成为继理论…...

WeChatExporter终极指南:5步解锁你的微信聊天记录备份神器

WeChatExporter终极指南:5步解锁你的微信聊天记录备份神器 【免费下载链接】WeChatExporter 一个可以快速导出、查看你的微信聊天记录的工具 项目地址: https://gitcode.com/gh_mirrors/wec/WeChatExporter 你是否曾担心重要聊天记录丢失?或是需要…...

基于语义搜索的代码索引工具:从原理到部署实战

1. 项目概述:一个为代码库建立智能索引的利器最近在折腾个人项目和团队协作时,我遇到了一个挺普遍但很头疼的问题:随着代码库规模越来越大,文件越来越多,想要快速找到一个特定的函数定义、某个类的引用,或者…...

联邦学习与Transformer融合:破解数据孤岛下的视觉与安全AI落地难题

1. 引言:当AI前沿技术遇见现实世界的“硬骨头”如果你和我一样,长期混迹在AI研究和工业落地的交叉地带,就会发现一个有趣的现象:每年都有大量炫酷的新模型、新范式在顶会上涌现,但真正能走出论文,在计算机视…...

CANN驱动LLC性能参数查询

dcmi_get_device_llc_perf_para 【免费下载链接】driver 本项目是CANN提供的驱动模块,实现基础驱动和资源管理及调度等功能,使能昇腾芯片。 项目地址: https://gitcode.com/cann/driver 函数原型 int dcmi_get_device_llc_perf_para(int card_id…...

Kubernetes Job与CronJob深度解析与实践

Kubernetes Job与CronJob深度解析与实践 Job与CronJob概述 在Kubernetes中,Job用于运行一次性任务,而CronJob则用于运行定时任务。本文将深入探讨Job和CronJob的核心概念、配置方法和最佳实践。 Job核心概念 1. 基本Job配置 apiVersion: batch/v1 kind: …...

苹果神经引擎(ANE)上的LLM全栈解决方案Orion解析

1. Orion系统概述:苹果神经引擎上的LLM全栈解决方案Orion是一个突破性的开源系统,它首次实现了在苹果神经引擎(Apple Neural Engine, ANE)上完整的LLM训练和推理流程。作为苹果设备内置的专用神经网络处理器,ANE自A11 Bionic芯片开始就存在于…...

CANN/pypto设置主机选项API文档

pypto.set_host_options 【免费下载链接】pypto PyPTO(发音: pai p-t-o):Parallel Tensor/Tile Operation编程范式。 项目地址: https://gitcode.com/cann/pypto 产品支持情况 产品是否支持Atlas A3 训练系列产品/Atlas A3 推理系列产…...

认知科学四维智能:构建下一代AGI评估框架与虚拟社区测试实践

1. 项目概述:为什么我们需要一个全新的AGI评估框架?在过去的几年里,我们见证了以GPT系列为代表的大语言模型(LLMs)在文本生成、代码编写乃至多模态理解上取得的惊人突破。作为一名长期关注AI技术发展的从业者&#xff…...

对比自行维护多个API密钥使用Taotoken聚合服务在稳定性上的体验差异

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 对比自行维护多个API密钥与使用Taotoken聚合服务在稳定性上的体验差异 1. 引言:从分散管理到统一接入的转变 在开发过…...

探索vurb.ts:基于Proxy的响应式前端状态管理库实践

1. 项目概述:一个现代前端状态管理库的诞生最近在捣鼓一个个人项目,需要处理一些复杂的组件间状态同步,用 React 自带的useState和useContext感觉有点力不从心,传参传得头疼。于是习惯性地去 GitHub 上逛逛,看看有没有…...

Observal:自托管AI编程智能体管理与可观测性平台实践

1. 项目概述:一个为AI编程智能体打造的“Docker Hub”如果你和我一样,最近几个月被各种AI编程助手(Agent)搞得眼花缭乱——Claude Code、Cursor、Kiro CLI、GitHub Copilot……每个工具都有自己的配置、提示词、MCP服务器和技能包…...

CANN/ops-cv双线性抗锯齿上采样

aclnnUpsampleBilinear2dAA 【免费下载链接】ops-cv 本项目是CANN提供的图像处理、目标检测相关的算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-cv 📄 查看源码 产品支持情况 产品是否支持Ascend 950PR/Ascend 95…...

终极Windows热键冲突检测指南:3步快速定位占用程序

终极Windows热键冲突检测指南:3步快速定位占用程序 【免费下载链接】hotkey-detective A small program for investigating stolen key combinations under Windows 7 and later. 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective 你是否曾经按…...

基于Astro+Starlight构建开源项目中文文档站:架构、本地化与自动化实践

1. 项目概述:OpenClaw 中文网的建设初衷与价值最近在折腾一个挺有意思的开源项目——OpenClaw,一个能帮你处理日常杂事的个人AI智能体。它最吸引我的地方是,你可以把它部署在自己的电脑或者服务器上,通过微信、钉钉这些你天天在用…...

新能源汽车电池生产线实战:C#上位机+Modbus TCP实现电芯数据毫秒级采集与存储

上个月在天津滨海新区的一家新能源电池生产企业做项目,他们的电芯装配线需要一套实时数据采集系统——要对接产线上的12台PLC,读取每个电芯的电压、温度、内阻、极耳焊接质量等20多项数据,采集周期要求100ms,数据要同时存SQL Server做业务追溯和InfluxDB做实时看板。之前他…...

命令行AI绘画工具nanobanana:用Gemini API提升开发效率

1. 项目概述:当命令行遇上AI绘画 如果你和我一样,是个重度命令行用户,同时又对AI图像生成充满好奇,那么你很可能已经厌倦了在浏览器和终端之间反复横跳。想象一下,你正在写一个项目的README,需要快速生成一…...

CANN hcomm内存导出API文档

HcommMemExport 【免费下载链接】hcomm HCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。 项目地址: https://gitcode.com/cann/hcomm 产品支持情况 Ascend 950PR/Ascend 950DT:支持At…...

CoPaw开源个人AI助手:从部署到实战的完整指南

1. 项目概述CoPaw,这个名字听起来就带着点俏皮和亲切感,它既是“Co Personal Agent Workstation”(协同个人智能体工作站)的缩写,也寓意着一只时刻陪伴在你身边的“小爪子”。作为一个在AI和自动化领域摸爬滚打了十来年…...

单北斗变形监测应用在GNSS位移监测中的创新与实践

该监测方案在GNSS位移监测中实现了对位移数据的高精度获取。核心在于使用专用传感器,结合多频信号进行实时处理来捕捉结构的变形。它在桥梁和地质灾害监测等场景中,能快速给出预警,帮助发现潜在风险。为了让系统稳定运行,合适的参…...

Python字符串搜索替换的语义陷阱与工程决策树

1. 项目概述字符串搜索与替换,是每个写 Python 的人每天都在做的事——从解析日志、清洗用户输入、处理配置文件,到构建模板引擎、实现简单规则引擎,再到做数据预处理,几乎无处不在。但奇怪的是,明明就那么几个方法&am…...