当前位置: 首页 > article >正文

CANN ATB加速库工作原理

ATB工作原理【免费下载链接】ascend-transformer-boost本项目是CANN提供的是一款高效、可靠的Transformer加速库基于华为Ascend AI处理器提供Transformer定制化场景的高性能融合算子。项目地址: https://gitcode.com/cann/ascend-transformer-boost算子下发原理深度学习模型可以抽象为由一个个算子组合而成计算图节点代表算子 边代表张量数据依赖关系。在模型训练和推理时模型主体程序在CPU上执行过程中将算子一个个下发到设备侧Device NPU或GPU上执行 并在必要的时候进行同步。整个步骤可以简单抽象为下图两种类型的性能瓶颈由于Host准备算子上下文并下发算子也是需要时间因此这种工作模式下存在两种可能的性能瓶颈Host BoundHost下发较慢 设备侧NPU执行算子较快 Host执行效率成为整体性能瓶颈。在profiling图上 表现为Stream上的Kernel间存在空泡。 此时设备侧的算力没有得到充分利用 需要优化Host程序加快算子下发。Device Bound Host下发较快 Device执行较慢 Device执行效率成为性能瓶颈。这种场景下设备侧算力被充分利用 如想继续提高性能 则需要考虑优化kernel.上图分别给出了这两种性能瓶颈的示例。算子下发过程单个算子的下发过程可以简化为如下步骤合法性检查检查算子输入、输出、参数是否符合算子要求 防止错误参数提交到Device后导致错误。输出shape推导Infer Shape通过算子的输入Shape和Data type推导输出Shape和Data Type。例如上述一个简单的Matmul算子 左矩阵Shape为M * K右矩阵为K * N 可以推导输出矩阵Shape为M * N。计算Tiling大多数情况下单个AI Core一次能处理的数据有限算子的输入数据无法一次完全载入完成计算需要将输入切分成多块分块完成计算这个过程叫Tiling数据切分的算法称为Tiling算法或者Tiling策略。对于复杂算子来说 每个Kernel实现都可能有自己的Tiling算法 根据输入输出Tensor的Shape和其他信息计算出进行Kernel执行过程中如何切分。计算的结果一般保存在一个自定义的Tiling数据结构中。上图所示是一个矩阵乘Matmul的Tiling策略首先要进行多核切分: 根据当前核数对M、K、N进行多核切分得到单核内shape大小singleCoreM、singleCoreK、singleCoreN。接着要进行核内切分: 根据Local Memory的大小约束对单核内的Shape大小进一步切分得到A、B、C矩阵参与一次矩阵乘指令的Shape大小baseM、baseN、baseK。ATB会把Tiling策略用一个结构体保存起来后续传给算子核函数使用。在此例中是struct matmulTilingData。struct matmulTilingData { uint singleCoreM uint singleCoreK uint singleCoreN uint baseM; uint basek uint baseN }Tiling策略对复杂算子的性能影响巨大 同一个算子在不同Tiling策略下可能有10倍性能差异。获取Workspace大小算子内部有时需要通过额外的HBM内存进行数据交换或者缓存 这部分空间称为算子的Workspace。 需要在算子实际执行前分配好。上面的示例中 先进行矩阵乘法 然后进行一次Reduce。 需要使用Workspace暂存矩阵乘结果。分配Workspace对于ATB和aclnn这样的两段式算子接口来说 这个步骤一般由执行框架如torch-npu进行分配 而不是算子内部实现。 这样外部框架可以管理整个模型执行过程中间的HBM资源 提高分配效率。算子下发将之前准备好的输入输出Tensor地址、Tiling信息、Workspace地址内存空间以及其他参数封装成argument list 调用Launch Kernel接口通知Device侧按照上面的参数执行Kernel。ATB工作原理当模型变得越来越复杂 算子越来越多前述的Host Bound会逐渐显现。 为了解决这个问题ATB进行了针对性的优化。它提供如下功能定制化融合算子: 提供Transformer结构常用的算子如PageAttention、Linear等。ATB提供的算子通常是针对主流模型经过精心设计的融合算子 具有较高的性能。轻量级组图: 支持使用上述算子或第三方算子组图然后像操作单算子一样操作图 下面称其为图算子。图算子可以很方便地在不同模型、不同layer之间复用。运行时优化: 采用了多种优化方案 提升Host性能并降低Device内存占用。 具体总结如下Tiling Cache机制通过缓存计算好的Tiling以存代算减少重复计算。调度优化优化组图模式下算子下发调度方式使设备侧算子运行无间隙解决Host Bound。内存优化通过基于内存Block分裂、合并、尾块优化的内存分配算法实现图算子内部中间Tensor复用平均节省Workspace 50%提升大模型推理Batch Size上限。组图实例详见 tests/framework/c/layer_ops/llama65b/layer/llama65b_layer_mlp_graph_builder.cpp 中CreateLlamaMlpOperationByGraphOpBuilder函数。 下面仅包含组图逻辑主体。atb::Status CreateLlamaMlpOperationByGraphOpBuilder(const LlamaMlpParamGb param, atb::Operation **operation) { atb::GraphOpBuilder* graphOpBuilder; CreateGraphOpBuilder(graphOpBuilder); /* 此处省略了参数创建 */ graphOpBuilder-Init( LlamaMlpGraphOp, inferShapeFunc, {hidden_states, weight}, {mlp_out} ); graphOpBuilder-Reshape(hidden_states, reshape_01_2, hidden_states_); graphOpBuilder-AddOperation(Linear(param), {hidden_states_, weight}, {linear_out}); graphOpBuilder-Reshape(linear_out, unsqueueze_0, linear_out_); graphOpBuilder-AddOperation(Split(param), {linear_out_}, {gate_out, up_out}); graphOpBuilder-AddOperation(Swish(param), {gate_out}, {swish_out}); graphOpBuilder-AddOperation(Mul(param), {swish_out, up_out}, {mlp_out}); *operation graphOpBuilder-Build(); DestroyGraphOpBuilder(graphOpBuilder); return atb::NO_ERROR; }上述代码组建了一个由四个算子组成的图算子。 逻辑视图如下在ATB的内部 使用两个Vector容器分别存放算子节点和算子的输入输出。图算子Setup和Execute流程由于ATB中图算子只是单算子的组合不涉及Kernel融合 因此图算子的Setup和Execute过程与单算子类似 区别仅在于Setup阶段进行了Workspace优化。Setup和Execute流程分别如下所示运行时优化Setup复用和Cache优化实际推理过程中 即使是动态Shape场景下多次推理过程的输入Shape也大概率重复。 基于这个特征 可以进行如下优化使用一个Cache保存一个算子常用的多份Tiling信息默认每个算子保存10份 Shape相同场景下可以避免重复计算。每个算子执行上下文中保存了上一次执行的Tensor信息、Tiling信息、Worksspace Size信息。 如果某次执行的Shape与上次完全相同则可以直接复用上下文 跳过整个Setup阶段。上述两种优化对图算子和单算子都适用。HBM内存优化ATB在图算子Setup阶段尽可能复用HBM 使得整个图算子的Workspace size比内部单算子Workspace size的总和要小。具体方式如下一个流中的算子Kernel是顺序执行的 所以前一个算子的Workspace可以给后一个算子使用。一个图算子内部的中间Tensor不需要保留到图算子执行完毕 只要最后一个使用它的单算子执行完毕后就可以释放空间给其他Tensor使用。下发优化优化前下发调度逐个算子执行Setup和execution容易在NPU上形成空泡基础优化ATB通过图算子批量进行算子Setup和任务下发可有效减少NPU空泡。 这一步优化是组图模式自动实现的。不需要用户特殊操作。双线程下发优化推荐使用通过双线程分别进行算子批量Setup和批量任务下发可以同时减少host执行时间和NPU空泡。 这种当时需要用户创建两个线程 其中一个线程处理Setup 另一个线程处理Execute。【免费下载链接】ascend-transformer-boost本项目是CANN提供的是一款高效、可靠的Transformer加速库基于华为Ascend AI处理器提供Transformer定制化场景的高性能融合算子。项目地址: https://gitcode.com/cann/ascend-transformer-boost创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN ATB加速库工作原理

ATB工作原理 【免费下载链接】ascend-transformer-boost 本项目是CANN提供的是一款高效、可靠的Transformer加速库,基于华为Ascend AI处理器,提供Transformer定制化场景的高性能融合算子。 项目地址: https://gitcode.com/cann/ascend-transformer-boo…...

CANN/AMCT贡献指南

贡献指南 【免费下载链接】amct AMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。 项目地址: https://gitcode.com/cann/amct 本项目欢迎广大开发者体验并参与贡献,在参与社区贡献之前。请参见cann-community了解行为准则,进行CLA协议签署&am…...

CANN/metadef FrameworkRegistry类API

FrameworkRegistry类构造函数和析构函数 【免费下载链接】metadef Ascend Metadata Definition 项目地址: https://gitcode.com/cann/metadef 函数功能 FrameworkRegistry构造函数和析构函数。 函数原型 FrameworkRegistry(const FrameworkRegistry &) delete F…...

标题:具有超越金属抗裂纹性能的坚韧纤维增强复合离子凝胶

摘要精炼: 离子导电材料因其良好的机械和电学性能而备受关注。然而,由于能量耗散区域尺寸受限,其实际应用仍受到韧性和抗裂纹能力不足的制约,影响了可靠性和耐久性。本文通过将高性能纤维嵌入弹性离子凝胶中,制备了具有…...

心理专科医院选择指南,真实案例分享

行业痛点分析当前,重庆的心理健康领域正面临着一系列技术挑战。许多心理疾病的患者因病耻感与认知偏差,隐瞒病情,导致病情得不到及时有效的治疗。另外,重庆优质心理医疗资源紧张,患者在预约专家资源、体验感方面均感到…...

CANN/HCOMM通信域配置

HcclCommConfig 【免费下载链接】hcomm HCOMM(Huawei Communication)是HCCL的通信基础库,提供通信域以及通信资源的管理能力。 项目地址: https://gitcode.com/cann/hcomm 功能说明 初始化具有特定配置的通信域时,此数据类…...

CANN/pyasc数据拷贝填充API文档

asc.language.basic.data_copy_pad 【免费下载链接】pyasc 本项目为Python用户提供算子编程接口,支持在昇腾AI处理器上加速计算,接口与Ascend C一一对应并遵守Python原生语法。 项目地址: https://gitcode.com/cann/pyasc asc.language.basic.dat…...

CANN Lightning Indexer Prolog算子文档

custom_pypto.npu_lightning_indexer_prolog_pto 【免费下载链接】cann-recipes-infer 本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-infer 产品支持情况 产品是…...

3步快速解密:让网易云音乐加密文件重获自由的完整指南

3步快速解密:让网易云音乐加密文件重获自由的完整指南 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 你是否曾遇到过这样的困扰:从网易云音乐精心下载的歌曲,却只能在特定软件中播放,…...

基于FPGA的ANN智能检测系统:从算法到硬件的协同优化实践

1. 项目概述:当AI遇上硬件,为快速检测开辟新路径最近几年,大家对于快速、准确的病原体检测需求达到了前所未有的高度。传统的检测方法,无论是PCR还是抗原检测,都面临着流程复杂、耗时较长或灵敏度不足的挑战。作为一名…...

CANN向量步幅切片约束

Vec Stride and Slicing Constraints 【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills Read this file when a vec oper…...

范式革新:时序媒体智能解析引擎与结构化知识蒸馏技术

范式革新:时序媒体智能解析引擎与结构化知识蒸馏技术 【免费下载链接】extract-video-ppt extract the ppt in the video 项目地址: https://gitcode.com/gh_mirrors/ex/extract-video-ppt 在数字内容爆炸式增长的今天,视频已成为知识传递的主要载…...

生成式AI应用场景深度拆解(2026奇点大会闭门报告首次公开)

更多请点击: https://intelliparadigm.com 第一章:生成式AI应用场景:2026奇点智能大会 2026奇点智能大会首次设立“生成式AI产业落地全景沙盘”,聚焦大模型从实验室走向千行百业的关键跃迁。大会现场部署了12个实时交互式AI应用展…...

CANN/hccl:自定义通信算子 - 点对点通信

自定义通信算子 - 点对点通信 【免费下载链接】hccl 集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案 项目地址: https://gitcode…...

深度剖析Go语言,一文告诉你为什么大厂开始增加Go的招聘量

最近这两年大厂青睐Go,不是因为Go比Java"更好",而是因为Go比Java"更适合云原生时代"。我在G7汇通天下做后端架构时,亲历了从Java全面转向Go的过程。今天用一篇文章,说清Go语言的核心竞争力,以及你…...

利用 Taotoken 模型广场为学术研究项目筛选性价比最高的模型

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 利用 Taotoken 模型广场为学术研究项目筛选性价比最高的模型 为学术研究项目选择合适的大语言模型,常常需要在模型能力…...

ARM SIMD浮点与定点转换指令VCVT详解

1. ARM SIMD浮点与定点转换指令概述在ARM架构的SIMD(单指令多数据)指令集中,VCVT系列指令承担着浮点数与定点数之间相互转换的关键任务。这类指令通过单条指令同时处理多个数据元素,实现了数值格式转换的并行化处理。作为ARM NEON技术的重要组成部分&…...

嵌入式ROM代码启动机制与优化实践

1. 嵌入式ROM代码启动机制解析在嵌入式系统开发领域,ROM代码是处理器上电后最先执行的固件,它如同系统的"基因代码"决定了硬件初始化的基本行为。以TI OMAP系列处理器为例,其ROM代码存储在芯片内部掩膜ROM中,主要完成三…...

集成电路PVT角点分析的零调优智能方法

1. 多元角点分析的技术挑战与突破在集成电路设计领域,工艺-电压-温度(PVT)角点分析是确保芯片可靠性的关键环节。随着工艺节点不断缩小,晶体管级变异效应日益显著,传统的单角点验证方法已无法满足现代芯片设计的严苛要…...

cann-bench TopK算子API描述

TopK 算子 API 描述 【免费下载链接】cann-bench 评测AI在处理CANN领域代码任务的能力,涵盖算子生成、算子优化等领域,支撑模型选型、训练效果评估,统一量化评估标准,识别Agent能力短板,构建CANN领域评测平台&#xff…...

三步解锁QQ音乐加密文件:qmc-decoder让你的音乐真正自由播放

三步解锁QQ音乐加密文件:qmc-decoder让你的音乐真正自由播放 【免费下载链接】qmc-decoder Fastest & best convert qmc 2 mp3 | flac tools 项目地址: https://gitcode.com/gh_mirrors/qm/qmc-decoder 你是否曾经在QQ音乐下载了心爱的歌曲,却…...

CANN/catccos计算通信融合算子模板库

CATCCOS 【免费下载链接】catccos CATCCOS昇腾计算-通信融合算子模板库,是一个聚焦于提供高性能计算通信融合类算子基础模板的代码库。 项目地址: https://gitcode.com/cann/catccos 📌 简介 CATCCOS(CANN Templates for Compute-Communication …...

CANN设备运行时事实

Device and Runtime Facts 【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills Use this file for device caps, pipe mapp…...

RAP中的派生变量%说明

1. %msg是 BDEF 派生类型(Derived Types)的一个组件。它被用作 REPORTED 响应参数的一个组成部分。%msg 提供了一个消息接口 IF_ABAP_BEHV_MESSAGE 的实例。如果不需要对该接口进行自定义实现,可以使用继承而来的 new_message( ) 或 new_mess…...

CANN/tensorflow AOE调优配置

AOE 【免费下载链接】tensorflow Ascend TensorFlow Adapter 项目地址: https://gitcode.com/cann/tensorflow [!NOTE]说明 AOE调优特性仅支持如下产品的训练场景: Atlas A3 训练系列产品/Atlas A3 推理系列产品Atlas A2 训练系列产品/Atlas A2 推理系列产品A…...

长期使用Taotoken服务在API延迟与稳定性方面的实际感受分享

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 长期使用Taotoken服务在API延迟与稳定性方面的实际感受分享 在持续数月的项目开发中,我们团队将多个AI应用的后端服务统…...

企业内如何通过Taotoken实现AI模型调用的统一审计与风控

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 企业内如何通过Taotoken实现AI模型调用的统一审计与风控 对于有合规与安全要求的企业而言,直接让各部门或应用分别对接…...

我给 MariaDB 装了个“副驾驶”:DBLens for MariaDB

有时候我觉得,数据库不是难用,是太会藏东西了。 你问它:“订单状态在哪?” 它沉默。 你问:“这个字段谁在用?” 它继续沉默。 你打开表列表,看着一串似曾相识但又不敢乱点的名字,心里…...

马斯克投1200亿建芯片工厂,微美全息加速量子算力集群进入全球“AI军备竞赛”

据报道,埃隆马斯克的太空探索技术公司准备斥资1200亿美元建造一家人工智能(AI)芯片工厂,这将是世界上最大的人工智能芯片工厂。AI芯片工厂重构算力马斯克在社交媒体平台X上写道:“这是为建设全球最大、最先进芯片制造设…...

CANN/runtime算子信息订阅API

# 19-03 订阅算子信息 【免费下载链接】runtime 本项目提供CANN运行时组件和维测功能组件。 项目地址: https://gitcode.com/cann/runtime 本章节描述算子信息订阅接口,用于订阅模型中算子的执行信息(类型、名称、耗时等)…...