当前位置: 首页 > article >正文

CANN Lightning Indexer Prolog算子文档

custom_pypto.npu_lightning_indexer_prolog_pto【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer产品支持情况产品是否支持Atlas A3 系列产品√功能说明算子功能用于 Deepseek IndexerAttention 中计算 Lightning Indexer 所需要的 querykey 和 weights。 Indexer Prolog 的量化策略如下Q_b_proj 使用 W8A8 量化其他 Linear 均不量化query 使用 A8 量化key(cache) 使用 C8 量化反量化因子以 FP16 存储weights 以 FP16 存储Query 的计算公式如下$$ \bold{q}, \bold{q}{scale} \text{DynamicQuant}(\text{Hadamard}(\text{RoPE}(\text{DeQuant}(\bold{q} \cdot \bold{w}{qb})))) $$Q 的计算采用了动态的 Per-Token-Head 量化其中 Hadamard 变换通过矩阵右乘 hadamard_q 实现。而 $\bold{q}, \bold{w}_{qb}$ 均是 Int8 类型。Key(cache) 的计算公式如下$$ \bold{k}, \bold{k}_{scale} \text{DynamicQuant}(\text{Hadamard}(\text{RoPE}(\text{LayerNorm}(\bold{x} \cdot \bold{w}_k)))) $$Cache 的计算同样采用了动态的 Per-Token-Head 量化其中 Hadamard 变换通过矩阵右乘 hadamard_k 实现。Weights 的计算公式如下$$ \bold{weight} (\bold{x} \cdot \bold{w}_{proj}) * \text{scale} $$Weights 的计算没有采用量化同时需要最后转化为 FP16 数据类型供后续的 Lightning Indexer 计算使用。函数原型custom_pypto.npu_lightning_indexer_prolog_pto(token_x, q_norm, q_norm_scale, wq_b, wq_b_scale, wk, weights_proj, ln_gamma_k, ln_beta_k, cos_idx_rope, sin_idx_rope,hadamard_q, hadamard_k, idx_k_cache, idx_k_scale_cache, idx_k_cache_index, layernorm_epsilon_k, layout_queryTND, layout_keyPA_BSND) - (Tensor, Tensor, Tensor)参数说明说明token_xTensor表示 hidden 状态必选参数不支持非连续的Tensor数据格式支持ND数据类型支持bfloat16。q_normTensor表示经过 rmsnorm 后量化的 query必选参数不支持非连续的Tensor数据格式支持ND数据类型支持int8。q_norm_scaleTensor表示 query 的反量化因子必选参数不支持非连续的Tensor数据格式支持ND数据类型支持float32。wq_bTensor表示 query 的权重必选参数不支持非连续的Tensor数据格式支持NZ数据类型支持int8。wq_b_scaleTensor表示 query 的权重反量化因子必选参数不支持非连续的Tensor数据格式支持ND数据类型支持float32。wkTensor表示 key 的权重必选参数不支持非连续的Tensor数据格式支持NZ数据类型支持bfloat16。weights_projTensor表示 weights 的权重必选参数不支持非连续的Tensor数据格式支持NZ数据类型支持bfloat16。ln_gamma_kTensor表示 key 的 layernorm 缩放必选参数不支持非连续的Tensor数据格式支持ND数据类型支持bfloat16。ln_beta_kTensor表示 key 的 layernorm 偏移必选参数不支持非连续的Tensor数据格式支持ND数据类型支持bfloat16。cos_idx_ropeTensor表示用于 RoPE 的 cos不支持非连续的 Tensor数据格式支持 ND数据类型支持bfloat16。sin_idx_ropeTensor表示用于 RoPE 的 sin不支持非连续的 Tensor数据格式支持 ND数据类型支持bfloat16hadamard_qTensor表示用于 query Hadamard 变换的权重矩阵不支持非连续的 Tensor数据格式支持 ND数据类型支持bfloat16。hadamard_kTensor表示用于 key Hadamard 变换的权重矩阵不支持非连续的 Tensor数据格式支持 ND数据类型支持bfloat16。idx_k_cacheTensor表示 key 的缓存必选参数不支持非连续的 Tensor数据格式支持 ND数据类型支持int8。idx_k_scale_cacheTensor表示 key 反量化因子的缓存必选参数不支持非连续的 Tensor数据格式支持 ND数据类型支持float16。idx_k_cache_indexTensor表示更新 key 缓存的位置必选参数不支持非连续的 Tensor数据格式支持 ND数据类型支持int64。layernorm_epsilon_kfloat表示 key layernorm 防除 0 系数必选参数数据类型支持float32。layout_querystr可选参数用于标识输入query的数据排布格式默认值TND。当前仅支持 TND。layout_keystr可选参数用于标识输入key的数据排布格式默认值PA_BSND。当前仅支持 PA_BSND。返回值说明queryTensor公式中 query 的输出 tensor数据格式支持 ND数据类型支持int8。query_scaleTensor公式中 query 反量化因子的输出 tensor数据格式支持 ND数据类型支持float16。weightsTensor公式中 weights 的输出 tensor数据格式支持 ND数据类型支持float16。约束说明该接口支持推理场景下使用。该接口支持图模式PyTorch 2.1版本。该接口与PyTorch配合使用时需要保证CANN相关包与PyTorch相关包的版本匹配。算子代码执行示例算子源码执行参考test_lightning_indexer_prolog.py【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN Lightning Indexer Prolog算子文档

custom_pypto.npu_lightning_indexer_prolog_pto 【免费下载链接】cann-recipes-infer 本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-infer 产品支持情况 产品是…...

3步快速解密:让网易云音乐加密文件重获自由的完整指南

3步快速解密:让网易云音乐加密文件重获自由的完整指南 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 你是否曾遇到过这样的困扰:从网易云音乐精心下载的歌曲,却只能在特定软件中播放,…...

基于FPGA的ANN智能检测系统:从算法到硬件的协同优化实践

1. 项目概述:当AI遇上硬件,为快速检测开辟新路径最近几年,大家对于快速、准确的病原体检测需求达到了前所未有的高度。传统的检测方法,无论是PCR还是抗原检测,都面临着流程复杂、耗时较长或灵敏度不足的挑战。作为一名…...

CANN向量步幅切片约束

Vec Stride and Slicing Constraints 【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills Read this file when a vec oper…...

范式革新:时序媒体智能解析引擎与结构化知识蒸馏技术

范式革新:时序媒体智能解析引擎与结构化知识蒸馏技术 【免费下载链接】extract-video-ppt extract the ppt in the video 项目地址: https://gitcode.com/gh_mirrors/ex/extract-video-ppt 在数字内容爆炸式增长的今天,视频已成为知识传递的主要载…...

生成式AI应用场景深度拆解(2026奇点大会闭门报告首次公开)

更多请点击: https://intelliparadigm.com 第一章:生成式AI应用场景:2026奇点智能大会 2026奇点智能大会首次设立“生成式AI产业落地全景沙盘”,聚焦大模型从实验室走向千行百业的关键跃迁。大会现场部署了12个实时交互式AI应用展…...

CANN/hccl:自定义通信算子 - 点对点通信

自定义通信算子 - 点对点通信 【免费下载链接】hccl 集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案 项目地址: https://gitcode…...

深度剖析Go语言,一文告诉你为什么大厂开始增加Go的招聘量

最近这两年大厂青睐Go,不是因为Go比Java"更好",而是因为Go比Java"更适合云原生时代"。我在G7汇通天下做后端架构时,亲历了从Java全面转向Go的过程。今天用一篇文章,说清Go语言的核心竞争力,以及你…...

利用 Taotoken 模型广场为学术研究项目筛选性价比最高的模型

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 利用 Taotoken 模型广场为学术研究项目筛选性价比最高的模型 为学术研究项目选择合适的大语言模型,常常需要在模型能力…...

ARM SIMD浮点与定点转换指令VCVT详解

1. ARM SIMD浮点与定点转换指令概述在ARM架构的SIMD(单指令多数据)指令集中,VCVT系列指令承担着浮点数与定点数之间相互转换的关键任务。这类指令通过单条指令同时处理多个数据元素,实现了数值格式转换的并行化处理。作为ARM NEON技术的重要组成部分&…...

嵌入式ROM代码启动机制与优化实践

1. 嵌入式ROM代码启动机制解析在嵌入式系统开发领域,ROM代码是处理器上电后最先执行的固件,它如同系统的"基因代码"决定了硬件初始化的基本行为。以TI OMAP系列处理器为例,其ROM代码存储在芯片内部掩膜ROM中,主要完成三…...

集成电路PVT角点分析的零调优智能方法

1. 多元角点分析的技术挑战与突破在集成电路设计领域,工艺-电压-温度(PVT)角点分析是确保芯片可靠性的关键环节。随着工艺节点不断缩小,晶体管级变异效应日益显著,传统的单角点验证方法已无法满足现代芯片设计的严苛要…...

cann-bench TopK算子API描述

TopK 算子 API 描述 【免费下载链接】cann-bench 评测AI在处理CANN领域代码任务的能力,涵盖算子生成、算子优化等领域,支撑模型选型、训练效果评估,统一量化评估标准,识别Agent能力短板,构建CANN领域评测平台&#xff…...

三步解锁QQ音乐加密文件:qmc-decoder让你的音乐真正自由播放

三步解锁QQ音乐加密文件:qmc-decoder让你的音乐真正自由播放 【免费下载链接】qmc-decoder Fastest & best convert qmc 2 mp3 | flac tools 项目地址: https://gitcode.com/gh_mirrors/qm/qmc-decoder 你是否曾经在QQ音乐下载了心爱的歌曲,却…...

CANN/catccos计算通信融合算子模板库

CATCCOS 【免费下载链接】catccos CATCCOS昇腾计算-通信融合算子模板库,是一个聚焦于提供高性能计算通信融合类算子基础模板的代码库。 项目地址: https://gitcode.com/cann/catccos 📌 简介 CATCCOS(CANN Templates for Compute-Communication …...

CANN设备运行时事实

Device and Runtime Facts 【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills Use this file for device caps, pipe mapp…...

RAP中的派生变量%说明

1. %msg是 BDEF 派生类型(Derived Types)的一个组件。它被用作 REPORTED 响应参数的一个组成部分。%msg 提供了一个消息接口 IF_ABAP_BEHV_MESSAGE 的实例。如果不需要对该接口进行自定义实现,可以使用继承而来的 new_message( ) 或 new_mess…...

CANN/tensorflow AOE调优配置

AOE 【免费下载链接】tensorflow Ascend TensorFlow Adapter 项目地址: https://gitcode.com/cann/tensorflow [!NOTE]说明 AOE调优特性仅支持如下产品的训练场景: Atlas A3 训练系列产品/Atlas A3 推理系列产品Atlas A2 训练系列产品/Atlas A2 推理系列产品A…...

长期使用Taotoken服务在API延迟与稳定性方面的实际感受分享

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 长期使用Taotoken服务在API延迟与稳定性方面的实际感受分享 在持续数月的项目开发中,我们团队将多个AI应用的后端服务统…...

企业内如何通过Taotoken实现AI模型调用的统一审计与风控

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 企业内如何通过Taotoken实现AI模型调用的统一审计与风控 对于有合规与安全要求的企业而言,直接让各部门或应用分别对接…...

我给 MariaDB 装了个“副驾驶”:DBLens for MariaDB

有时候我觉得,数据库不是难用,是太会藏东西了。 你问它:“订单状态在哪?” 它沉默。 你问:“这个字段谁在用?” 它继续沉默。 你打开表列表,看着一串似曾相识但又不敢乱点的名字,心里…...

马斯克投1200亿建芯片工厂,微美全息加速量子算力集群进入全球“AI军备竞赛”

据报道,埃隆马斯克的太空探索技术公司准备斥资1200亿美元建造一家人工智能(AI)芯片工厂,这将是世界上最大的人工智能芯片工厂。AI芯片工厂重构算力马斯克在社交媒体平台X上写道:“这是为建设全球最大、最先进芯片制造设…...

CANN/runtime算子信息订阅API

# 19-03 订阅算子信息 【免费下载链接】runtime 本项目提供CANN运行时组件和维测功能组件。 项目地址: https://gitcode.com/cann/runtime 本章节描述算子信息订阅接口,用于订阅模型中算子的执行信息(类型、名称、耗时等)…...

CANN/runtime多Stream同步示例

2_multi_stream 【免费下载链接】runtime 本项目提供CANN运行时组件和维测功能组件。 项目地址: https://gitcode.com/cann/runtime 描述 本样例展示了多个Stream之间流间任务同步功能。 产品支持情况 本样例支持以下产品: 产品是否支持Atlas A3 训练系列…...

AI时代知识工作者的创造力重塑:从复用、随机性到形式与内容的边界

1. 项目概述:当知识工作遇上AI,创造力如何被重新定义?最近和不少做内容、做产品、做策略的朋友聊天,大家都有一个共同的感受:自从ChatGPT、Midjourney这些AI工具普及后,工作流程确实快了不少,但…...

CANN/ops-nn Gelu梯度算子

GeluGrad 【免费下载链接】ops-nn 本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-nn 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产品√A…...

科学拉丁文献翻译评测:ChatGPT与Google Translate的深度对比

1. 项目缘起与核心价值作为一名长期在生物、医药和古典文献领域打交道的从业者,我几乎每天都要和拉丁文打交道。无论是解读一份18世纪的植物志手稿,还是理解一篇现代药理学论文中引用的经典术语,拉丁语都是横亘在面前的一道坎。过去&#xff…...

通过 Taotoken 管理控制台精细化设置 API Key 的访问权限与审计日志

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 通过 Taotoken 管理控制台精细化设置 API Key 的访问权限与审计日志 在团队协作或项目开发中,统一管理大模型 API 的调…...

CANN/opbase获取Tensor格式

aclGetFormat 【免费下载链接】opbase 本项目是CANN算子库的基础框架库,为算子提供公共依赖文件和基础调度能力。 项目地址: https://gitcode.com/cann/opbase 功能说明 获取aclTensor的format,aclTensor由aclCreateTensor接口创建。 函数原型 …...

ATVC AddWithBroadcast算子样例

【免费下载链接】atvc ATVC(Ascend C Templates for Vector Compute),是为基于Ascend C开发的典型Vector算子封装的一系列模板头文件的集合,可帮助用户快速开发典型Vector算子。 项目地址: https://gitcode.com/cann/atvc …...