当前位置: 首页 > article >正文

CANN/asc-devkit DeepNorm API 文档

DeepNorm【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品 / Atlas A3 推理系列产品√Atlas A2 训练系列产品 / Atlas A2 推理系列产品√Atlas 200I/500 A2 推理产品xAtlas 推理系列产品 AI Core√Atlas 推理系列产品 Vector CorexAtlas 训练系列产品x功能说明在深层神经网络训练过程中执行层LayerNorm归一化时可以使用DeepNorm进行替代通过扩大残差连接来提高Transformer的稳定性。本接口实现了对shape大小为[BSH]的输入数据的DeepNorm归一化其计算公式如下DeepNorm(x) LayerNorm(α * X SubLayer(X))SubLayer(X)通常是指在DeepNorm模型中的一个子层sub-layer用于实现自注意力机制self-attention mechanism。本接口中会整体作为一个输入Tensor传入。其中LayerNorm的计算公式请参考LayerNorm。函数原型通过sharedTmpBuffer入参传入临时空间template typename T, bool isReuseSrc false, bool isBasicBlock false __aicore__ inline void DeepNorm(const LocalTensorT dstLocal, const LocalTensorT meanLocal, const LocalTensorT rstdLocal, const LocalTensorT srcLocal, const LocalTensorT gxLocal, const LocalTensorT betaLocal, const LocalTensorT gammaLocal, const LocalTensoruint8_t sharedTmpBuffer, const T alpha, const T epsilon, DeepNormTiling tiling)接口框架申请临时空间template typename T, bool isReuseSrc false, bool isBasicBlock false __aicore__ inline void DeepNorm(const LocalTensorT dstLocal, const LocalTensorT meanLocal, const LocalTensorT rstdLocal, const LocalTensorT srcLocal, const LocalTensorT gxLocal, const LocalTensorT betaLocal, const LocalTensorT gammaLocal, const T alpha, const T epsilon, DeepNormTiling tiling)参数说明表 1模板参数说明参数名描述T操作数的数据类型。支持的数据类型为half、float。isReuseSrc是否允许修改源操作数默认值为false。如果开发者允许源操作数被改写可以使能该参数使能后能够节省部分内存空间。设置为true则本接口内部计算时复用srcLocal的内存空间节省内存空间设置为false则本接口内部计算时不复用srcLocal的内存空间。对于float数据类型输入支持开启该参数half数据类型输入不支持开启该参数。isReuseSrc的使用样例请参考更多样例。isBasicBlocksrcTensor的shape信息满足基本块要求的情况下可以使能该参数用于提升性能默认不使能。基本块要求srcTensor的shape需要满足如下条件尾轴即H的长度为64的倍数但不超过2040非尾轴长度B*S为8的倍数。表 2接口参数说明参数名输入/输出描述dstLocal输出目的操作数。shape为[BSH]。H长度不可超过2040。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。meanLocal输出均值目的操作数。shape为[BS]。meanLocal的数据类型需要与dstLocal保持一致。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。rstdLocal输出方差目的操作数。shape为[BS]。rstdLocal的数据类型需要与dstLocal保持一致。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。srcLocal输入源操作数shape为[BSH]。srcLocal的数据类型需要与目的操作数保持一致尾轴长度需要32B对齐。H长度不可超过2040。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。gxLocal输入源操作数shape为[BSH]。gxLocal的数据类型需要与目的操作数保持一致尾轴长度需要32B对齐。H长度不可超过2040。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。该参数对应计算公式中的SubLayer(X)的计算结果。betaLocal输入源操作数shape为[H]。betaLocal的数据类型需要与目的操作数保持一致长度需要32B对齐。H长度不可超过2040。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。gammaLocal输入源操作数shape为[H]。gammaLocal的数据类型需要与目的操作数保持一致长度需要32B对齐。H长度不可超过2040。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。sharedTmpBuffer输入接口内部复杂计算时用于存储中间变量由开发者提供。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。临时空间大小BufferSize的获取方式请参考DeepNorm Tiling。alpha输入权重系数。数据类型需要与目的操作数一致。epsilon输入权重系数 用来防止除零错误。数据类型需要与目的操作数一致。tiling输入DeepNorm计算所需Tiling信息Tiling信息的获取请参考DeepNorm Tiling。返回值说明无约束说明操作数地址对齐要求请参见通用地址对齐约束。isReuseSrc模板参数为false时srcLocal和dstLocal的Tensor空间不支持复用。仅支持输入shape为ND格式。输入数据不满足对齐要求时开发者需要进行补齐补齐的数据应设置为0防止出现异常值从而影响网络计算。调用示例// dstLocal: 存放 DeepNorm 计算结果的 Tensor // meanLocal: 输出均值Tensor // rstdLocal: 输出方差Tensor // srcLocal: 输入的主数据 Xshape 为 [B, S, H] // gxLocal: SubLayer(X) 的输出 // betaLocal: LayerNorm 的偏置系数βshape 为 [H] // gammaLocal: LayerNorm 的缩放系数γshape 为 [H] // alpha: 残差连接的缩放系数α // epsilon: 防除零系数ε // tiling: Tiling 信息包含维度、分块等参数 // 使用 DeepNorm 接口实现 DeepNorm(x) LayerNorm(α * X SubLayer(X)) // 若尾轴的长度H不超过2040且为64的倍数同时非尾轴长度B*S为8的倍数可设置isBasicBlock true提升性能 // 若数据类型T为float且允许修改srcLocal可设置isReuseSrc true复用srcLocal内存空间以节省内存 AscendC::DeepNormT, isReuseSrc, isBasicBlock( dstLocal, // 输出归一化后的结果 meanLocal, // 输出均值 mean rstdLocal, // 输出倒数标准差 rstd srcLocal, // 输入原始输入 X gxLocal, // 输入子层输出 SubLayer(X) betaLocal, // 输入LayerNorm 偏置系数β gammaLocal, // 输入LayerNorm 缩放系数γ alpha, // 输入残差路径缩放系数 α epsilon, // 输入防除零系数 ε tiling // 输入Tiling 信息 );示例结果如下输入数据(srcLocal, shape:[4, 2, 8]): [ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 ] 输入数据(gxLocal, shape:[4, 2, 8]): [ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 ] 输入数据(gammaLocal, shape:[4]): [ 0 1 2 3 4 5 6 7 ] 输入数据(betaLocal, shape:[4]): [ 0 1 2 3 4 5 6 7 ] 输出数据(dstLocal): [ 0. 1.0439204 2.0527046 3.0263522 3.9648638 4.868239 5.7364774 6.56958 0. 1.0439204 2.0527046 3.0263522 3.9648638 4.868239 5.7364774 6.56958 0. 1.0439204 2.0527046 3.0263522 3.9648638 4.868239 5.7364774 6.56958 0. 1.0439204 2.0527046 3.0263522 3.9648638 4.868239 5.7364774 6.56958 0. 1.0439204 2.0527046 3.0263522 3.9648638 4.868239 5.7364774 6.56958 0. 1.0439204 2.0527046 3.0263522 3.9648638 4.868239 5.7364774 6.56958 0. 1.0439204 2.0527046 3.0263522 3.9648638 4.868239 5.7364774 6.56958 0. 1.0439204 2.0527046 3.0263522 3.9648638 4.868239 5.7364774 6.56958 ] 输出数据(meanLocal): [ -15.75 -51.75 -87.75 -123.75 -159.75 -195.75 -231.75 -267.75 ] 输出数据(rstdLocal): [ 106.3125 106.3125 106.3125 106.3125 106.3125 106.3125 106.3125 106.3125 ]【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN/asc-devkit DeepNorm API 文档

DeepNorm 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。 项目地址: https://gitcode.com/c…...

Perplexity环境新闻检索失效真相(2024最新API响应延迟根因分析)

更多请点击: https://kaifayun.com 第一章:Perplexity环境新闻搜索 Perplexity 是一款基于大语言模型的实时信息检索工具,其核心优势在于融合权威信源与上下文感知能力,特别适用于需要高时效性与高可信度的新闻类查询场景。在该环…...

工业视觉系统选型实战:CCD相机与镜头参数计算全解析

1. 项目概述:从“神坛”到“工具箱”的CCD相机与镜头选型 在自动化视觉检测、精密测量和机器视觉领域,CCD工业相机和镜头的选型与参数计算,常常被新手工程师视为一个“黑箱”或“玄学”问题。客户一问到“这个系统能看多清楚?”、…...

OpCore-Simplify:从技术迷宫到一键直达的黑苹果配置革命

OpCore-Simplify:从技术迷宫到一键直达的黑苹果配置革命 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 曾经有多少个夜晚,你对…...

Sora之后的真相:2026年真正落地的8款工业级AI视频引擎,含API吞吐量、帧间PSNR均值与商用SLA承诺明细

更多请点击: https://intelliparadigm.com 第一章:Sora之后的真相:2026年真正落地的8款工业级AI视频引擎,含API吞吐量、帧间PSNR均值与商用SLA承诺明细 Sora发布两年后,工业界已摒弃“演示即产品”的幻觉。截至2026年…...

Qt QSettings管理Windows环境变量:原理、实现与实战优化

1. 项目概述最近在做一个Qt开发的桌面工具,里面有个功能点需要动态修改用户的系统环境变量,比如把一些我们自己打包的工具路径加到用户的PATH里,这样用户在其他地方打开命令行也能直接调用。一开始想着用系统API或者直接写注册表,…...

LangChain4j-examples:基于Java的AI智能体工作流编排深度解析与实践指南

LangChain4j-examples:基于Java的AI智能体工作流编排深度解析与实践指南 【免费下载链接】langchain4j-examples 项目地址: https://gitcode.com/GitHub_Trending/la/langchain4j-examples LangChain4j-examples是一个面向Java开发者的AI智能体工作流编排框…...

思源宋体TTF格式终极指南:免费商用中文字体的完整使用教程

思源宋体TTF格式终极指南:免费商用中文字体的完整使用教程 【免费下载链接】source-han-serif-ttf Source Han Serif TTF 项目地址: https://gitcode.com/gh_mirrors/so/source-han-serif-ttf 还在为商业项目寻找既专业又免费的中文字体而烦恼吗?…...

5分钟快速上手Vue3思维导图:打造专业级数据可视化应用

5分钟快速上手Vue3思维导图:打造专业级数据可视化应用 【免费下载链接】vue3-mindmap Mindmap component for Vue3 项目地址: https://gitcode.com/gh_mirrors/vu/vue3-mindmap Vue3-Mindmap是一个基于Vue 3和TypeScript构建的现代化思维导图组件&#xff0c…...

Pixelle-Video:如何让AI为您的声音创作注入灵魂?

Pixelle-Video:如何让AI为您的声音创作注入灵魂? 【免费下载链接】Pixelle-Video 🚀 AI 全自动短视频引擎 | AI Fully Automated Short Video Engine 项目地址: https://gitcode.com/GitHub_Trending/pi/Pixelle-Video 在AI视频创作的…...

Cursor Pro免费激活终极指南:简单快速解锁AI编程高级功能

Cursor Pro免费激活终极指南:简单快速解锁AI编程高级功能 【免费下载链接】cursor-free-vip [Support 0.45](Multi Language 多语言)自动注册 Cursor Ai ,自动重置机器ID , 免费升级使用Pro 功能: Youve reached your …...

2025届毕业生推荐的六大降AI率助手实测分析

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 针对内容创作范畴而言,AI生成内容也就是AIGC的运用愈发普遍,然而所生…...

i.MX6ULL电容触摸驱动开发:从硬件原理到Linux输入子系统实战

1. 项目概述:从零到一,搞定i.MX6ULL电容触摸最近在搞一个基于i.MX6ULL的工控HMI项目,客户要求界面操作必须流畅跟手,这就对触摸屏的响应速度和精度提出了硬性要求。市面上很多现成的模块要么驱动兼容性差,要么调试信息…...

如何零成本获取全球金融数据?开源工具AKShare终极指南

如何零成本获取全球金融数据?开源工具AKShare终极指南 【免费下载链接】akshare AKShare is an elegant and simple financial data interface library for Python, built for human beings! 开源财经数据接口库 项目地址: https://gitcode.com/gh_mirrors/aks/ak…...

终极指南:如何用YOLOv8 AI自瞄系统快速提升游戏瞄准精度

终极指南:如何用YOLOv8 AI自瞄系统快速提升游戏瞄准精度 【免费下载链接】RookieAI_yolov8 基于yolov8实现的AI自瞄项目 AI self-aiming project based on yolov8 项目地址: https://gitcode.com/gh_mirrors/ro/RookieAI_yolov8 RookieAI_yolov8是一款基于YO…...

终极指南:如何使用Harepacker复活版轻松打造你的MapleStory游戏世界

终极指南:如何使用Harepacker复活版轻松打造你的MapleStory游戏世界 【免费下载链接】Harepacker-resurrected All in one .wz file/map editor for MapleStory game files 项目地址: https://gitcode.com/gh_mirrors/ha/Harepacker-resurrected 想要个性化修…...

猫抓浏览器扩展:基于网络请求拦截的智能资源嗅探技术实现

猫抓浏览器扩展:基于网络请求拦截的智能资源嗅探技术实现 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 猫抓(Cat Catch&a…...

告别纯HDL!用Xilinx SDK和MicroBlaze MCS,像写软件一样玩转FPGA嵌入式开发

从软件工程师视角玩转FPGA:基于MicroBlaze MCS的嵌入式开发实战 在传统认知中,FPGA开发往往与硬件描述语言(HDL)紧密绑定,这让许多习惯高级语言编程的软件工程师望而却步。但现代FPGA开发环境已经发生了革命性变化——…...

昇腾C FMA临时缓冲区因子大小接口

GetFmaTmpBufferFactorSize 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。 项目地址: http…...

告别DDPG训练不稳定!用SAC(软性演员-评论家)算法搞定复杂环境强化学习

告别DDPG训练不稳定!用SAC(软性演员-评论家)算法搞定复杂环境强化学习 在机器人控制、自动驾驶仿真等连续控制任务中,强化学习算法的稳定性往往决定了项目成败。许多工程师都经历过这样的困境:使用DDPG(深度…...

3天掌握Dify工作流开发:从零构建企业级AI应用的完整指南

3天掌握Dify工作流开发:从零构建企业级AI应用的完整指南 【免费下载链接】Awesome-Dify-Workflow 分享一些好用的 Dify DSL 工作流程,自用、学习两相宜。 Sharing some Dify workflows. 项目地址: https://gitcode.com/GitHub_Trending/aw/Awesome-Dif…...

高级逆向工程分析:PC微信小程序wxapkg加密算法深度解析与实现

高级逆向工程分析:PC微信小程序wxapkg加密算法深度解析与实现 【免费下载链接】pc_wxapkg_decrypt_python PC微信小程序 wxapkg 解密 项目地址: https://gitcode.com/gh_mirrors/pc/pc_wxapkg_decrypt_python PC微信小程序逆向工程工具提供了精准的wxapkg加密…...

终极指南:5分钟在Windows上安装安卓APK文件,无需模拟器

终极指南:5分钟在Windows上安装安卓APK文件,无需模拟器 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否厌倦了笨重的安卓模拟器&#xff…...

免费专业速度跑计时工具LiveSplit:终极完整使用教程

免费专业速度跑计时工具LiveSplit:终极完整使用教程 【免费下载链接】LiveSplit A sleek, highly customizable timer for speedrunners. 项目地址: https://gitcode.com/gh_mirrors/li/LiveSplit LiveSplit是一款为速度跑玩家设计的免费开源计时工具&#x…...

GC9A01驱动踩坑记:从供应商代码到自研优化,软件SPI这些细节别忽略

GC9A01驱动深度优化:软件SPI性能压榨实战手册 当240x240的LCD屏幕刷新一张图片需要整整1秒时,那种卡顿感会让任何开发者抓狂。上周调试GC9A01驱动时,我就遇到了这个噩梦——供应商提供的软件SPI驱动在40MHz主频下刷新率不足1FPS。经过72小时的…...

163MusicLyrics:一站式跨平台歌词管理解决方案

163MusicLyrics:一站式跨平台歌词管理解决方案 【免费下载链接】163MusicLyrics 云音乐歌词获取处理工具【网易云、QQ音乐】 项目地址: https://gitcode.com/GitHub_Trending/16/163MusicLyrics 当你在音乐海洋中遨游时,是否曾为找不到心仪歌曲的…...

如何用Perplexity秒级获取NCBI/UniProt/PDB关联知识?——生物学家正在悄悄使用的4层语义穿透法

更多请点击: https://intelliparadigm.com 第一章:如何用Perplexity秒级获取NCBI/UniProt/PDB关联知识?——生物学家正在悄悄使用的4层语义穿透法 Perplexity 不是传统搜索引擎,而是面向科研语义网络的推理型知识代理。当输入一个…...

某供应链企业200GB数据泄露复盘:如果开了透明加密,攻击者拿走的只有乱码

图:供应链企业数据泄露的3条典型路径(U盘导出/数据库导出/截图)与TDE透明加密的拦截机制事件还原:一次"完美"的内部数据窃取说明:以下事件基于多起真实安全事件综合脱敏处理,技术细节均为真实攻击…...

OpCore Simplify:告别繁琐配置,轻松构建黑苹果OpenCore EFI的智能工具

OpCore Simplify:告别繁琐配置,轻松构建黑苹果OpenCore EFI的智能工具 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 还在为黑…...

深入理解 ASP.NET Core 中的 IActionResult

一、从一个问题开始 你写了一个 Web API,有时候要返回数据,有时候要返回 404,有时候要返回 400——这三种情况的返回值类型完全不同,一个 C# 方法怎么能同时返回多种东西? 这就是 IActionResult 存在的根本原因。它的本…...