当前位置: 首页 > article >正文

CANN/ops-nn RMS归一化动态量化算子

AddRmsNormDynamicQuantV2【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn产品支持情况产品是否支持Ascend 950PR/Ascend 950DT×Atlas A3 训练系列产品/Atlas A3 推理系列产品×Atlas A2 训练系列产品/Atlas A2 推理系列产品√Atlas 200I/500 A2 推理产品×Atlas 推理系列产品×Atlas 训练系列产品×Kirin X90 处理器系列产品√Kirin 9030 处理器系列产品√功能说明算子功能RmsNorm算子是大模型常用的归一化操作相比LayerNorm算子其去掉了减去均值的部分。DynamicQuant算子则是为输入张量进行对称动态量化的算子。AddRmsNormDynamicQuantV2算子将RmsNorm前的Add算子和RmsNorm归一化输出给到的1个或2个DynamicQuant算子融合起来减少搬入搬出操作。计算公式$$ xx_{1}x_{2} $$$$ y \operatorname{RmsNorm}(x)\frac{x}{\operatorname{Rms}(\mathbf{x})}\cdot gamma, \quad \text { where } \operatorname{Rms}(\mathbf{x})\sqrt{\frac{1}{n} \sum_{i1}^n x_i^2epsilon} $$$$ yFP32cast(y) $$若smoothScale1Optional和smoothScale2Optional均不输入则y2Out和scale2Out输出无实际意义。计算过程如下所示$$ scale1Outrow_max(abs(y))/127 $$$$ y1Outround(y/scale1Out) $$若仅输入smoothScale1Optional则y2Out和scale2Out输出无实际意义。计算过程如下所示$$ input y\cdot smoothScale1Optional $$$$ scale1Outrow_max(abs(input))/127 $$$$ y1Outround(input/scale1Out) $$若smoothScale1Optional和smoothScale2Optional均输入则算子的五个输出均为有效输出。计算过程如下所示$$ input1 y\cdot smoothScale1Optional $$$$ input2 y\cdot smoothScale2Optional $$$$ scale1Outrow_max(abs(input1))/127 $$$$ scale2Outrow_max(abs(input2))/127 $$$$ y1Outround(input1/scale1Out) $$$$ y2Outround(input2/scale2Out) $$其中row_max代表每行求最大值。参数说明参数名输入/输出/属性描述数据类型数据格式x1输入表示标准化过程中的源数据张量对应公式中的x1。FLOAT16、BFLOAT16NDx2输入表示标准化过程中的源数据张量对应公式中的x2。FLOAT16、BFLOAT16NDgamma输入表示标准化过程中的权重张量对应公式中的gamma。shape需要与x1最后一维一致。FLOAT16、BFLOAT16NDsmooth_scale1可选输入表示量化过程中得到y1使用的smoothScale张量对应公式中的smoothScale1Optional。FLOAT16、BFLOAT16NDsmooth_scale2可选输入表示量化过程中得到y2使用的smoothScale张量对应公式中的smoothScale2Optional。FLOAT16、BFLOAT16NDepsilon可选属性用于防止除0错误对应公式中的epsilon。默认值为1e-6。FLOAT-y1输出表示量化输出Tensor对应公式中的y1Out。INT8NDy2输出表示量化输出Tensor对应公式中的y2Out。INT8NDy3输出表示rmsNorm的FLOAT32类型输出Tensor对应公式中的yFP32。FLOAT32NDy4输出表示量化输出Tensor对应公式中的y。FLOAT16、BFLOAT16NDx输出表示x1和x2的和对应公式中的x。FLOAT16、BFLOAT16NDscale1输出第一路量化的输出对应公式中的scale1Out。FLOAT32NDscale2输出第二路量化的输出对应公式中的scale2Out。FLOAT32NDKirin X90/Kirin 9030处理器系列产品x1、x2、gamma、smooth_scale1、smooth_scale2、y4和x的数据类型不支持BFLOAT16。约束说明无调用说明调用方式样例代码说明图模式test_geir_add_rms_norm_dynamic_quant_v2通过算子IR构图方式调用AddRmsNormDynamicQuantV2算子。【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

CANN/ops-nn RMS归一化动态量化算子

AddRmsNormDynamicQuantV2 【免费下载链接】ops-nn 本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-nn 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DTAtlas A3 训练系列产品/Atlas A3 推…...

手把手教你用STM32F103C8T6(正点原子mini板)驱动SHT31温湿度传感器(附完整工程)

从零玩转STM32F103C8T6与SHT31温湿度传感器实战指南 当你第一次拿到正点原子Mini开发板和SHT31传感器时,是否曾被密密麻麻的引脚和陌生的术语吓退?别担心,这篇文章将用最接地气的方式,带你完成从硬件连接到数据采集的全过程。不同…...

FanControl深度解析:解锁Windows风扇控制的专业级配置哲学

FanControl深度解析:解锁Windows风扇控制的专业级配置哲学 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trendin…...

别再瞎猜了!手把手教你算清FPGA Aurora IP核的用户时钟(附8B/10B编码影响)

别再瞎猜了!手把手教你算清FPGA Aurora IP核的用户时钟(附8B/10B编码影响) 当你在Xilinx Vivado中配置Aurora 8B/10B IP核时,是否曾被USER_CLK的计算问题困扰?这个看似简单的参数背后,其实隐藏着线速率、数…...

图神经网络终于能“上生产”了?SITS 2026发布首个支持实时增量训练的AI原生图引擎(附Benchmark对比:吞吐提升6.8×,延迟压至12ms)

更多请点击: https://intelliparadigm.com 第一章:AI原生图计算应用:SITS 2026图神经网络工程化方案 SITS 2026 是面向大规模动态图场景的AI原生图计算框架,深度融合GNN训练、图拓扑实时更新与边缘-云协同推理能力。其核心设计摒…...

储能出海架构重构:摒弃传统x86工控机,基于ARM边缘节点的EMS策略下沉实战

摘要: 随着储能系统在全球范围的大规模部署,出海项目的硬件BOM成本压力与恶劣环境下的维护成本日益凸显。传统的“x86工控机下发控制 透传网关上传数据”的双体架构显得极度臃肿且易引发单点故障。本文从底层研发架构师视角出发,深度拆解符合…...

《QGIS空间数据处理与高级制图》004:内置地理处理工具箱

作者:翰墨之道,毕业于国际知名大学空间信息与计算机专业,获硕士学位,现任国内时空智能领域资深专家、CSDN知名技术博主。多年来深耕地理信息与时空智能核心技术研发,精通 QGIS、GrassGIS、OSG、OsgEarth、UE、Cesium、OpenLayers、Leaflet、MapBox 等主流工具与框架,兼具…...

STK Target Sequence实战:不写一行代码,30分钟搞定卫星初始轨道参数优化

STK Target Sequence实战:不写一行代码,30分钟搞定卫星初始轨道参数优化 在航天任务规划中,轨道设计往往是项目初期最耗时的环节之一。传统方法需要工程师反复调整参数、运行仿真、分析结果,整个过程可能持续数小时甚至数天。而ST…...

CANN/GE动态输入Python构图示例

样例使用指导 【免费下载链接】ge GE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前…...

别再折腾源码编译了!Ubuntu 22.04 LTS下用apt-get一键部署Asterisk PBX(附SIP账号配置详解)

别再折腾源码编译了!Ubuntu 22.04 LTS下用apt-get一键部署Asterisk PBX(附SIP账号配置详解) 在开源通信领域,Asterisk作为功能最强大的PBX系统之一,长期困扰初学者的不是其丰富的功能,而是复杂的编译安装过…...

CANN/GE动态输入算子样例

样例使用指导 【免费下载链接】ge GE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前…...

娱乐圈天降紫微星终结乱象,海棠山铁哥终结资源咖霸屏时代

资源咖的丧钟,已鸣。 草根王的号角,已响。一、旧秩序罪状书固化霸权三宗罪现场速写1. 资源垄断霸占赛道、包揽曝光、红利通吃2. 圈层护城出身即顶流,背景即通行证3. 劣币驱逐流水线泛滥,原创被碾压,审美被带偏 “无资源…...

3天搞定中文API大全:从菜鸟到高手的完整指南

3天搞定中文API大全:从菜鸟到高手的完整指南 嘿,开发者!你是不是经常为找一个好用的API而烦恼?项目做到一半,突然发现某个API文档全是英文,看得头大?别担心,今天我要给你介绍一个超级…...

终极Visual C++运行库修复指南:一劳永逸解决Windows软件兼容性问题

终极Visual C运行库修复指南:一劳永逸解决Windows软件兼容性问题 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist Visual C运行库修复工具是解决Windo…...

CherryPy与数据库集成:SQLAlchemy和ORM模式详解

CherryPy与数据库集成:SQLAlchemy和ORM模式详解 【免费下载链接】cherrypy CherryPy is a pythonic, object-oriented HTTP framework. https://cherrypy.dev 项目地址: https://gitcode.com/gh_mirrors/ch/cherrypy CherryPy是一个Python风格的面向对象HTTP…...

构建 AI Agent 应用商店的构想

构建 AI Agent 应用商店的构想:从“单骑救主”的工具到“生态协同”的智能枢纽关键词 AI Agent、应用商店、多Agent协作、工具调用链、Prompt工程标准化、安全沙箱、智能分发摘要 当你在凌晨2点对着一份混乱的月度财务报表焦虑时,有没有想过:…...

5分钟掌握Typora插件:从文件管理小白到高效写作达人的3步法

5分钟掌握Typora插件:从文件管理小白到高效写作达人的3步法 【免费下载链接】typora_plugin Typora plugin. Feature enhancement tool | Typora 插件,功能增强工具 项目地址: https://gitcode.com/gh_mirrors/ty/typora_plugin 你是否曾在Typora…...

SAP销售单文本处理保姆级教程:用SAVE_TEXT和READ_TEXT BAPI搞定抬头备注

SAP销售单文本处理实战指南:从业务需求到代码实现的完整闭环 销售订单处理过程中,文本信息承载着关键业务逻辑——加急标识、特殊包装要求、客户备注等非结构化数据往往决定了后续物流和财务流程的准确性。当这些信息在流转中丢失时,轻则导致…...

告别黑盒:用Python+Wireshark抓包,手把手解析CANoe FDX协议数据交互全过程

告别黑盒:用PythonWireshark抓包,手把手解析CANoe FDX协议数据交互全过程 在汽车电子和嵌入式系统开发领域,CANoe作为主流的网络仿真与分析工具,其FDX协议提供了一种强大的跨语言数据交互能力。但对于许多开发者而言,协…...

PostgreSQL数据清洗实战:用string_agg合并地址字段,我这样整理混乱的客户信息

PostgreSQL数据清洗实战:用string_agg合并地址字段,我这样整理混乱的客户信息 客户信息表中的地址字段分散是个常见痛点。想象一下:同一客户的"省"、"市"、"详细地址"分散在不同行,导出Excel时地址…...

告别I2C的龟速:用STM32的SPI接口榨干ICM20948的性能(实测对比与配置优化)

突破传感器性能瓶颈:STM32 SPI驱动ICM20948的极致优化实践 在无人机飞控、姿态解算和高频数据采集领域,传感器接口的选择往往成为系统性能的决定性因素。当开发者面对ICM20948这款集成了三轴陀螺仪、加速度计和磁力计的9轴运动传感器时,一个关…...

拆解OpenWrt的.ipk安装包:从文件结构到手动安装,彻底搞懂opkg底层逻辑

OpenWrt软件包深度解析:从.ipk结构到手动安装全指南 1. OpenWrt软件包管理机制揭秘 对于OpenWrt用户来说,opkg命令是日常管理软件包的基础工具。但当你遇到网络连接问题无法在线安装,或者需要定制修改软件包时,理解其背后的工作机…...

SleeperX:如何彻底掌控MacBook睡眠模式,让工作流程不再被打断

SleeperX:如何彻底掌控MacBook睡眠模式,让工作流程不再被打断 【免费下载链接】SleeperX MacBook prevent idle/lid sleep! Hackintosh sleep on low battery capacity. 项目地址: https://gitcode.com/gh_mirrors/sl/SleeperX 你是否曾因MacBook…...

【仅限奇点大会注册开发者获取】:Istio for AI策略模板库(含RAG路由、推理超时分级、Token流控等12个YAML黄金配置)

更多请点击: https://intelliparadigm.com 第一章:AI原生服务网格应用:2026奇点智能技术大会Istio for AI 在2026奇点智能技术大会上,Istio社区正式发布 Istio for AI —— 一个专为大模型推理、微调与多租户AI工作负载设计的服务…...

django-flask基于python实验室资产管理系统 实验室器材租赁系统

目录基于Python的实验室资产与器材租赁管理系统(Django/Flask)摘要关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!基于Python的实验室资产与器材租赁管理系统…...

UNet3+全解析:从结构创新到医学图像分割实战

1. UNet3为什么能成为医学图像分割的新标杆? 第一次看到UNet3的论文时,我正被一个肝脏CT分割项目折磨得焦头烂额。当时试过UNet、UNet、Attention UNet等各种变体,但总在一些微小病灶的边界分割上差强人意。直到把UNet3的代码跑起来&#xff…...

构建企业级日志监控:免费Syslog服务器部署方案

构建企业级日志监控:免费Syslog服务器部署方案 【免费下载链接】visualsyslog Syslog Server for Windows with a graphical user interface 项目地址: https://gitcode.com/gh_mirrors/vi/visualsyslog 在分布式系统架构中,网络设备、服务器和应…...

Python爬虫实战:手把手教你如何采集开源许可证 FAQ 文章归档!

㊗️本期内容已收录至专栏《Python爬虫实战》,持续完善知识体系与项目实战,建议先订阅收藏,后续查阅更方便~ ㊙️本期爬虫难度指数:⭐⭐ (中级) 🉐福利: 一次订阅后,专栏内的所有文章…...

从.axf到.bin:ARM Compiler 6.14链接与格式转换的隐藏细节(Keil MDK实战)

从.axf到.bin:ARM Compiler 6.14链接与格式转换的隐藏细节(Keil MDK实战) 当你在Keil MDK中点击"Build"按钮时,背后发生的远不止简单的代码翻译。对于使用STM32的嵌入式工程师而言,理解从源代码到最终烧录文…...

51单片机LCD12864显示中文,别再傻傻用字库了!手把手教你自定义取模显示任意汉字

51单片机LCD12864深度定制:从零实现任意汉字点阵显示的艺术 在嵌入式开发领域,LCD12864液晶屏因其性价比高、接口简单而广受欢迎。但当我们需要显示公司Logo、特殊符号或艺术字体时,标准中文字库的局限性就暴露无遗。本文将彻底打破这种限制&…...