当前位置: 首页 > article >正文

RMSNorm:LLM 里的归一化为什么换成了这个

本文基于昇腾CANN和昇腾NPU围绕 ops-transformer 仓库的相关技术展开。LayerNorm 在大模型里被 RMSNorm 替换了。LayerNorm 做了减均值再除方差RMSNorm 只除均方根——去掉了减均值那一步。少一次 Reduce 操作在量产推理里省掉 15-20% 的归一化时间。LayerNorm 的计算流程# LayerNorm——先算均值、再算方差、再归一化deflayer_norm(x,gamma,beta,eps1e-6): x: [batch, seq_len, hidden_dim] gamma: [hidden_dim] —— 可学习缩放 beta: [hidden_dim] —— 可学习偏移 # Step 1: 算均值——一次 Reducemeanx.mean(dim-1,keepdimTrue)# [b, s, 1]# Step 2: 算方差——二次 Reducevar((x-mean)**2).mean(dim-1,keepdimTrue)# [b, s, 1]# Step 3: 归一化x_norm(x-mean)/torch.sqrt(vareps)# 减均值再除方差# Step 4: 缩放 偏移returnx_norm*gammabeta# 每次 LayerNorm 做 2 次全张量 Reduce 1 次逐元素 Scale# hidden_dim4096 时每次需要读 4096 个值 2 次 写 1 次LayerNorm 去均值那一步在 NLP 里不是必须的——Transformer 的残差连接已经做了中心化。RMSNorm 砍掉这步只做 Scale。RMSNorm 的数学差异# RMSNorm——只除 RMS过均值defrms_norm(x,gamma,eps1e-6): x: [batch, seq_len, hidden_dim] gamma: [hidden_dim] —— 可学习缩放无 beta RMSNorm(x) x / RMS(x) * gamma RMS(x) sqrt(mean(x^2) eps) # Step 1: 算均方——只有 1 次 Reducermstorch.sqrt((x**2).mean(dim-1,keepdimTrue)eps)# [b, s, 1]# Step 2: 归一化——不做减均值直接除x_normx/rms# Step 3: 缩放——有 gamma没有 betareturnx_norm*gamma# 跟 LayerNorm 的差异# 1. 没有 mean x.mean() → 省一次全张量 Reduce# 2. 没有 x - mean → 省一次逐元素减法# 3. 没有 beta → 省一次加法# 统计上RMSNorm 收敛到跟 LayerNorm 同等精度Llama 全系列用 RMSNorm——Llama-3.1-405B 也不例外。用 RMSNorm 替代 LayerNorm 后405B 模型单次 Forward 省掉 2 次大 Tensor 操作。CANN 上的 RMSNorm 融合实现// Ascend C 实现的 RMSNorm——融合了 Pow Reduce Sqrt DivclassRMSNormKernel:publicAscendC::Kernel{__aicore__inlinevoidProcess()override{// 一次性搞清 RMSNorm 的 Tile 策略constinttile_size1024;// 每次处理 1024 维constinttiles_per_blockhidden_dim/tile_size;AscendC::LocalTensorfloatx_local;AscendC::LocalAllocfloat(x_local,tile_size);AscendC::LocalTensorfloatsq_local;AscendC::LocalAllocfloat(sq_local,tile_size);// 分 Tile 计算 x^2 并在片上做部分累加// 这样不用把所有 x 搬完再算 RMS——减少 L1⇄DDR 往返floatpartial_sum0.0f;for(intt0;ttiles_per_block;t){// 搬一个 Tile 到 L1 Bufferinttile_offsett*tile_size;AscendC::DataCopy(x_local,gm_xtile_offset,tile_size);// x^2——用了 Vec 单元的通用计算指令AscendC::Mul(sq_local,x_local,x_local);// 片上的局部 ReduceSum——不走 DDRAscendC::ReduceAdd(partial_sum,sq_local,tile_size);}// RMS sqrt(partial_sum / hidden_dim eps)floatrmssqrtf(partial_sum/hidden_dim1e-6f);floatinv_rms1.0f/rms;// 用乘法代替除法// 第二遍 Tilex * inv_rms * gammafor(intt0;ttiles_per_block;t){inttile_offsett*tile_size;AscendC::DataCopy(x_local,gm_xtile_offset,tile_size);// 加载 gamma 参数AscendC::LocalTensorfloatgamma_local;AscendC::LocalAlloc(gamma_local,tile_size);AscendC::DataCopy(gamma_local,gm_gammatile_offset,tile_size);// x / rms * gamma——一次合并完成AscendC::Mul(x_local,x_local,inv_rms);AscendC::Mul(x_local,x_local,gamma_local);// 写回AscendC::DataCopy(gm_outtile_offset,x_local,tile_size);}}};比 LayerNorm 少了一个x - mean和一个 Reduce多出来的算力可以给 Batch 里的下一个请求。实测 Llama-7B 上把 Norm 替换为 RMSNorm 后Decode 速度从 28 tok/s 提到 32 tok/s。参考仓库RMSNorm 等 Transformer 算子神经网络基础算子库

相关文章:

RMSNorm:LLM 里的归一化为什么换成了这个

本文基于昇腾CANN和昇腾NPU,围绕 ops-transformer 仓库的相关技术展开。 LayerNorm 在大模型里被 RMSNorm 替换了。LayerNorm 做了减均值再除方差,RMSNorm 只除均方根——去掉了减均值那一步。少一次 Reduce 操作,在量产推理里省掉 15-20% 的…...

AI写论文真给力!4款AI论文生成工具,开启高效论文写作模式!

AI论文写作工具评测 还在为撰写期刊论文、毕业论文或职称论文而感到烦恼吗?在人工写作的过程中,面对那海量的文献资料,犹如在茫茫大海中捞针,而那些繁琐的格式要求更是让我们无从下手,不断的修改反复消耗我们的耐心&a…...

在Node.js后端服务中集成Taotoken,实现稳定可靠的大模型功能调用

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 在Node.js后端服务中集成Taotoken,实现稳定可靠的大模型功能调用 将大模型能力集成到后端服务是现代应用开发的常见需求…...

NRF52832实战:从SYSTEM_ON到SYSTEM_OFF,手把手教你配置蓝牙低功耗(附代码避坑)

NRF52832低功耗实战:从代码优化到硬件调校的全链路指南 在嵌入式蓝牙产品开发中,低功耗设计往往是决定产品成败的关键因素。NRF52832作为Nordic Semiconductor的经典蓝牙低功耗(BLE)解决方案,其灵活的低功耗模式配置既带来了无限可能&#x…...

Java 零基础全套教程,数据结构与集合源码,笔记 168-174

Java 零基础全套教程,数据结构与集合源码,笔记 168-174 一、参考资料 【Java视频教程,java入门神器(附300道Java面试题剖析)】 https://www.bilibili.com/video/BV1PY411e7J6/?p168&share_sourcecopy_web&vd_…...

05-系统技术架构师必备——软件工程方法与UML建模体系

关键词:UML建模、Scrum、敏捷开发、软件测试、白盒测试、McCabe复杂度、瀑布模型、RUPUML 软件工程 敏捷开发 软件测试 Scrum RUP 系统架构 建模系统技术架构师必备——软件工程方法与UML建模体系 摘要 UML建模和软件工程方法是系统技术架构师与开发团队沟通的"…...

【反演】基于粒子群算法PSO进行反演附Matlab代码和报告

✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、程序设计科研仿真。🍎完整代码获取 定制创新 论文复现点击:Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f3…...

2026数字营销专业学数据分析的职业优势

一、数字营销与数据分析的融合趋势2026年数字营销领域将进一步依赖数据驱动决策。随着消费者行为数字化程度加深,企业需通过数据分析实现个性化营销、动态定价和实时优化。复合型人才需同时掌握营销策略与数据建模能力,以应对跨渠道归因、隐私安全等复杂…...

一键搞定B站视频下载:跨平台工具BilibiliDown完整使用指南

一键搞定B站视频下载:跨平台工具BilibiliDown完整使用指南 【免费下载链接】BilibiliDown (GUI-多平台支持) B站 哔哩哔哩 视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mirro…...

Topit:macOS窗口置顶的终极方案,提升多任务效率300%的必备工具

Topit:macOS窗口置顶的终极方案,提升多任务效率300%的必备工具 【免费下载链接】Topit Pin any window to the top of your screen / 在Mac上将你的任何窗口强制置顶 项目地址: https://gitcode.com/gh_mirrors/to/Topit 在macOS上工作时&#xf…...

踩坑实录:Seatunnel同步Hive到StarRocks时,数据量翻倍和中文乱码怎么破?

Seatunnel数据同步实战:破解Hive到StarRocks的三大典型问题 在数据仓库迁移和ETL流程中,Seatunnel作为一款高效的数据同步工具,已经成为许多企业技术栈中的关键组件。但当我们将Hive数据同步到StarRocks时,往往会遇到一些令人头疼…...

【混合可再生能源模拟】使用遗传算法优化光伏板和电池的容量附matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、程序设计科研仿真。🍎完整代码获取 定制创新 论文复现点击:Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f3…...

抖音无水印下载器:5分钟掌握高效批量下载的完整指南

抖音无水印下载器:5分钟掌握高效批量下载的完整指南 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support…...

STM32H743音频实战:用CubeMX和I2S驱动WM8978,从寄存器配置到代码移植避坑

STM32H743音频实战:CubeMX与I2S驱动WM8978的深度避坑指南 第一次在STM32H743上调试WM8978音频编解码器时,我盯着示波器上杂乱无章的I2S信号波形发呆了半小时。耳机里偶尔传来的爆裂声仿佛在嘲笑我的无知——这场景想必很多嵌入式音频开发者都不陌生。本文…...

专业级EdgeRemover配置指南:5种高效部署方案深度解析

专业级EdgeRemover配置指南:5种高效部署方案深度解析 【免费下载链接】EdgeRemover A PowerShell script that correctly uninstalls or reinstalls Microsoft Edge on Windows 10 & 11. 项目地址: https://gitcode.com/gh_mirrors/ed/EdgeRemover EdgeR…...

告别RGB!用HSL颜色空间在STM32上做颜色识别,为什么更准?附OV7725实战代码与调参心得

HSL颜色空间在嵌入式视觉中的实战优势:基于STM32与OV7725的鲁棒识别方案 当我们在嵌入式设备上实现颜色识别时,光照变化总是最令人头疼的问题之一。早晨、中午和傍晚的光线差异,阴影的干扰,甚至是LED频闪带来的影响,都…...

如何在Mac上免费快速导出微信聊天记录:WeChatExporter终极指南

如何在Mac上免费快速导出微信聊天记录:WeChatExporter终极指南 【免费下载链接】WeChatExporter 一个可以快速导出、查看你的微信聊天记录的工具 项目地址: https://gitcode.com/gh_mirrors/wec/WeChatExporter 你是否曾因误删重要微信聊天记录而焦虑&#x…...

别再让‘自己’说话了:用ZEGO SDK搞定RTC通话中的回声消除(附实战避坑清单)

从工单到解决方案:ZEGO SDK回声消除实战指南 1. 回声问题排查:从用户反馈到技术定位 "为什么每次通话对方都能听到自己的声音?"——这是开发者后台最常见的一类工单。不同于理论探讨,真实场景中的回声问题往往伴随着模糊…...

Node.js后端服务如何集成多模型能力并管理API成本

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 Node.js后端服务如何集成多模型能力并管理API成本 1. 场景与需求 在Node.js后端服务中集成AI对话功能,开发者通常面临…...

对比直连与通过Taotoken调用大模型API的延迟体感差异

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 对比直连与通过Taotoken调用大模型API的延迟体感差异 在集成大模型API到应用时,开发者通常会关注请求的响应速度&#…...

在Taotoken模型广场根据任务需求挑选合适模型的实践

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 在Taotoken模型广场根据任务需求挑选合适模型的实践 1. 模型广场:你的模型选型起点 当你开始一个新项目,或…...

品牌在AI搜索时代不被推荐,问题可能出在这三个地方

一个正在发生的真相越来越多的用户不再打开百度输入关键词,而是直接问DeepSeek、豆包、文心一言。对品牌而言,这意味着一件事实:用户获得答案的方式变了,但你的品牌曝光策略可能还停在原地。一个值得重视的数据是:目前…...

ShiroAttack2实战指南:从漏洞检测到内存马注入的完整揭秘

ShiroAttack2实战指南:从漏洞检测到内存马注入的完整揭秘 【免费下载链接】ShiroAttack2 shiro反序列化漏洞综合利用,包含(回显执行命令/注入内存马)修复原版中NoCC的问题 https://github.com/j1anFen/shiro_attack 项目地址: https://gitc…...

别再死记硬背了!从AMBA总线到实际芯片,深入理解Verilog仲裁器的设计哲学

从AMBA总线到芯片设计:Verilog仲裁器的工程哲学与实践 在数字芯片设计的浩瀚宇宙中,仲裁器就像交通警察,默默协调着数据洪流的通行秩序。当多个主设备同时请求访问共享资源时,这个看似简单的模块决定了谁先谁后——这个决策过程直…...

别再死记硬背真值表了!用Logsim动态仿真,直观理解RS和D触发器的工作原理

动态仿真教学:用Logsim破解RS与D触发器的核心原理 当你第一次翻开数字电路教材,看到那些密密麻麻的真值表和抽象的逻辑符号时,是否感到一阵眩晕?传统教学往往要求学生死记硬背各种触发器的状态转换规则,却很少解释这些…...

从加密狗激活到平台注册:dSPACE MicroAutoBOX II 与 MATLAB 2016b 联调实战记录

从加密狗激活到平台注册:dSPACE MicroAutoBOX II 与 MATLAB 2016b 联调实战记录 在汽车电子控制单元(ECU)开发领域,dSPACE MicroAutoBOX II 作为一款实时硬件在环(HIL)测试平台,与 MATLAB/Simul…...

Qt 5.9.1 MinGW 32位下,手把手搞定周立功CAN二次开发库的加载与配置

Qt 5.9.1 MinGW 32位环境下周立功CAN二次开发库的实战配置指南 在嵌入式开发领域,CAN总线通信一直是工业控制和汽车电子系统中的核心技术。对于使用Qt框架进行CAN通信开发的工程师来说,如何正确配置硬件厂商提供的二次开发库往往是项目起步阶段的第一道门…...

java+vue+SpringBootjava+vue+SpringBoot中小型制造企业质量管理系统(程序+数据库+报告+部署教程+答辩指导)(程序+数据库+报告+部署教程+答辩指导)

源代码数据库LW文档(1万字以上)开题报告答辩稿ppt部署教程代码讲解代码时间修改工具 技术实现 开发语言:后端:Java 前端:vue框架:springboot数据库:mysql 开发工具 JDK版本:JDK1.8 数…...

告别Typora和Vditor?在WordPress后台打造你的全能Markdown写作环境

在WordPress中构建专业级Markdown写作环境的完整指南 对于习惯使用Typora、Vditor等独立Markdown编辑器的创作者来说,WordPress后台的默认编辑器往往显得笨重且功能有限。但通过合理的插件配置和主题选择,我们完全可以在WordPress中打造一个媲美专业编辑…...

别再烧MOS管了!用STM32驱动电机,H桥自举电路设计保姆级避坑指南

STM32驱动H桥电机实战:从自举电路设计到MOS管保护全解析 现象诊断:当你的MOS管开始"发烧" 调试台上散发的焦糊味往往是硬件工程师的噩梦。上周有位开发者向我展示了他的智能小车项目——每当电机堵转时,IR2104驱动芯片周围的MOS管就…...