当前位置：首页 > article >正文

RMSNorm：均方根归一化总结

article 2026/5/16 6:26:58

RMSNorm均方根归一化总结1. RMSNorm 是什么RMSNorm的全称是Root Mean Square Normalization中文可以叫均方根归一化它是 Transformer 大模型中常用的一种归一化方法例如 LLaMA、Qwen、DeepSeek、Gemma 等模型中都常见。它的核心作用是只控制向量整体尺度不改变向量的均值中心。也就是说RMSNorm 本质上不是一个神秘概念而是一个非常直接的数学操作对一个多维向量计算它的整体能量大小然后把它缩放到一个稳定尺度。2. RMSNorm 的数学公式假设一个 token 的隐藏向量是x [x1, x2, x3, ..., xd]其中d是隐藏维度xi是第i个特征分量。RMSNorm 首先计算这个向量的均方根RMS⁡(x)1d∑i1dxi2ε \operatorname{RMS}(x)\sqrt{\frac{1}{d}\sum_{i1}^{d}x_i^2\varepsilon}RMS(x)d1i1∑dxi2ε然后把每个分量除以这个 RMS 值再乘上一个可学习的缩放参数yixiRMS⁡(x)⋅gi y_i\frac{x_i}{\operatorname{RMS}(x)}\cdot g_iyiRMS(x)xi⋅gi其中x_i输入向量的第i个分量d隐藏向量维度ε防止除零的小常数g_i可学习缩放参数通常叫weight。3. 一个简单算例假设输入向量是x [3, 4]它的 RMS 是RMS sqrt((3^2 4^2) / 2) sqrt(25 / 2) ≈ 3.535所以归一化之后x_norm [3 / 3.535, 4 / 3.535] ≈ [0.848, 1.131]这说明 RMSNorm 做的事情是把向量整体能量拉回到一个稳定范围。它不关心这个向量的均值是多少只关心这个向量整体“有多大”。4. RMSNorm 的物理意义可以把 Transformer 中每个 token 的隐藏向量看成一个多维信号x [特征1, 特征2, 特征3, ..., 特征d]每个 token 经过 Attention、MLP、残差连接之后它的向量幅值可能变大也可能变小。比如token A 的隐藏向量整体幅值很大 token B 的隐藏向量整体幅值很小如果不做尺度控制后续的矩阵乘法、Attention score、MLP 激活都可能变得不稳定。RMSNorm 做的事情可以理解为保留向量的主要方向只重新调节向量的长度。也可以理解为原始向量方向长度 RMSNorm 主要保留方向把长度拉回合理范围所以 RMSNorm 不是在“理解语义”也不是一个复杂概念而是一个多维特征尺度控制器。5. RMSNorm 和 LayerNorm 的区别LayerNorm 的基本操作是先减均值再除标准差近似写成LayerNorm⁡(x)x−mean⁡(x)std⁡(x) \operatorname{LayerNorm}(x)\frac{x-\operatorname{mean}(x)}{\operatorname{std}(x)}LayerNorm(x)std(x)x−mean(x)RMSNorm 的基本操作是不减均值只除 RMS近似写成RMSNorm⁡(x)xRMS⁡(x) \operatorname{RMSNorm}(x)\frac{x}{\operatorname{RMS}(x)}RMSNorm(x)RMS(x)x方法是否减均值是否除尺度核心作用LayerNorm是是调整中心调整尺度RMSNorm否是只调整尺度RMSNorm 的优势否是计算更简单工程更高效6. 为什么大模型喜欢 RMSNorm6.1 计算更简单LayerNorm 通常需要计算mean variance sqrt divideRMSNorm 只需要计算平方平均 sqrt divide它少了减均值和中心化方差的步骤因此工程实现更简单计算成本也更低。6.2 适合 Transformer 的残差结构现代 Transformer 常用 Pre-Norm 结构例如x x Attention(RMSNorm(x)) x x MLP(RMSNorm(x))也就是说在进入 Attention 或 MLP 之前先对输入做尺度归一化。RMSNorm 在这里的作用是每次进入 Attention / MLP 之前把输入尺度稳定住。这样可以避免残差连接不断叠加之后隐藏向量的数值尺度失控。6.3 保留均值信息LayerNorm 会做x - mean(x)这会把向量的均值信息去掉。而 RMSNorm 不减均值只控制整体能量。所以它更像是在说我只控制你的能量不动你的整体偏置结构。在大模型中这通常已经足够稳定而且计算更省。7. Python 手写 RMSNorm下面是一个不用 PyTorch 的纯 Python 版本importmathdefrms_norm(x,weight,eps1e-6): x: 输入向量长度为 d weight: 可学习缩放参数长度为 d eps: 防止除零 dlen(x)# 1. 计算均方值mean_square0.0forvalueinx:mean_squarevalue*value mean_squaremean_square/d# 2. 计算 RMSrmsmath.sqrt(mean_squareeps)# 3. 归一化并乘可学习缩放参数y[]forxi,wiinzip(x,weight):y.append((xi/rms)*wi)returny x[3.0,4.0]weight[1.0,1.0]print(rms_norm(x,weight))输出大概是[0.8485, 1.1313]8. PyTorch 版本 RMSNormimporttorchclassRMSNorm(torch.nn.Module):def__init__(self,dim,eps1e-6):super().__init__()self.epseps self.weighttorch.nn.Parameter(torch.ones(dim))defforward(self,x):# x shape: [batch_size, seq_len, hidden_dim]# 沿最后一维 hidden_dim 计算 RMSrmstorch.sqrt(torch.mean(x*x,dim-1,keepdimTrue)self.eps)# 除以 RMS控制尺度x_normx/rms# 乘可学习缩放参数returnx_norm*self.weight输入形状一般是x: [batch_size, seq_len, hidden_dim]RMSNorm 是沿着最后一维hidden_dim做归一化。9. 从工程角度理解 RMSNorm在 Transformer 中每一层通常会有 Attention 和 MLP。如果没有归一化残差连接会不断把新的变化叠加到原来的向量上x x Attention(x) x x MLP(x)多层之后向量尺度可能越来越大或者在某些情况下变得非常不稳定。RMSNorm 插入之后就变成x x Attention(RMSNorm(x)) x x MLP(RMSNorm(x))它的作用不是改变模型结构的本质而是给每一次变换前的输入加一个尺度约束。可以把它理解为每次进入复杂变换之前先把输入向量的能量调到一个可控范围。10. 最终总结RMSNorm 的本质可以压缩成一句话对每个 token 的隐藏向量计算它的整体能量 RMS然后把向量除以这个能量让进入 Attention / MLP 之前的尺度稳定下来。它不是复杂概念也不是必须神秘化命名。从数学上看它就是多维向量的尺度归一化从物理意义上看它就是控制多维信号的整体能量从工程作用上看它就是稳定 Transformer 层间数值尺度减少训练和推理中的数值波动所以你可以把 RMSNorm 理解成一个只调长度、不强行移动中心的多维向量尺度控制器。

RMSNorm：均方根归一化总结

相关文章：

RMSNorm：均方根归一化总结

年度名场面！黄仁勋逛胡同被投喂豆汁，眉头紧锁。网友：弥补了没有喝过 XX 的遗憾

小学生如何高效通过GESP七八级

集成三相桥驱动的MCU：AiP8F7201电机控制方案解析

GESP学习，如何判断孩子是否适合跳级

6541616

探索GitHub导航菜单：平台功能、解决方案、资源及GlycemicGPT项目全揭秘

基于RK3568J核心板的隔离网闸设计：硬件选型、系统架构与工程实践

Swift集成飞书开放平台：feishu-swift SDK架构解析与实战指南

前台测试想转后台优化？这4个条件缺一不可，否则别折腾

深入解析浮点数内存存储与IEEE 754标准：从0.1+0.2≠0.3说起

Swift集成飞书生态：使用feishu-swift SDK实现高效开发

AI短剧拉片应用软件2026推荐，助力高效内容分析

DGX服务器上Spark性能优化：NUMA绑定与GPU资源精细调度实践

手机短剧拉片软件2026推荐，助力高效内容分析

为什么92%的团队在ElevenLabs多角色对话项目中3周内失败？——基于17个真实SaaS客户日志的根因分析

开源AI本地化框架py-gpt：微内核插件化架构与RAG应用实战

为什么预训练再好的VLA，在新任务上普通SFT 并不好用？CapVector给出了原因和方案

高效大语言模型优化全攻略：从量化、LoRA到推理引擎实战

Adobe-GenP 3.0深度解析：破解Adobe Creative Cloud订阅验证的技术实现

告别玄学：给STM32/CH32V的SD卡SPI驱动加上超时、重试与状态机

AI Agent Harness Engineering 的安全攻防：你的智能体如何被欺骗、劫持与利用

思源宋体TTF完全指南：7种字重免费解决中文排版难题

AI Agent交互设计新范式：基于Leader Key的可编程对话流实践

朋友学过都说好的家电清洗培训行业前景与培训内容科普解读

企业出海聘用海外员工该怎么挑选靠谱名义雇主服务商？

Minecraft服务器技能数据自动化管理：mcpskills-cli命令行工具实战指南

BallonsTranslator：3分钟搞定漫画翻译的终极AI辅助工具

Mochi语言解析：轻量级编程语言的设计原理与应用实践

使用 QLineF 从 QTransform 提取角度信息