当前位置：首页 > article >正文

第二章Transformer架构解析(下)

article 2026/4/23 18:34:26

第二章 Transformer架构解析(下)在进入最关键的Attention之前我们回顾一下上一个章节的内容学到的概念核心作用Tokenization文字 → TokenEmbeddingToken → 向量Positional Encoding给向量添加位置信息LayerNorm Softmax层归一化缩放数字变概率分布神经网络层FFN非线性变换理解消化信息2.4 Attention注意力机制2.4.1 线性变换在理解 Attention 之前我们需要先复习一下关于线性变换的知识。这部分看似数学其实非常直观也是整个 Attention 机制的 “起点”。你可以把线性变换理解成一句话把一组向量通过一个可学习的矩阵投影到一个新的空间里让它更适合后续计算。2.4.1.1 矩阵的乘法矩阵的乘法规则[A, B] × [B, C] [A, C]两个矩阵相乘第一个矩阵的列必须等于第二个矩阵的行才能相乘相乘之后的矩阵大小为第一个矩阵的行X第二个矩阵的列示例如下2.4.1.2 矩阵的线性变换矩阵的变换满足两个条件可以称其为线性变换对任意向量 x、y 和任意数 k加完再变变完再加 T(xy)T(x)T(y)乘完再变变完再乘T(kx)kT(x)满足这两条就是线性变换。[A,B] × [B,1] [A,1]跟 Attention 有啥关系在 Transformer 里Q 输入 Wq K 输入 Wk V 输入 Wv这些全都是线性变换向量被矩阵拉伸、旋转、投影但不会弯曲、不会平移所以最后算出来的 Q、K、V 还保持着原来的线性结构方便后续做点积算相似度2.4.2 Attention的意义我们先来看一下Attention的结构2.4.2.1 Attention的内部结构input X ↓ 生成 Q, K, VLinear层通过 Wq, Wk, Wv 三个权重矩阵 ↓ MatMulQ K^T计算点积 ↓ Scale除以 √d_key缩放点积 ↓ Mask掩码防止看到下一个Token ↓ Softmax转换为概率分布 ↓ MatMul与 V 相乘加权求和 ↓ Concatenate多头合并 ↓ WoLinear层输出投影 ↓ output完整公式Attention⁡(Q,K,V)softmax⁡(QK⊤dk)V \operatorname{Attention}(Q, K, V) \operatorname{softmax}\left( \frac{Q K^\top}{\sqrt{d_k}} \right) VAttention(Q,K,V)softmax(dkQK⊤)V在第二章开头我们已经解释了Attention对于传统RNN和CNN的优势我们先熟悉一下整体流程然后再来讲解每一步的操作原理。2.4.2.2 Q、K、V是什么在实际训练中往往会同时处理多个多个句子1.股海沉浮需理性分析策略静待良机稳健获利2.编程架构严谨逻辑高效运维安全稳定性能卓越3.每日坚持读书学习积累知识拓宽眼界提升自我价值4.乘风破浪勇往直前努力奋斗梦想实现未来光明可期输入矩阵X: [batch_size, context_length, d_model]batch_size 4同时处理 4 个句子批次大小context_length 16每个句子有 16 个 token上下文长度d_model 512每个 token 用 512 维向量表示模型维度上面示例的输入形状为就是**[4,16,512]**X输入的Token向量Q、K、V都是从同一个输入X乘以对应权重矩阵得到Q X Wq K X Wk V X Wv三个权重矩阵Wq、Wk、Wv是可学习的参数在训练过程中不断调整。我们以生成Q为例X: [4, 16, 512] (batch_size, context_length, d_model) Wq: [512, 512] (d_model, d_model) Q: [4, 16, 512] (batch_size, context_length, d_model)前面我们已经介绍了矩阵乘法的规则[…, A, B] [B, C] […, A, C]所以[4, 16, 512] [512, 512] [4, 16, 512]Q、K、V 的形状和输入 X 完全相同为什么需要分成三份既然形状都一样为什么还需要三个不同的矩阵呢因为Q、K、V 承担不同的角色。QQuery查询代表我在找什么信息KKey键代表我有什么信息可以被找到VValue值代表如果被找到我提供什么内容在通过不同的权重矩阵Wq、Wk、Wv模型可以学会把同一个词转换成不同的角色在不同的语义空间中进行匹配做一个比喻角色类比作用Query (Q)读者的搜索词“我想找关于深度学习的书”Key (K)每本书的索引标签“机器学习, Python入门深度学习”Value (V)书的实际内容深度学习这本书的内容什么是QK^T我们要让 Q 的每一行和 K 的每一行做点积去计算每个Token的相似度根据矩阵乘法规则则需要将K转置Q[416,128] K^T[412816] [4, 16, 16]这里的 d_model 128 是因为在 Multi-Head Attention 中d_model 会被分成多个头。每个头的维度是 d_model d_model / num_heads 512 / 4 128。这个我们后续会再提。结果矩阵的形状是[4, 16, 16]4 个句子每个句子有一个 16×16 的注意力矩阵位置 (i, j) 表示第 i 个 token 对第 j 个 token 的关注程度我爱学习我 [ ] 爱 [ ] 学 [ ] 习 [ ]每个位置的值对应 Q 行向量和 K 列向量的点积。下一步Scale缩放操作Q K^T 的结果需要缩放Attention Scores (Q K^T) / √d_key缩放的作用当d_model很大时点积的结果也会很大点积 Σ(q_i × k_i) # 128 个数相乘再相加数值过大的后果导致softmax后概率变得极端Softmax([5, 3, 2]) ≈ [0.844, 0.114, 0.042] # 极端分布假设d_model64,缩放因子√640.125 Softmax([0.625, 0.375, 0.25]) ≈ [0.405, 0.316, 0.279] # 平滑分布一句话除以 √d_model 就是把结果数值压小让 Softmax 不那么极端梯度更稳定模型更容易训练。Mask掩码Mask 前的注意力分数矩阵我爱学习我0.90.30.10.05爱0.40.80.20.1学0.20.30.70.25习0.150.20.30.85Mask 后的注意力分数矩阵下三角掩码我爱学习我0.9-inf-inf-inf爱0.40.8-inf-inf学0.20.30.7-inf习0.150.20.30.85在Transformer的自回归生成中预测下一个Token时不能提前看到下一个Token是什么比如在预测我爱学___模型不能看到下一个Token。但是在Q K^T 时会计算所有位置的相似度因此我们需要在矩阵中遮住下一个Token。解决方法把右上角未来的位置设为负无穷-inf这样在softmax后其概率会变为0模型就不知道未来的信息了。Softmax([0.9, -inf-inf-inf]) [1.0, 0.0, 0.0, 0.0]下一步在Mask后对输出应用 Softmax得到的结果就是注意力权重矩阵每个位置应该分配多少注意力给其他位置。根据注意力公式接下来需要将得到的注意力权重矩阵乘以VOutput Attention_Weights V维度变化Attention_Weights: [4, 16, 16] (batch, context_len, context_len) V: [4, 16, 128] (batch, context_len, d_model) Output: [4, 16, 128] (batch, context_len, d_model)得到的output是什么output[i] Σ(attention_weight[i,j] × V[j])每个位置的输出所有位置的 V 的加权平均权重由注意力分数决定。output根据注意力加权组合后的向量。得到的新向量就包含了句子的语义信息在Attention之前每个Token只包含自己的语义信息和位置信息而在Attention之后每个Token还包含了该Token与其余Token的语义关系。代码实现importtorchimporttorch.nnasnnimporttorch.nn.functionalasFclassScaledDotProductAttention(nn.Module):缩放点积注意力 Mask 支持def__init__(self,dropout0.1):super().__init__()self.dropoutnn.Dropout(dropout)defforward(self,Q,K,V,maskNone): Q: [batch_size, n_heads, seq_len, d_k] K: [batch_size, n_heads, seq_len, d_k] V: [batch_size, n_heads, seq_len, d_v] mask: [batch_size, 1, seq_len, seq_len] # 掩码矩阵 # 1. 计算 Q · K^Td_kQ.size(-1)attn_scorestorch.matmul(Q,K.transpose(-2,-1))# [B, H, L, L]# 2. 缩放 1/√d_kattn_scoresattn_scores/torch.sqrt(torch.tensor(d_k,dtypetorch.float32))# 3. Mask填充-inf 屏蔽未来tokenifmaskisnotNone:attn_scoresattn_scores.masked_fill(mask0,float(- inf))# 4. Softmaxattn_weightsF.softmax(attn_scores,dim-1)# [B, H, L, L]# 5. 乘以 Voutputtorch.matmul(attn_weights,V)# [B, H, L, d_v]returnoutput,attn_weights小结Q、K、V 是 Attention 关键。Q 代表查询K 代表键V 代表值。通过 Q K^T 得到注意力权重用注意力权重对 V 加权求和得到融合了上下文信息的新矩阵。这就是 Attention 让模型理解语言的方式。完整流程X → [Wq, Wk, Wv] → Q, K, V ↓ Q K^T (相似度) ↓ 除以 √d_key (缩放) ↓ Mask (遮挡未来) ↓ Softmax (归一化) ↓ V (加权求和) ↓ Output2.4.3 多头注意力Multi-Head Attention2.4.3.1 为什么需要多头注意力单头注意力只能从一个 “视角” 捕捉 Token 间的语义关联而多头注意力让模型可以同时从多个不同的语义子空间视角学习 Token 间的关系能更全面、更精细地捕捉文本中的复杂语义信息。举个直观的例子对于句子 “苹果发布了新款手机它的价格很亲民”头 1 可能关注 “它” 和 “新款手机” 的指代关系头 2 可能关注 “苹果” 和 “发布” 的动作关联头 3 可能关注 “价格” 和 “亲民” 的属性关联。多个头的注意力互补最终融合后的结果能让模型对语义的理解更完整。2.4.3.2 多头注意力的核心逻辑多头注意力的本质是将 Q、K、V 拆分成多个子空间在每个子空间独立计算注意力最后将所有头的结果拼接并投影得到最终输出。核心步骤维度拆分将原始的 Q、K、V维度为d_model拆分为num_heads个独立的子 Q、子 K、子 V每个子空间维度为d_k d_model / num_heads需保证d_model能被num_heads整除独立计算对每个子 Q、子 K、子 V单独执行 “缩放点积注意力” 计算结果拼接将所有头的注意力输出拼接恢复到d_model维度线性投影通过一个可学习的权重矩阵W_o对拼接结果做线性变换得到最终输出。2.4.3.3 维度变化详解以经典的d_model512、num_heads8为例原始 Q/K/V[batch_size, seq_len, 512]拆分后每个头的 Q/K/V[batch_size, seq_len, 64]512/864为了并行计算通常会调整维度顺序为[batch_size, num_heads, seq_len, d_k]即[4,8,16,64]对应前文batch_size4、seq_len16每个头独立计算注意力后输出为[batch_size, 8, 16, 64]拼接后[batch_size, 16, 8×64512]最后通过W_o维度[512,512]投影输出仍为[batch_size, 16, 512]。2.4.3.4 多头的优势多视角捕捉关联不同头聚焦不同类型的语义关系指代、动作、属性等比单头更全面提升表达能力拆分到子空间后模型能学习更细粒度的语义模式避免单一空间的信息混淆保持维度兼容拼接投影后输出维度与输入一致可无缝接入后续的 FFN 层符合 Transformer 的整体架构设计。2.4.3.5 多头的优势维度单头注意力多头注意力语义视角单一视角多视角并行学习表达能力有限易丢失细粒度信息更强能捕捉复杂语义关联计算复杂度O(dmodel⋅L2)O(dmodel⋅L2)拆分后每个头计算量降低整体与单头相当训练稳定性梯度易极端多子空间分散梯度更稳定一句话总结把 QKV 分成 h 个头分头算注意力再拼回去投影让模型看得更细、更全、更准。2.4.4 残差链接Residual Connection2.4.4.1 为什么需要残差链接Transformer 的 Encoder/Decoder 层堆叠了很多层比如 BERT-base 有 12 层GPT-3 有 96 层。层数越深模型越容易出现两个致命问题梯度消失/爆炸反向传播时梯度在多层矩阵乘法中不断衰减或放大导致底层无法有效更新。模型退化Degradation层数过多时深层网络可能出现“越学越差”的情况甚至不如浅层网络效果好。残差链接就是为了解决这两个问题而设计的。2.4.4.2 残差链接的核心公式假设某一层的输入为 x该层的变换函数为 F(x)例如多头注意力或前馈网络则残差链接的输出为$$\text{Output} x F(x)$$在 Transformer 中它和层归一化Layer Normalization一起组成标准范式LayerNorm(xF(x)) \text{LayerNorm}(x F(x))LayerNorm(xF(x))2.4.4.3 Transformer 中的具体应用位置残差链接贯穿整个 Transformer 架构每一个子层都遵循这一结构Encoder 层多头自注意力层LayerNorm(x Attention(x))前馈网络层LayerNorm(x FeedForward(x))Decoder 层掩码多头自注意力层LayerNorm(x MaskedAttention(x))Encoder-Decoder 交叉注意力层LayerNorm(x CrossAttention(x, EncoderOutput))前馈网络层LayerNorm(x FeedForward(x))2.4.4.4 残差链接的作用详解缓解梯度消失让深层网络可训练残差链接提供了一条“梯度高速通道”。在反向传播时梯度可以直接通过x这条路径无损地传回底层避免了在深层网络中逐层衰减让模型可以稳定训练几十甚至上百层。解决模型退化问题残差链接允许网络在学习复杂特征的同时保留原始输入信息。如果某一层的变换F(x)效果不佳网络可以选择让F(x)趋近于 0直接通过x传递信息保证至少不会比浅层网络差。信息传递更完整直接将原始输入x加到变换后的结果上相当于给了模型一个“参考系”避免了信息在多层变换中丢失让后续层可以同时利用原始信息和新学到的特征。2.4.4.5 残差链接的 PyTorch 代码实现以多头注意力层为例残差链接的实现非常简洁importtorchimporttorch.nnasnn# 以之前的 MultiHeadAttention 类为基础classTransformerEncoderLayer(nn.Module):def__init__(self,d_model,num_heads,d_ff,dropout0.1):super().__init__()self.attnMultiHeadAttention(d_model,num_heads,dropout)self.ffnnn.Sequential(nn.Linear(d_model,d_ff),nn.ReLU(),nn.Linear(d_ff,d_model),nn.Dropout(dropout))self.norm1nn.LayerNorm(d_model)self.norm2nn.LayerNorm(d_model)self.dropoutnn.Dropout(dropout)#随机丢弃防止过拟合defforward(self,x,maskNone):# 1. 多头注意力残差链接层归一化residualx attn_out,_self.attn(x,x,x,mask)xresidualself.dropout(attn_out)xself.norm1(x)# 2. 前馈网络残差链接层归一化residualx ffn_outself.ffn(x)xresidualself.dropout(ffn_out)xself.norm2(x)returnx2.4.4.6 Dropout在代码中我们可以发现在LayerNorm之后接了一个Dropout。在神经网络有一个常见问题过拟合。过拟合是指模型在训练数据上表现很好但在新数据上表现很差。就像一个学生把所有考试题都背下来了训练数据但遇到新题就不会做测试数据模型记住了训练数据的细节而不是学到了通用的规律。而Dropout的解决方法在训练时随机丢弃一些神经元核心作用防止过拟合提升泛化能力每次训练都随机关闭不同的神经元迫使模型不依赖任何单个神经元/特征学习到更鲁棒、更通用的模式而不是死记训练数据。相当于训练了多个“子模型”的集成每次随机失活的网络结构都不一样相当于同时训练了很多不同的小网络推理时用的是所有子模型的平均效果天然带有“模型集成”的优势。降低神经元间的协同依赖防止某些神经元“过度合作”避免它们为了拟合训练数据互相形成依赖关系让每个神经元都能学到独立有用的特征。训练 vs 推理的 Dropout 差异阶段Dropout 状态行为训练启用随机失活神经元按比例缩放剩余输出推理关闭所有神经元都正常工作输出无缩放一句话总结残差链接打通梯度通道、避免网络退化Dropout 随机失活防过拟合两者配合让深层 Transformer 训练稳定又能学到通用特征。2.5 向前传播2.5.1 GTP-1 与 GTP-2架构对比这张图对比了 GPT-2 和 GPT-1 的架构。它们都是Decoder-Only架构主要区别是 LayerNorm 的位置和新增了Dropout训练稳定性大幅提升最关键的优势Post-Norm 的痛点残差相加后再做归一化梯度在反向传播时必须穿过归一化层。在深层网络中这会导致梯度被不断缩放容易出现梯度消失 / 爆炸训练时需要配合复杂的学习率预热Warmup、梯度裁剪等技巧否则很难收敛。Pre-Norm 的优势归一化仅作用于进入子层的输入残差连接的 “主干道” 完全不受归一化影响梯度可以 “无阻碍” 地从深层直接传回浅层。即使是上百层的大模型也能稳定训练对学习率的鲁棒性更强很多时候甚至不需要复杂的预热策略。深层模型更容易收敛随着模型层数增加Post-Norm 的梯度问题会被放大训练难度呈指数级上升。Pre-Norm 通过约束子层的输入分布均值为 0、方差为 1让注意力、前馈网络的计算更稳定即使堆叠几十上百层也能保证梯度正常流动这也是 GPT-3、LLaMA 等现代大模型都采用 Pre-Norm 的核心原因。3.对超参数调优更友好Post-Norm 对学习率、优化器的设置非常敏感需要大量调参才能找到合适的配置。Pre-Norm 的训练过程更 “皮实”降低了对超参数的依赖减少了训练过程中 “调参炼丹” 的成本更适合大规模模型的工程实现。2.5.2 完整的向前传播已GTP-2的架构为例input小猫爱吃 ↓ Step 1: Tokenization分词 ↓ Step 2: Word Embeddings词嵌入 ↓ Step 3: Positional Encoding位置编码 ↓ Step 4-6: N × Transformer Block(LayerNorm → Attention → Residual → LayerNorm → FFN → Residual) 推理过程 ↓ Step 7: Final Layer Norm ↓ Step 8: Linear映射词表 → Softmax → Output Probability ↓ output鱼概率最高的词本章总结Transformer 的前向传播是一个优雅的流水线输入的文字被转换成向量经过多层处理每层都包含 Attention 理解上下文、FFN 提取特征最后映射到词表得到概率分布。整个过程中维度在 Block 中保持不变都是 d_model只在最后映射时从 d_model 变成 vocab_size。“小猫爱吃”↓Step 1: Tokenization分词↓Step 2: Word Embeddings词嵌入↓Step 3: Positional Encoding位置编码↓Step 4-6: N × Transformer Block(LayerNorm → Attention → Residual → LayerNorm → FFN → Residual) 推理过程↓Step 7: Final Layer Norm↓Step 8: Linear映射词表 → Softmax → Output Probability↓output“鱼”概率最高的词------ **本章总结** **Transformer 的前向传播是一个优雅的流水线输入的文字被转换成向量经过多层处理每层都包含 Attention 理解上下文、FFN 提取特征最后映射到词表得到概率分布。整个过程中维度在 Block 中保持不变都是 d_model只在最后映射时从 d_model 变成 vocab_size。** ------ 下一章我们将用代码完整实现Transformer的传播流程。

第二章Transformer架构解析(下)

相关文章：

第二章Transformer架构解析(下)

S32K148的FlexCAN FD从零到跑通：基于S32KDS 2.2和SDK 3.0.0的保姆级配置流程

从国赛到开源：手把手教你用Arduino Mega和麦克纳姆轮复刻一个物料搬运机器人

保姆级教程：用BAPI_GOODSMVT_CREATE搞定SAP生产订单入库（101/262）与移库（411/412）

告别ST依赖：手把手教你为华大HC32L130（M0+）搭建纯净KEIL5工程（附源码）

基于FPGA的QAM调制解调：详细实验文档

三步搞定Windows网络测速：iperf3-win-builds终极指南

别再死磕谱域了！GraphSAGE和GAT的采样聚合与注意力机制，手把手教你搞定空域图卷积

当Python遇上易经：教你用Pandas分析生辰八字的五行平衡（可视化版）

从仿真到实战：如何用VPI+Matlab复现一篇光通信顶会论文的DSP算法？

RTX 4090显卡深度学习环境配置：从Anaconda到PyTorch的完整流程（Win11+CUDA11.7.0）

基于MMC储能的分布式储能系统Simulink仿真及SOC均衡控制：模型预测控制在DC-DC升...

戴尔笔记本智能散热管理：DellFanManagement开源解决方案深度解析

别再只会用Burp Suite了！手把手教你用Python写一个简单的Web Fuzzer（附完整代码）

中小企业财税合规实战：一家区域财税服务商的体系拆解

CCHP经济优化运行与多能源系统优化的MATLAB程序

别再折腾环境变量了！手把手教你用VS2019自带的Python环境一键安装pandas

5个实用技巧：用Marp打造专业级移动端演示文稿

告别Manjaro软件安装失败：从换源、yay到手动下载构建文件的完整自救手册

国产175℃随钻伽马探测器的产业生态与趋势展望

用Python的SymPy库手把手验证sinx和cosx的泰勒展开式（附代码）

Win11下Pytorch GPU环境搭建：从驱动匹配到IDE集成的完整指南

避坑指南：STM32 HAL库与标准库下CAN通信配置的10个常见错误（基于STM32F405实测）

GESP2023年6月认证C++三级( 第一部分选择题（1-8））

为什么定义常量要用 static final 修饰，final 表示不可修改，static 表示全局唯一，和在一起表示全局常量

别再只盯着通道注意力了！用HAN的层注意力模块（LAM）给你的超分模型提提神

星穹铁道跃迁记录导出工具：终极免费数据分析指南 [特殊字符]

3步搭建专业光猫配置解析平台：ZET解码器深度指南

别再只会下载程序了！J-Link在Keil MDK下的SWD仿真调试全攻略（STM32实战）

GO分层架构【2】使用GIN与GORM