当前位置：首页 > article >正文

从零搞懂Transformer，从位置编码到自注意力，大模型的核心逻辑全拆解

article 2026/6/5 4:29:28

平时我们用ChatGPT聊天、用翻译软件做中英互译、用AI写文案甚至让AI帮忙编代码背后最核心的“功臣”都是2017年Google团队提出的Transformer模型。这个看起来复杂的模型其实打破了传统AI的局限靠着高效的计算能力和强大的语义理解能力成了现在所有大模型比如GPT、BERT的“骨架”。很多人一看到Transformer的公式、矩阵就觉得头大觉得它高深莫测、学不会。但其实它的核心逻辑特别简单说白了就是让AI像人一样看懂文字的顺序、理解文字之间的关系、精准说出生成我们想要的内容。接下来我们就从最基础的部分开始一步步拆解开用大白话简单流程图哪怕是零基础也能彻底看明白。一、先给文字“标上位置”位置编码的核心作用与原理我们先想一个简单的问题当我们读“人工智能改变世界”这句话时为什么能清楚知道“人工智能”是主语、“改变”是谓语因为我们能分清每个字的顺序知道谁在前、谁在后。但Transformer天生没有这个“本事”它处理文字时会把每个字当成独立的个体只知道每个字的意思却分不清顺序。比如输入“人工智能”和“能工智人”在Transformer眼里这两串字的“意思向量”是一样的它会误以为这两个词是同一个意思根本分不清谁对谁错。这就像我们把一堆拼图零件混在一起虽然每个零件都在但不知道它们该怎么摆就永远拼不出完整的图案。1.1 位置编码的本质给每个字一个“位置身份证” 位置编码的作用特别简单就是给句子里的每个字编一个独一无二的“位置号”让Transformer能分清谁在前、谁在后从而看懂句子的意思。Transformer用的是一种叫“正余弦位置编码”的方式它不仅能告诉模型“这个字在第几个位置”还能让模型知道“两个字之间隔了多远”这就是它的巧妙之处。正余弦位置编码的公式我们不用死记硬背简单了解一下就行变量都用大白话解释对于句子中第pos个位置的字它的偶数维度比如第0、2、4维用这个公式算PE(pos,2i)sin⁡(pos100002idmodel)PE(pos, 2i) \sin\left(\frac{pos}{10000^{\frac{2i}{d_{model}}}}\right)PE(pos,2i)sin(10000dmodel2ipos)奇数维度比如第1、3、5维用这个公式算PE(pos,2i1)cos⁡(pos100002idmodel)PE(pos, 2i1) \cos\left(\frac{pos}{10000^{\frac{2i}{d_{model}}}}\right)PE(pos,2i1)cos(10000dmodel2ipos)用大白话翻译一下每个参数完全不用怕pos就是字在句子里的位置比如“人工智能”里“人”是第0个位置“工”是第1个“智”是第2个“能”是第3个i就是每个字的“意思向量”有多少个维度我们平时说的512维就是这个意思i的范围就是0到255对应512个维度d_model就是每个字的向量总维度固定是512这是Transformer的常规设置不用特意调整sin/cos就是我们初中就学过的正弦、余弦函数作用是生成不重复的“位置号”还能让模型知道两个字之间的距离。1.2 正余弦编码的精妙之处天生知道“两个字隔多远”有人可能会问为什么不用最简单的方式直接给每个位置标1、2、3、4反而要用复杂的正弦余弦因为直接标数字有个大问题模型会误以为“位置1和位置2的差距比位置1和位置100的差距小”但实际上句子里的字“隔几个”比“具体在第几个”更重要。比如“我喜欢吃苹果”“喜欢”和“吃”是相邻的“喜欢”和“苹果”隔了一个字这种“相邻”“隔一个”的关系比它们具体在第1、2、3个位置更重要。而正弦余弦函数的特点就是能天然捕捉这种“距离关系”——通过简单的公式推导就能根据一个字的位置算出和它隔k个位置的字的编码。举个例子知道“人”第0个位置的编码也知道“隔2个位置”的编码就能直接算出“智”第022个位置的编码不用重新计算。这就意味着哪怕遇到比训练时更长的句子模型也能分清字的顺序不会乱套。1.3 位置编码的最终应用和“字的意思”结合起来位置编码不会单独用它要和“词嵌入”简单说就是把文字转换成AI能看懂的“意思向量”结合起来才能作为Transformer的输入。比如“人”的词嵌入就是AI能看懂的“人类”的意思每个字的词嵌入都是512维的和位置编码的维度一样。既然维度一样我们就把它们对应加起来比如“人”的最终输入向量 “人”的意思向量 “人”的位置编码。这样一来每个字的向量里既有“这个字是什么意思”又有“这个字在句子里的位置”AI就能同时看懂意思和顺序了。这里补充一个小细节位置编码和词嵌入的维度必须一样否则没法相加。这也是为什么它们都固定为512维的原因就是为了后续计算能顺利进行。二、翻译任务视角编码器与解码器的分工协作要想最快理解Transformer的结构最好的方式就是看它怎么翻译——比如把中文“人工智能”翻译成英文“Artificial Intelligence”。Transformer的核心就是“编码器解码器”两者分工明确就像一个翻译团队编码器负责“看懂”中文解码器负责“写出”英文。我们先看一张简单的流程图一眼就能看懂它们的配合过程渲染错误:Mermaid 渲染失败: Lexical error on line 9. Unrecognized text. ...e] subgraph 辅助工具防作弊 F[填充掩码忽略无 ----------------------^2.1 编码器读懂输入的“语义翻译官”编码器的任务很简单就是“读懂”输入的文字把它转换成AI能理解的“意思向量”。它的结构很规整由6层一样的“编码器层”叠起来层数可以调整6层是最常用的每一层都有两个核心部分多头自注意力和前馈神经网络。我们不用纠结“多头”是什么后面会讲先明白它的工作逻辑它接收经过“意思向量位置编码”后的文字通过自注意力让每个字都能“看到”句子里所有其他字比如“人”能看到“工、智、能”从而理解它们之间的关系然后再通过前馈神经网络把每个字的“意思”加工得更精准。关键一点编码器只需要处理一次输入的文字就能生成完整的“意思向量”然后把这个向量传给解码器供解码器生成翻译结果。比如翻译“人工智能”编码器只处理一次这4个字就够了不用重复计算。2.2 解码器逐字生成的“目标文写手”解码器的任务就是根据编码器给出的“意思向量”逐字生成翻译后的文字它的方式和我们写字一样只能一个字一个字写不能跳过也不能提前写后面的字这就是“自回归”。解码器和编码器结构差不多也是6层一样的“解码器层”叠起来但比编码器多了一个“编码器-解码器注意力”模块作用就是让解码器能“盯着”编码器给出的“意思向量”确保生成的文字和原文意思一致不会跑偏。我们用“人工智能→Artificial Intelligence”的例子一步步看它怎么生成第一步初始输入解码器一开始会收到一个“起始信号S”相当于告诉它“可以开始翻译了”。这时它结合编码器给出的“意思向量”就能预测出第一个英文单词“Artificial”。第二步迭代生成把“起始信号S”和刚刚生成的“Artificial”放在一起再结合编码器的“意思向量”就能预测出第二个单词“Intelligence”。第三步结束生成再把“SArtificialIntelligence”放在一起模型会预测出“结束信号”相当于告诉它“翻译完了不用再写了”。最终输出把生成的两个单词拼起来就是“Artificial Intelligence”翻译就完成了。这里要注意解码器生成的次数和翻译后的文字长度一样比如“Artificial Intelligence”是2个单词就生成2次加上起始和结束信号一共迭代4次而且每次只能生成一个单词。2.3 两个“防作弊神器”Pad Mask与Sequence Mask解码器生成文字时有两个“小工具”特别重要它们就像“防作弊神器”确保模型能正确翻译不耍小聪明。1Pad Mask解决“句子长短不一样”的问题AI训练时会一次处理很多句子比如一次处理10个但AI计算时要求所有句子的长度必须一样可现实中句子有长有短比如有的5个字有的10个字这就矛盾了。解决办法很简单设定一个“最长句子长度”比如10个字然后给短句子后面补一些无意义的“占位符P”把所有句子都补到10个字。比如“我爱人工智能”只有5个字补完就是“我爱人工智能PPPPP”。但问题来了这些“占位符”是无意义的要是模型把它当成真实文字学习就会出错。Pad Mask的作用就是告诉模型“这些是没用的不用关注”它会把对应的“关注度”设为0让模型只关注真实的文字。2Sequence Mask防止“偷看还没生成的字”解码器的规则是“用已经生成的字预测下一个字”比如预测“Intelligence”时只能看到“SArtificial”不能提前看到“Intelligence”否则就是“作弊”永远学不会正确的生成逻辑。Sequence Mask的作用就是给解码器“遮挡板”把还没生成的字挡住只让它看到已经生成的字。比如处理4个字符的输入时它会变成一个“下三角”的遮挡规则预测第一个字时只能看第一个预测第二个字时只能看前两个以此类推确保不会偷看。三、输出层的“决策器”Softmax的核心作用经过编码器和解码器的计算AI输出的还是一个512维的“意思向量”这个向量AI能懂但我们人类看不懂也没法直接用。要把它变成我们能看懂的文字比如英文单词就需要两个“小帮手”线性层和Softmax函数。简单说这个过程就是“AI内部决策→我们能看懂”的转换线性层负责“转换维度”把512维的向量转换成和“所有可能输出的单词”数量一致的向量Softmax负责“算概率”告诉AI“哪个单词最该输出”。3.1 线性层维度转换的“转换器”我们先明确一个概念“输出词表”就是AI可能输出的所有单词的集合比如做中英互译词表就是所有英文单词假设一共有10000个。线性层的作用就是把每个字的512维“意思向量”转换成10000维的向量。这个10000维的向量每个维度对应一个英文单词的“分数”分数越高说明AI越觉得这个位置应该输出这个单词。比如输入“人工智能”经过计算后“Artificial”和“Intelligence”对应的分数会特别高其他单词的分数会很低。3.2 Softmax概率转换的“决策器”线性层输出的“分数”是任意的可能是正数、负数也可能很大没法直接作为“决策依据”。Softmax的作用就是把这些分数转换成0~1之间的概率而且所有概率加起来等于1让AI能清楚“哪个单词最该选”。Softmax的公式很简单不用死记Softmax(xi)exi∑j1nexj\text{Softmax}(x_i) \frac{e^{x_i}}{\sum_{j1}^n e^{x_j}}Softmax(xi)∑j1nexjexi用大白话举个例子一下子就懂了假设线性层输出3个单词的分数“Artificial”5分、“Intelligence”4分、其他单词0分。经过Softmax计算先把每个分数变成“指数”e是自然常数约2.718e5≈148.41e4≈54.59e^01把这些指数加起来148.4154.591204用每个指数除以总和得到概率148.41÷204≈72.7%Artificial54.59÷204≈26.8%Intelligence1÷204≈0.5%其他最终AI会选概率最高的“Artificial”作为输出这就是Softmax的作用。3.3 Softmax的3个核心特性为什么非要用它有人会问为什么不用其他函数算概率非要用Softmax因为它有3个特点刚好适合AI的需求保序性分数高的单词概率也高不会颠倒顺序比如5分的单词概率一定比4分的高放大差距会把分数的差距拉大让AI的决策更果断不会出现“两个单词概率差不多不知道选哪个”的情况归一化不管分数是正、是负、多大最终概率都在0~1之间而且加起来等于1完全符合“概率”的要求。补充一个小知识点Softmax和Sigmoid容易搞混简单区分Softmax用于“二选一、多选一”比如从10000个单词里选一个所有概率加起来等于1Sigmoid用于“多选多”比如一张图里既有猫又有狗每个概率独立加起来不一定等于1。四、Transformer的灵魂自注意力机制与Q、K、V三矩阵如果说位置编码是给文字“标顺序”编码器-解码器是“分工干活”Softmax是“做决策”那么自注意力机制就是Transformer的“灵魂”。它让AI能像人一样读句子时自动关注和当前字相关的内容比如读“人”时会重点关注“工”因为它们都是“人工智能”的核心字。自注意力的逻辑特别朴素给句子里的每个字算一算它和其他所有字的关系关系近的就多关注一点关系远的就少关注一点最后把所有字的信息整合起来得到每个字的新“意思向量”。而Q、K、V三矩阵就是帮它实现这个逻辑的“工具”让它能学会“该关注谁、少关注谁”。4.1 自注意力机制的完整流程带流程图一步看懂我们还是用“人工智能”4个字举例结合简单流程图一步步看自注意力是怎么工作的全程不用复杂矩阵大白话讲透输入“人工智能”4个字的向量带位置信息计算相关性每个字和其他字的关联度比如“人”和“工”关联度高和“能”关联度低分配权重关联度高的字权重更高比如“人”的权重分配自己75%、“工”15%、“智”7%、“能”3%加权融合按权重整合所有字的信息生成新向量输出每个字的新向量都包含全句信息1第一步输入准备输入的就是我们之前说的“意思向量位置编码”后的结果一共4个字每个字512维既包含意思又包含位置。2第二步计算相关性自注意力的第一步就是算“每个字和其他字的关系近不近”。简单说就是把每个字的向量和其他所有字的向量做“匹配”匹配度高说明关系近匹配度低说明关系远。比如“人”和“工”都是“人工智能”的核心字匹配度就高比如9分“人”和“能”关系没那么近匹配度就低比如1分。这样一来就能得到一个4×4的“关系表”每个格子里的数字就是两个字的关系程度。3第三步分配权重得到“关系表”后用Softmax把这些分数转换成“权重”权重的范围是0~1而且每个字对应的所有权重加起来等于1。比如“人”的权重是[0.75, 0.15, 0.07, 0.03]意思就是处理“人”这个字时75%的注意力放在自己身上15%放在“工”身上7%放在“智”身上3%放在“能”身上。4第四步加权融合最后一步就是按权重把所有字的信息整合起来生成每个字的新向量。比如“人”的新向量就是0.75×“人”的原始向量 0.15×“工”的原始向量 0.07×“智”的原始向量 0.03×“能”的原始向量。这样一来每个字的新向量都包含了整个句子的信息关系越近的字影响越大AI就能更精准地理解每个字的意思。4.2 Q、K、V三矩阵的来历让自注意力“学会关注”刚才我们讲的是“简化版自注意力”把Q、K、V都当成了输入的“意思向量”但这种方式有个大问题没有可学习的参数AI只能按固定的方式算关系没法根据不同任务调整比如翻译和写文案需要关注的重点不一样固定的方式就不适用了。Q、K、V三矩阵就是为了解决这个问题给自注意力加上“学习能力”让AI能根据不同任务自己学会“该关注谁”。它们的来源很简单核心公式就是QXWq,KXWk,VXWvQ XW^q, \quad K XW^k, \quad V XW^vQXWq,KXWk,VXWv用大白话拆解一点都不难1Q、K、V的“出身”从输入向量生成Q、K、V都不是凭空来的都是从输入的“意思向量位置编码”也就是X通过三个“可学习的权重矩阵”Wq、Wk、Wv生成的。这三个权重矩阵一开始是随机生成的没有意义AI会在训练中不断调整直到适合当前任务。补充一个小细节这三个权重矩阵都是512×512的和输入向量的维度一样所以生成的Q、K、V也是512维的和输入维度一致后续计算才能顺利进行。2为什么权重矩阵是“可学习”的AI刚一开始这三个权重矩阵里的数字都是乱填的就像我们刚学写字时笔画都是歪的。但在训练过程中AI会根据“任务目标”比如翻译的准确率不断调整这些数字优化Q、K、V的生成逻辑。比如做翻译任务时AI会调整权重矩阵让中文“人”的Q向量能和英文“Artificial”的K向量匹配度更高做文案生成任务时会调整权重矩阵让AI更关注句子的连贯性。训练完成后这三个权重矩阵就变成了“最优配置”AI就能精准关注重点了。3Q、K、V的角色分工用“去图书馆找书”类比一看就懂很多人记不住Q、K、V各自的作用用一个生活化的场景就能分清——去图书馆找书Q查询就是你的“找书需求”比如“我要找一本人工智能入门的书”这就是Q对应AI里Q就是每个字的“查询需求”比如“人”的Q向量就是“找和我相关的字”。K键就是书架上每本书的“标签”比如“人工智能”“历史”“数学”这就是K对应AI里K就是每个字的“标签”比如“工”的K向量就是“我是‘工’和‘人’相关”。V值就是每本书的“内容”你找到符合需求的标签K后真正要读的内容就是V对应AI里V就是每个字的“核心意思”找到匹配的K后就提取V的信息整合到当前字的向量里。对应自注意力的流程就是用Q找书需求匹配K书的标签算出匹配度哪本书符合需求→ 用Softmax把匹配度变成权重哪本书该重点看→ 用权重乘以V书的内容得到整合后的信息你最终学到的内容。4.3 补充为什么要除以dk\sqrt{d_k}dk自注意力的公式里有一个容易忽略的小细节计算Q和K的匹配度后会除以一个dk\sqrt{d_k}dkd_k就是Q和K的维度这里是512。这个操作的作用是“防止数字太大导致AI学不会”。因为Q和K都是512维的它们的匹配度内积可能会变得很大比如几百、几千。这会导致Softmax的输出概率要么接近1要么接近0AI没法调整参数就会“学不会”。除以dk\sqrt{d_k}dk后能把匹配度的数值拉回合理范围AI就能正常训练了。五、写在最后Transformer的核心逻辑其实很简单总结一下Transformer的所有设计都围绕一个核心让AI看懂文字的顺序、理解文字的关系、精准生成内容。从位置编码给文字标顺序到编码器-解码器分工干活从两个掩码防止作弊到Softmax做决策再到自注意力和Q、K、V让AI学会关注重点每一步都很朴素。很多人觉得Transformer复杂其实是被公式和矩阵吓到了。剥离掉这些复杂的符号它的逻辑和我们人类理解文字、表达思想的过程很像先看清每个字的顺序再明白每个字之间的关系最后根据这些关系组织语言输出。只要吃透了位置编码、自注意力、QKV这几个核心部分就等于掌握了大模型的精髓。后续我们还可以再学多头自注意力、前馈神经网络等细节但这些都是在核心逻辑上的补充基础打牢了再学这些就很简单了。

从零搞懂Transformer，从位置编码到自注意力，大模型的核心逻辑全拆解

相关文章：

从零搞懂Transformer，从位置编码到自注意力，大模型的核心逻辑全拆解

告别繁琐！WinRAR在Win11上实现‘解压到当前文件夹’的两种终极设置方案

Electron 27 静默打印实战：从样式错乱到完美适配的完整避坑指南

dplyr和tidyr用法释

深入解析WindowResizer：Windows窗口尺寸强制调整技术的底层实现机制

如何快速上手PointNet_Pointnet2_pytorch：从零开始的完整教程

训练完就等于能用？大模型交付前必须通过的4类压力测试+12项可观测性基线（附压测报告模板）

cv_resnet101_face-detection_cvpr22papermogface环境部署教程：ModelScope Pipeline集成详解

Burpsuite插件Galaxy实战：5分钟搞定FastAPI接口的DES-CBC加解密调试

SITS2026独家解密：LLM边缘部署的7层压缩栈（含实测吞吐提升217%的INT4量化方案）

cereal与Boost序列化对比：终极迁移指南和性能基准测试

保姆级教程：用daloRADIUS Web界面搞定Radius用户管理与在线监控

大模型推理延迟飙升？3类隐蔽性指标异常正在吞噬你的SLA（附实时告警黄金阈值清单）

VMware Horizon Client安全连接失败？Fiddler HTTPS拦截惹的祸（附详细解决方案）

Microsoft on GitHub项目结构深度解析：理解微软开源战略布局

终极指南：Armeria与Spring Boot无缝整合的企业级应用开发最佳实践

复古游戏考古：如何从零开始找回消失的Flash经典

掌握PerfView：ETW与EventPipe数据模型的终极指南

通俗易懂讲透共轭梯度法（CG）

【C++原创开源】formort.h：一行头文件，实现比JS模板字符串更爽的链式拼接+响应式变量

2023年iMac 21.5寸内存与SSD升级实战指南

【轨迹预测】MTR：基于全局意图定位与局部运动精化的Transformer架构解析

5步掌握SD-PPP：Photoshop与AI绘图的无缝协作终极指南

为什么awesome-ml是数据科学家的必备工具库？

如何实战卫星轨道计算：SGP4算法库深度优化指南

支付集成的优雅革命：Yansongda Pay 如何让多平台接入变得如此简单

最强 AI Coding Agent 架构深度解构

大模型工程化成熟度测评指南（SITS2026官方适配版）：12项指标自评表+3个高危信号预警+1次免费基准评估入口

超图（iDesktop iServer10）实战：从OSGB倾斜摄影到TIF三维地形的全流程发布与加载

长芯微LDC5621完全替代AD5621，12位、缓冲电压输出DAC