当前位置：首页 > news >正文

数解 transformer 之 self attention transformer 公式整理

news 2026/5/20 11:45:15

句子长度为n；比如2048，或1024，即，一句话最多可以是1024个单词。

1, 位置编码

$E=[e_1 e_2 \cdots e_{n}]\\ e_{pos}(2i) = PE(pos, 2i) = sin(pos/10000^{2i/n})\\ e_{pos}(2i+1) =PE(pos,2i+1)=cos(pos/10000^{(2i+1)/n})\\ where\,\, pos \in \{1,2,\cdots,n\}$

可知，E是由n个列向量组成的矩阵，每个列向量表示该列号的位置编码向量。

2, 输入向量

加入本句话第一个单词的词嵌入向量是 $x_1$ , 第二个单词是 $x_2$ , 以此类推，最多是 $x_n$ .

如果句子长度不足 n个单词，则后面没有单词对应的 $x_i = \mathbf{0}$

令 $X=(x_1\,x_2\,\cdots\,x_n)$ 为句子的词嵌入编码矩阵表示，为了让单词携带位置信息，直接将每个单词的词嵌入向量上加位置编码向量：

$x_i = x_i + e_i$

矩阵表示为：

$X=X+E$

$X=(x_1+e_1 \,\,x_2+e_2\,\,\cdots\,\,x_n+e_n)$

作为第一层 self-attention 模块的输入向量。

3, 完整的一层编码器计算过程

$X=(x_1\,\,x_2\,\, \cdots\,\,x_n)$

$[q_1\,q_2\cdots\,q_n] = Q = W_qX=W_q[x_1\,\,x_2\,\,\cdots\,\,x_n]$

$[k_1\,k_2\,\cdots\,k_n]=K=W_kX=W_k[x_1\,\,x_2\,\,\cdots\,\,x_n]$

$[v_1\,v_2\,\cdots\,v_n]=V=W_vX=W_v[x_1\,\,x_2\,\,\cdots\,\,x_n]$

$\left[ \begin{array}{cccc} a_{1,1} & a_{2,1} & \cdots &a_{n,1}\\ a_{1,2} & a_{2,2} & \cdots &a_{n,2}\\ \vdots & \vdots & \ddots & \vdots\\ a_{1,n} & a_{2,n} & \cdots &a_{n,n}\\ \end{array} \right] = A =K^TQ= \left[ \begin{array}{c} k_1^T\\ k_2^T\\ \vdots\\ k_n^T\\ \end{array} \right] [q_1\,q_2\, \cdots \,q_n]$

$\left[ \begin{array}{cccc} a_{1,1}^{'} & a_{2,1}^{'} & \cdots &a_{n,1}^{'}\\ a_{1,2}^{'} & a_{2,2}^{'} & \cdots &a_{n,2}^{'}\\ \vdots & \vdots & \ddots & \vdots\\ a_{1,n}^{'} & a_{2,n}^{'} & \cdots &a_{n,n}^{'}\\ \end{array} \right] = A^{'} = \mathbf{softmax}_{column}(\mathbf{A}) = \mathbf{softmax}_{column} ( \left[ \begin{array}{cccc} a_{1,1} & a_{2,1} & \cdots &a_{n,1}\\ a_{1,2} & a_{2,2} & \cdots &a_{n,2}\\ \vdots & \vdots & \ddots & \vdots\\ a_{1,n} & a_{2,n} & \cdots &a_{n,n}\\ \end{array} \right] )$

$Y=\mathbf{V}\mathbf{A}^{'}=[v_1\,v_2\,\cdots\,v_n]\mathbf{A}^{'}$

$\mathbf{Y}=\mathbf{Y}+\mathbf{X}$

$\mathbf{Y}=normalized(\mathbf{Y})$

$\mathbf{Z} =[\mathbf{Y_1Y_2 \cdots Y_8}]$

上面是把8个multihead的输出拼接起来了。

然后经过本层的这个个feed forward neuron network：

$\mathbf{Z}=\mathbf{FFNN}(\mathbf{Z})$

$\mathbf{Y} = \mathbf{Y}+\mathbf{X}$

然后将 $\mathbf{Y}$ 送入下一层编码器，进行相同的计算过程，只是其中的 $\mathbf{W_q, W_k, W_v, FFN}$ 的权重不同而已。

4, 更多参考资料

The Illustrated Transformer – Jay Alammar – Visualizing machine learning one concept at a time.

图解Transformer（完整版）！翻译

自然语言处理Transformer模型最详细讲解（图解版）-CSDN博客

未完待续 ... ...

数解 transformer 之 self attention transformer 公式整理

1, 位置编码

2, 输入向量

3, 完整的一层编码器计算过程

4, 更多参考资料

相关文章：

数解 transformer 之 self attention transformer 公式整理

ubuntu22.04@laptop OpenCV Get Started

【Java】苍穹外卖 Day01

Ivanti Pulse Connect Secure VPN SSRF(CVE-2023-46805)漏洞

GPT-4：比ChatGPT3.5好得多，但它有多好你知道么？

测试：JMeter如何获取非json格式的响应参数

2024年刘谦魔术大揭秘，其中竟用到了约瑟夫环？

openssl3.2 - update debian12‘s default openssl to openssl3.2

VUE2和VUE3区别对比一览

Linux - updatedb 命令

云计算市场分析

前端JavaScript篇之call() 和 apply() 的区别？

Java设计模式大全：23种常见的设计模式详解（三）

汇编语言程序设计（二）十六位汇编框架、子程序与堆栈

K8S之标签的介绍和使用

网络请求库axios

程序设计语言的组成

论文精读的markdown模板——以及用obsidian阅读网页资料做笔记

LCP 30. 魔塔游戏

RCE（命令执行）知识点总结最详细

学习规划需要定期调整吗？

ComfyUI v0.21.1：最新版本发布，模型、节点、工作流与稳定性全面升级

通关NandGame组合电路后，我悟了：原来CPU设计的关键是“复用”与“延迟”

告别重影和误检：手把手教你为Apollo 7.0激光雷达数据做运动补偿

深入解析RISC-V CLINT：多核中断与定时器编程实战

双人成行2026最新官方正版免费下载 520情侣必玩一键转存永久更新（看到速转存资源随时走丢）

接触动力学与CTR-MPC在机器人操作中的应用

从Ring Bus到Mesh：聊聊Intel CPU内部那些‘堵车’与‘修路’的往事

go 链表（标准库实现）

【MATLAB源码-第439期】基于MATLAB的APSK与QAM高阶调制在Saleh非线性功放下BER和EVM性能对比