当前位置：首页 > news >正文

大语言模型-Transformer-Attention Is All You Need

news 2026/2/9 0:04:53

一、背景信息：

Transformer是一种由谷歌在2017年提出的深度学习模型。

主要用于自然语言处理（NLP）任务，特别是序列到序列（Sequence-to-Sequence）的学习问题，如机器翻译、文本生成等。Transformer彻底改变了之前基于循环神经网络（RNNs）和长短期记忆网络（LSTMs）的序列建模范式，并且在性能上取得了显著提升。

二、整体结构：

Transformer 由 Encoder 和 Decoder 两个部分组成，Encoder 和 Decoder 都包含 6 个 block。

Transformer 的输入
Transformer 的输入由 x的 词向量 和 位置向量 相加得到。
其中Transformer 在位置向量中保存单词在序列中的相对或绝对位置信息，位置向量由PE(Positional Encoding)表示：

eg：假设n为序列长度，d为表示向量维度，原始输入为 $X_{ori-input}$ （ $x_{1},x_{2}...x_{n} ]$ ）
则，原始输入 $X_{ori-input}$ 的词向量矩阵为 $X_{WE}$ 其维度为(n, d),
原始输入 $X_{ori-input}$ 的位置向量矩阵 $X_{PE}$ 维度也为(n, d)，
最终 Transformer 的输入矩阵 $X_{input}$ = $X_{WE}$ + $X_{PE}$ 维度也是(n, d)。

三、 Encoder

Encoder 部分由6个Encoder block 组成。
Encoder block 由Multi-Head Attention结合Add & Norm、Feed Forward结合 Add & Norm 组成。
即由下面两部分组成：
$X = LayderNorm(X_{input} + MultiHeadAttention(X_{input}))$
$X = L a y d er N or m (X + F ee d F or w or d (X))$

MultiHeadAttention部分
其中MultiHeadAttention为多个Self-Attention进行Concat后linear而成：
$X_{input} \times W_{q}$
$X_{input} \times W_{k}$
$X_{input} \times W_{v}$
$\frac{QK^{T} }{\sqrt{d_{k}} } )V$
其中， $Z_{1}....Z_{8}$ 为X_{input} 经过8个不同Self-Attention得到的结果
$X =MultiHeadAttention(X_{input} ) = Linear(Concat(Z_{1},Z_{2}....Z_{8}))$

FeedForword部分
Feed Forward 层，是一个两层的全连接层，第一层的激活函数为 Relu，第二层不使用激活函数，公式如下。

$FeedForword(X) = max(0, XW_{1} + b_{1})W_{2} + b_{2}$

四、 Decoder

Decoder 由 6个Decoder block 以及最后的一个linear组成。
Decoder block 由一个带有 Masked的Multi-Head Attention结合Add & Norm和一个Multi-Head Attention结合Add & Norm以及一个Feed Forward结合 Add & Norm 组成。

$X_{output}=X_{ouput-ori }\otimes X_{Mask}$
$X = LayderNorm(X_{output} + MaskMultiHeadAttention(X_{ouput}))$

$X = LayderNorm(X + MultiHeadAttention([X_{as Q}, EC_{as K}, EC_{as V}])$
$X_{result} = Softmax(X)$

带有 Masked的Multi-Head Attention层
其中带有 Masked的Multi-Head Attention中 $X_{ouput}$ 为Transformer 标签对应输出向量； $X_{ouput-ori}$ 需要先 $\otimes$ $X_{Mask}$ 得到 $X_{ouput}$
$X_{ouput} \times W_{q}$
$X_{ouput} \times W_{k}$
$X_{ouput} \times W_{v}$
$\frac{QK^{T} }{\sqrt{d_{k}} } \otimes X_{Mask} )V$

其中第二个 Multi-Head Attention层
Self-Attention 的 K, V矩阵使用的是根据Encoder编码的输出矩阵C计算得到 K, V； Self-Attention 的 Q矩阵是根据Decoder block中的Masked Multi-Head Attention层输出矩阵 Z 计算得到 Q。

Reference

1.Attention Is All You Need
2.Transformer模型详解（图解最完整版）
3.Self-Attention & Transformer完全指南：像Transformer的创作者一样思考

大语言模型-Transformer-Attention Is All You Need

一、背景信息：

二、整体结构：

三、 Encoder

四、 Decoder

Reference

相关文章：

大语言模型-Transformer-Attention Is All You Need

spring(二)

MAC 数据恢复软件: STELLAR Data Recovery For MAC V. 12.1 更多增强功能

初识godot游戏引擎并安装

Windows配置Qt+VLC

本地部署 mistralai/Mistral-Nemo-Instruct-2407

2月科研——arcgis计算植被差异

深入理解Android中的缓存与文件存储目录

Linux_生产消费者模型

【Vue】`v-if` 指令详解：条件渲染的高效实现

junit mockito Base基类

朋友圈运营分享干货2

linux中创建一个名为“thread1“,堆栈大小为1024，优先级为2的线程

架构以及架构中的组件

Docker启动PostgreSql并设置时间与主机同步

提升无线网络安全：用Python脚本发现并修复WiFi安全问题

#三元运算符（python/java/c）

探索Python自然语言处理的新篇章：jionlp库介绍

Deepin系统，中盛科技温湿度模块读温度纯c程序（备份）

文件包含漏洞: 函数，实例[pikachu_file_inclusion_local]

wordpress后台更新后前端没变化的解决方法

Cursor实现用excel数据填充word模版的方法

Leetcode 3576. Transform Array to All Equal Elements

《从零掌握MIPI CSI-2: 协议精解与FPGA摄像头开发实战》-- CSI-2 协议详细解析 (一）

Golang dig框架与GraphQL的完美结合

全球首个30米分辨率湿地数据集(2000—2022)

微信小程序 - 手机震动

Map相关知识

python报错No module named ‘tensorflow.keras‘

React---day11