当前位置：首页 > news >正文

Transformer中Decoder的计算过程及各部分维度变化

news 2026/2/9 20:32:55

在Transformer模型中，解码器的计算过程涉及多个步骤，主要包括自注意力机制、编码器-解码器注意力和前馈神经网络。以下是解码器的详细计算过程及数据维度变化：

1. 输入嵌入和位置编码

解码器的输入首先经过嵌入层和位置编码：
$\text{Input}_d = \text{Embedding}(x) + \text{PositionEncoding}(x)$

维度变化： $x$ : 输入序列的标记，维度为 $n, d_{model})$ $\text{Embedding}(x)$ : 输出维度为 $n, d_{model})$ $\text{PositionEncoding}(x)$ : 输出维度为 $n, d_{model})$

2. 自注意力机制

自注意力机制计算如下：
$\text{Input}_d W_Q, \quad K = \text{Input}_d W_K, \quad V = \text{Input}_d W_V$

这里 $W_Q, W_K, W_V$ 是参数矩阵，维度为 $d_{model}, d_k)$ ，假设 $d_k = d_{model}$ 。
维度变化： $Q, K, V$ : 输出维度为 $n, d_k)$
自注意力的计算为：
$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}} + M\right)V$
维度变化： $QK^T$ : 维度为 $(n, n)$ $\text{softmax}$ : 结果维度为 $(n, n)$ 最终输出的维度为 $n, d_v)$ （假设 $d_v = d_{model}$ ）。

3. 残差连接与层归一化

自注意力的输出与输入相加，然后进行层归一化：
$\text{Output}_d^{(l)} = \text{LayerNorm}(\text{Attention} + \text{Input}_d)$

维度变化：维度保持为 $n, d_{model})$ 。

4. 编码器-解码器注意力

接下来，解码器会对编码器的输出进行注意力计算：
$\text{Output}_d^{(l)} W_Q', \quad K' = \text{EncoderOutput} W_K', \quad V' = \text{EncoderOutput} W_V'$

这里 $W_Q', W_K', W_V'$ 的维度也是 $d_{model}, d_k)$ 。
编码器输出的维度为 $T_e, d_{model})$ 。
注意力计算为：
$\text{Attention}(Q', K', V') = \text{softmax}\left(\frac{Q'K'^T}{\sqrt{d_k}}\right)V'$
维度变化： $Q'K'^T$ : 维度为 $n, T_e)$ 最终输出的维度为 $n, d_v)$ 。
然后与自注意力的输出进行残差连接和层归一化：
$\text{Output}_d^{(l)} = \text{LayerNorm}(\text{EncoderDecoderAttention} + \text{Output}_d^{(l)})$

5. 前馈神经网络

接下来是前馈神经网络的处理：
$\text{FFN}(x) = \text{ReLU}(xW_1 + b_1)W_2 + b_2$

$W_1$ 维度为 $d_{model}, d_{ff})$ ， $W_2$ 维度为 $d_{ff}, d_{model})$ ，其中 $d_{ff}$ 是前馈层的隐藏单元数。
维度变化：输入维度为 $n, d_{model})$ 输出维度为 $n, d_{model})$ 。

6. 最终输出

在最后一步，再次进行残差连接和层归一化：
$\text{Output}_d^{(l)} = \text{LayerNorm}(\text{FFN} + \text{Output}_d^{(l)})$
接下来，解码器的最终输出通过线性层和Softmax层生成词汇表的概率分布：
$\text{Logits} = \text{Output}_d^{(l)} W_{out} + b_{out}$
$\text{Probabilities} = \text{softmax}(\text{Logits})$

维度变化： $W_{out}$ 维度为 $d_{model}, V)$ ，其中 $V$ 是词汇表的大小。 $\text{Logits}$ 的维度为 $(n, V)$ ， $\text{Probabilities}$ 的维度同样为 $(n, V)$ ，表示每个时间步上各个词汇的概率。
通过这些步骤，解码器能够生成序列的下一个标记。

Transformer中Decoder的计算过程及各部分维度变化

1. 输入嵌入和位置编码

2. 自注意力机制

3. 残差连接与层归一化

4. 编码器-解码器注意力

5. 前馈神经网络

6. 最终输出

相关文章：

Transformer中Decoder的计算过程及各部分维度变化

QT实现滑动页面组件，多页面动态切换

使用Python-docx库创建Word文档

C# 设计一个可变长度的数据通信协议编码和解码代码。

【MATLAB库函数系列】MATLAB库函数pwelch之功率谱估计的详解及实现

科技出海|百分点科技智慧政务解决方案亮相非洲展会

Prometheus 云原生 - Prometheus 数据模型、Metrics 指标类型、Exporter 相关

Qt窗口程序整理汇总

简单实现一个本地ChatGPT web服务（langchain框架）

Elasticsearch-多边形范围查询(8.x)

Kotlin Misk Web框架

【设计模式之美】【建造型】工厂模式：通过面向接口编程思路，串起业务流程

AI算法19-偏最小二乘法回归算法Partial Least Squares Regression | PLS

live555关于RTSP协议交互流程

Centos7 安装私有 Gitlab

浅谈数学模型在UGC/AIGC游戏数值配置调参中的应用(AI智能体)

第T5周：使用TensorFlow实现运动鞋品牌识别

网络编程学习之tcp

前端XMLHttpRequest、Fetch API、Axios实现文件上传、下载方法及后端Spring文件服务器处理方法

STM32智能交通监测系统教程

基于算法竞赛的c++编程（28）结构体的进阶应用

【磁盘】每天掌握一个Linux命令 - iostat

Frozen-Flask ：将 Flask 应用“冻结”为静态文件

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院查看报告小程序

C++.OpenGL （10/64）基础光照（Basic Lighting）

工业自动化时代的精准装配革新：迁移科技3D视觉系统如何重塑机器人定位装配

css3笔记（1）自用

学习STC51单片机32（芯片为STC89C52RCRC）OLED显示屏2

Android第十三次面试总结（四大组件基础）

网站指纹识别