当前位置：首页 > article >正文

Transformer 代码剖析9 - 解码器模块Decoder （pytorch实现）

article 2026/4/1 5:49:40

一、模块架构全景图

1.1 核心功能定位

Transformer解码器是序列生成任务的核心组件，负责根据编码器输出和已生成序列预测下一个目标符号。其独特的三级注意力机制架构使其在机器翻译、文本生成等任务中表现出色。下面是解码器在Transformer架构中的定位示意图：

1.2 模块流程图解

① 构造函数流程图

② 前向传播流程图

二、代码逐行精解

2.1 类定义与初始化逻辑

class Decoder(nn.Module):def __init__(self, dec_voc_size, max_len, d_model, ffn_hidden, n_head, n_layers, drop_prob, device):super().__init__()self.emb = TransformerEmbedding(d_model=d_model,drop_prob=drop_prob,max_len=max_len,vocab_size=dec_voc_size,device=device)self.layers = nn.ModuleList([DecoderLayer(d_model=d_model,ffn_hidden=ffn_hidden,n_head=n_head,drop_prob=drop_prob)for _ in range(n_layers)])self.linear = nn.Linear(d_model, dec_voc_size)

参数矩阵维度分析表

组件	维度	参数规模	作用域
TransformerEmbedding	(dec_voc_size, d_model)	V×d	词向量空间映射
DecoderLayer × N	d_model × d_model	N×(3d²+4d)	特征抽取与转换
Linear Projection	(d_model, dec_voc_size)	d×V	概率空间映射

2.2 前向传播动力学

def forward(self, trg, enc_src, trg_mask, src_mask):trg = self.emb(trg)  # 维度转换：(B,L) → (B,L,d)for layer in self.layers:trg = layer(trg, enc_src, trg_mask, src_mask)  # 特征精炼 output = self.linear(trg)  # 概率映射：(B,L,d) → (B,L,V)return output

张量变换演示

# 输入张量（batch_size=2, seq_len=3）
trg = tensor([[5, 2, 8], [3, 1, 0]])# 词嵌入输出（d_model=4）
emb_out = tensor([[[0.2, 0.5,-0.1, 0.7],[1.1,-0.3, 0.9, 0.4],[0.6, 0.8,-0.2, 1.0]],[[0.9, 0.1, 1.2,-0.5],[0.3, 0.7,-0.4, 0.8],[0.0, 0.0, 0.0, 0.0]]])# 解码层处理后的特征（示例值）
layer_out = tensor([[[0.8, 1.2,-0.5, 0.9],[1.6,-0.2, 1.3, 0.7],[0.7, 1.1, 0.1, 1.3]],[[1.2, 0.8, 0.9,-0.3],[0.5, 1.0,-0.1, 0.6],[0.2, 0.3, 0.4, 0.1]]])# 最终输出概率分布（V=10）
output = tensor([[[0.1, 0.05, ..., 0.2],  # 每个位置的概率分布 [0.3, 0.1, ..., 0.05],[0.02, 0.2, ..., 0.1]],[[0.2, 0.06, ..., 0.3],[0.1, 0.4, ..., 0.02],[0.05, 0.1, ..., 0.08]]])

三、核心子模块原理

3.1 TransformerEmbedding 实现机制

数学表达： $E = Dro p o u t (E mb e dd in g (X) + P os i t i o na lE n co d in g)$
技术特性：
- 支持最大长度max_len的位置编码
- 动态设备感知机制
- 梯度可分离的混合特征

章节跳转： TransformerEmbedding实现机制解析

3.2 DecoderLayer 解码层

三级处理机制：
1. 自注意力： 关注已生成序列
2. 交叉注意力： 关联编码器输出
3. 非线性变换： 增强特征表达能力
关键技术：
- 多头注意力并行计算
- Pre-LN结构优化
- 动态掩码机制

章节跳转： DecoderLayer 解码层

四、关键技术解析

4.1 注意力掩码机制

trg_mask = subsequent_mask(trg.size(1))  # 生成三角矩阵 
src_mask = padding_mask(src)  # 生成填充掩码

掩码矩阵可视化

# 自注意力掩码（seq_len=3）：
[[1 0 0][1 1 0][1 1 1]]# 交叉注意力掩码（源序列长度=5）：
[[1 1 1 0 0][1 1 1 0 0][1 1 1 0 0]]

4.2 层级堆叠策略

n_layers = 6  # 典型配置 
self.layers = nn.ModuleList([... for _ in range(n_layers)])

深度网络特性分析

层数	感受野	计算耗时	内存消耗
4	局部	12ms	1.2GB
6	全局	18ms	2.1GB
8	超全局	24ms	3.3GB

五、工程实践要点

5.1 设备兼容性配置

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
self.emb = TransformerEmbedding(..., device=device)

多设备支持策略

使用统一设备上下文管理器
动态张量迁移方法
混合精度训练优化

5.2 超参数调优指南

# 典型配置示例 
d_model = 512 
ffn_hidden = 2048 
n_head = 8 
n_layers = 6

参数影响系数表

参数	模型容量	训练速度	内存占用
d_model↑	+40%	-30%	+60%
n_layers↑	+25%	-20%	+45%
n_head↑	+15%	-10%	+20%

六、性能优化建议

6.1 计算图优化

# 启用PyTorch编译优化 
@torch.compile 
def forward(...):...

优化效果对比

优化方式	前向耗时	反向耗时	内存峰值
原始	22ms	35ms	4.2GB
编译优化	15ms	24ms	3.8GB

6.2 混合精度训练

# 启用自动混合精度 
scaler = torch.cuda.amp.GradScaler()
with torch.autocast(device_type='cuda'):output = decoder(...)

七、模块演进路线

7.1 版本迭代历史

版本	关键技术突破	典型应用
v1.0	基础解码架构	NMT
v2.0	动态掩码机制	GPT
v3.0	稀疏注意力	长文本生成

7.2 未来发展方向

可微分记忆增强机制
动态深度网络架构
量子化注意力计算
神经符号混合系统

原项目代码+注释(附)

"""
@author : Hyunwoong
@when : 2019-12-18
@homepage : https://github.com/gusdnd852
"""import torch
from torch import nn# 从其他模块导入DecoderLayer和TransformerEmbedding类
from models.blocks.decoder_layer import DecoderLayer
from models.embedding.transformer_embedding import TransformerEmbedding# 定义一个名为Decoder的类，它继承自nn.Module，用于实现Transformer模型的解码器部分
class Decoder(nn.Module):def __init__(self, dec_voc_size, max_len, d_model, ffn_hidden, n_head, n_layers, drop_prob, device):super().__init__()  # 调用父类nn.Module的构造函数# 初始化词嵌入层，用于将目标序列转换为向量表示self.emb = TransformerEmbedding(d_model=d_model,  # 向量维度drop_prob=drop_prob,  # Dropout概率max_len=max_len,  # 序列最大长度vocab_size=dec_voc_size,  # 目标词汇表大小device=device)  # 设备配置（CPU或GPU）# 初始化解码器层列表，包含多个DecoderLayer实例self.layers = nn.ModuleList([DecoderLayer(d_model=d_model,  # 向量维度ffn_hidden=ffn_hidden,  # 前馈神经网络隐藏层维度n_head=n_head,  # 多头注意力头数drop_prob=drop_prob)  # Dropout概率for _ in range(n_layers)])  # 解码器层数# 初始化线性层，用于将解码器输出转换为词汇表大小的概率分布self.linear = nn.Linear(d_model, dec_voc_size)def forward(self, trg, enc_src, trg_mask, src_mask):# 将目标序列trg通过词嵌入层转换为向量表示trg = self.emb(trg)# 遍历解码器层列表，将向量表示trg、编码器输出enc_src、目标序列掩码trg_mask和源序列掩码src_mask依次通过每个解码器层for layer in self.layers:trg = layer(trg, enc_src, trg_mask, src_mask)# 将解码器最后一层的输出通过线性层，转换为词汇表大小的概率分布output = self.linear(trg)# 返回输出，该输出可以用于计算损失或进行后续处理return output

参考： 项目代码

Transformer 代码剖析9 - 解码器模块Decoder （pytorch实现）

一、模块架构全景图 1.1 核心功能定位 Transformer解码器是序列生成任务的核心组件，负责根据编码器输出和已生成序列预测下一个目标符号。其独特的三级注意力机制架构使其在机器翻译、文本生成等任务中表现出色。下面是解码器在Transformer架构中的定位示意图&…...

编程日记 2025/8/8 14:38:35

JAVA八股—计算机网络（自用）

JAVA八股—计算机网络（自用） 2.7 1.介绍一下TCP/IP模型和OSI模型的区别 OSI模型是国际标准化组织(ISO)制定的一个用于计算机或通信系统间互联的标准体系，将计算机网络通信划分为七个不同的层级，每个层级都负责特定的功能。每个…...

编程日记 2025/9/9 7:36:27

unity和unity hub关系

unity和unity hub关系 Unity和Unity Hub是紧密相关但功能不同的两个软件，以下是它们的关系说明： Unity 定义：是一款专业的实时3D开发平台，广泛用于创建各种类型的3D和2D互动内容，如视频游戏、建筑可视化、汽车设计展示、虚拟现实（VR）和增强现实（AR）应用等。功能：提供…...

编程日记 2025/12/2 2:01:31

Linux的OOM机制

Linux 的 OOM（Out of Memory）机制是操作系统在内存耗尽时采取的一种保护措施。当系统内存不足，无法继续分配给进程时，Linux 内核会触发 OOM 杀手（OOM Killer），选择并终止某些进程，以…...

编程日记 2025/4/22 0:19:26

Typora的Github主题美化

[!note] Typora的Github主题进行一些自己喜欢的修改，主要包括：字体、代码块、表格样式美化前： 美化后： 一、字体更换之前便看上了「中文网字计划」的「朱雀仿宋」字体，于是一直想更换字体，奈何自己拖延症…...

编程日记 2026/3/17 14:55:41

Cursor配置MCP Server

一、什么是MCP MCP（Model Context Protocol）是由 Anthropic（ Claude 的那个公司） 推出的开放标准协议，它为开发者提供了一个强大的工具，能够在数据源和 AI 驱动工具之间建立安全的双向连接。举个好理解…...

编程日记 2026/3/30 11:29:13

定时器之输入捕获

输入捕获的作用工作机制输入捕获通过检测外部信号边沿（上升沿/下降沿）触发计数器（CNT）值锁存到捕获寄存器（CCRx），结合两次捕获值的差值计算信号时间参数。脉冲宽度测量&#x…...

编程日记 2026/3/15 1:09:50

一、uniapp 开发微信小程序框架搭建 1. 通过 vue-cli 创建 uni-ap // nodejs使用18以上的版本 nvm use 18.14.1 // 安装vue-cli npm install -g vue/cli4 // 选择默认模版 vue create -p dcloudio/uni-preset-vue plugindemo // 运行 uniapp2wxpack-cli npx uniapp2wxpack --…...

编程日记 2026/3/14 22:14:54

0005__PyTorch 教程

PyTorch 教程 | 菜鸟教程离线包：torch-1.13.1cpu-cp39-cp39-win_amd64.whl https://download.pytorch.org/whl/torch_stable.html...

编程日记 2025/8/8 3:00:05

Pikachu

一、网站搭建同样的，先下载安装好phpstudy 然后启动Apache和Mysql 然后下载pikachu，解压到phpstudy文件夹下的www文件然后用vscode打开pikachu中www文件夹下inc中的config.inc.php 将账户和密码改为和phpstudy中的一致（默认都是root&…...

编程日记 2026/3/15 14:17:49

CentOS7 使用 YUM 安装时报错：Cannot find a valid baseurl for repo: base/7/x86_64的解决方法

CentOS7 使用 YUM 安装时报错：Cannot find a valid baseurl for repo: base/7/x86_64的解决方法报错代码解决方法报错代码输入命令yum update -y时报错Cannot find a valid baseurl for repo: base/7/x86_64 解决方法有 wget 工具更换YUM源 mv /etc/yum.…...

编程日记 2026/3/15 9:48:38

ChatGPT与DeepSeek：AI语言模型的巅峰对决

目录引言一、ChatGPT 与 DeepSeek 简介 （一）ChatGPT （二）DeepSeek 二、技术原理剖析 （一）ChatGPT 技术原理 （二）DeepSeek 技术原理 （三）技术原理对比…...

编程日记 2025/8/9 2:24:46

Linux----网络通信

一、IP地址详解 （一）核心概念概念说明IP地址网络设备的唯一逻辑标识符，相当于网络世界的"门牌号"主机任何接入网络的终端设备（计算机/手机/服务器等）核心作用① 设备标识 ② 路由寻址 ③ 数据传输 &…...

编程日记 2026/3/12 16:39:39

Android逆向：一文掌握 Frida 详细使用

更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录 1. Frida 简介2. Frida 的工作原理3. 安装 Frida3.1 安装 Frida 工具3.2 安装 Frida Server4. Frida 的基本使用4.1 连接到目标设备4.2 附加到目标进程4.3 编写 Frida 脚本5. Frida 的高级用法5.1 Hook Java 方法5.2 修…...

编程日记 2025/8/8 18:23:45

AI军备竞赛2025：GPT-4.5的“情商革命”、文心4.5的开源突围与Trae的代码革命

AI军备竞赛2025：GPT-4.5的“情商革命”、文心4.5的开源突围与Trae的代码革命 ——一场重塑人类认知边界的技术战争一、OpenAI的“感性觉醒”：GPT-4.5的颠覆与争议 1.1 从“冷面学霸”到“温柔导师”：AI的情商跃迁当用户输入“朋友放鸽子&…...

编程日记 2025/8/8 3:17:31

5G网络切片辨析（eMBB，mMTC，uRLLC）

URLLC有三大应用场景，分别是eMBB（增强型移动宽带）、uRLLC（高可靠低延时通信）和mMTC（海量机器通信）。增强型移动宽带（eMBB）：需要关注峰值速率，容…...

编程日记 2025/8/8 20:18:00

【MySQL篇】数据类型

目录前言： 1，数据类型的分类编辑 2 ，数值类型 2.1 tinyint类型 2.2 bit类型 2.3 小数类型 2.3.1 float类型 2.3.2 decimal类型 3，字符串类型 3.1 char 3.2 varchar 3.3 char与varchar的比较 3.4日期和时间类型 3.5 …...

编程日记 2026/3/14 18:41:00

DockerでOracle Database 23ai FreeをセットアップしMAX_STRING_SIZEを拡張する手順

DockerでOracle Database 23c FreeをセットアップしMAX_STRING_SIZEを拡張する手順はじめに環境準備ディレクトリ作成Dockerコンテナ起動データベース設定変更コンテナ内でSQL*Plus起動PDB操作と文字列サイズ拡張設定検証管理者ユーザー作成注意事項まとめはじめに Oracle…...

编程日记 2026/3/24 11:53:45

Skynet入门（一）

概念 skynet 是一个为网络游戏服务器设计的轻量框架。但它本身并没有任何为网络游戏业务而特别设计的部分，所以尽可以把它用于其它领域。设计初衷如何充分利用它们并行运作数千个相互独立的业务。模块设计建议在 skynet 中，用服务 (service) 这…...

编程日记 2025/12/24 3:26:16

【音视频】图像基础概念

一、图像基础概念 1.1 像素像素是一个图片的基本单位，pix使英语单词pixtureelement的结合“pixel”的简称，所以像素有图像元素之意。例如2500*2000的照片就是指横向有2500个像素点，竖向有2000个像素点，总共500万个像素&#x…...

编程日记 2026/3/31 15:09:02

预训练（Pretraining）阶段为何被称为“自监督学习”（Self-Supervised Learning）？

预训练阶段为何被称为自监督学习？ 在人工智能领域，尤其是自然语言处理（NLP）和深度学习的快速发展中，预训练（Pretraining）已经成为一种不可或缺的技术手段。而其中一个重要的概念是“自监督学习…...

编程日记 2026/3/27 17:40:23

【已解决】pyodbc 5.2 [ODBC 驱动程序管理器] 未发现数据源名称并且未指定默认驱动程序

问题当升级 pyodbc 5.2 版本后，连接 sqlserver 数据库，报错如下： 连接失败: (IM002, [IM002] [Microsoft][ODBC 驱动程序管理器] 未发现数据源名称并且未指定默认驱动程序 (0) (SQLDriverConnect); [IM002] [Microsoft][ODBC 驱动程序管理…...

编程日记 2026/3/29 5:02:39

时钟树的理解

对应电脑的主板，CPU，硬盘，内存条，外设进行学习 AHB总线 -72MHZ max APB1总线 -36MHZ max APB2-72MHZ max 时序逻辑电路需要时钟线控制 ，含有记忆性的原件的存在。（只有时钟信号才能工作&…...

编程日记 2026/3/31 14:53:48

AI 实战2 - face -detect

人脸检测环境安装源设置conda 环境安装依赖库概述数据集wider_face转yolo环境依赖标注信息格式转换图片处理生成 train.txt 文件数据集展示数据集加载和处理参考文章环境安装源设置 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/f…...

编程日记 2026/1/1 6:28:55