当前位置：首页 > news >正文

Transformer的PyTorch实现之若干问题探讨（一）

news 2026/5/13 21:12:23

《Transformer的PyTorch实现》这篇博文以一个机器翻译任务非常优雅简介的阐述了Transformer结构。在阅读时存在一些小困惑，此处权当一个记录。

1.自定义数据中enc_input、dec_input及dec_output的区别

博文中给出了两对德语翻译成英语的例子：

# S: decoding input 的起始符
# E: decoding output 的结束符
# P：意为padding，如果当前句子短于本batch的最长句子，那么用这个符号填补缺失的单词
sentence = [# enc_input   dec_input    dec_output['ich mochte ein bier P','S i want a beer .', 'i want a beer . E'],['ich mochte ein cola P','S i want a coke .', 'i want a coke . E'],
]

初看会对这其中的enc_input、dec_input及dec_output三个句子的作用不太理解，此处作详细解释：
-enc_input是模型需要翻译的输入句子,
-dec_input是用于指导模型开始翻译过程的信号
-dec_output是模型训练时的目标输出，模型的目标是使其产生的输出尽可能接近dec_output，即为翻译真实标签。他们在transformer block中的位置如下：
在这里插入图片描述

在使用Transformer进行翻译的时候，需要在Encoder端输入enc_input编码的向量，在decoder端最初只输入起始符S，然后让Transformer网络预测下一个token。

我们知道Transformer架构在进行预测时，每次推理时会获得下一个token，因此推理不是并行的，需要输出多少个token，理论上就要推理多少次。那么，在训练阶段，也需要像预测那样根据之前的输出预测下一个token，然而再所引出dec_output中对应的token做损失吗？实际并不是这样，如果真是这样做，就没有办法并行训练了。

实际我认为Transformer的并行应该是有两个层次：
（1）不同batch在训练和推理时是否可以实现并行？
（2）一个batch是否能并行得把所有的token推理出来？
Tranformer在训练时实现了上述的（1）（2），而推理时（1）（2）都没有实现。Transformer的推理似乎很难实现并行，原因是如果一次性推理两句话，那么如何保证这两句话一样长？难道有一句已经结束了，另一句没有结束，需要不断的把结束符E送入继续预测下一个结束符吗？此外，Transformer在预测下一个token时必须前面的token已经预测出来了，如果第i-1个token都没有，是无法得到第i个token。因此推理的时候都是逐句话预测，逐token预测。这儿实际也是我认为是transformer结构需要改进的地方。这样才可以提高transformer的推理效率。

2.Transformer的训练流程

此处给出博文中附带的非常简洁的Transformer训练代码：

from torch import optim
from model import *model = Transformer().cuda()
model.train()
# 损失函数,忽略为0的类别不对其计算loss（因为是padding无意义）
criterion = nn.CrossEntropyLoss(ignore_index=0)
optimizer = optim.SGD(model.parameters(), lr=1e-3, momentum=0.99)# 训练开始
for epoch in range(1000):for enc_inputs, dec_inputs, dec_outputs in loader:'''enc_inputs: [batch_size, src_len] [2,5]dec_inputs: [batch_size, tgt_len] [2,6]dec_outputs: [batch_size, tgt_len] [2,6]'''enc_inputs, dec_inputs, dec_outputs = enc_inputs.cuda(), dec_inputs.cuda(), dec_outputs.cuda() # [2, 6], [2, 6], [2, 6]outputs = model(enc_inputs, dec_inputs) # outputs: [batch_size * tgt_len, tgt_vocab_size]loss = criterion(outputs, dec_outputs.view(-1))  # 将dec_outputs展平成一维张量# 更新权重optimizer.zero_grad()loss.backward()optimizer.step()print(f'Epoch [{epoch + 1}/1000], Loss: {loss.item()}')
torch.save(model, f'MyTransformer_temp.pth')

这段代码非常简洁，可以看到输入的是batch为2的样本，送入Transformer网络中直接logits算损失。Transformer在训练时实际上使用了一个策略叫teacher forcing。要解释这个策略的意义，以本博文给出的样本为例，对于输入的样本：

ich mochte ein bier

在进行训练时，当我们给出起始符S，接下来应该预测出：

那训练时，有了SI后，则应该预测出

want

那么问题来了，如I就预测错了，假如预测成了a,那么在预测want时，还应该使用Sa来预测吗？当然不是，即使预测错了，也应该用对应位置正确的tokenSI去预测下一个token，这就是teacher forcing。

那么transformer是如何实现这样一个teacher forcing的机制的呢？且听下回分解。

Transformer的PyTorch实现之若干问题探讨（一）

1.自定义数据中enc_input、dec_input及dec_output的区别

2.Transformer的训练流程

相关文章：

Transformer的PyTorch实现之若干问题探讨（一）

系统参数SystemParameters.MinimumHorizontalDragDistance

平屋顶安装光伏需要注意哪些事项？

《Git 简易速速上手小册》第7章：处理大型项目（2024 最新版）

从0开始学Docker ---Docker安装教程

嵌入式学习之Linux入门篇笔记——15，Linux编写第一个自己的命令

【C语言】SYSCALL_DEFINE3(socket, int, family, int, type, int, protocol)

C++实现鼠标点击和获取鼠标位置（编译环境visual studio 2022）

Matplotlib绘制炫酷散点图：从二维到三维，再到散点图矩阵的完整指南与实战【第58篇—python：Matplotlib绘制炫酷散点图】

Docker-Learn（一）使用Dockerfile创建Docker镜像

问题：银行账号建立以后，一般需要维护哪些设置，不包括（） #学习方法#经验分享

教授LLM思考和行动：ReAct提示词工程

FPGA_工程_按键控制的基于Rom数码管显示

WordPress Plugin HTML5 Video Player SQL注入漏洞复现(CVE-2024-1061)

【Kotlin】Kotlin基本数据类型

UDP端口探活的那些细节

拦截器配置，FeignClient根据业务规则实现微服务动态路由

预测模型：MATLAB线性回归

【人工智能】神奇的Embedding：文本变向量，大语言模型智慧密码解析(10)

Redis + Lua 实现分布式限流器

运动分析革命：如何用Kinovea将视频变成精准的教练和研究员

别再只会用点号了！Python里getattr()的5个实战骚操作，让你的代码更灵活

ChatGPT 2026安全增强套件发布：内置FIPS 140-3认证加密引擎、GDPR实时审计追踪、AI生成内容数字水印——金融/医疗行业合规上线最后窗口期

HoRain云--Lua协程

9.实战案例拆解

别再手动写Prompt了！Lovable原生AI编排引擎深度解析（附12个已验证行业工作流）

“Minwa不是滤镜，是语法”——20年数字艺术总监拆解其底层视觉语义树：从笔触熵值到文化编码层级的7阶解析模型

从FLAG_ONE_SHOT到FLAG_IMMUTABLE：深入解析Android S+版本PendingIntent的强制变革

开源的精神内核：是自由协作，还是商业公司的免费劳动力?

QSplitter实战：打造可动态调整的专业级应用界面