当前位置：首页 > news >正文

手撕Transformer -- Day7 -- Decoder

news 2026/2/9 8:23:25

手撕Transformer – Day7 – Decoder

Transformer 网络结构图

Decoder 代码

Part1 库函数

# 该板块主要是对解码器进行串接，实现得到解码器部分
# 输入为x,还没嵌入的，但是PAD好的输入，输出需要对注意力值进行线性转化和softmax，最后得到一个单维向量，长度为词库大小。
'''
# Part1 导入库函数
'''
import torch
from torch import nn
from dataset import train_dataset, de_vocab, en_vocab, de_preprocess, en_preprocess,PAD_IDX
from encoder import Encoder
from decoder_block import DecoderBlock
from emb import EmbeddingWithPosition

Part2 实现一个解码器Decoder，作为一个类

'''
# Part2 设计解码器的类
'''class Decoder(nn.Module):def __init__(self, en_vocab_size, emd_size, nums_decoder_block, head, q_k_size, v_size, f_size):super().__init__()self.nums_decoder_block=nums_decoder_block# 首先对x进行编码self.emd = EmbeddingWithPosition(vocab_size=en_vocab_size, emd_size=emd_size)# 然后输入n个编码器self.decoder_list = nn.ModuleList()for _ in range(nums_decoder_block):self.decoder_list.append(DecoderBlock(head=head, emd_size=emd_size, q_k_size=q_k_size, v_size=v_size, f_size=f_size))# 然后需要线性化和softmax,目前是(batch_size,q_sqen_len,emd)# 得到(batch_size,vocab_size)self.linear1=nn.Linear(emd_size,en_vocab_size)self.softmax=nn.Softmax(-1)def forward(self, x, encoder_z,encoder_x): # encoder_x是编码器的输入(batch_size,q_seq_len)# x(batch_size,q_sqen_len)# 首先对解码器输入的padding位置进行掩码设置。mask1=(x==PAD_IDX).unsqueeze(1) # (batch_size,1,q_seq_len)mask1.expand(-1,x.size()[1],-1)  # (batch_size,q_seq_len,q_seq_len)# 然后要对解码器的输入的上半部分也取True然后和mask1或一下(也就是符号|),注意True表示需要隐藏的位置。# 注意：torch.tril 和 torch.triu 的区别就是决定矩阵的上半部分(不包含对角线)还是下半部分(不包含对角线)置为0,diagonal=1,表示置0的区域向上移动一行mask1=mask1 | torch.triu(torch.ones(mask1.size()[-1],mask1.size()[-1]),diagonal=1).bool().unsqueeze(0).expand(mask1.size()[0],-1,-1)# 然后对编码器的mask2进行掩码设置。在交叉注意力中，Padding 掩码的区域由K 和 V 的来源决定，# 而不是由Q 的来源决定。这确保了来自Q 的查询只关注K 中有效的信息位置。mask2 = (encoder_x == PAD_IDX).unsqueeze(1) # (batch_size,1,q_seq_len)mask2.expand(-1, encoder_x.size()[1], -1) # (batch_size,1,q_seq_len)x=self.emd(x)  # (batch_size,q_sqen_len,emd)# 进入解码器output=xfor i in range(self.nums_decoder_block):output = self.decoder_list[i](output,encoder_z,mask1,mask2)# 输出进行线性层和softmaxoutput=self.linear1(output)output=self.softmax(output)return output

Part3 测试

if __name__ == '__main__':# 取2个de句子转词ID序列，输入给encoderde_tokens1, de_ids1 = de_preprocess(train_dataset[0][0])de_tokens2, de_ids2 = de_preprocess(train_dataset[1][0])# 对应2个en句子转词ID序列，再做embedding，输入给decoderen_tokens1, en_ids1 = en_preprocess(train_dataset[0][1])en_tokens2, en_ids2 = en_preprocess(train_dataset[1][1])# de句子组成batch并padding对齐if len(de_ids1) < len(de_ids2):de_ids1.extend([PAD_IDX] * (len(de_ids2) - len(de_ids1)))elif len(de_ids1) > len(de_ids2):de_ids2.extend([PAD_IDX] * (len(de_ids1) - len(de_ids2)))enc_x_batch = torch.tensor([de_ids1, de_ids2], dtype=torch.long)print('enc_x_batch batch:', enc_x_batch.size())# en句子组成batch并padding对齐if len(en_ids1) < len(en_ids2):en_ids1.extend([PAD_IDX] * (len(en_ids2) - len(en_ids1)))elif len(en_ids1) > len(en_ids2):en_ids2.extend([PAD_IDX] * (len(en_ids1) - len(en_ids2)))dec_x_batch = torch.tensor([en_ids1, en_ids2], dtype=torch.long)print('dec_x_batch batch:', dec_x_batch.size())# Encoder编码,输出每个词的编码向量enc = Encoder(vocab_size=len(de_vocab), emd_size=128, q_k_size=256, v_size=512, f_size=512, head=8, nums_encoderblock=3)enc_outputs = enc(enc_x_batch)print('encoder outputs:', enc_outputs.size())# Decoder编码,输出每个词对应下一个词的概率dec = Decoder(en_vocab_size=len(en_vocab), emd_size=128, q_k_size=256, v_size=512, f_size=512, head=8, nums_decoder_block=3)enc_outputs = dec(dec_x_batch, enc_outputs, enc_x_batch)print(enc_outputs)print('decoder outputs:', enc_outputs.size())

参考

视频讲解：transformer-带位置信息的词嵌入向量_哔哩哔哩_bilibili

github代码库：github.com

手撕Transformer -- Day7 -- Decoder

手撕Transformer – Day7 – Decoder Transformer 网络结构图目录手撕Transformer -- Day7 -- DecoderTransformer 网络结构图Decoder 代码Part1 库函数Part2 实现一个解码器Decoder，作为一个类Part3 测试参考 Transformer 网络结构 Decoder 代码 Part1 库函数…...

编程日记 2025/1/16 21:45:12

C#异步和多线程,Thread,Task和async/await关键字--12

目录一.多线程和异步的区别 1.多线程 2.异步编程多线程和异步的区别二.Thread,Task和async/await关键字的区别 1.Thread 2.Task 3.async/await 三.Thread,Task和async/await关键字的详细对比 1.Thread和Task的详细对比 2.Task 与 async/await 的配合使用 3. asy…...

编程日记 2025/1/16 21:39:02

使用分割 Mask 和 K-means 聚类获取天空的颜色

引言在计算机视觉领域，获取天空的颜色是一个常见任务，广泛应用于天气分析、环境感知和图像增强等场景。本篇博客将介绍如何通过已知的天空区域 Mask 提取天空像素，并使用 K-means 聚类分析天空颜色，最终根据颜色占比查表得到主导…...

编程日记 2025/1/16 21:37:58

145.《redis原生超详细使用》

文章目录什么是redisredis 安装启动redis数据类型redis key操作key 的增key 的查key 的改key 的删key 是否存在key 查看所有key 「设置」过期时间key 「查看」过期时间key 「移除」过期时间key 「查看」数据类型key 「匹配」符合条件的keykey 「移动」到其他数据库 redis数据类…...

编程日记 2025/1/16 21:35:56

Pytorch基础教程：从零实现手写数字分类

文章目录 1.Pytorch简介2.理解tensor2.1 一维矩阵2.2 二维矩阵2.3 三维矩阵 3.创建tensor3.1 你可以直接从一个Python列表或NumPy数组创建一个tensor：3.2 创建特定形状的tensor3.3 创建三维tensor3.4 使用随机数填充tensor3.5 指定tensor的数据类型 4.tensor基本运算…...

编程日记 2025/1/16 21:34:55

【SH】Xiaomi9刷Windows10系统研发记录、手机刷Windows系统教程、小米9重装win10系统

文章目录参考资料云盘资料软硬件环境手机解锁刷机驱动绑定账号和设备解锁手机 Mindows工具箱安装工具箱和修复下载下载安卓和woa资源包第三方Recovery 一键安装Windows准备工作创建分区安装系统效果展示Windows和Android一键互换Win切换安卓安卓切换Win 删除分区参考资料解…...

编程日记 2025/1/16 21:33:53

excel仅复制可见单元格，仅复制筛选后内容

背景我们经常需要将内容分给不同的人，做完后需要合并遇到情况如下那是因为直接选择了整列，当然不可以了。下面提供几种方法，应该都可以直接选中要复制区域然后复制，不要选中最上面的列alt;选中可见单元格正常复制&#xff…...

编程日记 2025/1/16 21:26:46

HBASE学习（一）

1.HBASE基础架构， 1.1 参考： HBase集群架构与读写优化：理解核心机制与性能提升-CSDN博客 1.2问题： 1.FLUSH对hbase的影响 2. HLog和memstore的区别 hlog中存储的是操作记录，比如写、删除。而memstor中存储的是写入…...

编程日记 2025/1/16 21:25:44

element select 绑定一个对象{}

背景： select组件的使用，适用广泛的基础单选 v-model 的值为当前被选中的 el-option 的 value 属性值。但是我们这里想绑定一个对象，一个el-option对应的对象。 <el-select v-model"state.form.modelA" …...

编程日记 2025/1/16 21:20:34

Sprint Boot教程之五十八：动态启动/停止 Kafka 监听器

Spring Boot – 动态启动/停止 Kafka 监听器当 Spring Boot 应用程序启动时，Kafka Listener 的默认行为是开始监听某个主题。但是，有些情况下我们不想在应用程序启动后立即启动它。要动态启动或停止 Kafka Listener，我们需要三种主要方法…...

编程日记 2025/1/16 21:17:22

C：JSON-C简介

介绍 JSON-C是一个用于处理JSON格式数据的C语言库，提供了一系列操作JSON数据的函数。一、json参数类型 typedef enum json_type { json_type_null, json_type_boolean, json_type_double, json_type_int, json_type_object, json_type_ar…...

编程日记 2025/1/16 21:12:14

业务幂等性技术架构体系之消息幂等深入剖析

在系统中当使用消息队列时，无论做哪种技术选型，有很多问题是无论如何也不能忽视的，如：消息必达、消息幂等等。本文以典型的RabbitMQ为例，讲解如何保证消息幂等的可实施解决方案，其他MQ选型均可参考。一、…...

编程日记 2025/1/16 21:09:10

【Go】Go Gin框架初识（一）

1. 什么是Gin框架 Gin框架：是一个由 Golang 语言开发的 web 框架，能够极大提高开发 web 应用的效率！ 1.1 什么是web框架 web框架体系图（前后端不分离）如下图所示： 从上图中我们可以发现一个Web框架最重要…...

编程日记 2025/1/16 21:06:05

2024年合肥市科普日小学组市赛第一题题解

9304：数字加密（encrypt）(1) 【问题描述】在信息科技课堂上，小肥正在思考“数字加密”实验项目。项目需要加密n个正整数，对每一个正整数x加密的规则是，将x的每一位数字都替换为x的最大数字。例如&#xff0…...

编程日记 2025/1/16 21:05:04

【MySQL实战】mysql_exporter+Prometheus+Grafana

要在Prometheus和Grafana中监控MySQL数据库，如下图： 可以使用mysql_exporter。以下是一些步骤来设置和配置这个监控环境： 1. 安装和配置Prometheus： - 下载和安装Prometheus。 - 在prometheus.yml中配置MySQL通过添加以下内…...

编程日记 2025/1/16 20:58:52

Wireshark 使用教程：网络分析从入门到精通

一、引言在网络技术的广阔领域中，网络协议分析是一项至关重要的技能。Wireshark 作为一款开源且功能强大的网络协议分析工具，被广泛应用于网络故障排查、网络安全检测以及网络协议研究等诸多方面。本文将深入且详细地介绍 Wireshark 的使用方法&#x…...

编程日记 2025/1/16 20:54:45

如何在前端给视频进行去除绿幕并替换背景？-----Vue3！！

最近在做这个这项目奇店桶装水小程序V1.3.9安装包骑手端V2.0.1小程序前端最近，我在进行前端开发时，遇到了一个难题“如何给前端的视频进行去除绿幕并替换背景”。这是一个“数字人项目”所需，我一直在冥思苦想。终于有了一个解决方法…...

编程日记 2025/1/16 20:52:43

使用中间件自动化部署java应用

为了实现你在 IntelliJ IDEA 中打包项目并通过工具推送到两个 Docker 服务器（172.168.0.1 和 172.168.0.12），并在推送后自动或手动重启容器，我们可以按照以下步骤进行操作： 在 IntelliJ IDEA 中配置 Maven 或 Gradle 打…...

编程日记 2025/1/16 20:50:41

pytorch张量分块投影示例代码

张量的投影操作背景张量投影是深度学习中常见的操作，将输入张量通过线性变换映射到另一个空间。例如： Y=W⋅X+b 其中： X: 输入张量（形状可能为 (B,M,K)，即批量维度、序列维度、特征维度）。W: 权重矩阵（(K,N)，将 K 维投影到 N 维）。b: 偏置向量（可选，(N,)）。Y:…...

编程日记 2025/1/16 20:46:36

[特殊字符] 智能合约中的数据是如何在区块链中保持一致的？

🧠 智能合约中的数据是如何在区块链中保持一致的？ 为什么所有区块链节点都能得出相同结果？合约调用这么复杂，状态真能保持一致吗？本篇带你从底层视角理解“状态一致性”的真相。一、智能合约的数据存储在哪里&#xf…...

编程新知 2025/10/25 17:23:41

【Python】 -- 趣味代码 - 小恐龙游戏

文章目录文章目录 00 小恐龙游戏程序设计框架代码结构和功能游戏流程总结01 小恐龙游戏程序设计02 百度网盘地址00 小恐龙游戏程序设计框架这段代码是一个基于 Pygame 的简易跑酷游戏的完整实现，玩家控制一个角色（龙）躲避障碍物（仙人掌和乌鸦）。以下是代码的详细介绍：…...

编程新知 2026/2/8 20:43:07

Python：操作 Excel 折叠

💖亲爱的技术爱好者们，热烈欢迎来到 Kant2048 的博客！我是 Thomas Kant，很开心能在CSDN上与你们相遇～💖 本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】 Python 操作 Excel 系列读取单元格数据按行写入设置行高和列宽自动调整行高和列宽水平…...

编程新知 2026/1/30 20:05:06

1、泄露代码示例 void X::SetApplicationBtn() {CMFCRibbonApplicationButton* pBtn GetApplicationButton();// 获取 Ribbon Bar 指针// 创建自定义按钮CCustomRibbonAppButton* pCustomButton new CCustomRibbonAppButton();pCustomButton->SetImage(IDB_BITMAP_Jdp26)…...

编程新知 2026/1/22 15:14:25

连锁超市冷库节能解决方案：如何实现超市降本增效

在连锁超市冷库运营中，高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术，实现年省电费15%-60%，且不改动原有装备、安装快捷、…...

编程新知 2025/11/30 16:55:29

RNN避坑指南：从数学推导到LSTM/GRU工业级部署实战流程

本文较长，建议点赞收藏，以免遗失。更多AI大模型应用开发学习视频及资料，尽在聚客AI学院。本文全面剖析RNN核心原理，深入讲解梯度消失/爆炸问题，并通过LSTM/GRU结构实现解决方案，提供时间序列预测和文本生成…...

编程新知 2026/1/20 17:16:46

排序算法总结（C++）

目录一、稳定性二、排序算法选择、冒泡、插入排序归并排序随机快速排序堆排序基数排序计数排序三、总结一、稳定性排序算法的稳定性是指：同样大小的样本 **（同样大小的数据）**在排序之后不会改变原始的相对次序。稳定性对基础类型对象…...

编程新知 2026/1/25 9:33:23

uniapp手机号一键登录保姆级教程（包含前端和后端）

目录前置条件创建uniapp项目并关联uniClound云空间开启一键登录模块并开通一键登录服务编写云函数并上传部署获取手机号流程(第一种) 前端直接调用云函数获取手机号（第三种）后台调用云函数获取手机号错误码常见问题前置条件手机安装有sim卡手机开启…...

编程新知 2026/1/27 2:03:36

CSS | transition 和 transform的用处和区别

省流总结： transform用于变换/变形，transition是动画控制器 transform 用来对元素进行变形，常见的操作如下，它是立即生效的样式变形属性。旋转 rotate(角度deg)、平移 translateX(像素px)、缩放 scale(倍数)、倾斜 skewX(角度…...

编程新知 2025/10/17 20:59:57

在 Spring Boot 中使用 JSP

jsp？ 好多年没用了。重新整一下还费了点时间，记录一下。项目结构： pom: <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://ww…...

编程新知 2026/2/4 11:39:13

手撕Transformer -- Day7 -- Decoder

手撕Transformer – Day7 – Decoder

Transformer 网络结构图

目录

Decoder 代码

Part1 库函数

Part2 实现一个解码器Decoder，作为一个类

Part3 测试

参考

相关文章：

手撕Transformer -- Day7 -- Decoder

C#异步和多线程,Thread,Task和async/await关键字--12

使用分割 Mask 和 K-means 聚类获取天空的颜色

145.《redis原生超详细使用》

Pytorch基础教程：从零实现手写数字分类

【SH】Xiaomi9刷Windows10系统研发记录、手机刷Windows系统教程、小米9重装win10系统

excel仅复制可见单元格，仅复制筛选后内容

HBASE学习（一）

element select 绑定一个对象{}

Sprint Boot教程之五十八：动态启动/停止 Kafka 监听器

C：JSON-C简介

业务幂等性技术架构体系之消息幂等深入剖析

【Go】Go Gin框架初识（一）

2024年合肥市科普日小学组市赛第一题题解

【MySQL实战】mysql_exporter+Prometheus+Grafana

Wireshark 使用教程：网络分析从入门到精通

如何在前端给视频进行去除绿幕并替换背景？-----Vue3！！

使用中间件自动化部署java应用

pytorch张量分块投影示例代码

Visual Studio 同一解决方案同时运行多个项目

[特殊字符] 智能合约中的数据是如何在区块链中保持一致的？

【Python】 -- 趣味代码 - 小恐龙游戏

Python：操作 Excel 折叠

MFC内存泄露

连锁超市冷库节能解决方案：如何实现超市降本增效

RNN避坑指南：从数学推导到LSTM/GRU工业级部署实战流程

排序算法总结（C++）

uniapp手机号一键登录保姆级教程（包含前端和后端）

CSS | transition 和 transform的用处和区别

在 Spring Boot 中使用 JSP