当前位置：首页 > news >正文

Transformer——decoder

news 2026/2/11 1:47:19

上一篇文章，我们介绍了encoder，这篇文章我们将要介绍decoder
Transformer-encoder

decoder结构：

在这里插入图片描述

如果看过上一篇文章的同学，肯定对decoder的结构不陌生，从上面框中可以明显的看出：

每个Decoder Block有两个Multi-Head Attention层
第一个Multi-Head Attention层采用了Masked操作，所以叫多头掩码注意力模块
第二个Multi-Head Attention就是和encoder的一样，不过他的K、V矩阵输入源来自Encoder的输出编码矩阵，而Q矩阵是由多头掩码注意力层，经过Add &Norm层之后的输出计算来的
Add &Norm，和前面encoder的一样
feed forward，它包含一个全连接层，对输入特征进行非线性变换，并产生输出。在训练过程中，Feed Forward会根据损失函数的梯度进行参数更新，以优化模型的性能。他的输入层参数和Embedding的维度一样。
Linear，是一种简单的神经网络组件，通常用于处理线性可分的问题。它包含一个全连接层和一个激活函数，对输入进行线性变换，并产生输出。与Feed Forward不同，Linear在训练过程中不会根据损失函数的梯度进行参数更新，因为它的输出取决于输入的线性组合。Linear的长度，实际上就是你词向量的种类数量。
softMax，把linear的输出做分类概率运算，算出每种词向量的概率。

这里我们详细说一下多头掩码注意力模块，其他的和encoder中都一样，就不详细介绍了。

Masked Multi-Head Attention

在下面第9点介绍多头掩码注意力
在介绍之前，我们先来说一下transformer的训练过程，网上搜了很多，没有找到谁具体讲过，所以我就借助“文心一言”来进行了询问，大概了解了这个过程，但是不能保证正确，如果有知道同学看到了，欢迎给我留言。

先有encoder的输入“你好吗”（也就是问题）和decoder的输入“好的很”（也就是答案）。
把encoder的输入“你好吗”输入encoder中，把“你好吗“转化为Embedding，然后对Embedding添加position信息，decoder也同理。
把添加了pos的Em，做成6组QKV，那么总共就是18个QKV，然后每组都送入一个注意力模块，总共有6组注意力模块，这6组就称为多头注意力模块，然后把这6组的输出经过一个conact和Linear（具体可以看上一篇文章）合并后输出，这个输出就是注意力矩阵。
把注意力矩阵经过残差链接和归一化后，放入一个Feed Forward中后再使用一次残差链接和归一化，encoder的输出就有了。
接下来我们看decoder的输入，在transformer的训练中，我们使用的是Teacher Forcing方法，我们是告诉了transformer正确的答案是什么的，也就是“好得很”。
首先decoder会把encoder的输入做成QK，然后放入一个多头注意力模块中，接下来一直到Linear的操作，和encoder的一样。
decoder中的Linear输入的方法和encoder的一样，可以参考上篇文章最后，不过linear的输出，最后是使用了softmax做分类器。从下图可以看出，Linear的输出，是和你的词向量类别有关，假设你的词向量类别有1w个，那么这里就会输出1w的类别，如下图然后使用softMax对着些输出做概率计算，就可以算出概率最大的词向量是哪个，softMax的计算，可以参考我的BP神经网络，大概方式类似于下面
假如现在经过softMax的运算后，最大概率的字是"好"，那么就把这个字和标准答案中的"好得很"对比一下，如果不是"好"字，那么就使用梯度下降法，反向去更新两个Feed forward和所有的QKV，更新完后回到decoder输入。
接下来把标准答案中的“好”直接输入到decoder的输入，下面是带有掩码的多头注意力
经过EM+pos，还有QKV后，我们把他输入了多头掩码注意力模块，这里为什么要加个掩码呢？掩码又是什么呢？我们看下面这张图
我们需要把"好"字加入到”你好吗”的后面，但是我们又不能让多头注意到“好”字后面“得很”，所以我们就需要把后面的字给遮起来，这个就是掩码。经过softMax的变化，可以看到下图
比如“好”字，后面的“得很”，都是0，说明好字只和前面的内容有关系，则接下来就是“好”字的[0.37,0.62,0,0]作为多头掩码的输出，也可以抽象的看成，是把“好”拼在了“你好吗”的后面，但是其实是“你好吗”作为QK,"好"作为V。
接下来就和上面的3一样，一直到softMax做出预测，如果是预测的不是“尼”，就反向更新梯度下降，如果是“尼”，则把“好尼”送入多头掩码中，然后把“好尼”拼在“你好吗”的后面。一直循环到softMax预测到结束标志。

Transformer——decoder

上一篇文章，我们介绍了encoder，这篇文章我们将要介绍decoder Transformer-encoder decoder结构： 如果看过上一篇文章的同学，肯定对decoder的结构不陌生，从上面框中可以明显的看出： 每个Decoder Block有两个…...

编程日记 2023/11/26 7:35:03

基于 STM32 的温度测量与控制系统设计

本文介绍了如何基于 STM32 微控制器设计一款温度测量与控制系统。首先，我们将简要介绍 STM32 微控制器的特点和能力。接下来，我们将详细讨论温度传感器的选择与接口。然后，我们将介绍如何使用 STM32 提供的开发工具和相关库来进行温度测量和控…...

编程日记 2023/11/26 7:33:02

python之pyqt专栏3-QT Designer

从前面两篇文章python之pyqt专栏1-环境搭建与python之pyqt专栏2-项目文件解析，我们对QT Designer有基础的认识。 QT Designer用来创建UI界面，保存的文件是"xxx.ui"文件，"xxx.ui"可以被pyuic转换为"xxx.py",而&…...

编程日记 2023/11/26 7:32:01

【鸿蒙应用ArkTS开发系列】- 云开发入门实战二实现省市地区三级联动地址选择器组件（下）

文章目录概述端云调用流程端侧集成AGC SDK端侧省市地区联动的地址选择器组件开发创建省市数据模型创建省市地区视图UI子组件创建页面UI视图Page文件打包测试总结概述我们在前面的课程，对云开发的入门做了介绍，以及使用一个省市地区联动的地址选择器…...

编程日记 2023/11/26 7:31:00

HCIA题目解析（1）

1、【多选题】关于动态 MAC 地址表说法正确的是？ A、通过报文中的源MAC地址学习获得的动态MAC表项会老化 B、通过查看指定动态MAC地址表项的个数，可以获取接口下通信的用户数 C、在设备重启后，之前的动态表项会丢失 D、在设备重启后&…...

编程日记 2023/11/26 7:29:59

运维高级-day02

一、编写系统服务启动脚本 RHEL6风格 1、Linux运行级别 Linux运行有七个级别级别描述 0 停机状态，系统默认运行级别不能设置为0，否则系统不能正常启动。使用init0命令，可关闭系统 1 单用户状态，此状态仅root用户可登录。用…...

编程日记 2023/11/26 7:28:58

虹科分享 | 平衡速度和优先级：为多样化的实时需求打造嵌入式网络(2)——实时通信系统的需求

现代实时应用的复杂性和需求不断增加，需要强大而可靠的通信系统。正如本系列第一部分所述，这些应用涵盖从秒到毫秒的广泛响应时间要求，它们的成功通常取决于其响应的精确时间。因此，所选的通信系统必须能够满足这些严格的时序限制…...

编程日记 2023/11/26 7:27:57

佳易王各行业收银管理系统软件，企业ERP管理软件，企业或个体定制开发软件以及软件教程资源下载总目录，持续更新，可关注收藏查阅

系统简介 1、佳易王软件功能实用、操作简单、软件绿色免安装，解压即可使用，软件已经内置数据库，不需再安装其他数据库文件。 2、佳易王软件，已经形成系列，上百款管理系统软件涵盖多个行业。 3、已为多个企业个体定制…...

编程日记 2023/11/26 7:26:56

C_4练习题

一、单项选择题（本大题共20小题，每小题2分，共40分。在每小题给出的四个备选项中选出一个正确的答案,并将所选项前的字母填写在答题纸的相应位置上。) 定义如下变量和数组： int i; int x[3][3]{1,2,3,4,5,6,7,8,9}; 则下面语句的输…...

编程日记 2023/11/26 7:25:55

自动化测试-Selenium

一. Selenium介绍 selenium 是用来做web自动化测试的框架,支持各种浏览器,各种,支持各种语言原理: 二. 元素定位 2.1 XPath 定位绝对路径: /html/head/title 相对路径以双斜杠开头,常见的相对路径定位有以下几种: <1>相对路径索引: 索引是从1开始的 <2>相…...

编程日记 2023/11/26 7:24:54

基于单片机的温湿度检测系统设计

目录摘要... 2 第一章绪论... 5 1.1 研究课题背景... 5 1.2 国内外发展概况... 7 1.3 课题研究的目的... 8 1.4 课题的研究内容及章节安排... 8 第二章温湿度检测系统控制系统的设计方案... 10 2.1 设计任务及要求... 10 2.2 温湿度检测系统总体设计方…...

编程日记 2023/11/26 7:23:53

C# 关于异常处理 try-catch语句的使用

在实际应用中，比如涉及文件读写、网络通信时，会因为文件不存在、权限不够、网络异常等原因引发异常，或者对数据库连接、查询、更新等操作，会因为连接超时、语法错误、唯一约束冲突等引发异常。看过去的代码，当进行上…...

编程日记 2023/11/26 7:21:51

【LeeCode】26.删除有序数组中的重复项

给你一个非严格递增排列的数组 nums ，请你原地删除重复出现的元素，使每个元素只出现一次 ，返回删除后数组的新长度。元素的相对顺序应该保持一致。然后返回 nums 中唯一元素的个数。考虑 nums 的唯一元素的数量为 k ，你需…...

编程日记 2023/11/26 7:20:51

1.docker create介绍 docker create命令是用于创建一个新的容器，等价于docker run -d命令，但是与docker run -d不同的是，docker create创建的容器并未实际启动，需要指定docker start命令启动。 2.docker create用法 docker create [参数] [root@centos79 ~]# docker cr…...

编程日记 2023/11/26 7:19:48

leetcode每日一题33

86.分隔链表因为对链表中的一个节点进行更换位置的操作需要知道该节点的上一个节点所以建立一个虚拟头节点 ListNode* pnew ListNode(-201,head);根据题意，我们需要找到第一个大于x或等于x的节点large 并且将第一个大于或等于x的节点large后的所有小于x的节点都…...

编程日记 2023/11/26 7:17:46

性能测试【一】：Jmeter的常用操作

性能测试【一】：Jmeter的常用操作一、使用命令行方式运行Jmeter1、为什么2、怎么用3、示例4、结果文件二、生成动态报告1、准备2、命令3、报告示例4、报告释义三、使用问题汇总推荐使用命令行运行，GUI方式会经常卡死，尤其跑稳定性一、使…...

编程日记 2023/11/26 7:16:45

【JAVA】SpringBoot + mongodb 分页、排序、动态多条件查询及事务处理

【JAVA】SpringBoot mongodb 分页、排序、动态多条件查询及事务处理 1.引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency>&…...

编程日记 2023/11/26 7:15:44

nrm安装及使用

一、介绍 nrm 是一个 Node.js 的 registry 管理工具，它允许你快速地在不同的 npm registry 之间进行切换。通过使用 nrm，你可以方便地将 npm 的 registry 切换为淘宝镜像、npm 官方镜像或者其他定制的镜像，以加快包的下载速度。nrm仓库请点击…...

编程日记 2023/11/26 7:14:42

docker报错standard init linux.go:228 exec user process caused: exec format error

1、报错使用Dockerfile自己做的服务镜像，docker run时启动失败，报错如下： standard init linux.go:228 exec user process caused: exec format error2、原因一当前服务器的CPU架构和构建镜像时的CPU架构不兼容。比如做镜像是在arm机器下…...

编程日记 2023/11/26 7:13:41

Docker 的基本概念和优势，以及在应用程序开发中的实际应用。

Docker 是一种容器化技术，它将一个应用程序及其所有依赖项打包在一起，形成一个独立的、可移植的容器。这个容器可以在任何支持 Docker 的操作系统上运行，而且具有很好的可移植性和可扩展性。以下是 Docker 的基本概念和优势： 镜像…...

编程日记 2023/11/26 7:12:40

Lombok 的 @Data 注解失效，未生成 getter/setter 方法引发的HTTP 406 错误

HTTP 状态码 406 (Not Acceptable) 和 500 (Internal Server Error) 是两类完全不同的错误，它们的含义、原因和解决方法都有显著区别。以下是详细对比： 1. HTTP 406 (Not Acceptable) 含义： 客户端请求的内容类型与服务器支持的内容类型不匹…...

编程新知 2026/2/1 20:49:03

在鸿蒙HarmonyOS 5中实现抖音风格的点赞功能

下面我将详细介绍如何使用HarmonyOS SDK在HarmonyOS 5中实现类似抖音的点赞功能，包括动画效果、数据同步和交互优化。 1. 基础点赞功能实现 1.1 创建数据模型 // VideoModel.ets export class VideoModel {id: string "";title: string ""…...

编程新知 2025/11/14 9:31:35

三体问题详解

从物理学角度，三体问题之所以不稳定，是因为三个天体在万有引力作用下相互作用，形成一个非线性耦合系统。我们可以从牛顿经典力学出发，列出具体的运动方程，并说明为何这个系统本质上是混沌的，无法得到一般解…...

编程新知 2025/10/19 5:14:05

多种风格导航菜单 HTML 实现（附源码）

下面我将为您展示 6 种不同风格的导航菜单实现，每种都包含完整 HTML、CSS 和 JavaScript 代码。 1. 简约水平导航栏 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport&qu…...

编程新知 2026/2/2 2:49:11

论文笔记——相干体技术在裂缝预测中的应用研究

目录相关地震知识补充地震数据的认识地震几何属性相干体算法定义基本原理第一代相干体技术：基于互相关的相干体技术（Correlation）第二代相干体技术：基于相似的相干体技术（Semblance）基于多道相似的相干体…...

编程新知 2026/2/7 1:51:12

基于 TAPD 进行项目管理

起因自己写了个小工具，仓库用的Github。之前在用markdown进行需求管理，现在随着功能的增加，感觉有点难以管理了，所以用TAPD这个工具进行需求、Bug管理。操作流程注册 TAPD，需要提供一个企业名新建一个项目&#…...

编程新知 2026/1/24 14:15:44

【无标题】路径问题的革命性重构：基于二维拓扑收缩色动力学模型的零点隧穿理论

路径问题的革命性重构：基于二维拓扑收缩色动力学模型的零点隧穿理论一、传统路径模型的根本缺陷在经典正方形路径问题中（图1）： mermaid graph LR A((A)) --- B((B)) B --- C((C)) C --- D((D)) D --- A A -.- C[无直接路径] B -…...

编程新知 2025/10/21 1:07:59

腾讯云V3签名

想要接入腾讯云的Api，必然先按其文档计算出所要求的签名。之前也调用过腾讯云的接口，但总是卡在签名这一步，最后放弃选择SDK，这次终于自己代码实现。可能腾讯云翻新了接口文档，现在阅读起来，清晰了很多&…...

编程新知 2026/1/24 4:39:04

消息队列系统设计与实践全解析

文章目录 🚀 消息队列系统设计与实践全解析🔍 一、消息队列选型1.1 业务场景匹配矩阵1.2 吞吐量/延迟/可靠性权衡💡 权衡决策框架 1.3 运维复杂度评估🔧 运维成本降低策略 🏗️ 二、典型架构设计2.1 分布式事务最终一致…...

编程新知 2026/2/11 1:08:17

人工智能 - 在Dify、Coze、n8n、FastGPT和RAGFlow之间做出技术选型

在Dify、Coze、n8n、FastGPT和RAGFlow之间做出技术选型。这些平台各有侧重，适用场景差异显著。下面我将从核心功能定位、典型应用场景、真实体验痛点、选型决策关键点进行拆解，并提供具体场景下的推荐方案。一、核心功能定位速览平台核心定位技术栈亮…...

编程新知 2025/8/8 13:20:37

Transformer——decoder

decoder结构：

Masked Multi-Head Attention

相关文章：

Transformer——decoder

基于 STM32 的温度测量与控制系统设计

python之pyqt专栏3-QT Designer

【鸿蒙应用ArkTS开发系列】- 云开发入门实战二实现省市地区三级联动地址选择器组件（下）

HCIA题目解析（1）

运维高级-day02

虹科分享 | 平衡速度和优先级：为多样化的实时需求打造嵌入式网络(2)——实时通信系统的需求

佳易王各行业收银管理系统软件，企业ERP管理软件，企业或个体定制开发软件以及软件教程资源下载总目录，持续更新，可关注收藏查阅

C_4练习题

自动化测试-Selenium

基于单片机的温湿度检测系统设计

C# 关于异常处理 try-catch语句的使用

【LeeCode】26.删除有序数组中的重复项

4-Docker命令之docker create

leetcode每日一题33

性能测试【一】：Jmeter的常用操作

【JAVA】SpringBoot + mongodb 分页、排序、动态多条件查询及事务处理

nrm安装及使用

docker报错standard init linux.go:228 exec user process caused: exec format error

Docker 的基本概念和优势，以及在应用程序开发中的实际应用。

Lombok 的 @Data 注解失效，未生成 getter/setter 方法引发的HTTP 406 错误

在鸿蒙HarmonyOS 5中实现抖音风格的点赞功能

三体问题详解

多种风格导航菜单 HTML 实现（附源码）

论文笔记——相干体技术在裂缝预测中的应用研究

基于 TAPD 进行项目管理

【无标题】路径问题的革命性重构：基于二维拓扑收缩色动力学模型的零点隧穿理论

腾讯云V3签名

消息队列系统设计与实践全解析

人工智能 - 在Dify、Coze、n8n、FastGPT和RAGFlow之间做出技术选型