当前位置: 首页 > news >正文

Transformer——decoder

上一篇文章,我们介绍了encoder,这篇文章我们将要介绍decoder
Transformer-encoder

decoder结构:

在这里插入图片描述

如果看过上一篇文章的同学,肯定对decoder的结构不陌生,从上面框中可以明显的看出:

  • 每个Decoder Block有两个Multi-Head Attention层

  • 第一个Multi-Head Attention层采用了Masked操作,所以叫多头掩码注意力模块

  • 第二个Multi-Head Attention就是和encoder的一样,不过他的K、V矩阵输入源来自Encoder的输出编码矩阵,而Q矩阵是由多头掩码注意力层,经过Add &Norm层之后的输出计算来的

  • Add &Norm,和前面encoder的一样

  • feed forward,它包含一个全连接层,对输入特征进行非线性变换,并产生输出。在训练过程中,Feed Forward会根据损失函数的梯度进行参数更新,以优化模型的性能。他的输入层参数和Embedding的维度一样。

  • Linear,是一种简单的神经网络组件,通常用于处理线性可分的问题。它包含一个全连接层和一个激活函数,对输入进行线性变换,并产生输出。与Feed Forward不同,Linear在训练过程中不会根据损失函数的梯度进行参数更新,因为它的输出取决于输入的线性组合。Linear的长度,实际上就是你词向量的种类数量。

  • softMax,把linear的输出做分类概率运算,算出每种词向量的概率。

这里我们详细说一下多头掩码注意力模块,其他的和encoder中都一样,就不详细介绍了。

Masked Multi-Head Attention

在下面第9点介绍多头掩码注意力
在介绍之前,我们先来说一下transformer的训练过程,网上搜了很多,没有找到谁具体讲过,所以我就借助“文心一言”来进行了询问,大概了解了这个过程,但是不能保证正确,如果有知道同学看到了,欢迎给我留言。

  1. 先有encoder的输入“你好吗”(也就是问题)和decoder的输入“好的很”(也就是答案)。

  2. 把encoder的输入“你好吗”输入encoder中,把“你好吗“转化为Embedding,然后对Embedding添加position信息,decoder也同理

  3. 把添加了pos的Em,做成6组QKV,那么总共就是18个QKV,然后每组都送入一个注意力模块,总共有6组注意力模块,这6组就称为多头注意力模块,然后把这6组的输出经过一个conact和Linear(具体可以看上一篇文章)合并后输出,这个输出就是注意力矩阵。

  4. 把注意力矩阵经过残差链接和归一化后,放入一个Feed Forward中后再使用一次残差链接和归一化,encoder的输出就有了。

  5. 接下来我们看decoder的输入,在transformer的训练中,我们使用的是Teacher Forcing方法,我们是告诉了transformer正确的答案是什么的,也就是“好得很”。

  6. 首先decoder会把encoder的输入做成QK,然后放入一个多头注意力模块中,接下来一直到Linear的操作,和encoder的一样。

  7. decoder中的Linear输入的方法和encoder的一样,可以参考上篇文章最后,不过linear的输出,最后是使用了softmax做分类器。从下图可以看出,Linear的输出,是和你的词向量类别有关,假设你的词向量类别有1w个,那么这里就会输出1w的类别,如下图在这里插入图片描述然后使用softMax对着些输出做概率计算,就可以算出概率最大的词向量是哪个,softMax的计算,可以参考我的BP神经网络,大概方式类似于下面在这里插入图片描述

  8. 假如现在经过softMax的运算后,最大概率的字是"好",那么就把这个字和标准答案中的"好得很"对比一下,如果不是"好"字,那么就使用梯度下降法,反向去更新两个Feed forward和所有的QKV,更新完后回到decoder输入。

  9. 接下来把标准答案中的“好”直接输入到decoder的输入,下面是带有掩码的多头注意力在这里插入图片描述
    经过EM+pos,还有QKV后,我们把他输入了多头掩码注意力模块,这里为什么要加个掩码呢?掩码又是什么呢?我们看下面这张图在这里插入图片描述
    我们需要把"好"字加入到”你好吗”的后面,但是我们又不能让多头注意到“好”字后面“得很”,所以我们就需要把后面的字给遮起来,这个就是掩码。经过softMax的变化,可以看到下图在这里插入图片描述
    比如“好”字,后面的“得很”,都是0,说明好字只和前面的内容有关系,则接下来就是“好”字的[0.37,0.62,0,0]作为多头掩码的输出,也可以抽象的看成,是把“好”拼在了“你好吗”的后面,但是其实是“你好吗”作为QK,"好"作为V。

  10. 接下来就和上面的3一样,一直到softMax做出预测,如果是预测的不是“尼”,就反向更新梯度下降,如果是“尼”,则把“好尼”送入多头掩码中,然后把“好尼”拼在“你好吗”的后面。一直循环到softMax预测到结束标志。

相关文章:

Transformer——decoder

上一篇文章,我们介绍了encoder,这篇文章我们将要介绍decoder Transformer-encoder decoder结构: 如果看过上一篇文章的同学,肯定对decoder的结构不陌生,从上面框中可以明显的看出: 每个Decoder Block有两个…...

基于 STM32 的温度测量与控制系统设计

本文介绍了如何基于 STM32 微控制器设计一款温度测量与控制系统。首先,我们将简要介绍 STM32 微控制器的特点和能力。接下来,我们将详细讨论温度传感器的选择与接口。然后,我们将介绍如何使用 STM32 提供的开发工具和相关库来进行温度测量和控…...

python之pyqt专栏3-QT Designer

从前面两篇文章python之pyqt专栏1-环境搭建与python之pyqt专栏2-项目文件解析,我们对QT Designer有基础的认识。 QT Designer用来创建UI界面,保存的文件是"xxx.ui"文件,"xxx.ui"可以被pyuic转换为"xxx.py",而&…...

【鸿蒙应用ArkTS开发系列】- 云开发入门实战二 实现省市地区三级联动地址选择器组件(下)

文章目录 概述端云调用流程端侧集成AGC SDK端侧省市地区联动的地址选择器组件开发创建省市数据模型创建省市地区视图UI子组件创建页面UI视图Page文件 打包测试总结 概述 我们在前面的课程,对云开发的入门做了介绍,以及使用一个省市地区联动的地址选择器…...

HCIA题目解析(1)

1、【多选题】关于动态 MAC 地址表说法正确的是? A、通过报文中的源MAC地址学习获得的动态MAC表项会老化 B、通过查看指定动态MAC地址表项的个数,可以获取接口下通信的用户数 C、在设备重启后,之前的动态表项会丢失 D、在设备重启后&…...

运维高级-day02

一、编写系统服务启动脚本 RHEL6风格 1、Linux运行级别 Linux运行有七个级别 级别 描述 0 停机状态,系统默认运行级别不能设置为0,否则系统不能正常启动。使用init0命令,可关闭系统 1 单用户状态,此状态仅root用户可登录。用…...

虹科分享 | 平衡速度和优先级:为多样化的实时需求打造嵌入式网络(2)——实时通信系统的需求

现代实时应用的复杂性和需求不断增加,需要强大而可靠的通信系统。正如本系列第一部分所述,这些应用涵盖从秒到毫秒的广泛响应时间要求,它们的成功通常取决于其响应的精确时间。因此,所选的通信系统必须能够满足这些严格的时序限制…...

佳易王各行业收银管理系统软件,企业ERP管理软件,企业或个体定制开发软件以及软件教程资源下载总目录,持续更新,可关注收藏查阅

系统简介 1、佳易王软件功能实用、操作简单、软件绿色免安装,解压即可使用,软件已经内置数据库,不需再安装其他数据库文件。 2、佳易王软件,已经形成系列,上百款管理系统软件涵盖多个行业。 3、已为多个企业个体定制…...

C_4练习题

一、单项选择题(本大题共20小题,每小题2分,共40分。在每小题给出的四个备选项中选出一个正确的答案,并将所选项前的字母填写在答题纸的相应位置上。) 定义如下变量和数组: int i; int x[3][3]{1,2,3,4,5,6,7,8,9}; 则下面语句的输…...

自动化测试-Selenium

一. Selenium介绍 selenium 是用来做web自动化测试的框架,支持各种浏览器,各种,支持各种语言 原理: 二. 元素定位 2.1 XPath 定位 绝对路径: /html/head/title 相对路径以双斜杠开头,常见的相对路径定位有以下几种: <1>相对路径索引: 索引是从1开始的 <2>相…...

基于单片机的温湿度检测系统设计

目录 摘 要... 2 第一章 绪论... 5 1.1 研究课题背景... 5 1.2 国内外发展概况... 7 1.3 课题研究的目的... 8 1.4 课题的研究内容及章节安排... 8 第二章 温湿度检测系统控制系统的设计方案... 10 2.1 设计任务及要求... 10 2.2 温湿度检测系统总体设计方…...

C# 关于异常处理 try-catch语句的使用

在实际应用中&#xff0c;比如涉及文件读写、网络通信时&#xff0c;会因为文件不存在、权限不够、网络异常等原因引发异常&#xff0c;或者对数据库连接、查询、更新等操作&#xff0c;会因为连接超时、语法错误、唯一约束冲突等引发异常。 看过去的代码&#xff0c;当进行上…...

【LeeCode】26.删除有序数组中的重复项

给你一个 非严格递增排列 的数组 nums &#xff0c;请你原地删除重复出现的元素&#xff0c;使每个元素 只出现一次 &#xff0c;返回删除后数组的新长度。元素的 相对顺序 应该保持 一致 。然后返回 nums 中唯一元素的个数。 考虑 nums 的唯一元素的数量为 k &#xff0c;你需…...

4-Docker命令之docker create

1.docker create介绍 docker create命令是用于创建一个新的容器,等价于docker run -d命令,但是与docker run -d不同的是,docker create创建的容器并未实际启动,需要指定docker start命令启动。 2.docker create用法 docker create [参数] [root@centos79 ~]# docker cr…...

leetcode每日一题33

86.分隔链表 因为对链表中的一个节点进行更换位置的操作需要知道该节点的上一个节点 所以建立一个虚拟头节点 ListNode* pnew ListNode(-201,head);根据题意&#xff0c;我们需要找到第一个大于x或等于x的节点large 并且将第一个大于或等于x的节点large后的所有小于x的节点都…...

性能测试【一】:Jmeter的常用操作

性能测试【一】&#xff1a;Jmeter的常用操作 一、使用命令行方式运行Jmeter1、为什么2、怎么用3、示例4、结果文件 二、生成动态报告1、准备2、命令3、报告示例4、报告释义 三、使用问题汇总 推荐使用命令行运行&#xff0c;GUI方式会经常卡死&#xff0c;尤其跑稳定性 一、使…...

【JAVA】SpringBoot + mongodb 分页、排序、动态多条件查询及事务处理

【JAVA】SpringBoot mongodb 分页、排序、动态多条件查询及事务处理 1.引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><!-- mongodb ↓ -->&…...

nrm安装及使用

一、介绍 nrm 是一个 Node.js 的 registry 管理工具&#xff0c;它允许你快速地在不同的 npm registry 之间进行切换。通过使用 nrm&#xff0c;你可以方便地将 npm 的 registry 切换为淘宝镜像、npm 官方镜像或者其他定制的镜像&#xff0c;以加快包的下载速度。nrm仓库请点击…...

docker报错standard init linux.go:228 exec user process caused: exec format error

1、报错 使用Dockerfile自己做的服务镜像&#xff0c;docker run时启动失败&#xff0c;报错如下&#xff1a; standard init linux.go:228 exec user process caused: exec format error2、原因一 当前服务器的CPU架构和构建镜像时的CPU架构不兼容。比如做镜像是在arm机器下…...

Docker 的基本概念和优势,以及在应用程序开发中的实际应用。

Docker 是一种容器化技术&#xff0c;它将一个应用程序及其所有依赖项打包在一起&#xff0c;形成一个独立的、可移植的容器。这个容器可以在任何支持 Docker 的操作系统上运行&#xff0c;而且具有很好的可移植性和可扩展性。以下是 Docker 的基本概念和优势&#xff1a; 镜像…...

Nunchaku FLUX.1 CustomV3快速部署:支持CUDA 12.4+PyTorch 2.3的开箱即用镜像

Nunchaku FLUX.1 CustomV3快速部署&#xff1a;支持CUDA 12.4PyTorch 2.3的开箱即用镜像 1. 开篇介绍&#xff1a;为什么选择这个镜像&#xff1f; 如果你正在寻找一个能够快速生成高质量图片的AI工具&#xff0c;但又不想折腾复杂的环境配置&#xff0c;那么Nunchaku FLUX.1…...

横河 Yokogawa 便携式无纸记录仪 GP10/GP20系列

主要特点 ● PID控制(GX90UT PID控制模块) ● 程序控制(/PG选件) ● 双测量周期 ● 高速(1ms)测量(GX90XA-04-H0 高速AI模块) ● 4线RTD输入、 电阻测量(GX90XA-06-R1 4线RTD模块) ● 再传输/手动mA输出(GX90YA模拟输出模块)技术参数 型号 GP20 GP10 结构 便携型 便…...

Audiveris开源OMR工具:从乐谱图像到数字音乐的完整转换指南

Audiveris开源OMR工具&#xff1a;从乐谱图像到数字音乐的完整转换指南 【免费下载链接】audiveris Latest generation of Audiveris OMR engine 项目地址: https://gitcode.com/gh_mirrors/au/audiveris &#x1f3b5; Audiveris 是一款功能强大的开源光学音乐识别&…...

2026年电子商务论文降AI工具推荐:用户行为分析和商业模式部分

2026年电子商务论文降AI工具推荐&#xff1a;用户行为分析和商业模式部分 在知乎看了很多帖子&#xff0c;在论坛翻了很多评测&#xff0c;最后用的是嘎嘎降AI&#xff08;www.aigcleaner.com&#xff09;。 价格4.8元一篇&#xff0c;实测知网从67%降到6%。电子商务论文降AI…...

34岁过来人亲述:后端转AI大模型应用开发,这3类人大多半途而废!

我做了8年Java后端&#xff0c;33岁那年&#xff0c;咬咬牙辞了干了5年的稳定工作&#xff0c;一头扎进了AI应用开发这个圈子里。 这一年下来&#xff0c;我踩的坑真的不少&#xff1a;面试的时候被面试官问得哑口无言&#xff0c;熬夜改RAG服务改到崩溃&#xff0c;好不容易做…...

运维人破局指南|告别背锅运维,转行网络安全,薪资直接翻番(零弯路路径)

运维人破局指南&#xff5c;告别背锅运维&#xff0c;转行网络安全&#xff0c;薪资直接翻番&#xff08;零弯路路径&#xff09; 摘要&#xff1a;“服务器宕机背锅、网络中断背锅、系统故障背锅&#xff0c;全年无休守监控&#xff0c;薪资却原地踏步”—— 这是无数运维人的…...

Loguru实战:5分钟为Flask/Django项目添加智能日志系统(带错误报警)

Loguru实战&#xff1a;5分钟为Flask/Django项目添加智能日志系统&#xff08;带错误报警&#xff09; 在Web开发中&#xff0c;日志系统就像项目的"黑匣子"&#xff0c;记录着每一次请求的来龙去脉。想象一下&#xff1a;凌晨3点&#xff0c;线上服务突然崩溃&…...

2025届必备的五大AI辅助写作神器解析与推荐

Ai论文网站排名&#xff08;开题报告、文献综述、降aigc率、降重综合对比&#xff09; TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek DeepSeek身为前沿AI模型&#xff0c;能够显著提高论文写作效率。于选题环节&#xff0c;借助…...

图解微积分:用牛顿-莱布尼兹公式打通定积分与不定积分的任督二脉

图解微积分&#xff1a;用牛顿-莱布尼兹公式打通定积分与不定积分的任督二脉 微积分常被称为"数学的语言"&#xff0c;而定积分与不定积分则是这门语言中最精妙的两个语法结构。想象一下&#xff0c;当你面对一条蜿蜒的曲线时&#xff0c;不定积分告诉你"这条曲…...

YOLOv11模型训练效果不满意?试试这个‘续杯’技巧:灵活调整Epoch数优化模型性能

YOLOv11模型训练效果不满意&#xff1f;试试这个‘续杯’技巧&#xff1a;灵活调整Epoch数优化模型性能 在计算机视觉领域&#xff0c;YOLO系列模型因其高效的检测性能而广受欢迎。当我们完成一轮训练后&#xff0c;常常会遇到一个关键问题&#xff1a;模型表现尚未达到预期&am…...