李宏毅机器学习笔记-transformer
transformer是什么呢?是一个seq2seq的model。具体应用如上图所示,输入和输出的序列长度不固定,由model自己决定。
语音翻译指的是,直接输入一段语音信号,例如英文,输出的直接是翻译之后的中文。
seq2seq
如今已经是一个应用非常广泛的模型,可以应用于NLP的各种任务,如语义分析,语义分类,聊天机器人等。另外还有个值得说明的功能是做multi label classification
。
multi label classification
。和multi class classificatio
是完全不一样的,一个是多分类,另一个是一个样本可以有多个标签。但是多标签的问题,可以用seq2seq
模型来解决。
我们可以想下,如果让你来做多标签分类问题,会有什么思路。
一般人可能会想到,集成学习中,对每个类别都输出一个概率,然后例如说取一个threshold
,取得分最高的前3名就好了,这样每个样本就都可以得到多个标签了。
这样做的一个问题在于,有些样本可能是一个标签,有些可能是3个,这种threshold
的方法不能从根本上解决问题。
使用的方法就是用seq2seq
硬做,可以输入一篇文章,然后输出就是不同的类别,输出类别的个数由model自己决定。
ok,我们现在开始正式学习什么是seq2seq
。一个完整的seq2seq
通常由一个encoder
和一个decoder
组成。上图右侧即为一个transformer
架构。左半部分为encoder
,右半部分为decoder
。
encoder
要做的事情就在于,输入一排向量,输出另一排向量。这个过程由RNN或CNN,self-attention都可以做到。但在transformer
中,使用的则是self attention
。
encoder
之前的图较为复杂,我们使用更简洁一些的图来解释encoder
。
如上图所示,一个encoder
中由很多的block
组成。注意,这里每个block
并不是由一层的layer组成,而是好几层的layer。其中的一个block
可能就如右侧所示,由一个self attention处理之后,再经过一个FC层得到进一步的输出。
在原始的那篇transfomer文章中,每个Block做的事情可能更为复杂。在self-attention的基础上还加入了residual connection
的结构进去。什么意思呢,就是原本由self-attention,每个输入可以得到一个输出,这个输出是考虑了整个seq
上下文信息的输出。但这个时候,我们在这个输出的基础上,再把原始的input加进去,这种思想就是residual connection
.
做完residual connection
之后,再做layer norm。这个layer norm很简单,就是输入一串序列[x1,x2,…,xk],输出另一串序列。对输入做的处理是计算均值和标准差,和zscore
非常接近。
经过layer norm之后,讲输出经过一个FC,再和当前的值进行相加,最后再经过一个norm层,才是我们整个encoder
最后的输出。最左侧的图和最右侧的图可以结合起来看。
现在,上述过程可以和前面那张较为复杂的图对应起来。复杂图里面多了一个positional encoding
,因为在self attention
必须考虑位置咨询,可以回归下self attention
相关内容。然后上图中的Add & Norm
就是residual connection
和layer norm
的过程,feed forward
则是一个Fully conneted network
。另外,这里特地强调了是multihead attention
。
注意,上述只是按照transformer
原始论文所讲述的encoder
的架构,其中一些模块的顺序也可以直接调换。
decoder
ok,我们接下来讲解decoder
。
对于decoder
主要有2种,我们主要先讲autoregression,AT
。
在经过encoder
之后,会得到一排中间向量,将这些向量输入到decoder
中,用于产生输出。这里注意,在产生输出前,我们会加上一个begin
的标志,在输出结束后,还有一个end
的标志。这两个标志属于模型自己要学习的东西,因此,这样就可以做到模型自己决定输出的长度是多少了。
这里,decoder
会将上一个时刻的输出作为下一个时刻的输入。
这种情况可能会导致一个error propagation
的问题,即一步错导致步步错。
当然,这个error propagation
是有处理的办法的,我们先无视这个问题。
我们先将encoder
部分忽视,decoder
则为上述的样子。
我们将encoder
和decoder
进行对比,可以发现,其实2者的区别还是很小的,只有2部分不太一样,一个是用马赛克盖住的部分,另一个是masked multi-head attention
。
self attention
和masked self attention
的区别在于说,在普通的self attention
中,我们由a1,a2,a3,a4
生成b1,b2,b3,b4
时,例如说生成b2
,我们是考虑了a1,a2,a3,a4
的所有信息的。
但是,在masked self attention
中,我们要生成b2
,只能考虑a1,a2
的信息,不能考虑a3,a4
的信息。
为什么要这样设计呢,我们乡下decoder
的运作方式,输出是一个一个产生的,所以,只能考虑之前输出的信息。
我们下面来开始讲另一种decoder
,Non-autoregressive, NAT
。
前面有讲到说,AT
是decoder
一个一个生成输出的,而NAT
是一次性生成所有的输出的,包括start
和end
。
这里就会有人有疑问,不是说输出长度可能是不固定的吗?但是NAT
输出长度是固定的怎么办?
有2种思路,一种是另外再训练一个回归预测器,预测输出的长度。第二种是在输出的中间加入end
,在end之后的输出就不管他了,当作没有输出一样。
encoder和decoder如何传递咨询的
ok,我们现在来讲下encoder和decoder之间的信息传递,也就是之前用马赛克盖住的那部分。这个过程也叫做cross attention
。上图中左边2个箭头来自于encoder
,右边1个来自于decoder
。
具体来说呢,左边经过encoder
之后会得到一系列的a1,a2,a3
等输出向量,类似于self attention
过程,产生k,v
。右侧decoder
经过masked self attention
之后,得到一个输出向量q
,由q,k
之间计算得到attention acore α 1 ′ \alpha_{1}' α1′,与对应的v1相乘之后得到总的输出v
,最后再进入FC
层进行处理。这个过程就叫做cross attention
。
train
ok,讲完encoder
和decoder
之后,我们需要讲下训练的部分。
这里跟普通的分类比较像,使用cross entropy
作为损失函数。
这里,在训练decoder
时,我们会讲正确的答案作为decoder
的输入,这个过程叫做teacher forcing
。
这里就需要讲下之前所提到的那个问题,decoder
在训练时,输入是正确的答案,但是在测试时,没有正确的答案给到进行输入。那么decoder
就很容易产生一步错,步步错的问题。这个问题也叫做exposure bias
。一个可能解决该问题的方向是scheduled sampling
,就是在训练decoder
时偶尔喂给一些不正确的数据,提升decoder
的处理问题的能力,就这么简单。
相关文章:

李宏毅机器学习笔记-transformer
transformer是什么呢?是一个seq2seq的model。具体应用如上图所示,输入和输出的序列长度不固定,由model自己决定。 语音翻译指的是,直接输入一段语音信号,例如英文,输出的直接是翻译之后的中文。 seq2seq如…...

基于Java的酒店管理系统
博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战 主要内容:毕业设计(Javaweb项目|小程序等)、简历模板、学习资料、面试题库、技术咨询 文末联系获取 项目介绍…...
Go语言的单元测试与基准测试详解
文章目录 单元测试基准测试 单元测试 以一个加法函数为例,对其进行单元测试。 首先编写add.go文件: //add.go package mainfunc add(a, b int) int {return a b }其次编写add_test.go文件,在go语言中,测试文件均已_test结尾&a…...

【多态】为什么析构函数的名称统一处理为destructor?
析构函数的名称统一处理为destructor的目的是为了解决析构函数的重写。 而这又引出了一个问题:为什么要进行析构函数的重写? 是为了下面这种情况: class Person { public:~Person() { cout << "~Person" << endl; } }…...
6.4 Case Studies - A Simple Logging Archive Class
下面这段内容介绍了一个示例,目的是帮助澄清"归档概念(Archive Concept)"的用法,以便用户可以实现自己的归档类。simple_log_archive.hpp 实现了一个简单但实用的归档类,用于将任何可序列化类型以可读的格式…...

【深度学习实验】前馈神经网络(九):整合训练、评估、预测过程(Runner)
目录 一、实验介绍 二、实验环境 1. 配置虚拟环境 2. 库版本介绍 三、实验内容 0. 导入必要的工具包 1. __init__(初始化) 2. train(训练) 3. evaluate(评估) 4. predict(预测) 5. save_model 6. load_model 7. 代码整合 一、实验介绍 二、实验环境 本系列实验使用…...

002-第一代硬件系统架构确立及产品选型
第一代硬件系统架构确立及产品选型 文章目录 第一代硬件系统架构确立及产品选型项目介绍摘要硬件架构硬件结构选型及设计单片机选型上位机选型扯点别的 关键字: Qt、 Qml、 信号采集机、 数据处理、 上位机 项目介绍 欢迎来到我们的 QML & C 项目ÿ…...
Go基础语法:指针和make和new
8 指针、make、new 8.1 指针(pointer) Go 语言中没有指针操作,只需要记住两个符号即可: & 取内存地址* 根据地址取值 package mainimport "fmt"func main() {a : 18// 获取 a 的地址值并复制给 pp : &a// …...

039_小驰私房菜_Camera perfermance debug
全网最具价值的Android Camera开发学习系列资料~ 作者:8年Android Camera开发,从Camera app一直做到Hal和驱动~ 欢迎订阅,相信能扩展你的知识面,提升个人能力~ 一、抓取trace 1. adb shell "echo vendor.debug.trace.perf=1 >> /system/build.prop" 2. …...
Caché for Windows安装及配置
本文介绍在Windows上安装Cach的操作步骤。本文假设用户熟悉Windows目录结构、实用程序和命令。本文包含如下主要部分: 1)Cach安装...
代码随想录算法训练营20期|第四十六天|动态规划part08|● 139.单词拆分 ● 关于多重背包,你该了解这些! ● 背包问题总结篇!
139.单词拆分 感觉这个板块要重新刷,完全没有印象 class Solution {public boolean wordBreak(String s, List<String> wordDict) {Set<String> set new HashSet<>(wordDict);boolean[] dp new boolean[s.length() 1];dp[0] true;for (int i…...

系统安装(一)CentOS 7 本地安装
CentOS与Ubuntu并称为Linux最著名的两个发行版,但由于笔者主要从事深度学习图像算法工作,Ubuntu作为谷歌和多数依赖库的亲儿子占据着最高生态位。但最近接手的一个项目里,甲方指定需要在CentOS7上运行项目代码,笔者被迫小小cos了一…...

obsidian使用指南
插入代码块快捷键设置 插入代码块 用英文搜索快捷键名字 英文搜索的【Insert code block】对应的是 (6个点) 中文搜索的【代码块】对应的是 (2个点) 查看word、excel等非md文件设置 电脑端obsidian->设置->文件与链接->检测所有类型文件->…...

【ardunio】青少年机器人四级实操代码(2023年9月)
目录 一、题目 二、示意图 三、流程图 四、硬件连接 1、舵机 2、超声波 3、LED灯 五、程序 一、题目 实操考题(共1题,共100分) 1. 主题: 迎宾机器人 器件:Atmega328P主控板1块,舵机1个,超声波传感器1个&…...

MYSQL的存储过程
存储过程 存储过程是事先经过编译并存储在数据库中的一段 SQL 语句的集合,调用存储过程可以简化应用开发人员的很多工作,减少数据在数据库和应用服务器之间的传输,对于提高数据处理的效率是有好处的。存储过程思想上很简单,就是…...
[kubernetes/docker] failed to resolve reference ...:latest: not found
问题描述: pod一直pending, kubectl describe pod ... 显示: Warning Failed 9s (x3 over 63s) kubelet Failed to pull image "mathemagics/my-kube-scheduler": rpc error: code NotFound desc failed to pull and unpack image "docker…...

彻底解决win11系统0x80070032
经过各种尝试,终于找到原因。第一个是电脑加密软件,第二个是需要的部分功能没有开启,第三个BIOS设置。个人觉得第三个不重要。 解决方法 笔记本型号 笔记本型号是Thinkpad T14 gen2。进入BIOS的按键是按住Enter键。 1、关闭山丽防水墙服务…...

解决因为修改SELINUX配置文件出错导致Faild to load SELinux poilcy无法进入CentOS7系统的问题
一、问题 最近学习Kubernetes,需要设置永久关闭SELINUX,结果修改错了一个SELINUX配置参数,关机重新启动后导致无法进入CentOS7系统,卡在启动进度条界面。 二、解决 多次重启后,在启动日志中发现 Faild to load SELinux poilcy…...
flask中的跨域处理-方法二不使用第三方库
方法1(第三方库) pip install flask-cors from flask import Flask from flask_cors import CORSapp = Flask(__name__) CORS(app, resources={r"/api/*": {"origins": ["http://localhost:63342", "http://localhost:63345"]}})方…...

矿山定位系统-矿井人员定位系统在矿山自动化安全监控过程中的应用
一,矿井人员定位系统现阶段使用的必要性 1,煤矿开采是一项非常特殊的工作,现场属于非常复杂多变的环境,井下信号极差,数据传输非常不稳定,人员安全难以保证,煤矿企业一直在研究如何使用更合适的…...

CTF show Web 红包题第六弹
提示 1.不是SQL注入 2.需要找关键源码 思路 进入页面发现是一个登录框,很难让人不联想到SQL注入,但提示都说了不是SQL注入,所以就不往这方面想了 先查看一下网页源码,发现一段JavaScript代码,有一个关键类ctfs…...

Unity3D中Gfx.WaitForPresent优化方案
前言 在Unity中,Gfx.WaitForPresent占用CPU过高通常表示主线程在等待GPU完成渲染(即CPU被阻塞),这表明存在GPU瓶颈或垂直同步/帧率设置问题。以下是系统的优化方案: 对惹,这里有一个游戏开发交流小组&…...

工业安全零事故的智能守护者:一体化AI智能安防平台
前言: 通过AI视觉技术,为船厂提供全面的安全监控解决方案,涵盖交通违规检测、起重机轨道安全、非法入侵检测、盗窃防范、安全规范执行监控等多个方面,能够实现对应负责人反馈机制,并最终实现数据的统计报表。提升船厂…...

以下是对华为 HarmonyOS NETX 5属性动画(ArkTS)文档的结构化整理,通过层级标题、表格和代码块提升可读性:
一、属性动画概述NETX 作用:实现组件通用属性的渐变过渡效果,提升用户体验。支持属性:width、height、backgroundColor、opacity、scale、rotate、translate等。注意事项: 布局类属性(如宽高)变化时&#…...

DAY 47
三、通道注意力 3.1 通道注意力的定义 # 新增:通道注意力模块(SE模块) class ChannelAttention(nn.Module):"""通道注意力模块(Squeeze-and-Excitation)"""def __init__(self, in_channels, reduction_rat…...

cf2117E
原题链接:https://codeforces.com/contest/2117/problem/E 题目背景: 给定两个数组a,b,可以执行多次以下操作:选择 i (1 < i < n - 1),并设置 或,也可以在执行上述操作前执行一次删除任意 和 。求…...
镜像里切换为普通用户
如果你登录远程虚拟机默认就是 root 用户,但你不希望用 root 权限运行 ns-3(这是对的,ns3 工具会拒绝 root),你可以按以下方法创建一个 非 root 用户账号 并切换到它运行 ns-3。 一次性解决方案:创建非 roo…...

苍穹外卖--缓存菜品
1.问题说明 用户端小程序展示的菜品数据都是通过查询数据库获得,如果用户端访问量比较大,数据库访问压力随之增大 2.实现思路 通过Redis来缓存菜品数据,减少数据库查询操作。 缓存逻辑分析: ①每个分类下的菜品保持一份缓存数据…...
VTK如何让部分单位不可见
最近遇到一个需求,需要让一个vtkDataSet中的部分单元不可见,查阅了一些资料大概有以下几种方式 1.通过颜色映射表来进行,是最正规的做法 vtkNew<vtkLookupTable> lut; //值为0不显示,主要是最后一个参数,透明度…...
Python如何给视频添加音频和字幕
在Python中,给视频添加音频和字幕可以使用电影文件处理库MoviePy和字幕处理库Subtitles。下面将详细介绍如何使用这些库来实现视频的音频和字幕添加,包括必要的代码示例和详细解释。 环境准备 在开始之前,需要安装以下Python库:…...