当前位置: 首页 > article >正文

深度学习处理文本(14)

使用Transformer进行序列到序列学习

正是序列到序列学习让Transformer真正大放异彩。与RNN相比,神经注意力使Transformer模型能够处理更长、更复杂的序列。要将英语翻译成西班牙语,你不会一个单词一个单词地阅读英语句子,将其含义保存在记忆中,然后再一个单词一个单词地生成西班牙语句子。这种方法可能适用于只有5个单词的句子,但不太可能适用于一整个段落。相反,你可能会在源句子与正在翻译的译文之间来回切换,并在写下译文时关注源句子中的单词。你可以利用神经注意力和Transformer来实现这一方法。你已经熟悉了Transformer编码器,对于输入序列中的每个词元,它使用自注意力来生成上下文感知的表示。在序列到序列Transformer中,Transformer编码器当然承担编码器的作用,读取源序列并生成编码后的表示。但与之前的RNN编码器不同,Transformer编码器会将编码后的表示保存为序列格式,即由上下文感知的嵌入向量组成的序列。

模型的后半部分是Transformer解码器。与RNN解码器一样,它读取目标序列中第0~N个词元来尝试预测第N+1个词元。重要的是,在这样做的同时,它还使用神经注意力来找出,在编码后的源句子中,哪些词元与它目前尝试预测的目标词元最密切相关——这可能与人类译员所做的没什么不同。回想一下查询−键−值模型:在Transformer解码器中,目标序列即为注意力的“查询”​,指引模型密切关注源序列的不同部分(源序列同时担任键和值)​。

Transformer解码器

完整的序列到序列Transformer如图11-14所示。观察解码器的内部结构,你会发现它与Transformer编码器非常相似,只不过额外插入了一个注意力块,插入位置在作用于目标序列的自注意力块与最后的密集层块之间。

在这里插入图片描述

我们来实现Transformer解码器。与TransformerEncoder一样,我们需要将Layer子类化。所有运算都在call()方法中进行,在此之前,我们先来定义类的构造函数,其中包含我们所需要的层,如代码清单11-33所示。

代码清单11-33TransformerDecoder

class TransformerDecoder(layers.Layer):def __init__(self, embed_dim, dense_dim, num_heads, **kwargs):super().__init__(**kwargs)self.embed_dim = embed_dimself.dense_dim = dense_dimself.num_heads = num_headsself.attention_1 = layers.MultiHeadAttention(num_heads=num_heads, key_dim=embed_dim)self.attention_2 = layers.MultiHeadAttention(num_heads=num_heads, key_dim=embed_dim)self.dense_proj = keras.Sequential([layers.Dense(dense_dim, activation="relu"),layers.Dense(embed_dim),])self.layernorm_1 = layers.LayerNormalization()self.layernorm_2 = layers.LayerNormalization()self.layernorm_3 = layers.LayerNormalization()self.supports_masking = True----这一属性可以确保该层将输入掩码传递给输出。Keras中的掩码是可选项。如果一个层没有实现compute_mask()并且没有暴露这个supports_masking属性,那么向该层传入掩码则会报错def get_config(self):config = super().get_config()config.update({"embed_dim"

相关文章:

深度学习处理文本(14)

使用Transformer进行序列到序列学习 正是序列到序列学习让Transformer真正大放异彩。与RNN相比,神经注意力使Transformer模型能够处理更长、更复杂的序列。要将英语翻译成西班牙语,你不会一个单词一个单词地阅读英语句子,将其含义保存在记忆中,然后再一个单词一个单词地生…...

核心案例 | 湖南汽车工程职业大学无人机操控与编队技术实验室

核心案例 | 湖南汽车工程职业大学无人机操控与编队技术实验室 为满足当今无人机行业应用需求,推动无人机技术的教育与实践深度融合,北京卓翼智能科技有限公司旗下品牌飞思实验室与湖南汽车工程职业大学强强联手,共同建设无人机操控与编队技术…...

Oracle 查看后台正在执行的 SQL 语句

在 Oracle 数据库中,要查看后台正在执行的 SQL 语句,可以通过查询动态性能视图(Dynamic Performance Views)或使用监控工具来实现。 1. 查询动态性能视图 (1) 查看当前活跃会话及其执行的 SQL 使用 v$session 和 v$sql 视图关联…...

SpringBoot整合MinIO快速入门:实现分布式文件存储与管理

文章目录 一、MinIO是什么?为什么选择它?1.1 什么是MinIO?1.2 核心优势 二、本地快速搭建MinIO服务2.1 Docker一键部署2.2 访问管理界面2.3 创建存储桶(Bucket) 三、SpringBoot集成MinIO客户端3.1 添加Maven依赖3.2 配…...

我的NISP二级之路-03

目录 一.ISMS 二.IP 三.http 四.防火墙 五.文件 解析 解析 六.攻击 解析 解析 七.风险管理工程 八.信息系统安全保护等级 九.我国信息安全保障 一.ISMS 1.文档体系建设是信息安全管理体系(ISMS)建设的直接体现,下列说法不正确的是: A&#…...

Vue框架的Diff算法

以下是关于 Diff 算法 的系统梳理: 一、Diff 算法的核心目标 最小化 DOM 操作:通过虚拟 DOM 对比,找出真实 DOM 的最小变更集高效节点复用:尽可能复用相同节点,减少创建/销毁开销顺序优化处理:优先处理高频变更场景(如列表尾部追加)保证渲染正确性:正确处理组件状态和…...

Oracle 表空间高水位收缩全攻略

1. 概述 本文档是针对某个特定用户表空间收缩的文档,实际操作要结合生产库具体情况。主要包括以下几个流程: 收集当前数据库相关信息降低数据库表高水位线Resize 收缩数据文件 具体细节详见以下章节。 2. 时间规划 操作类型预估时间实际时间数据库信…...

ESModule和CommonJS在Node中的区别

ESModule console.log(require);//>errorconsole.log(module);//>errorconsole.log(exports);//>errorconsole.log(__filename);//>errorconsole.log(__dirname);//>error全部报错commonjs console.log(require);console.log(module);console.log(exports);co…...

floyd模板

B3647 【模板】Floyd - 洛谷 f l o y d floyd floyd 模板 对于 f l o y d floyd floyd 算法来说时间复杂度为 O ( n 3 ) O(n^3) O(n3) ,不如跑 n n n 遍 h e a p _ d i j k s t r a heap\_dijkstra heap_dijkstra 算法 题目大意: 给出一张由 n n …...

力扣刷题-热题100题-第34题(c++、python)

23. 合并 K 个升序链表 - 力扣(LeetCode)https://leetcode.cn/problems/merge-k-sorted-lists/?envTypestudy-plan-v2&envIdtop-100-liked 顺序合并 合并两个有序链表作为子函数,创建一个空链表,然后对含有多个链表的数组进…...

括号匹配问题--栈

括号匹配问题 栈的应用代码概览栈操作函数详解1.初始化栈(stackInit)2.向栈中压入元素(stackpush)3.获取栈顶元素(stacktop)4.弹出栈顶元素(stackpop)5.销毁栈(stackdest…...

原生SSE实现AI智能问答+Vue3前端打字机流效果

实现流程: 1.用户点击按钮从右侧展开抽屉(drawer),打开模拟对话框 2.用户输入问题,点击提问按钮,创建一个SSE实例请求后端数据,由于SSE是单向流,所以每提一个问题都需要先把之前的实…...

LLC工作模态详解

1以半桥LLC谐振变换器为例,主开关Q1、Q2构成半桥结构,其驱动信号为固定占空比50%的互补信号,并且在上下桥臂之间应有死区时间。 谐振电感Ls、谐振电感Cs和变压器励磁电感Lm共同构成谐振槽路,具有两个谐振频率: 谐振电…...

线代第三课:n阶行列式

引言 行标取自然排列 不同行不同列的3个元素相乘 列标取排列的所有可能 列标排列的逆序数的奇偶性决定符号,- n阶行列式 第一种:按行展开 (1) 行标取自然排列 (2) 列标取排列的所有可能 (PS:可以理解为随意取) (3) 从…...

机器学习的一百个概念(10)假阳性率

前言 本文隶属于专栏《机器学习的一百个概念》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见[《机器学习的一百个概念》 ima 知识库 知识库广场搜索: 知识库创建人机器学习@Shockang机器学习数学基础@Shocka…...

GitHub 克隆/下载失败的解决方案

🚀 GitHub 下载/克隆失败?一招搞定代理配置与回滚! 在国内使用 Git 操作 GitHub 时,经常会遇到以下问题: ❌ 下载失败、超时 ❌ Failed to connect to github.com port 443 ❌ SSL certificate problem 本文将详细讲解…...

pulsar proxy详解

什么是 Pulsar Proxy? Pulsar Proxy 是 Apache Pulsar 中的一个可选组件,作用是作为客户端与 Pulsar Brokers 之间的中间网关层。它并不是 Pulsar 核心功能必须的部分,但在特定场景下(如复杂的网络环境、安全性需求或动态集群管理…...

C++ Socket优化实战:提升网络应用的性能与效率

🧑 博主简介:CSDN博客专家、CSDN平台优质创作者,高级开发工程师,数学专业,拥有高级工程师证书;擅长C/C、C#等开发语言,熟悉Java常用开发技术,能熟练应用常用数据库SQL server,Oracle…...

STM32单片机入门学习——第30节: [9-6] FlyMcu串口下载STLINK Utility

写这个文章是用来学习的,记录一下我的学习过程。希望我能一直坚持下去,我只是一个小白,只是想好好学习,我知道这会很难,但我还是想去做! 本文写于:2025.04.09 STM32开发板学习——第30节: [9-6] FlyMcu串口下载&STLINK Utility 前言开发…...

Qt容器类在元对象系统中使用

解释 “QVector没有被注册到Qt的元对象系统中”这句话的意思是&#xff1a;QVector<double>这种数据类型没有被Qt的元对象系统&#xff08;Meta-Object System&#xff09;识别和管理。Qt的元对象系统是Qt框架的核心部分&#xff0c;它提供了信号与槽机制、动态属性系统…...

亮相CMEF,美的医疗全维度打造智慧医疗新生态

当下&#xff0c;医疗科技革命的浪潮正汹涌而来&#xff0c;AI技术在中国医疗器械领域迅猛发展&#xff0c;释放出巨大的潜力。 4月8日&#xff0c;在第91届中国国际医疗器械博览会&#xff08;CMEF&#xff09;上&#xff0c;2025美的医疗年度新品发布暨中国脊梁守护计划启动…...

数据库视图讲解(view)

一、为什么需要视图 二、视图的讲解 三、总结 一、为什么需要视图 视图一方面可以帮我们使用表的一部分而不是所有的表&#xff0c;另一方面也可以针对不同的用户制定不同的查询视图。 比如&#xff0c;针对一个公司的销售人员&#xff0c;我们只想给他看部分数据&#xff0c…...

TQTT_KU5P开发板教程---文件的烧写与程序固化

文档功能介绍 本文档所描述的为文件的烧写固化&#xff0c;利用spi芯片将程序固化带芯片上&#xff0c;可以让开发板在重新上电时也可以跑程序。我们所使用的芯片型号为mt25qu256-spi-x1_x2_x4.本次实验采用的在led_shift项目的基础上将流水灯程序固化到flash芯片上&#xff0c…...

进度管理__制订进度计划_资源平衡和资源平滑

本文讲解的资源平衡与资源平滑&#xff0c;是制订进度计划的工具与技术的第3项&#xff1a; 资源优化。 1. 资源平衡 资源平衡是为了在资源需求与资源供给之间取得平等&#xff0c; 根据资源制约因素对开始日期和完成日期进行调整的一种技术。 如果共享资源或关键资源只在特定…...

【ISP】ISP pipeline(AI)

ISP Pipeline 全流程概览 ISP&#xff08;Image Signal Processing&#xff0c;图像信号处理&#xff09;流程通常从原始 Bayer 数据出发&#xff0c;经过一系列模块处理&#xff0c;逐步完成图像校正和增强&#xff0c;最终生成用于显示或编码的标准图像。常见处理模块包括&a…...

C++ RAII 的用途及业务代码实现案例

C RAII 的用途及业务代码实现案例 RAII 的核心概念 RAII (Resource Acquisition Is Initialization&#xff0c;资源获取即初始化) 是 C 的核心编程范式&#xff0c;其核心思想是&#xff1a; 资源获取与对象构造绑定资源释放与对象析构绑定利用 C 对象生命周期自动管理资源…...

RVOS-2.基于NS16550a ,为os添加终端交互功能。

2.1 实验目的 为os添加uart功能&#xff0c;通过串口实现开发板与PC交互。 2.1 硬件信息 QEMU虚拟SoC含有 虚拟NS16550A设备 。 不同的地址线组合&#xff08;A2、A1、A0&#xff09;对应的读写模式和寄存器如下所示&#xff1a; 2.2 NS16550a 的初始化 线路控制寄存器&#…...

#SVA语法滴水穿石# (004)关于 ended 和 triggered 用法

在 SystemVerilog 断言(SVA, SystemVerilog Assertions)中,ended 是一个用于 序列(sequence) 的关键字,它表示某个序列(sequence)在特定时间点已经成功匹配(即“结束”)。 ended 主要用于 同步不同序列的时间关系,尤其是在多序列组合或属性(property)中需要对齐时…...

软件学报 区块链论文 截止2025年4月 录用汇总 附pdf下载

截止 2025年4月 软件学报 2024年 区块链论文 录用汇总 附pdf下载 1 Title: 基于多父链辅助工作量证明共识机制的后量子区块链系统 Authors: Key words: 区块链;后量子密码;共识机制;辅助工作量证明 Abstract: 随着量子计算机的发展,对于以传统椭圆曲线数字签名为基石的公…...

损失函数篇——针对YOLO-MIFIN模型

1. 总损失函数&#xff08;公式9&#xff09; L all λ conf L conf λ cls L cls λ loc L loc (9) L_{\text{all}} \lambda_{\text{conf}} L_{\text{conf}} \lambda_{\text{cls}} L_{\text{cls}} \lambda_{\text{loc}} L_{\text{loc}} \tag{9} Lall​λconf​Lconf​λ…...