当前位置：首页 > news >正文

Transformer 论文学习笔记

news 2026/2/8 16:14:11

重新学习了一下，整理了一下笔记

论文：《Attention Is All You Need》
代码：http://nlp.seas.harvard.edu/annotated-transformer/
地址：https://arxiv.org/abs/1706.03762v5
翻译：Transformer论文翻译

特点：

提出一种不使用 RNN、CNN，仅使用注意力机制的新模型 Transformer；
只关注句内各 token 之间的关系；
使用矩阵计算长程token之间的关联，提升注意力的计算效率；
使用位置嵌入，为不同位置的token赋予不同的含义。

核心贡献：

Self-Attention

Transformer 的基本结构

在这里插入图片描述

如图，其结构主要分为 Encoder 与 Decoder 两部分，基本单元是 Multi-Head Attention、Layer Norm、Residual Connect、Feed Forward Network，其中 Decoder 每一子块的输入处还有一个 Masked Multi-Head Attention。
Encoder 的输出会被送到 Decoder 的每一个子块中。

Self-Attention

在这里插入图片描述

$\text{Self-Attention}(K,Q,V)=\text{softmax}(\frac{QK^T}{\sqrt{d}})V$

上图 左侧是 Self-Attention 的计算流程；
从计算图以及共识来看，Self-Attention 是被 $\sqrt{d}$ Scaled 过的，原因是：该因子可以抑制 $QK^T$ 中过大的值，以防止梯度消失现象的出现；
softmax 负责计算概率化的注意力分布，该分布负责在 V 中选择与 Qi 关联度较高的 values；
$QK^T$ 的目的是利用矩阵运算一次性计算出每个 $Q_i$ 与所有 keys 的点积，同理，后面也一次性地为每个 $Q_i$ 筛选出相应的 values。这种方法优点是 Self-Attention 可以无视句中 token 之间的距离，以此获得更高的性能，缺点是计算量庞大；
上图右侧是 Multi-Head Self-Attention 的计算流程，原因是：Multi-Head 增加了特征子空间的数量，使模型能够获取更加丰富的语义信息；
文本信息是有先后顺序的，为了防止 Decoder 在处理 LLM 任务时出现信息向“历史”方向传播的现象，需要对一些与 illegal 连接关联的 values 采用 mask out 的操作，即屏蔽掉（设置为 $-\infin$ ），即只能用前面的token预测后面的token，不能反过来。

Self-Attention 的一个缺点及修补方式

缺点：点积运算无法对序列中 token 出现的位置进行建模，这样会导致模型无法充分地利用数据上下文中所蕴含的丰富的语义信息。
解决方式：引入位置嵌入（Position Embedding、Position Encoding）

PE_{pos,2i}=sin(pos/10000^{2i/d_{model}})
PE_{pos,2i+1}=cos(pos/10000^{2i/d_{model}})

使用三角函数的原因：模型借此可为每个token获取相对位置信息（对任意偏移量 $k$ ， $PE_{pos+k}$ 都可以作为 $PE_{pos}$ 的线性函数），此外它还可以把模型外推到比训练中最长的序列更长的序列中去。

Self-Attention 的复杂度：
在这里插入图片描述

Transformer 论文学习笔记

重新学习了一下，整理了一下笔记论文：《Attention Is All You Need》代码：http://nlp.seas.harvard.edu/annotated-transformer/ 地址：https://arxiv.org/abs/1706.03762v5 翻译：Transformer论文翻译特点&#xff1…...

编程日记 2023/7/31 12:39:37

Open3D(C++) 根据索引提取点云

目录一、功能概述1、主要函数2、源码二、代码实现三、结果展示本文由CSDN点云侠原创，原文链接。爬虫网站自重，把自己当个人一、功能概述 1、主要函数 std::shared_ptr<PointCloud> SelectByIn...

编程日记 2023/7/31 12:38:34

企业服务器数据库中了_locked勒索病毒怎么解密，_勒索病毒简介与防护

网络技术的发展也为互联网安全带来了一定威胁，对于企业来说，数据安全是关系整个企业正常运行的基础，保护好计算机免受网络威胁的攻击成为大家的一致目标。不过，近期，我们收到很多企业的求助，企业的服务器数…...

编程日记 2023/7/31 12:37:30

面试题什么是 MyBatis 的接口绑定,有什么好处？

1. 简化开发：接口绑定使得SQL操作变得更加简单和直观。你只需要定义一个接口，声明对数据库的操作方法，MyBatis会动态生成实现类，自动执行SQL语句，无需手动编写SQL或SQL映射文件。 2. 提高可维护性：使用接口…...

编程日记 2023/7/31 12:36:29

[RocketMQ] Consumer 负载均衡服务 RebalanceService入口源码 (十五)

RocketMQ一个消费者组中可以有多个消费者, 在集群模式下他们共同消费topic下的所有消息, RocketMQ规定一个消息队列仅能被一个消费者消费, 但是一个消费者可以同时消费多个消息队列。需要负载均衡服务RebalanceService来进行消息队列分配的重平衡。使用负载均衡服务RebalanceSe…...

编程日记 2023/7/31 12:35:28

【K210】K210学习笔记六——MaixHub在线模型训练识别数字

【K210】K210学习笔记六——MaixHub在线模型训练识别数字前言K210准备工作数据的获取MaixHub如何在线训练模型训练模型在K210上的测试小结前言本人大四学生，电赛生涯已经走到尽头，一路上踩过不少坑，但运气也不错拿了两年省一，…...

编程日记 2023/7/31 12:34:27

142. 环形链表 II

142. 环形链表 II 中等 2.2K 相关企业给定一个链表的头节点 head ，返回链表开始入环的第一个节点。如果链表无环，则返回 null。如果链表中有某个节点，可以通过连续跟踪 next 指针再次到达，则链表中存在环。为了表示给定…...

编程日记 2023/7/31 12:33:25

Flutter系列文章-Flutter进阶2

这一节我将再详细地为您介绍 Flutter 进阶主题，包括导航和路由、状态管理、异步处理、HTTP请求和Rest API，以及数据持久化。让我们逐个介绍这些主题。 1.导航和路由在 Flutter 中，导航和路由是构建多页面应用的关键概念。导航是指从一个页…...

编程日记 2023/7/31 12:32:24

代码 <div classNamekuang></div> css代码 .kuang {height: 500px;width: 400px;// background-color: #fff;position: absolute;z-index: 10;bottom: 0;transform: translateX(-390px)}.kuang:hover {animation: myanimation 3s linear 1;animation-fill-mode:f…...

编程日记 2023/7/31 12:31:23

【Spring Cloud Alibaba】限流--Sentinel

文章目录概述一、Sentinel 是啥？二、Sentinel 的生态环境三、Sentinel 核心概念3.1、资源3.2、规则四、Sentinel 限流4.1、单机限流4.1.1、引入依赖4.1.2、定义限流规则4.1.3、定义限流资源4.1.4、运行结果 4.2、控制台限流4.2.1、客户端接入控制台4.2.2、引入依赖…...

编程日记 2023/7/31 12:30:22

ARM将常数加载到寄存器方法之LDR伪指令

一、是什么？ LDR Rd,const伪指令可在单个指令中构造任何32位数字常数,使用伪指令可以生成超过MOV和MVN指令允许范围的常数. 实现原理: (1)如果可以用MOV或MVN指令构造该常数,则汇编程序会生成适当的指令 (2)如果不能用MOV或MVN指令构造该常数,则汇编程序会执行下列…...

编程日记 2023/7/31 12:29:21

深入理解Gradle构建系统的工作原理

🌷🍁 博主猫头虎带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》文章图文并茂🦕生动形象🦖简单易学！欢迎大家来踩踩~🌺 &a…...

编程日记 2023/7/31 12:28:20

STM32F030C8T6输出3路PWM

1,常规套餐上电初始化 SystemInit(); TIM1_Init(); 2,TIMI1初始化 TIM_TimeBaseInitTypeDef TIM1_TimeBaseStructure; TIM_OCInitTypeDef TIM1_OCInitStructure; NVIC_InitTypeDef NVIC_InitStructure; GPIO_InitTypeDef GPIO_InitStructure; //记得打开时钟 RCC_AHBPeriphClo…...

编程日记 2023/7/31 12:27:17

如何理解原型及原型链？js的继承方式

原型与原型链原型在js中，每个对象都有一个原型（prototype）。原型是一个对象，其他对象可以通过原型来共享属性和方法。当我们创建一个对象时，它会自动关联到一个原型对象。例如：function Person(name, a…...

编程日记 2023/7/31 12:26:15

C# 按表格中的某列排序/查询

using System; using System.Data; using System.Linq;class Program {static void Main(){// 创建一个示例的 DataTable 对象DataTable table new DataTable();table.Columns.Add("ID", typeof(int));table.Columns.Add("Name", typeof(string));table.R…...

编程日记 2023/7/31 12:25:13

【Vue】】img使用 :src 动态绑定图片地址，但是加载图片不成功

问题复现： img标签直接动态绑定图片的相对路径的时候，图片不能正常显示。代码如下所示 <view style"margin: 20rpx" v-for"(item, index) in showSampleImage" :key"index"><u-image :src"item.src"…...

编程日记 2023/7/31 12:24:12

list模拟

之前模拟了string,vector，再到现在的list，list的迭代器封装最让我影响深刻。本次模拟的list是双向带头节点的循环链表，该结构虽然看起来比较复杂，但是却非常有利于我们做删除节点的操作，结构图如下。由于其节点结构特…...

编程日记 2023/7/31 12:23:10

python字典：怎么取出key对应的值

目录 python中的字典是什么怎么判断key是否在字典中怎么取出key对应的值总结 python中的字典是什么在Python中，字典（Dictionary）是一种无序且可变的数据类型，用于存储键-值（Key-Value）对。字典通过…...

编程日记 2023/7/31 12:22:08

okvis

论文 Keyframe-Based Visual-Inertial SLAM Using Nonlinear Optimization 摘要由于两种感知模式的互补性，视觉和惯性线索的融合在机器人中变得很流行。虽然迄今为止大多数融合策略都依赖于过滤方案，但视觉机器人界最近转向了非线性优化方法&#x…...

编程日记 2023/7/31 12:21:06

fabric js双击弹出菜单, 双击弹出输入框修改文字群组对象

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>测试1</title><style type"text/css">body {background-color: #ccc;float: left;}#main {background-color: #fff;border: 1px…...

编程日记 2023/7/31 12:20:06

visual studio 2022更改主题为深色

visual studio 2022更改主题为深色点击visual studio 上方的工具-> 选项在选项窗口中，选择环境 -> 常规 ，将其中的颜色主题改成深色点击确定，更改完成...

编程新知 2026/1/25 11:13:37

Rust 异步编程

Rust 异步编程引言 Rust 是一种系统编程语言，以其高性能、安全性以及零成本抽象而著称。在多核处理器成为主流的今天，异步编程成为了一种提高应用性能、优化资源利用的有效手段。本文将深入探讨 Rust 异步编程的核心概念、常用库以及最佳实践。异步编程基础什么是异步…...

编程新知 2025/11/17 18:58:56

实现弹窗随键盘上移居中

实现弹窗随键盘上移的核心思路在Android中，可以通过监听键盘的显示和隐藏事件，动态调整弹窗的位置。关键点在于获取键盘高度，并计算剩余屏幕空间以重新定位弹窗。 // 在Activity或Fragment中设置键盘监听 val rootView findViewById<V…...

编程新知 2025/10/6 18:46:56

Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决

Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决问题背景在一个基于 Spring Cloud Gateway WebFlux 构建的微服务项目中，新增了一个本地验证码接口 /code，使用函数式路由（RouterFunction）和 Hutool 的 Circle…...

编程新知 2026/1/31 6:38:50