当前位置：首页 > news >正文

Attention is all you need 论文笔记

news 2025/12/22 11:07:04

该论文引入Transformer，主要核心是自注意力机制，自注意力（Self-Attention）机制是一种可以考虑输入序列中所有位置信息的机制。

RNN介绍

引入RNN为了更好的处理序列信息，比如我吃苹果，前后的输入之间是有联系的。

如图：

一文搞懂RNN图引用

引入Transformer的原因

解决长距离依赖的问题：传统的RNN存在梯度消失和梯度爆炸的问题，难以有效捕获长距离依赖关系。而Transformer引入了注意力机制，使模型可以在序列中捕获远距离依赖关系。
并行计算：RNN和循环连接的特点使得它们难以并行计算，限制了计算速度。相比之下，Transformer模型的注意力机制允许模型在每个时间步骤上并行计算，大大加速计算速度。
可扩展性：Transformer模型可以适用与不同长度的序列

Attention函数分析

注意力机函数值注意力机制的核心组成部分，它定义了如何计算注意力权重，以及使用这些权重聚合数据来获取上下文表示。注意力函数包括：

Query：查询用于确定关注哪些输入元素的向量或表示。在自注意力机制中，通常是前一个时间步骤的隐藏状态或者上下文表示。
key：键是与输入元素相关的向量表示。注意力机制通过比较query和key的相似性来决定要关注哪些输入
value：值是与键对应的输入元素的向量或表示。注意力机制根据query和key的相似性来为每个值分配权重，这些权重将用于生成上下文表示。
score：分数表示key和query的相似性，分数越高表示查询更关注与键相关的输入。例如向量a和向量b，它的点积 $a·b = |a||b|cos\Theta$ ， $\Theta$ 越小， $cos\Theta$ 越大，两个向量之间相似性越高。
注意力权重：是一个概率分布，表示对每个输入元素的关注程度。通常由softmax得到，确保总和为1.
上下文表示：通过注意力权重对值进行加权求和得到，它是对输入元素的聚合表示，反应了模型的关注点。

注意力函数的一般计算步骤

计算query和key的相似性分数，通过点积、加性模型或者缩放点积等方式实现。
对相似性分数进行softmax操作，以此获得注意力权重，确保他们归一化为概率分布。
使用注意力权重对值加权求和，以此生成上下文表示。

对于自注意力机制来说

query、key、value：自注意力的核心是通过三个线性变换来为每个位置生成这三个向量。这些向量在输入序列中的每个位置都有一个。对于给定的位置，query 用于提出问题，key 用于提供答案的位置信息，而value 包含了实际的信息。
计算注意力分数：计算分数通过将query和所有位置的key 进行点积操作得到的。注意力分户可以看成是度量两个位置之间关联性的分数，他表示了一个位置对于其他位置的关注程度。
softmax 操作进行归一化：为了获得有效的注意力权重，对计算得到的注意力分数进行归一化处理。为了确保每个位置权重是有效的概率分布，从而更好的表达位置之间的关联性。
计算加权和：对得到的归一化之后的注意力权重和对应位置的value进行加权求和，得到每个位置的上下文表示。

多头注意力机制

是一种扩展的自注意力机制，它允许模型同时学习多个不同的关注模式。多头注意力机制将自注意力计算分为多个头，每个头学习不同的权重矩阵，以捕获不同类型的关联性。多个头的结果会拼接或合并，然后通过线性变换进行投影。

选择缩放点积原因

点积和加性注意力理论复杂度相似，但是在实践中点积注意力的速度更快、更节省空间，因为它可以使用高度优化的矩阵乘法代码来实现
对于键K的维度 $d_{k}$ 越大，加性注意力的性能比点击好，所以我们怀疑对于很大的维度，点积会大幅度增长，为了抵消这种影响，我们使用缩小点积。

缩放点积

是注意力机制中一种常见的类型，通过和自注意力机制一起使用，它的目的是确保在计算注意力分数的时候，使得范围适中，避免梯度消失或者梯度爆炸。下面是介绍缩放点积的步骤：

Query、Key、Value：这是缩放点积的三个输入，通常来自于一个序列。
相似性分数计算：计算查询和键之间的相似性。将查询和键之间的点积作为相似性分数。具体而言就是，对于给定的查询Q和键K，计算相似性分数矩阵为：
```
Score = Q*K^T
```
其中K^T表示键K的转置矩阵。每个Scores[i][j]表示查询的第i个元素和键的第j个元素的相似性。
缩放：为了稳定训练过程，缩放点积对相似性分数进行缩放操作，通过操作是除以一个缩放因子来实现。缩放因子通常是键K的维度的平方根。即：.缩放后的相似性分数Scale_Scores有助于控制梯度大小，防止梯度爆炸或者消失。
```
Scale_Scores = Scores / sqrt(d_k)
```
计算注意力权重：对缩放后的相似性分数进行softmax操作，将其转化为概率分布，得到注意力权重。这些权重表示了对输入序列不同位置的关注程度。
```
attention_weight = softmax(Scale_Scores)
```

结论

在这项工作中，提出了 Transformer，这是一个完全基于注意力的序列转换模型。注意，用多头自注意力取代了编码器-解码器架构中最常用的递归层。

Attention is all you need 论文笔记

该论文引入Transformer，主要核心是自注意力机制，自注意力（Self-Attention）机制是一种可以考虑输入序列中所有位置信息的机制。 RNN介绍引入RNN为了更好的处理序列信息，比如我吃苹果，前后的输入之间是有…...

编程日记 2023/9/17 16:47:13

Hdoop伪分布式集群搭建

文章目录 Hadoop安装部署前言1.环境2.步骤3.效果图具体步骤（一）前期准备（1）ping外网（2）配置主机名（3）配置时钟同步（4）关闭防火墙 （二&#xff09…...

编程日记 2023/9/17 16:46:12

java临时文件

临时文件有时候，我们程序运行时需要产生中间文件，但是这些文件只是临时用途，并不做长久保存。我们可以使用临时文件，不需要长久保存。 public static File createTempFile(String prefix, String suffix)prefix 前缀 suffix …...

编程日记 2023/9/17 16:45:11

C++中的＜string＞头文件和＜cstring＞头文件简介

C中的<string>头文件和 <cstring>头文件简介在C中<string> 和 <cstring> 是两个不同的头文件。 <string> 是C标准库中的头文件，定义了一个名为std::string的类，提供了对字符串的操作如size()、length()、empty() 及字…...

编程日记 2023/9/17 16:43:09

安装MySQL

Centos7下安装MySQL详细步骤_centos7安装mysql教程_欢欢李的博客-CSDN博客...

编程日记 2023/9/17 16:42:08

输入学生成绩，函数返回最大元素的数组下标，求最高分学生成绩（输入负数表示输入结束）

scanfscore()函数用于输入学生的成绩 int scanfscore(int score[N])//输入学生的成绩 {int i -1;do {i;printf("输入学生成绩:");scanf("%d", &score[i]);} while (score[i] > 0);return i; } findmax()用于寻找最大值 int findmax(int score[N…...

编程日记 2023/9/17 16:40:06

常用音频接口：TDM，PDM，I2S，PCM

常用音频接口：TDM，PDM，I2S，PCM_tdm音频_沙漠的甲壳虫的博客-CSDN博客 I2S/PCM接口及音频codec_音频pcm接口模块设计-CSDN博客 2个TDM8功放调试ing_周龙(AI湖湘学派)的博客-CSDN博客数字音频接口时序----IIS、TDM、PCM、PDM_td…...

编程日记 2023/9/17 16:39:05

git clone报错Failed to connect to github.com port 443 after 21055 ms:

git 设置代理端口号 git config --global http.proxy http://127.0.0.1:10085 和 git config --global https.proxy http://127.0.0.1:10085 然后就可以成功git clone hugging face的数据集了如果是https://huggingface.co/datasets/shibing624/medical/tree/main 那么…...

编程日记 2023/9/17 16:38:04

【操作系统】深入浅出死锁问题

死锁的概念在多线程编程中，我们为了防止多线程竞争共享资源而导致数据错乱，都会在操作共享资源而导致数据错乱，都会在操作共享资源之前加上互斥锁，只有成功获得到锁的线程，才能操作共享资源，获取不到锁的…...

编程日记 2023/9/17 16:37:02

springboot实现webSocket服务端和客户端demo

1：pom导入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-websocket</artifactId><version>2.2.7.RELEASE</version></dependency>2：myWebSocketClien…...

编程日记 2023/9/17 16:35:00

代码走读: FFMPEG-ffplayer02

AVFrame int attribute_align_arg avcodec_receive_frame(AVCodecContext *avctx, AVFrame *frame) 选取一个音频解码器和一个视频解码器分别介绍该解码器功能音频G722 g722dec.c -> g722_decode_frame 通过 ff_get_buffer 给传入的 frame 指针分配内存 g722_decode_…...

编程日记 2023/9/17 16:33:59

【数据结构】——排序算法的相关习题

目录一、选择题题型一 （插入排序）1、直接插入排序2、折半插入排序3、希尔排序题型二（交换排序）1、冒泡排序2、快速排序题型三（选择排序）1、简单选择排序~2、堆排序 ~题型四（归并排序&#xf…...

编程日记 2023/9/17 16:32:58

C高级day5（Makefile）

一、Xmind整理： 二、上课笔记整理： 1.#----->把带参宏的参数替换成字符串 #include <stdio.h> #include <stdlib.h> #include <string.h> #define MAX(a,b) a>b?a:b #define STR(n) #n int main(int argc, const char *argv…...

编程日记 2023/9/17 16:31:57

Android 系统中适配OAID获取

一、OAID概念 OAID（Open Anonymous Identification）是一种匿名身份识别标识符， 用于在移动设备上进行广告追踪和个性化广告投放。它是由中国移动通信集团、中国电信集团和中国联通集团共同推出的一项行业标准 OAID值为一个64位的数字二、…...

编程日记 2023/9/17 16:29:56

差分数组leetcode 2770 数组的最大美丽值

什么是差分数组差分数组是一种数据结构，它存储的是一个数组每个相邻元素的差值。换句话说，给定一个数组arr[]，其对应的差分数组diff[]将满足： diff[i] arr[i1] - arr[i] 对于所有 0 < i < n-1 差分数组的作用用于高效…...

编程日记 2023/9/17 16:28:55

请求响应状态码

请求与响应&状态码 Requests部分请求行、消息报头、请求正文。 Header解释示例Accept指定客户端能够接收的内容类型Accept: text/plain, text/htmlAccept-Chars et浏览器可以接受的字符编码集。Accept-Charset: iso-8859-5Accept-Encodi ng指定浏览器可以支持的web服务…...

编程日记 2023/9/17 16:26:52

安卓机型系统美化 Color.xml文件必备常识自定义颜色资源

color.xml文件是Android工程中用来进行颜色资源管理的文件.可以在color.xml文件中通过<color>标签来定义颜色资源.我们在布局文件中、代码中、style定义中或者其他资源文件中，都可以引用之前在color.xml文件中定义的颜色资源。将color.xml文件拷到res/value…...

编程日记 2023/9/17 16:22:49

YOLO物体检测-系列教程1：YOLOV1整体解读（预选框/置信度/分类任/回归任务/损失函数/公式解析/置信度/非极大值抑制）

🎈🎈🎈YOLO 系列教程总目录 YOLOV1整体解读 YOLOV2整体解读 YOLOV1提出论文：You Only Look Once: Unified, Real-Time Object Detection 1、物体检测经典方法 two-stage（两阶段）：Faster-rc…...

编程日记 2023/9/17 16:17:44

2023/9/12 -- C++/QT

作业实现一个图形类（Shape），包含受保护成员属性：周长、面积， 公共成员函数：特殊成员函数书写定义一个圆形类（Circle），继承自图形类，包含私有属性&#xf…...

编程日记 2023/9/17 16:16:43

【Purple Pi OH RK3566鸿蒙开发板】OpenHarmony音频播放应用，真实体验感爆棚！

本文转载于Purple Pi OH开发爱好者，作者ITMING 。原文链接：https://bbs.elecfans.com/jishu_2376383_1_1.html 01注意事项 DevEco Studio 4.0 Beta2（Build Version: 4.0.0.400） OpenHarmony SDK API 9 创建工程类型选择Appli…...

编程日记 2023/9/17 16:14:40

web vue 项目 Docker化部署

Web 项目 Docker 化部署详细教程目录 Web 项目 Docker 化部署概述Dockerfile 详解构建阶段生产阶段构建和运行 Docker 镜像 1. Web 项目 Docker 化部署概述 Docker 化部署的主要步骤分为以下几个阶段： 构建阶段（Build Stage）&#xff1a…...

编程新知 2025/8/12 16:28:43

Zustand 状态管理库：极简而强大的解决方案

Zustand 是一个轻量级、快速和可扩展的状态管理库，特别适合 React 应用。它以简洁的 API 和高效的性能解决了 Redux 等状态管理方案中的繁琐问题。核心优势对比基本使用指南 1. 创建 Store // store.js import create from zustandconst useStore create((set)…...

编程新知 2025/12/19 21:51:58

Spring Boot 实现流式响应（兼容 2.7.x）

在实际开发中，我们可能会遇到一些流式数据处理的场景，比如接收来自上游接口的 Server-Sent Events（SSE） 或流式 JSON 内容，并将其原样中转给前端页面或客户端。这种情况下，传统的 RestTemplate 缓存机制会…...

编程新知 2025/8/11 8:18:44

循环冗余码校验CRC码算法步骤+详细实例计算

通信过程：（白话解释） 我们将原始待发送的消息称为 M M M，依据发送接收消息双方约定的生成多项式 G ( x ) G(x) G(x)（意思就是 G （ x ) G（x) G（x) 是已知的）&#xff0…...

编程新知 2025/12/17 19:23:38

学校招生小程序源码介绍

基于ThinkPHPFastAdminUniApp开发的学校招生小程序源码，专为学校招生场景量身打造，功能实用且操作便捷。从技术架构来看，ThinkPHP提供稳定可靠的后台服务，FastAdmin加速开发流程，UniApp则保障小程序在多端有良好的兼…...

编程新知 2025/12/21 4:10:55

macOS多出来了：Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用

文章目录问题现象问题原因解决办法问题现象 macOS启动台（Launchpad）多出来了：Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用。问题原因很明显，都是Google家的办公全家桶。这些应用并不是通过独立安装的…...

编程新知 2025/12/4 19:00:05

.Net Framework 4/C# 关键字（非常用，持续更新...）

一、is 关键字 is 关键字用于检查对象是否于给定类型兼容，如果兼容将返回 true，如果不兼容则返回 false，在进行类型转换前，可以先使用 is 关键字判断对象是否与指定类型兼容，如果兼容才进行转换，这样的转换是安全的。例如有：首先创建一个字符串对象，然后将字符串对象隐…...

编程新知 2025/9/25 18:41:38

今日学习：Spring线程池|并发修改异常|链路丢失|登录续期|VIP过期策略|数值类缓存

文章目录优雅版线程池ThreadPoolTaskExecutor和ThreadPoolTaskExecutor的装饰器并发修改异常并发修改异常简介实现机制设计原因及意义使用线程池造成的链路丢失问题线程池导致的链路丢失问题发生原因常见解决方法更好的解决方法设计精妙之处登录续期登录续期常见实现方式特…...

编程新知 2025/9/17 22:26:02

Angular微前端架构：Module Federation + ngx-build-plus (Webpack)

以下是一个完整的 Angular 微前端示例，其中使用的是 Module Federation 和 npx-build-plus 实现了主应用（Shell）与子应用（Remote）的集成。 🛠️ 项目结构 angular-mf/ ├── shell-app/ # 主应用&…...

编程新知 2025/12/3 10:52:37

Rust 开发环境搭建

环境搭建 1、开发工具RustRover 或者vs code 2、Cygwin64 安装 https://cygwin.com/install.html 在工具终端执行： rustup toolchain install stable-x86_64-pc-windows-gnu rustup default stable-x86_64-pc-windows-gnu 2、Hello World fn main() { println…...

编程新知 2025/12/22 9:45:35