当前位置：首页 > news >正文

自然语言处理---Self Attention自注意力机制

news 2026/2/9 17:07:16

Self-attention介绍

Self-attention是一种特殊的attention，是应用在transformer中最重要的结构之一。attention机制，它能够帮助找到子序列和全局的attention的关系，也就是找到权重值wi。Self-attention相对于attention的变化，其实就是寻找权重值的wi过程不同。

为了能够产生输出的向量yi，self-attention其实是对所有的输入做了一个加权平均的操作，这个公式和上面的attention是一致的。
j代表整个序列的长度，并且j个权重的相加之和等于1。值得一提的是，这里的 wij并不是一个需要神经网络学习的参数，它是来源于xi和xj的之间的计算的结果（这里wij的计算发生了变化)。它们之间最简单的一种计算方式，就是使用点积的方式。

xi和xj是一对输入和输出。对于下一个输出的向量yi+1，有一个全新的输入序列和一个不同的权重值。

这个点积的输出的取值范围在负无穷和正无穷之间，所以要使用一个softmax把它映射到[0,1] 之间，并且要确保它们对于整个序列而言的和为1。
以上这些就是self-attention最基本的操作。

Self-attention和Attention使用方法

根据他们之间的重要区别，可以区分在不同任务中的使用方法：

在神经网络中，通常来说会有输入层（input），应用激活函数后的输出层（output），在RNN当中会有状态（state）。如果attention (AT) 被应用在某一层的话，它更多的是被应用在输出或者是状态层上，而当使用self-attention（SA），这种注意力的机制更多的实在关注input上。
Attention (AT) 经常被应用在从编码器（encoder）转换到解码器（decoder）。比如说，解码器的神经元会接受一些AT从编码层生成的输入信息。在这种情况下，AT连接的是**两个不同的组件**（component），编码器和解码器。但是如果用**SA**，它就不是关注的两个组件，它只是在关注应用的**那一个组件**。那这里就不会去关注解码器了，就比如说在Bert中，使用的情况，就没有解码器。
SA可以在一个模型当中被多次的、独立的使用（比如说在Transformer中，使用了18次；在Bert当中使用12次）。但是，AT在一个模型当中经常只是被使用一次，并且起到连接两个组件的作用。
SA比较擅长在一个序列当中，寻找不同部分之间的关系。比如说，在词法分析的过程中，能够帮助去理解不同词之间的关系。AT却更擅长寻找两个序列之间的关系，比如说在翻译任务当中，原始的文本和翻译后的文本。这里也要注意，在翻译任务重，SA也很擅长，比如说Transformer。
AT可以连接两种不同的模态，比如说图片和文字。SA更多的是被应用在同一种模态上，但是如果一定要使用SA来做的话，也可以将不同的模态组合成一个序列，再使用SA。
其实有时候大部分情况，SA这种结构更加的general，在很多任务作为降维、特征表示、特征交叉等功能尝试着应用，很多时候效果都不错。

Self-attetion实现步骤

这里实现的注意力机制是现在比较流行的点积相乘的注意力机制
self-attention机制的实现步骤
- 第一步: 准备输入
- 第二步: 初始化参数
- 第三步: 获取key，query和value
- 第四步: 给input1计算attention score
- 第五步: 计算softmax
- 第六步: 给value乘上score
- 第七步: 给value加权求和获取output1
- 第八步: 重复步骤4-7，获取output2，output3

1. 准备输入

# 这里随机设置三个输入, 每个输入的维度是一个4维向量
import torch
x = [[1, 0, 1, 0], # Input 1[0, 2, 0, 2], # Input 2[1, 1, 1, 1]  # Input 3
]
x = torch.tensor(x, dtype=torch.float32)

2. 初始化参数

# 每一个输入都有三个表示，分别为key（橙黄色），query（红色），value（紫色）。
# 每一个表示，希望是一个3维的向量。由于输入是4维，所以参数矩阵为 4*3 维。

# 为了能够获取这些表示，每一个输入（绿色）要和key，query和value相乘

# 在例子中，使用如下的方式初始化这些参数。
w_key = [[0, 0, 1],[1, 1, 0],[0, 1, 0],[1, 1, 0]
]
w_query = [[1, 0, 1],[1, 0, 0],[0, 0, 1],[0, 1, 1]
]
w_value = [[0, 2, 0],[0, 3, 0],[1, 0, 3],[1, 1, 0]
]
w_key = torch.tensor(w_key, dtype=torch.float32)
w_query = torch.tensor(w_query, dtype=torch.float32)
w_value = torch.tensor(w_value, dtype=torch.float32)print("w_key: \n", w_key)
print("w_query: \n", w_query)
print("w_value: \n", w_value)

3. 获取key，query和value

# 使用向量化获取keys的值
[0, 0, 1]
[1, 0, 1, 0] [1, 1, 0] [0, 1, 1]
[0, 2, 0, 2] x [0, 1, 0] = [4, 4, 0]
[1, 1, 1, 1] [1, 1, 0] [2, 3, 1]

# 使用向量化获取values的值
[0, 2, 0]
[1, 0, 1, 0] [0, 3, 0] [1, 2, 3]
[0, 2, 0, 2] x [1, 0, 3] = [2, 8, 0]
[1, 1, 1, 1] [1, 1, 0] [2, 6, 3]

# 使用向量化获取querys的值
[1, 0, 1]
[1, 0, 1, 0] [1, 0, 0] [1, 0, 2]
[0, 2, 0, 2] x [0, 0, 1] = [2, 2, 2]
[1, 1, 1, 1] [0, 1, 1] [2, 1, 3]

# 将query key  value分别进行计算
keys = x @ w_key
querys = x @ w_query
values = x @ w_value
print("Keys: \n", keys)
print("Querys: \n", querys)
print("Values: \n", values)

4. 给input1计算attention score

# 获取input1的attention score，使用点乘来处理所有的key和query，包括自己的key和value。
# 这样就能够得到3个key的表示（因为有3个输入），就获得了3个attention score（蓝色）
[0, 4, 2]
[1, 0, 2] x [1, 4, 3] = [2, 4, 4]
[1, 0, 1]

# 注意: 这里只用input1举例。其他的输入的query和input1做相同的操作.

attn_scores = querys @ keys.T
print(attn_scores)

5. 计算softmax

from torch.nn.functional import softmaxattn_scores_softmax = softmax(attn_scores, dim=-1)
print(attn_scores_softmax)
attn_scores_softmax = [[0.0, 0.5, 0.5],[0.0, 1.0, 0.0],[0.0, 0.9, 0.1]
]
attn_scores_softmax = torch.tensor(attn_scores_softmax)
print(attn_scores_softmax)softmax([2, 4, 4]) = [0.0, 0.5, 0.5]

6. 给value乘上score

使用经过softmax后的attention score乘以它对应的value值（紫色），这样就得到了3个weighted values（黄色）

1: 0.0 * [1, 2, 3] = [0.0, 0.0, 0.0]
2: 0.5 * [2, 8, 0] = [1.0, 4.0, 0.0]
3: 0.5 * [2, 6, 3] = [1.0, 3.0, 1.5]

weighted_values = values[:,None] * attn_scores_softmax.T[:,:,None]
print(weighted_values)

7. 给value加权求和获取output1

把所有的weighted values（黄色）进行element-wise的相加。

[0.0, 0.0, 0.0]

+ [1.0, 4.0, 0.0]

+ [1.0, 3.0, 1.5]

------------------------

= [2.0, 7.0, 1.5]

得到结果向量[2.0, 7.0, 1.5]（深绿色）就是ouput1的和其他key交互的query representation

8. 重复步骤4-7，获取output2，output3

outputs = weighted_values.sum(dim=0)
print(outputs)

自然语言处理---Self Attention自注意力机制

Self-attention介绍 Self-attention是一种特殊的attention，是应用在transformer中最重要的结构之一。attention机制，它能够帮助找到子序列和全局的attention的关系，也就是找到权重值wi。Self-attention相对于attention的变化，其实…...

编程日记 2023/10/23 2:02:40

Python高级篇（08）：生成器

一、生成器定义和作用定义：Python中，一边循环一边计算的机制，生成器对象也是迭代器对象，支持for循环、next()方法…等。作用：循环的过程中不断推算出后续的元素，这样就不必创建完整的list，从而…...

编程日记 2023/10/23 2:00:36

力扣100114. 元素和最小的山形三元组 II（中等）

题目描述： 给你一个下标从 0 开始的整数数组 nums 。如果下标三元组 (i, j, k) 满足下述全部条件，则认为它是一个山形三元组 ： i < j < knums[i] < nums[j] 且 nums[k] < nums[j] 请你找出 nums 中元素和最小的山形三元组…...

编程日记 2023/10/23 1:59:35

LuatOS-SOC接口文档(air780E)--lcdseg - 段式lcd

常量常量类型解释 lcdseg.BIAS_STATIC number 没偏置电压(bias) lcdseg.BIAS_ONEHALF number 1/2偏置电压(bias) lcdseg.BIAS_ONETHIRD number 1/3偏置电压(bias) lcdseg.BIAS_ONEFOURTH number 1/4偏置电压(bias) lcdseg.DUTY_STATIC number 100%占空比(d…...

编程日记 2023/10/23 1:57:32

实现图像处理和分析的关键技术

在计算机视觉中，我们可以利用摄像头捕捉到的图像来进行各种分析和处理。以下是一些常见的计算机视觉任务： 对象检测：识别图像中的特定对象并标注其位置。人脸识别：识别和验证人脸身份。姿态估计：估计人体的姿态和动作…...

编程日记 2023/10/23 1:56:32

【C++学习笔记】内联函数

1. 概念以inline修饰的函数叫做内联函数，编译时C编译器会在调用内联函数的地方展开，没有函数调用建立栈帧的开销，内联函数提升程序运行的效率。如果在上述函数前增加inline关键字将其改成内联函数，在编译期间编译器会用函数…...

编程日记 2023/10/23 1:55:30

macOS Sonoma 14.1RC（23B73）发布

黑果魏叔10 月 18 日消息，苹果今日向 Mac 电脑用户推送了 macOS 14.1 RC更新（内部版本号：23B73），本次更新距离上次发布隔了 7 天。 macOS Sonoma 14.1RC（23B73）的更新内容主要包括以下方面&…...

编程日记 2023/10/23 1:54:29

数据结构数组 Array 手写实现，扩容原理

数组数据结构数组（Array）是一种线性表数据结构。它用一组连续的内存空间，来存储一组具有相同类型数据的集合。数组的特点： 数组是相同数据类型的元素集合（int 不能存放 double）数组中各元素的存储是有先…...

编程日记 2023/10/23 1:53:28

工作中几个问题的思考

对于需要并行多公司并行处理的任务，方案是什么？ 多线程、并行流、并发库（ExecutorService、Futrue、Callable），分布式计算（1）按照公司ID分片 （2）按照业务类型分片处理…...

编程日记 2023/10/23 1:51:26

Jmeter的性能测试

性能测试的概念定义：软件的性能是软件的一种非功能特性，它关注的不是软件是否能够完成特定的功能，而是在完成该功能时展示出来的及时性。由定义可知性能关注的是软件的非功能特性，所以一般来说性能测试介入的时机是在功能测试…...

编程日记 2023/10/23 1:50:25

IntelliJ IDEA 2020.2.1白票安装使用方法

先安装好idear Plugins 内手动添加第三方插件仓库地址：https://plugins.zhile.io 搜索：IDE Eval Reset插件进行安装输入https://plugins.zhile.io 手动安装离线插件方法安装包可以去笔者的CSDN资源库下载安装mybaties插件...

编程日记 2023/10/23 1:49:25

【UCAS自然语言处理作业一】利用BeautifulSoup爬取中英文数据，计算熵，验证齐夫定律

文章目录前言中文数据爬取爬取界面爬取代码数据清洗数据分析实验结果英文数据爬取爬取界面动态爬取数据清洗数据分析实验结果结论前言本文分别针对中文，英文语料进行爬虫，并在两种语言上计算其对应的熵，验证齐夫定律github: ShiyuNee…...

编程日记 2023/10/23 1:48:24

微信小程序之个人中心授权登录

🎬 艳艳耶✌️：个人主页 🔥 个人专栏 ：《Spring与Mybatis集成整合》《Vue.js使用》 ⛺️ 越努力 ，越幸运。 1.了解微信授权登录微信登录官网： 小程序登录https://developers.weixin.qq.com/miniprogram/d…...

编程日记 2023/10/23 1:47:22

Elasticsearch的聚集统计，可以进行各种统计分析

说明： Elasticsearch不仅是一个大数据搜索引擎，也是一个大数据分析引擎。它的聚集(aggregation)统计的REST端点可用于实现与统计分析有关的功能。Elasticsearch提供的聚集分为三大类。度量聚集(Metric aggregation)：度量聚集可以用于计算搜…...

编程日记 2023/10/23 1:41:18

Webpack 理解 input output 概念

一、介绍如果还没用过 Webpack 请先阅读 Webpack & 基础入门再回头看本文。 Webpack 的核心只做两件事，输入管理（Input Management）和输出管理（Output Management），什么花里胡哨的插件和配置都离不…...

编程日记 2023/10/23 1:38:15

【字符函数】

✨博客主页：小钱编程成长记 🎈博客专栏：进阶C语言 🎈相关博文：字符串函数（一）、字符串函数（二） 字符函数字符函数1.字符分类函数1.1 iscntrl - 判断是否是控制字符1.2 i…...

编程日记 2023/10/23 1:37:14

git创建与合并分支

文章目录创建与合并分支分支管理的概念实际操作解决冲突分支管理策略Bug分支Feature分支多人协作创建与合并分支分支管理的概念分支在实际中有什么用呢？假设你准备开发一个新功能，但是需要两周才能完成，第一周你写了50%的代码&#xf…...

编程日记 2023/10/23 1:34:11

【电子通识】USB TYPE-A 2.0/3.0连接器接口

基础知识 USB TYPE-A连接器又可称为USB-A，现在不少PC、PC周边、手机充电器等等都依然采用了这种扁平的矩形接口，是目前普及度最高的USB接口了。 USB-A亦有分为插头与插座。常见的USB-A数据线的A端就是插头，而充电器上的则是插座。插头和插座…...

编程日记 2023/10/23 1:32:09

org.apache.sshd的SshClient客户端连接服务器执行命令示例

引入依赖 <dependency><groupId>org.apache.sshd</groupId><artifactId>sshd-core</artifactId><version>2.9.1</version></dependency>示例代码，可以直接执行，也可以做替换命令、维护session等修改 p…...

编程日记 2023/10/23 1:31:08

深入剖析AI大模型：大模型时代的 Prompt 工程全解析

今天聊的内容，我认为是AI开发里面非常重要的内容。它在AI开发里无处不在，当你对 AI 助手说 "用李白的风格写一首关于人工智能的诗"，或者让翻译模型 "将这段合同翻译成商务日语" 时，输入的这句话就是 Prompt。…...

编程新知 2026/2/8 20:42:53

大话软工笔记—需求分析概述

需求分析，就是要对需求调研收集到的资料信息逐个地进行拆分、研究，从大量的不确定“需求”中确定出哪些需求最终要转换为确定的“功能需求”。需求分析的作用非常重要，后续设计的依据主要来自于需求分析的成果，包括: 项目的目的…...

编程新知 2026/1/28 10:58:50

树莓派超全系列教程文档--(62)使用rpicam-app通过网络流式传输视频

使用rpicam-app通过网络流式传输视频使用 rpicam-app 通过网络流式传输视频UDPTCPRTSPlibavGStreamerRTPlibcamerasrc GStreamer 元素文章来源： http://raspberry.dns8844.cn/documentation 原文网址使用 rpicam-app 通过网络流式传输视频本节介绍来自 rpica…...

编程新知 2025/11/5 13:03:58

Typeerror: cannot read properties of undefined (reading ‘XXX‘)

最近需要在离线机器上运行软件，所以得把软件用docker打包起来，大部分功能都没问题，出了一个奇怪的事情。同样的代码，在本机上用vscode可以运行起来，但是打包之后在docker里出现了问题。使用的是dialog组件，…...

编程新知 2025/9/24 3:05:06

Java毕业设计：WML信息查询与后端信息发布系统开发

JAVAWML信息查询与后端信息发布系统实现一、系统概述本系统基于Java和WML(无线标记语言)技术开发，实现了移动设备上的信息查询与后端信息发布功能。系统采用B/S架构，服务器端使用Java Servlet处理请求，数据库采用MySQL存储信息&#xff0…...

编程新知 2025/10/27 13:29:11

uniapp 小程序学习（一）

利用Hbuilder 创建项目运行到内置浏览器看效果下载微信小程序安装到Hbuilder 下载地址 ：开发者工具默认安装设置服务端口号在Hbuilder中设置微信小程序配置找到运行设置，将微信开发者工具放入到Hbuilder中， 打开后出现如下 bug 解…...

编程新知 2026/2/5 4:29:00

VisualXML全新升级 | 新增数据库编辑功能

VisualXML是一个功能强大的网络总线设计工具，专注于简化汽车电子系统中复杂的网络数据设计操作。它支持多种主流总线网络格式的数据编辑（如DBC、LDF、ARXML、HEX等），并能够基于Excel表格的方式生成和转换多种数据库文件。由此&…...

编程新知 2026/2/6 5:51:15

Vue 3 + WebSocket 实战：公司通知实时推送功能详解

📢 Vue 3 WebSocket 实战：公司通知实时推送功能详解 📌 收藏点赞关注，项目中要用到推送功能时就不怕找不到了！ 实时通知是企业系统中常见的功能，比如：管理员发布通知后，所有用户…...

编程新知 2025/12/1 3:22:57

怎么开发一个网络协议模块（C语言框架）之(六) ——通用对象池总结(核心)

+---------------------------+ | operEntryTbl[] | ← 操作对象池 (对象数组) +---------------------------+ | 0 | 1 | 2 | ... | N-1 | +---------------------------+↓ 初始化时全部加入 +------------------------+ +-------------------------+ | …...

编程新知 2025/8/28 4:17:05

基于 HTTP 的单向流式通信协议SSE详解

SSE（Server-Sent Events）详解 🧠 什么是 SSE？ SSE（Server-Sent Events） 是 HTML5 标准中定义的一种通信机制，它允许服务器主动将事件推送给客户端（浏览器）。与传统的 H…...

编程新知 2025/10/28 10:54:22