当前位置：首页 > news >正文

【NLP自然语言处理】深入探索Self-Attention：自注意力机制详解

news 2026/2/9 14:58:59

🍔 Self-attention的特点

🍔 Self-attention中的归一化概述

🍔 softmax的梯度变化

3.1 softmax函数的输入分布是如何影响输出的

3.2 softmax函数在反向传播的过程中是如何梯度求导的

3.3 softmax函数出现梯度消失现象的原因

🍔 维度与点积大小的关系

🍔 小结

学习目标

🍀 掌握self-attention的机制和原理.

🍀 掌握为什么要使用三元组(Q, K, V)来计算self-attention.

🍀 理解softmax函数的输入是如何影响输出分布的.

🍀 理解softmax函数反向传播进行梯度求导的数学过程.

🍀 理解softmax函数出现梯度消失的原因.

🍀 理解self-attention计算规则中归一化的原因.

🍔 Self-attention的特点

self-attention是一种通过自身和自身进行关联的attention机制, 从而得到更好的representation来表达自身.

self-attention是attention机制的一种特殊情况，在self-attention中, Q=K=V, 序列中的每个单词(token)都和该序列中的其他所有单词(token)进行attention规则的计算.

attention机制计算的特点在于, 可以直接跨越一句话中不同距离的token, 可以远距离的学习到序列的知识依赖和语序结构.

从上图中可以看到, self-attention可以远距离的捕捉到语义层面的特征(its的指代对象是Law).

应用传统的RNN, LSTM, 在获取长距离语义特征和结构特征的时候, 需要按照序列顺序依次计算, 距离越远的联系信息的损耗越大, 有效提取和捕获的可能性越小.

但是应用self-attention时, 计算过程中会直接将句子中任意两个token的联系通过一个计算步骤直接联系起来,

关于self-attention为什么要使用(Q, K, V)三元组而不是其他形式:

首先一条就是从分析的角度看, 查询Query是一条独立的序列信息, 通过关键词Key的提示作用, 得到最终语义的真实值Value表达, 数学意义更充分, 完备.
这里不使用(K, V)或者(V)没有什么必须的理由, 也没有相关的论文来严格阐述比较试验的结果差异, 所以可以作为开放性问题未来去探索, 只要明确在经典self-attention实现中用的是三元组就好.

self-attention公式中的归一化有什么作用? 为什么要添加scaled?

🍔 Self-attention中的归一化概述

训练上的意义: 随着词嵌入维度d_k的增大, q * k 点积后的结果也会增大, 在训练时会将softmax函数推入梯度非常小的区域, 可能出现梯度消失的现象, 造成模型收敛困难.
数学上的意义: 假设q和k的统计变量是满足标准正态分布的独立随机变量, 意味着q和k满足均值为0, 方差为1. 那么q和k的点积结果就是均值为0, 方差为d_k, 为了抵消这种方差被放大d_k倍的影响, 在计算中主动将点积缩放1/sqrt(d_k), 这样点积后的结果依然满足均值为0, 方差为1.

🍔 softmax的梯度变化

这里我们分3个步骤来解释softmax的梯度问题:

第一步: softmax函数的输入分布是如何影响输出的.
第二步: softmax函数在反向传播的过程中是如何梯度求导的.
第三步: softmax函数出现梯度消失现象的原因.

3.1 softmax函数的输入分布是如何影响输出的

对于一个输入向量x, softmax函数将其做了一个归一化的映射, 首先通过自然底数e将输入元素之间的差距先"拉大", 然后再归一化为一个新的分布. 在这个过程中假设某个输入x中最大的元素下标是k, 如果输入的数量级变大(就是x中的每个分量绝对值都很大), 那么在数学上会造成y_k的值非常接近1.
具体用一个例子来演示, 假设输入的向量x = [a, a, 2a], 那么随便给几个不同数量级的值来看看对y3产生的影响

a = 1时,   y3 = 0.5761168847658291
a = 10时,  y3 = 0.9999092083843412
a = 100时, y3 = 1.0

采用一段实例代码将a在不同取值下, 对应的y3全部画出来, 以曲线的形式展示:

from math import exp
from matplotlib import pyplot as plt
import numpy as np 
f = lambda x: exp(x * 2) / (exp(x) + exp(x) + exp(x * 2))
x = np.linspace(0, 100, 100)
y_3 = [f(x_i) for x_i in x]
plt.plot(x, y_3)
plt.show()

得到如下的曲线:

从上图可以很清楚的看到输入元素的数量级对softmax最终的分布影响非常之大.

结论: 在输入元素的数量级较大时, softmax函数几乎将全部的概率分布都分配给了最大值分量所对应的标签.

3.2 softmax函数在反向传播的过程中是如何梯度求导的

首先定义神经网络的输入和输出:

反向传播就是输出端的损失函数对输入端求偏导的过程, 这里要分两种情况, 第一种如下所示:

第二种如下所示:

经过对两种情况分别的求导计算, 可以得出最终的结论如下:

3.3 softmax函数出现梯度消失现象的原因

根据第二步中softmax函数的求导结果, 可以将最终的结果以矩阵形式展开如下:

根据第一步中的讨论结果, 当输入x的分量值较大时, softmax函数会将大部分概率分配给最大的元素, 假设最大元素是x1, 那么softmax的输出分布将产生一个接近one-hot的结果张量y_ = [1, 0, 0,..., 0], 此时结果矩阵变为:

结论: 综上可以得出, 所有的梯度都消失为0(接近于0), 参数几乎无法更新, 模型收敛困难.

🍔 维度与点积大小的关系

针对为什么维度会影响点积的大小, 原始论文中有这样的一点解释如下:

To illustrate why the dot products get large, assume that the components of q and k
are independent random variables with mean 0 and variance 1. Then their doct product,
q*k = (q1k1+q2k2+......+q(d_k)k(d_k)), has mean 0 and variance d_k.

我们分两步对其进行一个推导, 首先就是假设向量q和k的各个分量是相互独立的随机变量, X = q_i, Y = k_i, X和Y各自有d_k个分量, 也就是向量的维度等于d_k, 有E(X) = E(Y) = 0, 以及D(X) = D(Y) = 1.
可以得到E(XY) = E(X)E(Y) = 0 * 0 = 0
同理, 对于D(XY)推导如下:

根据期望和方差的性质, 对于互相独立的变量满足下式:

根据上面的公式, 可以很轻松的得出q*k的均值为E(qk) = 0, D(qk) = d_k.

所以方差越大, 对应的qk的点积就越大, 这样softmax的输出分布就会更偏向最大值所在的分量.

一个技巧就是将点积除以sqrt(d_k), 将方差在数学上重新"拉回1", 如下所示:

最终的结论: 通过数学上的技巧将方差控制在1, 也就有效的控制了点积结果的发散, 也就控制了对应的梯度消失的问题!

🍔 小结

self-attention机制的重点是使用三元组(Q, K, V)参与规则运算, 这里面Q=K=V.
self-attention最大的优势是可以方便有效的提取远距离依赖的特征和结构信息, 不必向RNN那样依次计算产生传递损耗.
关于self-attention采用三元组的原因, 经典实现的方式数学意义明确, 理由充分, 至于其他方式的可行性暂时没有论文做充分的对比试验研究.
学习了softmax函数的输入是如何影响输出分布的.
- softmax函数本质是对输入的数据分布做一次归一化处理, 但是输入元素的数量级对softmax最终的分布影响非常之大.
- 在输入元素的数量级较大时, softmax函数几乎将全部的概率分布都分配给了最大值分量所对应的标签.
学习了softmax函数在反向传播的过程中是如何梯度求导的.
- 具体的推导过程见讲义正文部分, 注意要分两种情况讨论, 分别处理.
学习了softmax函数出现梯度消失现象的原因.
- 结合第一步, 第二步的结论, 可以很清楚的看到最终的梯度矩阵接近于零矩阵, 这样在进行参数更新的时候就会产生梯度消失现象.
学习了维度和点积大小的关系推导.
- 通过期望和方差的推导理解了为什么点积会造成方差变大.
- 理解了通过数学技巧除以sqrt(d_k)就可以让方差恢复成1.

💘若能为您的学习之旅添一丝光亮，不胜荣幸💘

🐼期待您的宝贵意见，让我们共同进步共同成长🐼

【NLP自然语言处理】深入探索Self-Attention：自注意力机制详解

目录 🍔 Self-attention的特点 🍔 Self-attention中的归一化概述 🍔 softmax的梯度变化 3.1 softmax函数的输入分布是如何影响输出的 3.2 softmax函数在反向传播的过程中是如何梯度求导的 3.3 softmax函数出现梯度消失现象的原因 &…...

编程日记 2024/11/8 19:00:52

Pytorch训练时报nan

0. 引言 Pytorch训练时在batchN时loss为nan。经过断点检查发现在batchN-1时，网络参数非nan，输出非nan，但梯度为nan，导致网络参数已经全部被更新为nan，遇到这种情况应该如何排查，如何避免？由于导…...

编程日记 2024/11/8 18:59:51

JavaScript定时器详解：setTimeout与setInterval的使用与注意事项

在JavaScript中，定时器用于在指定的时间间隔后或周期性地执行代码。JavaScript 提供了两种主要的定时器函数：setTimeout 和 setInterval。以下是它们的详细解释和实现方式： 1. setTimeout setTimeout 函数用于在指定的毫秒数后执行一次函数…...

编程日记 2024/11/8 18:58:50

CSS——选择器、PxCook软件、盒子模型

选择器结构伪类选择器作用：根据元素的结构关系查找元素。 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0&quo…...

编程日记 2024/11/8 18:56:46

Mysql 大表limit查询优化原理实战

文章目录 1 大表查询无条件优化&原理(入门)2 大表查询带条件优化&原理(进阶)2.1 where 后面的查询字段只有一个时，要求该字段是索引字段2.2 where 后面的查询字段有多个时，尽量让查询字段为索引字段且字段值基数大 3 大表查询带排序优化&…...

编程日记 2024/11/8 18:55:45

在vscode中开发运行uni-app项目

确保电脑已经安装配置好了node、vue等相关环境依赖进行项目的创建 vue create -p dcloudio/uni-preset-vue 项目名 vue create -p dcloudio/uni-preset-vue uni-app 选择模版这里选择【默认模版】项目创建成功后在vscode中打开第一次打开项目 pages.json 文件会报错&a…...

编程日记 2024/11/8 18:54:45

【JavaEE初阶 — 多线程】Thread的常见构造方法＆属性

目录 Thread类的属性 1.Thread 的常见构造方法 2.Thread 的几个常见属性 2.1 前台线程与后台线程 2.2 setDaemon() 2.3 isAlive() Thread类的属性 Thread 类是JVM 用来管理线程的一个类，换句话说，每个线程都有一个唯一的Thread 对象与之关联&am…...

编程日记 2024/11/8 18:53:44

ctfshow(316)--XSS漏洞--反射性XSS

Web316 进入界面： 审计显示是关于反射性XSS的题目。思路首先想到利用XSS平台解题，看其他师傅的wp提示flag是在cookie中。当前页面的cookie是flagyou%20are%20not%20admin%20no%20flag。但是这里我使用XSS平台，显示的cookie还是这样…...

编程日记 2024/11/8 18:52:43

ubuntu22.04安装conda

在 Ubuntu 22.04 上安装 Conda 可以通过以下步骤进行： 下载 Miniconda（轻量级版本的 Conda）： 打开终端并运行以下命令以下载 Miniconda 安装脚本： wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-…...

编程日记 2024/11/8 18:50:39

D58【python 接口自动化学习】- python基础之异常

day58 异常捕获学习日期：20241104 学习目标：异常 -- 74 自定义异常捕获：如何定义业务异常？ 学习笔记： 自定义异常的用途自定义异常的方法 # 抛出一个异常 # raise ValueError(value is error) # ValueError: val…...

编程日记 2024/11/8 18:45:35

Java项目实战II基于Spring Boot的便利店信息管理系统（开发文档+数据库+源码）

目录一、前言二、技术介绍三、系统实现四、文档参考五、核心代码六、源码获取全栈码农以及毕业设计实战开发，CSDN平台Java领域新星创作者，专注于大学生项目实战开发、讲解和毕业答疑辅导。获取源码联系方式请查看文末一、前言在快节奏的…...

编程日记 2024/11/8 18:42:32

DateCalculator是用于日期计算的工具类。这个工具类将包括日期的加减、比较、周期计算、日期范围生成等功能。 import java.time.LocalDate; import java.time.LocalDateTime; import java.time.LocalTime; import java.time.Period; import java.time.temporal.ChronoUnit;…...

编程日记 2024/11/8 18:30:19

单片机串口接收状态机STM32

单片机串口接收状态机stm32 前言项目的芯片stm32转国产，国产芯片的串口DMA接收功能测试不通过，所以要由原本很容易配置的串口空闲中断触发DMA接收数据的方式转为串口逐字节接收的状态机接收数据两种方式各有优劣，不过我的芯片已经主频跑…...

编程日记 2024/11/8 18:28:18

ipv6的 fc00(FC00::/7) 和 fec0(FEC0::/10)

ipv6的 fc00(FC00::/7)（唯一本地地址） 替代了 fec0(FEC0::/10) （站点本地地址，已弃用） ipv6的 fc00(FC00::/7) 替代了 fec0(FEC0::/10) , 在IPv6地址中，FC00::/7（通常简写为FC00）和…...

编程日记 2024/11/8 18:26:16

Chat GPT英文学术写作指令

目录 Chat GPT英文学术写作指令 Chat GPT英文学术写作指令 1."为我捉供一些建议和技巧，以提高我的学术写作质最和风格" (Provide me with some suggestions andtips to improve the quality andstyleofmyacademic writing.) 2."帮我提写一个清晰而有逻辑的…...

编程日记 2024/11/8 18:24:14

超详细Pycharm安装汉化教程，Python环境配置和使用指南，Python零基础入门看这个就够了！

包含编程资料、学习路线图、源代码、软件安装包等！【[点击这里]】！ PyCharm 是由 JetBrains 打造的一款 Python IDE （集成开发环境，Integrated Development Environment），带有一整套可以帮助用户在使用 Py…...

编程日记 2024/11/8 18:23:12

react-native：解决使用webView后部分场景在安卓10崩溃闪退问题

app闪退问题原因： 安卓7以上版本（7和7以下版本不会出现闪退）：在屏幕不可视区域加载webView或者webView不在可视区域内切换页面时app崩溃闪退（在屏幕可视区域加载webView或者webView在可视区域内切换页面不会闪退&…...

编程日记 2024/11/8 18:22:09

大数据工具 flume 的安装配置与使用（详细版）

参考网址：Flume 1.9用户手册中文版 — 可能是目前翻译最完整的版本了 1，上传安装包安装包链接：文件下载-奶牛快传 Download ｜CowTransfer 口令：x8bhcg 1，切换盘符到安装目录 cd /opt/moudles 解压文件…...

编程日记 2024/11/8 18:18:05

智慧城市智慧城市项目方案-大数据平台建设技术方案（原件Word）

第1章总体说明 1.1 建设背景 1.2 建设目标 1.3 项目建设主要内容 1.4 设计原则第2章对项目的理解 2.1 现状分析 2.2 业务需求分析 2.3 功能需求分析第3章大数据平台建设方案 3.1 大数据平台总体设计 3.2 大数据平台功能设计 3.3 平台应用第4章政策标准保障…...

编程日记 2024/11/8 18:17:03

C语言比较两个字符串是否相同

在不使用string.h中的内置函数的情况下 #include <stdio.h> #include <string.h> void main(){char arr1[]"hello world";char arr2[]"hello world";int i,a0;if(strlen(arr1)!strlen(arr2)){print("不相等");return 0;}for(i0;arr…...

编程日记 2024/11/8 18:16:01

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …...

编程新知 2026/2/8 4:37:37

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（二）

HoST框架核心实现方法详解 - 论文深度解读（第二部分）《Learning Humanoid Standing-up Control across Diverse Postures》系列文章：论文深度解读 + 算法与代码分析（二）作者机构：上海AI Lab, 上海交通大学, 香港大学, 浙江大学, 香港中文大学论文主题：人形机器人…...

编程新知 2026/2/9 0:12:12

HTML前端开发：JavaScript 常用事件详解

作为前端开发的核心，JavaScript 事件是用户与网页交互的基础。以下是常见事件的详细说明和用法示例： 1. onclick - 点击事件当元素被单击时触发（左键点击） button.onclick function() {alert("按钮被点击了！&…...

编程新知 2025/11/10 10:45:11

Redis的发布订阅模式与专业的 MQ（如 Kafka, RabbitMQ）相比，优缺点是什么？适用于哪些场景？

Redis 的发布订阅（Pub/Sub）模式与专业的 MQ（Message Queue）如 Kafka、RabbitMQ 进行比较，核心的权衡点在于：简单与速度 vs. 可靠与功能。下面我们详细展开对比。 Redis Pub/Sub 的核心特点它是一个发后…...

编程新知 2025/12/4 2:32:37

免费PDF转图片工具

免费PDF转图片工具一款简单易用的PDF转图片工具，可以将PDF文件快速转换为高质量PNG图片。无需安装复杂的软件，也不需要在线上传文件，保护您的隐私。工具截图主要特点 🚀 快速转换：本地转换，无需等待上…...

编程新知 2026/1/26 9:07:56

群晖NAS如何在虚拟机创建飞牛NAS

套件中心下载安装Virtual Machine Manager 创建虚拟机配置虚拟机飞牛官网下载 https://iso.liveupdate.fnnas.com/x86_64/trim/fnos-0.9.2-863.iso 群晖NAS如何在虚拟机创建飞牛NAS - 个人信息分享...

编程新知 2026/1/30 6:19:54

《Docker》架构

文章目录架构模式单机架构应用数据分离架构应用服务器集群架构读写分离/主从分离架构冷热分离架构垂直分库架构微服务架构容器编排架构什么是容器，docker，镜像，k8s 架构模式单机架构单机架构其实就是应用服务器和单机服务器都部署在同一…...

编程新知 2026/2/4 16:31:26

0x-3-Oracle 23 ai-sqlcl 25.1 集成安装-配置和优化

是不是受够了安装了oracle database之后sqlplus的简陋，无法删除无法上下翻页的苦恼。可以安装readline和rlwrap插件的话，配置.bahs_profile后也能解决上下翻页这些，但是很多生产环境无法安装rpm包。 oracle提供了sqlcl免费许可&#xff0c…...

编程新知 2025/11/27 2:47:09

在 Visual Studio Code 中使用驭码 CodeRider 提升开发效率：以冒泡排序为例

目录前言1 插件安装与配置1.1 安装驭码 CodeRider1.2 初始配置建议 2 示例代码：冒泡排序3 驭码 CodeRider 功能详解3.1 功能概览3.2 代码解释功能3.3 自动注释生成3.4 逻辑修改功能3.5 单元测试自动生成3.6 代码优化建议 4 驭码的实际应用建议5 常见问题与解决建议…...

编程新知 2026/2/9 13:47:57

Linux-进程间的通信

1、IPC： Inter Process Communication（进程间通信）： 由于每个进程在操作系统中有独立的地址空间，它们不能像线程那样直接访问彼此的内存，所以必须通过某种方式进行通信。常见的 IPC 方式包括&#…...

编程新知 2026/2/2 19:17:14

【NLP自然语言处理】深入探索Self-Attention：自注意力机制详解

🍔 Self-attention的特点

🍔 Self-attention中的归一化概述

🍔 softmax的梯度变化

3.1 softmax函数的输入分布是如何影响输出的

3.2 softmax函数在反向传播的过程中是如何梯度求导的

3.3 softmax函数出现梯度消失现象的原因

🍔 维度与点积大小的关系

🍔 小结

相关文章：

【NLP自然语言处理】深入探索Self-Attention：自注意力机制详解

Pytorch训练时报nan

JavaScript定时器详解：setTimeout与setInterval的使用与注意事项

CSS——选择器、PxCook软件、盒子模型

Mysql 大表limit查询优化原理实战

在vscode中开发运行uni-app项目

【JavaEE初阶 — 多线程】Thread的常见构造方法＆属性

ctfshow(316)--XSS漏洞--反射性XSS

ubuntu22.04安装conda

D58【python 接口自动化学习】- python基础之异常

Java项目实战II基于Spring Boot的便利店信息管理系统（开发文档+数据库+源码）

Java-日期计算工具类DateCalculator

单片机串口接收状态机STM32

ipv6的 fc00(FC00::/7) 和 fec0(FEC0::/10)

Chat GPT英文学术写作指令

超详细Pycharm安装汉化教程，Python环境配置和使用指南，Python零基础入门看这个就够了！

react-native：解决使用webView后部分场景在安卓10崩溃闪退问题

大数据工具 flume 的安装配置与使用（详细版）

智慧城市智慧城市项目方案-大数据平台建设技术方案（原件Word）

C语言比较两个字符串是否相同

利用最小二乘法找圆心和半径

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（二）

HTML前端开发：JavaScript 常用事件详解

Redis的发布订阅模式与专业的 MQ（如 Kafka, RabbitMQ）相比，优缺点是什么？适用于哪些场景？

免费PDF转图片工具

群晖NAS如何在虚拟机创建飞牛NAS

《Docker》架构

0x-3-Oracle 23 ai-sqlcl 25.1 集成安装-配置和优化

在 Visual Studio Code 中使用驭码 CodeRider 提升开发效率：以冒泡排序为例

Linux-进程间的通信