当前位置：首页 > news >正文

Transformer中的自注意力是怎么实现的？

news 2026/2/9 15:40:06

在Transformer模型中，自注意力（Self-Attention）是核心组件，用于捕捉输入序列中不同位置之间的关系。自注意力机制通过计算每个标记与其他所有标记之间的注意力权重，然后根据这些权重对输入序列进行加权求和，从而生成新的表示。下面是实现自注意力机制的代码及其详细说明。

自注意力机制的实现

1. 计算注意力得分（Scaled Dot-Product Attention）

自注意力机制的基本步骤包括以下几个部分：

线性变换：将输入序列通过三个不同的线性变换层，得到查询（Query）、键（Key）和值（Value）矩阵。
计算注意力得分：通过点积计算查询与键的相似度，再除以一个缩放因子（通常是键的维度的平方根），以稳定梯度。
应用掩码：在计算注意力得分后，应用掩码（如果有），避免未来信息泄露（用于解码器中的自注意力）。
计算注意力权重：通过softmax函数将注意力得分转换为概率分布。
加权求和：使用注意力权重对值进行加权求和，得到新的表示。

2. 多头注意力机制（Multi-Head Attention）

为了捕捉不同子空间的特征，Transformer使用多头注意力机制。通过将查询、键和值分割成多个头，每个头独立地计算注意力，然后将所有头的输出连接起来，并通过一个线性层进行组合。

自注意力机制代码实现

import torch
import torch.nn as nn
import torch.nn.functional as F# Scaled Dot-Product Attention
def scaled_dot_product_attention(query, key, value, mask=None):d_k = query.size(-1)scores = torch.matmul(query, key.transpose(-2, -1)) / torch.sqrt(torch.tensor(d_k, dtype=torch.float32))print(f"Scores shape: {scores.shape}")  # (batch_size, num_heads, seq_length, seq_length)if mask is not None:scores = scores.masked_fill(mask == 0, float('-inf'))attention_weights = F.softmax(scores, dim=-1)print(f"Attention weights shape: {attention_weights.shape}")  # (batch_size, num_heads, seq_length, seq_length)output = torch.matmul(attention_weights, value)print(f"Output shape after attention: {output.shape}")  # (batch_size, num_heads, seq_length, d_k)return output, attention_weights# Multi-Head Attention
class MultiHeadAttention(nn.Module):def __init__(self, d_model, num_heads):super(MultiHeadAttention, self).__init__()assert d_model % num_heads == 0self.d_model = d_modelself.num_heads = num_headsself.d_k = d_model // num_headsself.linear_query = nn.Linear(d_model, d_model)self.linear_key = nn.Linear(d_model, d_model)self.linear_value = nn.Linear(d_model, d_model)self.linear_out = nn.Linear(d_model, d_model)def forward(self, query, key, value, mask=None):batch_size = query.size(0)# Linear projectionsquery = self.linear_query(query)key = self.linear_key(key)value = self.linear_value(value)print(f"Query shape after linear: {query.shape}")  # (batch_size, seq_length, d_model)print(f"Key shape after linear: {key.shape}")      # (batch_size, seq_length, d_model)print(f"Value shape after linear: {value.shape}")  # (batch_size, seq_length, d_model)# Split into num_headsquery = query.view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2)key = key.view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2)value = value.view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2)print(f"Query shape after split: {query.shape}")   # (batch_size, num_heads, seq_length, d_k)print(f"Key shape after split: {key.shape}")       # (batch_size, num_heads, seq_length, d_k)print(f"Value shape after split: {value.shape}")   # (batch_size, num_heads, seq_length, d_k)# Apply scaled dot-product attentionx, attention_weights = scaled_dot_product_attention(query, key, value, mask)# Concatenate headsx = x.transpose(1, 2).contiguous().view(batch_size, -1, self.d_model)print(f"Output shape after concatenation: {x.shape}")  # (batch_size, seq_length, d_model)# Final linear layerx = self.linear_out(x)print(f"Output shape after final linear: {x.shape}")   # (batch_size, seq_length, d_model)return x, attention_weights# 示例用法
d_model = 512
num_heads = 8
batch_size = 64
seq_length = 10# 假设输入是随机生成的张量
query = torch.rand(batch_size, seq_length, d_model)
key = torch.rand(batch_size, seq_length, d_model)
value = torch.rand(batch_size, seq_length, d_model)# 创建多头注意力层
mha = MultiHeadAttention(d_model, num_heads)
output, attention_weights = mha(query, key, value)print("最终输出形状:", output.shape)  # 最终输出形状: (batch_size, seq_length, d_model)
print("注意力权重形状:", attention_weights.shape)  # 注意力权重形状: (batch_size, num_heads, seq_length, seq_length)

每一步的形状解释

Linear Projections：
- Query, Key, Value分别经过线性变换。
- 形状：[batch_size, seq_length, d_model]
Split into Heads：
- 将Query, Key, Value分割成多个头。
- 形状：[batch_size, num_heads, seq_length, d_k]，其中d_k = d_model // num_heads
Scaled Dot-Product Attention：
- 计算注意力得分（Scores）。
- 形状：[batch_size, num_heads, seq_length, seq_length]
- 计算注意力权重（Attention Weights）。
- 形状：[batch_size, num_heads, seq_length, seq_length]
- 使用注意力权重对Value进行加权求和。
- 形状：[batch_size, num_heads, seq_length, d_k]
Concatenate Heads：
- 将所有头的输出连接起来。
- 形状：[batch_size, seq_length, d_model]
Final Linear Layer：
- 通过一个线性层将连接的输出转换为最终的输出。
- 形状：[batch_size, seq_length, d_model]

通过这种方式，我们可以清楚地看到每一步变换后的张量形状，理解自注意力和多头注意力机制的具体实现细节。

代码说明

scaled_dot_product_attention：实现了缩放点积注意力机制，计算查询和键的点积，应用掩码，计算softmax，然后使用权重对值进行加权求和。
MultiHeadAttention：实现了多头注意力机制，包括线性变换、分割、缩放点积注意力和最后的线性变换。

多头注意力机制的细节

线性变换：将输入序列通过线性层转换为查询、键和值的矩阵。
分割头：将查询、键和值的矩阵分割为多个头，每个头的维度是[batch_size, num_heads, seq_length, d_k]。
缩放点积注意力：对每个头分别计算缩放点积注意力。
连接头：将所有头的输出连接起来，得到[batch_size, seq_length, d_model]的张量。
线性变换：通过一个线性层将连接的输出转换为最终的输出。

Transformer中的自注意力是怎么实现的？

在Transformer模型中，自注意力（Self-Attention）是核心组件，用于捕捉输入序列中不同位置之间的关系。自注意力机制通过计算每个标记与其他所有标记之间的注意力权重，然后根据这些权重对输入序列进行加权求和&#xff0c…...

编程日记 2024/7/19 11:52:21

LabVIEW鼠标悬停在波形图上的曲线来自动显示相应点的坐标

步骤创建事件结构： 打开LabVIEW，创建一个新的VI。在前面板上添加一个Waveform Graph控件。在后面板上添加一个While Loop和一个事件结构（Event Structure）。配置事件结构，选择Waveform Graph作为事件源&#xf…...

编程日记 2024/7/19 11:48:16

操作系统发展简史（Unix/Linux 篇 + DOS/Windows 篇）+ Mac 与 Microsoft 之风云争霸

操作系统发展简史（Unix/Linux 篇） 说到操作系统，大家都不会陌生。我们天天都在接触操作系统 —— 用台式机或笔记本电脑，使用的是 windows 和 macOS 系统；用手机、平板电脑，则是 android（安卓&…...

编程日记 2024/7/19 11:41:08

钡铼分布式 IO 系统 OPC UA边缘计算耦合器BL205

深圳钡铼技术推出的BL205耦合器支持OPC UA Server功能，以服务器形式对外提供数据。符合IEC 62541工业自动化统一架构通讯标准，数据可以选择加密（X.509证书）、身份验证方式传送。安全策略支持basic128rsa15、basic256、basic256s…...

编程日记 2024/7/19 11:30:57

实现了一个心理测试的小程序，微信小程序学习使用问题总结

1. 如何在跳转页面中传递参数 ，在 onLoad 方法中通过 options 接收 2. radio 如何获取选中的值？ bindchange 方法参数e, e.detail.value 。如果想要获取其他属性，使用data-xx 指定，然后 e.target.dataset.xx 获取。 3. 不刷…...

编程日记 2024/7/19 11:27:54

vue是如何进行监听数据变化的？vue2和vue3分别是什么？vue3为什么要更换？

Vue如何进行监听数据变化的？ Vue.js 通过其响应式系统来监听数据变化。这个系统允许你声明式地将数据和 DOM 绑定，一旦数据发生变化，相关的 DOM 将自动更新。Vue 使用以下机制来实现数据的监听和响应： 响应式数据：在 …...

编程日记 2024/7/19 11:26:53

一、思维导图二、 #include "seqlist.h"#include<myhead.h> int main(int argc, const char *argv[]) {//创建一个顺序表SeqListPtr L list_create();if(NULL L){return -1;}//调用添加函数list_add(L,123);list_add(L,435);list_add(L,856);list_add(L,65…...

编程日记 2024/7/19 11:23:49

免费的数字孪生平台助力产业创新，让新质生产力概念有据可依

关于新质生产力的概念，在如今传统企业现代化发展中被反复提及。那到底什么是新质生产力？它与哪些行业存在联系，我们又该使用什么工具来加快新质生产力的发展呢？今天我将介绍一款为发展新质生产力而量身定做的数字孪生工具。新…...

编程日记 2024/7/19 11:22:44

mtsys2 编译 qemu 记录

参考链接下载 MSYS2 MSYS2 MSYS2 换源进入目录\msys64\etc\pacman.d， 在文件mirrorlist.msys的前面插入 Server http://mirrors.ustc.edu.cn/msys2/msys/$arch在文件mirrorlist.mingw32的前面插入 Server http://mirrors.ustc.edu.cn/msys2/mingw/i686在…...

编程日记 2024/7/19 11:19:41

【Python数据分析】数据分析三剑客：NumPy、SciPy、Matplotlib中常用操作汇总

文章目录 NumPy常见操作汇总SciPy常见操作汇总Matplotlib常见操作汇总官方文档链接NumPy常见操作汇总在Python的NumPy库中，有许多常用的知识点，这里列出了一些核心功能和常见操作：类别函数或特性描述基础操作np.array创建数组np.shape获取数组形状np.dtype查看数组数据类…...

编程日记 2024/7/19 11:18:40

STM32智能家居电力管理系统教程

目录引言环境准备智能家居电力管理系统基础代码实现：实现智能家居电力管理系统 4.1 数据采集模块 4.2 数据处理与控制模块 4.3 通信与网络系统实现 4.4 用户界面与数据可视化应用场景：电力管理与优化问题解决方案与优化收尾与总结 1. 引言智能家居电…...

编程日记 2024/7/19 11:17:39

C# 邮件发送

创建邮件类 // 有static时候类名，方法名// MyEmail.方法名/// <summary>/// 给目标发送邮箱/// </summary>/// <param name"maiTo"></param>/// <param name"title"></param>/// <param name"con…...

编程日记 2024/7/19 11:15:36

Kotlin 协程简化回调

suspend 和 suspendCoroutine 实现 suspendCoroutine函数必须在协程作用域或挂起函数中才能调用，它接收一个Lambda表达式参数，主要作用是将当前协程立即挂起，然后在一个普通的线程中执行Lambda表达式中的代码。Lambda表达式的参数列表上会传…...

编程日记 2024/7/19 11:10:28

帝王蝶算法（EBOA）及Python和MATLAB实现

帝王蝶算法（Emperor Butterfly Optimization Algorithm，简称EBOA）是一种启发式优化算法，灵感来源于蝴蝶群体中的帝王蝶（Emperor Butterfly）。该算法模拟了帝王蝶群体中帝王蝶和其他蝴蝶之间的交互行为&…...

编程日记 2024/7/19 11:05:21

【学术会议征稿】第六届信息与计算机前沿技术国际学术会议(ICFTIC 2024)

第六届信息与计算机前沿技术国际学术会议(ICFTIC 2024) 2024 6th International Conference on Frontier Technologies of Information and Computer 第六届信息与计算机前沿技术国际学术会议(ICFTIC 2024)将在中国青岛举行，会期是2024年11月8-10日，为…...

编程日记 2024/7/19 11:02:17

PHP MySQL 读取数据

PHP MySQL 读取数据 PHP和MySQL是Web开发中的经典组合，广泛用于创建动态网站和应用程序。在PHP中读取MySQL数据库中的数据是一项基本技能，涉及到连接数据库、执行查询以及处理结果集。本文将详细介绍如何使用PHP从MySQL数据库中读取数据。 1. 环境准备…...

编程日记 2024/7/19 11:00:13

点亮 LED-I.MX6U嵌入式Linux C应用编程学习笔记基于正点原子阿尔法开发板

点亮 LED 应用层操控硬件的两种方式背景 Linux系统将所有内容视作文件，包括硬件设备，通过文件I/O方式与硬件交互设备文件，如字符设备文件与块设备文件，是硬件设备提供给应用层的接口应用层通过设备文件进行I/O操作&#xff…...

编程日记 2024/7/19 10:59:12

从0到1搭建数据中台（4）：neo4j初识及安装使用

在数据中台中，neo4j作为图数据库，可以用于数据血缘关系的存储图数据库的其他用于主要用于知识图谱，人物关系的搭建，描述实体，关系，以及实体属性安装在官网 https://neo4j.com/ 下载安装包 neo4j-co…...

编程日记 2024/7/19 10:57:08

【20】读感 - 架构整洁之道(二)

概述继上一篇文章讲了前两章的读感，已经归纳总结的重点，这章会继续跟进的看一下，深挖架构整洁之道。编程范式编程范式从早期到至今，提过哪些编程范式，结构化编程，面向对象编程，函数式编程…...

编程日记 2024/7/19 10:56:07

js vue axios post 数组请求参数获取转换，后端go参数解析（gin框架）全流程示例

今天介绍的是前后端分离系统中的请求参数数组参数的生成，api请求发送，到后端请求参数接收的全过程示例。为何会有这个文章：后端同一个API接口同时处理单条或者多条数据，这样就要求我们在前端发送请求参数的时候需要统一将请…...

编程日记 2024/7/19 10:49:58

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周，有很多同学在写期末Java web作业时，运行tomcat出现乱码问题，经过多次解决与研究，我做了如下整理： 原因： IDEA本身编码与tomcat的编码与Windows编码不同导致，Windows 系统控制台…...

编程新知 2026/2/8 4:37:39

前端倒计时误差!

提示：记录工作中遇到的需求及解决办法文章目录前言一、误差从何而来？二、五大解决方案1. 动态校准法（基础版）2. Web Worker 计时3. 服务器时间同步4. Performance API 高精度计时5. 页面可见性API优化三、生产环境最佳实践四、终极解决方案架构前言前几天听说公司某个项…...

编程新知 2025/9/8 23:14:43

Cesium1.95中高性能加载1500个点

一、基本方式： 图标使用.png比.svg性能要好 <template><div id"cesiumContainer"></div><div class"toolbar"><button id"resetButton">重新生成点</button><span id"countDisplay&qu…...

编程新知 2025/12/17 2:10:10

iPhone密码忘记了办？iPhoneUnlocker，iPhone解锁工具Aiseesoft iPhone Unlocker 高级注册版分享

平时用 iPhone 的时候，难免会碰到解锁的麻烦事。比如密码忘了、人脸识别 / 指纹识别突然不灵，或者买了二手 iPhone 却被原来的 iCloud 账号锁住，这时候就需要靠谱的解锁工具来帮忙了。Aiseesoft iPhone Unlocker 就是专门解决这些问题的软件&…...

编程新知 2026/1/29 10:22:28

AtCoder 第409场初级竞赛 A~E题解

A Conflict 【题目链接】原题链接：A - Conflict 【考点】枚举【题目大意】找到是否有两人都想要的物品。【解析】遍历两端字符串，只有在同时为 o 时输出 Yes 并结束程序，否则输出 No。【难度】 GESP三级【代码参考】 #i…...

编程新知 2025/12/16 4:45:38

MMaDA: Multimodal Large Diffusion Language Models

CODE ： https://github.com/Gen-Verse/MMaDA Abstract 我们介绍了一种新型的多模态扩散基础模型MMaDA，它被设计用于在文本推理、多模态理解和文本到图像生成等不同领域实现卓越的性能。该方法的特点是三个关键创新:(i) MMaDA采用统一的扩散架构&#xf…...

编程新知 2026/2/3 15:24:36

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（一）

宇树机器人多姿态起立控制强化学习框架论文解析论文解读：交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（一） 论文解读：交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化…...

编程新知 2025/8/27 0:58:09

UR 协作机器人「三剑客」：精密轻量担当（UR7e）、全能协作主力（UR12e）、重型任务专家（UR15）

UR协作机器人正以其卓越性能在现代制造业自动化中扮演重要角色。UR7e、UR12e和UR15通过创新技术和精准设计满足了不同行业的多样化需求。其中，UR15以其速度、精度及人工智能准备能力成为自动化领域的重要突破。UR7e和UR12e则在负载规格和市场定位上不断优化&#xf…...

编程新知 2026/2/2 2:47:37

selenium学习实战【Python爬虫】

selenium学习实战【Python爬虫】文章目录 selenium学习实战【Python爬虫】一、声明二、学习目标三、安装依赖3.1 安装selenium库3.2 安装浏览器驱动3.2.1 查看Edge版本3.2.2 驱动安装四、代码讲解4.1 配置浏览器4.2 加载更多4.3 寻找内容4.4 完整代码五、报告文件爬取5.1 提…...

编程新知 2026/2/4 12:52:32

分布式增量爬虫实现方案

之前我们在讨论的是分布式爬虫如何实现增量爬取。增量爬虫的目标是只爬取新产生或发生变化的页面，避免重复抓取，以节省资源和时间。在分布式环境下，增量爬虫的实现需要考虑多个爬虫节点之间的协调和去重。另一种思路：将增量判…...

编程新知 2026/2/6 1:18:56

Transformer中的自注意力是怎么实现的？

自注意力机制的实现

1. 计算注意力得分（Scaled Dot-Product Attention）

2. 多头注意力机制（Multi-Head Attention）

自注意力机制代码实现

每一步的形状解释

代码说明

多头注意力机制的细节

相关文章：

Transformer中的自注意力是怎么实现的？

LabVIEW鼠标悬停在波形图上的曲线来自动显示相应点的坐标

操作系统发展简史（Unix/Linux 篇 + DOS/Windows 篇）+ Mac 与 Microsoft 之风云争霸

钡铼分布式 IO 系统 OPC UA边缘计算耦合器BL205

实现了一个心理测试的小程序，微信小程序学习使用问题总结

vue是如何进行监听数据变化的？vue2和vue3分别是什么？vue3为什么要更换？

数据结构day3

免费的数字孪生平台助力产业创新，让新质生产力概念有据可依

mtsys2 编译 qemu 记录

【Python数据分析】数据分析三剑客：NumPy、SciPy、Matplotlib中常用操作汇总

STM32智能家居电力管理系统教程

C# 邮件发送

Kotlin 协程简化回调

帝王蝶算法（EBOA）及Python和MATLAB实现

【学术会议征稿】第六届信息与计算机前沿技术国际学术会议(ICFTIC 2024)

PHP MySQL 读取数据

点亮 LED-I.MX6U嵌入式Linux C应用编程学习笔记基于正点原子阿尔法开发板

从0到1搭建数据中台（4）：neo4j初识及安装使用

【20】读感 - 架构整洁之道(二)

js vue axios post 数组请求参数获取转换，后端go参数解析（gin框架）全流程示例

IDEA运行Tomcat出现乱码问题解决汇总

前端倒计时误差!

Cesium1.95中高性能加载1500个点

iPhone密码忘记了办？iPhoneUnlocker，iPhone解锁工具Aiseesoft iPhone Unlocker 高级注册版分享

AtCoder 第409场初级竞赛 A~E题解

MMaDA: Multimodal Large Diffusion Language Models

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（一）

UR 协作机器人「三剑客」：精密轻量担当（UR7e）、全能协作主力（UR12e）、重型任务专家（UR15）

selenium学习实战【Python爬虫】

分布式增量爬虫实现方案