当前位置: 首页 > news >正文

NLP学习记录十:多头注意力

一、单头注意力

单头注意力的大致流程如下:

① 查询编码向量、键编码向量和值编码向量分别经过自己的全连接层(Wq、Wk、Wv)后得到查询Q、键K和值V;

② 查询Q和键K经过注意力评分函数(如:缩放点积运算)得到值权重矩阵;

③ 权重矩阵与值向量相乘,得到输出结果。

 图1 单头注意力模型

 

二、多头注意力 

2.1 使用多头注意力的意义      

        看了一些对多头注意力机制解释的视频,我自己的浅显理解是:在实践中,我们会希望查询Q能够从给定内容中尽可能多地匹配到与自己相关的语义信息,从而得到更准确的预测输出。而多头注意力将查询、键和值分成不同的子空间表示(representation subspaces)(有点类似于子特征?),使得匹配过程更加细化。

2.2 代码实现

        也许直接看代码能更快地理解这个过程:

import torch
from torch import nn
from attentionScore import DotProductAttention
# 多头注意力模型
class MultiHeadAttention(nn.Module):def __init__(self, key_size, query_size, value_size, num_hiddens,num_heads, dropout, bias=False, **kwargs):super(MultiHeadAttention, self).__init__(**kwargs)self.num_heads = num_headsself.attention = DotProductAttention(dropout)self.W_q = nn.Linear(query_size, num_hiddens, bias=bias)self.W_k = nn.Linear(key_size, num_hiddens, bias=bias)self.W_v = nn.Linear(value_size, num_hiddens, bias=bias)self.W_o = nn.Linear(num_hiddens, num_hiddens, bias=bias)# queries:(batch_size,查询的个数,query_size)# keys:(batch_size,“键-值”对的个数,key_size)# values:(batch_size,“键-值”对的个数,value_size)def forward(self, queries, keys, values, valid_lens):# queries,keys,values的形状:(batch_size,查询或者“键-值”对的个数,num_hiddens)queries = self.W_q(queries)keys = self.W_k(keys)values = self.W_v(values)# 经过变换后,输出的queries,keys,values的形状:(batch_size*num_heads,查询或者“键-值”对的个数,num_hiddens/num_heads)queries = transpose_qkv(queries, self.num_heads)keys = transpose_qkv(keys, self.num_heads)values = transpose_qkv(values, self.num_heads)# valid_lens的形状:(batch_size,)或(batch_size,查询的个数)if valid_lens is not None:# 在轴0,将第一项(标量或者矢量)复制num_heads次,然后如此复制第二项,然后诸如此类。valid_lens = torch.repeat_interleave(valid_lens, repeats=self.num_heads, dim=0)# output的形状:(batch_size*num_heads,查询的个数,num_hiddens/num_heads)output = self.attention(queries, keys, values, valid_lens)# output_concat的形状:(batch_size,查询的个数,num_hiddens)output_concat = transpose_output(output, self.num_heads)return self.W_o(output_concat)
# 为了多注意力头的并行计算而变换形状
def transpose_qkv(X, num_heads):# 输入X的形状:(batch_size,查询或者“键-值”对的个数,num_hiddens)# 输出X的形状:(batch_size,查询或者“键-值”对的个数,num_heads,num_hiddens/num_heads)X = X.reshape(X.shape[0], X.shape[1], num_heads, -1)# 输出X的形状:(batch_size,num_heads,查询或者“键-值”对的个数, num_hiddens/num_heads)X = X.permute(0, 2, 1, 3)# 最终输出的形状:(batch_size*num_heads,查询或者“键-值”对的个数, num_hiddens/num_heads)return X.reshape(-1, X.shape[2], X.shape[3])
# 逆转transpose_qkv函数的操作
def transpose_output(X, num_heads):X = X.reshape(-1, num_heads, X.shape[1], X.shape[2])X = X.permute(0, 2, 1, 3)return X.reshape(X.shape[0], X.shape[1], -1)

        可以发现,前面的处理流程和单头注意力的第①步是一样的,都是使用全连接层计算查询Q、键K、值V。但在进行点积运算之前,模型使用transpose_qkv函数对QKV进行了切割变换,下图可以帮助理解这个过程:

图2 transpose_qkv函数处理Q

图3 transpose_qkv函数处理K 

        这个过程就像是把一个整体划分为了很多小的子空间。一个不知道恰不恰当的比喻,就像是把“父母”这个词拆分成了“长辈”、“养育者”、“监护人”、“爸妈”多重含义。

        对切割变换后的QK进行缩放点积运算,过程如下图所示:

 图4 对切割变换后的Q和K进行缩放点积运算

        transpose_output后的输出结果:

图5 对值加权结果进行transpose_output变换后 

        对比单头注意力的值加权输出,原来的每个查询Q匹配到了更多的value:

图6 多头注意力与单头注意力的值加权结果对比

        整个过程就像是把一个父需求分割成不同的子需求,子需求单独与不同的子特征进行匹配,最后使得每个父需求获得了更多的语义信息。

相关文章:

NLP学习记录十:多头注意力

一、单头注意力 单头注意力的大致流程如下: ① 查询编码向量、键编码向量和值编码向量分别经过自己的全连接层(Wq、Wk、Wv)后得到查询Q、键K和值V; ② 查询Q和键K经过注意力评分函数(如:缩放点积运算&am…...

【MySql】EXPLAIN执行计划全解析:15个字段深度解读与调优指南

文章目录 一、执行计划核心字段总览二、关键字段深度拆解1. type(访问类型)——查询性能的晴雨表典型场景分析: 2. key_len(索引使用长度)——索引利用率的检测仪计算示例: 3. Extra(附加信息&a…...

论文笔记(七十二)Reward Centering(五)

Reward Centering(五) 文章概括摘要附录B 理论细节C 实验细节D 相关方法的联系 文章概括 引用: article{naik2024reward,title{Reward Centering},author{Naik, Abhishek and Wan, Yi and Tomar, Manan and Sutton, Richard S},journal{arX…...

Linux内核自定义协议族开发指南:理解net_device_ops、proto_ops与net_proto_family

在Linux内核中开发自定义协议族需要深入理解网络协议栈的分层模型。net_device_ops、proto_ops和net_proto_family是三个关键结构体,分别作用于不同的层次。本文将详细解析它们的作用、交互关系及实现方法,并提供一个完整的开发框架。 一、核心结构体的作用与层级关系 struct…...

SOME/IP-SD -- 协议英文原文讲解6

前言 SOME/IP协议越来越多的用于汽车电子行业中,关于协议详细完全的中文资料却没有,所以我将结合工作经验并对照英文原版协议做一系列的文章。基本分三大块: 1. SOME/IP协议讲解 2. SOME/IP-SD协议讲解 3. python/C举例调试讲解 5.1.3.1 E…...

【数据处理】COCO 数据集掩码 Run-Length Encoding (RLE) 编码转二进制掩码

输入:结果.json 输出:mask.jpg json内容示例如下: {"labels":[ # class_id 1,2,3,...],"scores":[ # 置信度0.2,0.7,0.3,...],"bboxes":[[1244.0,161.0,1335.0,178.0],[1243.0,161.0,1336.0,178.0],[1242.0,1…...

Java中的缓存技术:Guava Cache vs Caffeine vs Redis

在Java中,缓存技术是提升应用性能的重要手段。常见的缓存技术包括Guava Cache、Caffeine和Redis。它们各有优缺点,适用于不同的场景。以下是对它们的详细对比: 1. Guava Cache 类型: 本地缓存 特点: 基于内存的缓存,适用于单机应…...

Day8 蓝桥杯acw讲解

首先先给大家看一道这个题, 我真的是太喜欢y总了,如果大家也是最近在准备蓝桥杯或者计算机相关的比赛,但是得加一个前提就是必须最好基础真的很好,要不然其实买了课,也没啥太大的用处,其实就可以以我本人举…...

《Operating System Concepts》阅读笔记:p147-p158

《Operating System Concepts》学习第 15 天,p147-p158 总结,总计 12 页。 一、技术总结 1.socket (1)定义 A socket is defined as an endpoint for communication(socket 是用于通信的端点,或者说socket 是通信端点的抽象表示。). A s…...

JSON Schema 入门指南:如何定义和验证 JSON 数据结构

文章目录 一、引言二、什么是 JSON Schema?三、JSON Schema 的基本结构3.1 基本关键字3.2 对象属性3.3 数组元素3.4 字符串约束3.5 数值约束 四、示例:定义一个简单的 JSON Schema五、使用 JSON Schema 进行验证六、实战效果6.1 如何使用 七、总结 一、引…...

java后端开发day20--面向对象进阶(一)--static继承

(以下内容全部来自上述课程) 1.static–静态–共享 static表示静态,是java中的一个修饰符,可以修饰成员方法,成员变量。 1.静态变量 被static修饰的成员变量,叫做静态变量。 特点: 被该类…...

FastJSON 默认行为:JSON.toJSONString 忽略 null 字段

完整的 FakeRegistrationController 代码,这让我可以全面分析后端逻辑,特别是为什么空的字段(如 compareDate)不返回给前端。我将详细分析代码的每个接口,尤其是与 list 请求和字段返回相关的部分,并解释原…...

数据结构:基数排序(c++实现)

个人主页 : 个人主页 个人专栏 : 《数据结构》 《C语言》《C》《Linux》《网络》 《redis学习笔记》 文章目录 基数排序的定义和基本原理基本原理具体步骤 基数排序的优缺点:代码实现总结 基数排序的定义和基本原理 基数排序(Radix Sort)是一…...

DOM 事件 HTML 标签属性速查手册

以下是一份 DOM 事件 & HTML 标签属性速查手册,涵盖常用场景和示例,助你快速查阅和使用: 一、DOM 事件速查表 1. 鼠标事件 事件名触发时机适用元素示例代码click元素被点击任意可见元素button.addEventListener(click, () > { ... …...

PhotoShop学习01

了解Photoshop 这里省略了Photoshop的软件安装,请自行查找资源下载。 1.打开图片 下图为启动photoshop后出现的界面,我们可以通过创建新文件或打开已有文件来启用photoshop的工作界面。 可以通过左边的按钮进行新文件的创建或打开已有文件。 也可以点…...

mongodb【实用教程】

MongoDB 是一个开源的文档型数据库管理系统 下载安装 Windows 系统 https://blog.csdn.net/weixin_41192489/article/details/126777309 GUI工具 【推荐】MongoDB Compass https://www.mongodb.com/zh-cn/docs/compass/current/ Robo 3T https://blog.csdn.net/weixin_4119248…...

C语言机试编程题

编写版本&#xff1a;vc2022 1.求最大/小值 #include<stdio.h> int main(){int a[50],n;int max, min;printf("请输入您要输入几个数");scanf_s("%d", &n);printf("请输入您要比较的%d个数\n",n);for (int i 0; i<n; i) {scanf_…...

threeJs+vue 轻松切换几何体贴图

嗨&#xff0c;我是小路。今天主要和大家分享的主题是“threeJsvue 轻松切换几何体贴图”。 想象一下&#xff0c;手头上正好有个在线3D家具商店&#xff0c;用户不仅可以看到产品的静态图片&#xff0c;还能实时更换沙发的颜色或材质&#xff0c;获得真实的购物体验。…...

Android ObjectBox数据库使用与集成指南

ObjectBox其核心特点ObjectBox与 SQLite 和 Realm 的对比Android集成ObjectBox创建ObjectBox实体对象创建ObjectBox操作管理类OBManager在Application初始化ObjectBox插入或更新数据查询数据统计数据分页数据查询删除数据总结今天分享一套Android另一个数据库ObjectBox。Object…...

【HarmonyOS Next】地图使用详解(一)

背景 这系列文章主要讲解鸿蒙地图的使用&#xff0c;当前可以免费使用&#xff0c;并提供了丰富的SDK给开发者去自定义控件开发。目前可以实现个性化显示地图、位置搜索和路径规划等功能&#xff0c;轻松完成地图构建工作。需要注意的是&#xff0c;现在测试只能使用实体手机去…...

如何用这个开源工具让英雄联盟游戏体验提升3倍?

如何用这个开源工具让英雄联盟游戏体验提升3倍&#xff1f; 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power &#x1f680;. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 还在为错过对局接受而懊恼&#xf…...

RPG Maker MV/MZ插件生态技术深度解析:架构设计与性能优化实践

RPG Maker MV/MZ插件生态技术深度解析&#xff1a;架构设计与性能优化实践 【免费下载链接】RPGMakerMV RPGツクールMV、MZで動作するプラグインです。 项目地址: https://gitcode.com/gh_mirrors/rp/RPGMakerMV 在RPG游戏开发领域&#xff0c;RPG Maker MV和MZ作为主流…...

【拒绝付费降重】国产大模型立大功!DeepSeek+豆包两步褪去“AI味”,论文AI率80%降至10%通关攻略

论文降ai这个环节&#xff0c;现在真的成了很多同学的必修课。 为了让语言表达更符合学术规范&#xff0c;我尝试了很多方法来降低ai率。 其实呢&#xff0c;很多时候我们并不是没认真写&#xff0c;而是用了AI辅助润色&#xff0c;结果被判定AIGC过高。 为了找到合规且有效…...

终极指南:如何用 Ice 重新定义 macOS 菜单栏使用体验

终极指南&#xff1a;如何用 Ice 重新定义 macOS 菜单栏使用体验 【免费下载链接】Ice Powerful menu bar manager for macOS 项目地址: https://gitcode.com/GitHub_Trending/ice/Ice 你是否曾经因为 Mac 顶部菜单栏过于拥挤而感到烦躁&#xff1f;那些不断堆积的应用图…...

Translumo:高效免费的屏幕实时翻译工具,打破语言障碍的实用指南

Translumo&#xff1a;高效免费的屏幕实时翻译工具&#xff0c;打破语言障碍的实用指南 【免费下载链接】Translumo Advanced real-time screen translator for games, hardcoded subtitles in videos, static text and etc. 项目地址: https://gitcode.com/gh_mirrors/tr/Tr…...

深入MiniCPM-o-4.5-nvidia-FlagOS:理解大模型背后的计算机组成原理

深入MiniCPM-o-4.5-nvidia-FlagOS&#xff1a;理解大模型背后的计算机组成原理 你是不是也好奇&#xff0c;像MiniCPM-o-4.5这样的大模型&#xff0c;为什么能在NVIDIA的GPU上跑得飞快&#xff1f;为什么换个显卡&#xff0c;生成速度就能天差地别&#xff1f;这背后&#xff…...

AIGlasses_for_navigation惊艳效果:便利店货架中红牛与AD钙奶并排摆放识别特写

AIGlasses_for_navigation惊艳效果&#xff1a;便利店货架中红牛与AD钙奶并排摆放识别特写 1. 引言&#xff1a;当AI眼镜“看懂”便利店货架 想象一下&#xff0c;你走进一家便利店&#xff0c;货架上琳琅满目的商品让人眼花缭乱。你想找一瓶红牛&#xff0c;但它在哪一排&am…...

如何为Surge Swift库编写高性能测试用例:完整指南

如何为Surge Swift库编写高性能测试用例&#xff1a;完整指南 Surge是一个基于Accelerate框架的Swift库&#xff0c;提供高性能的矩阵数学、数字信号处理和图像处理功能。本文将详细介绍如何为Surge编写高质量的性能测试用例&#xff0c;确保你的数值计算代码既正确又高效。 …...

Qwen3-14B私有部署镜像实测:一键启动,打造你的私有AI大脑

Qwen3-14B私有部署镜像实测&#xff1a;一键启动&#xff0c;打造你的私有AI大脑 1. 开箱即用的私有AI解决方案 在当今AI技术快速发展的背景下&#xff0c;越来越多的企业和开发者希望拥有自己的私有AI模型。Qwen3-14B私有部署镜像正是为这一需求而生的解决方案。它基于强大的…...

Cursor Skills 实战:从概念到生产级前端界面的一站式指南

1. 为什么你需要掌握Cursor Skills&#xff1f; 第一次听说Cursor Skills时&#xff0c;我也觉得这不过是又一个AI噱头。直到在真实项目中用它重构了一个电商登录页面&#xff0c;开发时间从3天缩短到3小时&#xff0c;我才意识到这可能是前端开发的一次革命性工具。 简单来说…...