当前位置: 首页 > article >正文

Multi-head Self-Attention Machanism

3. 多头自注意力机制Multi-head Self-Attention Machanism多头注意力机制是在自注意力机制的基础上发展起来的是自注意力机制的变体旨在增强模型的表达能力和泛化能力。它通过使用多个独立的注意力头分别计算注意力权重并将它们的结果进行拼接或加权求和从而获得更丰富的表示。在自注意力机制中每个单词或者字都仅仅只有一个 q、k、v与其对应如下图所示为什么需要多个head在做self-attention的时候是用q去找相关的k但是相关有很多不同形式和定义不同q负责不同种类的相关性。多头注意力机制则是在 ai 乘以一个q,k,v后会再分配多个 q,k,v这里以2个 q,k,v 为例如下图所示:3.1q、k操作在多头注意力机制中ai会先乘q矩阵qiWq*ai;其次会为其多分配两个head以q为例包括qi,1,qi,2;同样地k和 v 也是一样的操作。那么下面就是 q和 k 的点乘操作了在多头注意力机制中有多个q 和 k究竟应该选择哪个进行操作呢其实很简单就是看下标如下图所示。qi,1,会和 ki,1和kj,1进行点乘,再进行softmax操作3.2v操作将对应的attention分数乘对应的v 比如head1的qi,1和 ki,1和kj,1进行点乘dot_product后得到相应的注意力分数归一化后分别和 vi,1和vj,1相乘再求和得到注意力输出head2也是同时这样进行的得到bi,1和bi,2.3.3注意力输出将head1和head2得到的输出拼接起来进行transpose就得到了注意力输出bi3.4single-head与multi-head对比single-head-attention中从每个a中提取出q、k、v,他们的维度为d-model每个token的维度multi-head-attention,与singlehead一样先得出q、k、v,不同的是每个q、k、v还要分出多个head将多头得到的bii先按照列再按行con-cat可以得到mxd_model的矩阵m为token个数d_model为每个token的维度3.5流程总结3.6代码实现import torch from torch import nn as nn #dim_in:输入中每个token的维度也就是输入x的最后一个维度 #d_model:single-head-attention情况下q、k、v总的向量长度 #num_heads:head个数 class MultiHead_SelfAttention(nn.Module): def __init__(self,input_dim,num_heads): super().__init__() self.num_headsnum_heads self.head_diminput_dim//num_heads#head的维度为输入维度除以head个数方便后面拼接 assert input_dim%num_heads0 ,Input dimension must be divisible by the number of heads. ​ # Linear layers for the query, key, and value projections for each head self.querynn.Linear(input_dim,input_dim) self.keynn.Linear(input_dim,input_dim) self.valuenn.Linear(input_dim,input_dim) ​ self.output_linearnn.Linear(input_dim,input_dim) ​ def forward(self,x): batch_size,seq_len,input_dimx.size() #输入数据shape[batch_size,token个数token长度] #将输出向量经过矩阵乘法后拆分为多头 queryself.query(x).view(batch_size,seq_len,self.num_heads,self.head_dim) #输入数据shape[batch_size,token个数head数head维度] keyself.query(x).view(batch_size, seq_len, self.num_heads, self.head_dim) valueself.query(x).view(batch_size, seq_len, self.num_heads, self.head_dim) #对调序列的长度和head个数(batch_size, seq_len, num_heads, head_dim) to (batch_size, num_heads, seq_len, head_dim) #方便后续矩阵乘法和不同头部的注意力计算 queryquery.transpose(1,2)#(batch_size, num_heads, seq_len, head_dim) keykey.transpose(1,2) valuevalue.transpose(1,2) #计算注意力分数和权重matmul:最后两个维度做矩阵乘法 attention_scorestorch.matmul(query,key.transpose(-2,-1))/torch.sqrt(torch.tensor(self.head_dim,dtypetorch.float)) #query:(batch_size, num_heads, seq_len, head_dim) * key(batch_size,num_heads,head_dim,seq_len) #attention_scores:(batch_size, num_heads, seq_len, seq_len) attention_weightstorch.softmax(attention_scores,dim-1) #注意力加权求和 attentiontorch.matmul(attention_weights,value) # attention_scores:(batch_size, num_heads, seq_len, seq_len)* value(batch_size, num_heads, seq_len, head_dim) #attention:(batch_size, num_heads, seq_len, head_dim) #连接和线性变换 attentionattention.transpose(1,2).contiguous().view(batch_size,seq_len,input_dim)#contiguos深拷贝不改变原数据 #(batch_size,num_heads, seq_len , head_dim) to (batch_size, seq_len, num_heads, head_dim) to (batch_size,seq_len,input_dim) outputself.output_linear(attention) ​ return output ​ #定义多头自注意力机制模型 class MultiHead_SelfAttention_Classifier(nn.Module): def __init__(self,input_dim,num_heads,hidden_dim,num_classes): super().__init__() self.attentionMultiHead_SelfAttention(input_dim,num_heads) self.fc1nn.Linear(input_dim,hidden_dim) self.fc2nn.Linear(hidden_dim,num_classes) self.relunn.ReLU() def forward(self,x): xself.attention(x) xx.mean(dim1)#(batch_size, seq_len, input_dim) to (batch_size, input_dim) xself.fc1(x) xself.relu(x) xself.fc2(x) return x ​ if __name____main__: modelMultiHead_SelfAttention_Classifier(input_dim4,num_heads2,hidden_dim32,num_classes2) xtorch.randn((2,4,4))#batch4个token每个token长度input_dim outputmodel(x) print(output) ​输出tensor([[-0.0598, -0.0333], [-0.2237, -0.0573]], grad_fnAddmmBackward0)

相关文章:

Multi-head Self-Attention Machanism

3. 多头自注意力机制(Multi-head Self-Attention Machanism) 多头注意力机制是在自注意力机制的基础上发展起来的,是自注意力机制的变体,旨在增强模型的表达能力和泛化能力。它通过使用多个独立的注意力头,分别计算注…...

7.Linux笔记:shell

1.shellshell就是Linux内核的一个外层保护工具,并负责完成用户与内核之间的交互。用户>shell>内核>硬件内核是操作系统最基本的部分。它是为众多应用程序提供对计算机硬件的安全访问的一部分软件,这种访问是有限的,内核决定一个程序…...

FreeRTOS源码解析(9)任务通知

1.任务通知本质:直接操作目标任务的 TCB 字段。 它不自带控制块、不分配独立存储、不维护自己的等待列表——全程只做一件事:读写目标任务 TCB 里已有的 ulNotifiedValue 和 ucNotifyState,必要时将对方从延迟列表移到就绪列表。正因如此&…...

【Java实战】Java 实现 Base64 文件批量压缩为 ZIP

一、前言在实际项目开发中,经常遇到这样的场景:前端上传多个文件后以 Base64 格式存储,或者从数据库读取多个 Base64 编码的文件,需要将这些文件打包成 ZIP 压缩包供用户下载。本文分享一个实用的 Java ZIP 压缩工具类二、应用场景…...

2025年知识竞赛行业趋势报告:智能化、场景化与生态融合

📊 2025年知识竞赛行业趋势报告技术更智能 场景更融合 内容更鲜活 工具更普惠🚀 引言:变革中的竞赛生态知识竞赛,这一古老的知识检验与娱乐形式,在数字技术的持续赋能下,正经历着一场深刻的范式变革。从…...

What Are You Talking About(HDU- P1075)

伊格纳修斯真是走了狗屎运,昨天居然遇到了火星人!可惜他完全听不懂火星人的语言。临走时,火星人给了他一本火星历史书和一本词典。现在伊格纳修斯想把这本历史书翻译成英语,你能帮帮他吗?输入本题只有一组测试数据&…...

第二章:Compose入门—声明式UI编程

第二章:Compose 入门 — 声明式 UI 编程 Compose 的核心理念:用 Kotlin 代码声明 UI,而不是用 XML 布局文件。 2.1 传统 View 系统 vs Compose 对比项传统 View 系统Jetpack ComposeUI 描述XML 布局文件Kotlin 代码状态更新findViewById 手…...

三极管的削波失真是什么

削波失真(Clipping Distortion)是指当放大电路(如三极管、运放)的输出信号幅度超过了其供电电压或输出动态范围的极限时,信号的顶部和/或底部被“削平”而发生的失真现象。1. 它是如何发生的?以一个共射放大…...

SBA系列生物传感分析仪的工作原理是什么?

SBA系列生物传感分析仪利用酶促反应来进行定量分析,测定的关键传感器是固定化酶和过氧化氢电极复合传感器,分析过程基于以下生化反应:底物 固定化酶膜 → 产物谷氨酸    谷氨酸氧化酶  α-酮戊二酸葡萄糖    葡萄糖氧化…...

STM32F108C8T6小白入门特训营__1.4GPIO.C 代码分析

目录 1.只需要搞明白 cubemx 跟 代码对应关系就可以了 2.GPIO.C 代码加上注释 3.注意引脚的宏定义 1.只需要搞明白 cubemx 跟 代码对应关系就可以了 2.GPIO.C 代码加上注释 读懂注释部分代码即可 /* USER CODE BEGIN Header */ /*****************************************…...

JDBC(四):Statement

Statement作用:执行sql1. 执行dml、ddlint excuteUpdate(sql)(1)dml,输出受影响行数(为正,执行成功;为负,执行失败)(2)ddl,可能输出0&…...

HTML代码加密工具源码_在线网页加密解密_防复制源码

概述 在前端开发与网页设计中,保护原创代码不被轻易复制或篡改是许多开发者的核心诉求。无论是为了隐藏核心逻辑,还是防止样式被恶意盗用,一款高效、安全的加密工具都显得尤为重要。为此,幽络源源码网特别整理并分享这款HTML代码…...

从‘密码长度’到‘任意代码执行’:手把手复现攻防世界int_overflow靶场(附Python3 EXP)

从密码长度到系统控制:整数溢出漏洞实战攻防全解析 在网络安全领域,整数溢出漏洞往往因其隐蔽性而被开发者忽视,却可能成为攻击者打开系统大门的金钥匙。本文将带您深入一个典型场景:如何通过精心构造的密码输入,从简单…...

PPTX判断包含图表id

PPTX判断包含图表id ############################20250915判断是否包含图表################################################## i0 for shape in prs.slides[1].shapes:if shape.HasChart:print(fi:{i}包含图表)ii1 ############################20250915判断是否包含图表##…...

护眼钢化膜是智商税?圆偏振光+AR降反射实测,观复盾用硬核技术给出答案

护眼钢化膜是智商税?圆偏振光AR降反射实测,观复盾用硬核技术给出答案“花上百块买的护眼钢化膜,贴上后屏幕又黄又暗,眼睛反而更累了。”这样的抱怨在数码社区里比比皆是。与此同时,也有用户表示换了圆偏振光膜后&#…...

Docker Compose部署Nginx Proxy Manager保姆级教程:从端口映射到数据持久化全解析

Docker Compose部署Nginx Proxy Manager全流程精解:从架构设计到生产级实践 当你面对数十个需要反向代理的服务时,手动编辑Nginx配置文件的繁琐程度足以让人望而生畏。Nginx Proxy Manager的出现彻底改变了这种局面——这个基于Docker的开源解决方案将复…...

数组指针VS指针数组

【C语言】指针数组 VS 数组指针 原来这么简单! - 知乎 数组的名字就是数组首元素的指针。 判断指针类型指针口诀:先右后左,由近及远,括号优先。(从变量名看起) 指针数组: int *p[5] &…...

长期项目使用 Taotoken 聚合 API 在模型选型与切换上的便利性体验

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 长期项目使用 Taotoken 聚合 API 在模型选型与切换上的便利性体验 在一个持续数月的研发项目中,我们构建了一个需要集成…...

NotebookLM具身智能落地实战(从零部署到ROS2集成):谷歌AI团队内部培训手册泄露版

更多请点击: https://intelliparadigm.com 第一章:NotebookLM具身智能研究 NotebookLM 是 Google 推出的基于用户自有文档进行语义理解与推理的 AI 助手,其核心能力在于“文档感知”(document-grounded reasoning)。当…...

C51可重入函数原理与实践指南

1. 理解C51中的可重入函数概念 在8051单片机开发中,可重入函数(Reentrant Function)是一个关键但常被误解的概念。与通用计算机上的C语言开发不同,由于8051架构的特殊限制,标准C51函数默认都是不可重入的。这源于8051硬件设计的几个固有特点&…...

[具身智能-791]:NAV2 全局规划层 A*算法的本质是距离最短,而不是时间最短算法

核心定论A 算法本质:优先求解几何物理距离最短路径,天生不是「通行耗时最短」算法*一、直白区分A 追求目标*以栅格空间长度为核心权重,算出纯路程最短的路线,只看走了多少米,不看好不好走、堵不堵、快慢如何。时间最短…...

DevEco Studio预览器(Previewer)的3个隐藏技巧:从实时预览到多设备联调

DevEco Studio预览器的3个隐藏技巧:从实时预览到多设备联调 在鸿蒙应用开发中,DevEco Studio的Previewer功能早已超越了简单的UI查看工具。对于已经掌握基础操作的中级开发者而言,如何将这个看似简单的预览窗口转变为高效调试利器&#xff0…...

魔兽争霸3终极优化指南:WarcraftHelper专业级性能提升方案

魔兽争霸3终极优化指南:WarcraftHelper专业级性能提升方案 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还在为魔兽争霸3在现代硬件上的…...

瑞芯微(EASY EAI)RV1126B TF卡电路

1. TF卡电路RV1126B核心板集成了1个SDMMC控制器和1个SDIO控制器,均可支持SDIO3.0协议,以及MMC V4.51协议。4线的数据总线宽度支持SDR104模式,速率达到200MHz。SDMMC控制器是由PMIC单独供电,可以动态的在1.8V和3.3V之间调节&#x…...

NotebookLM多源文档交叉去重实战:基于BERT-Embedding相似度阈值调优(附可复用Python脚本)

更多请点击: https://intelliparadigm.com 第一章:NotebookLM多源文档交叉去重的核心挑战与价值定位 NotebookLM 作为 Google 推出的基于引用的 AI 笔记工具,其核心能力依赖于对用户上传文档的语义理解与跨文档关联。然而当用户导入多个来源…...

【NotebookLM要点提取黄金法则】:20年AI工具实战总结的5大避坑指南与3步精准萃取法

更多请点击: https://intelliparadigm.com 第一章:NotebookLM要点提取方法论全景概览 NotebookLM 是 Google 推出的面向研究者与知识工作者的 AI 原生笔记工具,其核心能力在于对用户上传文档(PDF、TXT、Google Docs)进…...

玩客云直刷Armbian集成宝塔:一站式搭建个人服务器

1. 玩客云改造前的准备工作 几年前花25块钱收了个二手玩客云,本来只是想当个下载机用,没想到这玩意儿刷了Armbian之后简直是个宝藏。特别是找到那个自带宝塔面板的直刷包之后,直接变身成全能小服务器,建站、跑服务、做测试环境样…...

【NotebookLM戏剧研究辅助实战指南】:20年戏剧学者亲授AI赋能文本细读的5大黄金工作流

更多请点击: https://intelliparadigm.com 第一章:NotebookLM戏剧研究辅助的底层逻辑与学科适配性 NotebookLM 以“语义锚点驱动”为核心机制,将用户上传的原始文本(如莎士比亚手稿影印本OCR结果、梅兰芳口述史转录稿、《奥尼尔书…...

通过curl命令快速测试Taotoken的ChatGPT接口是否通畅

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 通过curl命令快速测试Taotoken的ChatGPT接口是否通畅 对于开发者而言,在集成大模型API时,一个快速、直接的…...

企业无线网络进阶:FreeRadius服务器配置与TLS证书实战

1. 为什么企业无线网络需要FreeRadius与TLS证书 想象一下你公司的Wi-Fi像是一个没有门禁的公共广场,任何人都能随意进出。这种情况对于企业网络来说简直是灾难——数据泄露、带宽被占、内网渗透风险接踵而至。而FreeRadiusTLS证书的方案,就相当于给这个广…...