当前位置：首页 > news >正文

【DeepLearning-1】注意力机制（Attention Mechanism）

news 2026/2/9 2:43:53

1.1注意力机制的基本原理：

计算注意力权重：
注意力权重是通过计算输入数据中各个部分之间的相关性来得到的。这些权重表示在给定上下文下，数据的某个部分相对于其他部分的重要性。
加权求和：
使用这些注意力权重对输入数据进行加权求和，以生成一个紧凑的表示，该表示集中了输入数据的关键信息。

1.2数学原理：

假设我们有一个输入序列 X=[x1,x2,...,xn] ，其中 xi 是序列中的元素。在自注意力机制中，我们首先将输入转换为查询（Q）、键（K）和值（V）：

变体：

多头注意力（Multi-Head Attention）：
- 在 Transformer 模型中，使用了多头注意力机制，它将 Q、K、V 分割为多个“头”，每个头在不同的表示子空间中学习注意力：

1.3代码实现：

class Attention(nn.Module):def __init__(self, dim, heads=8, dim_head=64, dropout=0.):super().__init__()inner_dim = dim_head *  headsproject_out = not (heads == 1 and dim_head == dim)self.heads = headsself.scale = dim_head ** -0.5 #缩放因子，用于调整注意力得分的规模，通常是 dim_head 的平方根的倒数self.attend = nn.Softmax(dim = -1) #Softmax 函数，用于计算注意力权重self.to_qkv = nn.Linear(dim, inner_dim * 3, bias = False)self.to_out = nn.Sequential(nn.Linear(inner_dim, dim),nn.Dropout(dropout)) if project_out else nn.Identity()def forward(self, x):qkv = self.to_qkv(x).chunk(3, dim=-1)q, k, v = map(lambda t: rearrange(t, 'b p n (h d) -> b p h n d', h = self.heads), qkv)dots = torch.matmul(q, k.transpose(-1, -2)) * self.scaleattn = self.attend(dots)out = torch.matmul(attn, v)out = rearrange(out, 'b p h n d -> b p n (h d)')return self.to_out(out)

forward(self, x):

生成查询（Q）、键（K）和值（V）:
- qkv = self.to_qkv(x).chunk(3, dim=-1): 这行代码使用一个线性变换（self.to_qkv）将输入 x 转换为查询（Q）、键（K）和值（V）这三组向量，然后将其分割成三个部分。
重排为多头格式:
- q, k, v = map(...): 这里使用 rearrange 函数将 Q、K 和 V 的形状转换为多头格式。原始的扁平形状被重排为一个具有多个头部的形状，以便独立进行自注意力运算。
计算注意力得分:
- dots = torch.matmul(q, k.transpose(-1, -2)) * self.scale: 这里计算查询（Q）和键（K）之间的点积，以得到注意力得分。得分通过 self.scale（一个基于头维度 dim_head 的缩放因子）进行缩放，以防止梯度消失或爆炸。
应用 Softmax 获取注意力权重:
- attn = self.attend(dots): 使用 Softmax 函数对注意力得分进行归一化，得到每个键对应的注意力权重。
加权和以得到输出:
- out = torch.matmul(attn, v): 将注意力权重应用于值（V），得到加权和，这是自注意力的输出。
重排并通过输出层:
- out = rearrange(out, 'b p h n d -> b p n (h d)'): 将输出重排回原始格式，并通过可能存在的输出线性层和 dropout 层。

【DeepLearning-1】注意力机制（Attention Mechanism）

1.1注意力机制的基本原理： 计算注意力权重： 注意力权重是通过计算输入数据中各个部分之间的相关性来得到的。这些权重表示在给定上下文下，数据的某个部分相对于其他部分的重要性。加权求和： 使用这些注意力权重对输入数据进行加权…...

编程日记 2024/1/24 5:55:51

c++：string相关的oj题（415. 字符串相加、125. 验证回文串、541. 反转字符串 II、557. 反转字符串中的单词 III）

文章目录 1. 415. 字符串相加题目详情代码1思路1代码2思路2 2. 125. 验证回文串题目详情代码1（按照要求修改后放到新string里）思路1代码2(利用双指针/索引)思路2 3. 541. 反转字符串 II题目详情代码1思路1 4. 557. 反转字符串中的单词 III题目详情代码1&…...

编程日记 2024/1/24 5:52:49

HuoCMS|免费开源可商用CMS建站系统HuoCMS 2.0下载(thinkphp内核)

HuoCMS是一套基于ThinkPhp6.0Vue 开发的一套HuoCMS建站系统。 HuoCMS是一套内容管理系统同时也是一套企业官网建设系统，能够帮过用户快速搭建自己的网站。可以满足企业站，外贸站，个人博客等一系列的建站需求。HuoCMS的优势: 可以使用统一后台…...

编程日记 2024/1/24 5:50:47

VsCode + CMake构建项目 C/C++连接Mysql数据库 | 数据库增删改查C++封装 | 信息管理系统通用代码 ---- 课程笔记

这个是B站Up主：程序员程子青的视频 C封装Mysql增删改查操作_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1m24y1a79o/?p6&spm_id_frompageDriver&vd_sourcea934d7fc6f47698a29dac90a922ba5a3安装mysql:mysql 下载和安装和修改MYSQL8.0 数据库存储…...

编程日记 2024/1/24 5:48:45

HackTheBox - Medium - Linux - Ransom

Ransom 外部信息搜集端口扫描循例nmap Web枚举 /api/login 它似乎受nosql注入影响，我们能够登录成功把返回的cookie丢到cookie editor，回到主页 zip是加密的 Foothold 我们可以得知加密类型是ZipCrypto 谷歌能够找到这篇文章，它将告诉我…...

编程日记 2024/1/24 5:47:44

柠檬微趣面试准备

简单介绍一下spring原理 Spring框架是一个开源的Java应用程序框架，它提供了广泛的基础设施支持，帮助开发者构建Java应用程序。Spring的设计原则包括依赖注入（DI）和面向切面编程（AOP）等，以促使代…...

编程日记 2024/1/24 5:43:41

uniapp嵌套webview，无法返回上一级？

uniapp嵌套webview，如何解决回退问题？ 文章目录 uniapp嵌套webview，如何解决回退问题？遇到问题解决方式方式一方式二场景： 进入首页，自动跳转第三方应用遇到问题在设备上运行时，无法回退上…...

编程日记 2024/1/24 5:41:39

【优先级队列之堆的实现】

文章目录前言优先级队列 PriorityQueue优先队列的模拟实现堆堆的储存方式堆的创建建堆的时间复杂度堆的插入与删除总结前言优先级队列 PriorityQueue 概念：对列是先进先出的的数据结构，但有些情况，数据可能带有优先级，一般出…...

编程日记 2024/1/24 5:39:36

Vue中$watch()方法和watch属性的区别

vue中$watch()和watch属性都是监听值的变化的，是同一个作用，但是有两个不同写法。用法一： //注意：这种方法是监听不到对象的变化的。 this.$watch((newVal,oldVal)>{ }) 用法二： watch:{xxx:(newVal,oldVal)>…...

编程日记 2024/1/24 5:38:35

openssl3.2 - 官方demo学习 - test - certs - 001 - Primary root: root-cert

文章目录 openssl3.2 - 官方demo学习 - test - certs - 001 - Primary root: root-cert概述笔记备注END openssl3.2 - 官方demo学习 - test - certs - 001 - Primary root: root-cert 概述实验前置条件为 openssl3.2 - linux脚本(.sh)调用openssl命令行参数的简单确认方法 …...

编程日记 2024/1/24 5:29:27

小程序商城能不能自己开发？

在数字化时代，小程序商城已经成为商家拓展销售渠道、提升品牌影响力的重要工具。那么，商家能否自己动手开发小程序商城呢？答案是肯定的。接下来，以乔拓云为例，为大家详细介绍如何自己搭建小程序商城。首先&#xff0c…...

编程日记 2024/1/24 5:27:25

GPTBots：利用FlowBot中的卡片和表单信息，提供丰富的客服体验

在当今的数字化时代，客户服务的形式和体验正在经历着前所未有的变革。传统的文字消息方式已经无法满足现代用户对于服务体验的多元化需求。那么，如何才能在这个信息爆炸的时代，让我们的服务方式更加个性化、多样化，从而提供更丰富…...

编程日记 2024/1/24 5:25:23

ERC20 解读

1.ERC20 什么叫做代币？ 代币可以在以太坊中表示任何东西： 在线平台中的信誉积分游戏中一个角色的技能彩票卷金融资产类似于公司股份的资产像美元一样的法定货币一盎司黄金及更多... 以太坊的这种强大特点必须以强有力的标准来处理，对吗&a…...

编程日记 2024/1/24 5:23:21

C#，入门教程(31)——预处理指令的基础知识与使用方法

上一篇： C#，入门教程(30)——扎好程序的笼子，错误处理 try catchhttps://blog.csdn.net/beijinghorn/article/details/124182386 Visual Studio、C#编译器以及C#语法所支持的预处理指令，绝对是天才设计。编译程序的时候会发现&am…...

编程日记 2024/1/24 5:22:20

Java SE：面向对象（下）

1. static关键字静态区的特点：静态区里面的每一样东西都是唯一有且仅有一个的，如此时str1 "abc"即此时静态区里面已经创建了字符串abc并将abc地址赋给str1，后面在进行赋值也不会在静态区开辟一串新的"abc" 1.1 static修…...

编程日记 2024/1/24 5:21:19

搭建开源数据库中间件MyCat2-配置mysql数据库双主双从

mycat2官网：MyCat2 前言：mycat2下载地址无法访问，不知道是不是被DNS污染了，还是需要搭梯子访问，所以我只能找到1.21的版本进行安装。搭建mycat2的前提是搭建数据库主从复制。架构：双主双从配置&#xf…...

编程日记 2024/1/24 5:20:18

Oracle 19c rac集群管理 -------- 集群启停操作过程

Oracle rac集群启停操作过程首先查看数据库的集群的db_unique_name SQL> show parameter nameNAME TYPE VALUE ------------------------------------ ----------- --------------------------- cdb_cluster_name …...

编程日记 2024/1/24 5:19:16

【Java】HttpServlet类中前后端交互三种方式（query string、form表单、JSON字符串）

在前后端的交互中，前端通过以下三种方式来与后端进行交互🌟 ✅query string ✅form表单 ✅JSON字符串下面我们将书写这三种方式的后端代码并进行讲解 1、Query String QueryString即在url中写入键值对，一般用doGet方法进行交互代码如下 …...

编程日记 2024/1/24 5:13:10

【深蓝学院】移动机器人运动规划--第2章基于搜索的路径规划--笔记

0. Outline 1. Graph Search Basis Configuration Space等概念机器人配置: 指机器人位置和所有点的表示。 DOF: 指用于表示机器人配置所需的最小的实数坐标的数量n。 C-space: 包含机器人n维所有配置的空间。在C-space中机器人的pose是一个点。机器人在C-space中被表示为一…...

编程日记 2024/1/24 5:12:09

安装向量数据库milvus可视化工具attu

使用docker安装的命令和简单就一个命令： docker run -p 8000:3000 -e MILVUS_URL{milvus server IP}:19530 zilliz/attu:v2.3.5sunyuhuasunyuhua-HKF-WXX:~/dockercom/milvus$ docker run -p 8000:3000 -e MILVUS_URL127.0.0.1:19530 zilliz/attu:latest yarn run…...

编程日记 2024/1/24 5:11:07

2025年能源电力系统与流体力学国际会议 (EPSFD 2025)

2025年能源电力系统与流体力学国际会议（EPSFD 2025）将于本年度在美丽的杭州盛大召开。作为全球能源、电力系统以及流体力学领域的顶级盛会，EPSFD 2025旨在为来自世界各地的科学家、工程师和研究人员提供一个展示最新研究成果、分享实践经验及…...

编程新知 2026/2/1 21:17:19

在四层代理中还原真实客户端ngx_stream_realip_module

一、模块原理与价值 PROXY Protocol 回溯第三方负载均衡（如 HAProxy、AWS NLB、阿里 SLB）发起上游连接时，将真实客户端 IP/Port 写入 PROXY Protocol v1/v2 头。Stream 层接收到头部后，ngx_stream_realip_module 从中提取原始信息…...

编程新知 2026/1/4 5:02:00

使用van-uploader 的UI组件，结合vue2如何实现图片上传组件的封装

以下是基于 vant-ui（适配 Vue2 版本 ）实现截图中照片上传预览、删除功能，并封装成可复用组件的完整代码，包含样式和逻辑实现，可直接在 Vue2 项目中使用： 1. 封装的图片上传组件 ImageUploader.vue <te…...

编程新知 2026/1/31 2:37:22

python爬虫：Newspaper3k 的详细使用（好用的新闻网站文章抓取和解析的Python库）

更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录一、Newspaper3k 概述1.1 Newspaper3k 介绍1.2 主要功能1.3 典型应用场景1.4 安装二、基本用法2.2 提取单篇文章的内容2.2 处理多篇文档三、高级选项3.1 自定义配置3.2 分析文章情感四、实战案例4.1 构建新闻摘要聚合器…...

编程新知 2025/10/25 7:51:48

鱼香ros docker配置镜像报错：https://registry-1.docker.io/v2/

使用鱼香ros一件安装docker时的https://registry-1.docker.io/v2/问题一键安装指令 wget http://fishros.com/install -O fishros && . fishros出现问题：docker pull 失败网络不同，需要使用镜像源按照如下步骤操作 sudo vi /etc/docker/dae…...

编程新知 2025/12/31 6:28:08

【Java学习笔记】BigInteger 和 BigDecimal 类

BigInteger 和 BigDecimal 类二者共有的常见方法方法功能add加subtract减multiply乘divide除注意点：传参类型必须是类对象一、BigInteger 1. 作用：适合保存比较大的整型数 2. 使用说明创建BigInteger对象传入字符串 3. 代码示例 import j…...

编程新知 2025/11/8 15:39:00

掌握 HTTP 请求：理解 cURL GET 语法

cURL 是一个强大的命令行工具，用于发送 HTTP 请求和与 Web 服务器交互。在 Web 开发和测试中，cURL 经常用于发送 GET 请求来获取服务器资源。本文将详细介绍 cURL GET 请求的语法和使用方法。一、cURL 基本概念 cURL 是 "Client URL" 的缩写…...

编程新知 2025/7/9 20:52:19

Python网页自动化Selenium中文文档

1. 安装 1.1. 安装 Selenium Python bindings 提供了一个简单的API，让你使用Selenium WebDriver来编写功能/校验测试。通过Selenium Python的API，你可以非常直观的使用Selenium WebDriver的所有功能。 Selenium Python bindings 使用非常简洁方便的A…...

编程新知 2026/1/23 18:15:21

渗透实战PortSwigger Labs指南：自定义标签XSS和SVG XSS利用

阻止除自定义标签之外的所有标签先输入一些标签测试，说是全部标签都被禁了除了自定义的自定义<my-tag onmouseoveralert(xss)> <my-tag idx onfocusalert(document.cookie) tabindex1> onfocus 当元素获得焦点时（如通过点击或键盘导航&…...

编程新知 2026/2/5 18:48:19

Appium下载安装配置保姆教程（图文详解）

目录一、Appium软件介绍 1.特点 2.工作原理 3.应用场景二、环境准备安装 Node.js 安装 Appium 安装 JDK 安装 Android SDK 安装Python及依赖包三、安装教程 1.Node.js安装 1.1.下载Node 1.2.安装程序 1.3.配置npm仓储和缓存 1.4. 配置环境 1.5.测试Node.j…...

编程新知 2026/1/30 22:33:08

1.1注意力机制的基本原理：

1.2数学原理：

forward(self, x):

相关文章：