当前位置：首页 > news >正文

注意力模型QKV矩阵与位置向量计算

news 2026/2/10 7:31:11

注意力模型QKV矩阵计算

在注意力机制中，Query (Q)、Key (K) 和 Value (V) 矩阵是通过对输入向量进行线性变换得到的，而这些矩阵的初始化与更新与神经网络的权重类似。

1. Q, K, V矩阵的初始化

线性变换：在注意力机制中，输入序列通常是一个词向量或特征向量矩阵，记为 XXX（形状为 (n,dmodel)(n, d_{\text{model}})(n,dmodel)，其中 nnn 是序列长度， dmodeld_{\text{model}}dmodel 是词向量的维度）。Q、K、V 矩阵则是通过对这个输入矩阵 XXX 进行线性变换得到的：

2. Q, K, V矩阵的更新

通过反向传播更新：在训练过程中，Q、K、V 矩阵的权重是通过反向传播算法更新的。当计算损失函数的梯度时，权重矩阵的梯度被计算出来，然后使用优化算法（如 SGD、Adam）来更新这些权重。
多头注意力中的独立更新：在多头注意力机制中，会有多个独立的头（如 8 头、16 头），每个头都有自己的 Q、K、V 矩阵。每个头的权重矩阵独立初始化和更新。

3. 4. 自注意力中的 d

通过以上的步骤和过程，Q、K、V 矩阵被初始化和更新，而 dk 则作为缩放因子确保注意力权重的稳定性。这些步骤构成了注意力机制的核心运作原理。

位置向量怎样计算？

位置向量（Positional Encoding）在 Transformer 等模型中用于为输入序列中的每个位置编码位置信息，以便模型能够捕捉序列中的顺序关系。由于 Transformer 是完全基于注意力机制的，它没有像 RNN 那样的序列信息，因此需要位置向量来引入序列顺序的概念。

1. 位置向量的基本思想

位置编码的重要性：由于 Transformer 没有内在的顺序信息（不像 RNN 那样逐步处理序列），所以需要通过显式的方式将位置信息加入到输入序列中。
加性方式：位置编码通常是通过将它们直接加到输入词向量中，从而在输入中显式编码位置信息。

2. 常见的计算方法：正弦和余弦函数

最常用的计算位置向量的方法是基于正弦和余弦函数。Transformer 论文《Attention is All You Need》中提出了这种方法，具体公式如下：

对于序列中的第 posp个位置，第 2i，2i+1 维的编码分别为：

其中：

poss 是位置索引（从 0 开始）。
i是位置向量中的维度索引。
dmodel 是输入向量的维度（如 512 或 1024）。

解释：

正弦和余弦函数用于编码不同频率的信息，以确保每个位置具有唯一的编码，同时保持相似位置之间的关系。
通过使用不同的频率（由 100002idmodel10000^{\frac{2i}{d_{\text{model}}}}10000dmodel2i 控制），这些位置向量能够编码不同尺度上的位置信息。

3. 位置向量的特点

周期性：由于正弦和余弦函数是周期性的，相近的位置信息会在相应的编码中体现出相似的模式，这使得模型能够轻松捕捉到相对位置的变化。
无参性：这些位置向量不依赖于模型参数，是固定的编码方式，直接根据位置计算。
维度的分布：奇数维度（余弦）和偶数维度（正弦）使用不同的函数编码位置，从而在每个维度上提供不同的位置信息。

4. 位置向量的应用

加到输入向量中：位置向量通常被加到输入的词向量上，这样模型在处理输入时既包含了词语的语义信息，也包含了位置信息。
适用于不同模型：虽然 Transformer 是最常见的应用位置向量的模型，但位置向量的概念也可以应用于其他需要处理序列数据的深度学习模型。

5. 其他位置编码方式

可学习的位置编码：在一些变体中，位置向量被作为可学习的参数，模型在训练过程中学习最佳的位置信息表示。这种方法在实际中也很有效，尽管它不像固定的正弦/余弦编码那样具有明确的解释性。
相对位置编码：除了绝对位置编码，相对位置编码关注的是序列元素之间的相对位置，尤其在一些需要处理长距离依赖的任务中（如文档摘要生成）非常有用。

通过理解和应用位置向量，Transformer 等模型能够捕捉到序列中的位置信息，从而更好地处理和生成与顺序相关的输出。

注意力模型QKV矩阵与位置向量计算

注意力模型QKV矩阵计算在注意力机制中，Query (Q)、Key (K) 和 Value (V) 矩阵是通过对输入向量进行线性变换得到的，而这些矩阵的初始化与更新与神经网络的权重类似。 1. Q, K, V矩阵的初始化线性变换：在注意力机制中，输入序列…...

编程日记 2024/8/17 8:28:00

glm4-9B-chat，使用提示工程激活模型最大潜力

文章目录安全与免责申明简介GLM4-9B直接问答提示工程激活能力安全与免责申明本文旨在研究大模型的安全，交流大模型目前安全方面的一些不足。所有的实验与讨论的目的均是在进行科学研究的实验的需要。简介本文使用Ollama和LangChain，通过提示词…...

编程日记 2024/8/17 8:26:59

[Linux]在Ubuntu中如何正确安装python

一、在Ubuntu中python常见的安装方式在Ubuntu中我们常用的python安装方式有使用包管理工具安装或者使用源码安装，下面我们来讲解一下这两种安装方式的优缺点。首先是使用包管理工具安装，我们可以直接使用“apt install python3.9”来安装一个我们想要的…...

编程日记 2024/8/17 8:25:58

文件选择器组件代码 <script setup lang"ts"> import { ref, onMounted, defineProps, defineEmits, computed, toRaw } from vue;// 定义props interface Props {buttonTextUnactive?: string;buttonTextActive?: string;onFatherClick?: boolean; }// 定…...

编程日记 2024/8/17 8:24:57

Chrome书签搜索插件

效果展示这是一个chroma插件，可以按住 ctrl/command B 进行搜索您的书签，并且点击打开您的书签。支持上下切换回车打开新页面。扩展下载地址 bookmark-search 欢迎有任何问题给我提 issues...

编程日记 2024/8/17 8:21:54

MATLAB算法实战应用案例精讲-【人工智能】联邦学习（二）（附python代码实现）

目录前言几个高频面试题目面向隐私保护的机器学习（PPML）和安全机器学习（Secure ML）的区别：联邦学习、安全计算是什么关系？联邦学习有哪些类型？如何区分横向联邦学习和纵向联邦学习？什么是IID？什么是Non-iid？联邦学习训练后的模型是一个公共的模型，而…...

编程日记 2024/8/17 8:20:53

在 C++ 中实现一个简单的图形用户界面（GUI）应用

在 C 中实现一个简单的图形用户界面（GUI）应用图形用户界面（GUI）应用程序是现代软件开发中不可或缺的一部分。它们为用户提供了直观的交互方式，使得操作更加简单和高效。本文将介绍如何在 C 中实现一个简单的 GUI 应用…...

编程日记 2024/8/17 8:18:50

如何编写一个CMakeLists.txt文件（由简到难，较详细）

在Linux系统下，经常使用CMakeLists.txt文件来链接、编译C工程，大部分人clone的代码里都是有CMakeLists.txt文件的，只需要cmake .. 和make就完事了，但在工作中，你必须要有从无到有编写CMakeLists.txt文件的能力。一、…...

编程日记 2024/8/17 8:15:47

数据结构----链表

一丶概念链表又称单链表、链式存储结构，用于存储逻辑关系为“一对一”的数据。和顺序表不同同，使用链表存储数据，不强制要求数据在内存中集中存储，各个元素可以分散存储在内存中。二丶特点特点：内存不连续…...

编程日记 2024/8/17 8:10:41

【Qt】内置对话框

一.Qt内置对话框 Qt 提供了多种可复⽤的对话框类型，即 Qt 标准对话框。Qt标准对话框全部继承于QDialog类。常⽤标准对话框如下： 二.内置对话框分类 1.消息对话框 QMessageBox 1.1 概念消息对话框是应⽤程序中最常⽤的界⾯元素。消息对话框主要⽤于为…...

编程日记 2024/8/17 8:09:39

excel常规操作

一、去重 IF(COUNTIF($D$1:D2,D2)>1,"",C2) —— D是去重的列二、不同列匹配 VLOOKUP(A1,E:F,2,0) vlookup(查找值, 查找区域, 返回查找区域的第几列数据, 精确查找输入参数"0"or"false" 或模糊查找输入参数"1"or"true…...

编程日记 2024/8/17 8:03:32

uniapp webview子页面向父页面发送数据和触发事件，重点在第3条！！！

1、众所周知H5中iframe可以用过postmessage进行，从H5子页面向H5父页面进行通信。方法如下： // 子页面 window.parent.postMessage({ data: 你的消息 }, *);// 父页面 <iframe src"xxxxxxxxxxx"></iframe> window.addEventListene…...

编程日记 2024/8/17 8:01:30

【STM32实物】基于STM32+ESP32+手机APP设计的智能宠物喂食系统实物源码原理图PCB设计文档演示视频——（文末工程资料下载）

基于STM32+ESP32+手机APP设计的智能宠物喂食系统演示视频基于STM32+ESP32+手机APP设计的智能宠物喂食系统摘要近年来，宠物在人们生活中越来越不可或缺，给人们带来的陪伴和快乐。然而，由于种种原因，主人不能时刻照顾宠物的饮食，所以宠物喂食装置变得尤为重要。传…...

编程日记 2024/8/17 7:58:26

EMC学习笔记5——辐射骚扰发射

辐射骚扰发射是基本的实验项目，目的是检验设备在工作时有没有产生意外的过强电磁辐射。例如发电机，在工作时会产生意外的电磁波辐射，因为电子设备中隐藏了一些天线，这些隐藏的天线在辐射电磁波。一、两种基本的天线结构如前面…...

编程日记 2024/8/17 7:56:24

深入理解浏览器解析机制和XSS向量编码

基础部分 1.<a href"%6a%61%76%61%73%63%72%69%70%74:%61%6c%65%72%74%28%31%29">aaa</a> <a>标签可以识别，但是解析不了， 是在协议的编码顺序上，先认协议 URL 编码 "javascript:alert(1)" 2.<a …...

编程日记 2024/8/17 7:52:19

winform 大头针实现方法——把窗口钉在最上层

平时我们再使用成熟的软件的时候，会发现有个大头针的功能挺不错的。就是点一下大头针，窗口就会钉住，一直保持在最上面一层，这样可以一边设置参数，一边观察这个窗口里面的变化，比较方便。下面我就来简单实现…...

编程日记 2024/8/17 7:51:18

中间件|day1.Redis

Redis 定义 Redis 是一个开源（BSD许可）的，内存中的数据结构存储系统，它可以用作数据库、缓存和消息中间件。它支持多种类型的数据结构，如字符串（strings）， 散列（hash…...

编程日记 2024/8/17 7:50:17

PMP到底有什么用？

PMP 就是项目管理证书，全称是项目管理专业人士资格认证，对于一个在项目管理岗位混迹五年的老油条来说，PMP 证书是敲开项目管理岗位的第一块砖，每年考 PMP 的人都很多，要是 PMP 证书没有价值，还会有那么多人…...

编程日记 2024/8/17 7:45:12

apache huidi 时间旅行Time Travel）机制

Apache Hudi（Hadoop Upserts Deletes and Incrementals）是一个数据管理框架，它帮助你高效地管理存储在分布式存储系统（如HDFS或云存储）上的大型数据集。其一个关键特性是“时间旅行”，这允许你在特定时间点查询数据的历史版本。什么是Apache Hudi中的时间旅行？ Apach…...

编程日记 2024/8/17 7:44:11

Python 数据可视化，怎么选出合适数据的图表

数据可视化最佳实践 1. 引言：为什么数据可视化最佳实践很重要数据可视化是数据分析和决策过程中不可或缺的一部分。通过有效的可视化，复杂的数据可以转化为易于理解的信息，从而帮助观众快速做出正确的判断。然而，糟糕的可视化可…...

编程日记 2024/8/17 7:37:03

java_网络服务相关_gateway_nacos_feign区别联系

1. spring-cloud-starter-gateway 作用：作为微服务架构的网关，统一入口，处理所有外部请求。核心能力： 路由转发（基于路径、服务名等）过滤器（鉴权、限流、日志、Header 处理）支持负…...

编程新知 2025/11/28 2:51:33

深入浅出：JavaScript 中的 `window.crypto.getRandomValues()` 方法

深入浅出：JavaScript 中的 window.crypto.getRandomValues() 方法在现代 Web 开发中，随机数的生成看似简单，却隐藏着许多玄机。无论是生成密码、加密密钥，还是创建安全令牌，随机数的质量直接关系到系统的安全性。Jav…...

编程新知 2025/10/8 4:56:09

智能仓储的未来：自动化、AI与数据分析如何重塑物流中心

当仓库学会“思考”，物流的终极形态正在诞生想象这样的场景： 凌晨3点，某物流中心灯火通明却空无一人。AGV机器人集群根据实时订单动态规划路径；AI视觉系统在0.1秒内扫描包裹信息；数字孪生平台正模拟次日峰值流量压力…...

编程新知 2026/2/1 2:49:30

使用 Streamlit 构建支持主流大模型与 Ollama 的轻量级统一平台

🎯 使用 Streamlit 构建支持主流大模型与 Ollama 的轻量级统一平台 📌 项目背景随着大语言模型（LLM）的广泛应用，开发者常面临多个挑战：各大模型（OpenAI、Claude、Gemini、Ollama）接口风格不统一；缺乏一个统一平台进行模型调用与测试；本地模型 Ollama 的集成与前…...

编程新知 2026/1/25 3:31:07

力扣-35.搜索插入位置

题目描述给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。请必须使用时间复杂度为 O(log n) 的算法。 class Solution {public int searchInsert(int[] nums, …...

编程新知 2025/12/3 3:22:43

Spring是如何解决Bean的循环依赖：三级缓存机制

1、什么是 Bean 的循环依赖在 Spring框架中，Bean 的循环依赖是指多个 Bean 之间‌互相持有对方引用‌，形成闭环依赖关系的现象。多个 Bean 的依赖关系构成环形链路，例如：双向依赖：Bean A 依赖 Bean B，同时 Bean B 也依赖 Bean A（A↔B）。链条循环： Bean A → Bean…...

编程新知 2025/7/25 1:21:53

在鸿蒙HarmonyOS 5中使用DevEco Studio实现企业微信功能

1. 开发环境准备安装DevEco Studio 3.1： 从华为开发者官网下载最新版DevEco Studio安装HarmonyOS 5.0 SDK 项目配置： // module.json5 {"module": {"requestPermissions": [{"name": "ohos.permis…...

编程新知 2025/12/29 15:43:26

为什么要创建 Vue 实例

核心原因：Vue 需要一个「控制中心」来驱动整个应用你可以把 Vue 实例想象成你应用的**「大脑」或「引擎」。它负责协调模板、数据、逻辑和行为，将它们变成一个活的、可交互的应用**。没有这个实例，你的代码只是一堆静态的 HTML、JavaScript 变量和函数，无法「活」起来。 …...

编程新知 2026/2/9 7:06:29

探索Selenium：自动化测试的神奇钥匙

目录一、Selenium 是什么1.1 定义与概念1.2 发展历程1.3 功能概述二、Selenium 工作原理剖析2.1 架构组成2.2 工作流程2.3 通信机制三、Selenium 的优势3.1 跨浏览器与平台支持3.2 丰富的语言支持3.3 强大的社区支持四、Selenium 的应用场景4.1 Web 应用自动化测试4.2 数据…...

编程新知 2025/11/19 18:06:51

从“安全密码”到测试体系：Gitee Test 赋能关键领域软件质量保障

关键领域软件测试的"安全密码"：Gitee Test如何破解行业痛点在数字化浪潮席卷全球的今天，软件系统已成为国家关键领域的"神经中枢"。从国防军工到能源电力，从金融交易到交通管控，这些关乎国计民生的关键领域…...

编程新知 2026/2/2 20:26:17