当前位置：首页 > news >正文

Attention计算中的各个矩阵的维度都是如何一步步变化的？

news 2026/2/8 23:40:20

在Transformer模型中，各个矩阵的维度变化是一个关键的过程，涉及到输入、编码器、解码器和输出等多个阶段。以下是详细的维度变化过程：

输入阶段

输入序列：假设输入序列的长度为seq_len，每个单词或标记通过词嵌入（word embedding）转换为一个固定维度的向量，维度为d_model。因此，输入矩阵的维度为(seq_len, d_model)。
位置编码：位置编码（Positional Encoding）通常与词嵌入向量相加，以提供序列中每个单词的位置信息。位置编码的维度与词嵌入相同，即(seq_len, d_model)。

编码器（Encoder）阶段

多头注意力机制（Multi-Head Attention）：
- 查询（Q）、键（K）、值（V）矩阵：输入矩阵与权重矩阵相乘得到Q、K、V矩阵。假设每个头的维度为d_k（通常d_k = d_model / num_heads），则Q、K、V的维度为(seq_len, d_k)。
- 注意力计算：Q与K的转置相乘，得到一个注意力得分矩阵，维度为(seq_len, seq_len)。经过softmax处理后，再与V相乘，得到输出矩阵，维度为(seq_len, d_k)。
- 多头拼接：将所有头的输出拼接或平均，得到最终的输出矩阵，维度为(seq_len, d_model)。
前馈神经网络（Feed-Forward Network）：
- 输入矩阵经过两个线性变换和非线性激活函数，最终输出的维度保持为(seq_len, d_model)。

解码器（Decoder）阶段

掩码多头注意力机制（Masked Multi-Head Attention）：
- 类似于编码器中的多头注意力机制，但使用了掩码来防止解码器在生成时“偷看”未来的信息。输出矩阵的维度为(seq_len, d_model)。
编码器-解码器注意力机制：
- 解码器的查询（Q）与编码器的键（K）和值（V）进行注意力计算，输出矩阵的维度为(seq_len, d_model)。

输出阶段

线性层和Softmax：
- 解码器的输出经过一个线性层，将维度从(seq_len, d_model)转换为(seq_len, vocab_size)，其中vocab_size是词汇表的大小。
- 最后通过Softmax层，得到每个单词的概率分布，用于预测下一个单词。

这些维度变化确保了Transformer模型能够有效地处理序列数据，并在各个层之间传递和转换信息。

Attention计算中的各个矩阵的维度都是如何一步步变化的？

在Transformer模型中，各个矩阵的维度变化是一个关键的过程，涉及到输入、编码器、解码器和输出等多个阶段。以下是详细的维度变化过程： 输入阶段输入序列：假设输入序列的长度为seq_len，每个单词或标记通过词嵌入&…...

编程日记 2025/1/14 8:00:35

【数模学习笔记】插值算法和拟合算法

声明：以下笔记中的图片以及内容均整理自“数学建模学习交流”清风老师的课程资料，仅用作学习交流使用文章目录插值算法定义三个类型插值举例插值多项式分段插值三角插值一般插值多项式原理拉格朗日插值法龙格现象分段线性插值牛顿插值法 Hermite埃尔…...

编程日记 2025/1/14 7:59:30

探索 C++ 与 LibUSB：开启 USB 设备交互的奇幻之旅

一、引言在当今数字化时代，USB（通用串行总线）设备无处不在，从常见的 U 盘、鼠标、键盘，到复杂的工业数据采集设备、医疗监测仪器等，它们以方便快捷的插拔式连接，为人们的生活和工作带来了极大…...

编程日记 2025/1/14 7:47:08

二、模型训练与优化（4）：模型优化-实操

下面我将以 MNIST 手写数字识别模型为例，从剪枝 (Pruning) 和量化 (Quantization) 两个常用方法出发，提供一套可实际动手操作的模型优化流程。此示例基于 TensorFlow/Keras 环境，示范如何先训练一个基础模型，然后对其进行剪枝和…...

编程日记 2025/1/14 7:46:07

3D可视化产品定制，应用于哪些行业领域？

3D可视化定制服务已广泛渗透至众多行业领域，包括汽车、家居、时尚鞋服、珠宝配饰以及数码电器等： 汽车行业： 借助Web全景技术与3D模型，我们高保真地再现了汽车外观，为用户带来沉浸式的车型浏览体验。用户可在展示界面自…...

编程日记 2025/1/14 7:45:06

Avalonia 入门笔记（零）：概述

Avalonia 是一个基于 .NET 和 Skia 的开源、跨平台 UI 框架，支持 Windows、Linux、macOS、iOS、Android 和 WebAssembly。Skia 是一个基于 C 的开源 2D 渲染引擎，Avalonia 通过 Skia 自绘 UI 控件，保证在全平台具有一致的观感基于 .NET 的跨…...

编程日记 2025/1/14 7:43:04

Unity TextMesh Pro入门

概述 TextMesh Pro是Unity提供的一组工具，用于创建2D和3D文本。与Unity的UI文本和Text Mesh系统相比，TextMesh Pro提供了更好的文本格式控制和布局管理功能。本文介绍了TMP_Text组件和Tmp字体资产(如何创建字体资产和如何解决缺字问题),还有一些高级功…...

编程日记 2025/1/14 7:42:03

[论文阅读] (35)TIFS24 MEGR-APT：基于攻击表示学习的高效内存APT猎杀系统

《娜璋带你读论文》系列主要是督促自己阅读优秀论文及听取学术讲座，并分享给大家，希望您喜欢。由于作者的英文水平和学术能力不高，需要不断提升，所以还请大家批评指正，非常欢迎大家给我留言评论，学术路上期…...

编程日记 2025/1/14 7:40:00

12 USART串口通讯

1 串口物理层两个设备的“DB9接口”之间通过串口信号建立连接，串口信号线中使用“RS232标准”传输数据信号。由于RS232电平标准的信号不能直接被控制器直接识别，所以这些信号会经过“电平转换芯片”转换成控制器能识别的“TTL校准”的电平信号&#xff…...

编程日记 2025/1/14 7:36:56

CF 368A.Sereja and Coat Rack(Java实现)

问题分析简而言之，小明要邀请m个绅士到家，家里有n个挂衣钩，一个挂衣钩要支付i元，如果挂衣钩不够了就要给每个绅士赔d元思路分析所以思路就很清楚了，获取n，d，m的值，并用数组存放每…...

编程日记 2025/1/14 7:34:54

清华大学、字节跳动等单位联合发布最新视觉语言动作模型RoboVLMs

近年来，视觉语言基础模型（Vision Language Models, VLMs）大放异彩，在多模态理解和推理上展现出了超强能力。现在，更加酷炫的视觉语言动作模型（Vision-Language-Action Models, VLAs）来了&#x…...

编程日记 2025/1/14 7:32:53

网络安全、Web安全、渗透测试之笔经面经总结

本篇文章涉及的知识点有如下几方面： 1.什么是WebShell? 2.什么是网络钓鱼？ 3.你获取网络安全知识途径有哪些？ 4.什么是CC攻击？ 5.Web服务器被入侵后，怎样进行排查？ 6.dll文件是什么意思，有什么…...

编程日记 2025/1/14 7:27:42

.NET Core NPOI 导出图片到Excel指定单元格并自适应宽度

NPOI：支持xlsx，.xls，版本>2.5.3 XLS：HSSFWorkbook，主要前缀HSS， XLSX：XSSFWorkbook，主要前缀XSS，using NPOI.XSSF.UserModel; 1、导出Excel添加图片效果&#xff0…...

编程日记 2025/1/14 7:25:39

python bs4 selenium 查找a href=javascript:()；的实际点击事件和url

在使用 BeautifulSoup 和 Selenium 时，处理 href"javascript:;" 的链接需要一些额外的步骤，因为这些链接不直接指向一个 URL，而是通过 JavaScript 代码来执行某些操作。这可能包括导航到另一个页面、触发模态窗口、显示/隐藏内容等…...

编程日记 2025/1/14 7:23:34

三 BH1750 光感驱动调试1

一扫描设备查看手册 BH1750 光感模块寄存器地址为 0x23 官方手册： http://rohmfs.rohm.com/en/products/databook/datasheet/ic/sensor/light/bh1750fvi-e.pdf su 然后用 i2cdetect 扫描设备：拨，插对比，探测设备挂载在 /dev/i2c-5 上，从设备地址为 0x23 二 …...

编程日记 2025/1/14 7:13:24

UE材质节点Fresnel

Fresnel节点 ExponentIn 控制边缘透明度 BaseReflectFractionIn 控制中心透明度...

编程日记 2025/1/14 7:11:22

linux的大内核锁与顺序锁

大内核锁 Linux大内核锁（Big Kernel Lock，BKL）是Linux内核中的一种锁机制，用于保护内核资源，以下是关于它的详细介绍： 概念与作用大内核锁是一种全局的互斥锁，在同一时刻只允许一个进程访问…...

编程日记 2025/1/14 7:06:18

用户注册模块用户校验（头条项目-05）

1 用户注册后端逻辑 1.1 接收参数 username request.POST.get(username) password request.POST.get(password) phone request.POST.get(phone) 1.2 校验参数前端校验过的后端也要校验，后端的校验和前端的校验是⼀致的 # 判断参数是否⻬全 # 判断⽤户名是否…...

编程日记 2025/1/14 6:55:05

面向对象的基本概念

本篇，来介绍面向对象的基本概念。 1 面向过程与面向对象面向过程与面向对象，是两种不同的编程思想。 1.1 面向过程面向过程的思路，是按照问题的解决步骤，将程序分解为一个个具体的函数或过程，然后依次调用这些函数来实现程序的功能。面向对象的程序设计，程序的执行…...

编程日记 2025/1/14 6:52:03

深度学习每周学习总结R4（LSTM-实现糖尿病探索与预测）

🍨 本文为🔗365天深度学习训练营中的学习记录博客R6中的内容，为了便于自己整理总结起名为R4🍖 原作者：K同学啊 | 接辅导、项目定制目录 0. 总结1. LSTM介绍LSTM的基本组成部分如何理解与应用LSTM 2. 数据预处理3. 数…...

编程日记 2025/1/14 6:51:02

PHP和Node.js哪个更爽?

先说结论，rust完胜。 php：laravel，swoole，webman，最开始在苏宁的时候写了几年php，当时觉得php真的是世界上最好的语言，因为当初活在舒适圈里，不愿意跳出来，就好比当初活在…...

编程新知 2025/9/14 7:59:52

【快手拥抱开源】通过快手团队开源的 KwaiCoder-AutoThink-preview 解锁大语言模型的潜力

引言： 在人工智能快速发展的浪潮中，快手Kwaipilot团队推出的 KwaiCoder-AutoThink-preview 具有里程碑意义——这是首个公开的AutoThink大语言模型（LLM）。该模型代表着该领域的重大突破，通过独特方式融合思考与非思考…...

编程新知 2026/2/6 19:29:20

MODBUS TCP转CANopen 技术赋能高效协同作业

在现代工业自动化领域，MODBUS TCP和CANopen两种通讯协议因其稳定性和高效性被广泛应用于各种设备和系统中。而随着科技的不断进步，这两种通讯协议也正在被逐步融合，形成了一种新型的通讯方式——开疆智能MODBUS TCP转CANopen网关KJ-TCPC-CANP…...

编程新知 2026/2/6 9:48:02

中医有效性探讨

文章目录西医是如何发展到以生物化学为药理基础的现代医学？传统医学奠基期（远古 - 17 世纪）近代医学转型期（17 世纪 - 19 世纪末）现代医学成熟期（20世纪至今） 中医的源远流长和一脉相承远古至…...

编程新知 2026/1/23 7:56:54

C# 表达式和运算符(求值顺序)

求值顺序表达式可以由许多嵌套的子表达式构成。子表达式的求值顺序可以使表达式的最终值发生变化。例如，已知表达式3*52，依照子表达式的求值顺序，有两种可能的结果，如图9-3所示。如果乘法先执行，结果是17。如果5…...

编程新知 2026/1/31 13:13:28

2.2.2 ASPICE的需求分析

ASPICE的需求分析是汽车软件开发过程中至关重要的一环，它涉及到对需求进行详细分析、验证和确认，以确保软件产品能够满足客户和用户的需求。在ASPICE中，需求分析的关键步骤包括： 需求细化：将从需求收集阶段获得的高层需…...

编程新知 2025/10/12 15:47:17

【记录坑点问题】IDEA运行：maven-resources-production:XX: OOM: Java heap space

问题：IDEA出现maven-resources-production:operation-service: java.lang.OutOfMemoryError: Java heap space 解决方案：将编译的堆内存增加一点位置：设置setting-》构建菜单build-》编译器Complier...

编程新知 2026/1/26 19:41:09