快速理清 Attention 注意力和 Encoder, Decoder 概念
之前一直以为 Attention 和 RNN 没关系是凭空蹦出来的新概念;以为 Transformer, Encoder, Decoder 这几个概念是绑在一起的。并不尽然。
Encoder 和 Decoder

RNN 里就有 Encoder Decoder 的概念。其中,encoder 接受用户输入,写入 hidden state。Decoder 接受之前时刻的隐状态,并生成 logits。类似的架构也出现在 CNN 图像模型中。
所以,不论如何,只要是数据流长得像 encode, decode 的,都是 Encoder, Decoder
Attention 普遍意义上的注意力机制

上面 RNN 的问题是,decoder 只能拿到 encoder 最后的这个 <end> 位置的 feature,相当于必须串行接收整个输入,不能有注意力地选择输入序列的重点(不能加权)。
所以,我们想实现一个类似全连接的功能,在每个 decode 的位置,给输入序列的隐状态加个系数,共同喂给 decoder。所以,注意力其实就是把上面的这个序列算个系数。
但是怎么能让这个全连接矩阵可训练,可泛化是个问题。注意力机制引入了 Q, K, V 三个概念,其中 K, V 是 n 个 kv pair,Query 表示上图上面的部分,最后,Q 和 K 会两两一组算一个相关系数,然后用相关系数乘上 v,作为注意力输出。
其中,Q, K 表示。一个例子是我看涩图的注意力集中在人脸上,Q = 我; K = 涩图(V 和 K 严格绑定,是另一个空间对 K 的表示)Q,K 算一个相似度赋给 V.
一般 K = V。


自注意力机制
注意力是一个很宽泛的概念,不知道 QKV 是什么,自注意力机制则是规定了 QKV 同源,都是通过原始输入 X X X 乘上线性矩阵 W q , W k , W v W^q, W^k, W^v Wq,Wk,Wv 产生的。

给定输入矩阵 X X X(形状为 ( n , d ) (n, d) (n,d),其中 n n n 是序列长度, d d d 是嵌入维度),计算 Query(查询)、Key(键)、Value(值):
Q = X W Q , K = X W K , V = X W V Q = X W_Q, \quad K = X W_K, \quad V = X W_V Q=XWQ,K=XWK,V=XWV
其中:
- W Q , W K , W V W_Q, W_K, W_V WQ,WK,WV 是可训练的权重矩阵(形状均为 ( d , d k ) (d, d_k) (d,dk))。
- Q , K , V Q, K, V Q,K,V 的形状均为 ( n , d k ) (n, d_k) (n,dk)。
2. 计算注意力分数(Scaled Dot-Product Attention)
A = Q K T d k A = \frac{Q K^T}{\sqrt{d_k}} A=dkQKT
其中:
- K T K^T KT 是 Key 矩阵的转置(形状为 ( d k , n ) (d_k, n) (dk,n)),使得 Q K T QK^T QKT 形状为 ( n , n ) (n, n) (n,n)。
- 1 d k \frac{1}{\sqrt{d_k}} dk1 是缩放因子,防止大数值影响梯度。
3. 计算注意力权重(Softmax 归一化)
α = softmax ( A ) \alpha = \text{softmax}(A) α=softmax(A)
其中, α \alpha α 形状为 ( n , n ) (n, n) (n,n),表示序列中每个位置对其他位置的注意力权重。
4. 计算加权 Value
Z = α V Z = \alpha V Z=αV
其中:
- Z Z Z 形状为 ( n , d k ) (n, d_k) (n,dk),即每个输入位置的加权输出。
5. 多头注意力(Multi-Head Attention)
如果使用 h h h 个头,每个头分别计算:
Z i = Attention ( X W Q i , X W K i , X W V i ) Z_i = \text{Attention}(X W_{Q_i}, X W_{K_i}, X W_{V_i}) Zi=Attention(XWQi,XWKi,XWVi)
然后将多个头的结果拼接并映射回原始维度:
Z = [ Z 1 , Z 2 , … , Z h ] W O Z = [Z_1, Z_2, \dots, Z_h] W_O Z=[Z1,Z2,…,Zh]WO
其中:
- W O W_O WO 是输出投影矩阵(形状为 ( h ⋅ d k , d ) (h \cdot d_k, d) (h⋅dk,d))。
- Z Z Z 形状回到 ( n , d ) (n, d) (n,d)。
Ref
https://zhuanlan.zhihu.com/p/109585084
https://www.cnblogs.com/nickchen121/p/16470710.html
https://www.cnblogs.com/nickchen121/p/16470711.html
相关文章:
快速理清 Attention 注意力和 Encoder, Decoder 概念
之前一直以为 Attention 和 RNN 没关系是凭空蹦出来的新概念;以为 Transformer, Encoder, Decoder 这几个概念是绑在一起的。并不尽然。 Encoder 和 Decoder RNN 里就有 Encoder Decoder 的概念。其中,encoder 接受用户输入,写入 hidden stat…...
爬虫案例八js逆向爬取网易音乐
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、js逆向的前期准备二、网站分析三、代码 前言 提示:这里可以添加本文要记录的大概内容: 爬取网易音乐 提示:以下是本篇…...
Sentinel 笔记
Sentinel 笔记 1 介绍 Sentinel 是阿里开源的分布式系统流量防卫组件,专注于 流量控制、熔断降级、系统保护。 官网:https://sentinelguard.io/zh-cn/index.html wiki:https://github.com/alibaba/Sentinel/wiki 对比同类产品࿱…...
使用 vxe-table 导出 excel,支持带数值、货币、图片等带格式导出
使用 vxe-table 导出 excel,支持带数值、货币、图片等带格式导出,通过官方自动的导出插件 plugin-export-xlsx 实现导出功能 查看官网:https://vxetable.cn gitbub:https://github.com/x-extends/vxe-table gitee:htt…...
powershell@宝塔面板批量建站脚本@批量设置@批量部署伪静态设置
文章目录 abstract批量设置 abstract 对于需要大量建站,并且站点类型都很接近的宝塔用户,可以考虑使用如下powershell脚本进行批量建站语句生成 请根据宝塔的要求的批量建站语句格式创建脚本 例如 function Get-BatchSiteBuilderLines {<# .SYNOPSIS获取批量站点生成器的…...
基于multisim的自动干手器设计与仿真
1 设计的任务与要求 设计一个输出 5V 的直流稳压电源。用开关的闭合模拟手挡住光线的功能。用灯的亮灭模拟烘干吹风功能。 2 方案论证与选择 2.1 自动干手器的系统方案 本设计由5V直流电源、红外发射电路、红外接收电路、灯模拟电路构成。 1. 5V直流电源系统 这一部分是整…...
webflux响应式编程
webflux&webclient 尚硅谷SpringBoot响应式编程教程,最新springboot3入门到实战 响应式编程设计实战及SpringWebFlux源码剖析 - 拉勾 文章目录 前置知识1、Lambda2、Function3、StreamAPI中间操作:Intermediate Operations终止操作:Ter…...
关于tresos Studio(EB)的MCAL配置之GPT
概念 GPT,全称General Purpose Timer,就是个通用定时器,取的名字奇怪了点。定时器是一定要的,要么提供给BSW去使用,要么提供给OS去使用。 配置 General GptDeinitApi控制接口Gpt_DeInit是否启用 GptEnableDisable…...
JavaScript基础-比较运算符
在JavaScript编程中,比较运算符用于比较两个值,并返回一个布尔值(true或false),这对于我们进行条件判断和逻辑控制至关重要。掌握这些运算符不仅有助于编写高效的代码,也是处理复杂逻辑的基础。本文将详细介…...
Uniapp项目运行到微信小程序、H5、APP等多个平台教程
摘要:Uniapp作为一款基于Vue.js的跨平台开发框架,支持“一次开发,多端部署”。本文将手把手教你如何将Uniapp项目运行到微信小程序、H5、APP等多个平台,并解析常见问题。 一、环境准备 在开始前,请确保已安装以下工具…...
《加快应急机器人发展的指导意见》中智能化升级的思考——传统应急设备智能化升级路径与落地实践
感谢阅读本次内容分享,下面我将解读分析《加快应急机器人发展的指导意见》,喜欢的点赞支持一下呗~(日更真的很辛苦~),欢迎评论区留言讨论,你们的发言我都会看到~ 《加快应急机器人发展的指导意见》中智能化升级的思考——传统应急…...
Java基础知识大全(含答案,面试基础)
对于初学者来说,掌握Java的基础知识是成为一名优秀Java开发者的第一步。而对于经验丰富的开发者,扎实的基础同样是继续深入学习、攻克更高难度技术的基础。因此,在面试和实际工作中,Java的基础知识不仅是评估开发者能力的标准&…...
将长上下文大语言模型研究从输入转向输出
将长上下文大语言模型研究从输入转向输出 摘要: 近年来,长上下文大语言模型(LLMs)的研发主要集中在处理更长的输入文本上,这使得模型在理解长篇内容时取得了显著进步。然而,生成长篇输出的研究却相对被忽视ÿ…...
C/C++蓝桥杯算法真题打卡(Day4)
一、P11041 [蓝桥杯 2024 省 Java B] 报数游戏 - 洛谷 算法代码: #include<bits/stdc.h> using namespace std;// 计算第 n 个满足条件的数 long long findNthNumber(long long n) {long long low 1, high 1e18; // 二分查找范围while (low < high) {lo…...
正则表达式(2)匹配规则
正则表达式的匹配规则定义了如何识别字符串中的特定模式。这些规则包括字符类匹配、元字符匹配、数量词、字符转义和分组。 字符类匹配 字符类匹配允许你指定一个字符集合,并匹配该集合中的任意单个字符。这是通过方括号 [] 来实现的。 简单字符类:[abc…...
详解动态规划算法
动态规划 一、动态规划的核心思想二、动态规划的步骤1. 定义状态(State)2. 确定状态转移方程(State Transition Equation)3. 确定边界条件(Base Case)4. 填表(Table Filling)或递归计…...
DTO 命名规范指南
在项目实践中,将查询对象和返回对象都使用 DTO 后缀是可以的,但通常有更清晰的命名规范,帮助区分两者的作用。 🚨 推荐的命名规范 请求数据(查询参数、请求体等) → 使用 Request / Query 后缀返回数据&a…...
C++编写Redis客户端
目录 安装redis-plus-plus库 编辑 编译Credis客户端 redis的通用命令使用 get/set exists del keys expire /ttl type string类型核心操作 set和get set带有超时时间 set带有NX string带有XX mset mget getrange和setrange incr和decr list类型核心操作…...
数据开发面试: 项目介绍示例
快照表 快照表(Snapshot Table)是数据仓库中用来存储某一时间点的数据状态的表。这种表通常包含在特定时间点上业务实体的静态数据,它记录了业务在某一特定时刻的“快照”视图。快照表通常用于存储那些不经常变化的数据,或者即使…...
记录一下Django的密码重置(忘记密码)
一. Django默认的密码重置 1.路由 # url.pyfrom django.contrib.auth import views as auth_viewsurlpatterns [# 密码重置path(password_reset/, auth_views.PasswordResetView.as_view(), namepassword_reset),# 用户输入邮箱后,跳转到此页面path(password_res…...
【运维篇】KubeSphere-02(经验汇总)
一、使用建议 1.对于数据库、对像存储比较重的要不能丢失,有异地存储备份需求的有状态服务,不建议采用k8s进行部署,会导致运维难度更大。 2.对于中间件如redis、MQ、harbor、seata、nacos、zookeeper可采用k8s部署。 3.对于无状态服务tomc…...
MySQL 5.7.40 主从同步配置教程
MySQL 主从同步能有效提升数据冗余备份与负载均衡。下面我将以 MySQL 5.7.40 版本为例,详细讲解如何进行主从同步配置。 MySQL 5.7.40 主从同步配置教程 一、环境准备 假设我们有两台服务器,一台作为主服务器(Master)ÿ…...
Qt:多线程
目录 初识Qt多线程 QThread常用API QThread的使用 Qt中的锁 条件变量和信号量 初识Qt多线程 Qt 多线程 和 Linux 中的线程本质是一个东西 Linux 中学过的 多线程 APl,Linux 系统提供的 pthread 库 Qt 中针对系统提供的线程 API 重新封装了 C11 中,…...
算法系列之广度优先搜索解决妖怪和尚过河问题
在算法学习中,广度优先搜索(BFS)是一种常用的图搜索算法,适用于解决最短路径问题、状态转换问题等。本文将介绍如何利用广度优先搜索解决经典的“妖怪和尚过河问题”。 问题描述 有三个妖怪和三个和尚需要过河。他们只有一条小船…...
详解常用集合和映射中的线程安全问题
1. 前言 在 Java 中,集合和映射是常用的数据结构,它们分为线程安全和线程不安全两类。我们常用的集合包括:ArrayList、HashSet、CopyOnWriteArrayList、CopyOnWriteArraySet。常用的映射包括:HashMap、ConcurrentHashMap、Hashta…...
计算机毕业设计SpringBoot+Vue.js车辆管理系统(源码+文档+PPT+讲解)
温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…...
【js逆向】iwencai国内某金融网站实战
地址:aHR0cHM6Ly93d3cuaXdlbmNhaS5jb20vdW5pZmllZHdhcC9ob21lL2luZGV4 在搜索框中随便输入关键词 查看请求标头,请求头中有一个特殊的 Hexin-V,它是加密过的;响应数据包中全是明文。搞清楚Hexin-V的值是怎么生成的,这个值和cooki…...
安卓设备root检测与隐藏手段
安卓设备root检测与隐藏手段 引言 安卓设备的root权限为用户提供了深度的系统控制能力,但也可能带来安全风险。因此,许多应用(如银行软件、游戏和流媒体平台)会主动检测设备是否被root,并限制其功能。这种对抗催生了ro…...
【音视频 | AAC】AAC编码库faac介绍、使用步骤、例子代码
😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 🤣本文内容🤣&a…...
Unity摄像机跟随物体
功能描述 实现摄像机跟随物体,并使物体始终保持在画面中心位置。 实现步骤 创建脚本:在Unity中创建一个新的C#脚本,命名为CameraFollow。 代码如下: using UnityEngine;public class CameraFollow : MonoBehaviour {public Tran…...
