NLP学习记录十一:位置编码
目录
一、位置编码的意义
二、位置编码方法
三、代码实现
一、位置编码的意义
在标准的注意力机制中,每个查询都会关注所有的键-值对并生成一个注意力输出,模型并没有考虑到输入序列每个token的顺序关系。
以["我",“爱”,“你”]和["你",“爱”,“我”]为例,假如输入序列为:["我",“爱”,“你”],这个输入序列经过embedding层编码后的向量为:
"我" →
[1, 0]"爱" →
[0, 1]"你" →
[0, 0]
接下来,模型会计算每个词与其他词的相似度。例如,计算“爱”对“我”和“你”的注意力权重(缩放点积)时:
"爱" vs "我":
(0*1) + (1*0) = 0"爱" vs "你":
(0*0) + (1*0) = 0
此时,模型可能认为“爱”和“我”“你”都无关(相似度为0),但显然不合理,因为“爱”在序列中的位置(中间)应该关联前后词。如果我们变换“我”和“你”的位置,相似度依然会是0,说明此时在模型眼中,“我爱你”与“你爱我”并没有差别。
如果我们在embedding层编码时同时加入各个token的位置信息(位置编码):
位置0("我") →
[0.1, 0.2]位置1("爱") →
[0.3, 0.4]位置2("你") →
[0.5, 0.6]
新的词表示(embedding层编码结果 + 位置编码结果):
"我" →
[1+0.1, 0+0.2] = [1.1, 0.2]"爱" →
[0+0.3, 1+0.4] = [0.3, 1.4]"你" →
[0+0.5, 0+0.6] = [0.5, 0.6]
重新计算注意力权重(以“爱”为中心):
"爱" vs "我":
(0.3*1.1) + (1.4*0.2) = 0.33 + 0.28 = 0.61"爱" vs "你":
(0.3*0.5) + (1.4*0.6) = 0.15 + 0.84 = 0.99
此时,“爱”对“你”的注意力权重更高,符合“爱”在中间位置时更关注后面的“你”。如果交换“我”和“你”的位置,因为位置关系变化了,计算得到的注意力权重也会发生变化,也就说明此时模型能够区分“我爱你”与“你爱我”的语义差别了。
从上面的例子可以看出,位置编码可以帮助注意力模型理解输入序列中各个token的顺序关系。
二、位置编码方法
假设embedding层输出的词嵌入矩阵为X,token个数为n,向量长度为d,即
;位置编码输出矩阵为P,
。P中第i行,第2j列和第2j+1列的元素为:

最终将使用X+P作为整个编码流程的输出结果。
至于为什么要用上面的公式来进行位置编码,感觉自己还是一知半解,后面学会了再记录下来。
三、代码实现
import torch
from torch import nn
"""位置编码"""
class PositionalEncoding(nn.Module):# 参数max_len >= 每个batch的token个数n;参数num_hiddens对应于编码向量长度ddef __init__(self, num_hiddens, dropout, max_len=1000):super(PositionalEncoding, self).__init__()self.dropout = nn.Dropout(dropout)# 位置编码矩阵Pself.P = torch.zeros((1, max_len, num_hiddens))# 分子molecule = torch.arange(max_len, dtype=torch.float32).reshape(-1, 1)# 分母denominator = torch.pow(10000, torch.arange(0, num_hiddens, 2, dtype=torch.float32) / num_hiddens)X = molecule / denominator# 从索引0开始,每隔两个元素取一个值(即取所有偶数索引的元素)self.P[:, :, 0::2] = torch.sin(X)# 从索引1开始,每隔两个元素取一个值(即取所有奇数索引的元素)self.P[:, :, 1::2] = torch.cos(X)def forward(self, X):X = X + self.P[:, :X.shape[1], :].to(X.device)return self.dropout(X)
if __name__ == "__main__":encoding_dim, num_steps = 32, 60pos_encoding = PositionalEncoding(encoding_dim, 0)pos_encoding.eval()# 模拟embedding层输出的词嵌入矩阵,(batch_size, 查询个数, 向量长度) -> (1, 60, 32)X = torch.zeros((1, num_steps, encoding_dim))# embedding+位置编码的结果,(batch_size, 查询个数, 向量长度) -> (1, 60, 32)X = pos_encoding(X)# 仅位置编码的结果,(batch_size, 查询个数, 向量长度) -> (1, 60, 32)P = pos_encoding.P[:, :X.shape[1], :]
参考链接:
《动手学深度学习》 — 动手学深度学习 2.0.0 documentation
https://zh-v2.d2l.ai/
相关文章:
NLP学习记录十一:位置编码
目录 一、位置编码的意义 二、位置编码方法 三、代码实现 一、位置编码的意义 在标准的注意力机制中,每个查询都会关注所有的键-值对并生成一个注意力输出,模型并没有考虑到输入序列每个token的顺序关系。 以["我&qu…...
CF 886A.ACM ICPC(Java实现)
题目分析 输入6个值,判断某三个值的和能够等于另外三个值的和 思路分析 首先判断总和是不是一个偶数,如果不是就“NO”。由于小何同学算法不好,只能使用三层for循环强行判断某三个值是否能等于总和的一半,可以就“YES”。 代码 …...
【音视频】H265解码Nalu后封装rtp包
概述 基于ZLM流媒体框架以及简单RTSP服务器开源项目分析总结,相关源码参考以下链接 H265-rtp提取Nalu逻辑 通过rtsp流地址我们可以获取视频流中的多个rtp包,其中每个RTP包中又会包含一个或者多个Nalu,将其提取处理 总体逻辑分析 核心逻辑在…...
Linux -- I/O接口,文件标识符fd、file结构体、缓冲区、重定向、简单封装C文件接口
一、理解文件 狭隘理解(传统视角) 聚焦物理存储:文件特指存储在磁盘等外存设备上的二进制数据集合输入输出特性: 写入文件:CPU 通过总线将数据输出到磁盘读取文件:磁盘通过 DMA 将数据输入到内存 ÿ…...
系统讨论Qt的并发编程2——介绍一下Qt并发的一些常用的东西
目录 QThreadPool与QRunnable 互斥机制:QMutex, QMutexLocker, QSemaphore, QWaitCondition 跨线程的通信 入门QtConcurrent,Qt集成的一个并发框架 一些参考 QThreadPool与QRunnable QThreadPool自身预备了一些QThread。这样,我们就不需…...
【数据挖掘】Pandas之DataFrame
在 Pandas 中,DataFrame 提供了丰富的数据操作功能,包括 查询、编辑、分类和汇总。 1. 数据查询(Filtering & Querying) 1.1 按索引或列名查询 import pandas as pddata {"ID": [101, 102, 103, 104, 105],"…...
C++:volatile、const、mutable关键字
文章目录 volatile、const、mutable 关键字的作用、联系与区别 1️⃣ **volatile** —— 防止编译器优化,确保变量每次访问都从内存读取**作用****使用场景****示例** 2️⃣ **const** —— 限制变量的修改,保证不可变性**作用****使用场景****示例** 3️…...
linux离线安装miniconda环境
1 下载安装包 可以在官网下载最新版 https://www.anaconda.com/download/success#miniconda 或者在软件目录选择合适的版本 https://repo.anaconda.com/miniconda/ 安装包传入离线服务器 ./Miniconda3-py311_24.9.2-0-Linux-x86_64.sh2 运行安装包 ./Miniconda3-py311_24…...
考研408数据结构线性表核心知识点与易错点详解(附真题示例与避坑指南)
一、线性表基础概念 1.1 定义与分类 定义:线性表是由n(n≥0)个相同类型数据元素构成的有限序列,元素间呈线性关系。 分类: 顺序表:元素按逻辑顺序存储在一段连续的物理空间中(数组实现&…...
selenium用例执行过程采集操作形成测试报告上的回复
在代码执行的过程中不断的进行截图,把截图拼接成gif动态图,放在测试报告上 1、每条用例执行启动一个线程,这个线程会每隔0.3秒进行截图 项目下创建一个临时目录video用来存储所有截图以及gif动态图封装不断截图的方法,每隔0.3秒…...
多元数据直观表示(R语言)
一、实验目的: 通过上机试验,掌握R语言实施数据预处理及简单统计分析中的一些基本运算技巧与分析方法,进一步加深对R语言简单统计分析与图形展示的理解。 数据: 链接: https://pan.baidu.com/s/1kMdUWXuGCfZC06lklO5iXA 提取码: …...
【JavaEE】线程安全
【JavaEE】线程安全 一、引出线程安全二、引发线程安全的原因三、解决线程安全问题3.1 synchronized关键字(解决修改操作不是原子的)3.1.1 synchronized的特性3.1.1 synchronized的使用事例 3.2 volatile 关键字(解决内存可见性) …...
HarmonyOS 5.0应用开发——多线程Worker和@Sendable的使用方法
【高心星出品】 文章目录 多线程Worker和Sendable的使用方法开发步骤运行结果 多线程Worker和Sendable的使用方法 Worker在HarmonyOS中提供了一种多线程的实现方式,它允许开发者在后台线程中执行长耗时任务,从而避免阻塞主线程并提高应用的响应性。 S…...
华为OD-2024年E卷-分批萨[100分]
文章目录 题目描述输入描述输出描述用例1解题思路Python3源码 题目描述 吃货"和"馋嘴"两人到披萨店点了一份铁盘(圆形)披萨,并嘱咐店员将披萨按放射状切成大小相同的偶数个小块。但是粗心的服务员将披萨切成了每块大小都完全不…...
SSH监控
创建/etc/ssh/sshrc文件 写入以命令 echo " 系统状态 " uptime free -h 每次登录会显示 如果在sshrc文件加入以下脚本每次登录就是执行这个脚本 # cat /etc/ssh/sshrc echo " 系统状态 " uptime free -h /usr/local/bin/monit.sh以…...
leetcode日记(74)扰乱字符串
很有难度的一题,一开始真的绕了很多思维上的弯路。 最开始的想法是递归,看到题目的时候想到动态规划但是完全没有思路应该怎么用,结果确实是递归动态规划。 最开始的想法是构建树,每一层包含这一步划分的方法(实际会…...
RV1126的OSD模块和SDL_TTF结合输出H264文件
目录 一.RV1126多线程处理输出OSD字符叠加图层的流程 1.1. VI模块的初始化 1.2. 初始化VENC模块: 1.3. 初始化RGN模块: 1.4. 绑定VI模块和VENC模块,伪代码如下 1.5. 创建多线程进行OSD字库的叠加: 1.6. 获取每一帧处理过后的…...
GEE:计算长时间序列NPP与NDVI之间的相关系数
GEE中内置了计算相关系数的函数,可以分析两个变量之间的相关性,比如要分析两个波段之间的相关性,主要用到ee.Reducer.pearsonsCorrelation()函数。 ee.Reducer.pearsonsCorrelation() 内容:创建一个双输入归约器,用于…...
水仙花数(华为OD)
题目描述 所谓水仙花数,是指一个n位的正整数,其各位数字的n次方和等于该数本身。 例如153是水仙花数,153是一个3位数,并且153 13 53 33。 输入描述 第一行输入一个整数n,表示一个n位的正整数。n在3到7之间&#x…...
【对话状态跟踪】关心整个对话过程用户完整意图变化
对话状态管理器 核心逻辑是解决键冲突和验证范围有效性, 但需依赖外部输入的正确性。在实际应用中, 可能需要结合用户提示或自动修正逻辑以提高鲁棒性。 NLU 槽 值 对儿 NLU的目的是把自然语言解析成结构化语义。结构化语义有多种表示方式,…...
PUBG罗技鼠标宏终极指南:从零配置到实战压枪的完整教程
PUBG罗技鼠标宏终极指南:从零配置到实战压枪的完整教程 【免费下载链接】logitech-pubg PUBG no recoil script for Logitech gaming mouse / 绝地求生 罗技 鼠标宏 项目地址: https://gitcode.com/gh_mirrors/lo/logitech-pubg 在《绝地求生》这样的竞技射击…...
如何在Photoshop中构建AI原生工作流:SD-PPP的技术架构解析
如何在Photoshop中构建AI原生工作流:SD-PPP的技术架构解析 【免费下载链接】sd-ppp A Photoshop AI plugin 项目地址: https://gitcode.com/gh_mirrors/sd/sd-ppp 当我们谈论AI与创意工具的结合时,通常面临一个核心挑战:如何在保持专业…...
cann-recipes-infer:LLM 在昇腾上的推理参考实现
大模型推理部署跟小模型完全是两回事。小模型一张卡就能装下,调几个参数就能跑。LLaMA-70B 参数 140GB,需要多卡拆分;解码阶段逐 Token 生成,需要 KV Cache 优化;Attention 是 Memory Bound,需要 FlashAtte…...
2026年主流一键生成论文工具全攻略(含免费额度说明)
以下是当前学术圈口碑 TOP 的6 款 AI 写论文工具,覆盖从选题、开题到降重、答辩的论文全流程,剔除冗余工具,每款均附分步骤实操指南场景适配技巧,重点突出中文论文适配性,新手也能快速上手,效率翻倍。一、全…...
探寻SMT贴片服务商,价格合理的哪家好
在电子制造产业链中,SMT贴片加工作为PCBA生产的核心环节,直接决定了产品的焊接质量与稳定性,不少企业在选型服务商时,常会纠结于技术实力、加工精度与成本控制的平衡。今天我们就从行业现状、服务商筛选标准、靠谱合作方的核心特质…...
TrafficMonitor插件宝典:打造你的全能桌面监控中心
TrafficMonitor插件宝典:打造你的全能桌面监控中心 【免费下载链接】TrafficMonitorPlugins 用于TrafficMonitor的插件 项目地址: https://gitcode.com/gh_mirrors/tr/TrafficMonitorPlugins 想要在桌面上实时监控股票行情、硬件状态、天气信息,却…...
影刀RPA 企业级专题篇:自动化系统中的日志平台与链路追踪设计实践
影刀RPA 企业级专题篇:自动化系统中的日志平台与链路追踪设计实践 作者:林焱 很多自动化系统在小规模阶段。 其实不太依赖“日志体系”。 流程跑起来。 失败了看一下控制台。 基本就够用了。 但当系统进入企业级规模以后。 日志会从“辅助功能”…...
极域电子教室破解终极指南:如何重获电脑控制权而不被老师发现
极域电子教室破解终极指南:如何重获电脑控制权而不被老师发现 【免费下载链接】JiYuTrainer 极域电子教室防控制软件, StudenMain.exe 破解 项目地址: https://gitcode.com/gh_mirrors/ji/JiYuTrainer 你是否曾在学校机房上课时,面对老师全屏广播…...
Godot 4.3中工业级3D反向运动学(IK)落地实践指南
1. 这不是“加个插件就完事”的IK方案,而是真正能进生产管线的3D反向运动学落地实践在Godot 4.3正式版发布后第三周,我接手了一个角色动画需求:让一个机械臂模型在VR场景中实时响应手柄位置,末端执行器(夹爪࿰…...
从一次失败的App上线,看我们如何用PDCA循环在3个月内实现用户留存翻倍
从一次失败的App上线,看我们如何用PDCA循环在3个月内实现用户留存翻倍 去年夏天,我们的团队经历了一次刻骨铭心的产品滑铁卢——一款投入半年研发的社交类App在上线首周就遭遇了用户留存率暴跌至8%的危机。这个数字远低于行业平均25%的水平线,…...
