当前位置: 首页 > article >正文

相对位置嵌入和旋转位置编码

1. 相对位置嵌入:给注意力机制加“人际关系记忆”

像班级座位表

想象全班同学(序列的各个元素)坐成一个圈,老师(模型)要记住每个人之间的相对位置:

  • 传统方法:老师给每个座位贴绝对编号(第1排第2座…),但换教室就全乱了。
  • 相对位置法:老师只记“小红在小明左边3个位置”,无论坐哪都适用。
实际怎么用?
  • 计算注意力时,给“相邻近的词对”额外加分(比如相邻+1分,隔一个+0.5分)。
  • 优势:换个长文章也能用,因为只关心词之间的距离,不关心具体在第几行。

💡 一句话总结:不记绝对位置,只记谁和谁挨得近。


2. 旋转位置编码(RoPE):用“转盘子”游戏理解

像旋转餐桌

假设每个词是一个盘子,盘子上有菜(词的特征):

  1. 初始状态:所有盘子朝同一方向摆好。
  2. 旋转操作:第1个盘子转10°,第2个转20°…第N个转N×10°。
  3. 匹配度检查:两个盘子夹角越小(位置越近),菜的味道越搭配(注意力分数越高)。
为什么好用?
  • 自动适应长度:新加盘子继续转就行(第100个转1000°),不用重新设计。
  • 长文章神器:ChatGPT这类模型就用这个方法处理超长文本。

💡 一句话总结:每个词转不同角度,越近的词转的角度越相似。


一、相对位置嵌入(Relative Positional Embedding)

1. 核心思想

不直接编码绝对位置,而是通过键-值对之间的相对距离动态计算位置偏置,使模型能灵活处理任意长度序列。即通过可学习的相对位置偏置矩阵**,在注意力计算中显式注入位置信息。公式表示为:
Attention = Softmax ( Q K T d k + B ) V \text{Attention} = \text{Softmax}\left(\frac{QK^T}{\sqrt{d_k}} + B\right)V Attention=Softmax(dk QKT+B)V
其中 B B B 是相对位置偏置矩阵, B i , j B_{i,j} Bi,j 表示位置 i i i j j j 之间的偏置。

2. 实现方式

以Swin Transformer为例:

class RelativePositionBias(nn.Module):def __init__(self, window_size, num_heads):super().__init__()# 定义可学习的相对位置偏置矩阵self.bias_table = nn.Parameter(torch.zeros((2 * window_size - 1) * (2 * window_size - 1), num_heads))# 生成相对位置索引coords = torch.arange(window_size)relative_coords = coords[:, None] - coords[None, :]  # [M, M]relative_coords += window_size - 1  # 转换为非负数self.register_buffer("relative_index", relative_coords)def forward(self):# 根据索引从表中取出偏置值 [M*M, num_heads]bias = self.bias_table[self.relative_index.view(-1)]return bias.view(1, self.relative_index.shape[0], self.relative_index.shape[1], -1)  # [1, M, M, num_heads]
3. 关键点
  • 窗口限制:通常限制最大相对距离(如Swin中 M = 7 M=7 M=7),减少参数量
  • 计算效率:偏置矩阵可预先计算并缓存
  • 变长支持:通过插值或截断适应不同长度

二、旋转位置编码(RoPE)

1. 核心思想

通过旋转矩阵将绝对位置信息融入query和key的向量表示中。给定位置 ( m ),旋转操作定义为:
f RoPE ( x , m ) = ( cos ⁡ m θ − sin ⁡ m θ sin ⁡ m θ cos ⁡ m θ ) ( x 0 x 1 ) f_{\text{RoPE}}(x, m) = \begin{pmatrix} \cos m\theta & -\sin m\theta \\ \sin m\theta & \cos m\theta \end{pmatrix} \begin{pmatrix} x_0 \\ x_1 \end{pmatrix} fRoPE(x,m)=(cosmθsinmθsinmθcosmθ)(x0x1)
其中 θ \theta θ是预设的频率基。

2. 完整实现

以LLaMA的实现为例:

def precompute_freqs_cis(dim: int, end: int, theta: float = 10000.0):# 预计算旋转角度 [seq_len, dim//2]freqs = 1.0 / (theta ** (torch.arange(0, dim, 2)[: (dim // 2)].float() / dim))t = torch.arange(end, device=freqs.device)freqs = torch.outer(t, freqs)  # [seq_len, dim//2]return torch.polar(torch.ones_like(freqs), freqs)  # 复数形式def apply_rotary_emb(x: torch.Tensor,  # [batch, seq_len, num_heads, head_dim]freqs_cis: torch.Tensor
) -> torch.Tensor:# 将x转换为复数形式x_complex = torch.view_as_complex(x.float().reshape(*x.shape[:-1], 2, -1).transpose(-1, -2).contiguous())# 应用旋转 [batch, seq_len, num_heads, head_dim//2]x_rotated = x_complex * freqs_cis# 转换回实数return torch.view_as_real(x_rotated).flatten(-2)
3. 数学特性
  • 距离衰减:注意力分数随相对距离 ∣ m − n ∣ |m-n| mn自然衰减
  • 线性可加性:满足 ⟨ f RoPE ( x , m ) , f RoPE ( x , n ) ⟩ = g ( m − n ) \langle f_{\text{RoPE}}(x,m), f_{\text{RoPE}}(x,n) \rangle = g(m-n) fRoPE(x,m),fRoPE(x,n)⟩=g(mn)
  • 长程衰减:高频维度(大 θ \theta θ)对远距离更敏感

三、对比总结

特性相对位置嵌入旋转位置编码
位置信息存储方式可学习的偏置矩阵预设的旋转角度
计算复杂度 O ( L 2 ) O(L^2) O(L2) O ( L ) O(L) O(L)
长度扩展性需插值或截断天然支持任意长度
显式相对位置通过旋转隐式包含
参数量随窗口大小增长零参数(仅计算)
典型应用Swin Transformer, T5LLaMA, GPT-J, PaLM

四、代码实现选择建议

  1. 图像处理:优先选择相对位置嵌入(适合局部注意力)

    # Swin Transformer风格
    attn = q @ k.transpose(-2, -1) + relative_bias
    
  2. 长文本处理:优先选择RoPE(适合全局注意力)

    # LLaMA风格
    q_rot = apply_rotary_emb(q, freqs_cis)
    k_rot = apply_rotary_emb(k, freqs_cis)
    attn = (q_rot @ k_rot.transpose(-2, -1)) * scaling_factor
    

相关文章:

相对位置嵌入和旋转位置编码

1. 相对位置嵌入:给注意力机制加“人际关系记忆” 像班级座位表 想象全班同学(序列的各个元素)坐成一个圈,老师(模型)要记住每个人之间的相对位置: 传统方法:老师给每个座位贴绝对…...

Unity编辑器功能及拓展(1) —特殊的Editor文件夹

Unity中的Editor文件夹是一个具有特殊用途的目录,主要用于存放与编辑器扩展功能相关的脚本和资源。 一.纠缠不清的UnityEditor 我们Unity中进行游戏构建时,我们经常遇到关于UnityEditor相关命名空间丢失的报错,这时候,只得将报错…...

REC一些操作解法

一.Linux命令长度突破 1.源码如下 <?php $param $_REQUEST[param];if ( strlen($param) < 8 ) {echo shell_exec($param); } 2.源码分析 echo执行函数&#xff0c;$_REQUEST可以接post、get、cookie传参 3.破题思路 源码中对参数长度做了限制&#xff0c;小于8位&a…...

powershell7.5.0不支持conda的问题

经历&#xff1a;这周手欠使用vscode的powershell时提示我更新&#xff0c;我就更新了&#xff0c;更新完激活不了conda环境了&#xff0c;查询了半天是powershell最新版7.5.0与目前conda25.1.1以前的版本不支持的问题。 问题环境&#xff1a;powershell版本>7.5.0&#xff…...

Android Jetpack学习总结(源码级理解)

ViewModel 和 LiveData 是 Android Jetpack 组件库中的两个核心组件&#xff0c;它们能帮助开发者更有效地管理 UI 相关的数据&#xff0c;并且能够在配置变更&#xff08;如屏幕旋转&#xff09;时保存和恢复 UI 数据。 ViewModel作用 瞬态数据丢失的恢复&#xff0c;比如横竖…...

Unity中UDP异步通信常用API使用

Begin开头的方法 BeginSendTo BeginSendTo 是 UdpClient 类中的一个重要方法&#xff0c;用于开始一个异步操作来发送 UDP 数据报到指定的远程端点 public IAsyncResult BeginSendTo(byte[] datagram,int bytes,IPEndPoint endPoint,AsyncCallback requestCallback,object s…...

解决Dify:failed to init dify plugin db问题

Dify最新版本1.1.3(langgenius/dify: Dify is an open-source LLM app development platform. Difys intuitive interface combines AI workflow, RAG pipeline, agent capabilities, model management, observability features and more, letting you quickly go from prototy…...

[AI绘图] ComfyUI 中自定义节点插件安装方法

ComfyUI 是一个强大的 AI 图像生成工具,支持自定义节点插件扩展其功能。本文介绍 ComfyUI 中安装自定义节点插件的三种方法,包括 Git Clone 方式、插件管理器安装方式,以及手动解压 ZIP 文件的方法,并分析它们的优缺点。 1. Git Clone 方法 使用 git clone 是最稳定且推荐…...

【机械视觉】C#+VisionPro联合编程———【六、visionPro连接工业相机设备】

【机械视觉】C#VisionPro联合编程———【六、visionPro连接工业相机设备】 目录 【机械视觉】C#VisionPro联合编程———【六、visionPro连接工业相机设备】 前言&#xff1a; 连接步骤说明 一. 硬件连接 支持的相机接口类型&#xff1a; 连接步骤 2. 软件配置 Visio…...

CI/CD基础知识

什么是CI/CD CI&#xff1a;持续集成&#xff0c;开发人员频繁地将代码集成到主干&#xff08;主分支&#xff09;中每次集成都通过自动化构建和测试来验证&#xff0c;从而尽早发现集成错误&#xff0c;常用的CI工具包括Jenkins、Travis CI、CircleCI、GitLab CI等 CD&#…...

蓝桥杯 之 图论基础+并查集

文章目录 习题联盟X蓝桥幼儿园 图论基础 并查集 并查集&#xff0c;总的来说&#xff0c;操作分为三步初始化(每一个节点的父亲是自己)&#xff0c;定义union(index1,index2)函数&#xff0c;定义find(index)函数 并查集详细内容博客 习题 联盟X 联盟X 典型的求解连通分支…...

C# .net ai Agent AI视觉应用 写代码 改作业 识别屏幕 标注等

C# net deepseek RAG AI开发 全流程 介绍_c# 向量处理 deepseek-CSDN博客 视觉多模态大模型 通义千问2.5-VL-72B AI大模型能看懂图 看懂了后能干啥呢 如看懂图 让Agent 写代码 &#xff0c;改作业&#xff0c;识别屏幕 标注等等。。。 据说是目前最好的免费图片识别框架 通…...

不使用自动映射驼峰命名法,直接在接口上使用注解@Results方法映射

3. 使用注解方式配置 在接口方法上使用 Results 注解&#xff1a; java 复制 Select("SELECT user_name, create_time FROM user WHERE id #{id}") Results({Result(column "user_name", property "userName"),Result(column "crea…...

15届蓝桥JavaB组 前6道题解

15届蓝桥JavaB组 前6道题解 报数游戏类斐波那契循环数分布式队列食堂最优分组星际旅行 报数游戏 import java.util.Scanner;//分析&#xff1a; //20和24的最小公倍数是120 //题目给出了前10个数&#xff0c;发现第10个数是120&#xff0c;说明每10个数出现一个公倍数 //第20个…...

蓝桥杯 14 天 十五届蓝桥杯 数字诗意

static boolean kkk(long x) {if(x1)return true;else {// 初始化xx为1&#xff0c;用于计算2的幂long xx 1;// 循环60次&#xff0c;检查2的幂是否等于xfor (int i 1; i < 60; i) {xx * 2; // 每次将xx乘以2if (xx x) { // 如果xx等于x&#xff0c;说明x是2的幂&#xf…...

MP4音视频格式

1.MP4 MP4是一种用于封装音视频/字幕/图片/章节信息等数据的多媒体容器格式&#xff0c;是MPEG-4系列的成员之一 2.文件结构 MP4由一层层的嵌套Box&#xff08;atom&#xff09;组成 [ size (4 bytes) ][ type (4 bytes)][ payload (嵌套box或者数据) ] 3.常见Box 类型名称…...

国内GitHub镜像源全解析:加速访问与替代方案指南

在数字化开发日益普及的今天,GitHub作为全球最大的代码托管平台,已成为开发者不可或缺的资源库。然而,由于网络环境的限制,国内用户在访问GitHub时常常面临速度慢、连接不稳定等问题。为了提升开发效率,国内涌现出多个GitHub镜像源,为开发者提供了快速、稳定的代码克隆与…...

CentOS 7 挂载与卸载文件系统笔记

挂载文件系统 挂载的基本概念 挂载是将存储设备&#xff08;如硬盘分区、U 盘、光盘等&#xff09;连接到 Linux 文件系统的特定目录&#xff08;挂载点&#xff09;&#xff0c;使得系统能够访问存储设备上的数据。 查看已挂载的文件系统 命令&#xff1a;mount 或 df -h mo…...

责任链模式-java

1、spring依赖注入模式 @Configuration public class ChainConfig {@Beanpublic ChainSpringFactory chainSpringFactory(List<IHandler<DemoOne,Boolean>> handlerList){return new ChainSpringFactory(handlerList);}} public class DemoOne { }public abstract…...

Vue3动态加载组件,警告:Vue received a Component than was made a reactive object

场景 2个按钮&#xff0c;点击之后&#xff0c;下面加载不同的组件。 现象 分析 实际动态加载的组件&#xff0c;不是深层响应式的&#xff0c;推荐使用 shallowReactive 或 shallowRef&#xff0c;即浅层作用形式&#xff0c;仅最外层是响应式&#xff0c;以此来提升性能。…...

【源码阅读/Vue Flask前后端】简历数据查询功能

目录 一、Flask后端部分modelServiceroute 二、Vue前端部分index.js main.vue功能界面templatescriptstyle 一般就是三个层面&#xff0c;model层面用来建立数据库的字段&#xff0c;service用来对model进行操作&#xff0c;写一些数据库操作的代码&#xff0c;route就是具体的…...

Vue背景介绍+声明式渲染+数据响应式

一、Vue背景 1. 为什么学Vue 1.前后端开发就业必备技能 2.岗位多&#xff0c;绝⼤互联⽹公司都在使⽤Vue&#xff0c;还可以助⼒SpringBoot、C等项⽬开发 3.提⾼开发效率 更少的时间,干更多的活,提高项目开发速度 原生JS做法 Vue做法 总而言之: 使用Vue能够赋能、提升就业竞争…...

HarmonyOS NEXT 鸿蒙中手写和使用第三方仓库封装Logger打印工具

应用场景 在鸿蒙开发中&#xff0c;我们在很多时候调试代码都需要用到日志打印工具&#xff0c;但无论是hilog还是console.log,都用起来相对麻烦&#xff0c;而且需要手动将对象转换为JSON字符串的方式才能打印&#xff0c;并且在控制台日志中输出的格式也非常丑。所以下面我们…...

如何使用 CSS 的backdrop - filter属性实现背景模糊等特效,有哪些兼容性问题?

大白话如何使用 CSS 的backdrop - filter属性实现背景模糊等特效&#xff0c;有哪些兼容性问题&#xff1f; 嘿&#xff0c;朋友&#xff01;今天咱们来聊聊 CSS 里超酷的 backdrop-filter 属性&#xff0c;它能让你轻松实现背景模糊等超炫特效。咱们先看看这属性到底是啥&…...

批量合并 PDF 文档,支持合并成单个文档,也支持按文件夹合并 PDF 文档

在日常工作中&#xff0c;合并多个 PDF 文档为一个文件是非常常见的需求。通过合并 PDF&#xff0c;不仅能够更方便地进行管理&#xff0c;还能在特定场景下&#xff08;如批量打印&#xff09;提高效率。那么&#xff0c;当我们需要批量合并多个 PDF 文件时&#xff0c;是否有…...

rbpf虚拟机-汇编和反汇编器

文章目录 一、概述二、主要功能三、关键函数解析3.1 汇编器3.1.1 parse -转换为Instruction列表3.1.2 assemble_internal-转换为Insn 3.2 反汇编器3.2.1 to_insn_vec-转换为机器指令 四、总结 Welcome to Code Blocks blog 本篇文章主要介绍了 [rbpf虚拟机-汇编和反汇编器] ❤…...

虚拟现实--->unity学习

前言&#xff1a;这学期劳动课选了虚拟现实&#xff0c;其中老师算挺认真的&#xff0c;当然对一些不感兴趣的同学来说是一种折磨&#xff0c;我对这个unity的学习以及后续的虚幻引擎刚开始连基础的概念都没有&#xff0c;后面渐渐也是滋生了一些兴趣&#xff0c;用这篇博客记录…...

一文详解QT环境搭建:ubuntu20.4安装配置Qt5

随着软件开发技术的不断进步&#xff0c;跨平台应用程序的需求日益增长&#xff0c;开发者们面临着如何在不同操作系统之间保持代码的一致性和效率的问题。Qt作为一个成熟的跨平台C框架&#xff0c;在这方面提供了卓越的支持&#xff0c;不仅简化了GUI应用程序的创建过程&#…...

Gateway实战(三)、断言-时间、Cookie信息

spring cloud-Gateway实战三、断言 断言一)、时间断言相关1、适用场景2、Demo案例二)、断言- Cookie信息1、用户身份验证与会话管理场景及Demo案例2、A/B测试及Demo案例断言 简单了解: 断言是一种在程序设计中用于检查程序状态或条件的机制,在gateway网关里,断言的作用是…...

PyTorch中的Tensor

PyTorch中的Tensor‌ 是核心数据结构&#xff0c;类似于 NumPy 的多维数组&#xff0c;但具备 GPU 加速和自动求导等深度学习特性。 一、基本概念 ‌核心数据结构‌ Tensor 是存储和操作数据的基础单元&#xff0c;支持标量&#xff08;0D&#xff09;、向量&#xff08;1D&am…...