当前位置: 首页 > news >正文

【论文阅读随笔】RoPE/旋转编码:ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING

文章目录

  • 1.目的:通过绝对位置编码的方式实现相对位置编码
  • 2.理解RoPE,在我看来有几个需要注意的点:
  • 3.本文相关复数概念:
    • 3.1.复数乘法的几何意义
    • 3.2.复数内积 VS. 复数乘法
  • 4.REF:

1.目的:通过绝对位置编码的方式实现相对位置编码

  • 绝对位置编码比较简单,加或乘一个有次序的数
  • 实现相对位置编码,也即意味着,要蕴含位置差的信息:
    • 假设m是某个token的位置信息,n是另一个token的位置信息,要有类似 m − n m-n mn的信息,比较容易想到复数乘法会产生 m − n m-n mn,以及复数乘法和复数内积的性质。

2.理解RoPE,在我看来有几个需要注意的点:

  • 最重要的是 e i m θ e^{im\theta} eimθ 的构造,给二维的 q ⃗ \vec q q k ⃗ \vec k k 乘这个量(也即对 q ⃗ \vec q q k ⃗ \vec k k 做了旋转),旋转后再对二者进行内积便会产生 m − n m-n mn的相对位置信息,也就达成了相对位置编码的目的
  • 二维向量和复数平面存在一一对应的关系
  • 二维扩展到 2 ∗ N 2*N 2N维:既然二维的向量旋转后,再做内积有 m − n m-n mn的相对位置信息,那就直接把 q ⃗ \vec q q k ⃗ \vec k k 都分成2维一组,这样 q ⃗ \vec q q k ⃗ \vec k k 做内积时,就让分好的组与组之间做内积,就自然让各位置携带相对位置信息了
  • 向量旋转有两种计算方式,一种是复数乘取实部,另一种是通过构造旋转矩阵计算

3.本文相关复数概念:

3.1.复数乘法的几何意义

  • 两个复数相乘,得到的复数的模长是原来两个复数的模长的乘积,得到的复数的幅角是原来两个复数的幅角的相加。

3.2.复数内积 VS. 复数乘法

  • 复数内积: ⟨ ( a + b i ) , ( c + d i ) ⟩ = a c + b d {\left \langle (a+bi),(c+di)\right \rangle }=ac+bd (a+bi),(c+di)=ac+bd(不含i)
  • 复数乘法: ( a + b i ) ( c + d i ) = ( a c − b d ) + ( b c − a d ) i (a+bi)(c+di)=(ac-bd) + (bc-ad)i (a+bi)(c+di)=(acbd)+(bcad)i
  • 复数内积的结果跟复数乘法的实部相差了一个正负号,复数内积等于复数乘以另一个复数的共轭后取实部:
    • ⟨ ( a + b i ) , ( c + d i ) ⟩ = R E [ ( a + b i ) ( c + d i ) ∗ ] {\left \langle (a+bi),(c+di)\right \rangle }=RE[(a+bi)(c+di)^*] (a+bi),(c+di)=RE[(a+bi)(c+di)]
    • 也即: ⟨ ( a + b i ) , ( c + d i ) ⟩ = R E [ ( a + b i ) ( c − d i ) ] {\left \langle (a+bi),(c+di)\right \rangle }=RE[(a+bi)(c-di)] (a+bi),(c+di)=RE[(a+bi)(cdi)]

4.REF:

[1].https://zhuanlan.zhihu.com/p/642884818 (这篇讲的很清楚了)
[2].https://zhuanlan.zhihu.com/p/669797102
[3].https://zhuanlan.zhihu.com/p/647109286
[4].https://kexue.fm/archives/8265
[5].https://zhuanlan.zhihu.com/p/641865355
[6].https://zhuanlan.zhihu.com/p/646598747
[7].学习报告:向量与复数的联系
[8].复向量的内积,想不明白?
[9].https://arxiv.org/pdf/2104.09864.pdf

相关文章:

【论文阅读随笔】RoPE/旋转编码:ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING

文章目录 1.目的:通过绝对位置编码的方式实现相对位置编码2.理解RoPE,在我看来有几个需要注意的点:3.本文相关复数概念:3.1.复数乘法的几何意义3.2.复数内积 VS. 复数乘法 4.REF: 1.目的:通过绝对位置编码的…...

数据挖掘

一.数据仓库概述: 1.1数据仓库概述 1.1.1数据仓库定义 数据仓库是一个用于支持管理决策的、面向主题、集成、相对稳定且反映历史变化的数据集合。 1.1.2数据仓库四大特征 集成性(Integration): 数据仓库集成了来自多个不同来源…...

java SSM旅游景点与公交线路查询系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计

一、源码特点 java SSM旅游景点与公交线路查询系统是一套完善的web设计系统(系统采用SSM框架进行设计开发,springspringMVCmybatis),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系…...

解决Git报错:fatal: detected dubious ownership in repository at

在通过 Git Bash 提交项目代码时输入 git add . 命令后,报错:fatal: detected dubious ownership in repository at 这是因为该项目的所有者与现在的用户不一致 比如说: 该项目的所有者是 Administrator,而当前用户是 YuYang, 那…...

网络协议常见问题

网络协议常见问题 OSI(Open Systems Interconnection)模型OSI 封装 TCP/IP协议栈IP数据报的报头TCP头格式UDP头格式TCP (3-way shake)三次握手建立连接:为什么三次握手才可以初始化 Socket、序列号和窗口大小并建立 TCP 连接。每次建立TCP连接…...

人工智能的迷惑行为

目录 前言1 人工智能的“幽默”瞬间1.1 语义误解1.2 逻辑错误 2 技术原理探究2.1 算法设计缺陷2.2 数据处理不当 3 社会影响分析3.1 信任度下降3.2 技术担忧 结语 前言 随着人工智能技术的迅猛发展,各类AI大模型如ChatGPT、文心一言、通义千问等纷纷登场&#xff0…...

XR技术:短剧制作的全新纪元

在数字技术的浪潮中,XR(扩展现实)技术以其独特的魅力,正在为短剧制作带来革命性的突破。这种融合了虚拟现实、增强现实和混合现实等先进技术的创新工具,正逐渐改变着短剧制作的传统模式,引领着短剧艺术走向…...

安卓 OpenGL ES 学习笔记

文章目录 OpenGL 学习笔记OpenGL 是什么?OpenGL ES是什么?怎么用?hello world如何实现动画效果 参考文章 OpenGL 学习笔记 OpenGL 是什么? OpenGL(Open Graphics Library)是一个跨平台的图形编程接口&…...

git分布式管理-头歌实验冲突处理、忽略文件

一、解决冲突 任务描述 在团队协作开发过程中,可能你和团队中的其他成员,都修改了某个文件的某一部分内容,且其他成员已将该修改推送到了远程仓库。这样当你需要合并他的代码的时候,可能就会在内容上出现冲突,这个时候…...

【实战项目】网络编程:在Linux环境下基于opencv和socket的人脸识别系统--C++实现

🌞前言 这里我们会实现一个项目:在linux操作系统下基于OpenCV和Socket的人脸识别系统。 目录 🌞前言 🌞一、项目介绍 🌞二、项目分工 🌞三、项目难题 🌞四、实现细节 🌼4.1 关…...

零售EDI:劳氏 Lowe‘s EDI项目案例

通过 EDI,企业与Lowes之间可以直接交换各种商业文档,如订单、发票、收据等,从而实现信息的实时交换,提高了供应链的效率和准确性。在现代供应链管理中,EDI 已经成为了不可或缺的重要工具。 作为一家拥有多条业务线的企…...

为什么不用 index 做 key?

“在 Vue 中,我们在使用 v-for 渲染列表的时候,为什么要绑定一个 key?能不能用 index 做 key?” 在聊这个问题之前我们还得需要知道 Vue 是如何操作 DOM 结构的。 虚拟DOM 我们知道,Vue 不可以直接操作 DOM 结构&am…...

Linux虚拟机安装Redis

官网下载压缩包:官网链接,然后将对应的tar.gz压缩包放入虚拟机下的/opt目录下。由于redis是C语言开发的,因此需要安装gcc编译器来编译代码,我们下载的压缩包里面是源代码,需要编译。通过yum install gcc指令下载C语言的…...

网络安全: Kali Linux 进行 SSH 渗透与防御

目录 一、实验 1.环境 2.nmap扫描目标主机 3.Kali Linux 进行 SSH 渗透 3.Kali Linux 进行 SSH 防御 二、问题 1.SSH有哪些安全配置 一、实验 1.环境 (1)主机 表1 主机 系统版本IP备注Kali Linux2022.4 192.168.204.154(动态&…...

近年来文本检测相关工作梳理

引言 场景文本检测任务,一直以来是OCR整个任务中最为重要的一环。虽然有一些相关工作是端对端OCR工作的,但是从工业界来看,相关落地应用较为困难。因此,两阶段的OCR方案一直是优先考虑的。 在两阶段中(文本检测文本识…...

文件系统事件监听

文件系统事件和网络IO事件一样,也可以通过epoll或者IOCP 事件管理器统一调度,当所监控的文件或文件夹发生了增删改的事件时,就会触发事件回调,进行事件处理。很常见的应用,如配置文件立即生效功能,就可以通…...

探秘HTTPS:如何通过SSL/TLS保证网络通信安全

目录 引言 详解HTTPS加密实现机制 SSL/TLS工作原理 结论 引言 随着网络安全威胁的日益增加,HTTPS通过SSL(Secure Sockets Layer)和TLS(Transport Layer Security)协议提供的加密技术变得至关重要。这些技术保证了用…...

Java算法之动态规划

Java算法之动态规划 前言 ​ 最近这一段时间一直在刷算法题,基本上一有时间就会做一两道,这两天做了几道动态规划的问题,动态规划之前一直是我比较头疼的一个问题,感觉好复杂,一遇到这样的问题就想跳过,昨…...

C++从零开始的打怪升级之路(day47)

这是关于一个普通双非本科大一学生的C的学习记录贴 在此前,我学了一点点C语言还有简单的数据结构,如果有小伙伴想和我一起学习的,可以私信我交流分享学习资料 那么开启正题 今天分享的是关于set和map的知识点 1.关联式容器 在前面&#…...

香橙派AIpro开发板开箱测评

2023年12月,香橙派联合华为发布了基于昇腾的Orange Pi AIpro开发板,提供8/20TOPS澎湃算力,能覆盖生态开发板者的主流应用场景,让用户实践各种创新场景,并为其提供配套的软硬件。香橙派AIpro开发板一经发布便吸引了众多…...

JMS, ActiveMQ 学习一则托

开发个什么Skill呢? 通过 Skill,我们可以将某些能力进行模块化封装,从而实现特定的工作流编排、专家领域知识沉淀以及各类工具的集成。 这里我打算来一次“套娃式”的实践:创建一个用于自动生成 Skill 的 Skill,一是用…...

pg_column_size(): 眼见不一定为实

pg_column_size(): 眼见不一定为实 摘要本文探讨了 PostgreSQL 的 pg_column_size() 函数,并揭示了一个令人惊讶的行为:对于以行外方式存储的 TOASTed 值,该函数仅返回 18 字节的指针大小,而非实际数据大小,这可能导致…...

西门子S7-200SMART与三菱变频器通讯程序:Modbus RTU协议下的高效控制解决方案

西门子S7-200SMART与三菱变频器通讯程序,实际效果如视频所示,认准店名未来电气,支持。 只是程序,不发快递物流,采用modbus rtu协议。 型号:plc西门子200smart,威纶通MT8071IE,变频器FR-E700(FR-…...

HagiCode Desktop 混合分发架构解析:如何用 PP 加速大文件下载闻

一、Actor 模型:不是并发技巧,而是领域单元 Actor 模型的本质是: Actor 是独立运行的实体 Actor 之间只通过消息交互 Actor 内部状态不可被外部直接访问 Actor 自行决定如何处理收到的消息 Actor 模型真正解决的是: 如何在不共享状…...

Llama-3.2V-11B-cot模型推理加速:算法优化与GPU显存管理技巧

Llama-3.2V-11B-cot模型推理加速:算法优化与GPU显存管理技巧 想让Llama-3.2V-11B-cot跑得更快、更省显存吗?如果你已经成功部署了这个多模态大模型,但在实际推理时,可能已经感受到了它的“胃口”——对计算资源和显存的巨大需求。…...

Redis命令处理机制源码探究范

一、项目背景与核心价值 1. 解决的核心痛点 Navicat的数据库连接密码并非明文存储,而是通过AES算法加密后写入.ncx格式的XML配置文件中。一旦用户忘记密码,常规方式只能重新配置连接,效率极低。本项目只作为学习研究使用,不做其他…...

告别单调点云!用Open3D玩转点云上色:单色、概率映射与局部高亮实战

告别单调点云!用Open3D玩转点云上色:单色、概率映射与局部高亮实战 点云数据作为三维空间信息的直观载体,在自动驾驶、工业检测、数字孪生等领域扮演着关键角色。然而,当面对数以百万计的原始点云时,单调的灰色点阵往往…...

TVA思维之魂:让 TVA 成为制造业质量升级核心引擎

AI智能体视觉检测系统(TVA) 在制造业质量管理中的应用,绝非 “买设备、装产线” 的简单操作,而是一项覆盖选型、标准、数据、运维、全链条管控、团队建设的系统工程。多数企业陷入的各类误区与盲点,本质上是对 TVA 核心…...

我让 Claude 和 Codex 同时审计 个模块,它们只在 个上达成共识砸

整体排查思路 我们的目标是验证以下三个环节是否正常: 登录成功时:服务器是否正确生成了Session并返回了包含正确 JSESSIONID的Cookie给浏览器。 浏览器端:浏览器是否成功接收并存储了该Cookie。 后续请求:浏览器在执行查询等操作…...

利用FileZilla高效获取武汉大学IGS数据中心GNSS数据的完整指南

1. FileZilla软件准备与基础配置 第一次接触GNSS数据下载的朋友可能会觉得流程复杂,其实只要选对工具,操作比想象中简单得多。FileZilla作为老牌FTP客户端,就像数据下载界的"瑞士军刀",我用它处理GNSS数据下载已有五年…...