当前位置: 首页 > news >正文

DL笔记:旋转编码RoPE

1 背景

  • 由于计算资源限制,目前的LLM大多在较短的上下文长度中进行训练,在推理中,如果超出预训练的长度,模型的性能将会显著降低
    • ——>需要一个可提供外推性的位置编码
  • 最经典的绝对位置编码就是原始Transformer中的那个sinusoidal位置编码了:

 2 RoPE

2.1 motivation

  • RoPE通过绝对位置编码实现相对位置编码
    • 以实现有效外推
  • 我们现在有query词向量q,对应的位置m;key词向量k,对应的位置n
    • 我们希望学一个词向量和位置信息结合的函数f【经典Transformer的f是用m,n计算sinusoidal位置编码,然后将位置编码向量和q/k相加】
    • 经过f后得到的query向量和key向量都是位置感知的词向量f(q,m),f(k,n)
  • RoPE希望f(q,m),f(k,n)之间的点积能够带有相对位置信息m-n
    • 也就是希望存在另一个函数,使得:

2.2 RoPE的f函数

2.2.1 二维向量

  • 对于二维词向量,结论是:
    • 这里θ是一个常数
  • 此时

2.2.2 多维向量 

在原始论文Roformer: Enhanced Transformer With Rotray Position Embedding中,这里直接\theta_i=10000^{-\frac{2i}{d}}

所以有:

上面的矩阵乘法等价于如下的实现方式

相关文章:

DL笔记:旋转编码RoPE

1 背景 由于计算资源限制,目前的LLM大多在较短的上下文长度中进行训练,在推理中,如果超出预训练的长度,模型的性能将会显著降低 ——>需要一个可提供外推性的位置编码最经典的绝对位置编码就是原始Transformer中的那个sinusoi…...

C语言自定义类型与文件操作

构造类型 枚举类型 若定义不相关的常量使用宏定义;若定义一组相关的常量使用枚举。switch中case后访问的就是枚举。 定义: 我们一般情况下定义常量使用宏定义(#define),宏定义适合没有关联关系的常量;但有时需要对一组有关联关系…...

《计算机网络A》单选题-复习题库解析-3

目录 106、MAN通常是指( ) 107、下列因素中,不会影响信道数据传输速率的是( ) 108、以太网交换机进行转发决策时使用的PDU地址是( ) 109、下列机制中,可以解决因数据帧丢失而…...

VM虚拟机配置ubuntu网络

目录 桥接模式 NAT模式 桥接模式 特点:ubuntu的IP地址与主机IP的ip地址不同 第一部分:VM虚拟机给ubuntu的网络适配器,调为桥接模式 第二部分:保证所桥接的网络可以上网 第三部分:ubuntu使用DHCP(默认&…...

【每日学点鸿蒙知识】Web高度适配、变量声明规范、动画取消、签名文件、包体积优化相关

1、HarmonyOS Web页面高度适配? 在Web页面设置高度100%时,发现和Web控件的高度不一致,这个需要设置什么可以达到页面高度和Web容器高度一致 目前只支持两种web布局模式,分别为Web布局跟随系统WebLayoutMode.NONE和Web基于页面大…...

uniapp使用ucharts组件

1.ucharts准备 有两种使用方式:一种是在uni的插件市场下载(组件化开发)。一种是手动引入ucharts包。官方都封装好组件了,我们不用岂不是浪费。 直接去dcloud插件市场(DCloud 插件市场)找,第一…...

LabVIEW工程师的未来发展

对于LabVIEW工程师以及更广义的编程从业者(包括“高级民工”码农)来说,随着AI技术和软件编程的逐步成熟,确实面临一些新的挑战和机遇。以下是对此问题的深入分析和未来方向的建议: 现状分析:技术过剩与竞争…...

java的bio、nio、aio 以及操作系统的select、poll、epoll

在 Java 和其他编程语言中,I/O 模型的选择对网络应用的性能和可扩展性有着重要影响。以下是 BIO(Blocking I/O)、NIO(Non-blocking I/O)、AIO(Asynchronous I/O),以及操作系统级别的…...

2024 年发布的 Android AI 手机都有什么功能?

大家好,我是拭心。 2024 年是 AI 快速发展的一年,这一年 AI 再获诺贝尔奖,微软/苹果/谷歌等巨头纷纷拥抱 AI,多款强大的 AI 手机进入我们的生活。 今年全球 16% 的智能手机出货量为 AI 手机,到 2028 年,这…...

RLHF,LM模型

LLM(Large Language Model) RLHF(Reinforcement Learning from Human Feedback),即以强化学习方式依据人类反馈优化语言模型。 RLHF思想:使用强化学习的方式直接优化带有人类反馈的语言模型。RLHF使得在一般文本数据语料库上训练的语言模型能与复杂的人类价值观对齐。 R…...

【机器学习】工业 4.0 下机器学习如何驱动智能制造升级

我的个人主页 我的领域:人工智能篇,希望能帮助到大家!!!👍点赞 收藏❤ 随着科技的飞速发展,工业 4.0 浪潮正席卷全球制造业,而机器学习作为这一变革中的关键技术,正以前…...

REST与RPC的对比:从性能到扩展性的全面分析

在微服务架构中,服务间通信是核心问题之一。常见的两种通信方式是REST(Representational State Transfer)和RPC(Remote Procedure Call)。它们各有优缺点,适用于不同场景。本文将从性能、扩展性、兼容性和开…...

MATLAB中将MAT文件转换为Excel文件

MATLAB中将MAT文件转换为Excel文件 MATLAB提供了多种方法将MAT文件中的数据导出到Excel文件中。下面介绍几种常用的方法: 1. 使用 writetable 函数 优点: 功能强大,可以灵活控制输出格式。用法: data load(your_data.mat); …...

leetcode hot 100 跳跃游戏2

45. 跳跃游戏 II 已解答 中等 相关标签 相关企业 给定一个长度为 n 的 0 索引整数数组 nums。初始位置为 nums[0]。 每个元素 nums[i] 表示从索引 i 向前跳转的最大长度。换句话说&#xff0c;如果你在 nums[i] 处&#xff0c;你可以跳转到任意 nums[i j] 处: 0 < j…...

【Cesium】八、Cesium 默认地图不显示,不加载默认Bing地图

文章目录 前言实现方法App.vue 前言 Cesium 默认加载的地图是bing地图&#xff0c;个人认为请求bing地图会收到网络限制&#xff0c;导致地图资源下载很慢&#xff0c;所以设置默认不加载bing地图&#xff08;后续我使用的是天地图&#xff09; 参考文章&#xff1a; cesium …...

【新方法】通过清华镜像源加速 PyTorch GPU 2.5安装及 CUDA 版本选择指南

下面详细介绍所提到的两条命令&#xff0c;它们的作用及如何在你的 Python 环境中加速 PyTorch 等库的安装。 1. 设置清华镜像源 pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple这条命令的作用是将 pip &#xff08;Python 的包管理工具&#xf…...

MySQL的sql操作有哪些

MySQL 的 SQL 操作可以分为几个主要类别&#xff0c;每个类别包含了一系列的语句&#xff0c;用于执行不同的数据库操作&#xff1a; 数据查询语言&#xff08;DQL&#xff09; SELECT&#xff1a;用于从一个或多个表中检索数据。可以使用 WHERE 子句进行条件筛选&#xff0c…...

ArcGIS计算矢量要素集中每一个面的遥感影像平均值、最大值等统计指标

本文介绍在ArcMap软件中&#xff0c;基于矢量面要素集&#xff0c;计算在其中每一个面区域内&#xff0c;遥感影像的像元个数、平均值、总和等统计值&#xff0c;并将统计信息附加到矢量图层的属性表中的方法。 首先&#xff0c;明确一下本文的需求。现在有一个矢量面要素集&am…...

EasyExcel(环境搭建以及常用写入操作)

文章目录 EasyExcel环境搭建1.创建模块 easyexcel-demo2.引入依赖3.启动类创建 EasyExcel写1.最简单的写入1.模板2.方法3.结果 Write01.xlsx 2.指定字段不写入Excel1.模板2.方法3.结果 Write02.xlsx 3.指定字段写入excel1.模板2.方法3.结果 Write03.xlsx 4.按照index顺序写入ex…...

探索Milvus数据库:新手入门指南(tencent云)

开启向量数据库的奇妙之旅 在数据科学和机器学习领域&#xff0c;Milvus是一个专为向量数据设计的开源数据库。它以其高性能和易于使用的特点&#xff0c;成为了处理大规模向量搜索任务的理想选择。如果你是Milvus的新手&#xff0c;这篇文章将带你一步步了解如何开始你的Milv…...

让旧款iPhone/iPad重获新生:Legacy-iOS-Kit终极使用指南

让旧款iPhone/iPad重获新生&#xff1a;Legacy-iOS-Kit终极使用指南 【免费下载链接】Legacy-iOS-Kit An all-in-one tool to restore/downgrade, save SHSH blobs, jailbreak legacy iOS devices, and more 项目地址: https://gitcode.com/gh_mirrors/le/Legacy-iOS-Kit …...

高通QCC3084-QCC518X蓝牙耳机项目

高通QCC3084-QCC518X蓝牙耳机项目...

日本租房成本核算沙盘

最近忙着租房子&#xff0c;日本租房不同于国内&#xff0c;有非常多杂乱的费用&#xff0c;这些都是必须在租房子的时候就考虑在内的&#xff0c;所以我制作了这个网站&#xff0c;希望能帮助到各位小伙伴。 目前已经部署在了服务器上&#xff0c;网址如下 http://8.130.68.…...

从零到一:在VMware中部署银河麒麟V10桌面版全流程实战

1. 环境准备&#xff1a;搭建你的虚拟实验室 在开始安装银河麒麟V10之前&#xff0c;我们需要先准备好虚拟化环境。就像装修房子前要准备好工具一样&#xff0c;这个步骤决定了后续安装的顺畅程度。我建议使用VMware Workstation Pro 16.x版本&#xff0c;这个版本对国产操作系…...

Linux内核PCIe热插拔驱动开发实战:从IDT芯片到稳定运行

1. 项目概述与核心价值最近在搞一个嵌入式设备项目&#xff0c;需要实现PCIe设备的热插拔支持。这玩意儿在服务器、存储阵列和工业控制领域太常见了&#xff0c;但真要在Linux内核里把它做稳定、做可靠&#xff0c;里面的门道可不少。我这次折腾的&#xff0c;就是一个基于Linu…...

解锁CLIP潜力:三种高效微调策略实战解析

1. CLIP模型微调的必要性 CLIP作为多模态模型的里程碑之作&#xff0c;其zero-shot能力确实令人惊艳。但真实业务场景中&#xff0c;我们常常遇到这样的困境&#xff1a;电商平台需要区分"奶白色"和"米白色"的家具面料&#xff0c;医疗影像需要识别特定病灶…...

德勤预计机器人投资将在2026年增长的地方

尽管德勤预测到2026年全球⼯业机器⼈基数可能达到550万个&#xff0c;但也承认“⾃2021年以来&#xff0c;年度新机器⼈销量停滞在50万台以上。”为了满⾜以⼈⼝统计为驱动的需求&#xff0c;技术⽣态系统必须解决与数据质量、集成和安全性相关的瓶颈&#xff0c;公司强调“⽬前…...

电子项目布线指南:从导线、电缆到连接器的核心选型与避坑

1. 项目概述&#xff1a;为什么“线”比“电路”本身更重要&#xff1f;干了十几年电子项目&#xff0c;从学生时代的第一个闪烁LED&#xff0c;到后来复杂的机器人系统和工业控制器&#xff0c;我踩过最多的坑&#xff0c;往往不是芯片选型或代码逻辑&#xff0c;而是那些看起…...

【免费下载】 UVM标准库源代码及用户指南资源

UVM标准库源代码及用户指南资源 简介 本仓库提供了统一验证方法论&#xff08;Universal Verification Methodology, UVM&#xff09;的多个关键版本的源代码压缩包。UVM是一种用于电子设计验证的高级验证方法学&#xff0c;由Accellera Systems Initiative开发并标准化&#x…...

Linux实战:部署MinIO对象存储服务与Systemd开机自启配置详解

1. MinIO简介与环境准备 MinIO是一款高性能的分布式对象存储服务&#xff0c;完全兼容Amazon S3 API。它特别适合在私有云环境中部署&#xff0c;提供文件存储、备份和归档等功能。我在多个生产环境中使用过MinIO&#xff0c;它的轻量级设计和简单配置让我印象深刻。 首先需要准…...