当前位置: 首页 > news >正文

模型微调方法

文章目录

  • LoRA
  • DoRA
  • MoRA

以下部分参考自: https://mp.weixin.qq.com/s/OxYNpXcyHF57OShQC26n4g

LoRA

LoRA是微软于2021年推出的一种经济型微调模型参数的方法。
它在冻结大部分的模型参数的情况下,仅仅更新额外的部分参数。其性能与全参数微调相似。

LoRA假设微调期间的权重更新可以很好地近似于低秩矩阵。LoRA不会更新全权重矩阵 W \mathbf{W} W, 而是将更新分解为两个较小的矩阵 A \mathbf{A} A B \mathbf{B} B
0

具体的训练过程是: 将原来的矩阵参数固定,然后利用新的数据继续训练大模型,训练过程只更新 A \mathbf{A} A B \mathbf{B} B矩阵。在推理时,将原来的矩阵 W \mathbf{W} W ( A × B ) (\mathbf{A}\times\mathbf{B}) (A×B)相加。
1

DoRA

权重分解低秩适用(DORA)将预训练的权重分解为两个向量: 幅度和方向。原来的参数矩阵 W \mathbf{W} W的维度依旧是 d × k d\times k d×k, 新增了一个幅度向量 m ∈ R 1 × K m\in\mathbb{R}^{1\times K} mR1×K
2

DORA在训练 A \mathbf{A} A B \mathbf{B} B矩阵的时候,依旧利用了LoRA的方法,然后新增了幅度 M M M向量。

3

DoRA将列向量分解为两个分量,可以更灵活地更新方向分量,这更接近于完全微调。

MoRA

MoRA的概念类似于LoRA, 但不是将权重矩阵分解为更小的维度,而是将其分解为小的方形矩阵。
4

例如,如果原始权重层具有4096×4096~= 16M参数,则r=8的LoRA具有4096×8 + 8×4096=65,536参数。使用MoRA可以将维度减小到r=256,即256×256=65,536。在这两种情况下,需要训练和更新的参数是相同的,然而研究人员声称与LoRA相比具有更高的学习代表性。

根据这篇论文,LoRA的局限性之一是无法记住大量数据。对于该限制,一个合理的解释可能是它对低秩更新的依赖。低秩更新矩阵 Δ W \Delta W ΔW, 很难估计FFT中的全秩更新, 尤其是在需要记忆特定领域知识的持续预训练等内存密集型任务中。

为了论证这个观点,研究人员研究了LoRA和FFT在通过微调记忆知识方面的差异。为了避免利用LLM的原始知识,研究人员随机生成 10 k 10k 10k对通用唯一标识符(UUID), 每对包含两个具有32个十六进制值的UUID。该任务要求LLM根据输入的UUID生成相应的UUID。

5

相关文章:

模型微调方法

文章目录 LoRADoRAMoRA 以下部分参考自: https://mp.weixin.qq.com/s/OxYNpXcyHF57OShQC26n4g LoRA LoRA是微软于2021年推出的一种经济型微调模型参数的方法。 它在冻结大部分的模型参数的情况下,仅仅更新额外的部分参数。其性能与全参数微调相似。 LoRA假设微调期间…...

cesium使用cesium-navigation-es6插件创建指南针比例尺

cesium-navigation-es6 是一个为 Cesium.js 提供导航控件的库,它提供了一些常见的用户界面组件,用于在 Cesium 场景中实现用户导航和交互。下面将介绍如何在项目中使用 cesium-navigation-es6。 使用步骤 1. 安装 cesium-navigation-es6 首先&#xf…...

go sync包(七)Sync.Map

Sync.Map 原理 通过 read 和 dirty 两个字段实现数据的读写分离,读的数据存在只读字段 read 上,将最新写入的数据存在 dirty 字段上。读取时会先查询 read,不存在再查询 dirty,写入时则只写入 dirty。读取 read 并不需要加锁&am…...

Batch文件中的goto命令:控制流程的艺术

Batch文件,也称为批处理脚本,是Windows操作系统中用于自动化任务的一种脚本文件。在Batch脚本中,goto命令是一个至关重要的控制结构,它允许脚本跳转到指定的标签位置,从而实现循环、条件分支等复杂的控制流程。本文将详…...

【chatgpt】两层gcn提取最后一层节点输出特征,如何自定义简单数据集

文章目录 两层gcn,提取最后一层节点输出特征,10个节点,每个节点8个特征,连接关系随机生成(无全连接层)如何计算MSE 100个样本,并且使用批量大小为32进行训练第一个版本定义数据集出错&#xff0…...

Java面试题:讨论你如何保持对Java生态系统中新技术的了解

保持对Java生态系统中新技术的了解可以通过以下几种方法: 官方资源: Oracle的官方博客和新闻:Oracle是Java的主要维护者,其官方网站和博客会定期发布Java的新版本、功能更新和最佳实践。Java SE Documentation:Java官方…...

深度学习之Transformer模型的Vision Transformer(ViT)和Swin Transformer

Transformer 模型最初由 Vaswani 等人在 2017 年提出,是一种基于自注意力机制的深度学习模型。它在自然语言处理(NLP)领域取得了巨大成功,并且也逐渐被应用到计算机视觉任务中。以下是两种在计算机视觉领域中非常重要的 Transformer 模型:Vision Transformer(ViT)和 Swi…...

玩个游戏 找以下2个wordpress外贸主题的不同 你几找到几处

Aitken艾特肯wordpress外贸主题 适合中国产品出海的蓝色风格wordpress外贸主题,产品多图展示、可自定义显示产品详细参数。 https://www.jianzhanpress.com/?p7060 Ultra奥创工业装备公司wordpress主题 蓝色风格wordpress主题,适合装备制造、工业设备…...

React Native优质开源项目推荐与解析

目录 2. React Native的优势 2.1. 跨平台开发 2.2. 热更新 2.3. 丰富的社区资源 2.4. 优秀的性能 3. 优质开源项目推荐 3.1. React Navigation 3.1.1 项目简介 3.1.2 特点和优势 3.1.3 应用场景 3.2. Redux 3.2.1 项目简介 3.2.2 特点和优势 3.2.3 应用场景 3.3…...

树莓派安装windows系统

第1步: https://uupdump.net/下载对应的系统文件,所有选择项都默认选择。 第2步: 解压下载后的文件,双击运行下面文件。等待下载完成,等待过程很漫长,很考验耐心。 第3步: 提示已经finish了&…...

CSS-position/transform

1 需求 2 语法 在CSS中,positioning 和 transform 是两个非常重要的概念,它们分别用于控制元素在页面上的布局和变换。 Positioning CSS中的position属性用于设置元素的定位类型。它有几个值,包括: static:这是默认…...

面试题之一

路由的两种模式:hash模式和 history模式。 两种的区别、如何实现。 hash模式中#的作用 vue性能优化。具体如何实现(回答了一个可以函数引入的方法引入路由。问) keep-alive 说一下EventBus CSS: flex布局 css新特性 盒子模型 J…...

494. 目标和 Medium

给你一个非负整数数组 nums 和一个整数 target 。 向数组中的每个整数前添加 或 - ,然后串联起所有整数,可以构造一个 表达式 : 例如,nums [2, 1] ,可以在 2 之前添加 ,在 1 之前添加 - ,然…...

如何实现灌区闸门控制自动化?宏电“灌区哨兵”为灌区闸门控制添“智慧”动能

闸门控制站是节水灌溉工程中的重要组成部分。随着科技的不断进步和农田水利现代化的发展,传统的闸门控制和管理手段已经不能满足现代农业的发展要求。以宏电“灌区哨兵”为核心的闸门自动化控制系统,能有效解决灌区闸门距离远、数量多、不易操作、不好监…...

PHP电商系统开发指南数据库管理

回答:数据库管理是电商系统开发的关键,涉及数据的存储、管理和检索。选择合适的数据库引擎,如mysql或 postgresql。创建数据库架构,定义数据的组织方式(如产品表、订单表)。进行数据建模,考虑实…...

基于Vue.js的电商前端模板:Vue-Dashboard-Template的设计与实现

摘要 随着电子商务的飞速发展,前端页面的设计和实现变得愈发重要。本文介绍了一个基于Vue.js的电商前端模板——Vue-Dashboard-Template,旨在提供一个高性能、易扩展的电商平台前端解决方案。该模板遵循响应式设计、模块化、组件化开发等设计原则&#…...

论文解读:【CVPR2024】DUSt3R: Geometric 3D Vision Made Easy

论文“”https://openaccess.thecvf.com/content/CVPR2024/papers/Wang_DUSt3R_Geometric_3D_Vision_Made_Easy_CVPR_2024_paper.pdf 代码:GitHub - naver/dust3r: DUSt3R: Geometric 3D Vision Made Easy DUSt3R是一种旨在简化几何3D视觉任务的新框架。作者着重于…...

springboot助农电商系统-计算机毕业设计源码08655

摘要 近年来,电子商务的快速发展引起了行业和学术界的高度关注。基于移动端的助农电商系统旨在为用户提供一个简单、高效、便捷的农产品购物体验,它不仅要求用户清晰地查看所需信息,而且还要求界面设计精美,使得功能与页面完美融合…...

【windows】电脑如何关闭Bitlocker硬盘锁

如果你的硬盘显示这样的一把锁,说明开启了Bitlocker硬盘加密。 Bitlocker硬盘锁,可以保护硬盘被盗,加密防止打开查看数据。 方法一:进入“控制面板->BitLocker 驱动器加密”进行设置。或者“控制面板\系统和安全->BitLocke…...

vue-cli 搭建项目,ElementUI的搭建和使用

vue-cli 官方提供的一个脚手架,用于快速生成一个vue的项目模板;预先定义 好的目录结构及基础代码,就好比咱们在创建Maven项目时可以选择创建一个 骨架项目,这个骨架项目就是脚手架,我们的开发更加的快速; …...

为什么92%的Polars新手在join时OOM?揭秘2.0新版streaming引擎的5个关键启用条件

第一章:Polars 2.0 大规模数据清洗技巧 面试题汇总Polars 2.0 引入了更严格的惰性执行模型、增强的字符串/时间解析能力,以及对空值传播行为的统一语义,使其在高频面试场景中成为考察候选人工程化数据处理能力的关键工具。以下为高频面试题及…...

微机原理实验一代码逐行精讲:从‘Hello World’到ASCII转换的底层逻辑

微机原理实验一代码逐行精讲:从‘Hello World’到ASCII转换的底层逻辑 当屏幕上跳出"Hello World!"时,很少有人思考这行文字背后究竟发生了什么。这段经典的汇编代码就像一扇门,推开它你将看到CPU如何与内存对话、中断服务程序如何…...

移动机器人自主导航与集群协同:从单机优化到群体智能

1. 移动机器人自主导航的核心框架 当你第一次看到扫地机器人在房间里自如穿梭时,有没有好奇过它是如何做到的?这背后就是移动机器人自主导航技术的魔力。简单来说,自主导航系统就像机器人的"大脑",由感知、规划、控制三…...

用循环链表实现大整数加法:一个被遗忘的C语言经典数据结构实战

用循环链表实现大整数加法:一个被遗忘的C语言经典数据结构实战 在计算机科学教育中,数据结构与算法的学习往往陷入理论脱离实践的困境。而实现一个大整数加法计算器,恰好为循环链表这一经典数据结构提供了绝佳的应用场景。本文将带您深入探索…...

电感器特性与工程应用全解析

电感器的工程应用与特性分析1. 电感器基础特性电感器(Inductor)是电子电路中的基本无源元件,由导线绕制而成,可分为空心线圈和带磁芯线圈两种基本结构。其基本单位是亨利(H),常用单位还包括毫亨(mH)和微亨(μH),换算关系为&#x…...

3个简单步骤,用SMUDebugTool彻底解决AMD Ryzen系统稳定性问题

3个简单步骤,用SMUDebugTool彻底解决AMD Ryzen系统稳定性问题 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: htt…...

影刀RPA神用法:自动监控竞品价格的实操步骤

监控竞品价格的实操步骤数据采集模块配置 打开影刀RPA,创建一个新流程。使用网页抓取功能,定位竞品网站的价格元素。通过XPath或CSS选择器精准获取价格数据,确保动态加载内容也能被捕获。价格异常触发机制 设置价格波动阈值,当竞品…...

GIL消失后的混沌现场:共享对象修改异常、原子性丢失、引用计数溢出,一文收全7种致命报错及防御代码模板

第一章:GIL消失后的并发危机全景图当CPython的全局解释器锁(GIL)真正消失,Python将首次具备原生、安全的多线程并行执行能力。但这并非一劳永逸的性能飞跃,而是一场系统级并发范式的重构风暴——内存模型、对象生命周期…...

如何从零开始掌握Metasploitable3?安全测试入门到实践指南

如何从零开始掌握Metasploitable3?安全测试入门到实践指南 【免费下载链接】metasploitable3 Metasploitable3 is a VM that is built from the ground up with a large amount of security vulnerabilities. 项目地址: https://gitcode.com/gh_mirrors/me/metasp…...

Tailwind CSS在Vue3+Vite项目中的实战应用:从零到响应式按钮

Tailwind CSS在Vue3Vite项目中的实战应用:从零到响应式按钮 如果你正在使用Vue3和Vite构建现代Web应用,却对传统CSS的维护成本感到头疼,那么Tailwind CSS可能会成为你的新宠。这个实用优先的CSS框架彻底改变了我们编写样式的方式——不再需要…...