LLM-TAP随笔——有监督微调【深度学习】【PyTorch】【LLM】
文章目录
- 5、 有监督微调
- 5.1、提示学习&语境学习
- 5.2、高效微调
- 5.3、模型上下文窗口扩展
- 5.4、指令数据构建
- 5.5、开源指令数据集
5、 有监督微调
5.1、提示学习&语境学习
提示学习
完成预测的三个阶段:提示添加、答案搜索、答案映射

提示添加
“[X] 我感到 [Z]”
x = “我不小心错过了公共汽车。”
x’ = “我不小心错过了公共汽车。我感到[Z]”
答案搜索
Z = {“太好了”,“好”,“一般”,“不好”,“糟糕”}
将给定提示 x ′ 而模型输出为 z 的过程记录为函数 f f i l l ( x ′ , z ) f_{fill} (x ′ , z) ffill(x′,z),对于每个答案空间 Z Z Z中的候选答案 z z z,分别计算模型输出它的概率, 从而找到模型对[Z] 插槽预测得分最高的输出:
z ~ = s e a r c h z ∈ Z P ( f f i l l ( x ′ , z ) ; θ ) \tilde{z} = search_{z∈Z}P(f_{fill}(x',z);θ) z~=searchz∈ZP(ffill(x′,z);θ)
答案映射
将模型的输出与最终的标签做映射。映射规则是人为制定的,比如,将“太好了”、“好”映射为“正面”标签,将“不好”,“糟糕”映射为“负面”标签,将“一般”映射为“中立”标签。
提示学习方法易于理解且效果显著,提示工程、答案工程、多提示学习方法、基于提示的训练策略等已经成为从提示学习衍生出的新的研究方向。
语境学习
关键思想是从类比中学习,整个过程并不需要对模型进行参数更新,仅执行向前的推理。
向模型输入特定任务的一些具体例子以及测试样例,让模型根据示例续写出测试样例的答案。
如下情感分类,续写情感极性:

5.2、高效微调
高效微调:在缩减训练参数量和GPU显存占用,同时使训练后的模型具有与全量微调相当的性能。
全量微调:微调全部参数需要相当高的算力。
LoRA( Low-Rank Adaptation of Large Language Models)
计算流程
h = W 0 x + Δ W x = W 0 x + B A x h = W_0x + \Delta Wx = W_0x + BAx h=W0x+ΔWx=W0x+BAx
矩阵 A 通过高斯函数初始化,矩阵 B 为零初始化,使得训练开始之前旁路对原模型不造成影响,即参数改变量为 0。
将原权重与训练后权重合并后, 推理时不存在额外的开销。

低秩矩阵通常有以下特点:
- 线性相关性较高:矩阵中的行或列之间存在较强的线性相关性,因此可以用较少的线性独立分量来近似表示。
- 信息冗余较多:由于线性相关性,低秩矩阵中包含了一些冗余信息,可以通过较低秩的近似来减少存储和计算成本。
- 较小的维度:低秩矩阵通常具有较低的维度,因为它们可以用较少的基向量(或特征向量)来表示。
其它高效微调方式
- 微调适配器(
Adapter)
分别对 Transformer 层中的自注意力模块与多层感知(MLP)模块,在其与其之后的残差连接之间添加适配器层(Adapter layer)作为可训练参数。
该方法及其变体会增加网络的深度,从而在模型推理时带来额外的时间开销。
- 前缀微调(
Prefix Tuning)
前缀微调是指在输入序列前缀添加连续可微的软提示作为可训练参数。由于模型可接受的最大输入长度有限,随着软提示的参数量增多,实际输入序列的最大长度也会相应减小,影响模型性能。
软提示:连续提示的方法。
5.3、模型上下文窗口扩展
上下文窗口:在自然语言处理中,LLM(Large Language Model,大型语言模型)的上下文窗口指的是模型在处理文本时所考虑的文本片段或单词的范围。
- 具有外推能力的位置编码
ALiBi
相对位置编码
注意力加上线性偏置
S o f t m a x ( q i K T + m ⋅ [ − ( i − 1 ) , . . . , − 2 , − 1 , 0 ] ) Softmax(q_iK^T+m·[-(i-1),...,-2,-1,0]) Softmax(qiKT+m⋅[−(i−1),...,−2,−1,0])
- m为坡度,取值为: { 1 a , 1 a 2 , . . . , 1 256 } , 其中 a n u m _ h e a d s = 256 \{\frac{1}{a} , \frac{1}{a^2},...,\frac{1}{256} \} ,其中 a^{num\_heads} =256 {a1,a21,...,2561},其中anum_heads=256
- [ − ( i − 1 ) , . . . , − 2 , − 1 , 0 ] [-(i-1),...,-2,-1,0] [−(i−1),...,−2,−1,0]表示相对位置,取值:-(k索引[1,i] - q索引[i])
- 插值法
RoPE位置插值:
f ’ ( x , m ) = f ( x , m L ′ ) L f’(x,m) = f(x,\frac{m}{L'})L f’(x,m)=f(x,L′m)L
将更大的位置索引范围 [0,L′) 缩减至原始的索引范围 [0,L)

5.4、指令数据构建
指令数据的质量和多样性是衡量指令数据的重要维度,影响有监督微调过程的关键因素。
指令数据由指令、输入、输出组成。
指令数据示例:

- 手动构建
手动编写提示与相应的回答;
大量人力投入。
- 自动生成指令
Self-instruct
Self-instruct
其数据生成过程是一个迭代引导算法。

- 生成任务指令
手动构建175 seed tasks;
每次采样8个task 指令(人工6 + 迭代生成2);
直到停止生成 || 达到模型长度限制。
- 确定指令是否代表分类任务
处理不同。
不同原因:避免分类任务时,生成过多某些特定任务Input,而忽视其他类别。
- 生成任务输入和输出
输出:完整指令数据
No:Input-first, Input i n s t r u c t i o n > \frac{instruction}{}> instruction>Output
Yes:Output-first, Output i n s t r u c t i o n > \frac{instruction}{}> instruction>Input
- 过滤低质量数据
多样性:ROUGE-L相似度<0.7;
质量:启发式规则:除掉含某些关键字(如“图片”)、重复、过长或过短数据。
LLaMA 模型上进行有监督微调得到 Alpaca 模型, 所使用的指令数据集的示例

5.5、开源指令数据集
开源数据指令集

相关文章:
LLM-TAP随笔——有监督微调【深度学习】【PyTorch】【LLM】
文章目录 5、 有监督微调5.1、提示学习&语境学习5.2、高效微调5.3、模型上下文窗口扩展5.4、指令数据构建5.5、开源指令数据集 5、 有监督微调 5.1、提示学习&语境学习 提示学习 完成预测的三个阶段:提示添加、答案搜索、答案映射 提示添加 “[X] 我感到…...
kafka伪集群部署,使用docker环境拷贝模式
线上启动容器的方式是复制容器的运行环境出来,然后进行运行脚本的形式 1:在home/kafka目录下创建如下目录 2:复制kafka1容器内的数据/bitnami/kafka/data,直接放在1992_data里面,同理,复制kafka2容器内的数据/bitnami/…...
工业交换机一般的价格是多少呢?
工业交换机是一种应用于工业领域的网络设备。它的性能和所有安全指标都比一般商业交换机更加稳定。所以,工业级交换机的价格相对于普通的交换机要稍稍昂贵一些。工业交换机一般的价格是多少呢?每个厂家的交换机价格是不是都一样呢? 首先&…...
QT使用前的知识
QT使用前的知识 常用的快捷键 源文件的内容解释 .pro文件的解释 头文件的解释 构建新的对象—组成对象树 槽函数 自定的信号和槽 槽函数的信号是一个重载函数时 电机按钮触发信号 调用无参数的信号 断开信号...
Unity制作旋转光束
Unity制作旋转光束 大家好,我是阿赵。 这是一个在很多游戏里面可能都看到过的效果,在传送门、魔法阵、角色等脚底下往上散发出一束拉丝形状的光,然后在不停的旋转。 这次来在Unity引擎里面做一下这种效果。 一、准备材料 需要准备的素材很简…...
考研王道强化阶段(二轮复习)“算法题”备考打卡表 记录
问题:做408真题_2010_42题,即王道书 2.2.3_大题_10 思路: 回头补 代码: int moveL(SqlList &L,SqlList &S,int p) {// 健壮性表达if( L.len 0 ){return 0;}// 调用另外一个顺序表存储pos前面的元素for( int i0;i<p;…...
UE4/5数字人MetaHuman通过已有动画进行修改
目录 通过已有动画修改动画 开始制作 创建一个关卡序列 将动画序列烘焙到控制绑定 打开我们自己创建的动画序列 之后便是烘焙出来 通过已有动画修改动画 首先架设我们已经有相关的MetaHuman的动画,但是这个动画因为是外部导入进来的,所以可能会出…...
在Mac M2本地注册GitLab runner
最近在搞公司的CI/CD,简单记录下部分过程 安装runner sudo curl --output /usr/local/bin/gitlab-runner "https://gitlab-runner-downloads.s3.amazonaws.com/latest/binaries/gitlab-runner-darwin-arm64" 创建runner 这个步骤需要在gitlab中进行&am…...
「大数据-2.2」使用命令操作HDFS文件系统
目录 一、HDFS文件系统基本信息 1. HDFS的路径表达形式 2.HDFS和Linux的根目录的区分 二、 使用命令操作HDFS文件系统 0. Hadoop的两套命令体系 1. 创建文件夹 2. 查看指定目录下内容 3. 上传文件到HDFS指定目录下 4. 查看HDFS文件内容 5. 下载HDFS文件 6. 拷贝HDFS文件 7.…...
面试买书复习就能进大厂?
大家好,我是苍何。 现在进大仓是越来越难了,想通过简单的刷题面试背书,比几年前难的不少, 但也并非毫无希望,那究竟该如何准备才能有希望进大厂呢? 我总结了 4 点: 1、不差的学历背景 2、丰富…...
使用Http Interface客户端解析text/html类型参数
前言 Spring6和Spring Boot3的正式发布也有一段时间了,最低支持的java版本也是直接跳到了17。而且最近java21也出来了,作为一个javaer,你不会还在坚守java8吧? Http Interface是Spring6新推出的一个声明式http客户端,…...
Linux - linux命令进阶
打包压缩解压 基本概述 打包 将多数文件或目录汇总成一个整体 打包默认没有压缩功能,不节省磁盘空间 压缩 将大文件压缩成小文件 可以节省磁盘空间 打包压缩 将一堆零散的文件打包到一起,然后再压缩,可以节省磁盘空间 打包命令 命令格式 ta…...
排序篇(一)----插入排序
1.直接插入排序 插入排序的思想: 把待排序的记录按其关键码值的大小逐个插入到一个已经排好序的有序序列中,直到所有的记录插入完为止,得到一个新的有序序列 。 你可以想像成打牌一样,比如说斗地主,一张一张的摸牌,然后把手上的这些牌变成手续的排列.…...
通俗讲解深度学习轻量网络MobileNet-v1/v2/v3
MobileNet网络是由google团队在2017年提出的,专注于移动端或者嵌入式设备中的轻量级CNN网络。相比传统卷积神经网络,在准确率小幅降低的前提下大大减少模型参数与运算量。(相比VGG16准确率减少了0.9%,但模型参数只有VGG的1/32)。MobileNet网络…...
mmpretrain学习笔记
深度学习模型的训练涉及几个方面 1、模型结构:模型有几层、每层多少通道数等 2、数据:数据集划分、数据文件路径、批大小、数据增强策略等 3、训练优化 :梯度下降算法、学习率参数、训练总轮次、学习率变化策略等 4、运行时:GPU、…...
rhel8 网络操作学习
一、查询dns服务器地址汇总 1.查询dns服务器地址: (1)方法一:执行命令 cat /etc/resolv.conf 执行结果如下: nameserver后面就是dns服务器的ip地址。 (2)方法2:查看/etc/syscon…...
有车型(CarModel),车厂(CarFactory),经销商(Distributor)三个表
用drf编写 1 有车型(CarModel),车厂(CarFactory),经销商(Distributor)三个表, 一个车厂可以生产多种车型,一个经销商可以出售多种车型,一个车型可以有多个经销商出售车型:车型名,车型…...
Python函数:chr()和ord()
两个函数是基于Unicode编码表进行进行字符与字码之间的转换。 chr()函数是通过字码转换成字符: 如图,坐标(1,4e10)丑 使用chr需要线将坐标相加得到:4e11 chr默认传入10进制的字码. 如图是各进制的字码。 也可以传入其他进制,不过需要在前面传入的参数最前…...
flink sql 使用
1.准备工作 安装flink 1.16.2 将以下jar包放到/data/cmpt/flink-1.16.2/lib 目录下 antlr-runtime-3.5.2.jar flink-connector-hive_2.12-1.16.2.jar flink-connector-jdbc-1.16.2.jar mysql-connector-java-6.0.6.jar hive-exec-3.1.3.jar libfb303-0.9.3.ja…...
面试官:谈谈 Go 泛型编程
大家好,我是木川 泛型编程是一种编程范式,它允许编写具有参数化类型的代码,从而增加代码的复用性和灵活性。在泛型编程中,你可以编写一段代码,使其适用于不同类型的参数,而不需要为每种类型编写不同的实现。…...
告别小白屏!树莓派3.5寸/5寸屏幕驱动安装全攻略(含HDMI/GPIO款区分与镜像下载)
树莓派外接屏幕终极指南:从驱动安装到故障排查一站式解决 树莓派爱好者们常常会遇到一个令人头疼的问题——当你兴冲冲地连接上一块3.5寸或5寸的小屏幕,期待立即开始项目开发时,迎接你的却是一片刺眼的白屏。这种情况在非官方屏幕中尤为常见&…...
终极指南:如何解决Cobalt Instagram下载失败问题 - 完整排查方案
终极指南:如何解决Cobalt Instagram下载失败问题 - 完整排查方案 Cobalt是一款强大的开源媒体下载工具,专为保存Instagram、YouTube、Twitter等平台的视频和图片而设计。然而,许多用户在使用Cobalt下载Instagram内容时经常遇到各种失败问题&…...
突破性3D建模技术:Wonder3D如何通过单张图像实现高质量三维重建
突破性3D建模技术:Wonder3D如何通过单张图像实现高质量三维重建 【免费下载链接】Wonder3D Single Image to 3D using Cross-Domain Diffusion 项目地址: https://gitcode.com/gh_mirrors/wo/Wonder3D 在数字内容创作领域,从二维图像到三维模型的…...
[小红书AI自动化教程]凌晨2点我在睡觉,AI偷偷发了篇小红书爆款:醒来99+点赞,人类社媒苦役终结?
我把小红书交给 OpenClaw,它开始自己干活了 凌晨两点,我在睡觉,它却偷偷发了一篇爆款。 醒来点赞99,评论全是“姐妹求链接”。这不是科幻。去年我还为追热点熬夜秃头,如今一句“今天发什么”,AI 就能完成选…...
FreeRTOS内存管理实战:如何在Xilinx Zynq上正确配置堆大小避免Malloc失败
FreeRTOS内存管理实战:Xilinx Zynq平台堆配置与优化指南 在嵌入式系统开发中,内存管理往往是决定系统稳定性的关键因素之一。当你在Xilinx Zynq平台上使用FreeRTOS时,突然遇到vApplicationMallocFailedHook()被调用的错误提示,这就…...
如何通过SpacetimeGaussians实现实时动态视图合成:从安装到应用全指南
如何通过SpacetimeGaussians实现实时动态视图合成:从安装到应用全指南 【免费下载链接】SpacetimeGaussians [CVPR 2024] Spacetime Gaussian Feature Splatting for Real-Time Dynamic View Synthesis 项目地址: https://gitcode.com/gh_mirrors/sp/SpacetimeGau…...
C语言:结构体(自定义类型)
目录 1. 声明 1.1 结构体的声明 1.2 结构体自引用 2. 结构体内存对齐(热门考点) 2.1 对齐规则 2.3 修改默认对齐数 3.结构体传参 4. 结构体实现位段 4.1 位段 4.2 内存分配 4.3 跨平台问题 4.4 位段的应用:IP数据报 4.5 注意事项…...
MQTTX连接风暴下的ECONNRESET:从异常表象到服务端会话队列的深度剖析
1. 当MQTTX遭遇连接风暴:ECONNRESET异常现象解析 第一次看到控制台刷出"READ ECONNRESET"错误时,我正端着咖啡准备测试新部署的MQTT集群。这个看似简单的网络断开提示,背后隐藏着服务端会话队列的深度博弈。想象一下早高峰的地铁闸…...
【英一】考研英语一历年真题及答案解析PDF电子版(1980-2025年)
【英一】考研英语一历年真题及答案解析PDF电子版(1980-2025年)考试时间 2026年全国硕士研究生招生考试定于12月20日-21日进行。小编整理了提供1980-2025年考研英语一完整真题集,含权威答案解析。PDF高清版本支持直接打印,便于考生…...
OpenClaw学术研究助手:Qwen3-32B驱动的论文摘要与笔记整理
OpenClaw学术研究助手:Qwen3-32B驱动的论文摘要与笔记整理 1. 为什么需要本地化的AI研究助手? 去年冬天,我在整理一个跨学科研究项目的文献时陷入了困境。手头堆积了200多篇PDF论文,每篇都需要提取核心观点、记录关键数据&#…...



