当前位置：首页 > news >正文

LLM-TAP随笔——有监督微调【深度学习】【PyTorch】【LLM】

news 2026/2/8 17:29:27

文章目录

5、有监督微调
- 5.1、提示学习&语境学习
- 5.2、高效微调
- 5.3、模型上下文窗口扩展
- 5.4、指令数据构建
- 5.5、开源指令数据集

5、有监督微调

5.1、提示学习&语境学习

提示学习

完成预测的三个阶段：提示添加、答案搜索、答案映射

在这里插入图片描述

提示添加

“[X] 我感到 [Z]”

x = “我不小心错过了公共汽车。”

x’ = “我不小心错过了公共汽车。我感到[Z]”

答案搜索

Z = {“太好了”，“好”，“一般”，“不好”，“糟糕”}

将给定提示 x ′ 而模型输出为 z 的过程记录为函数 $f_{fill} (x ′ , z)$ ，对于每个答案空间 $Z$ 中的候选答案 $z$ ，分别计算模型输出它的概率, 从而找到模型对[Z] 插槽预测得分最高的输出：

$\tilde{z} = search_{z∈Z}P(f_{fill}(x',z);θ)$

答案映射

将模型的输出与最终的标签做映射。映射规则是人为制定的，比如，将“太好了”、“好”映射为“正面”标签，将“不好”，“糟糕”映射为“负面”标签，将“一般”映射为“中立”标签。

提示学习方法易于理解且效果显著，提示工程、答案工程、多提示学习方法、基于提示的训练策略等已经成为从提示学习衍生出的新的研究方向。

语境学习

关键思想是从类比中学习，整个过程并不需要对模型进行参数更新，仅执行向前的推理。

向模型输入特定任务的一些具体例子以及测试样例，让模型根据示例续写出测试样例的答案。

如下情感分类，续写情感极性：
在这里插入图片描述

5.2、高效微调

高效微调：在缩减训练参数量和GPU显存占用，同时使训练后的模型具有与全量微调相当的性能。

全量微调：微调全部参数需要相当高的算力。

LoRA（ Low-Rank Adaptation of Large Language Models）

计算流程

$W_0x + \Delta Wx = W_0x + BAx$

矩阵 A 通过高斯函数初始化，矩阵 B 为零初始化，使得训练开始之前旁路对原模型不造成影响，即参数改变量为 0。

将原权重与训练后权重合并后，推理时不存在额外的开销。

在这里插入图片描述

低秩矩阵通常有以下特点：

线性相关性较高：矩阵中的行或列之间存在较强的线性相关性，因此可以用较少的线性独立分量来近似表示。
信息冗余较多：由于线性相关性，低秩矩阵中包含了一些冗余信息，可以通过较低秩的近似来减少存储和计算成本。
较小的维度：低秩矩阵通常具有较低的维度，因为它们可以用较少的基向量（或特征向量）来表示。

其它高效微调方式

微调适配器（Adapter）

分别对 Transformer 层中的自注意力模块与多层感知（MLP）模块，在其与其之后的残差连接之间添加适配器层（Adapter layer）作为可训练参数。

该方法及其变体会增加网络的深度，从而在模型推理时带来额外的时间开销。

前缀微调（ Prefix Tuning）

前缀微调是指在输入序列前缀添加连续可微的软提示作为可训练参数。由于模型可接受的最大输入长度有限，随着软提示的参数量增多，实际输入序列的最大长度也会相应减小，影响模型性能。

软提示：连续提示的方法。

5.3、模型上下文窗口扩展

上下文窗口：在自然语言处理中，LLM（Large Language Model，大型语言模型）的上下文窗口指的是模型在处理文本时所考虑的文本片段或单词的范围。

具有外推能力的位置编码

ALiBi

相对位置编码

注意力加上线性偏置

$Softmax(q_iK^T+m·[-(i-1),...,-2,-1,0])$

m为坡度，取值为： $\{\frac{1}{a} , \frac{1}{a^2},...,\frac{1}{256} \} ,其中 a^{num\_heads} =256$
$[- (i - 1), ..., - 2, - 1, 0]$ 表示相对位置，取值：-（k索引[1,i] - q索引[i]）

插值法

RoPE位置插值：

$f(x,\frac{m}{L'})L$

将更大的位置索引范围 [0,L′) 缩减至原始的索引范围 [0,L)

在这里插入图片描述

5.4、指令数据构建

指令数据的质量和多样性是衡量指令数据的重要维度，影响有监督微调过程的关键因素。

指令数据由指令、输入、输出组成。

指令数据示例：

在这里插入图片描述

手动构建

手动编写提示与相应的回答；
大量人力投入。

自动生成指令

Self-instruct

Self-instruct
其数据生成过程是一个迭代引导算法。

在这里插入图片描述

生成任务指令

手动构建175 seed tasks；

每次采样8个task 指令（人工6 + 迭代生成2）；

直到停止生成 || 达到模型长度限制。

确定指令是否代表分类任务

处理不同。

不同原因：避免分类任务时，生成过多某些特定任务Input，而忽视其他类别。

生成任务输入和输出

输出：完整指令数据

No：Input-first, Input $\frac{instruction}{}>$ Output

Yes：Output-first, Output $\frac{instruction}{}>$ Input

过滤低质量数据

多样性：ROUGE-L相似度<0.7;

质量：启发式规则：除掉含某些关键字（如“图片”）、重复、过长或过短数据。

LLaMA 模型上进行有监督微调得到 Alpaca 模型，所使用的指令数据集的示例

在这里插入图片描述

5.5、开源指令数据集

开源数据指令集

在这里插入图片描述

LLM-TAP随笔——有监督微调【深度学习】【PyTorch】【LLM】

文章目录 5、有监督微调5.1、提示学习&语境学习5.2、高效微调5.3、模型上下文窗口扩展5.4、指令数据构建5.5、开源指令数据集 5、有监督微调 5.1、提示学习&语境学习提示学习完成预测的三个阶段：提示添加、答案搜索、答案映射提示添加 “[X] 我感到…...

编程日记 2023/9/30 3:37:46

kafka伪集群部署，使用docker环境拷贝模式

线上启动容器的方式是复制容器的运行环境出来，然后进行运行脚本的形式 1：在home/kafka目录下创建如下目录 2：复制kafka1容器内的数据/bitnami/kafka/data，直接放在1992_data里面，同理,复制kafka2容器内的数据/bitnami/…...

编程日记 2023/9/30 3:36:44

工业交换机一般的价格是多少呢？

工业交换机是一种应用于工业领域的网络设备。它的性能和所有安全指标都比一般商业交换机更加稳定。所以，工业级交换机的价格相对于普通的交换机要稍稍昂贵一些。工业交换机一般的价格是多少呢？每个厂家的交换机价格是不是都一样呢？ 首先&…...

编程日记 2023/9/30 3:33:42

QT使用前的知识

QT使用前的知识常用的快捷键源文件的内容解释 .pro文件的解释头文件的解释构建新的对象—组成对象树槽函数自定的信号和槽槽函数的信号是一个重载函数时电机按钮触发信号调用无参数的信号断开信号...

编程日记 2023/9/30 3:28:35

Unity制作旋转光束

Unity制作旋转光束大家好，我是阿赵。这是一个在很多游戏里面可能都看到过的效果，在传送门、魔法阵、角色等脚底下往上散发出一束拉丝形状的光，然后在不停的旋转。这次来在Unity引擎里面做一下这种效果。一、准备材料需要准备的素材很简…...

编程日记 2023/9/30 3:27:34

考研王道强化阶段（二轮复习）“算法题”备考打卡表记录

问题：做408真题_2010_42题，即王道书 2.2.3_大题_10 思路： 回头补代码： int moveL(SqlList &L,SqlList &S,int p) {// 健壮性表达if( L.len 0 ){return 0;}// 调用另外一个顺序表存储pos前面的元素for( int i0;i<p;…...

编程日记 2023/9/30 3:25:30

UE4/5数字人MetaHuman通过已有动画进行修改

目录通过已有动画修改动画开始制作创建一个关卡序列将动画序列烘焙到控制绑定打开我们自己创建的动画序列之后便是烘焙出来通过已有动画修改动画首先架设我们已经有相关的MetaHuman的动画，但是这个动画因为是外部导入进来的，所以可能会出…...

编程日记 2023/9/30 3:21:24

最近在搞公司的CI/CD，简单记录下部分过程安装runner sudo curl --output /usr/local/bin/gitlab-runner "https://gitlab-runner-downloads.s3.amazonaws.com/latest/binaries/gitlab-runner-darwin-arm64" 创建runner 这个步骤需要在gitlab中进行&am…...

编程日记 2023/9/30 3:17:18

「大数据-2.2」使用命令操作HDFS文件系统

目录一、HDFS文件系统基本信息 1. HDFS的路径表达形式 2.HDFS和Linux的根目录的区分二、使用命令操作HDFS文件系统 0. Hadoop的两套命令体系 1. 创建文件夹 2. 查看指定目录下内容 3. 上传文件到HDFS指定目录下 4. 查看HDFS文件内容 5. 下载HDFS文件 6. 拷贝HDFS文件 7.…...

编程日记 2023/9/30 3:16:16

面试买书复习就能进大厂？

大家好，我是苍何。现在进大仓是越来越难了，想通过简单的刷题面试背书，比几年前难的不少， 但也并非毫无希望，那究竟该如何准备才能有希望进大厂呢？ 我总结了 4 点： 1、不差的学历背景 2、丰富…...

编程日记 2023/9/30 3:13:12

使用Http Interface客户端解析text/html类型参数

前言 Spring6和Spring Boot3的正式发布也有一段时间了，最低支持的java版本也是直接跳到了17。而且最近java21也出来了，作为一个javaer，你不会还在坚守java8吧？ Http Interface是Spring6新推出的一个声明式http客户端，…...

编程日记 2023/9/30 3:12:11

Linux - linux命令进阶

打包压缩解压基本概述打包将多数文件或目录汇总成一个整体打包默认没有压缩功能，不节省磁盘空间压缩将大文件压缩成小文件可以节省磁盘空间打包压缩将一堆零散的文件打包到一起，然后再压缩，可以节省磁盘空间打包命令命令格式 ta…...

编程日记 2023/9/30 3:11:10

排序篇(一)----插入排序

1.直接插入排序插入排序的思想: 把待排序的记录按其关键码值的大小逐个插入到一个已经排好序的有序序列中，直到所有的记录插入完为止，得到一个新的有序序列。你可以想像成打牌一样,比如说斗地主,一张一张的摸牌,然后把手上的这些牌变成手续的排列.…...

编程日记 2023/9/30 3:08:06

通俗讲解深度学习轻量网络MobileNet-v1/v2/v3

MobileNet网络是由google团队在2017年提出的，专注于移动端或者嵌入式设备中的轻量级CNN网络。相比传统卷积神经网络，在准确率小幅降低的前提下大大减少模型参数与运算量。(相比VGG16准确率减少了0.9%，但模型参数只有VGG的1/32)。MobileNet网络…...

编程日记 2023/9/30 3:07:05

mmpretrain学习笔记

深度学习模型的训练涉及几个方面 1、模型结构：模型有几层、每层多少通道数等 2、数据：数据集划分、数据文件路径、批大小、数据增强策略等 3、训练优化 ：梯度下降算法、学习率参数、训练总轮次、学习率变化策略等 4、运行时：GPU、…...

编程日记 2023/9/30 3:06:03

rhel8 网络操作学习

一、查询dns服务器地址汇总 1.查询dns服务器地址： （1）方法一：执行命令 cat /etc/resolv.conf 执行结果如下： nameserver后面就是dns服务器的ip地址。 （2）方法2：查看/etc/syscon…...

编程日记 2023/9/30 3:03:00

有车型(CarModel)，车厂（CarFactory），经销商(Distributor)三个表

用drf编写 1 有车型(CarModel)，车厂（CarFactory），经销商(Distributor)三个表, 一个车厂可以生产多种车型，一个经销商可以出售多种车型，一个车型可以有多个经销商出售车型：车型名，车型…...

编程日记 2023/9/30 2:58:55

Python函数：chr()和ord()

两个函数是基于Unicode编码表进行进行字符与字码之间的转换。 chr()函数是通过字码转换成字符: 如图,坐标(1,4e10)丑使用chr需要线将坐标相加得到：4e11 chr默认传入10进制的字码. 如图是各进制的字码。也可以传入其他进制，不过需要在前面传入的参数最前…...

编程日记 2023/9/30 2:57:54

flink sql 使用

1.准备工作安装flink 1.16.2 将以下jar包放到/data/cmpt/flink-1.16.2/lib 目录下 antlr-runtime-3.5.2.jar flink-connector-hive_2.12-1.16.2.jar flink-connector-jdbc-1.16.2.jar mysql-connector-java-6.0.6.jar hive-exec-3.1.3.jar libfb303-0.9.3.ja…...

编程日记 2023/9/30 2:54:50

面试官：谈谈 Go 泛型编程

大家好，我是木川泛型编程是一种编程范式，它允许编写具有参数化类型的代码，从而增加代码的复用性和灵活性。在泛型编程中，你可以编写一段代码，使其适用于不同类型的参数，而不需要为每种类型编写不同的实现。…...

编程日记 2023/9/30 2:53:49

Vim 调用外部命令学习笔记

Vim 外部命令集成完全指南文章目录 Vim 外部命令集成完全指南核心概念理解命令语法解析语法对比常用外部命令详解文本排序与去重文本筛选与搜索高级 grep 搜索技巧文本替换与编辑字符处理高级文本处理编程语言处理其他实用命令范围操作示例指定行范围处理复合命令示例实用技…...

编程新知 2025/11/16 8:24:16

C++_核心编程_多态案例二-制作饮品

#include <iostream> #include <string> using namespace std;/*制作饮品的大致流程为：煮水 - 冲泡 - 倒入杯中 - 加入辅料利用多态技术实现本案例，提供抽象制作饮品基类，提供子类制作咖啡和茶叶*//*基类*/ class AbstractDr…...

编程新知 2026/2/4 16:15:43

【快手拥抱开源】通过快手团队开源的 KwaiCoder-AutoThink-preview 解锁大语言模型的潜力

引言： 在人工智能快速发展的浪潮中，快手Kwaipilot团队推出的 KwaiCoder-AutoThink-preview 具有里程碑意义——这是首个公开的AutoThink大语言模型（LLM）。该模型代表着该领域的重大突破，通过独特方式融合思考与非思考…...

编程新知 2026/2/6 19:29:20

CocosCreator 之 JavaScript/TypeScript和Java的相互交互

引擎版本： 3.8.1 语言： JavaScript/TypeScript、C、Java 环境：Window 参考：Java原生反射机制您好，我是鹤九日！ 回顾在上篇文章中：CocosCreator Android项目接入UnityAds 广告SDK。我们简单讲…...

编程新知 2026/1/30 12:10:19

相机从app启动流程

一、流程框架图二、具体流程分析 1、得到cameralist和对应的静态信息目录如下：重点代码分析：启动相机前，先要通过getCameraIdList获取camera的个数以及id，然后可以通过getCameraCharacteristics获取对应id camera的capabilities（静态信息）进行一些openCamera前的…...

编程新知 2026/1/31 5:09:19

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（一）

宇树机器人多姿态起立控制强化学习框架论文解析论文解读：交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（一） 论文解读：交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化…...

编程新知 2025/8/27 0:58:09

RabbitMQ入门4.1.0版本（基于java、SpringBoot操作）

RabbitMQ 一、RabbitMQ概述 RabbitMQ RabbitMQ最初由LShift和CohesiveFT于2007年开发，后来由Pivotal Software Inc.（现为VMware子公司）接管。RabbitMQ 是一个开源的消息代理和队列服务器，用 Erlang 语言编写。广泛应用于各种分布…...

编程新知 2026/1/31 3:52:49

CRMEB 中 PHP 短信扩展开发：涵盖一号通、阿里云、腾讯云、创蓝

目前已有一号通短信、阿里云短信、腾讯云短信扩展扩展入口文件文件目录 crmeb\services\sms\Sms.php 默认驱动类型为：一号通 namespace crmeb\services\sms;use crmeb\basic\BaseManager; use crmeb\services\AccessTokenServeService; use crmeb\services\sms\…...

编程新知 2025/10/5 5:38:24

用鸿蒙HarmonyOS5实现中国象棋小游戏的过程

下面是一个基于鸿蒙OS (HarmonyOS) 的中国象棋小游戏的实现代码。这个实现使用Java语言和鸿蒙的Ability框架。 1. 项目结构 /src/main/java/com/example/chinesechess/├── MainAbilitySlice.java // 主界面逻辑├── ChessView.java // 游戏视图和逻辑├──…...

编程新知 2025/8/18 11:32:48

2025年- H71-Lc179--39.组合总和(回溯,组合）--Java版

1.题目描述 2.思路当前的元素可以重复使用。 （1）确定回溯算法函数的参数和返回值（一般是void类型） （2）因为是用递归实现的，所以我们要确定终止条件 （3）单层搜索逻辑二…...

编程新知 2026/1/22 15:25:26

LLM-TAP随笔——有监督微调【深度学习】【PyTorch】【LLM】

文章目录

5、有监督微调

5.1、提示学习&语境学习

5.2、高效微调

5.3、模型上下文窗口扩展

5.4、指令数据构建

5.5、开源指令数据集

相关文章：

LLM-TAP随笔——有监督微调【深度学习】【PyTorch】【LLM】

kafka伪集群部署，使用docker环境拷贝模式

工业交换机一般的价格是多少呢？

QT使用前的知识

Unity制作旋转光束

考研王道强化阶段（二轮复习）“算法题”备考打卡表记录

UE4/5数字人MetaHuman通过已有动画进行修改

在Mac M2本地注册GitLab runner

「大数据-2.2」使用命令操作HDFS文件系统

面试买书复习就能进大厂？

使用Http Interface客户端解析text/html类型参数

Linux - linux命令进阶

排序篇(一)----插入排序

通俗讲解深度学习轻量网络MobileNet-v1/v2/v3

mmpretrain学习笔记

rhel8 网络操作学习

有车型(CarModel)，车厂（CarFactory），经销商(Distributor)三个表

Python函数：chr()和ord()

flink sql 使用

面试官：谈谈 Go 泛型编程

Vim 调用外部命令学习笔记

C++_核心编程_多态案例二-制作饮品

【快手拥抱开源】通过快手团队开源的 KwaiCoder-AutoThink-preview 解锁大语言模型的潜力

CocosCreator 之 JavaScript/TypeScript和Java的相互交互

相机从app启动流程

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（一）

RabbitMQ入门4.1.0版本（基于java、SpringBoot操作）

CRMEB 中 PHP 短信扩展开发：涵盖一号通、阿里云、腾讯云、创蓝

用鸿蒙HarmonyOS5实现中国象棋小游戏的过程

2025年- H71-Lc179--39.组合总和(回溯,组合）--Java版

文章目录

5、 有监督微调

5.1、提示学习&语境学习

5.2、高效微调

5.3、模型上下文窗口扩展

5.4、指令数据构建

5.5、开源指令数据集

相关文章：

5、有监督微调