当前位置：首页 > news >正文

LLM微调（二）| 微调LLAMA-2和其他开源LLM的两种简单方法

news 2025/11/7 2:34:02

本文将介绍两种开源工具来微调LLAMA-2。

一、使用autotrain-advanced微调LLAMA-2

AutoTrain是一种无代码工具，用于为自然语言处理（NLP）任务、计算机视觉（CV）任务、语音任务甚至表格任务训练最先进的模型。

1）安装相关库，使用huggingface_hub下载微调数据

!pip install autotrain-advanced!pip install huggingface_hub

2）更新autotrain-advanced所需要的包

# update torch!autotrain setup --update-torch

3）登录Huggingface

# Login to huggingfacefrom huggingface_hub import notebook_loginnotebook_login()

4）开始微调LLAMA-2

! autotrain llm \--train \--model {MODEL_NAME} \--project-name {PROJECT_NAME} \--data-path data/ \--text-column text \--lr {LEARNING_RATE} \--batch-size {BATCH_SIZE} \--epochs {NUM_EPOCHS} \--block-size {BLOCK_SIZE} \--warmup-ratio {WARMUP_RATIO} \--lora-r {LORA_R} \--lora-alpha {LORA_ALPHA} \--lora-dropout {LORA_DROPOUT} \--weight-decay {WEIGHT_DECAY} \--gradient-accumulation {GRADIENT_ACCUMULATION}

核心参数含义：

llm: 微调模型的类型

— project_name: 项目名称

— model: 需要微调的基础模型

— data_path: 指定微调所需要的数据，可以使用huggingface上的数据集

— text_column: 如果数据是表格，需要指定instructions和responses对应的列名

— use_peft: 指定peft某一种方法

— use_int4: 指定int 4量化

— learning_rate: 学习率

— train_batch_size: 训练批次大小

— num_train_epochs: 训练轮数大小

— trainer: 指定训练的方式

— model_max_length: 设置模型最大上下文窗口

— push_to_hub（可选）: 微调好的模型是否需要存储到Hugging Face?

— repo_id: 如果要存储微调好的模型到Hugging Face，需要指定repository ID

— block_size: 设置文本块大小

下面看一个具体的示例：

!autotrain llm--train--project_name "llama2-autotrain-openassitant"--model TinyPixel/Llama-2-7B-bf16-sharded--data_path timdettmers/openassistant-guanaco--text_column text--use_peft--use_int4--learning_rate 0.4--train_batch_size 3--num_train_epochs 2--trainer sft--model_max_length 1048--push_to_hub--repo_id trojrobert/llama2-autotrain-openassistant--block_size 1048 > training.log

二、使用TRL微调LLAMA-2

TRL是一个全栈库，提供了通过强化学习来训练transformer语言模型一系列工具，包括从监督微调步骤（SFT）、奖励建模步骤（RM）到近端策略优化（PPO）步骤。

1）安装相关的库

!pip install -q -U trl peft transformers  datasets bitsandbytes wandb

2）从Huggingface导入数据集

from datasets import load_datasetdataset_name = "timdettmers/openassistant-guanaco"dataset = load_dataset(dataset_name, split="train")

3）量化配置，从Huggingface下载模型

import torchfrom transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig# quantizition configurationbnb_config = BitsAndBytesConfig(    load_in_4bit=True,    bnb_4bit_quant_type="nf4",    bnb_4bit_compute_dtype=torch.float16,)# download modelmodel_name = "TinyPixel/Llama-2-7B-bf16-sharded"model = AutoModelForCausalLM.from_pretrained(    model_name,    quantization_config=bnb_config,    trust_remote_code=True)model.config.use_cache = False

4）下载Tokenizer

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)tokenizer.pad_token = tokenizer.eos_token

5）创建PEFT配置

from peft import LoraConfig, get_peft_modellora_alpha = 16lora_dropout = 0.1lora_r = 64peft_config = LoraConfig(    lora_alpha=lora_alpha,    lora_dropout=lora_dropout,    r=lora_r,    bias="none",    task_type="CAUSAL_LM")

6）创建微调和训练配置

from transformers import TrainingArgumentsoutput_dir = "./results"per_device_train_batch_size = 4gradient_accumulation_steps = 4optim = "paged_adamw_32bit"save_steps = 100logging_steps = 10learning_rate = 2e-4max_grad_norm = 0.3max_steps = 100warmup_ratio = 0.03lr_scheduler_type = "constant"training_arguments = TrainingArguments(    output_dir=output_dir,    per_device_train_batch_size=per_device_train_batch_size,    gradient_accumulation_steps=gradient_accumulation_steps,    optim=optim,    save_steps=save_steps,    logging_steps=logging_steps,    learning_rate=learning_rate,    fp16=True,    max_grad_norm=max_grad_norm,    max_steps=max_steps,    warmup_ratio=warmup_ratio,    group_by_length=True,    lr_scheduler_type=lr_scheduler_type,)

7）创建SFTTrainer配置

from trl import SFTTrainermax_seq_length = 512trainer = SFTTrainer(    model=model,    train_dataset=dataset,    peft_config=peft_config,    dataset_text_field="text",    max_seq_length=max_seq_length,    tokenizer=tokenizer,    args=training_arguments,)

8）在微调的时候，对LN层使用float 32训练更稳定

for name, module in trainer.model.named_modules():    if "norm" in name:        module = module.to(torch.float32)

9）开始微调

trainer.train()

10）保存微调好的模型

model_to_save = trainer.model.module if hasattr(trainer.model, 'module') else trainer.model  # Take care of distributed/parallel trainingmodel_to_save.save_pretrained("outputs")

11）加载微调好的模型

lora_config = LoraConfig.from_pretrained('outputs')tuned_model = get_peft_model(model, lora_config)

12）测试微调好的模型效果

text = "What is a large language model?"device = "cuda:0"inputs = tokenizer(text, return_tensors="pt").to(device)outputs = tuned_model.generate(**inputs, max_new_tokens=50)print(tokenizer.decode(outputs[0], skip_special_tokens=True))

参考文献：

[1] https://trojrobert.medium.com/4-easier-ways-for-fine-tuning-llama-2-and-other-open-source-llms-eb3218657f6e

[2] https://colab.research.google.com/drive/1JMEi2VMNGMOTyfEcQZyp23EISUrWg5cg?usp=sharing

[3] https://colab.research.google.com/drive/1ctevXhrE60s7o9RzsxpIqq37EjyU9tBn?usp=sharing#scrollTo=bsbdrb5p2ONa

LLM微调（二）| 微调LLAMA-2和其他开源LLM的两种简单方法

本文将介绍两种开源工具来微调LLAMA-2。一、使用autotrain-advanced微调LLAMA-2 AutoTrain是一种无代码工具，用于为自然语言处理（NLP）任务、计算机视觉（CV）任务、语音任务甚至表格任务训练最先进的模型。 1&#xf…...

编程日记 2023/12/11 13:43:08

AVP对纵向控制ESP（Ibooster）的需求规范

目录 1. 版本记录... 3 2. 文档范围和控制... 4 2.1 目的/范围... 4 2.2 文档冲突... 4 2.3 文档授权... 4 2.4 文档更改控制... 4 3. 功能概述... 5 4. 系统架构... 6 5. 主要安全目标... 7 5.1 …...

编程日记 2023/12/11 13:38:04

小模型学习（1）-人脸识别

【写作背景】因为最近一直在研究大模型，在与客户进行交流时，如果要将大模型的变革性能力讲清楚，就一定要能将AI小模型的一些原理和效果讲清楚，进而形成对比。当然这不是一件简单的事情，一方面大模型分析问题的的本质原…...

编程日记 2023/12/11 13:37:03

sublime Text使用

1、增加install 命令面板工具(tool)->控制面板(command palette) -> 输入install ->安装第一个install package controller，以下安装过了，所以没展示 2、安装json格式化工具点击install package，等几秒会进入控制面板&#xff0…...

编程日记 2023/12/11 13:36:02

基于深度学习的yolov7植物病虫害识别及防治系统

欢迎大家点赞、收藏、关注、评论啦 ，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介简介YOLOv7 系统特性工作流程二、功能三、系统四. 总结一项目简介 # YOLOv7植物病虫害识别及防治系统介绍简介该系统基于深度学习技术，采…...

编程日记 2023/12/11 13:25:53

Leetcode 2963. Count the Number of Good Partitions

Leetcode 2963. Count the Number of Good Partitions 1. 解题思路2. 代码实现题目链接：2963. Count the Number of Good Partitions 1. 解题思路这一题根据题意，显然我们可以将其先分为 n n n个原子partition，确保任意两个partition之间…...

编程日记 2023/12/11 13:24:52

C语言动态内存经典笔试题分析文章目录 C语言动态内存经典笔试题分析1. 题目一2. 题目二3. 题目三4. 题目四 1. 题目一 void GetMemory(char *p){p (char *)malloc(100);} void Test(void){char *str NULL;GetMemory(str);strcpy(str, "hello world");printf(str)…...

编程日记 2023/12/11 13:23:52

截断正态分布stats.truncnorm（）X.rvs(10000)

就是在均值和方差之外，再指定正态分布随机数群的上下限，如 [ μ − 3 σ , μ 3 σ ] [\mu-3\sigma,\mu3\sigma] [μ−3σ,μ3σ] stats.truncnorm（）参数 X stats.truncnorm(-2, 2, locmu, scalesigma) -2 2是截断的正态分布…...

编程日记 2023/12/11 13:22:51

第59天：django学习（八）

事务事务是MySQL数据库中得一个重要概念,事务的目的：为了保证多个SQL语句执行成功，执行失败，前后保持一致，保证数据安全。开启事务的三个关键字 start transaction commit rollback 开启事务 from django.db import transaction…...

编程日记 2023/12/11 13:21:49

举例说明自然语言处理（NLP）技术。

本文章由AI生成！ 以下是自然语言处理（NLP）技术的一些例子： 机器翻译：将一种语言翻译成另一种语言的自动化过程。常见的机器翻译系统包括谷歌翻译，百度翻译等。语音识别：将口头语言转换成文本…...

编程日记 2023/12/11 13:19:48

echarts地图marker自定义图标并添加点击事件

symbol如果引用https图片链接会报403，直接引用本地 series: [{type: scatter, // 使用散点图系列 coordinateSystem: geo, // 设置坐标系为地理坐标系 zlevel: 100,data: [{name: 上海,value: [121.48, 31.22], // 上海的经纬度坐标 symbol: image:// require(/…...

编程日记 2023/12/11 13:16:45

C盘瘦身，C盘清理

以下只是我的C盘清理经验~ 一.【用软件简单清理C盘】使用一些垃圾清理软件，简单的初步把C盘先清理一遍。（这种软件太多我就不推荐了……） 二.【WPS清理大师】因为我电脑装了WPS，发现右键单击C盘有个选项【释放C盘空间】&#xf…...

编程日记 2023/12/11 13:15:43

STM32F103

提示：来源正点原子，参考STM32F103 战舰开发指南V1.3PDF资料文章目录前言一、pandas是什么？二、使用步骤 1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容： 开发环境硬件普中科技，接…...

编程日记 2023/12/11 13:10:38

Unity使用打成图集的Sprite作为模型贴图使用的问题

大家好，我是阿赵。有时候用Unity引擎做项目的时候，会遇到这样的需求，美术做了一些模型或者特效，然后策划想在游戏运行的时候，读取一些游戏图标放在特效或者模型上面当做贴图使用。这个需求实现起来很简单&am…...

编程日记 2023/12/11 13:06:35

el-select赋值对象是对象时，出现赋值与展示不一致问题

代码逻辑类似：module 是个object { "appId": "", "id": 65, "name": "" } <el-form :model"form"><el-form-item label"申请模块" ><el-select v-model"…...

编程日记 2023/12/11 13:04:33

在 Node-RED 中引入 ECharts 实现数据可视化

Node-RED 提供了强大的可视化工具，而通过引入 ECharts 图表库，您可以更直观地呈现和分析数据。在这篇博客中，我们将介绍两种在 Node-RED 中实现数据可视化的方法：一种是引入本地 ECharts 库，另一种是直接使用 CDN&…...

编程日记 2023/12/11 13:02:31

docker资源限制

目录系统压力测试工具stress 1. cpu资源限制 1.1 限制CPU Share 1.2 限制CPU 核数 1.3 CPU 绑定 2. mem资源限制 3. 限制IO 二、端口转发三、容器卷四、部署centos7容器应用五、docker数据存储位置六、docker网络容器网络分类在使用 docker 运行容器时&…...

编程日记 2023/12/11 13:01:30

探索HarmonyOS_开发软件安装

随着华为推出HarmonyOS NEXT 宣布将要全面启用鸿蒙原声应用，不在兼容安卓应用， 现在开始探索鸿蒙原生应用的开发。 HarmonyOS应用开发官网 - 华为HarmonyOS打造全场景新服务鸿蒙官网开发软件肯定要从这里下载第一个为微软系统(windows)，第…...

编程日记 2023/12/11 13:00:29

CSS中控制元素水平布局的七个属性

元素的水平方向的布局元素在其父元素中水平方向的位置由一下几个属性共同决定 margin-left border-left padding-left width padding-right border-right margin-right 一个元素在其父元素中，水平布局必须要满足以下…...

编程日记 2023/12/11 12:59:28

YOLOv8改进 | 2023检测头篇 | 利用AFPN改进检测头适配YOLOv8版（全网独家创新）

一、本文介绍本文给大家带来的改进机制是利用今年新推出的AFPN（渐近特征金字塔网络）来优化检测头，AFPN的核心思想是通过引入一种渐近的特征融合策略，将底层、高层和顶层的特征逐渐整合到目标检测过程中。这种渐近融合方式有助于…...

编程日记 2023/12/11 12:58:28

大数据学习栈记——Neo4j的安装与使用

本文介绍图数据库Neofj的安装与使用，操作系统：Ubuntu24.04，Neofj版本：2025.04.0。 Apt安装 Neofj可以进行官网安装：Neo4j Deployment Center - Graph Database & Analytics 我这里安装是添加软件源的方法最新版…...

编程新知 2025/11/3 14:17:12

shell脚本--常见案例

1、自动备份文件或目录 2、批量重命名文件 3、查找并删除指定名称的文件： 4、批量删除文件 5、查找并替换文件内容 6、批量创建文件 7、创建文件夹并移动文件 8、在文件夹中查找文件...

编程新知 2025/10/31 18:32:29

JavaScript 中的 ES|QL：利用 Apache Arrow 工具

作者：来自 Elastic Jeffrey Rengifo 学习如何将 ES|QL 与 JavaScript 的 Apache Arrow 客户端工具一起使用。想获得 Elastic 认证吗？了解下一期 Elasticsearch Engineer 培训的时间吧！ Elasticsearch 拥有众多新功能，助你为自己…...

编程新知 2025/11/1 0:26:11

Mybatis逆向工程，动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件

今天呢，博主的学习进度也是步入了Java Mybatis 框架，目前正在逐步杨帆旗航。那么接下来就给大家出一期有关 Mybatis 逆向工程的教学，希望能对大家有所帮助，也特别欢迎大家指点不足之处，小生很乐意接受正确的建议&…...

编程新知 2025/11/1 20:38:11

【SQL学习笔记1】增删改查+多表连接全解析（内附SQL免费在线练习工具）

可以使用Sqliteviz这个网站免费编写sql语句，它能够让用户直接在浏览器内练习SQL的语法，不需要安装任何软件。链接如下： sqliteviz 注意： 在转写SQL语法时，关键字之间有一个特定的顺序，这个顺序会影响到…...

编程新知 2025/11/6 10:08:12

python爬虫：Newspaper3k 的详细使用（好用的新闻网站文章抓取和解析的Python库）

更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录一、Newspaper3k 概述1.1 Newspaper3k 介绍1.2 主要功能1.3 典型应用场景1.4 安装二、基本用法2.2 提取单篇文章的内容2.2 处理多篇文档三、高级选项3.1 自定义配置3.2 分析文章情感四、实战案例4.1 构建新闻摘要聚合器…...

编程新知 2025/10/25 7:51:48

JVM暂停（Stop-The-World，STW）的原因分类及对应排查方案

JVM暂停（Stop-The-World，STW）的完整原因分类及对应排查方案，结合JVM运行机制和常见故障场景整理而成：一、GC相关暂停 1. 安全点（Safepoint）阻塞现象：JVM暂停但无GC日志，日志显示No GCs detected。原因：JVM等待所有线程进入安全点（如…...

编程新知 2025/10/2 12:07:03

Spring数据访问模块设计

前面我们已经完成了IoC和web模块的设计，聪明的码友立马就知道了，该到数据访问模块了，要不就这俩玩个6啊，查库势在必行，至此，它来了。一、核心设计理念 1、痛点在哪应用离不开数据（数据库、No…...

编程新知 2025/10/30 1:32:29

Xen Server服务器释放磁盘空间

disk.sh #!/bin/bashcd /run/sr-mount/e54f0646-ae11-0457-b64f-eba4673b824c # 全部虚拟机物理磁盘文件存储 a$(ls -l | awk {print $NF} | cut -d. -f1) # 使用中的虚拟机物理磁盘文件 b$(xe vm-disk-list --multiple | grep uuid | awk {print $NF})printf "%s\n"…...

编程新知 2025/7/18 2:39:54

A2A JS SDK 完整教程：快速入门指南

目录什么是 A2A JS SDK?A2A JS 安装与设置A2A JS 核心概念创建你的第一个 A2A JS 代理A2A JS 服务端开发A2A JS 客户端使用A2A JS 高级特性A2A JS 最佳实践A2A JS 故障排除什么是 A2A JS SDK? A2A JS SDK 是一个专为 JavaScript/TypeScript 开发者设计的强大库&#xff…...

编程新知 2025/9/29 5:00:25