unsloth微调QwQ32B(4bit)
unsloth微调QwQ32B(4bit)
GPU: 3090 24G
unsloth安装部署
-
pip 安装
pip install unsloth --index https://pypi.mirrors.usrc.edu.cn/simplesource /etc/network_turbopip install --force-reinstall --no-cache-dir --no-deps git+https://github.com/unslothai/unsloth.git

注册Wandb以监控模型微调过程
-
wandb地址
https://wandb.ai/site

-
登录
下载
pip install wandb使用api-key登录
wandb login

-
使用官网示例看一看
备注:
- 需要联网
- 需要将key改为自己的
- entity需要提前设立
import random import wandbwandb.login(key="api-key")# Start a new wandb run to track this script. run = wandb.init(# Set the wandb entity where your project will be logged (generally your team name).entity="qinchihongye-pa",# Set the wandb project where this run will be logged.project="project_test",# Track hyperparameters and run metadata.config={"learning_rate": 0.02,"architecture": "CNN","dataset": "CIFAR-100","epochs": 10,}, )# Simulate training. epochs = 10 offset = random.random() / 5 for epoch in range(2, epochs):acc = 1 - 2**-epoch - random.random() / epoch - offsetloss = 2**-epoch + random.random() / epoch + offset# Log metrics to wandb.run.log({"acc": acc, "loss": loss})# Finish the run and upload any remaining data. run.finish()


下载QwQ32B量化模型
-
huggingface地址(unsloth量化的4bit,比Q4_K_M量化的损失精度更小)
https://huggingface.co/unsloth/QwQ-32B-unsloth-bnb-4bit
复制名称
unsloth/QwQ-32B-unsloth-bnb-4bit
-
假设当前目录为
/root/lanyun-tmp
-
创建文件夹统一存放
Huggingface下载的模型mkdir Hugging-Face mkdir -p Hugging-Face/QwQ-32B-unsloth-bnb-4bit -
配置镜像源
vim ~/.bashrc填入以下两个,以修改HuggingFace 的镜像源 、模型保存的默认
export HF_ENDPOINT=https://hf-mirror.com
export HF_HOME=/root/lanyun-tmp/Hugging-Face重新加载,查看环境变量是否生效
source ~/.bashrcecho $HF_ENDPOINT echo $HF_HOME -
安装 HuggingFace 官方下载工具
pip install -U huggingface_hub -
执行下载模型的命令
huggingface-cli download --resume-download unsloth/QwQ-32B-unsloth-bnb-4bit --local-dir /root/lanyun-tmp/Hugging-Face/QwQ-32B-unsloth-bnb-4bitHugging-Face/QwQ-32B-unsloth-bnb-4bit或者使用python下载
from huggingface_hub import snapshot_download snapshot_download(repo_id = "unsloth/QwQ-32B-unsloth-bnb-4bit",local_dir = "/root/lanyun-tmp/Hugging-Face/QwQ-32B-unsloth-bnb-4bit", )
transformers库调用示例
-
代码
from transformers import AutoModelForCausalLM, AutoTokenizermodel_name = "/root/lanyun-tmp/Hugging-Face/QwQ-32B-unsloth-bnb-4bit"model = AutoModelForCausalLM.from_pretrained(model_name,torch_dtype="auto",device_map="cuda:0", ) tokenizer = AutoTokenizer.from_pretrained(model_name)prompt = "你好" messages = [{"role": "user", "content": prompt} ] text = tokenizer.apply_chat_template(messages,tokenize=False,add_generation_prompt=True )model_inputs = tokenizer([text], return_tensors="pt").to(model.device)generated_ids = model.generate(**model_inputs,max_new_tokens=32768 )generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids) ]response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0] print(response)

-
显存占用:23G左右。

vllm启动示例
-
启动
cd /root/lanyun-tmp/Hugging-Facevllm serve ./QwQ-32B-unsloth-bnb-4bit \ --quantization bitsandbytes \ --load-format bitsandbytes \ --max-model-len 500 \ --port 8081 -
调用代码
from openai import OpenAI import openaiopenai.api_key = '1111111' # 这里随便填一个 openai.base_url = 'http://127.0.0.1:8081/v1'def get_completion(prompt, model="QwQ-32B"):client = OpenAI(api_key=openai.api_key,base_url=openai.base_url)messages = [{"role": "user", "content": prompt}]response = client.chat.completions.create(model=model,messages=messages,stream=False)return response.choices[0].message.contentprompt = '你好,请幽默的介绍下你自己,不少于300字' get_completion(prompt, model="./QwQ-32B-unsloth-bnb-4bit")
cot数据集
-
FreedomIntelligence/medical-o1-reasoning-SFT
https://huggingface.co/datasets/FreedomIntelligence/medical-o1-reasoning-SFT
-
英文数据集下载
from datasets import load_dataset import rich# Login using e.g. `huggingface-cli login` to access this dataset ds = load_dataset("FreedomIntelligence/medical-o1-reasoning-SFT", "en")rich.print(ds['train'][0])

-
中文数据集下载
from datasets import load_dataset import rich# Login using e.g. `huggingface-cli login` to access this dataset ds = load_dataset("FreedomIntelligence/medical-o1-reasoning-SFT", "zh")rich.print(ds['train'][0])

-
下载完成后会看到在HuggingFace目录下的datasets目录中有刚刚下载的数据
ll /root/lanyun-tmp/Hugging-Face/datasets/

unsloth加载QwQ32b模型
-
unsloth支持直接加载模型并推理,先加载模型
from unsloth import FastLanguageModelmax_seq_length = 2048 dtype = None load_in_4bit = True # 4bitmodel,tokenizer = FastLanguageModel.from_pretrained(model_name = "/root/lanyun-tmp/Hugging-Face/QwQ-32B-unsloth-bnb-4bit/",max_seq_length = max_seq_length,dtype = dtype,load_in_4bit = load_in_4bit, )

显存占用22G左右

-
推理
# 将模型调整为推理模式 FastLanguageModel.for_inference(model)def QwQ32b_infer(question):# prompt模板prompt_style_chat = """请写出一个恰当的回来来完成当前对话任务。### Instruction:你是一名助人为乐的助手。### Question:{}### Response:<think>{}"""# [prompt_style_chat.format(question,"")]inputs = tokenizer([prompt_style_chat.format(question, "")],return_tensors="pt").to("cuda")outputs = model.generate(input_ids = inputs.input_ids,max_new_tokens=2048,use_cache=True,)response = tokenizer.batch_decode(outputs)return response[0].split("### Response:")[1]question = "证明根号2是无理数" response = QwQ32b_infer(question)

模型微调
-
测试:使用微调数据集进行测试
question_1 = "根据描述,一个1岁的孩子在夏季头皮出现多处小结节,长期不愈合,且现在疮大如梅,溃破流脓,口不收敛,头皮下有空洞,患处皮肤增厚。这种病症在中医中诊断为什么病?"question_2 = "一个生后8天的男婴因皮肤黄染伴发热和拒乳入院。体检发现其皮肤明显黄染,肝脾肿大和脐部少量渗液伴脐周红肿。在此情况下,哪种检查方法最有助于确诊感染病因?"response_1 = QwQ32b_infer(question_1) response_2 = QwQ32b_infer(question_2)print(response_1) print(response_2)


-
加载并处理数据,选择训练集前500条进行最小可行性实验
import os from datasets import load_dataset# 问答提示词模板 train_prompt_style = """下面是描述任务的指令,与提供进一步上下文的输入配对。编写适当完成请求的响应。在回答之前,仔细思考问题,并创建逐步的思想链,以确保逻辑和准确的响应。### Instruction: 您是一位在临床推理、诊断和治疗计划方面拥有先进知识的医学专家。请回答以下医学问题。 ### Question: {}### Response: <think> {} </think> {}"""# 文本生成结束的基本标记 EOS_TOKEN = tokenizer.eos_token tokenizer.eos_token # '<|im_end|>'# 定义函数,对数据集进行修改 def formatting_prompts_func(examples):inputs = examples["Question"]cots = examples["Complex_CoT"]outputs = examples["Response"]texts = []for input, cot, output in zip(inputs, cots, outputs):text = train_prompt_style.format(input, cot, output) + EOS_TOKENtexts.append(text)return {"text": texts,}# 先选择训练集前500条数据 dataset = load_dataset("FreedomIntelligence/medical-o1-reasoning-SFT","zh", split = "train[0:500]",trust_remote_code=True) dataset = dataset.map(formatting_prompts_func, batched = True)import rich rich.print(dataset[0]) rich.print(dataset[0]['text'])

-
将模型设置为微调模式
# 将模型设置为微调模式 model = FastLanguageModel.get_peft_model(model,r=4, # r=16 # 低秩矩阵的秩target_modules=["q_proj","k_proj","v_proj","o_proj","gate_proj","up_proj","down_proj",],lora_alpha=16,lora_dropout=0, bias="none", use_gradient_checkpointing="unsloth", # True or "unsloth" for very long contextrandom_state=1024,use_rslora=False, loftq_config=None, )

-
创建训练器(有监督微调对象)
from trl import SFTTrainer from transformers import TrainingArguments from unsloth import is_bfloat16_supportedtrainer = SFTTrainer(model=model, # 指定需要微调的预训练模型tokenizer=tokenizer, # 分词器train_dataset=dataset, # 训练数据dataset_text_field="text", # 指定数据集中那一列包含训练文本(在formatting_prompt_func里面指定)max_seq_length=max_seq_length, #最大序列长度,用于控制输入文本的最大token数量dataset_num_proc=2, # 数据加载的并行进程数args=TrainingArguments(per_device_train_batch_size=1, # 每个GPU/设备的戌年批量大小(较小值适合大模型)gradient_accumulation_steps=4, # 梯度累计步数,相当于batch_size=1*4=4# num_train_epochs = 1, # 如果设置了num_train_epochs,则max_steps失效warmup_steps=5, # 预热步数,初始阶段学习率较低,然后逐步升高max_steps=60,# 最大训练步数learning_rate=2e-4, # 学习率fp16=not is_bfloat16_supported(), # 如果GPU不支持bfloat16,则使用fp16(16位浮点数)bf16=is_bfloat16_supported(), # 如果GPU支持bfloat16,则启用bf16(训练更稳定)logging_steps=10, # 每10步记录一次日志optim="adamw_8bit", # 使用adamw_8bit 8bit adamw优化器减少显存占用weight_decay=0.01, # 权重衰减 L2正则化,防止过拟合lr_scheduler_type="linear", # 学习率调整策略,线性衰减seed=1024, # 随机种子,保证实验结果可复现output_dir="/root/lanyun-tmp/outputs", # 训练结果的输出目录), )# 设置wandb(可选则) import wandb wandb.login(key="api-key")run = wandb.init(entity="qinchihongye-pa",project='QwQ-32B-4bit-FT')# 开始模型微调 trainer_stats = trainer.train()trainer_status

训练过程中的显存占用如上,训练过程如下

点击wandb链接,查看训练过程中的损失函数,学习率,梯度等等的变化。

-
unsloth在微调结束后,会自动更新模型权重(在缓存中),因此无序手动合并集合直接调用微调后的模型
FastLanguageModel.for_inference(model)new_response_1 = QwQ32b_infer(question_1) new_response_2 = QwQ32b_infer(question_2)new_response_1 new_response_2


可以看到第一个问题还是回答错了,第二个问题也如旧,可以考虑继续进行大规模微调,使用全部微调文件+多个epoch。
-
模型合并
此时本地保存的模型权重在
/root/lanyun-tmp/outputs中

注意,unsloth中默认100步保存一个checkpoint,因为当前steps=60,所以只有一个checkpoint点。
合并保存为safetensors
model.save_pretrained_merged("/root/lanyun-tmp/QwQ-Medical-COT-Tiny", tokenizer, save_method = "merged_4bit_forced",#保存为4bit量化)# model.save_pretrained_merged("dir" # , tokenizer # , save_method = "merged_16bit",#保存为16bit # )合并为GGUF格式(需要量化,非常耗时)
# model.save_pretrained_gguf("dir" # , tokenizer # , quantization_method = "q4_k_m" # )# model.save_pretrained_gguf("dir" # , tokenizer # , quantization_method = "q8_0" # )# model.save_pretrained_gguf("dir" # , tokenizer # , quantization_method = "f16" # )
相关文章:
unsloth微调QwQ32B(4bit)
unsloth微调QwQ32B(4bit) GPU: 3090 24G unsloth安装部署 pip 安装 pip install unsloth --index https://pypi.mirrors.usrc.edu.cn/simplesource /etc/network_turbopip install --force-reinstall --no-cache-dir --no-deps githttps://github.com/unslothai/unsloth.git…...
基于腾讯云大模型知识引擎×DeepSeek的高等职业学校单独招生二级学院考前咨询系统
1、主要思路 通过大模型知识引擎DeepSeek搭建高等职业学校单独招生二级学院考前咨询专有问答,使得专业老师能够更好的服务考试学生,有利于二级学院能够更好的进行考试宣传,招来优秀学子! 2、创作过程 2.1、本地部署大模型的缺陷…...
【Linux】线程库
一、线程库管理 tid其实是一个地址 void* start(void* args) {const char* name (const char *)args;while(true){printf("我是新线程 %s ,我的地址:0x%lx\n",name,pthread_self());sleep(1);}return nullptr; }int main() {pthread_t tid…...
数组作为哈希表的妙用:寻找缺失的第一个正数
数组作为哈希表的妙用:寻找缺失的第一个正数 大家好,我是Echo_Wish,今天我们来探讨一个经典的算法问题——“缺失的第一个正数”。听起来可能有点简单,但它实际上是一个非常有意思且富有挑战性的题目,在面试中常常会碰…...
物化视图详解:数据库性能优化的利器
物化视图(Materialized View)作为数据库性能优化的核心手段,通过预计算和存储查询结果,显著提升了复杂查询的效率。本文将深入剖析物化视图的工作原理、应用场景及最佳实践,帮助企业在合适的场景中充分发挥其性能优势。…...
【C++】类和对象(匿名对象)
匿名对象 用 类型(实参) 定义出来的对象叫做匿名对象,相比之前我们定义的 类型 对象名(实参) 定义出来叫有名对象匿名对象生命周期只在当前一行,一般临时定义一个对象当前用一下即可,就可以定义匿名对象。 class A { public:A(int a 0):_a…...
一文读懂 GPT 与 BERT:预训练逻辑及差异剖析
在自然语言处理(NLP)领域,预训练语言模型GPT(Generative Pretrained Transformer)和 BERT(Bidirectional Encoder Representations from Transformers)作为杰出代表,备受关注。本文将…...
【算法】十大排序算法(含时间复杂度、核心思想)
以下是 **十大经典排序算法** 的时间复杂度、空间复杂度及稳定性总结,适用于面试快速回顾:排序算法对比表 排序算法最佳时间复杂度平均时间复杂度最差时间复杂度空间复杂度稳定性核心思想冒泡排序O(n)O(n)O(n)O(1)稳定相邻元素交换,大数沉底…...
渐进式滑坡多场信息演化特征与数据挖掘研究
标题:渐进式滑坡多场信息演化特征与数据挖掘研究 内容:1.摘要 摘要:在地质灾害频发的背景下,研究渐进式滑坡多场信息演化特征与数据挖掘具有重要的实际意义。本研究旨在深入探究渐进式滑坡在不同阶段的多场信息(如应力场、位移场、渗流场等&…...
蓝桥杯备考-》单词接龙
很明显,这道题是可以用DFS来做的,我们直接暴力搜索,但是这里有很多点是我们需要注意的。 1.我们如何确定两个单词能接上? 比如touch和choose 应该合成为touchoose 就是这样两个单词,我们让一个指针指着第一个字符串…...
解锁C++模板参数:开启泛型编程新世界
目录 C++ 模板:编程世界的瑞士军刀 一、模板参数初相识 1.1 类型参数 1.2 非类型参数 1.3 模板模板参数 二、模板参数推导大揭秘 2.1 推导规则深度剖析 2.2 推导成功场景展示 2.3 推导失败场景解析 三、模板参数实战应用 3.1 通用算法实现 3.2 容器类设计 3.3 元…...
计算机视觉yolov8模型应用-学习笔记
计算机视觉yolov8模型应用-学习笔记 YOLOv8是由Ultralytics公司在2023年1月10日发布的一款深度学习模型。它是YOLOv5的重大更新版本,支持图像分类、物体检测和实例分割任务。这一版本在发布前就受到了广泛关注,并在发布后迅速成为目标检测领域的热门…...
【网络层协议】NAT技术内网穿透
IP地址数量限制 我们知道,IP地址(IPv4)是一个4字节32位的整数,那么一共只有2^32也就是接近43亿个IP地址,而TCP/IP协议栈规定,每台主机只能有一个IP地址,这就意味着,一共只有不到43亿…...
SQL中的索引是什么
在 SQL 中,索引(Index) 是一种用于加速数据检索的数据库对象,通过建立特定的数据结构(如 B树、哈希表等),帮助数据库系统快速定位目标数据。以下是关于索引的详细分类、工作原理、使用场景和最佳…...
TensorFlow面试题及参考答案
目录 什么是 TensorFlow 的计算图?详细描述 TensorFlow 计算图的组成结构(节点、边、会话) 它与动态图(Eager Execution)的区别是什么?TensorFlow 静态计算图与动态图(Eager Execution)的区别及适用场景是什么? 解释张量(Tensor)的概念及其在 TensorFlow 中的作用…...
go-zero学习笔记
内容不多,只有部分笔记,剩下的没有继续学下去,包括路由与处理器、日志中间件、请求上下文 文章目录 1、go-zero核心库1.1 路由与处理器1.2 日志中间件1.3 请求上下文 1、go-zero核心库 1.1 路由与处理器 package mainimport ("github…...
在Ubuntu 22.04 中安装Docker的详细指南
这里写目录标题 前言一、安装 Docker1. 卸载旧版本(如有)2. 更新系统并安装依赖工具3. 添加 Docker 官方 GPG 密钥4. 设置 Docker 仓库5. 安装 Docker Engine6. 验证安装 二、配置 Docker 镜像加速1. 修改 Docker 配置文件2. 重启 Docker 服务3. 验证加速…...
十亿级流量削峰实战:LinkedBlockingQueue缓冲池的工程化实现
《十亿级流量削峰实战:LinkedBlockingQueue缓冲池的工程化实现》 本文将以电商秒杀系统为背景,深度解析如何通过LinkedBlockingQueue构建百万QPS级异步缓冲系统,包含容量计算模型、拒绝策略选择、监控埋点方案等完整实施细节,并提…...
深入理解 C++11 智能指针:独占、共享与弱引用的完美管理
文章目录 std::unique_ptr(独占式智能指针)std::shared_ptr(共享式智能指针)std::weak_ptr(弱引用智能指针)示例展示:智能指针的原理内存泄漏**什么是内存泄漏,内存泄漏的危害****如…...
AI Agent开发大全第四课-提示语工程:从简单命令到AI对话的“魔法”公式
什么是提示语工程?一个让AI“听话”的秘密 如果你曾经尝试过用ChatGPT或者其他大语言模型完成任务,那么你一定遇到过这样的情况:明明你的问题是清晰的,但答案却离题万里;或者你认为自己提供的信息足够详尽,可结果还是不理想。问题出在哪?很多时候并不是因为AI不够聪明,…...
大模型架构记录 【综述-文字版】
名词解释: Prompt :提示词,是一个非常关键的概念,它指的是用户输入的文本或指令,用于引导语言模型生成相应的回答或执行特定任务。 Prompt Engineering:(提示工程) 是一种通过设计…...
WebSocket:开启实时通信的新篇章
在当今的互联网应用中,实时交互已经成为不可或缺的一部分。无论是实时的在线聊天、股票行情更新,还是多人在线游戏,都需要一种高效的双向通信机制。而这正是 WebSocket 的用武之地。 本文将带你深入了解 WebSocket,探索其工作原理…...
【论文笔记】Transformer
Transformer 2017 年,谷歌团队提出 Transformer 结构,Transformer 首先应用在自然语言处理领域中的机器翻译任务上,Transformer 结构完全构建于注意力机制,完全丢弃递归和卷积的结构,这使得 Transformer 结构效率更高…...
使用CSS3实现炫酷的3D翻转卡片效果
使用CSS3实现炫酷的3D翻转卡片效果 这里写目录标题 使用CSS3实现炫酷的3D翻转卡片效果项目介绍技术要点分析1. 3D空间设置2. 核心CSS属性3. 布局和定位 实现难点和解决方案1. 3D效果的流畅性2. 卡片内容布局3. 响应式设计 性能优化建议浏览器兼容性总结 项目介绍 在这个项目中…...
SpringSecurity——基于角色权限控制和资源权限控制
目录 基于角色权限控制 1.1 自定义 UserDetailsService 1.2 加载用户角色 1.3. 给角色配置能访问的资源(使用切面拦截,使用注解) 总结 资源权限控制 2.2. 需要有一个用户;(从数据库查询用户) 2.2 基…...
红宝书第十一讲:超易懂版「ES6类与继承」零基础教程:用现实例子+图解实现
红宝书第十一讲:超易懂版「ES6类与继承」零基础教程:用现实例子图解实现 资料取自《JavaScript高级程序设计(第5版)》。 查看总目录:红宝书学习大纲 一、ES6类的核心语法:把事物抽象成“模板” 想象你要设…...
通信基本概念
系列文章目录 文章目录 系列文章目录前言一、消息、信息和信号1.消息的定义2.信号的定义3.信息的定义4.消息、信息和信号的关系5.通信的目标 二、通信系统的组成模型1.一般通信系统模型2.各部分说明3.模拟通信系统模型4.数字通信系统模型4.数字通信的特点数字通信的优点数字通信…...
Python为Word文档添加书签并打包成exe
背景简述 由于一些工作场景,需要从多个Word文档中找到出现的关键词,并阅读关键词的上下文内容。文件可能几十个,手动操作太要命了。所以python尝试处理。 目录 背景简述思路第一步、功能实现结果验证 第二步、打包成exe2-1、基础准备2-2、打…...
ROS导航工具包Navigation
一,安装 Navigation工具包包含在 navigation 元功能包中。你可以通过以下命令安装: sudo apt-get install ros-noetic-navigation 如果你使用的是其他ROS版本(如Melodic),将 noetic 替换为对应的版本名称(…...
BigEvent项目后端学习笔记(二)文章分类模块 | 文章分类增删改查全流程解析(含优化)
📖 模块概述 文章分类模块包括 新增文章分类、文章分类列表、获取文章分类详情、更新文章分类、删除文章分类 功能。本篇对于原项目进行了代码优化,将原先写在 Controller 层的业务逻辑代码迁移至了 Service 层。 🛠️ 技术实现要点 分组校…...
