当前位置：首页 > news >正文

【个人开发】macbook m1 Lora微调qwen大模型

news 2025/9/17 14:19:30

本项目参考网上各类教程整理而成，为个人学习记录。
项目github源码地址：Lora微调大模型

项目中微调模型为：qwen/Qwen1.5-4B-Chat。
去年新发布的Qwen/Qwen2.5-3B-Instruct同样也适用。

微调步骤

step0: 环境准备

conda create --name fine-tuning python=3.10
conda activate fine-tuning
pip3 install -r requirements.txt

step1: 下载模型

本次微调使用Qwen/Qwen1.5-4B-Chat，通过modelscope下载。维护好train.py中的model_id即可，train.py运行时候，会自动下载。

其他下载方式，

# 下载到~/.cache目录。
modelscope download --model qwen/Qwen1.5-4B-Chat

step2: 准备微调语料

微调语料见./dataset/huanhuan.json文件，可根据需求调整语料。

step3: 训练模型

相应源码见github。

python3 train.py

说明：
为提升模型的微调效果，可根据需求调整train.py中训练参数：num_train_epochs(迭代次数)，

    training_args = TrainingArguments(output_dir=checkpoint_dir,per_device_train_batch_size=4,gradient_accumulation_steps=4,logging_steps=10,num_train_epochs=20,save_steps=100,learning_rate=1e-4,save_on_each_node=True,gradient_checkpointing=True,)

step4: 调用训练后的模型

相关代码参考train.py中的infer函数

step5: 合并模型及调用合并后的模型进行问答

分别对应merge.py中的merge函数根chat函数。

python3 merge.py

注意：因为是对话式文本生成模型，所以建议使用如下的推理方式，应包含eos_token_id，pad_token_id，attention_mask这些参数，否则容易出现回答后带上一些乱七八糟的东西。

prompt = "你好"
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages)
model_inputs = tokenizer([text], return_tensors="pt")
generated_ids = model.generate(model_inputs.input_ids,max_length=50,max_new_tokens=512,eos_token_id=tokenizer.encode('<|eot_id|>')[0],pad_token_id=tokenizer.pad_token_id,attention_mask=model_inputs.attention_mask,
)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

同理，这里踩了个坑，使用如下的推理方式，回答也是乱起八糟。

prompt = "你好"
inputs = tokenizer(prompt, return_tensors="pt")
# 生成文本
output_sequences = model.generate(inputs['input_ids'],max_length=50,temperature=0.7,num_return_sequences=1
)
# 解码生成的文本
generated_text = tokenizer.decode(output_sequences[0], skip_special_tokens=True)
print(generated_text)

step6: ollama集成

集成到ollama中，需要两个步骤。

step6.1 转化为gguf文件

项目同目录下，下载llama.cpp并安装

cd .. 
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
pip3 install -r requirements.txt
make

转化为gguf文件

python convert_hf_to_gguf.py ../fine-tuning-by-Lora/models/output/qwen/Qwen1.5-4B-Chat --outtype f16 --outfile ../fine-tuning-by-Lora/models/

step6.2 打包模型文件

model文件夹中编辑Modelfile文件

# Modelfile文件内容
FROM Qwen1.5-4B-Chat-F16.ggufTEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|>{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>{{ .Response }}<|eot_id|>"""
PARAMETER stop "<|start_header_id|>"
PARAMETER stop "<|end_header_id|>"
PARAMETER stop "<|eot_id|>"
PARAMETER stop "<|reserved_special_token>"

打包：

ollama create Qwen1.5-4B-Chat-F16 -f Modelfile

step6.3 运行

ollama run Qwen1.5-4B-Chat-F16:latest

微调效果

说明：如果Modelfile中的TEMPLATE跟PARAMETER参数没写，模型推理结果也可能胡说八道。

打包到ollama之后，可以直接把模型接入到dify。

在这里插入图片描述

踩坑过程

经验1

一般在微调的时候，需要关注模型的loss情况，自己训练20轮的话，损失函数的值能看到在收敛，但还是还没完全收敛。

如果模型微调后效果不好，可以关注训练时损失函数下降情况。一般到50～60轮左右，loss会下降到0.01左右的水平，相应的梯度（grad_norm）跟学习率（learning_rate）也会减少。

{'loss': 3.2201, 'grad_norm': 4.969257831573486, 'learning_rate': 9.5e-05, 'epoch': 5.0}
{'loss': 1.5577, 'grad_norm': 1.9476478099822998, 'learning_rate': 9e-05, 'epoch': 10.0}
{'loss': 0.7901, 'grad_norm': 2.8456532955169678, 'learning_rate': 8.5e-05, 'epoch': 15.0}
{'loss': 0.1381, 'grad_norm': 0.3789016008377075, 'learning_rate': 8e-05, 'epoch': 20.0}
{'loss': 0.0045, 'grad_norm': 0.06659594923257828, 'learning_rate': 7.5e-05, 'epoch': 25.0}
{'loss': 0.0014, 'grad_norm': 0.034729525446891785, 'learning_rate': 7e-05, 'epoch': 30.0}
{'loss': 0.0007, 'grad_norm': 0.020955145359039307, 'learning_rate': 6.5e-05, 'epoch': 35.0}
{'loss': 0.0005, 'grad_norm': 0.01589277759194374, 'learning_rate': 6e-05, 'epoch': 40.0}
{'loss': 0.0003, 'grad_norm': 0.013618703931570053, 'learning_rate': 5.5e-05, 'epoch': 45.0}
{'loss': 0.0003, 'grad_norm': 0.01169560570269823, 'learning_rate': 5e-05, 'epoch': 50.0}
{'loss': 0.0002, 'grad_norm': 0.010867319069802761, 'learning_rate': 4.5e-05, 'epoch': 55.0}
{'loss': 0.0002, 'grad_norm': 0.010721373371779919, 'learning_rate': 4e-05, 'epoch': 60.0}
{'loss': 0.0002, 'grad_norm': 0.010178590193390846, 'learning_rate': 3.5e-05, 'epoch': 65.0}
{'loss': 0.0002, 'grad_norm': 0.009332481771707535, 'learning_rate': 3e-05, 'epoch': 70.0}
{'loss': 0.0002, 'grad_norm': 0.009383821859955788, 'learning_rate': 2.5e-05, 'epoch': 75.0}
{'loss': 0.0002, 'grad_norm': 0.008890513330698013, 'learning_rate': 2e-05, 'epoch': 80.0}
{'loss': 0.0002, 'grad_norm': 0.008669395931065083, 'learning_rate': 1.5e-05, 'epoch': 85.0}
{'loss': 0.0002, 'grad_norm': 0.00943685695528984, 'learning_rate': 1e-05, 'epoch': 90.0}
{'loss': 0.0002, 'grad_norm': 0.0088260592892766, 'learning_rate': 5e-06, 'epoch': 95.0}
{'loss': 0.0002, 'grad_norm': 0.008713439106941223, 'learning_rate': 0.0, 'epoch': 100.0}
{'train_runtime': 3008.4296, 'train_samples_per_second': 0.532, 'train_steps_per_second': 0.033, 'train_loss': 0.2857893861143384, 'epoch': 100.0}

报错1

训练时报错：NotImplementedError: Cannot copy out of meta tensor; no data! Please use torch.nn.Module.to_empty() instead of torch.nn.Module.to() when moving module from meta to a different device.

训练时在调用transformers/trainer.py的时候，会报该错。

源码如下：

model = model.to(device)

尝试了如下方式:

#修改方式
#origin: new_value=old_value.to("cpu"),下面两种写法任选其一
new_value=torch.tensor(old_value,device="cpu")
new_value=torch.empty_like(old_value,device="cpu")

不好使！

最后好使的方式是关掉电脑中高内存的应用，给程序提供足够的资源。

报错2

推理时候报错：RuntimeError: Placeholder storage has not been allocated on MPS device!

解决方案：关掉电脑高内存应用，强制设置 device = “cpu”。

报错3

合并模型出现报错，自己尝试时候只出现过一次，报错为，模型某一层的key值在某个模块中没找到

解决方案：重新微调模型，可能是模型微调出现了中断or其他原因，导致模型结构出现异常

参考文档：

Mac M2之LLaMA3-8B微调（llama3-fine-tuning）

【个人开发】macbook m1 Lora微调qwen大模型

本项目参考网上各类教程整理而成，为个人学习记录。项目github源码地址：Lora微调大模型项目中微调模型为：qwen/Qwen1.5-4B-Chat。去年新发布的Qwen/Qwen2.5-3B-Instruct同样也适用。微调步骤 step0: 环境准备 conda create --name fin…...

编程日记 2025/2/9 17:52:49

sqli-labs靶场实录(二): Advanced Injections

sqli-labs靶场实录: Advanced Injections Less21Less22Less23探测注入点 Less24Less25联合注入使用符号替代 Less25aLess26逻辑符号绕过and/or过滤双写and/or绕过 Less26aLess27Less27aLess28Less28aLess29Less30Less31Less32（宽字节注入）Less33Less34Le…...

编程日记 2025/2/9 17:47:44

Linux系统环境变量

环境变量写在前面概念查看环境变量main函数的参数argc & argvenv bash环境变量写在前面对于环境变量，本篇主要介绍基本概念及三四个环境变量 —— PATH、HOME、PWD。其中 PATH 作为 “ 敲门砖 ”，我们会更详细讲解；理解环境变量的全局…...

编程日记 2025/2/9 17:45:41

机器学习-线性回归（最大似然估计）

机器学习任务可以分为两类: 一类是样本的特征向量 𝒙 和标签 𝑦 之间存在未知的函数关系𝑦 h(𝒙)，另一类是条件概率𝑝(𝑦|𝒙)服从某个未知分布。最小二乘法是属于第一类&#xff0c…...

编程日记 2025/2/9 17:42:38

【信息系统项目管理师-案例真题】2017上半年案例分析答案和详解

更多内容请见：备考信息系统项目管理师-专栏介绍和目录文章目录试题一【问题1】8 分【问题2】4 分【问题3】8 分【问题4】5 分试题二【问题1】10 分【问题2】8 分【问题3】6 分【问题4】5 分试题三【问题1】5 分【问题2】7 分【问题3】6 分【问题4】3 分试题一阅读下列说明…...

编程日记 2025/2/9 17:39:34

CSP晋级组比赛生成文件夹与文件通用代码Python

快速生成文件夹与文件的脚本 import sys import osmyfiles sys.argv[1::] for f in myfiles:os.mkdir(f)os.system(f"touch {f}/{f}.in")os.system(f"touch {f}/{f}.out")os.system(f"touch {f}/{f}.cpp")with open("template.cpp",…...

编程日记 2025/2/9 17:36:28

正则表达式进阶（二）——零宽断言详解：\b \B \K \z \A

在正则表达式中，零宽断言是一种非常强大的工具，能够在不消费字符的情况下对匹配位置进行约束。除了环视（lookahead 和 lookbehind）以外，还有一些常用的零宽断言，它们用于处理边界、字符串的开头和结尾等特殊…...

编程日记 2025/2/9 17:30:22

Android 中实现 PDF 预览三种方式

目录 1. 使用第三方库 PdfRenderer（适用于 Android 5.0 及以上） 步骤：2. 使用第三方库 MuPDF步骤：3. 使用第三方库 PdfiumAndroid步骤： 1. 使用第三方库 PdfRenderer（适用于 Android 5.0 及以上&#xff09…...

编程日记 2025/2/9 17:28:20

尚硅谷课程【笔记】——大数据之Zookeeper【二】

课程视频：【尚硅谷Zookeeper教程】四、Zookeeper实战 4.1分布式安装部署 1. 集群规划在Hadoop102、Hadoop103和Hadoop104三个节点上部署Zookeeper 2. 解压安装 1）解压Zookeeper.tar.gz到指定目录 tar -zxvf zookeeper-3.7.2.tar.gz -C /opt/mod…...

编程日记 2025/2/9 17:24:16

CodeGPT + IDEA + DeepSeek，在IDEA中引入DeepSeek实现AI智能开发

CodeGPT IDEA DeepSeek，在IDEA中引入DeepSeek 版本说明建议和我使用相同版本，实测2022版IDEA无法获取到CodeGPT最新版插件。（在IDEA自带插件市场中搜不到，可以去官网搜索最新版本） ToolsVersionIntelliJ IDEA202…...

编程日记 2025/2/9 17:20:11

postgresql 游标（cursor）的使用

概述 PostgreSQL游标可以封装查询并对其中每一行记录进行单独处理。当我们想对大量结果集进行分批处理时可以使用游标，因为一次性处理可能造成内存溢出。另外我们可以定义函数返回游标类型变量，这是函数返回大数据集的有效方式，函数调用者…...

编程日记 2025/2/9 17:17:07

计算机组成原理——指令系统（六）

在时间的长河中，我们都是追梦人，脚下的每一步都在刻画未来的模样。无论世界如何变幻，心中的那团火焰都不应熄灭。它是你突破黑暗、迎接黎明的力量源泉。每一个不曾起舞的日子，都是对生命的辜负；每一次跌倒后的站起&…...

编程日记 2025/2/9 17:15:05

Python设计模式 - 原型模式

定义原型模式是一种创建型设计模式，它可以通过复制现有对象来创建新对象，而不是直接实例化新的对象。结构抽象原型（Prototype）：声明 clone() 方法，以便派生类实现克隆自身的能力。具体原型&#xff08…...

编程日记 2025/2/9 17:14:04

金和OA C6 DownLoadBgImage任意文件读取漏洞

金和OA C6 DownLoadBgImage任意文件读取漏洞漏洞描述金和C6数据库是一款针对企业信息化管理而设计的高级数据库管理系统，主要应用于企业资源规划（ERP）、客户关系管理（CRM）以及办公自动化（OA&#xff09…...

编程日记 2025/2/9 17:09:59

【stm32学习】STM32F103实操primary（FlyMCU）

github插入图片实在是太难用了，暂时懒得学就先用CSDN吧hh 一、在设备管理器下，找到单片机，并检查与FlyMCU-搜索端口显示的是否一致二、在搜索串口右面的栏里选中该Port，波特率选中115200 三、选择文件夹中的.hex文件&#xff0…...

编程日记 2025/2/9 17:08:58

如何将Excel的表格存为图片？

emmm，不知道题主具体的应用场景是什么，就分享几个我一般会用到的场景下奖excel表格保存为图片的技巧吧！ 先来个总结： 方法适用场景画质操作难度截图（WinShiftS） 快速保存表格，方便粘贴…...

编程日记 2025/2/9 17:06:55

51单片机之使用Keil uVision5创建工程以及使用stc-isp进行程序烧录步骤

一、Keil uVision5创建工程步骤 1.点击项目，新建 2.新建目录 3.选择目标机器，直接搜索at89c52选择，然后点击OK 4.是否添加起吊文件，一般选择否 5.再新建的项目工程中添加文件 6.选择C文件 7.在C文件中右键，添加…...

编程日记 2025/2/9 17:05:53

AUTOSAR面试题集锦（1）

最基础概念什么是AUTOSAR？AUTOSAR到底做了什么？ AUTOSAR，即汽车开放系统架构，是一套专门用于汽车的开放性的框架和行业标准，旨在标准化汽车开发的流程。 AUTOSAR 通过标准化软件接口、交换格式和方法论等内容，主要实现以下几个目标： 1. 使软件和硬件彼此独立，让应…...

编程日记 2025/2/9 17:04:51

【Uniapp-Vue3】从uniCloud中获取数据

需要先获取数据库对象： let db uniCloud.database(); 获取数据库中数据的方法： db.collection("数据表名称").get(); 所以就可以得到下面的这个模板： let 函数名 async () > { let res await db.collection("数据表名称…...

编程日记 2025/2/9 17:01:46

AIOS: 一个大模型驱动的Multi-Agent操作系统设计与Code分析

AIOS: 一个大模型驱动的Multi-Agent操作系统设计与Code分析随着人工智能技术的快速发展，传统操作系统逐渐暴露出难以适应AI时代多样化需求的局限性。特别是在支持多个智能体协同工作方面存在显著不足。为此，我们提出了一种名为AIOS（Artifici…...

编程日记 2025/2/9 17:00:45

椭圆曲线密码学(ECC)

一、ECC算法概述椭圆曲线密码学（Elliptic Curve Cryptography）是基于椭圆曲线数学理论的公钥密码系统，由Neal Koblitz和Victor Miller在1985年独立提出。相比RSA，ECC在相同安全强度下密钥更短（256位ECC ≈ 3072位RSA…...

编程新知 2025/7/20 12:09:50

day52 ResNet18 CBAM

在深度学习的旅程中，我们不断探索如何提升模型的性能。今天，我将分享我在 ResNet18 模型中插入 CBAM（Convolutional Block Attention Module）模块，并采用分阶段微调策略的实践过程。通过这个过程，我不仅提升…...

编程新知 2025/9/14 16:40:54

智慧工地云平台源码，基于微服务架构+Java+Spring Cloud +UniApp +MySql

智慧工地管理云平台系统，智慧工地全套源码，java版智慧工地源码，支持PC端、大屏端、移动端。智慧工地聚焦建筑行业的市场需求，提供“平台网络终端”的整体解决方案，提供劳务管理、视频管理、智能监测、绿色施工、安全管…...

编程新知 2025/9/13 17:46:34

2025盘古石杯决赛【手机取证】

前言第三届盘古石杯国际电子数据取证大赛决赛最后一题没有解出来，实在找不到，希望有大佬教一下我。还有就会议时间，我感觉不是图片时间，因为在电脑看到是其他时间用老会议系统开的会。手机取证 1、分析鸿蒙手机检材&#x…...

编程新知 2025/8/26 5:10:22

Android Bitmap治理全解析：从加载优化到泄漏防控的全生命周期管理

引言 Bitmap（位图）是Android应用内存占用的“头号杀手”。一张1080P（1920x1080）的图片以ARGB_8888格式加载时，内存占用高达8MB（192010804字节）。据统计，超过60%的应用OOM崩溃与Bitm…...

编程新知 2025/9/9 23:27:37

Typeerror: cannot read properties of undefined (reading ‘XXX‘)

最近需要在离线机器上运行软件，所以得把软件用docker打包起来，大部分功能都没问题，出了一个奇怪的事情。同样的代码，在本机上用vscode可以运行起来，但是打包之后在docker里出现了问题。使用的是dialog组件，…...

编程新知 2025/8/21 7:56:36

Hive 存储格式深度解析：从 TextFile 到 ORC，如何选对数据存储方案？

在大数据处理领域，Hive 作为 Hadoop 生态中重要的数据仓库工具，其存储格式的选择直接影响数据存储成本、查询效率和计算资源消耗。面对 TextFile、SequenceFile、Parquet、RCFile、ORC 等多种存储格式，很多开发者常常陷入选择困境。本文将从底…...

编程新知 2025/9/16 2:04:37

【Java学习笔记】BigInteger 和 BigDecimal 类

BigInteger 和 BigDecimal 类二者共有的常见方法方法功能add加subtract减multiply乘divide除注意点：传参类型必须是类对象一、BigInteger 1. 作用：适合保存比较大的整型数 2. 使用说明创建BigInteger对象传入字符串 3. 代码示例 import j…...

编程新知 2025/6/21 16:56:20

wpf在image控件上快速显示内存图像

wpf在image控件上快速显示内存图像https://www.cnblogs.com/haodafeng/p/10431387.html 如果你在寻找能够快速在image控件刷新大图像（比如分辨率3000*3000的图像）的办法，尤其是想把内存中的裸数据（只有图像的数据，不包…...

编程新知 2025/9/7 8:49:50

pycharm 设置环境出错

pycharm 设置环境出错 pycharm 新建项目，设置虚拟环境，出错 pycharm 出错 Cannot open Local Failed to start [powershell.exe, -NoExit, -ExecutionPolicy, Bypass, -File, C:\Program Files\JetBrains\PyCharm 2024.1.3\plugins\terminal\shell-int…...

编程新知 2025/8/9 4:55:19