当前位置：首页 > article >正文

从零开始：Qwen2.5-3B大模型LoRA微调与ollama本地部署实战

article 2026/6/5 9:55:57

1. 环境准备与工具安装想要玩转Qwen2.5-3B大模型的微调和部署首先得把工具和环境准备好。我建议使用Linux系统Ubuntu 20.04或者MacOSWindows用户可以考虑WSL2。以下是需要安装的核心工具Python 3.9这是运行所有AI相关工具的基础CUDA 11.7如果你有NVIDIA显卡这是必须的Git用来下载各种开源项目Docker简化环境配置的好帮手安装完基础环境后我们来搞定几个关键工具# 安装Python依赖 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117 pip install transformers datasets accelerate peft # 安装LlamaFactory git clone https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install -e .[torch,metrics]如果你打算在本地运行模型还需要安装ollama# Linux/Mac安装ollama curl -fsSL https://ollama.com/install.sh | sh # Windows用户可以去官网下载安装包2. 获取Qwen2.5-3B模型现在我们来获取Qwen2.5-3B模型。国内用户推荐使用魔搭社区速度更快from modelscope import snapshot_download model_dir snapshot_download(Qwen/Qwen2.5-3B-Instruct)下载完成后模型会保存在~/.cache/modelscope/hub/Qwen/Qwen2.5-3B-Instruct目录下。这个模型大约占用6GB空间确保你的磁盘有足够容量。如果你想验证模型是否下载成功可以运行以下代码from transformers import AutoModelForCausalLM, AutoTokenizer tokenizer AutoTokenizer.from_pretrained(model_dir) model AutoModelForCausalLM.from_pretrained(model_dir, device_mapauto) input_text 你好介绍一下你自己 inputs tokenizer(input_text, return_tensorspt).to(cuda) outputs model.generate(**inputs, max_new_tokens50) print(tokenizer.decode(outputs[0], skip_special_tokensTrue))3. 使用LoRA进行轻量化微调LoRALow-Rank Adaptation是目前最流行的大模型微调技术之一它只训练模型的一小部分参数大大降低了计算资源需求。下面我们使用LlamaFactory来微调Qwen2.5-3B。3.1 准备数据集首先准备一个JSON格式的数据集。比如我们要让模型学会用甄嬛体说话[ { instruction: 用甄嬛体回答今天天气真好, output: 今儿个这天儿可真是极好的晴空万里倒叫本宫想起那年御花园里的景致。 }, { instruction: 用甄嬛体表达我饿了, output: 哀家这身子骨儿倒是有些乏了腹中空空如也想来是到了用膳的时辰了。 } ]把这个文件保存为zhenhuan.json放到LLaMA-Factory/data目录下然后在dataset_info.json中注册这个数据集{ zhenhuan: { file_name: zhenhuan.json, formatting: alpaca } }3.2 启动微调训练现在可以开始微调了使用以下命令llamafactory-cli train \ --stage sft \ --do_train \ --model_name_or_path /path/to/Qwen2.5-3B-Instruct \ --dataset zhenhuan \ --template qwen \ --finetuning_type lora \ --lora_rank 16 \ --lora_alpha 32 \ --output_dir ./output \ --per_device_train_batch_size 2 \ --gradient_accumulation_steps 4 \ --lr_scheduler_type cosine \ --logging_steps 10 \ --save_steps 100 \ --learning_rate 5e-5 \ --num_train_epochs 3.0 \ --fp16关键参数说明lora_rank: LoRA矩阵的秩一般8-64之间越大效果越好但需要更多计算batch_size: 根据你的GPU显存调整12GB显存可以设2-4learning_rate: LoRA学习率通常设5e-5到1e-4训练过程中可以在output目录下查看日志和保存的检查点。如果中断了可以加--resume_from_checkpoint output继续训练。4. 模型转换与量化训练完成后我们需要把LoRA适配器合并到原模型中并转换成ollama支持的GGUF格式。4.1 合并LoRA适配器from peft import PeftModel from transformers import AutoModelForCausalLM, AutoTokenizer base_model AutoModelForCausalLM.from_pretrained(Qwen/Qwen2.5-3B-Instruct) model PeftModel.from_pretrained(base_model, ./output) merged_model model.merge_and_unload() merged_model.save_pretrained(./merged_model)4.2 安装llama.cppGGUF转换需要llama.cppgit clone https://github.com/ggerganov/llama.cpp cd llama.cpp make -j4.3 转换为GGUF格式python convert-hf-to-gguf.py ./merged_model --outtype f16 --outfile qwen2.5-3b-zh.f16.gguf如果你显存有限可以进行4-bit量化./quantize qwen2.5-3b-zh.f16.gguf qwen2.5-3b-zh.q4_k_m.gguf q4_k_m量化后模型大小从6GB降到约1.5GB效果损失很小。5. 使用ollama本地部署现在我们可以用ollama来运行这个微调后的模型了。5.1 创建Modelfile新建一个Modelfile文件内容如下FROM ./qwen2.5-3b-zh.q4_k_m.gguf TEMPLATE {{ if .System }}|start_header_id|system|end_header_id| {{ .System }}|eot_id|{{ end }}{{ if .Prompt }}|start_header_id|user|end_header_id| {{ .Prompt }}|eot_id|{{ end }}|start_header_id|assistant|end_header_id| {{ .Response }}|eot_id| SYSTEM 你是一个用甄嬛体说话的AI助手 PARAMETER temperature 0.7 PARAMETER num_ctx 20485.2 创建并运行模型ollama create zhenhuan -f Modelfile ollama run zhenhuan现在你就可以和微调后的模型对话了试试输入今日心情甚好看看它会不会用甄嬛体回应你。6. 进阶技巧与优化6.1 微调参数调优不同的任务需要不同的微调策略。以下是一些经验参数任务类型lora_rank学习率batch_sizeepoch风格模仿32-643e-54-83-5知识注入16-325e-52-41-3指令跟随8-161e-48-161-26.2 多LoRA适配器切换ollama支持运行时切换不同的LoRA适配器。你可以训练多个专用适配器比如一个用于客服场景一个用于创意写作一个用于代码生成然后在运行时通过--lora参数指定ollama run zhenhuan --lora ./customer_service_lora.bin6.3 系统提示词优化SYSTEM提示词对模型行为影响很大。比如想让模型扮演专业医生SYSTEM 你是一位资深内科医生回答患者问题时要专业且富有同理心。如果遇到不确定的情况应该说这个需要进一步检查确认7. 常见问题解决问题1训练时显存不足解决方案减小batch_size开启梯度累积(gradient_accumulation_steps)使用--load_in_4bit参数问题2模型回答质量下降解决方案检查数据集质量确保指令-输出对匹配尝试增大lora_rank调整temperature参数0.3-0.7效果较好问题3ollama加载失败解决方案确认GGUF文件路径正确检查Modelfile的TEMPLATE格式是否正确尝试用ollama serve查看详细日志我在实际项目中发现Qwen2.5-3B对中文理解相当不错配合LoRA微调后在特定任务上可以达到接近70B模型的效果。最关键的是找到合适的数据集和训练参数这往往需要多次实验调整。建议从小数据集开始快速迭代验证效果再逐步扩大训练规模。

从零开始：Qwen2.5-3B大模型LoRA微调与ollama本地部署实战

相关文章：

从零开始：Qwen2.5-3B大模型LoRA微调与ollama本地部署实战

Dart异步编程中runZonedGuarded的异常捕获实战指南

CHORD-X开发入门：C语言基础与系统底层接口调用示例

手把手教你用Ozone调试FreeRTOS项目（含J-Link配置避坑指南）

Qwen3-Embedding-4B入门指南：向量归一化对余弦相似度计算的影响实验对比

我不是在用 AI 助手，我在把自己的能力沉淀成组织资产暗

5分钟搞定抖音无水印下载：douyin-downloader终极指南

从零到一：在Axure中构建你的Quick UI设计系统

如何快速部署YaeAchievement：原神成就数据自动化导出终极指南

ERNIE-4.5-0.3B-PT轻量级部署：vLLM框架助力，Chainlit打造友好对话前端

如何用Cyberbrain在5分钟内调试复杂的Python循环问题

深入解析CoT蒸馏与GRPO：如何高效训练具备推理能力的小模型

SteamTinkerLaunch Winetricks集成：dotnet48等依赖库的自动安装方法

TP4552B低功耗 5V 常开的锂电池充放电解决方案

TP4581 带自动开关机的锂电池充放电解决方案

HMCL启动器：3分钟快速上手跨平台Minecraft游戏体验

基于Leaflet和GFS气象数据构建动态气象可视化系统的实战指南

qmcdump终极指南：3步快速解密QQ音乐加密音频文件

张雪峰被蒸馏永生引争议！有人支持，但很多人不看好

黑苹果触摸板手势终极方案：从卡顿到流畅的完整配置指南

AWS CDN 配置：实现非 www 域名自动跳转到 www.xxx.com

Meta-Llama-3-8B-Instruct开箱即用：小白也能5分钟搭建AI对话应用

Qwen3.5-9B后端开发核心技能树：从网络协议到系统设计

Emotion2Vec+语音情感识别实战：用AI给你的语音“把把脉”

Wan2.1-umt5在网络安全领域的应用：智能日志分析与威胁检测

NaViL-9B开源大模型落地：金融票据识别+风险点标注自动化案例

别再只把Obsidian当笔记软件了！用DeepSeek R1和Copilot插件，打造你的AI驱动第二大脑

别再只用关键词搜索了！用Sentence Transformers给你的RAG系统做个‘语义检索’升级（附Python代码）

Sunshine游戏串流故障排查与性能优化解决方案

AgentCPM本地知识库增强方案：基于向量数据库的精准信息检索