当前位置：首页 > news >正文

百川2大模型微调问题解决

news 2026/5/17 6:08:30

之前用https://github.com/FlagAlpha/Llama2-Chinese微调过几个模型，总体来说llama2的生态还是比较好的，过程很顺利。微调百川2就没那么顺利了，所以简单做个记录

1. 数据准备，我的数据是单轮对话，之前微调llama2已经按照sft格式做好txt文件，翻看https://github.com/baichuan-inc/Baichuan2发现用的是json，和我所用数据格式有所出入，训练我还是用一开始用llama2的finetune脚本和参数，按照baichuan2的数据格式调整了代码。不过最后为了兼容llama2，我就把llama2的数据格式和tokenize_function给用在了百川2上，看起来也没啥问题。

2. 模型选取，用baichuan2-13b-chat作为预训练权重，推理的时候总是头部输出我要的内容，但是输出总是无法停止，就算训完一个epoch也是这样，很怪异，研究半天，不知道所以然，干脆放弃，采用不带chat的baichuan2-13b作为预训练权重，这次很快出结果，只要iter 100次保存下来的模型，输出也是我想要的内容，所以就不换了，暂时用baichuan2-13b。主要是llama2已经跑的很好，我实验也就不求甚解，将就先用baichuan2-13b。在这个过程中"--lora_r 1 --lora_alpha 32 --lora_dropout 0.1"这几个参数，我按照baichuan2仓库里设置了。

3. 给百川模型的加载统统加上trust_remote_code，不然总是提示你y/N选择，孙悟空都会是烦死了。

4. 训练模型遇到的错误1:

AttributeError: 'BaichuanTokenizer' object has no attribute 'sp_model'

这个错误通过简单回滚transfomers解决python3 -m pip install transformers==4.33.2，另外还有一个错误忘了具体是啥，通过回滚bitsandbytes解决python3 -m pip install bitsandbytes==0.41.0，幸运的是llama2在这两个模块版本下，同样工作。上面的错误，其实也有人说挪下tokenization_baichuan.py里的super的位置，我改了几处这个文件，似乎不起作用，随即放弃这个方案。

5. 推理过程遇到的错误2，这个错误也是折腾了我好一会，通过给AutoModelForCausalLM.from_pretrained加上pretraining_tp=1参数解决，先跑通，原理没去深究了。

RuntimeError: mat1 and mat2 shapes cannot be multiplied (1x20 and 9x5120)

6. 训练还遇到一个内存不足的问题3，google了两把，按照提示加了个环境变量PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:1536，果然就好了，谷歌不欺我也。内存不是真不足，而是碎片化严重，调整max_split_size_mb比降低batch size总是好的。

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.20 GiB (GPU 0; 23.69 GiB total capacity; 20.29 GiB already allocated; 579.94 MiB free; 22.56 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.  See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

7. llama2微调的参数module是q_proj,k_proj,v_proj,o_proj,down_proj,gate_proj,up_proj这些，百川2很奇怪，有个自己的W_pack，把全连接打印了一下，其实还有down_proj,o_proj,up_proj,gate_proj，微调这几个部分，效果也差不多，微调哪些更好哪些更差，暂时就不去比较了，遇到问题，也许可以调整一下。

百川2大模型微调问题解决

相关文章：

百川2大模型微调问题解决

MySQL的事务-原子性

D3839|完全背包

Java之Synchronized与锁升级

kitex出现：open conf/test/conf.yaml: no such file or directory

sql server多表查询

如何利用PPT绘图并导出清晰图片

1.倒排索引 2.逻辑斯提回归算法

Kafka消费者组

四. 基于环视Camera的BEV感知算法-BEVDepth

CentOS系统环境搭建（二十五）——使用docker compose安装mysql

协作机器人（Collaborative-Robot）安全碰撞的速度与接触力

第11章 GUI Page400~402 步骤二画直线

华为gre隧道全部跑静态路由

【c++】入门1

Python之Django项目的功能配置

P4 音频知识点——PCM音频原始数据

解决Electron中WebView加载部分HTTPS页面白屏的方法

【Java中创建对象的方式有哪些？】

npm使用详解（好吧好吧是粗解）

Lua-RTOS-ESP32：用脚本语言快速开发物联网硬件的实践指南

物联网安防系统故障排查与ESP8266固件刷写实战指南

跨平台鼠标控制库ez-cursor-free：原理、实现与自动化实战

构建高质量Awesome清单：开源项目精选与维护实践指南

智能跨平台文件同步革命：OpenMTP让Mac与Android无缝连接

GoLang简便模板缓存实现

PPO 原理与应用

企业采购必读：ElevenLabs合同中6处关键条款陷阱（含地域限制、转授权失效、审计权模糊等），法务已验证

终极指南：5步彻底解决Gopeed下载管理器403 Forbidden错误

电商运营数字密码解析：0.01、50、0、8.8背后的用户增长与转化逻辑