当前位置：首页 > news >正文

Win10微调大语言模型ChatGLM2-6B

news 2026/2/10 16:42:01

在《Win10本地部署大语言模型ChatGLM2-6B-CSDN博客》基础上进行，官方文档在这里，参考了这篇文章

首先确保ChatGLM2-6B下的有ptuning

AdvertiseGen下载地址1，地址2，文件中数据留几行

模型文件下载地址（注意：ChatGLM2-6B对话用到的的模型文件不能简单的用到这里，bin文件可以复用，但其他文件一定要重新下载，否则要报一些错)

anaconda prompt中运行，进行虚拟环境

cd /d D:\openai.wiki\ChatGLM2-6B
conda activate D:\openai.wiki\ChatGLM2-6B\ENV

运行微调除 ChatGLM2-6B 的依赖之外，还需要安装以下依赖

pip install rouge_chinese nltk jieba datasets

先了解一下train.sh(仅在Linux中使用)里面各行的意义

PRE_SEQ_LEN=128 #  soft prompt 长度
LR=2e-2     # 训练学习率
NUM_GPUS=2  # GPU卡的数量torchrun --standalone --nnodes=1 --nproc-per-node=$NUM_GPUS main.py \--do_train \   # 执行训练功能，还可以执行评估功能--train_file AdvertiseGen/train.json \   # 训练文件目录--validation_file AdvertiseGen/fval.json \   # 验证文件目录--prompt_column content \       # 训练集中prompt提示名称，对应训练文件，测试文件的"content"--response_column summary \      # 训练集中答案名称，对应训练文件，测试文件的"summary"--overwrite_cache \              # 缓存，重复训练一次的时候可删除--model_name_or_path THUDM/chatglm-6b \  # 加载模型文件目录，也可修改为本地模型的路径--output_dir output/adgen-chatglm-6b-pt-$PRE_SEQ_LEN-$LR \    # 保存训练模型文件目录--overwrite_output_dir \     # 覆盖训练文件目录--max_source_length 64 \     # 最大输入文本的长度--max_target_length 128 \--per_device_train_batch_size 1 \    # batch_size 训练批次根据显存调节--per_device_eval_batch_size 1 \     # 验证批次--gradient_accumulation_steps 16 \   # 梯度累加的步数--predict_with_generate \--max_steps 3000 \    # 最大训练模型的步数--logging_steps 10 \  # 多少步打印日志一次--save_steps 1000 \    # 多少步保存模型一次--learning_rate $LR \  # 学习率--pre_seq_len $PRE_SEQ_LEN \--quantization_bit 4   # 量化，也可修改为int8

Windows下用以下的train.bat

因我的电脑显存只有8G，故将per_device_train_batch_size改为8

去掉--quantization_bit 4

set PRE_SEQ_LEN=128
set LR=1e-4python main.py ^--do_train ^--train_file AdvertiseGen/train.json ^--validation_file AdvertiseGen/dev.json ^--preprocessing_num_workers 10 ^--prompt_column content ^--response_column summary ^--overwrite_cache ^--model_name_or_path D:\\openai.wiki\\ChatGLM2-6B\\ptuning\\THUDM\\chatglm2-6b ^--output_dir D:/openai.wiki/ChatGLM2-6B/ptuning/output ^--overwrite_output_dir ^--max_source_length 64 ^--max_target_length 128 ^--per_device_train_batch_size 8 ^# batch_size 训练批次根据显存调节--per_device_eval_batch_size 1 ^--gradient_accumulation_steps 16 ^--predict_with_generate ^--max_steps 3000 ^--logging_steps 10 ^--save_steps 1000 ^--learning_rate %LR% ^--pre_seq_len %PRE_SEQ_LEN%

进入ptuning文件夹

cd ptuning

运行train.bat，即可开始训练（有问题的话继续往后看）

train.bat

可能遇到的几个问题

问题一

TypeError: JsonConfig.init() got an unexpected keyword argument 'use_auth_token’

解决方式

pip uninstall datasets
pip install datasets==2.21.0

问题二

name ‘round_up‘ is not defined

解决方式

将train.bat中的–quantization_bit 4删除

或者pip install cpm_kernels

问题三

AttributeError: ‘ChatGLMModel‘ object has no attribute ‘prefix_encoder‘

解决方式

https://huggingface.co/THUDM/chatglm2-6b/tree/main

下载除bin文件以外的最新文件

Win10微调大语言模型ChatGLM2-6B

在《Win10本地部署大语言模型ChatGLM2-6B-CSDN博客》基础上进行，官方文档在这里，参考了这篇文章首先确保ChatGLM2-6B下的有ptuning AdvertiseGen下载地址1，地址2，文件中数据留几行模型文件下载地址 （注意&#xff1…...

编程日记 2025/1/12 3:30:17

什么叫区块链？怎么保证区块链的安全性？

区块链（Blockchain）是一种分布式数据库或账本技术，它通过去中心化的方式记录交易或其他数据，并确保这些记录是安全、透明和不可篡改的。区块链最初是作为比特币（Bitcoin）加密货币的基础技术而被公众所知&am…...

编程日记 2025/1/12 3:29:16

一、智能体强化学习——强化学习基础

1.1 强化学习与深度学习的基本概念 1.1.1 强化学习的核心思想什么是强化学习？ 强化学习（Reinforcement Learning, RL）：指在与环境（Environment）的反复交互中，智能体（Agent&#x…...

编程日记 2025/1/12 3:28:15

【DES加密】

什么是DES DES(Data Encryption Standard) 是一种对称加密算法。它的设计目标是提供高度的数据安全性和性能。 DES的概念 DES使用56位的密钥和64位的明文块进行加密。DES算法的分组大小是64位，因此，如果需要加密的明文长度不足64位，需要进…...

编程日记 2025/1/12 3:26:13

.NET中的框架和运行环境

在.NET生态系统中，框架和运行环境是两个不同的概念，它们各自扮演着重要的角色。下面我将分别介绍.NET中的框架和运行环境，并解释它们之间的区别。 .NET 框架（Frameworks） 框架提供了一套预定义的类库、工具和服务&…...

编程日记 2025/1/12 3:19:05

探索微软 M365 安全：全方位守护数字世界

在当今这个科技呈井喷式飞速发展，数字化浪潮以汹涌澎湃、锐不可当之势席卷全球的时代，企业与个人仿若置身于一片浩瀚无垠、信息奔涌的海洋之中，尽情畅享着技术革新所带来的无穷无尽便利。然而，恰如平静海面下潜藏着暗礁与汹涌暗流，网络安全问题恰似隐匿在暗处、随时可能给…...

编程日记 2025/1/12 3:16:01

深入探索AI核心模型：CNN、RNN、GAN与Transformer

在人工智能的飞速发展中，众多深度学习模型和算法不断涌现，推动了许多领域的进步。特别是在图像识别、自然语言处理、生成建模等方向，AI模型的应用越来越广泛。本文将介绍几种最常用的AI模型，包括卷积神经网络（CNN&…...

编程日记 2025/1/12 3:14:58

Java - Http 通讯

Java - Http 通讯 PS： 1. Http 协议 POST | GET 请求； 2. 支持报头、报文、参数自定义配置； 3. GET 返回支持 String | Stream; 4. 相关依赖： <dependency><groupId>org.apache.httpcomponents</groupId><…...

编程日记 2025/1/12 3:13:56

C++ Qt练习项目 QChar功能测试

个人学习笔记代码仓库 GitCode - 全球开发者的开源社区,开源代码托管平台新建项目设计UI 1、拖入group box去掉名字 2、拖入2个LineEdit 3、拖入两个Label 4、拖入两个PushButton 5、点栅格布局 1、拖入GroupBox 2、拖入4个PushButton 3、点栅格布局 1、拖入GroupBo…...

编程日记 2025/1/12 3:11:54

android 官网刷机和线刷

nexus、pixel可使用google官网线上刷机的方法。网址：https://flash.android.com/ 本文使用google线上刷机，将Android14 刷为Android12 以下是失败的线刷经历。准备工作下载升级包。https://developers.google.com/android/images?hlzh-cn 注意&…...

编程日记 2025/1/12 3:10:53

二叉树层序遍历 Leetcode102.二叉树的层序遍历

二叉树的层序遍历相当于图论的广度优先搜索，用队列来实现 （二叉树的递归遍历相当于图论的深度优先搜索） 102.二叉树的层序遍历给你二叉树的根节点 root ，返回其节点值的层序遍历。 （即逐层地，从左到右…...

编程日记 2025/1/12 3:07:50

DELTA并联机械手视觉方案荣获2024年度机器人应用典型案例奖

直击现场 2025年1月9日晚，2024深圳市机器人年度评选颁奖典礼在深圳市南山区圣淘沙酒店正式拉开帷幕。本次颁奖活动由中国科学院深圳先进技术研究院指导，深圳市机器人协会与《机器人与智能系统》杂志组织承办。正运动公司受邀参与此次典礼，…...

编程日记 2025/1/12 3:06:49

Netty 入门学习

前言学习Spark源码绕不开通信，Spark通信是基于Netty实现的，所以先简单学习总结一下Netty。 Spark 通信历史最开始: Akka Spark 1.3： 开始引入Netty，为了解决大块数据（如Shuffle）的传输问题 Spark 1.6&…...

编程日记 2025/1/12 3:02:45

Magentic-One、AutoGen、LangGraph、CrewAI 或 OpenAI Swarm：哪种多 AI 代理框架最好？

目录一、说明二、 AutoGen-自动生成（微软） 2.1 特征 2.2 局限性三、 CrewAI 3.1 特征 3.2 限制： 四、LangGraph 4.1 特征： 4.2 限制： 五、OpenAI Swarm 5.1 特征 5.2 限制六、Magentic-One 6.1 特征 6.2 限制七、…...

编程日记 2025/1/12 2:59:40

openstack下如何生成centos9 centos10 和Ubuntu24 镜像

如何生成一个centos 10和centos 9 的镜像1. 下载对应的版本 wget https://cloud.centos.org/centos/10-stream/x86_64/images/CentOS-Stream-GenericCloud-x86_64-10-latest.x86_64.qcow2 wget https://cloud.centos.org/centos/9-stream/x86_64/images/CentOS-Stream-Gener…...

编程日记 2025/1/12 2:58:38

Kivy App开发之UX控件Slider滑块

在app中可能会调节如音量，亮度等，可以使用Slider来实现，该控件调用方便，兼容性好，滑动平稳。在一些参数设置中，也可以用来调整数值。支持水平和垂直方向，可以设置默认值，最小及最大值。使用方法，需用引入Slider类，通过Slider类生成一个滑块并设置相关的样式后，再…...

编程日记 2025/1/12 2:55:34

CSS——22.静态伪类（伪类是选择不同元素状态）

<!DOCTYPE html> <html><head><meta charset"UTF-8"><title>静态伪类</title> </head><body><a href"#">我爱学习</a></body> </html>单击链接前的样式左键单击（且…...

编程日记 2025/1/12 2:54:32

python学opencv|读取图像（三十）使用cv2.getAffineTransform()函数倾斜拉伸图像

【1】引言前序已经学习了如何平移和旋转缩放图像，相关文章链接为： python学opencv|读取图像（二十七）使用cv2.warpAffine（）函数平移图像-CSDN博客 python学opencv|读取图像（二十八&#xff0…...

编程日记 2025/1/12 2:52:29

Unity3D中基于ILRuntime的组件化开发详解

前言在Unity3D开发中，组件化开发是一种高效且灵活的软件架构方式。通过将游戏功能拆分为独立的、可重用的组件，开发者可以更容易地管理、扩展和维护代码。而ILRuntime作为一款基于C#的热更新框架，为Unity3D开发者提供了一种高效的热更新和组…...

编程日记 2025/1/12 2:50:27

ELK的搭建

ELK elk：elasticsearch logstatsh kibana统一日志收集系统 elasticsearch：分布式的全文索引引擎点非关系型数据库,存储所有的日志信息，主和从，最少需要2台 logstatsh：动态的从各种指定的数据源，获取数据…...

编程日记 2025/1/12 2:49:26

CMake 从 GitHub 下载第三方库并使用

有时我们希望直接使用 GitHub 上的开源库，而不想手动下载、编译和安装。可以利用 CMake 提供的 FetchContent 模块来实现自动下载、构建和链接第三方库。 FetchContent 命令官方文档✅ 示例代码我们将以 fmt 这个流行的格式化库为例，演示如何：使用 FetchContent 从 GitH…...

编程新知 2026/2/1 3:19:54

2023赣州旅游投资集团

单选题 1.“不登高山，不知天之高也；不临深溪，不知地之厚也。”这句话说明_____。 A、人的意识具有创造性 B、人的认识是独立于实践之外的 C、实践在认识过程中具有决定作用 D、人的一切知识都是从直接经验中获得的参考答案: C 本题解…...

编程新知 2025/11/8 16:42:13

LINUX 69 FTP 客服管理系统 man 5 /etc/vsftpd/vsftpd.conf

FTP 客服管理系统实现kefu123登录，不允许匿名访问，kefu只能访问/data/kefu目录，不能查看其他目录创建账号密码 useradd kefu echo 123|passwd -stdin kefu [rootcode caozx26420]# echo 123|passwd --stdin kefu 更改用户 kefu 的密码…...

编程新知 2026/2/9 20:16:17

push [特殊字符] present

push 🆚 present 前言present和dismiss特点代码演示 push和pop特点代码演示前言在 iOS 开发中，push 和 present 是两种不同的视图控制器切换方式，它们有着显著的区别。 present和dismiss 特点在当前控制器上方新建视图层级需要手动调用…...

编程新知 2026/1/31 4:26:17

【Linux】Linux 系统默认的目录及作用说明

博主介绍：✌全网粉丝23W，CSDN博客专家、Java领域优质创作者，掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域✌ 技术范围：SpringBoot、SpringCloud、Vue、SSM、HTML、Nodejs、Python、MySQL、PostgreSQL、大数据、物…...

编程新知 2026/1/29 2:30:31

CRMEB 中 PHP 短信扩展开发：涵盖一号通、阿里云、腾讯云、创蓝

目前已有一号通短信、阿里云短信、腾讯云短信扩展扩展入口文件文件目录 crmeb\services\sms\Sms.php 默认驱动类型为：一号通 namespace crmeb\services\sms;use crmeb\basic\BaseManager; use crmeb\services\AccessTokenServeService; use crmeb\services\sms\…...

编程新知 2025/10/5 5:38:24

Web中间件--tomcat学习

Web中间件–tomcat Java虚拟机详解什么是JAVA虚拟机 Java虚拟机是一个抽象的计算机，它可以执行Java字节码。Java虚拟机是Java平台的一部分，Java平台由Java语言、Java API和Java虚拟机组成。Java虚拟机的主要作用是将Java字节码转换为机器代码&#x…...

编程新知 2025/9/13 18:20:34

计算机基础知识解析：从应用到架构的全面拆解

目录前言 1、计算机的应用领域：无处不在的数字助手 2、计算机的进化史：从算盘到量子计算 3、计算机的分类：不止 “台式机和笔记本” 4、计算机的组件：硬件与软件的协同 4.1 硬件：五大核心部件 4.2 软件&#…...

编程新知 2026/1/31 9:44:27

【前端异常】JavaScript错误处理：分析 Uncaught (in promise) error

在前端开发中，JavaScript 异常是不可避免的。随着现代前端应用越来越多地使用异步操作（如 Promise、async/await 等），开发者常常会遇到 Uncaught (in promise) error 错误。这个错误是由于未正确处理 Promise 的拒绝（r…...

编程新知 2026/1/1 23:11:45

mac：大模型系列测试

0 MAC 前几天经过学生优惠以及国补17K入手了mac studio,然后这两天亲自测试其模型行运用能力如何，是否支持微调、推理速度等能力。下面进入正文。 1 mac 与 unsloth 按照下面的进行安装以及测试，是可以跑通文章里面的代码。训练速度也是很快的。注意…...

编程新知 2026/2/4 0:46:21

相关文章：