当前位置：首页 > news >正文

大模型-ChatGLM2-6B模型部署与微调记录

news 2026/2/8 17:25:06

大模型-ChatGLM2-6B模型部署与微调记录

在这里插入图片描述

模型权重下载：
登录魔塔社区：https://modelscope.cn/models/ZhipuAI/chatglm2-6b
拷贝以下代码执行后，便可快速权重下载到本地

# 备注：最新模型版本要求modelscope >= 1.9.0
# pip install modelscope -U from modelscope.utils.constant import Tasks
from modelscope import Model
from modelscope.pipelines import pipeline
model = Model.from_pretrained('ZhipuAI/chatglm2-6b', device_map='auto', revision='v1.0.12')
pipe = pipeline(task=Tasks.chat, model=model)
inputs = {'text':'你好', 'history': []}
result = pipe(inputs)
inputs = {'text':'介绍下清华大学', 'history': result['history']}
result = pipe(inputs)
print(result)

在这里插入图片描述

运行微调除 ChatGLM2-6B 的依赖之外，还需要安装以下依赖：

pip install rouge_chinese nltk jieba datasets

下载数据集
ADGEN 数据集任务为根据输入（content）生成一段广告词（summary）。

{"content": "类型#上衣*版型#宽松*版型#显瘦*图案#线条*衣样式#衬衫*衣袖型#泡泡袖*衣款式#抽绳","summary": "这件衬衫的款式非常的宽松，利落的线条可以很好的隐藏身材上的小缺点，穿在身上有着很好的显瘦效果。领口装饰了一个可爱的抽绳，漂亮的绳结展现出了十足的个性，配合时尚的泡泡袖型，尽显女性甜美可爱的气息。"
}

在这里插入图片描述

参数解释：

PRE_SEQ_LEN=128
LR=2e-2
NUM_GPUS=2    torchrun --standalone --nnodes=1 --nproc-per-node=$NUM_GPUS main.py \--do_train \--train_file /home/data/project/GOOGOSOFT/LLM/ChatGLM2-6B-main/AdvertiseGen/train.json \--validation_file /home/data/project/GOOGOSOFT/LLM/ChatGLM2-6B-main/AdvertiseGen/dev.json \--preprocessing_num_workers 10 \--prompt_column content \--response_column summary \--overwrite_cache \--model_name_or_path /home/data/project/GOOGOSOFT/LLM/ChatGLM2-6B-main/ZhipuAI/chatglm2-6b \--output_dir output/adgen-chatglm2-6b-pt-$PRE_SEQ_LEN-$LR \--overwrite_output_dir \--max_source_length 128 \--max_target_length 256 \--per_device_train_batch_size 25 \--per_device_eval_batch_size 25 \--gradient_accumulation_steps 16 \--predict_with_generate \--max_steps 6000 \--logging_steps 10 \--save_steps 1000 \--learning_rate $LR \--pre_seq_len $PRE_SEQ_LEN \--quantization_bit 4

在这里插入图片描述
以下是一个 Python 脚本，用于计算 AdvertiseGen 数据集中 content 列的最大长度。此脚本假设数据集是 JSON 格式，文件路径为 AdvertiseGen/train.json。

脚本：计算最大 max_source_length

import json# 数据集文件路径
train_file = "AdvertiseGen/train.json"# 加载数据集
def load_data(file_path):with open(file_path, "r", encoding="utf-8") as f:data = json.load(f)return data# 计算最大输入长度
def calculate_max_source_length(data, column_name="content"):lengths = [len(item[column_name]) for item in data if column_name in item]max_length = max(lengths)print(f"最大输入长度 (max_source_length): {max_length}")return max_length# 主函数
if __name__ == "__main__":# 加载数据data = load_data(train_file)# 计算最大长度max_source_length = calculate_max_source_length(data, column_name="content")

训练：
在这里插入图片描述

在这里插入图片描述

大模型-ChatGLM2-6B模型部署与微调记录

大模型-ChatGLM2-6B模型部署与微调记录模型权重下载： 登录魔塔社区：https://modelscope.cn/models/ZhipuAI/chatglm2-6b 拷贝以下代码执行后，便可快速权重下载到本地 # 备注：最新模型版本要求modelscope > 1.9.0 # pip insta…...

编程日记 2024/12/28 23:50:02

RDFS—RDF模型属性扩展解析

目录前言1. 什么是RDFS？1.1 RDFS的核心概念1.2 RDFS与RDF的区别 2. RDFS的基础概念2.1 类（Class）2.2 属性（Property）2.3 关系（Relation）2.4 定义域（Domain）2.5 值域&…...

编程日记 2024/12/28 23:48:00

安装 python安装： https://www.python.org/downloads/release/python-3913/ python3.9.13 64位(记得勾选Path环境变量) pycharm安装： https://www.jetbrains.com/pycharm/download/?sectionwindows community免费版换源： pip config se…...

编程日记 2024/12/28 23:43:57

salesforce 控制 Experience Cloud 站点用户可以看到哪些用户

在 Salesforce 的 Experience Cloud 中，您可以通过多种方式控制站点用户（如社区用户）之间的可见性。这包括用户之间的信息可见性以及他们可以访问的其他用户数据。以下是几种方法和设置，用于实现对 Experience Cloud 站点用户可见…...

编程日记 2024/12/28 23:39:54

【玩转OCR】 | 腾讯云智能结构化OCR在多场景的实际应用与体验

文章目录引言产品简介产品功能产品优势 API调用与场景实践图像增强API调用实例发票API调用实例其他场景结语相关链接引言在数字化信息处理的时代，如何高效、精准地提取和结构化各类文档数据成为了企业和政府部门的重要需求。尤其是在面对海量票据、证件、表单和…...

编程日记 2024/12/28 23:35:50

面试题整理20----什么是蓝绿部署、灰度发布、金丝雀发布他们有什么区别?

面试题整理20----什么是蓝绿部署、灰度发布、金丝雀发布,他们有什么区别? 1. 蓝绿部署2. 灰度发布3. 金丝雀发布4. 滚动更新5. 它们的区别蓝绿部署、灰度发布、金丝雀发布和滚动更新都是软件部署策略，旨在减少发布新版本时的风险，提高系统的稳定性和用…...

编程日记 2024/12/28 23:32:47

c语言传参数路径太长，导致无法获取参数

把这个 httpd_opts.h 文件里的这行代码#define LWIP_HTTPD_MAX_CGI_PARAMETERS 改大根据需要改就可以 /* The maximum number of parameters that the CGI handler can be sent. */ #if !defined LWIP_HTTPD_MAX_CGI_PARAMETERS || defined __DOXYGEN__ #define LWIP_HTTP…...

编程日记 2024/12/28 23:31:46

React性能优化：构建更高效的应用

在现代前端开发中，React已经成为构建复杂、交互频繁应用的首选框架。然而，随着应用规模的扩大和功能的丰富，组件的频繁重渲染可能会成为性能瓶颈，影响用户体验。为了提升React应用的性能，开发者需要掌握一系列性能优化技巧和工具。本文将详细介绍React性能优化的各个方面，…...

编程日记 2024/12/28 23:29:45

python+PyMuPDF库：(一)创建pdf文件及内容读取和写入

目录文档操作打开文档获取文档信息删除页复制页移动页选择重构合并保存关闭页对象操作内容读取获取页对象的字体样式插入文本标签插入文本内容字体设置 insert_text添加文本 insert_textbox添加文本插入图片获取页面注释、链接、表单字段 …...

编程日记 2024/12/28 23:28:44

vue3配置测试环境、开发环境、生产环境

第一步：在src同级新建 .env.production 、.env.test 、.env.development文件第二步：在文件中配置开发环境、生产环境、测试环境 // 开发环境 .env.developmentNODE_ENV developmentVUE_APP_MODE development outputDir dist_dev // 打出包的名称VUE_…...

编程日记 2024/12/28 23:24:41

Jsonlizer，一个把C++各类数据转成 Json 结构体的玩意儿

这段时间突发奇想，觉得可以弄一个Json和C各种数据类型互转的工具，因为Json在进行数据储存的时候，有一些先天的优势，传统的C的序列化方式是将数据序列化到流数据里面，而流数据是典型的串行结构（或则说是一维…...

编程日记 2024/12/28 23:21:38

Qt仿音乐播放器：设置窗口、部件属性

// 设置窗口标志 this->setWindowFlag(Qt::FramelessWindowHint); //此设置将窗口设置成无边框模式//设置窗口背景透明 this->setAttribute(Qt::WA_TranslucentBackground,true); attribute：属性 Translucent：半透明 Qt::WA_TranslucentBackgro…...

编程日记 2024/12/28 23:20:37

使用 .NET 6 或 .NET 8 上传大文件

如果您正在使用 .NET 6，并且它拒绝上传大文件，那么本文适合您。我分享了一些处理大文件时需要牢记的建议，以及如何根据我们的需求配置我们的服务，并提供无限制的服务。本文与 https://blog.csdn.net/hefeng_aspnet/arti…...

编程日记 2024/12/28 23:19:36

基于特征工程（pca分析）、小波去噪以及数据增强，同时采用基于注意力机制的BiLSTM、随机森林、ARIMA模型进行序列数据预测

本文采用特征工程（pca分析）、小波去噪以及数据增强，同时采用基于注意力机制的BiLSTM、随机森林、ARIMA模型进行序列数据预测基于BILSTM（双向长短期记忆网络）、随机森林回归和ARIMA（自回归积分滑动平均&am…...

编程日记 2024/12/28 23:17:34

攻防世界 PHP2

开启场景访问 /index.php，页面无变化访问 /index.phps index.php 和 index.phps 文件之间的主要区别在于它们的文件扩展名。 index.php：这是一个标准的 PHP 文件，通常用于编写 PHP 代码。当用户访问 index.php 文件时，Web 服务器…...

编程日记 2024/12/28 23:12:27

主板idyy

import java.math.BigInteger; import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MachineCodeGenerator { // 获取主板ID（这需要根据操作系统具体实现） private static String getMotherboardID() {…...

编程日记 2024/12/28 23:11:25

轻松实现向量搜索：探索 Elastic-Embedding-Searcher 项目

随着人工智能和机器学习技术的飞速发展，向量搜索已成为数据检索的重要方式。尤其是在处理大规模文本数据时，传统的基于关键词的检索方式已经难以满足需求。为了优化检索性能并提升搜索精度，向量搜索成为了更加高效的解决方案。而在这一领域&a…...

编程日记 2024/12/28 23:10:24

flask后端开发（3）：html模板渲染

目录渲染模板html模板获取路由参数 gitcode地址： https://gitcode.com/qq_43920838/flask_project.git 渲染模板这样就能够通过html文件来渲染前端，而不是通过return了 html模板获取路由参数...

编程日记 2024/12/28 23:08:22

逻辑控制语句

一、逻辑控制语句条件判断 if循环 for、while 二、条件判断 if 1、语法 if 条件:条件为真的操作条件为真的操作 else:条件为假的操作条件为假的操作 data_01 int(input("数字: "))if data_01 > 10:print("ok!!!")print("正确!!!")prin…...

编程日记 2024/12/28 23:06:21

[OpenGL]使用 Compute Shader 实现矩阵点乘

一、简介本文介绍了如何使用 OpenGL 中的 compute shader 进行矩阵相乘的并行运算。代码目标是，输入两个大小为 10*10 的矩阵 A 和 B，计算 A*B 的结果并存储到矩阵 C 中。二、代码 0. 代码逻辑 1. 初始化 glfw, glad, 窗口 2. 初始化 compute shad…...

编程日记 2024/12/28 23:05:20

java_网络服务相关_gateway_nacos_feign区别联系

1. spring-cloud-starter-gateway 作用：作为微服务架构的网关，统一入口，处理所有外部请求。核心能力： 路由转发（基于路径、服务名等）过滤器（鉴权、限流、日志、Header 处理）支持负…...

编程新知 2025/11/28 2:51:33

【力扣数据库知识手册笔记】索引

索引索引的优缺点优点1. 通过创建唯一性索引，可以保证数据库表中每一行数据的唯一性。2. 可以加快数据的检索速度（创建索引的主要原因）。3. 可以加速表和表之间的连接，实现数据的参考完整性。4. 可以在查询过程中，…...

编程新知 2026/1/25 4:36:37

Linux简单的操作

ls ls 查看当前目录 ll 查看详细内容 ls -a 查看所有的内容 ls --help 查看方法文档 pwd pwd 查看当前路径 cd cd 转路径 cd .. 转上一级路径 cd 名转换路径 …...

编程新知 2026/1/20 14:36:39

STM32F4基本定时器使用和原理详解

STM32F4基本定时器使用和原理详解前言如何确定定时器挂载在哪条时钟线上配置及使用方法参数配置PrescalerCounter ModeCounter Periodauto-reload preloadTrigger Event Selection 中断配置生成的代码及使用方法初始化代码基本定时器触发DCA或者ADC的代码讲解中断代码定时启动…...

编程新知 2026/1/26 21:56:38

MODBUS TCP转CANopen 技术赋能高效协同作业

在现代工业自动化领域，MODBUS TCP和CANopen两种通讯协议因其稳定性和高效性被广泛应用于各种设备和系统中。而随着科技的不断进步，这两种通讯协议也正在被逐步融合，形成了一种新型的通讯方式——开疆智能MODBUS TCP转CANopen网关KJ-TCPC-CANP…...

编程新知 2026/2/6 9:48:02

Axios请求超时重发机制

Axios 超时重新请求实现方案在 Axios 中实现超时重新请求可以通过以下几种方式： 1. 使用拦截器实现自动重试 import axios from axios;// 创建axios实例 const instance axios.create();// 设置超时时间 instance.defaults.timeout 5000;// 最大重试次数 cons…...

编程新知 2025/10/13 2:26:14

Unit 1 深度强化学习简介

Deep RL Course ——Unit 1 Introduction 从理论和实践层面深入学习深度强化学习。学会使用知名的深度强化学习库，例如 Stable Baselines3、RL Baselines3 Zoo、Sample Factory 和 CleanRL。在独特的环境中训练智能体，比如 SnowballFight、Huggy the Do…...

编程新知 2026/2/8 12:54:53

智能仓储的未来：自动化、AI与数据分析如何重塑物流中心

当仓库学会“思考”，物流的终极形态正在诞生想象这样的场景： 凌晨3点，某物流中心灯火通明却空无一人。AGV机器人集群根据实时订单动态规划路径；AI视觉系统在0.1秒内扫描包裹信息；数字孪生平台正模拟次日峰值流量压力…...

编程新知 2026/2/1 2:49:30

C# 求圆面积的程序（Program to find area of a circle）

给定半径r，求圆的面积。圆的面积应精确到小数点后5位。例子： 输入：r 5 输出：78.53982 解释：由于面积 PI * r * r 3.14159265358979323846 * 5 * 5 78.53982，因为我们只保留小数点后 5 位数字。输…...

编程新知 2026/2/8 9:34:11

SQL慢可能是触发了ring buffer

简介最近在进行 postgresql 性能排查的时候，发现 PG 在某一个时间并行执行的 SQL 变得特别慢。最后通过监控监观察到并行发起得时间 buffers_alloc 就急速上升，且低水位伴随在整个慢 SQL，一直是 buferIO 的等待事件，此时也没有其他会话的争抢。SQL 虽然不是高效 SQL ，但…...

编程新知 2025/10/2 9:17:52

大模型-ChatGLM2-6B模型部署与微调记录

大模型-ChatGLM2-6B模型部署与微调记录

相关文章：

大模型-ChatGLM2-6B模型部署与微调记录

RDFS—RDF模型属性扩展解析

pyqt和pycharm环境搭建

salesforce 控制 Experience Cloud 站点用户可以看到哪些用户

【玩转OCR】 | 腾讯云智能结构化OCR在多场景的实际应用与体验

面试题整理20----什么是蓝绿部署、灰度发布、金丝雀发布他们有什么区别?

c语言传参数路径太长，导致无法获取参数

React性能优化：构建更高效的应用

python+PyMuPDF库：(一)创建pdf文件及内容读取和写入

vue3配置测试环境、开发环境、生产环境

Jsonlizer，一个把C++各类数据转成 Json 结构体的玩意儿

Qt仿音乐播放器：设置窗口、部件属性

使用 .NET 6 或 .NET 8 上传大文件

基于特征工程（pca分析）、小波去噪以及数据增强，同时采用基于注意力机制的BiLSTM、随机森林、ARIMA模型进行序列数据预测

攻防世界 PHP2

主板idyy

轻松实现向量搜索：探索 Elastic-Embedding-Searcher 项目

flask后端开发（3）：html模板渲染

逻辑控制语句

[OpenGL]使用 Compute Shader 实现矩阵点乘

java_网络服务相关_gateway_nacos_feign区别联系

【力扣数据库知识手册笔记】索引

Linux简单的操作

STM32F4基本定时器使用和原理详解

MODBUS TCP转CANopen 技术赋能高效协同作业

Axios请求超时重发机制

Unit 1 深度强化学习简介

智能仓储的未来：自动化、AI与数据分析如何重塑物流中心

C# 求圆面积的程序（Program to find area of a circle）

SQL慢可能是触发了ring buffer