当前位置: 首页 > news >正文

[FT]chatglm2微调

1.准备工作

  • 显卡一张:A卡,H卡都可以,微调需要一张,大概显存得30~40G吧
  • 环境安装:
    • 尽量在虚拟环境安装:参见,https://blog.csdn.net/u010212101/article/details/103351853
    • 环境安装参见:https://github.com/THUDM/ChatGLM2-6B/tree/main/ptuning

2.如何微调:

参见:https://github.com/THUDM/ChatGLM2-6B/tree/main/ptuning

2.0.训练数据格式,整理成如下格式,格式1和2都行:

格式1:

{"content":"xxx","summary":"xxx"}
{"content":"xxx","summary":"xxx"}
... ...

格式2:

[
{"content":"xxx","summary":"xxx"}
{"content":"xxx","summary":"xxx"}
... ...]

2.1.训练方案-ptuning高效微调:

参见:https://github.com/THUDM/ChatGLM2-6B/blob/main/ptuning/train.sh

PRE_SEQ_LEN=128
LR=2e-2
NUM_GPUS=1torchrun --standalone --nnodes=1 --nproc-per-node=$NUM_GPUS main.py \--do_train \--train_file AdvertiseGen/train.json \--validation_file AdvertiseGen/dev.json \--preprocessing_num_workers 10 \--prompt_column content \--response_column summary \--overwrite_cache \--model_name_or_path THUDM/chatglm2-6b \--output_dir output/adgen-chatglm2-6b-pt-$PRE_SEQ_LEN-$LR \--overwrite_output_dir \--max_source_length 64 \--max_target_length 128 \--per_device_train_batch_size 1 \--per_device_eval_batch_size 1 \--gradient_accumulation_steps 16 \--predict_with_generate \--max_steps 3000 \--logging_steps 10 \--save_steps 1000 \--learning_rate $LR \--pre_seq_len $PRE_SEQ_LEN \--quantization_bit 4

注意点:

  • 将模型下载到本地,可以从modelscope或者huggingface上下载,建议直接modelscope下载,huggingface下载慢/还得科学上网,麻烦。
    • https://modelscope.cn/models/ZhipuAI/chatglm2-6b-32k/summary
  • 将上述model_name_or_path 的路径改为你本地模型路径
  • 资源紧张,下述一些参数需要调整:
  • 调节batchsize设置: per_device_train_batch_sizeper_device_eval_batch_sizegradient_accumulation_steps=batchsize,这三项酌情调整
  • 训练步数:
    • max_steps=5000步
  • max_source_length:输入的最大长度
  • max_target_length:输出的最大长度

2.2.全量微调

  • 全量微调速度比较慢,建议使用deepspeed,直接pip安装即可
  • 全量微调,几百上千条数据的情况,显存得100G以上,也即需要至少2张A800卡

deepspeed 全量微调chatglm2命令如下:

  • 参见:https://github.com/THUDM/ChatGLM2-6B/blob/main/ptuning/ds_train_finetune.sh
LR=1e-4MASTER_PORT=$(shuf -n 1 -i 10000-65535)deepspeed --num_gpus=4 --master_port $MASTER_PORT main.py \--deepspeed deepspeed.json \--do_train \--train_file AdvertiseGen/train.json \--test_file AdvertiseGen/dev.json \--prompt_column content \--response_column summary \--overwrite_cache \--model_name_or_path THUDM/chatglm2-6b \--output_dir ./output/adgen-chatglm2-6b-ft-$LR \--overwrite_output_dir \--max_source_length 64 \--max_target_length 64 \--per_device_train_batch_size 4 \--per_device_eval_batch_size 1 \--gradient_accumulation_steps 1 \--predict_with_generate \--max_steps 5000 \--logging_steps 10 \--save_steps 1000 \--learning_rate $LR \--fp16
  • 注意点和上述基本一致,至于deepspeed高级配置如何做,这里挖个坑,后续佛系更新

2.3.其他微调,参见官方教程

https://github.com/THUDM/ChatGLM2-6B/tree/main/ptuning

3.推理加速

  • 按照fastllm,速度提升3成~4成吧
  • 教程参见:https://github.com/ztxz16/fastllm

相关文章:

[FT]chatglm2微调

1.准备工作 显卡一张:A卡,H卡都可以,微调需要一张,大概显存得30~40G吧环境安装: 尽量在虚拟环境安装:参见,https://blog.csdn.net/u010212101/article/details/103351853环境安装参见&#xff…...

AI赋能Oracle DBA:以自然语言与Oracle数据库互动

DBA AI助手:以自然语言与Oracle数据库互动 0. 引言1. AI赋能Oracle DBA的优势2. AI如何与Oracle数据库交互3. 自然语言查询的一些示例4. 未来展望 0. 引言 传统的Oracle数据库管理 (DBA) 依赖于人工操作,包括编写复杂的SQL语句、分析性能指标和解决各种…...

Django学习记录04——靓号管理整合

1.靓号表 1.1 表结构 1.2 靓号表的构造 class PrettyNum(models.Model): 靓号表 mobile models.CharField(verbose_name"手机号", max_length11)# default 默认值# null true,blank true 允许为空price models.IntegerField(verbose_name"价…...

AD9226 65M采样 模数转换

目录 AD9220_ReadTEST AD9220_ReadModule AD9226_TEST_tb 自己再写个 260M的时钟,四分频来提供65M的时钟。 用 vivado 写的 AD9226_ReadTEST module AD9226_ReadTEST( input clk, input rstn,output clk_driver, //模块时钟管脚 input [12:0]IO_data, //模块数…...

远程控制桌面,让电脑办公更简单

随着科技的不断发展,远程办公已经成为了越来得越多企业和个人的选择。远程控制电脑办公,仅需1款软件即可轻松get! 1.绿虫电脑管理软件 是一款功能强大的办公电脑管理软件,仅需安装在被控端电脑,主控端通过网页登录后…...

猫头虎分享已解决Bug || 网络连接问题:NetworkError: Failed to fetch

博主猫头虎的技术世界 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能! 专栏链接: 🔗 精选专栏: 《面试题大全》 — 面试准备的宝典!《IDEA开发秘籍》 — 提升你的IDEA技能!《100天精通鸿蒙》 …...

Layer1 明星项目 Partisia Blockchain 何以打造互操作、可创新的数字经济网络

我们的目标是创建一个以用户为中心的全新数字经济网络:在去信任化和公平透明的环境下,所有的隐私数据都能够得到天然保障,企业、用户等各角色的协作与共享将会更顺利地进行。 —— Partisia Blockchain 团队 作为一个以 Web3 安全为技术方向的…...

用CSS制作弧形卡片的三种创意方法!

在平时开发中,有时候会碰到下面这种“弧形”样式,主要分为“内凹”和“外凸”两种类型,如下 该如何实现呢?或者想一下,有哪些 CSS 属性和“弧形”有关?下面介绍 3 种方式,一起看看吧 一、borde…...

守护健康之光 —— 小脑萎缩患者的生活指南

生活中,我们或许会遇到一些特殊的挑战,而面对这些挑战时,了解和掌握正确的应对策略至关重要。今天,我们要聊一聊一个较为少见却不容忽视的话题——小脑萎缩。这不仅是患者的战役,也是家人和社会共同的关怀课题。下面&a…...

CSS选择器:让样式精确命中目标

CSS选择器:让样式精确命中目标 在网页开发中,CSS选择器是一种强大的工具,它可以帮助我们精确地定位HTML元素,以便为它们应用样式。在这篇博客中,我们将探讨一些常见的CSS选择器,了解它们的功能和使用方法。…...

前端不传被删记录的id怎么删除记录,或子表如何删除记录

1.删除主表相关子表所有记录 2.再保存一次前端传来的记录 3.如果子表是通过先生成空记录,再put修改模式,可以在执行1和2两步后再拿模板集合和当前现有子表集合套两个for循环对比判断,count记录模板记录和子表记录每次循环重合次数&#xff…...

axios的基本特性用法

1. axios的基本特性 axios 是一个基于Promise用于浏览器和node.js的HTTP客户端。 它具有以下特征: 支持浏览器和node.js支持promiseAPI自动转换JSON数据能拦截请求和响应请求转换请求数据和响应数据(请求是可以加密,在返回时也可进行解密&…...

打印水仙花数---c语言刷题

欢迎关注个人主页:逸狼 创造不易,可以点点赞吗~ 如有错误,欢迎指出~ 题述 求出0~100000之间的所有“水仙花数”并输出。 “水仙花数”是指一个n位数,其各位数字的n次方之和确好等于该数本身,如:153&#…...

springboot基础(82):分布式定时任务解决方案shedlock

文章目录 前言简介shedlock dbSchedulerLock注解说明 shedlock redis遇到的问题1.配置shedlock不生效2.报错net/javacrumbs/shedlock/core/LockProvider shedlock升级高版本同名定时任务 前言 多节点或者多服务器拥有相同的定时任务,这种情况下,不同节…...

【Golang】Gorm乐观锁optimisticlock的使用

在数据库操作中,为了保证数据的一致性和完整性,常常需要采取一些措施来防止并发操作导致的数据冲突。悲观锁和乐观锁是两种常见的并发控制机制。 悲观锁(Pessimistic Lock) 悲观锁的基本假设是,数据在并发访问时很可能…...

Apache Doris 发展历程、技术特性及云原生时代的未来规划

本文节选自《基础软件之路:企业级实践及开源之路》一书,该书集结了中国几乎所有主流基础软件企业的实践案例,由 28 位知名专家共同编写,系统剖析了基础软件发展趋势、四大基础软件(数据库、操作系统、编程语言与中间件…...

2024-02-26(Spark,kafka)

1.Spark SQL是Spark的一个模块,用于处理海量结构化数据 限定:结构化数据处理 RDD的数据开发中,结构化,非结构化,半结构化数据都能处理。 2.为什么要学习SparkSQL SparkSQL是非常成熟的海量结构化数据处理框架。 学…...

RubyMine 2023:让Ruby编程变得更简单 mac/win版

JetBrains RubyMine 2023是一款专为Ruby开发者打造的强大集成开发环境(IDE)。这款工具集成了许多先进的功能,旨在提高Ruby编程的效率和生产力。 RubyMine 2023软件获取 RubyMine 2023的智能代码编辑器提供了丰富的代码补全和提示功能&#…...

低功耗设计——门控时钟

1. 前言 芯片功耗组成中,有高达40%甚至更多是由时钟树消耗掉的。这个结果的原因也很直观,因为这些时钟树在系统中具有最高的切换频率,而且有很多时钟buffer,而且为了最小化时钟延时,它们通常具有很高的驱动强度。此外&…...

《凤凰架构》-本地事务章节 读书笔记

1、写锁又名排它锁,写锁禁止其他事务施加读锁和写锁,而不禁止其他事务读取数据(如果遇到了个不加任何锁的另一个事务2,写锁是无法阻止事务2读取数据的),这就是读未提交隔离级别中的脏读问题产生的根因。 2…...

终极指南:3分钟掌握Easy-Scraper,用HTML思维轻松提取网页数据

终极指南:3分钟掌握Easy-Scraper,用HTML思维轻松提取网页数据 【免费下载链接】easy-scraper Easy scraping library 项目地址: https://gitcode.com/gh_mirrors/ea/easy-scraper 还在为复杂的CSS选择器和XPath语法头疼吗?Easy-Scrape…...

别再被SystemExit: 2搞懵了!Python argparse在Jupyter Notebook里的正确打开方式

别再被SystemExit: 2搞懵了!Python argparse在Jupyter Notebook里的正确打开方式 如果你曾在Jupyter Notebook中尝试运行一个包含argparse模块的Python脚本,大概率会遇到那个令人困惑的SystemExit: 2错误。这个看似简单的报错背后,隐藏着命令…...

CoolProp开源热力学计算库:工程师必备的120+流体物性数据解决方案

CoolProp开源热力学计算库:工程师必备的120流体物性数据解决方案 【免费下载链接】CoolProp Thermophysical properties for the masses 项目地址: https://gitcode.com/gh_mirrors/co/CoolProp 在现代工程设计和科学研究中,热力学物性数据的准确…...

CANopen设备现场配置避坑指南:LSS协议详解与节点ID/波特率设置全流程

CANopen设备现场配置避坑指南:LSS协议详解与节点ID/波特率设置全流程 当你面对一批出厂节点ID相同或未知的CANopen从站设备时,如何高效、安全地完成节点ID和网络波特率的配置?这可能是每个现场工程师都曾头疼的问题。本文将深入解析LSS&#…...

Python自动化控制Comsol多物理场仿真的完整指南:MPh库实战解析

Python自动化控制Comsol多物理场仿真的完整指南:MPh库实战解析 【免费下载链接】MPh Pythonic scripting interface for Comsol Multiphysics 项目地址: https://gitcode.com/gh_mirrors/mp/MPh 想要用Python代码自动化控制Comsol多物理场仿真吗?…...

运营岗最需要哪些数据分析技能?

运营岗数据分析核心技能运营岗位需要掌握的数据分析技能涵盖数据收集、处理、可视化及业务决策支持等多个方面。以下从核心技能、工具应用、业务场景及认证价值(如CDA数据分析师证书)展开详细说明,并结合表格整理关键内容。核心技能分类技能类…...

告别裸机调试:在STC8A8K64S4上玩转printf与外部中断的共存之道

STC8A8K64S4实战:printf与外部中断的完美协作方案 调试嵌入式系统时,开发者常面临一个经典矛盾:既需要实时响应外部事件(如按键中断),又希望保留printf这类便捷的调试工具。在STC8A8K64S4这类资源有限的8位…...

告别手动拼接:用Simulink自定义目标系统,一键生成你的嵌入式C代码(含TLC文件详解)

告别手动拼接:用Simulink自定义目标系统实现嵌入式C代码全自动生成 在嵌入式开发领域,算法工程师和软件工程师之间总有一道难以逾越的鸿沟——算法模型优雅地运行在Simulink环境中,而底层驱动和RTOS调度却需要手动编写C代码,最后通…...

3分钟掌握百度网盘提取码智能获取:baidupankey终极使用指南

3分钟掌握百度网盘提取码智能获取:baidupankey终极使用指南 【免费下载链接】baidupankey 项目地址: https://gitcode.com/gh_mirrors/ba/baidupankey 还在为百度网盘资源提取码而烦恼吗?每次遇到需要密码的分享链接,你是否都要在多个…...

Flutter 鸿蒙应用离线模式实战:无网络也能流畅使用

Flutter 鸿蒙应用离线模式实战:无网络也能流畅使用 欢迎加入开源鸿蒙跨平台社区: https://openharmonycrossplatform.csdn.net📄 文章摘要 本文为 Flutter for OpenHarmony 跨平台应用开发任务 34 实战教程,完整实现应用离线模式功…...