大模型微调实验记录(一)数据探索
文章目录
- 概要
- 整体架构流程
- 前期的技术探索
- 技术构造
- 技术细节
- 小结
概要
根据之前博客使用的docker技术,如果换公司了,我可能就要重新搭建环境了,哎,公司没资源给我,给我一台带不走的电脑,哎,这可是我这种数据科学人调试好的电脑,这套服务就值几千了。
算了,留着给他们玩吧,深度学习他们姑且也听不懂,和天书一样,我现在要实现一个RAG和一个简单的模型微调,ChatGLM6B,感谢清华团队的开源,让我这种穷逼也能玩一下大模型,我还是非常尊敬知识的。
虽然知道模型的架构什么样,但是我不配玩,所以我现在在创造大模型方面一点经验都没有。
目前,为了纪念我离开这家经过我父亲推荐我过来的这家公司,我会做一个接入公司文档的服务给他们用,本来我还在想要不要做一整套GIS服务的系统给他们,不过看这边的技术人员都走的差不多了,那我还不如趁此把大模型微调的经验积累一下,然后离开这家让我成长但在工资待遇上没有给我太多帮助的公司,我首先还是要感谢我的父母,至少我还是成长了,不然我就要用技术开发AI黑客攻击了,我有这个实力,不过现在我也释然了,一切的命运都有定数罢了,既然不让我在这个国家过的好,估计后面我会在国外玩起来吧,死在国外我也不拍,死了就死了而已,人生对我来说就是玩。
不过想想也是,我总算知道李白为什么那么痛苦了,人生得意须尽欢,有了技术就是搞破坏,反正我有技术用不到正途,那就用到别处去。
整体架构流程
搜索资料以及问AI这构思玩意,主要提到的技术有
RAG技术
大模型微调技术
前后端技术
主要功能
RAG技术建立公司文档知识库,每天定时任务,处理所有文档并使用WordVec进行向量化导入到PostgresSQL。
前期的技术探索
了解什么是模型?
先随便了解一下Qwen1.5B模型的架构

门控卷积,MLP,以及输出头,Embadding这些玩意都需要一个一个了解,不过这些东西只是架构罢了,他们也是一点一点证明这些架构有什么用的,聚合信息,跳转信息,都是实验的结果,想了解这些架构得自己看实验结果去,基本上每人会去研究这些架构,全是一些调用API的玩意,技术也就只有业务技术了,全是死玩意。
q,k,v,o这个架构很经典,想学深一点可以去学学,我玩图像的深度学习的时候玩出花来。
tokenizer这个东西,怎么看?
我用代码来解释一下,这玩意你可以称之为“翻译官”,模型就是“歪果仁”

里面raw_input的句子被变成了机器种族的数字语言,然后我又叫翻译官给我又翻译回来,数字上的零就是翻译官翻译时的pad,意思是填充,attention_mask,就是指注意力掩码,像填充的pad就是0,意思是不配被注视。
想微调模型要学会什么?
答案是做数据集,不过我们要先尝试,后续再把数据处理流程给写光,不过如果是以前,人们都要苦于怎么做dataset,但是transformer有它的DataCollatorWithPadding,这极大的帮助了人们,但不知道的就要遭罪喽。

这个数据集,只有句子1,句子2,标签(情感分析的标签),以及有利于管理的idx。
通过tokenier翻译官把数据集变成机器种族的语言,就能开始我们的训练了,这也叫微调。
训练是什么玩意?
额,没亲手写过代码的肯定不清楚训练干了什么,如果连训练的概念都不知道,我只能说,别学这玩意了,因为人家一点机会都不给你,早早就封装了这个库,几行代码就可以开始训练和微调。

前沿的技术已经决定了如何更好的更深刻的了解大模型,不过我也没办法,大模型太大了我玩不了,我只能玩小模型。
技术构造
我有看过大模型微调,似乎现在用到的是LLama-Factory,所以我直接docker给它拉过来

进入容器并启动WebUI

打开后就是微调、训练等的界面

点开模型可以看到那群公司要的Deepseek

说实话,没学过训练的可能都能来训练,至于设备会不会坏就不是我的事了,把数据集准备好,模型下载好,参数和一些方法选一下,一个简单的训练器就完成了,如果说是个水硕出来,当当调参侠也挺好的,只是不会怎么写这种代码而已,不过这个东西已经是集成了很多优点了,小孩子只要会选择,就能当一个大模型的微调师傅,叫手下人把参数都选好,当最后那个点击训练的人哈哈哈。

技术细节
我肯定不会写一些烂技术,不过这个技术可以给人培养兴趣,毕竟只有看到了结果,才有可能有兴趣去做事。
主要技术内容:提示工程、RAG、微调、更换大模型、使用多模态大模型

我用PPT随便画了一个架构图
后续我会开发一个基于ChatGLM来做的模型微调实验,供大家伙有一个模型微调的经验
小结
前期的探索已完成,后续直接进行开发系统
相关文章:
大模型微调实验记录(一)数据探索
文章目录 概要整体架构流程前期的技术探索技术构造技术细节小结 概要 根据之前博客使用的docker技术,如果换公司了,我可能就要重新搭建环境了,哎,公司没资源给我,给我一台带不走的电脑,哎,这可…...
JavaWeb-社区版Idea安装配置
idea配置 一,下载idea社区版 百度搜索IntelliJ IDEA,点击下载链接。 二,全局配置 前提安装好jdk,这一步不再赘述。进入引导页,把可以配置的东西都先配置上,这个配置是全局的,省的之后&#…...
iOS 实现UIButton自动化点击埋点
思路:我们HOOK UIControl的 addtarget:action:forControlEvents方法,交换UIControl的 addtarget:action:forControlEvents 方法的实现, 在交换的方法中添加原来响应的同时,再添加一个埋点响应,该响应方法实现了点击埋点…...
商城系统单商户开源版源码
环境配置 1.软件安装 宝塔安装系统软件:Nginx、MySQL5.6、PHP( PHP用7.1-7.4版本)、phpMyAdmin(Web端MySQL管理工具)。 2.配置mysql 设置mysql,在已安装的软件里面找到 mysql点击进行设置 3.修改sql-mode 选择左侧配置修改,找到里面的sql-mode&…...
用不同语言写力扣题的思考:如何选择最适合的编程语言
目录 1. 为什么选择不同的编程语言? 2. 如何根据题目特点选择编程语言? 2.1 题目类型 2.2 个人熟练度 2.3 性能要求 3. 实例分析 3.1 两数之和(Two Sum) Python 实现 C 实现 3.2 反转链表(Reverse Linked Li…...
Python PDF文件拆分-详解
目录 使用工具 将PDF按页数拆分 将PDF的每一页拆分为单独的文件 将PDF按指定页数拆分 根据页码范围拆分PDF 根据指定内容拆分PDF 将PDF的一页拆分为多页 在日常生活中,我们常常会遇到大型的PDF文件,这些文件可能难以发送、管理和查阅。将PDF拆分成…...
ubuntu部署gitlab-ce及数据迁移
ubuntu部署gitlab-ce及数据迁移 进行前梳理: 在esxi7.0 Update 3 基础上使用 ubuntu22.04.5-server系统对 gitlab-ce 16.10进行部署,以及将gitlab-ee 16.9 数据进行迁移到gitlab-ce 16.10 进行后总结: 起初安装了极狐17.8.3-jh 版本(不支持全局中文,就没用了) …...
Y3学习打卡
网络结构图 YOLOv5配置了4种不同大小的网络模型,分别是YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x,其中 YOLOv5s 是网络深度和宽度最小但检测速度最快的模型,其他3种模型都是在YOLOv5s的基础上不断加深、加宽网络使得网络规模扩大,在增强…...
英码科技携昇腾DeepSeek大模型一体机亮相第三届北京人工智能产业创新发展大会
2025年2月28日,第三届北京人工智能产业创新发展大会在国家会议中心隆重开幕。本届大会以"好用、易用、愿用——以突破性创新加速AI赋能千行百业”为主题,重点展示人工智能技术创新成果与产业化应用实践。作为昇腾生态的APN伙伴,英码科技…...
系统讨论Qt的并发编程2——介绍一下Qt并发的一些常用的东西
目录 QThreadPool与QRunnable 互斥机制:QMutex, QMutexLocker, QSemaphore, QWaitCondition 跨线程的通信 入门QtConcurrent,Qt集成的一个并发框架 一些参考 QThreadPool与QRunnable QThreadPool自身预备了一些QThread。这样,我们就不需…...
JS禁止web页面调试
前言 由于前端在页面渲染的过程中 会调用很多后端的接口,而有些接口是不希望别人看到的,所以前端调用后端接口的行为动作就需要做一个隐藏。 禁用右键菜单 document.oncontextmenu function() {console.log("禁用右键菜单");return false;…...
modbus 协议的学习,谢谢老师
(1)谢谢这位老师 ,谢谢老师的教导 (2) 谢谢...
Go 接口使用
个人学习笔记 接口作用 1. 实现多态 多态允许不同的类型通过实现相同的接口,以统一的方式进行处理。这使得代码更加灵活和可扩展,提高了代码的复用性。 示例代码: package mainimport ("fmt" )// 定义一个接口 type Speaker int…...
题解 | 牛客周赛82 Java ABCDEF
目录 题目地址 做题情况 A 题 B 题 C 题 D 题 E 题 F 题 牛客竞赛主页 题目地址 牛客竞赛_ACM/NOI/CSP/CCPC/ICPC算法编程高难度练习赛_牛客竞赛OJ 做题情况 A 题 判断字符串第一个字符和第三个字符是否相等 import java.io.*; import java.math.*; import java.u…...
命名管道——进程间通信
个人主页:敲上瘾-CSDN博客 匿名管道:进程池的制作(linux进程间通信,匿名管道... ...)-CSDN博客 一、命名管道的使用 1.创建命名管道 1.1.在命令行中: 创建: mkfifo 管道名 删除:…...
高频 SQL 50 题(基础版)_1141. 查询近30天活跃用户数
1141. 查询近30天活跃用户数 select activity_date day,count(distinct user_id) active_users from Activity where (activity_date<2019-07-27 and activity_date>DATE_sub(2019-07-27,INTERVAL 30 DAY)) group by(activity_date)...
Yocto + 树莓派摄像头驱动完整指南
—— 从驱动配置、Yocto 构建,到 OpenCV 实战 在树莓派上运行摄像头,在官方的 Raspberry Pi OS 可能很简单,但在 Yocto 项目中,需要手动配置驱动、设备树、软件依赖 才能确保摄像头正常工作。本篇文章从 BSP 驱动配置、Yocto 关键…...
seaborn中文乱码
在进行matplotlib画图的时候,经常会出现中文乱码的问题,这主要是默认的文件不支持中文,可以在代码中显示指定。解决方法: import seaborn as sns import matplotlib.pyplot as pltplt.rcParams["font.sans-serif"] ["SimHei"] # …...
函数的特殊形式——递归函数
C递归函数入门指南:从概念到实践 1. 什么是递归? 递归是指函数直接或间接调用自身的过程,就像照镜子时影像无限反射,通过不断分解问题解决问题 适用场景: 问题可分解为相同子问题(如阶乘、斐波那契数列…...
计算最大海岛面积
最大海岛面积问题的不同解法 问题举例 给定一个包含了一些 0 和 1 的非空二维数组 matrix 。 一个岛屿是由一些相邻的 1 (代表土地) 构成的组合,这里的「相邻」要求两个 1 必须在水平或者竖直方向上相邻。你可以假设matrix的四个边缘都被 0(代表水&am…...
list的两个实现类
ArrayList:适用于需要频繁随机访问元素 LinkedList:适用于需要频繁进行插入和删除操作,尤其是在列表的头部或尾部进行操作 二者的用法基本一致,只是时间和空间复杂度不同 List<Integer> arrayList new ArrayList<>…...
Spark核心之02:RDD、算子分类、常用算子
spark内存计算框架 一、目标 深入理解RDD弹性分布式数据集底层原理掌握RDD弹性分布式数据集的常用算子操作 二、要点 ⭐️1. RDD是什么 RDD(Resilient Distributed Dataset)叫做**弹性分布式数据集,是Spark中最基本的数据抽象,…...
配置Nginx日志url encode问题
文章目录 配置Nginx日志url encode问题方法1-lua方法2-set-misc-nginx-module 配置Nginx日志url encode问题 问题描述: 当自定义日志输出格式,需要输出http请求中url参数时,如果参数中包含中文,是会进行url encode的,…...
[Windows] 批量为视频或者音频生成字幕 video subtitle master 1.5.2
Video Subtitle Master 1.5.2 介绍 Video Subtitle Master 1.5.2 是一款功能强大的客户端工具,能够批量为视频或音频生成字幕,还支持批量将字幕翻译成其他语言。该工具具有跨平台性,无论是 mac 系统还是 windows 系统都能使用。 参考原文&a…...
AIP-158 分页
编号158原文链接AIP-158: Pagination状态批准创建日期2019-02-18更新日期2019-02-18 API通常需要提供数据集,最常见的是 List 标准方法。但集合大小往往是不受控制的,会随着时间增长,提高了查找时间和通过网络传输的应答大小。因此对集合进行…...
进来了解一下python的深浅拷贝
深浅拷贝是什么:在Python中,理解深拷贝(deep copy)和浅拷贝(shallow copy)对于处理复杂的数据结构,如列表、字典或自定义对象,是非常重要的。这两种拷贝方式决定了数据在内存中的复制…...
第三阶段-产品方面的技术疑难
一、虚拟机和容器的区别? 虚拟机(Virtual Machine,VM)和容器(Container)都是用于隔离和运行应用程序的技术,但它们在实现方式、性能、资源消耗和适用场景上有显著区别。以下是虚拟机和容器的主…...
safetensors PyTorchModelHubMixin 加载模型
2025.03.03测试ok from safetensors.torch import load_fileimport yamlwith open("configs/maggie_image.yaml", r, encodingutf8) as file: # utf8可识别中文data yaml.safe_load(file)class Config:def __init__(self, **kwargs):for key, value in kwargs.item…...
解锁GPM 2.0「卡顿帧堆栈」|代码示例与实战分析
每个游戏开发者都有一个共同的愿望,那就是能够在无需复现玩家反馈的卡顿现象时,快速且准确地定位卡顿的根本原因。为了实现这一目标,UWA GPM 2.0推出了全新功能 - 卡顿帧堆栈,旨在为开发团队提供高效、精准的卡顿分析工具。在这篇…...
Transformer架构
核心原理 自注意力机制 通过计算输入序列中每个位置与其他位置的关联权重(Query-Key匹配),动态聚合全局信息,解决了传统RNN/CNN的长距离依赖问题。 实现公式:Attention(Q,K,V)softmax(QKTdk)VAttention(…...
