当前位置: 首页 > news >正文

LLM-TAP随笔——语言模型训练数据【深度学习】【PyTorch】【LLM】

文章目录

  • 3、语言模型训练数据
    • 3.1、词元切分
    • 3.2、词元分析算法

3、语言模型训练数据

  • 数据质量对模型影响非常大。

典型数据处理:质量过滤、冗余去除、隐私消除、词元切分等。

  • 训练数据的构建时间、噪音或有害信息情况、数据重复率等因素都对模型性能有较大影响。
  • 训练数据和测试数据的时间错配会一定程度上影响模型的的效果。

3.1、词元切分

构建词元表:覆盖绝大部分的输入词,并避免词表过大所造成的数据稀疏问题。
BPE
将字节视为合并的基本符号。
算法过程

  1. 词元词表的确定

统计每个相邻字节对的出现频率,合并出现频率最高的字节对,将其作为 新的词元加入词表。

在这里插入图片描述
2. 全词切分为词元以及词元合并为全词的方法

输入词序列全词切分,对照词表按词元从长到短顺序遍历匹配。

合成全词时,词元表示失败部分视作未登录词,赋予相同表示。

开源数据集合

  • Pile
  • ROOTS
  • RefinedWeb
  • SlimPajama

3.2、词元分析算法

WordPiece词元分析算法(BERT)

  • 先评分
  • 再合并,合并使得训练数据似然概率增加最高的词元对。

HuggingFace 提供的评分公式:
s c o r e = 词元对出现的频率 第一个词元出现的频率 × 第二个词元出现的频率 score = \frac{词元对出现的频率}{第一个词元出现的频率 × 第二个词元出现的频率} score=第一个词元出现的频率×第二个词元出现的频率词元对出现的频率

Unigram词元分析算法(T5,mBART)

  • 从一个足够大的可能词元集合开始,迭代的从当前列表中删除词元,直到达到预期的词汇表大小为止。
  • 删除标准:训练语料库似然性的增加量

"语料库的似然性"通常是指一个特定文本序列(通常是一段文本或一个句子)在语料库中出现的概率。

BPE词元分析算法(GPT-2,BART,LLaMA)
将字节视为合并的基本符号。

Tips:

R d R^d Rd:表示d维度张向量空间。

R d × m R^{d × m} Rd×m: d ×m 的实数矩阵的空间。
Hugging Face(Hugging Face Transformers)是一个面向自然语言处理(NLP)领域的开源社区和公司,它以构建和维护各种预训练模型以及提供与自然语言处理相关的工具和库而闻名。该社区和公司的名字“Hugging Face”来自于一个富有亲和力的面部照片,反映了他们的愿景,即使人工智能模型变得更加友好和可访问。

Hugging Face的主要贡献和活动包括:

  1. 预训练模型库:Hugging Face维护了一个大规模的预训练模型库,其中包括了许多流行的NLP模型,如BERT、GPT、RoBERTa、XLNet等。这些模型在各种NLP任务上表现出色,并且可以用于微调以适应特定任务。
  2. Transformers库:Hugging Face提供了名为Transformers的Python库,用于轻松加载、使用和微调各种预训练模型。这个库包含了丰富的示例代码和工具,使研究人员和开发者能够快速开始使用最先进的NLP模型。
  3. 模型卡片(Model Cards):Hugging Face提倡模型卡片的使用,这是一种文档形式,用于提供有关预训练模型的详细信息、使用案例、性能评估和注意事项。这有助于提高模型的透明度和可解释性。
  4. 社区贡献:Hugging Face的社区活跃,并且在GitHub上有大量的贡献者。他们分享了自己的模型、工具、代码和教程,使整个NLP社区受益。
  5. Hub:Hugging Face提供了一个模型和数据的中央存储库,称为Hugging Face Hub,允许用户共享、下载和管理NLP模型和数据集。

检查点是模型在训练或生成过程中的某个时间点的保存状态,通常包括模型的权重参数和其他相关信息,以便稍后能够重新加载模型并继续训练或进行推理。

消融实验(ablation experiment)是一种用于研究机器学习模型或深度学习模型的重要实验方法。在这种实验中,研究人员有目的地将模型的某些组件或特性删除或禁用,以评估这些组件对模型性能的影响。消融实验的主要目的是帮助理解模型的工作原理、识别关键组件,以及确定哪些因素对模型性能产生了最大的影响。

  1. Few-shot Learning(少样本学习):
    1. Few-shot learning 涉及到在训练数据非常有限的情况下,使模型能够有效地学习和泛化。通常,few-shot learning 指的是模型在少于常规训练所需数量的样本上进行训练。这可以包括几个样本(通常小于10个)或更多,但总体上比传统的大规模训练数据要少。
    2. Few-shot learning 的一个常见应用是在计算机视觉中,例如人脸识别任务中,通过提供只有少数几张示例图像,使模型能够识别和分类新的人脸。
  2. One-shot Learning(一样本学习):
    1. One-shot learning 是 few-shot learning 的一个特例,它更加极端。在 one-shot learning 中,模型只能在单个训练样本上学习,并且需要能够在测试时正确地识别或分类新的示例。
    2. One-shot learning 的一个例子是手写字符识别,其中模型需要从单个示例字符中学习如何识别该字符,然后用于识别其他类似字符。
  3. Zero-shot Learning(零样本学习):
    1. Zero-shot learning 是一种更具挑战性的任务。在 zero-shot learning 中,模型需要能够在测试时处理从未在训练中见过的类别或样本。它需要具有泛化到全新情况的能力。
    2. 通常,zero-shot learning 使用属性或特征的描述来帮助模型理解新类别。例如,给定一个包含动物的图像数据集,模型可能没有见过一种叫做"斑马"的类别,但可以使用属性信息(例如,“有条纹”)来理解并识别这个类别。
  • 思维树(Tree of Thoughts, ToT):ToT提示是一种允许复杂的、多步骤问题通过LLM来解决的方法。通过将问题的解决方案分解为个别的步骤或思维,ToT提示使得可以通过多个推理线支持策略性的前瞻、回溯等进行复杂的解决方案空间探索。然后,我们可以在这个框架内通过与已知的图形结构数据搜索算法的组合进行提示和自我评估来搜索问题的解决方案。
  • 思维链(Chain of Thoughts, ToT):CoT的本质是将复杂任务拆解为多个简单的子任务,它指的是一个思维过程中的连续逻辑推理步骤或关联的序列,是思维过程中一系列相互关联的想法、观点或概念的串联。思维链通常用于解决问题、做决策或进行推理。它可以按照逻辑顺序连接和组织思维,将复杂的问题分解为更简单的步骤或概念,从而更好地理解和解决问题。CoT通常只有一条解决问题的路径,ToT等于是CoT的一个拓展。
  • 人类反馈训练:人类反馈的强化学习(RLHF)

相关文章:

LLM-TAP随笔——语言模型训练数据【深度学习】【PyTorch】【LLM】

文章目录 3、语言模型训练数据3.1、词元切分3.2、词元分析算法 3、语言模型训练数据 数据质量对模型影响非常大。 典型数据处理:质量过滤、冗余去除、隐私消除、词元切分等。 训练数据的构建时间、噪音或有害信息情况、数据重复率等因素都对模型性能有较大影响。训…...

Linux- open() lseek()

文件描述符 文件描述符(File Descriptor,简称 FD)是 UNIX 和 UNIX-like 系统中用于代表和识别打开的文件或其他I/O资源的一种抽象标识。它是一个非负整数,内部由操作系统进行管理和分配。文件描述符可以代表文件、套接字、管道等…...

Halcon Tuple相关算子(一)

(1) tuple_length( : : Tuple : Length) 功能:返回输入元组中元素的个数。 控制输入参数: Tuple:输入元组; 控制输出参数:length:输入元组中元素的个数。 (2) tuple_find( : : Tuple, ToFind : Indices…...

基于图像形态学处理的路面裂缝检测算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 ...................................................... %1:从文件夹中读取多个…...

PY32F003F18之窗口看门狗

一、PY32F003F18窗口看门狗特点: 即使窗口看门狗被禁止,窗口看门狗的"递减计数器"也会继续递减计数。 二、窗口看门狗复位的条件: 1、将"控制寄存器WWDG_CR"中的WDGA1,激活"窗口看门狗计数器等于0x3F"时,则产…...

SpingBoot:整合Mybatis-plus+Druid+mysql

SpingBoot:整合Mybatis-plusDruid 一、特别说明二、创建springboot新工程三、配置3.1 配置pom.xml文件3.2 配置数据源和durid连接池3.2.1 修改application.yml3.2.2 新增mybatis-config.xml 3.3 编写拦截器配置类 四、自动生成代码五、测试六、编写mapper.xml&#…...

计算机视觉与深度学习-经典网络解析-VGG-[北邮鲁鹏]

目录标题 VGG参考VGG网络贡献使用尺寸更小的$3 \times 3$卷积串联来获得更大的感受野放弃使用$11 \times 11$和$5 \times 5$这样的大尺寸卷积核深度更深、非线性更强,网络的参数也更少;去掉了AlexNet中的局部响应归一化层(LRN)层。 网络结构主要改进输入…...

入门级制作电子期刊的网站推荐

随着数字化时代的到来,越来越多的人开始尝试制作自己的电子期刊。如果你也是其中的一员,那么这篇文章可以帮助你制作电子期刊。无论是初学者还是有一定经验的制作者,都能快速完成高质量的电子期刊制作 小编经常使用的工具是-----FLBOOK在线制…...

软件测试内容整理

1. 软件测试 1.1. 定义 软件测试(英语:Software Testing),描述一种用来促进鉴定软件的正确性、完整性、安全性和质量的过程。换句话说,软件测试是一种实际输出与预期输出之间的审核或者比较过程。 软件测试的经典定…...

UniAccess Agent卸载

异常场景: UniAccess Agent导致系统中的好多设置打不开 例如:ipv4的协议,注册表,host等等 需要进行删除,亲测有效,及多家答案平凑的 借鉴了这位大神及他里面引用的大神的内容 https://blog.csdn.net/weixin_44476410/article/details/121605455 问题描述 这个进…...

【C++】C++11——构造、赋值使用条件和生成条件

移动构造和移动赋值生成条件移动构造和移动赋值调用逻辑强制生成默认函数的关键字default禁止生成默认函数的关键字delete 移动构造和移动赋值生成条件 C11中新增的移动构造函数和移动赋值函数的生成条件为: 移动构造函数的生成条件:没有自己实现的移动…...

【LeetCode热题100】--56.合并区间

56.合并区间 排序: 如果按照区间的左端点排序,那么在排完序的列表中,可以合并的区间一定是连续的,如下图所示,标记为蓝色、黄色和绿色的区间分别可以合并为一个大区间,它们在排完序的列表中是连续的 算法&a…...

opencv dnn模块 示例(17) 目标检测 object_detection 之 yolo v5

在前文【opencv dnn模块 示例(16) 目标检测 object_detection 之 yolov4】介绍的yolo v4后的2个月,Ultralytics发布了YOLOV5 的第一个正式版本,其性能与YOLO V4不相伯仲。 文章目录 1、Yolo v5 和 Yolo v4 的区别说明1.1、Data Augmentation - 数据增强1…...

关于安卓SVGA浅尝(一)svgaplayer库的使用

关于安卓SVGA浅尝(一)使用 相关链接 SVGA官网 SVGA-github说明文档 背景 项目开发,都会和动画打交道,动画的方案选取,就有很多选择。如Json动画,svga动画,gif等等。各有各的优势。目前项目中…...

【LFU】一文让你弄清 Redis LFU 页面置换算法

上一次,相信大家已经知道关于 LRU 页面置换算法的思想和实现了,这里可以一键直达: 【LRU】一文让你弄清 Redis LRU 页面置换算法 Redis 的淘汰策略中,关于 LFU 页面置换算法,今天咱们来捋一捋到底思想是啥&#xff0…...

Python爬虫实战:用简单四步爬取小红书图片

小红书是一个热门的社交分享平台,汇聚了大量精美的图片。如果您希望保存或使用这些图片,本文将为您详细介绍如何使用Python爬虫轻松爬取小红书图片。 一、安装必要的库 在开始之前,确保您已经安装了以下Python库: requests&#…...

行为型模式-解释器模式

提供了评估语言的语法或表达式的方式,它属于行为型模式。这种模式实现了一个表达式接口,该接口解释一个特定的上下文。这种模式被用在 SQL 解析、符号处理引擎等。 意图:给定一个语言,定义它的文法表示,并定义一个解释…...

Linux系统编程(五):信号

参考引用 UNIX 环境高级编程 (第3版)黑马程序员-Linux 系统编程 1. 信号基础理论 1.1 概念和机制 概念 信号在生活中随处可见,如:古代战争中摔杯为号、现代战争中的信号弹、体育比赛中使用的信号枪他们都有共性:简单、不能携带大量信息、满足…...

学习路之工具--SecureCRT的下载、安装

百度盘: 链接: https://pan.baidu.com/s/1r3HjEj053cKys54DTqLM4A?pwdgcac 提取码: gcac 复制这段内容后打开百度网盘手机App,操作更方便哦 感谢大佬 简单介绍下SecureCRT SecureCRT是一款支持SSH(SSH1和SSH2)的终端仿真程序&a…...

软件定义网络-OpenvSwitch

软件定义网络(SDN)。它主要有以下三个特点: 控制与转发分离:转发平面就是一个个虚拟或者物理的网络设备,就像小区里面的一条条路。控制平面就是统一的控制中心,就像小区物业的监控室。它们原来是一起的&…...

基于Next.js与Shadcn/ui的现代Web仪表盘开发实战指南

1. 项目概述与核心价值 最近在折腾一个开源项目,叫 openclaw-dashboard ,是 anis-marrouchi 大佬在 GitHub 上开源的一个仪表盘项目。光看名字,你可能会觉得这又是一个平平无奇的“又一个仪表盘”,但实际深入把玩之后&#x…...

Overleaf实战:手把手教你用LaTeX制作符合A4排版要求的跨页长表格(含完整代码)

Overleaf实战:LaTeX跨页长表格的终极解决方案 当你正在撰写一篇包含大量数据的学术论文或技术手册时,那些横跨多页的表格往往会成为格式噩梦。表格在页面底部被生硬截断,表头在后续页面消失,页码引用混乱——这些问题不仅影响阅读…...

LinuxCNC新手到专家:5个步骤打造你的完美数控系统

LinuxCNC新手到专家:5个步骤打造你的完美数控系统 【免费下载链接】linuxcnc LinuxCNC controls CNC machines. It can drive milling machines, lathes, 3d printers, laser cutters, plasma cutters, robot arms, hexapods, and more. 项目地址: https://gitcod…...

Win11家庭版隐藏功能解锁:除了gpedit.msc,这些高级设置你也能用了

Win11家庭版隐藏功能深度解锁:从组策略到系统优化的高阶玩法 当你第一次在Win11家庭版中成功唤出组策略编辑器(gpedit.msc)时,面对密密麻麻的策略项是否感到无从下手?这就像拿到了一把万能钥匙,却不知道哪些…...

数字孪生是什么?它在数字化转型中的关键角色是什么?

数字孪生的定义与应用现状 数字孪生技术利用实时映射物理实体到虚拟空间,为各类行业提供了无缝的连接与监控。例如,在制造行业,数字孪生可以模拟生产线,帮助企业快速识别瓶颈,提高效率。在城市管理方面,城市…...

Ubuntu下编译与测试libwebsockets:从x86环境验证到嵌入式移植

1. 项目概述与背景 在嵌入式开发中,尤其是涉及到网络通信模块时,我们常常会遇到一个典型的困境:直接在资源受限的目标板(比如ARM架构的开发板)上进行代码的编译、调试和功能验证,过程往往非常痛苦。编译速…...

B站视频转文字终极指南:如何用AI工具3步搞定视频内容整理

B站视频转文字终极指南:如何用AI工具3步搞定视频内容整理 【免费下载链接】bili2text Bilibili视频转文字,一步到位,输入链接即可使用 项目地址: https://gitcode.com/gh_mirrors/bi/bili2text 你是否曾为了一段精彩的B站课程内容反复…...

3分钟拯救经典游戏:用DDrawCompat让Windows老游戏在现代系统上重生

3分钟拯救经典游戏:用DDrawCompat让Windows老游戏在现代系统上重生 【免费下载链接】DDrawCompat DirectDraw and Direct3D 1-7 compatibility, performance and visual enhancements for Windows Vista, 7, 8, 10 and 11 项目地址: https://gitcode.com/gh_mirro…...

从三维点胶机到桌面雕刻机:一个STM32+FPGA运动控制核心板的复用实战

从三维点胶机到桌面雕刻机:STM32FPGA运动控制核心板的复用实战 在工业自动化设备开发领域,运动控制器的复用性与平台化设计正成为工程师们关注的焦点。当我们完成一款基于STM32FPGA架构的运动控制核心板开发后,如何快速将其适配到不同应用场景…...

MFAPC实战:如何为你的Arduino或树莓派项目添加智能自适应预测控制?

MFAPC实战:为嵌入式项目打造轻量级智能控制引擎 在创客空间和物联网实验室里,我们常看到这样的场景:一位开发者盯着反复震荡的智能小车摇头叹气,或是面对总也调不准的温室控制系统抓耳挠腮。传统PID控制在这些复杂动态系统中往往…...