当前位置：首页 > news >正文

大模型：如何利用旧的tokenizer训练出一个新的来？

news 2026/2/9 13:15:45

背景：

我们在用chatGPT或者SD的时候，发现如果使用英语写提示词得到的结果比我们使用中文得到的结果要好很多，为什么呢？这其中就有一个叫做tokenizer的东西在作怪。

训练一个合适的tokenizer是训练大模型的基础，我们既可以从头开始训练一个全新的tokenizer，也可以利用旧的tokenizer训练出一个新的来，今天就让我们看看如何来以旧换新。

第一步：数据准备

不管是训练大模型，还是训练tokenizer，首先都需要我们准备数据集：

from datasets import load_dataset
#加载数据集
raw_datasets = load_dataset("code_search_net", "python")#写一个迭代函数，分配加载数据，防止数据集太大导致内存溢出
def get_training_corpus():return (raw_datasets["train"][i : i + 1000]["whole_func_string"]for i in range(0, len(raw_datasets["train"]), 1000))training_corpus = get_training_corpus()

第二步：训练

#加载旧的tokenizer
old_tokenizer = AutoTokenizer.from_pretrained("gpt2")
#进行训练
tokenizer = old_tokenizer.train_new_from_iterator(training_corpus, 52000)

第三步：保存

tokenizer.save_pretrained("code-search-net-tokenizer")

第四步：使用

tokenizer = AutoTokenizer.from_pretrained("huggingface-course/code-search-net-tokenizer")

总结：

1、利用AutoTokenizer.train_new_from_iterator()可以很轻松的使用我们自己的数据集来根据旧的tokenizer来训练出一个全新的tokenizer

2、如果我们需要的语言中没有可用的大语言模型，或者我们要预测的数据集与我们选择的大语言模型训练的数据集非常不同，我们就需要使用适合我们的数据的tokenizer从头开始重新训练模型。

大模型：如何利用旧的tokenizer训练出一个新的来？

背景： 我们在用chatGPT或者SD的时候，发现如果使用英语写提示词得到的结果比我们使用中文得到的结果要好很多，为什么呢？这其中就有一个叫做tokenizer的东西在作怪。训练一个合适的tokenizer是训练大模型的基础，我们既…...

编程日记 2023/9/19 21:21:51

【LeetCode-中等题】107. 二叉树的层序遍历 II

文章目录题目方法一：队列层序迭代题目方法一：队列层序迭代解题详情：【LeetCode-中等题】102. 二叉树的层序遍历 res.add(0,zres); //效果是将 zres 列表作为 res 的第一个子列表，并将其它原本在第一位置及之后的子列表向后移…...

编程日记 2023/9/19 21:19:48

斯坦福联合培养博士|专科生的逆袭之路

从山东医学高等专科学校到首都医科大学附属北京天坛医院神经外科博士，再到斯坦福医学院神经外科联合培养博士，知识人网小编带大家看看何世豪通往成功的逆袭之路。上面照片中这位戴眼镜的主人公就是何志豪，他从山东医学高等专科学校考入泰山医…...

编程日记 2023/9/19 21:18:47

Verilog中parameter在仿真时的应用

parameter能够定义一个常量例如 parameter [7:0]A 8d123; 在仿真时我们可以用它来改变模块的参数，而不会影响综合的结果。考虑下面的模块，输入时钟是clk，频率为24MHz，输出一个1Hz的方波驱动小灯让其闪烁 module test1(in…...

编程日记 2023/9/19 21:17:46

v-model绑定导致的element UI文本框输入第一次值后被绑定，导致空文本框无法再输入文字

在工作岗位上，上边分配一个任务，创建一个页面，从0-1，全部自己搭建，也没有啥模版，就这么来，那就直接来吧，没办法，那就直接上手，开发过程中，我使用了…...

编程日记 2023/9/19 21:12:41

数据结构——KD树

KD树（K-Dimensional Tree）是一种用于多维空间的二叉树数据结构，旨在提供高效的数据检索。KD树在空间搜索和最近邻搜索等问题中特别有用，允许在高维空间中有效地搜索数据点。重要性质 1.分割K维数据空间的数据结构 2.是一颗二叉树…...

编程日记 2023/9/19 21:10:39

python趣味编程-恐龙克隆游戏

Python 中使用 Turtle 的恐龙克隆游戏免费源代码使用 Turtle 的恐龙克隆游戏是一个用Python编程语言编码的桌面游戏应用程序。该项目包含在 Chrome 浏览器中克隆实际恐龙游戏的多种功能。该项目可以使正在修读 IT 相关课程的学生受益。这个应用程序非常有趣，可以帮助您学习创…...

编程日记 2023/9/19 21:08:37

【漏洞复现】泛微e-office OfficeServer2.php 存在任意文件读取漏洞复现

文章目录前言声明一、漏洞描述二、漏洞分析三、漏洞复现四、修复建议前言泛微e-office OfficeServer2.php 存在任意文件读取漏洞，攻击者可通过构造特定Payload获取敏感数据信息。声明请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息或者工具而造…...

编程日记 2023/9/19 21:07:37

基于Yolov8的野外烟雾检测（4）：通道优先卷积注意力（CPCA），效果秒杀CBAM和SE等 | 中科院2023最新发表

目录 1.Yolov8介绍 2.野外火灾烟雾数据集介绍 3.CPCA介绍 3.1 CPCA加入到yolov8 4.训练结果分析 5.系列篇 1.Yolov8介绍 Ultralytics YOLOv8是Ultralytics公司开发的YOLO目标检测和图像分割模型的最新版本。YOLOv8是一种尖端的、最先进的（SOTA）模型&a…...

编程日记 2023/9/19 21:04:34

程序员必掌握的核心算法：提升编程技能的关键路径

一：引言作为程序员，算法是我们编程生涯中的灵魂。算法是解决问题的方法和步骤，它们在计算机科学中扮演着至关重要的角色。无论你是初学者还是经验丰富的专业人士，都需要掌握一些核心算法，因为它们在各种应用场景中频…...

编程日记 2023/9/19 21:01:30

面试算法10：和为k的子数组

题目输入一个整数数组和一个整数k，请问数组中有多少个数字之和等于k的连续子数组？例如，输入数组[1，1，1]，k的值为2，有2个连续子数组之和等于2。分析在从头到尾逐个扫描数组中的数字时求出前…...

编程日记 2023/9/19 21:00:29

王道考研操作系统

王道考研操作系统计算机系统概述操作系统的概念操作系统的特征操作系统的发展历程操作系统内核中断和异常![在这里插入图片描述](https://img-blog.csdnimg.cn/162452b4c60144e0bd500e180127c447.png)系统调用操作系统结构虚拟机错题进程与线程进程控制进程通信线程和多线程模…...

编程日记 2023/9/19 20:55:22

HEXO 基本使用

1 新建、编辑并预览文章 1. 新建文章 hexo new [layout] title # 或 hexo n [layout] title创建文章前要先选定模板，在hexo中也叫做布局。hexo支持三种布局（layout）：post(默认)、draft、page。我们先介绍如何使用已有布局…...

编程日记 2023/9/19 20:53:20

Webpack Sourcemap文件泄露漏洞

Webpack Sourcemap文件泄露漏洞前言一、Webpack和Sourcemap1.1 什么是Webpack1.2 什么是Sourcemap二、漏洞利用2.1 使用reverse-sourcemap工具2.1 直接看前端代码三、漏洞挖掘漏洞修复前言 Webpack主要是用于前端框架进行打包的工具，打包后形成.js.map文件，如果.js.map文件…...

编程日记 2023/9/19 20:52:19

WebGL层次模型——单节点模型

目录多个简单模型组成的复杂模型层次结构模型单关节模型 JointModel程序中模型的层次结构示例程序（JointMode.js） 代码详解绘制层次模型（draw（）） 程序效果多个简单模型组成的复杂模型绘制…...

编程日记 2023/9/19 20:51:19

【链表】反转链表 II-力扣 92 题

💝💝💝欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kuan 的首页,持续学…...

编程日记 2023/9/19 20:49:16

【考研数学】高等数学第六模块 —— 空间解析几何（1，向量基本概念与运算）

文章目录引言一、空间解析几何的理论1.1 基本概念1.2 向量的运算写在最后引言我自认空间想象能力较差，所以当初学这个很吃力。希望现在再接触，能好点。一、空间解析几何的理论 1.1 基本概念 1.向量 —— 既有大小，又有方向的量称为向…...

编程日记 2023/9/19 20:48:15

巨人互动|Facebook海外户Facebook客户反馈分数

Facebook客户反馈分数是一项用于衡量用户对Facebook产品和服务满意度的指标。该指标被广泛应用于各种调研和评估活动，帮助Facebook了解用户对其平台和功能的意见和建议，并从中识别出改进的机会。巨人互动|Facebook海外户&Facebook新闻提要的算法&am…...

编程日记 2023/9/19 20:46:13

Tomcat多实例部署和动静分离

一、多实例部署： 多实例：多实例就是在一台服务器上同时开启多个不同的服务端口，同时运行多个服务进程，这些服务进程通过不同的socket监听不同的服务端口来提供服务。 1.前期准备： 1.关闭防火墙：systemctl …...

编程日记 2023/9/19 20:45:12

关于 C/C++ 中在指针前加 const 关键字的作用说明

1. 作用说明： 在指针前加 const 的用途为：不可改变指针指向的内存的值，即将该指向指向的内存中的变量置为只读（read-only) 变量。但是，可以给 const 的指针赋值，即将具有 const 属性的指针指向别的内存地…...

编程日记 2023/9/19 20:43:10

7.4.分块查找

一.分块查找的算法思想： 1.实例： 以上述图片的顺序表为例， 该顺序表的数据元素从整体来看是乱序的，但如果把这些数据元素分成一块一块的小区间， 第一个区间[0,1]索引上的数据元素都是小于等于10的， 第二…...

编程新知 2026/2/8 20:43:02

Linux链表操作全解析

Linux C语言链表深度解析与实战技巧一、链表基础概念与内核链表优势1.1 为什么使用链表？1.2 Linux 内核链表与用户态链表的区别二、内核链表结构与宏解析常用宏/函数三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势5.1 插入效率5.2 安全…...

编程新知 2025/12/3 20:14:32

【入坑系列】TiDB 强制索引在不同库下不生效问题

文章目录背景SQL 优化情况线上SQL运行情况分析怀疑1：执行计划绑定问题？尝试：SHOW WARNINGS 查看警告探索 TiDB 的 USE_INDEX 写法Hint 不生效问题排查解决参考背景项目中使用 TiDB 数据库，并对 SQL 进行优化了，添加了强制索引。 UAT 环境已经生效，但 PROD 环境强制索…...

编程新知 2026/1/31 21:56:58

python/java环境配置

环境变量放一起 python： 1.首先下载Python Python下载地址：Download Python | Python.org downloads ---windows -- 64 2.安装Python 下面两个，然后自定义，全选可以把前4个选上 3.环境配置 1）搜高级系统设置 2…...

编程新知 2026/1/24 14:23:08

云原生玩法三问：构建自定义开发环境

云原生玩法三问：构建自定义开发环境引言临时运维一个古董项目，无文档，无环境，无交接人，俗称三无。运行设备的环境老，本地环境版本高，ssh不过去。正好最近对腾讯出品的云原生 cnb 感兴趣&…...

编程新知 2026/2/2 9:25:26

基于Springboot+Vue的办公管理系统

角色： 管理员、员工技术： 后端: SpringBoot, Vue2, MySQL, Mybatis-Plus 前端: Vue2, Element-UI, Axios, Echarts, Vue-Router 核心功能： 该办公管理系统是一个综合性的企业内部管理平台，旨在提升企业运营效率和员工管理水…...

编程新知 2026/1/31 8:55:37

渗透实战PortSwigger Labs指南：自定义标签XSS和SVG XSS利用

阻止除自定义标签之外的所有标签先输入一些标签测试，说是全部标签都被禁了除了自定义的自定义<my-tag onmouseoveralert(xss)> <my-tag idx onfocusalert(document.cookie) tabindex1> onfocus 当元素获得焦点时（如通过点击或键盘导航&…...

编程新知 2026/2/5 18:48:19

基于stm32F10x 系列微控制器的智能电子琴（附完整项目源码、详细接线及讲解视频）

注：文章末尾网盘链接中自取成品使用演示视频、项目源码、项目文档所用硬件：STM32F103C8T6、无源蜂鸣器、44矩阵键盘、flash存储模块、OLED显示屏、RGB三色灯、面包板、杜邦线、usb转ttl串口 stm32f103c8t6 面包板 …...

编程新知 2026/1/26 9:04:42

LUA+Reids实现库存秒杀预扣减记录流水以及自己的思考

目录 lua脚本记录流水记录流水的作用流水什么时候删除我们在做库存扣减的时候，显示基于Lua脚本和Redis实现的预扣减这样可以在秒杀扣减的时候保证操作的原子性和高效性 lua脚本 // ... 已有代码 ...Overridepublic InventoryResponse decrease(Inventor…...

编程新知 2025/9/24 10:06:05

FTXUI::Dom 模块

DOM 模块定义了分层的 FTXUI::Element 树，可用于构建复杂的终端界面，支持响应终端尺寸变化。 namespace ftxui {...// 定义文档定义布局盒子 Element document vbox({// 设置文本设置加粗设置文本颜色text("The window") | bold | color(…...

编程新知 2025/12/22 18:59:47

相关文章：