当前位置: 首页 > news >正文

AI学习记录 - gpt如何进行token化,理论知识,以GPT2为举例

AI学习记录已经发了十几篇,大佬们可以看看,如果有帮助动动小手点赞

token入门版,有空会更新具体代码操作

GPT4当中,我们提问问题是按照token进行扣费的,那到底什么是token?

在不同的语言模型当中,会有不一样的token训练方式,这却决于具体的应用场景,以GPT2为例,一共有50257个token。token就是词汇表,是训练使用到的所有的词汇。下面看下第1000个token到第1300个token之间的词汇长什么样?

。。。。。。‘ale’, ‘ĠSe’, ‘ĠIf’, ‘//’, ‘ĠLe’, ‘Ġret’, ‘Ġref’, ‘Ġtrans’,
‘ner’, ‘ution’, ‘ters’, ‘Ġtake’, ‘ĠCl’, ‘Ġconf’, ‘way’, ‘ave’,
‘Ġgoing’, ‘Ġsl’, ‘ug’, ‘ĠAmeric’, ‘Ġspec’, ‘Ġhand’, ‘Ġbetween’,
‘ists’, ‘ĠDe’, ‘oot’, ‘It’, ‘Ġear’, ‘Ġagainst’, ‘Ġhigh’, ‘gan’, ‘az’,
‘ather’, ‘Ġexp’, ‘Ġop’, ‘Ġins’, ‘Ġgr’, ‘Ġhelp’, ‘Ġrequ’, ‘ets’, ‘ins’,
‘ĠPro’, ‘ism’, ‘Ġfound’, ‘land’, ‘ata’, ‘uss’, ‘ames’, ‘Ġperson’,
‘Ġgreat’, ‘pr’, ‘Ġsign’, ‘ĠAn’, “'ve”, ‘Ġsomet’, ‘Ġser’, ‘hip’,
‘Ġrun’, ‘Ġ:’, ‘Ġter’, ‘irect’, ‘Ġfollow’, ‘Ġdet’, ‘ices’, ‘Ġfind’,
‘12’, ‘Ġmem’, ‘Ġcr’, ‘ered’, ‘ex’, ‘Ġext’, ‘uth’, ‘ense’, ‘co’,
‘Ġteam’, ‘ving’, ‘ouse’, ‘ash’, ‘att’, ‘ved’, ‘Ġsystem’, ‘ĠAs’, ‘der’,
‘ives’, ‘min’, ‘Ġlead’, ‘ĠBl’, ‘cent’, ‘Ġaround’, ‘Ġgovern’, ‘Ġcur’,
‘velop’, ‘any’, ‘Ġcour’, ‘alth’, ‘ages’, ‘ize’, ‘Ġcar’, ‘ode’, ‘Ġlaw’,
‘Ġread’, “'m”, ‘con’, ‘Ġreal’, ‘Ġsupport’, ‘Ġ12’, ‘…’, ‘Ġreally’,
‘ness’, ‘Ġfact’, ‘Ġday’, ‘Ġboth’, ‘ying’, ‘Ġserv’, ‘ĠFor’, ‘Ġthree’,
‘Ġwom’, ‘Ġmed’, ‘ody’, ‘ĠThey’, ‘50’, ‘Ġexper’, ‘ton’, ‘Ġeach’,
‘akes’, ‘Ġche’, ‘Ġcre’, ‘ines’, ‘Ġrep’, ‘19’, ‘gg’, ‘illion’, ‘Ġgrou’,
‘ute’, ‘ik’, ‘We’, ‘get’, ‘ER’, ‘Ġmet’, ‘Ġsays’, ‘ox’, ‘Ġduring’,
‘ern’, ‘ized’, ‘ared’, ‘Ġfam’, ‘ically’, ‘Ġhapp’, ‘ĠIs’, ‘Ġchar’,
‘med’, ‘vent’, ‘Ġgener’, ‘ient’, ‘ple’, ‘iet’, ‘rent’, ‘11’, ‘ves’,
‘ption’, ‘Ġ20’, ‘formation’, ‘Ġcor’, ‘Ġoffic’, ‘ield’, ‘Ġtoo’,
‘ision’, ‘Ġinf’, ‘ĠZ’, ‘the’, ‘oad’, ‘Ġpublic’, ‘Ġprog’, ‘ric’, ‘**’,
‘Ġwar’, ‘Ġpower’, ‘view’, ‘Ġfew’, ‘Ġloc’, ‘Ġdifferent’, ‘Ġstate’,
‘Ġhead’, “'ll”, ‘Ġposs’, ‘Ġstat’, ‘ret’, ‘ants’, ‘Ġval’, ‘Ġiss’,
‘Ġcle’, ‘ivers’, ‘anc’, ‘Ġexpl’, ‘Ġanother’, ‘ĠQ’, ‘Ġav’, ‘thing’,
‘nce’, ‘Wh’, ‘Ġchild’, ‘Ġsince’, ‘ired’, ‘less’, ‘Ġlife’, ‘Ġdevelop’,
‘ittle’, ‘Ġdep’, ‘Ġpass’, ‘ãĥ’, ‘Ġturn’, ‘orn’, ‘This’, ‘bers’,
‘ross’, ‘ĠAd’, ‘Ġfr’, ‘Ġresp’, ‘Ġsecond’, ‘oh’, ‘Ġ/’, ‘Ġdisc’, ‘Ġ&’,
‘Ġsomething’, ‘Ġcomple’, ‘Ġed’, ‘Ġfil’, ‘Ġmonth’, ‘aj’, ‘uc’,
‘Ġgovernment’, ‘Ġwithout’, ‘Ġleg’, ‘Ġdist’, ‘Ġput’, ‘Ġquest’, ‘ann’,
‘Ġprot’, ‘20’, ‘Ġnever’, ‘ience’, ‘Ġlevel’, ‘Ġart’, ‘Ġthings’,
‘Ġmight’, ‘Ġeffect’, ‘Ġcontro’, ‘Ġcent’, ‘Ġ18’, ‘Ġallow’, ‘Ġbelie’,
‘chool’, ‘ott’, ‘Ġincre’, ‘Ġfeel’, ‘Ġresult’, ‘Ġlot’, ‘Ġfun’, ‘ote’,
‘Ġty’, ‘erest’, ‘Ġcontin’, ‘Ġusing’, ‘Ġbig’, ‘201’, ‘Ġask’, ‘Ġbest’,
‘Ġ)’, ‘IN’, ‘Ġopp’, ‘30’, ‘Ġnumber’, ‘iness’, ‘St’, ‘lease’, ‘Ġca’,
‘Ġmust’, ‘Ġdirect’, ‘Ġgl’, ‘Ġ<’, ‘Ġopen’, ‘Ġpost’, ‘Ġcome’, ‘Ġseem’,
‘ording’, ‘Ġweek’, ‘ately’, ‘ital’, ‘Ġel’, ‘riend’, ‘Ġfar’, ‘Ġtra’,
‘inal’, ‘Ġpri’, ‘ĠUS’, ‘Ġplace’, ‘Ġform’, ‘Ġtold’, ‘":’, ‘ains’
。。。。。。

这个词汇表不是天生就有的,而是通过文本语料训练出来的。

训练的基础是使用utf-8编码。

utf-8编码是机器对计算机文本的一种表示形式,目前可以表示计算机世界当中的所有文本。如下举例:

在这里插入图片描述

上面举例的是英文,一个字符都可以用一个整数来表示,有的复杂字符需要2到4位自字符表示。如下,都是utf-8:
中 [228 184 173] 三个字节表示
¢ [194 162] 两个字节表示

假如在大量的文本训练当中,通过一些算法,计算出经常出现在一起的词汇,例如 “骑车” 二字

骑 [233, 170, 145] , 车 [232, 189, 166]

根据出现的频率,这两个单词出现的概率非常大,那么就合并成一个词汇 [233, 170, 145, 232, 189, 166]

当一篇文章有100个词,那么转换成的utf-8编码数组的数组长度肯定是>=100的,然后经过一些算法,
发现 [ 233, 170, 145, 232, 189, 166 ] 这几个整数数组经常在一起,就把他们组合成一个token,然后将他放到我们的token词汇表当中

(位置:14430,token:“骑车”,utf8编码:[233, 170, 145, 232, 189, 166]) // 假设

经过大量的高频的词汇查找然后合并词汇,就构成了50257个token。

所以GPT-4当中,按照token计费,准确来说,一个token有可能代表一个字母,半个词,一个词,也有可能代表几个词。

相关文章:

AI学习记录 - gpt如何进行token化,理论知识,以GPT2为举例

AI学习记录已经发了十几篇&#xff0c;大佬们可以看看&#xff0c;如果有帮助动动小手点赞 token入门版&#xff0c;有空会更新具体代码操作 GPT4当中&#xff0c;我们提问问题是按照token进行扣费的&#xff0c;那到底什么是token&#xff1f; 在不同的语言模型当中&#x…...

Java线程池和执行流程

在 Java 中&#xff0c;常见的四种线程池包括&#xff1a; 1. newFixedThreadPool&#xff08;固定大小线程池&#xff09; 应用场景&#xff1a;适用于需要限制线程数量&#xff0c;并且任务执行时间比较均匀的场景&#xff0c;例如服务器端的连接处理。优点&#xff1a;线程数…...

进程信号的产生与处理

目录 前言 一.信号的概念 二.信号的产生 1.键盘产生 2.系统调用 3.软件条件 4.异常 三.信号的保存 四.信号的处理 信号处理的方式 设定屏蔽信号 自定义处理信号 信号处理的时机 前言 进程信号&#xff08;Process Signals&#xff09;是操作系统与运行进程之间进行通…...

统一响应结果封装,Result类的实现【后端 06】

统一响应结果封装&#xff0c;Result类的实现 在开发Web应用或API接口时&#xff0c;如何优雅地处理并返回响应结果是每个开发者都需要考虑的问题。统一响应结果封装&#xff08;Unified Response Encapsulation&#xff09;作为一种广泛采用的实践&#xff0c;不仅提高了API的…...

明日周刊-第20期

本周异形新电影上映&#xff0c;开始期待起来了&#xff0c;毕竟这是一个经久不衰的ip。还有就是马上来临的黑神话悟空&#xff0c;属于我们自己的3A大作&#xff0c;接下去的每一天都是新的期待。 文章目录 科技短讯资源分享随便说说一点心情 科技短讯 科技创新与突破 人工智…...

深入剖析 Spring 常用注解:功能与差异的全景洞察

《深入剖析 Spring 常用注解&#xff1a;功能与差异的全景洞察》 在当今的 Java 开发领域&#xff0c;Spring 框架无疑是最广泛使用的框架之一。而在 Spring 中&#xff0c;注解的运用极大地简化了开发流程&#xff0c;提高了代码的可读性和可维护性。本文将深入探讨 Spring 中…...

【隐私计算篇】隐私计算使用不当也会泄露原始数据

1. 背景信息 有个有趣的问题&#xff0c;刚好最近有讨论到&#xff0c;在这里也抛一下&#xff0c;就是隐私计算中我们经常谈到主流的一些技术&#xff0c;比如联邦学习、多方安全计算、安全求交、匿踪查询、可信执行环境等&#xff0c;然后笼统地会称这些技术实现了对隐私…...

C++第一讲:开篇

C第一讲&#xff1a;开篇 1.C历史背景1.1C创世主--本贾尼1.2C版本更新1.3C的重要性1.4C书籍推荐 2.C的第一个程序3.命名空间3.1namespace是什么3.2namespace的使用3.3namespace使用注意事项3.4命名空间的使用 4.C输入和输出5.缺省参数6.函数重载7.引用7.1什么是引用7.2引用的定…...

OceanBase V4.2特性解析:MySQL模式下GIS空间表达式的场景及能力解析

1. 背景 1.1. OceanBase Mysql gis空间表达式的应用场景及能力 在OceanBase 4.1版本中&#xff0c;mysql模式下支持了gis数据类型以及部分空间对象相关的表达式&#xff0c;随着客户使用空间数据的需求日益增长&#xff0c;需要快速地补齐空间数据存储和计算分析的能力&#…...

HSL模型和HSB模型,和懒人配色的Color Hunt

色彩不仅仅是视觉上的享受&#xff0c;它在数据可视化中也扮演着关键角色。通过合理运用色彩模型&#xff0c;我们可以使数据更具可读性和解释性。在这篇文章将探讨HSL&#xff08;Hue, Saturation, Lightness&#xff09;和HSB&#xff08;Hue, Saturation, Brightness&#x…...

什么是云原生?(二)

1. 云原生的定义 云原生指构建和运行应用以充分利用通过云技术交付模式交付的分布式计算。云原生应用旨在充分利用云技术平台特有的可扩展性、弹性和灵活性优势。 根据云原生计算基金会 (CNCF) 的定义&#xff0c;云原生技术可帮助企业在公有云、私有云和混合云环境中构建和…...

pytorch 47 模型剪枝实战|基于torch-pruning库代码对yolov10n模型进行剪枝

torch-pruning官方提供了基于yolov8的剪枝代码,基于此代码改进博主实现了对yolov10n模型的剪枝。虽然实现了对yolov10n模型的剪枝,剪枝目标为移除60%的通道,然而实验是失败的,针对coco数据集进行操作,剪枝前的模型map时37,剪枝后只能恢复到22,比预计下降了15个点,剪枝后…...

LeetCode_sql_day15(262.行程与用户)

描述&#xff1a;262. 行程和用户 - 力扣&#xff08;LeetCode&#xff09; 取消率 的计算方式如下&#xff1a;(被司机或乘客取消的非禁止用户生成的订单数量) / (非禁止用户生成的订单总数)。 编写解决方案找出 "2013-10-01" 至 "2013-10-03" 期间非禁止…...

【MySQL】详解数据库约束、聚合查询和联合查询

数据库约束 约束类型 数据库的约束类型主要包括以下几种&#xff1a; 主键约束&#xff08;Primary Key Constraint&#xff09;&#xff1a;确保表中的每一行都有唯一的标识&#xff0c;且不能为NULL。 外键约束&#xff08;Foreign Key Constraint&#xff09;&#xff1a…...

bug积累

1.只写 int p[len1 len2]; 时&#xff0c;实际上是在使用 C99 标准中引入的变长数组&#xff08;VLA, Variable Length Array&#xff09;的特性。变长数组允许在栈上分配其大小在运行时确定的数组。这意味着 len1 和 len2 的值可以在程序运行时确定&#xff0c;但仍然可以用来…...

版本控制案例:全球虚拟制片领导者Dimension借助Perforce Helix Core简化多供应商协作,控制访问权限,确保数据资产安全(下)

创建虚拟世界和人物角色需要一系列的软件工具。但最终愿景很少是由单一工作室独立完成的。对于大型项目&#xff0c;工作室需要通力合作&#xff0c;将全球的团队成员和数字资产联合起来。 Dimension Studio——体积内容捕捉和虚拟制片领域的领导者——不断将新技术和新方法融…...

Anaconda配置envs和pcks路径

问题 原先Anaconda安装在C盘&#xff0c;安装很多包后只剩几个G了&#xff0c;为了给C盘腾空间&#xff0c;卸载后重新安装在了D盘&#xff0c;但是创建了新环境后发现环境位置依旧在C盘&#xff0c;安装新的包仍然会占用C盘空间。 解决办法 查看conda的配置信息 执行如下命…...

推荐10个在线搭建框架平台

前言 在开发项目的时候&#xff0c;首先就是要搭建一个框架。这个框架可以是纯技术框架&#xff0c;也可以具备一定功能的开源框架。但是在搭建框架的时候&#xff0c;版本的冲突&#xff0c;环境的配置等是新手们一直头痛的问题&#xff0c;在构建开源框架的时候&#xff0c;…...

Linux Shell--函数

前言&#xff1a;本博客仅作记录学习使用&#xff0c;部分图片出自网络&#xff0c;如有侵犯您的权益&#xff0c;请联系删除 一、简介 Shell 函数是一段可以重复使用的代码块&#xff0c;通过定义函数可以避免代码重复&#xff0c;提高脚本的可读性和可维护性。 二、定义函数…...

漏洞复现-CVE-2023-42442:JumpServer未授权访问漏洞

概述 JumpServer存在一个未授权访问漏洞。具体来说&#xff0c;/api/v1/terminal/sessions/ API端点的权限控制存在逻辑错误&#xff0c;允许攻击者匿名访问。未经身份验证的远程攻击者可以利用此漏洞下载SSH日志&#xff0c;并可能借此远程窃取敏感信息。值得注意的是&#x…...

【数据结构之带头双向循环链表的实现】

1.链表的分类 链表的结构有多种多样&#xff0c;以下情况组合起来就有8种&#xff08;2x2x2&#xff09;链表结构&#xff1a; 虽然有这么多的链表结构&#xff0c;但是我们实际中最常用的还是两种结构&#xff1a;单链表和双向带头循环链表。 无头单向非循环链表&#xff1a;结…...

【docker】docker数据卷与网络部署服务

Docker 网络模式 选择网络模式 Host Mode (主机模式) 特点: 容器与宿主机共享网络命名空间操作: docker run --nethost ... Container Mode (容器模式) 特点: 容器与指定容器共享网络命名空间操作: docker run --netcontainer:<container-id-or-name> ... None Mode (无…...

Spring MVC框架学习笔记

学习视频:10001 Spring MVC概述_哔哩哔哩_bilibili~11005 请求映射方式_哔哩哔哩_bilibili 目录 1.概述 Java EE三层架构 Spring MVC在三层架构中的位置 ​编辑 Spring MVC在表现层的作用 Spring MVC的特点 2.Spring MVC入门程序 代码实现 Spring MVC工作原理 Spring …...

LeetCode 100道题目和答案(面试必备)(一)

1.两数之和 给定一个整数数组 nums 和一个整数目标值 target&#xff0c;请你在该数组中找出 和为目标值 target 的那 两个 整数&#xff0c;并返回它们的数组下标。 你可以假设每种输入只会对应一个答案。但是&#xff0c;数组中同一个元素在答案里不能重复出现。 你可以按…...

OpenGL投影矩阵

OpenGL Projection Matrix OpenGL投影矩阵...

Linux中的`make`与`Makefile`:项目自动化构建工具

Linux中的make与Makefile&#xff1a;项目自动化构建工具 在Linux及类Unix系统中&#xff0c;make是一种广泛使用的自动化构建工具&#xff0c;它通过读取和执行Makefile&#xff08;或makefile&#xff0c;文件名不区分大小写&#xff09;中的指令来自动化编译和构建程序。Ma…...

GitHub开源项目精选:轻量级预约/预订日历组件,用React和TypeScript构建

在日常开发中&#xff0c;我们经常需要在项目中添加预约或预订功能。今天给大家推荐一个超级轻量级的预约/预订日历组件&#xff0c;它是用React和TypeScript构建的&#xff0c;非常适合那些需要简单易用的日历解决方案的开发者。 安装方法&#xff1a; 你可以选择使用npm或者y…...

闲钱放在哪里?收益稳定且又高!

家庭理财&#xff0c;最大的问题就是&#xff0c;手里这点闲钱&#xff0c;说多不多&#xff0c;但打理起来&#xff0c;还真的很”挠头“。 放银行&#xff0c;存款利率接二连三下调&#xff0c;利息又又又要变少了&#xff01; 投资出去&#xff0c;看着到处的雷声隆隆&…...

【Linux】简易线程池项目

线程池是一个可以巩固一些线程相关接口 && 加强理解的一个小项目。 注意&#xff1a;这里的线程池使用的线程并不是Linux原生接口&#xff0c;而是经过封装的&#xff0c;具体请看线程封装&#xff0c;为什么不使用原生接口&#xff1f; 因为原生接口一旦进行pthread…...

基于vue框架的NBA球星管理系统1878g(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。

系统程序文件列表 项目功能&#xff1a;用户,球员,球员数据,榜单类型,联盟榜单,重要比赛回放,精彩时刻视频,视频专栏,本赛季赛程,十佳球,投票信息,投票结果 开题报告内容 基于Vue框架的NBA球星管理系统 开题报告 一、选题背景 随着互联网的普及和体育产业的蓬勃发展&#x…...