当前位置：首页 > news >正文

ChatGPT如何计算token数？

news 2025/12/16 6:46:50

GPT 不是适用于某一门语言的大型语言模型，它适用于几乎所有流行的自然语言。所以 GPT 的 token 需要兼容几乎人类的所有自然语言，那意味着 GPT 有一个非常全的 token 词汇表，它能表达出所有人类的自然语言。如何实现这个目的呢？

答案是通过 unicode 编码。

Unicode（统一码、万国码、单一码）是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

以下的网址可以计算一个语料的tokens数目：

https://platform.openai.com/tokenizerhttps://platform.openai.com/tokenizer

有两个问题：

汉字是怎么编码的？
编码和模型是否相关？

虽然 GPT-3.5 的代码和模型权重并未开源，但是 tokenizer 部分是开源到 GitHub - openai/tiktoken: tiktoken is a fast BPE tokeniser for use with OpenAI's models.tiktoken is a fast BPE tokeniser for use with OpenAI's models. - GitHub - openai/tiktoken: tiktoken is a fast BPE tokeniser for use with OpenAI's models.https://github.com/openai/tiktoken 的，这是一个 BPE（Byte-Pair Encoding tokenization）方法的 tokenizer。

关于第一个问题，ChatGPT 是一个多语言模型，因此编码的问题不局限于汉字。tiktoken 的词表绝大多数是英文子词，并包含少量 unicode token 和表示字节的 token，以 UTF-8 的形式表示多语言。

关于第二个问题，不同的 OpenAI 模型采用了不同的编码方式。

GPT-4、GPT-3.5-turbo 等模型采用的是 cl100k_base，词表 100k 大小。
text-davinci 系列采用的是 p50k_base，词表大小 50k。
还有一些其他模型采用了 r50k_base。
更早的 GPT-2 有单独的编码方式，也开源在 HuggingFace。

https://github.com/openai/tiktoken/blob/main/tiktoken/model.pyhttps://github.com/openai/tiktoken/blob/main/tiktoken/model.py作用：

用tiktoken进行token计数

OpenAI的模型都有token限制。有时在将文本传递给API之前，需要计算字符串中的token数量，以确保不超过该限制。其中，一个需要计算token数量的技术是“检索增强生成（Retrieval Augmented Generation）”，通过对文档语料库运行搜索（或嵌入搜索）来回答用户的问题，提取最有可能的内容，并将其作为上下文涵盖在prompt中。成功实现这种模式的关键是，在token限制内包含尽可能多的相关上下文，因此需要能够计算token数量。OpenAI提供了一个名为tiktoken（https://github.com/openai/tiktoken）的Python库来实现这一功能。如果你深入研究这个库，就会发现它目前包括五种不同的切分方案：r50k_base、p50k_base、p50k_edit、cl100k_base和gpt2。其中，cl100k_base是最相关的，它是GPT-4和当前ChatGPT使用的经济型gpt-3.5-turbo模型的tokenizer。text-davinci-003 使用的是p50k_base 。在tiktoken/model.py 的MODEL_TO_ENCODING 词典中可以找到模型与tokenizer的完整映射。

ChatGPT如何计算token数？

https://github.com/openai/tiktoken/blob/main/tiktoken/model.pyhttps://github.com/openai/tiktoken/blob/main/tiktoken/model.py作用：

用tiktoken进行token计数

相关文章：

ChatGPT如何计算token数？

页面菜单，通过get请求一个url后，跳转另外一个页面，+丢失问题

高并发场景下的延时双删

log4js-node在nodejs项目中的使用示例

Java_集合进阶(Collection和List系列)

QT GUI代码大全(MainWindow, QFile, QPainter, QGraphicsItem/Scene/View)

C# Onnx Yolov8 Detect 物体检测多张图片同时推理

学习使用js保留两位小数同时去掉小数末尾多余的00

linux驱动的学习驱动开发初识

Node.js中npm中ws的WebSocket协议的实现

PHP HTTPoxy CGI 应用程序漏洞 CVE-2016-5385

qt-C++笔记之使用QLabel和QPushButton实现一个bool状态的指示灯

自动驾驶技术入门平台分享：百度Apollo开放平台9.0全方位升级

Elementor Pro v3.18.1和（完整模板套件）介绍说明

Windows如何安装使用TortoiseSVN客户端并实现公网访问本地SVN Server

Mybatis配置-映射器（mappers）

python 音视频合并

HttpUtils——助力高效网络通信

WAF绕过常见方法

SpringCloud微服务【实用篇】| Docker镜像、容器、数据卷操作

conda相比python好处

在鸿蒙HarmonyOS 5中实现抖音风格的点赞功能

基于当前项目通过npm包形式暴露公共组件

多模态商品数据接口：融合图像、语音与文字的下一代商品详情体验

高等数学（下）题型笔记（八）空间解析几何与向量代数

前端开发面试题总结-JavaScript篇(一)

鸿蒙DevEco Studio HarmonyOS 5跑酷小游戏实现指南

Redis：现代应用开发的高效内存数据存储利器

[ACTF2020 新生赛]Include 1(php://filter伪协议)

android13 app的触摸问题定位分析流程