当前位置：首页 > article >正文

大语言模型中的 Token：它们是什么，如何工作？

article 2026/3/28 7:06:51

引言

如果你使用过 ChatGPT 这样的 AI 工具，你可能会好奇：它是如何理解并生成文字的？大语言模型（LLM，Large Language Model）并不是直接处理整个句子或文章，而是拆分成一个个 Token（标记）来进行计算。那么，什么是 Token？它们在大语言模型中起到什么作用？这篇文章将用通俗易懂的语言帮你解开这些谜团。

1. 什么是 Token？

在大语言模型的世界里，Token（标记）是文本的最小单位，就像字母是单词的组成部分，Token 是大模型理解文本的基本“积木”。

一般来说，Token 可以是：

一个完整的单词（在英语等语言中，常见的单词可能被视为一个 Token，例如 “Hello”）。
一个单词的一部分（在更复杂的单词拆分方法下，“unbelievable” 可能被拆分成 “un”, “believ”, “able”）。
一个标点符号（例如 “.”, “,”, “!”）。
一个空格（某些模型会把空格也视为 Token）。
一个汉字（在中文等语言中，常见做法是将每个汉字作为一个 Token，例如 “你好” 被视为两个 Token）。

2. 为什么需要 Token？

计算机并不直接理解人类的语言，而是通过数字处理信息。大语言模型需要一种方法把句子转换成计算机能理解的格式，而 Token 化（Tokenization）就是这个过程的关键步骤。

举个例子：
假设你输入了一句话：

“ChatGPT 是一个很强大的 AI”

模型不会直接处理整个句子，而是会先把它拆分成 Token。例如：

“ChatGPT”
“是”
“一个”
“很”
“强大”
“的”
“AI”

然后，这些 Token 会被转换成 数字 ID，比如：

["ChatGPT", "是", "一个", "很", "强大", "的", "AI"]  
→ [48231, 271, 593, 1198, 3421, 12, 31924]

这些数字 ID 就是模型实际操作的数据，它们会作为输入送入神经网络进行处理。

3. Token 在大模型中的作用

Token 的作用主要体现在以下几个方面：

3.1 作为输入单位

当你输入一段文本时，模型会先把它转换成 Token，然后再进行处理。例如：

“我喜欢编程”

可能会被拆分成：

["我", "喜欢", "编程"]

接着，模型会将这些 Token 转换成向量（数学表达），然后通过神经网络计算输出结果。

3.2 影响计算成本

大模型的计算量和 Token 的数量直接相关。一般来说，Token 越多，模型处理的时间越长，消耗的算力越大。

比如：

“Hello”（1 个 Token）
“Unbelievable”（可能是 3 个 Token）
“今天天气很好”（4 个 Token，每个汉字单独算）

如果你使用 ChatGPT，你可能注意到 “每次对话有 Token 限制”，这是因为处理太多 Token 需要大量计算资源。

3.3 影响生成效果

当大模型生成文本时，它是逐个 Token 预测下一个 Token。例如：

“人工智能正在改” → “人工智能正在改变世界”

模型可能会预测多个可能的 Token，例如：

“变”（概率 80%）
“造”（概率 10%）
“善”（概率 5%）

然后，它会选择概率最高的 Token 继续生成。

4. Token 的具体实例

我们来看看不同的 Tokenization 方法，以及它们如何影响模型的理解。

4.1 英语 Token 化

英语单词有不同的形式，因此常用 子词（Subword） 拆分。例如：

“playing” → “play” + “ing”
“unbelievable” → “un” + “believ” + “able”

这样可以减少 Token 数量，提高模型的学习效率。

4.2 中文 Token 化

中文没有空格，直接按字切分是最常见的方法。例如：

“我爱学习人工智能” → [“我”, “爱”, “学习”, “人工”, “智能”]

但也可以用 词级别 切分：

[“我爱”, “学习”, “人工智能”]

不同的 Token 化方式会影响模型的理解效果。

4.3 特殊 Token

在大模型中，还会使用一些特殊 Token 来处理特定任务：

[CLS]（分类 Token）：用于分类任务，比如情感分析。
[SEP]（分隔 Token）：用于分割句子，比如问答任务。
[PAD]（填充 Token）：用于对齐文本长度，避免计算浪费。

5. Token 对大模型的逻辑影响

Token 的使用方式决定了大模型的逻辑处理方式：

输入 Token 被编码：输入的文本会被拆成 Token，并转换成向量。
模型计算 Token 之间的关系：通过 自注意力机制（Self-Attention），模型学习不同 Token 之间的联系。
逐步生成新 Token：对于生成任务（如写文章），模型会逐步预测下一个 Token，并不断扩展文本。

换句话说，Token 就像拼图块，模型的任务是找到它们之间的最佳组合方式，从而生成有逻辑的文本。

6. 结论

Token 是大语言模型理解和生成文本的基础单位。通过 Token：

计算机可以把文本转换为数值数据，进行数学运算。
大语言模型可以更高效地处理文本，提高计算效率。
生成内容时，可以根据上下文逐步预测最佳 Token，确保语言的连贯性。

了解 Token 的概念，可以帮助你更好地理解大语言模型的工作原理。如果你对 AI 感兴趣，可以尝试使用 Tokenizer 工具，把不同的句子转换成 Token，看看它们是如何被拆分的！

7. 参考文献

“Attention Is All You Need” - Vaswani et al. (2017)
“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” - Devlin et al. (2018)
“GPT-3: Language Models are Few-Shot Learners” - OpenAI (2020)
“The Tokenization Process in Large Language Models” - AI Research Papers (2023)

大语言模型中的 Token：它们是什么，如何工作？

引言如果你使用过 ChatGPT 这样的 AI 工具，你可能会好奇：它是如何理解并生成文字的？大语言模型（LLM，Large Language Model）并不是直接处理整个句子或文章，而是拆分成一个个 Token（…...

编程日记 2026/1/7 9:43:43

DeepSeek的无限可能

DeepSeek的无限可能 DeepSeek简介DeepSeek定义DeepSeek的发展历程DeepSeek的核心功能如何使用DeepSeek注册与安装模型使用原则提示语的使用人机共生 DeepSeek简介 DeepSeek定义 DeepSeek（中文名：深度求索）是一款由杭州深度求索人工智能基…...

编程日记 2026/3/17 21:33:27

【wordpress】服务器已有LNMP环境（已运行WordPress），如何配置文档访问功能？

效果如图步骤确定文件存放目录404.html修改配置文件重启nginx服务接下来是从win向linux云服务器上传文件使用Samba服务（没成功）使用xshell上传文件（大文件上传一堆乱码）winscp（好用） 效果如图如果url不对…...

编程日记 2026/3/27 19:13:22

Ollama 的庐山真面目

Ollama 运行方式分析本地推理条件（GPU/CPU/RAM）：Ollama 支持在本地电脑进行大模型推理，但需要满足一定的硬件条件。一般来说，GPU 有助于加速推理，特别是显存较大的 GPU 能够加载更大的模型；如果…...

编程日记 2026/1/11 5:01:04

行为型模式 - 观察者模式 (Publish/Subscribe)

行为型模式 - 观察者模式 (Publish/Subscribe) 又称作为订阅发布模式（Publish-Subscribe Pattern）是一种消息传递模式，在该模式中，发送者（发布者）不会直接将消息发送给特定的接收者（订阅者&…...

编程日记 2025/3/24 17:58:25

C++编程指南21 - 线程detach后其注意变量的生命周期

一：概述如果一个线程被 detach() 了，那么它的生命周期将独立于创建它的作用域。因此，该线程只能安全地访问： 全局变量（global/static objects）堆上分配的对象（free-store allocated objects&a…...

编程日记 2025/3/13 1:03:11

Hadoop之01：HDFS分布式文件系统

HDFS分布式文件系统 1.目标理解分布式思想学会使用HDFS的常用命令掌握如何使用java api操作HDFS能独立描述HDFS三大组件namenode、secondarynamenode、datanode的作用理解并独立描述HDFS读写流程HDFS如何解决大量小文件存储问题 2. HDFS 2.1 HDFS是什么 HDFS是Hadoop中的一…...

编程日记 2026/3/18 9:47:56

Redis学习笔记系列(一)——Redis简介及安装

1. Redis介绍 Redis是完全开源的，遵守 BSD 协议，是一个高性能的 key-value 数据库。 Redis与其他key-value缓存产品有以下三个特点： Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行…...

编程日记 2026/3/22 17:33:34

【考试大纲】初级信息处理技术员考试大纲

目录引言一、考试说明1．考试要求2．考试目标二、考试范围科目一：信息处理基础知识科目二：信息处理应用技术引言最新的信息处理技术员考试大纲出版于 2018 年 6 月，本考试大纲基于此版本整理。一、考试说明 1．考试要求（1）了解信息技术的基本概念；（2）熟悉计…...

编程日记 2026/3/25 22:55:48

LabVIEW正弦信号处理：FFT与最小二乘拟合的参数提取

问题一：LabVIEW能否对采集的正弦力信号进行快速傅里叶变换（FFT），并得到幅值和相位结果？ 答案： 可以。LabVIEW通过内置信号处理工具包提供完整的FFT分析功能，具体实现如下： FFT分析流…...

编程日记 2026/3/20 10:41:43

【计算机网络入门】初学计算机网络（五）

目录 1.编码&解码、调制&解调 2.常用编码方法 2.1 不归零编码（NRZ） 2.2 归零编码(RZ) 2.3 反向非归零编码(NRZI) 2.4 曼彻斯特编码 2.5 差分曼彻斯特编码 3. 各种编码的特点 4.调制 5.有线传输介质 5.1 双绞线 5.2 同轴电缆 5.3 光…...

编程日记 2026/3/23 3:47:40

YOLO在PiscTrace上检测到数据分析

在现代计算机视觉领域，实时视频数据的检测与分析对于安全监控、交通管理以及智能制造等领域具有重要意义。YOLO（You Only Look Once）作为一种高效的目标检测算法，能够在保持高精度的同时实现实时检测。而PiscTrace作为一款集成了O…...

编程日记 2026/3/18 12:17:17

【漫话机器学习系列】112.逻辑回归（Logistic Regression）

逻辑回归（Logistic Regression）详解 1. 逻辑回归简介逻辑回归（Logistic Regression）是一种广泛用于二分类任务的统计和机器学习方法，尽管它的名字中带有“回归”，但它实际上是一种分类算法。在逻辑回归…...

编程日记 2026/3/18 6:22:29

【计算机网络入门】初学计算机网络（六）

目录 1.回忆数据链路层作用 2. 组帧 2.1 四种组帧方法 2.1.1 字符计数法 2.1.2 字节填充法 2.1.3 零比特填充法 2.1.4 违规编码法 3. 差错控制 3.1 检错编码 3.1.1 奇偶校验码 3.1.2 CRC（循环冗余校验）校验码 3.2 纠错编码 3.2.1 海明校验码…...

编程日记 2026/3/28 0:18:39

DeepSeek 与云原生后端：AI 赋能现代应用架构

📝个人主页🌹：一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹 1. 引言在当今快速发展的互联网时代，云原生（Cloud Native）架构已成为后端开发的主流趋势。云…...

编程日记 2026/3/23 18:32:52

leetcode第17题求电话号码组合

原题出于leetcode第17题https://leetcode.cn/problems/letter-combinations-of-a-phone-number/description/题目如下： 题目稍微有点复杂，初看会感觉特别复杂，首先我们需要理清思路： 最后的结果是字母组合，因此遍历的是…...

编程日记 2026/3/27 1:35:03

DeepSeek-R1 论文笔记：通过强化学习提升大语言模型的推理能力

论文标题：DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 作者团队：DeepSeek-AI 发表时间：2025 前置知识 & 术语模型蒸馏语言模型蒸馏的目标是将大型教师模型的知识（如语义理解、上…...

编程日记 2026/3/27 4:44:05

PDF文档中表格以及形状解析

我们在做PDF文档解析时有时需要解析PDF文档中的表格、形状等数据。跟解析文本类似的常见的解决方案也是两种。文档解析跟ocr技术处理。下面我们来看看使用文档解析的方案来做PDF文档中的表格、图形解析（使用pdfium库）。表格解析： 在pdfium库…...

编程日记 2026/3/25 8:50:22

深入理解并实现自定义 unordered_map 和 unordered_set

亲爱的读者朋友们😃，此文开启知识盛宴与思想碰撞🎉。快来参与讨论💬，点赞👍、收藏⭐、分享📤，共创活力社区。在 C 的标准模板库（STL）中，unorder…...

编程日记 2026/3/24 17:11:58

228页PPT丨制造业核心业务流程优化咨询全案(战略营销计划生产研发质量)，附核心系统集成架构技术支撑体系，2月26日资料已更新

一、订单全生命周期管理优化 1. 智能订单承诺（CTP）系统 ●集成ERP/APS/MES数据，实时计算产能可视性 ●应用蒙特卡洛模拟评估订单交付风险 ●建立动态插单评估模型（基于边际贡献与产能占用系数） 2. 跨部门协同机制…...

编程日记 2026/3/27 15:58:29

6.6.5 SQL访问控制

文章目录 GRANT授予权限REVOKE回收权限 GRANT授予权限 GRANT语句可以给用户授予权限，基本格式是GRANT 权限 TO 用户。在授权时，WITH GRANT OPTION是可选项，有此句话，被授予权限的用户还能把权限赋给其他用户。 REVOKE回收权限 RE…...

编程日记 2026/3/27 11:50:09

PhyloSuite v1.2.3安装与使用-生信工具049

PhyloSuite 一个好用的win集成建树平台，官方相关文档视频等做的可好了PhyloSuite (jushengwu.com) 官网 https://github.com/dongzhang0725/PhyloSuite/releases #官网 http://phylosuite.jushengwu.com/dongzhang0725.github.io/installation/ #官方说明文档…...

编程日记 2026/3/12 11:01:08