当前位置: 首页 > article >正文

【NLP基础知识系列课程-Tokenizer的前世今生第一课】Tokenizer 是什么?为什么重要?

语言的“颗粒度”:我们到底在切什么?

我们都知道模型要处理文本,第一步是把一段段字符变成“token”。但这些 token 究竟应该是句子、单词,还是更小的片段,比如“un + break + able”?

这背后涉及的是一个非常核心的问题:我们到底用什么单位来让模型“看懂”语言?这个单位,就叫做 token,而设计这个单位的方式,就是 tokenizer。

Tokenizer 就像语言世界的切割刀,它决定了模型从多大、从哪里开始理解文本。粗了,信息不够细;细了,理解变得困难。


Tokenizer 的作用:不仅是切词,更是理解的“格式”

我们不妨打个比方:如果把语言模型比作人脑,那 tokenizer 就是它的“眼睛”。一双合适的眼睛,能帮助我们快速捕捉信息;而模糊不清的视野,只会增加理解的负担。

当你读到“unbelievable”,你可以立刻意识到它是“un + believe + able”构成的,这种构词结构能让你快速理解它的意思。如果 tokenizer 能切出这样的结构,模型自然也能更快学到“构词法”。

而如果 tokenizer 把它切成了“u + n + b + …”,模型可能就要花更多精力才能拼凑出“哦,这是一个否定+动词+形容词构成的词”。


多种颗粒度下的 Tokenizer

颗粒度示例优点缺点常见应用模型
句子级“今天天气真不错。”结构清晰,语言自然单位无法细致建模,严重OOV问题早期RNN、规则模型
单词级“unbelievable”易懂,训练快新词无能为力Word2Vec、GloVe
子词级“un + believe + able”词表小,无OOV,语义较好切分复杂,训练有偏BERT, GPT, T5 等
字符级“u + n + b + …”跨语言能力强,无需词表序列太长,学习难CANINE、ByT5
字节级“\x75 \x6e \x62 …”统一所有输入类型,无任何限制表达太原始,需要大模型配合GPT-2、tiktoken
区域级(图像)图像划分的 Patch(如ViT)可以对图像输入统一处理不一定与语言token天然对齐CLIP, BLIP, Flamingo 等

我们可以看到,从语义结构最强的“句子”到最原始的“字节”,Tokenizer 划分的单位越小,信息越精细,但模型所承担的“组合理解”任务也越大。


Tokenizer 是怎么“切”的?

除了“切多大”,另一个问题是“怎么切”。有两种主要方式:

自下而上(从细到粗)

这是像 BPE、WordPiece 采用的方式。它们会从字符出发,看哪些字符经常一起出现,就把它们合并成一个 token。

比如:

  • “t” + “h” = “th”
  • “th” + “e” = “the”

这就像小朋友拼积木:经常拼在一起的,就变成一个新块。

自上而下(从粗到细)

UnigramLM 则反其道而行之:先给出一个大词表,然后剪掉那些“不太重要的”子词。

这种方式的好处是:

  • 可以保留多种切分方式
  • 允许在训练中做“随机切分”,增强模型泛化能力

它特别适合像中文、日文这种没有空格的语言。

自动学习(可学习的Tokenizer)

最近的趋势是:让模型自己学!

例如:MxDNA 会让模型自己决定“这个DNA序列该怎么切”,而不是你提前设定好。LaVIT 等多模态模型甚至可以自动学习图像要分几个 token。

这说明:Tokenizer 已经不只是静态规则,而是可以作为模型的一部分,由数据驱动学习得来。


小结:Tokenizer 是理解的设计哲学

一句话总结:Tokenizer 决定了模型“看到什么”。

它不是辅助工具,而是模型理解世界的基础。就像你戴什么样的眼镜,会直接影响你对世界的观察方式。

后续我们会聊:

  • NLP 的 Tokenizer 是如何一步步演化出来的?
  • 多模态中,图像、音频也能被“切”吗?
  • 在蛋白质、基因这类序列中,我们如何找到合适的“token”?

Tokenizer,从此不只是“切词”的代名词。

相关文章:

【NLP基础知识系列课程-Tokenizer的前世今生第一课】Tokenizer 是什么?为什么重要?

语言的“颗粒度”:我们到底在切什么? 我们都知道模型要处理文本,第一步是把一段段字符变成“token”。但这些 token 究竟应该是句子、单词,还是更小的片段,比如“un break able”? 这背后涉及的是一个非…...

Codeforces Round 1025 (Div. 2)

Problem - A - Codeforces 查有没有人说谎&#xff0c;有一个必错的情况&#xff1a; 两个人都说输了&#xff0c;必有人撒谎&#xff0c;还有就是所有人都赢了&#xff0c;也是撒谎 来看代码&#xff1a; #include <iostream> #include <vector> using namespa…...

Ubuntu20.04操作系统ssh开启oot账户登录

文章目录 1 前提2 设置root密码3 允许ssh登录root账户3.1 编辑配置文件3.2 重启ssh服务 4 安全注意事项 1 前提 ssh可以使用普通用户正常登录。 2 设置root密码 打开终端&#xff0c;设置密码 sudo passwd root # 设置root密码3 允许ssh登录root账户 3.1 编辑配置文件 su…...

类欧几里得算法(floor_sum)

文章目录 普通floor_sum洛谷P5170 【模板】类欧几里得算法 万能欧几里得算法求 ∑ i 1 n A i B ⌊ a i b c ⌋ \sum_{i1}^{n}A^iB^{\lfloor \frac{aib}{c} \rfloor} ∑i1n​AiB⌊caib​⌋求 ∑ i 0 n ⌊ a i b c ⌋ \sum_{i0}^n \lfloor\frac{aib}{c}\rfloor ∑i0n​⌊caib…...

每日Prompt:卵石拼画

提示词 世界卵石拼画大师杰作&#xff0c;极简风格&#xff0c;贾斯汀.贝特曼的风格&#xff0c;彩色的鹅卵石&#xff0c;斑马头像&#xff0c;鹅卵石拼画&#xff0c;马卡龙浅紫色背景&#xff0c;自然与艺术的结合&#xff0c;新兴的艺术创作形式&#xff0c;石头拼贴画&am…...

湖北理元理律师事务所观察:债务优化如何成为民生安全网

据央行2023年报告&#xff0c;中国家庭债务收入比达137.8%。面对债务高压&#xff0c;湖北理元理律师事务所的实践揭示&#xff1a;专业债务规划的价值不仅是减负数字&#xff0c;更是构建社会稳定的微观防线。 一、从“催收恐惧”到“主动管理”的转变 该所服务数据显示&…...

AI时代新词-机器学习即服务(MLaaS)

一、什么是机器学习即服务&#xff08;MLaaS&#xff09;&#xff1f; 机器学习即服务&#xff08;Machine Learning as a Service&#xff0c;简称MLaaS&#xff09;是一种云计算服务模式&#xff0c;它将机器学习工具和平台作为服务提供给用户。用户可以通过云平台访问机器学…...

设计模式简述(二十)规格模式

规格模式 描述组件 使用 描述 规格模式并不在传统的23设计模式中&#xff0c;属于后面扩展的设计模式。 简单描述就是对一批数据进行多条件&#xff08;包括逻辑组合、有点装饰器的感觉&#xff0c;可以不断套娃&#xff09;匹配。 组件 实体 package dp.spec;/*** TODO** …...

符合Python风格的对象(覆盖类属性)

覆盖类属性 Python 有个很独特的特性&#xff1a;类属性可用于为实例属性提供默认 值。Vector2d 中有个 typecode 类属性&#xff0c;bytes 方法两次用到了 它&#xff0c;而且都故意使用 self.typecode 读取它的值。因为 Vector2d 实 例本身没有 typecode 属性&#xff0c;所…...

题目 3314: 蓝桥杯2025年第十六届省赛真题-魔法科考试

题目 3314: 蓝桥杯2025年第十六届省赛真题-魔法科考试 时间限制: 3s 内存限制: 512MB 提交: 245 解决: 49 题目描述 小明正在参加魔法科的期末考试&#xff0c;考生需要根据给定的口诀组合出有效的 魔法。其中&#xff0c;老师给定了 n 个上半部分口诀 a1, a2, . . . , an 和 m…...

Java八股-Java优缺点,跨平台,jdk、jre、jvm关系,解释和编译

java优势劣势&#xff1f; 优势&#xff1a;面向对象&#xff0c;平台无关&#xff0c;垃圾回收&#xff0c;强大的生态系统 劣势&#xff1a;运行速度慢&#xff08;相比于c和rust这样的原生编译语言会比较慢&#xff09;&#xff0c;语法繁琐&#xff08;相比于python&…...

linux 内核态和用户态定时器函数使用总结

1&#xff0c;场景总结 定时器类型精度范围适用场景注意事项用户态信号定时器秒级简单任务调度、心跳检测信号处理函数中不可调用非异步安全函数timerfdepoll纳秒级高精度事件循环、多媒体处理需要配合IO多路复用机制使用内核timer_list毫秒级设备驱动、硬件交互基于jiffies时…...

支持selenium的chrome driver更新到136.0.7103.113

最近chrome释放新版本&#xff1a;136.0.7103.113 如果运行selenium自动化测试出现以下问题&#xff0c;是需要升级chromedriver才可以解决的。 selenium.common.exceptions.SessionNotCreatedException: Message: session not created: This version of ChromeDriver only s…...

硬件服务器基础

1、硬件服务器基础 2、服务器后面板 3、组件 3.1 CPU 3.2 内存 3.3 硬盘 3.4 风扇 4、服务器品牌 4.1 配置 4.2 CPU 架构 4.2.1 CPU 命名规则 4.2.2 服务器 CPU 和家用 CPU 的区别 4.2.3 CPU 在主板的位置 4.2.4 常见 CPU 安装方式 4.3 内存中组件 4.3.1 内存的分类 4.3.1.1 …...

LVS的DR模式部署

目录 一、引言&#xff1a;高并发场景下的流量调度方案 二、LVS-DR 集群核心原理与架构设计 &#xff08;一&#xff09;工作原理与数据流向 数据包流向步骤3&#xff1a; &#xff08;二&#xff09;模式特性与53网络要求 三、实战配置&#xff1a;从9环境搭建到参数调整…...

TRS收益互换平台开发实践:从需求分析到系统实现

一、TRS业务概述 TRS&#xff08;Total Return Swap&#xff09;收益互换是一种金融衍生工具&#xff0c;允许投资者通过支付固定或浮动利息&#xff0c;换取标的资产&#xff08;如股票、指数&#xff09;的收益权。典型应用场景包括&#xff1a; ​​跨境投资​​&#xff…...

测试Bug篇

本节概要&#xff1a; 软件测试的生命周期 bug的概念 buh要素 bug等级 bug生命周期 对于bug的定级与开发发生冲突如何解决 一、 软件测试的⽣命周期 软件测试贯穿于软件的整个生命周期&#xff0c;针对这句话我们⼀起来看⼀下软件测试是如何贯穿软件的整个生命周期。 软…...

【Linux系统移植】Cortex-A8 Linux系统移植(超详细)

目录 前言 一、ARM开发板ARM简介RISC和CISCARM产品分布核心板S5pv210 SOC嵌入式系统开发方式 二、嵌入式系统组成为什么要系统移植内核移植框图 三、嵌入式开发环境搭建搭建开发环境总流程设置ubuntu与windows共享目录修改用户为root用户安装NFS服务器安装tftp服务器安装交叉编…...

第十五届蓝桥杯大赛软件赛国赛Python 大学 C 组试做【本期题单: 设置密码、栈】

早上好啊大伙&#xff0c;这一期依旧是蓝桥杯备赛刷题的记录。 本期题单&#xff1a;设置密码、栈 前言 前段时间准备省赛&#xff0c;运气好进国赛了。所以就开始准备6月份的国赛。但是近期还有别的比赛要准备&#xff0c;所以刷题的速度比较慢&#xff0c;可能每一期就会有一…...

报错SvelteKitError: Not found: /.well-known/appspecific/com.chrome.devtools.json

报错信息 SvelteKitError: Not found: /.well-known/appspecific/com.chrome.devtools.json 解决方案一 更新所有依赖 npm update解决方案二&#xff08;不一定成功&#xff09; src\lib\hooks.server.ts&#xff0c;每次请求服务器时执行 import type { Handle } from &…...

word添加页眉

问题一&#xff1a; 为word文档添加页眉。 方法&#xff1a; 1、在要添加页眉的第一页页面顶端双击页眉区域&#xff0c;如果添加页眉页上面还有其他页或者与上一页添加页眉内容不同&#xff0c;记得取消“链接到前一节”&#xff08;点击使其上面没有灰色即可&#xff09;&…...

JavaScript 中的 BigInt:当普通数字不够“大“时的救星

前言 大家好&#xff01;今天我们要聊一聊 JavaScript 中那个"大"到不行的数据类型 —— BigInt。如果你曾经因为 JavaScript 的数字精度问题而抓狂&#xff0c;或者好奇为什么 9007199254740992 9007199254740993 会返回 true&#xff0c;那么这篇文章就是为你准备…...

通过mailto:实现web/html邮件模板唤起新建邮件并填写内容

一、背景 在实现网站、html邮件模板过程中&#xff0c;难免会遇到需要通过邮箱向服务提供方发起技术支持等需求&#xff0c;因此&#xff0c;我们需要通过一个功能&#xff0c;能新建邮件并提供模板&#xff0c;提高沟通效率 二、mailto协议配置说明 参数描述mailto:nameema…...

2025推客系统小程序开发:独立部署源码交付,高性价比裂变增长引擎

在私域流量争夺白热化的今天&#xff0c;源码独立部署的推客系统小程序已成为企业构建自主分销体系、降低获客成本的核心利器。基于成熟案例与技术沉淀&#xff0c;我们提供安全可控、高性价比的一站式解决方案&#xff0c;助力企业快速搭建专属推客生态&#xff0c;实现长效增…...

【Python零基础入门系列】第6篇:Python 的数据结构世界(列表、字典、集合、元组)

欢迎来到 Python 零基础入门系列的第六篇! 前面我们学会了写 Hello World、掌握了变量与数据类型、学会了控制程序流程,还能写写函数、读读文件。现在,我们要走进 Python 的数据结构世界,这也是写程序时最核心的一环之一。 你可以把“数据结构”理解成放数据的容器,或者是…...

MVCC 原理与并发控制实现

MVCC 原理与并发控制实现 1. MVCC 基本概念 MVCC(Multi-Version Concurrency Control&#xff0c;多版本并发控制)是现代数据库系统中实现并发控制的核心技术之一。与传统的锁机制不同&#xff0c;MVCC通过维护数据的多个版本来实现非阻塞读取。 关键结论&#xff1a;MVCC的核…...

CentOS 7.0重置root密码

文章目录 版本&#xff1a;CentOS 7.0内核版本&#xff1a;CentOS Linux, with Linux 3.10.0-123.el7.x86_64 服务器重启后&#xff0c;等待进入上述页面&#xff0c;按⬆⬇键&#xff0c;中断正常启动。在此页面按E&#xff0c;进入编辑模式 继续按⬇&#xff0c;找到linux16…...

YOLOV11改进策略【最新注意力机制】CVPR2025局部区域注意力机制LRSA-增强局部区域特征之间的交互

1.1网络结构 1.2 添加过程 1.2.1 核心代码 import torch import torch.nn as nn import torch.nn.functional as F from einops import rearrangedef patch_divide(x, step, ps):"""Crop image into patches.Args:x (Tensor): Input feature map of shape(b, …...

3D建模的全景图谱:从55个工具到元宇宙的数字革命

3D建模已从专业工程师的工具箱演变为全民创作的数字语言。从代码驱动的精确建模到AI自动生成纹理&#xff0c;从开源协作到程序化生成城市&#xff0c;技术正重塑我们创造虚拟世界的方式。本文将系统解析55个核心3D建模工具/插件&#xff0c;涵盖在线编辑器、开源软件、程序化生…...

Kotlin 活动事件通讯跳转深度讲解

在 Android 开发的浩瀚海洋中,活动(Activity)间的事件通讯与跳转犹如构建复杂应用程序的桥梁与纽带,而 Kotlin 语言的加入,更是为这一过程注入了简洁、优雅与高效的活力。本文将深入剖析 Kotlin 开发中安卓活动事件通讯跳转的方方面面,从基础概念到高级技巧,从代码示例到…...