当前位置: 首页 > article >正文

【大模型基石技术】系列一:从Word到Byte,Tokenizer演进之路与核心算法对比

1. 从单词到字节Tokenizer的进化简史第一次接触NLP的朋友可能会好奇计算机究竟如何理解人类语言想象一下教外国朋友学中文你会先教完整词语比如苹果还是拆解成偏旁部首艹平果Tokenizer分词器就是AI世界的语言老师它的教学方案经历了三次重大变革。早期的Word词粒度就像严格的老派教师坚持每个单词必须完整记忆。英文中尚可凭借空格分词但中文就需要结巴分词这类工具辅助。我在2016年做舆情分析时就深受其苦——当网络热词绝绝子出现时系统直接报错因为词表里根本没有这个新造词。更糟的是像喜欢和喜好这类近义词会被当作完全无关的词汇白白浪费了语义关联性。字符粒度Char则走向另一个极端它把每个字/字母都当作独立单元。2018年做中文诗歌生成时我发现这种方案虽然能处理任意生僻字但模型需要自己学习葡萄和葡萄酒的关系就像让小学生从笔画开始重构所有词语关联训练效率极其低下。真正的突破来自Subword子词粒度它像聪明的语言老师既教基础词根也教组合规则。当遇到ChatGPT这种新词时WordPiece会拆解为Chat##G##PTBPE可能识别为ChatGPT而BBPE更进一步——用字节编码处理任何语言的字符。这解释了为什么GPT-4能流畅切换中英文而早期BERT面对emoji表情时总会出错。2. 三大子词算法原理拆解2.1 WordPieceBERT的语法课代表在调试BERT模型时我常看到##ing这种奇怪标记。这正是WordPiece的特征——它像严谨的语法学家用##标注词缀位置。其核心是合并分数计算统计子词共现概率P(ab)/(P(a)*P(b))优先合并相关性强的片段。例如play和##ing的合并分数会很高而un和##ing则较低。但这个方法有致命弱点假设我们要处理医学文献词表里只有DNA没有RNA。虽然两者结构相似但WordPiece无法动态扩展词表。更麻烦的是当深度学习被拆成深##度##学##习时每个片段都失去了专业术语的整体含义。2.2 BPEGPT的语言发明家第一次用GPT-2生成文本时我发现它造词能力惊人——这正是BPE算法的魔力。它不计算复杂分数只做简单的频率统计如果e和s经常连续出现就合并成es。这种数据驱动的方式使得GPT系列能自动发现英语复数形式、中文网络用语等模式。实测中BPE对多语言混合文本的处理令人惊艳。我曾用包含中英混杂的电商评论训练模型性价比超高和cost-effective会被自动关联。但缺点也很明显当德文Freundschaftsbezeigung友谊证明出现时BPE可能生成一堆无意义的子词组合。2.3 BBPELLaMA的二进制诗人当我在LLaMA2中输入表情时终于理解了BBPE的革命性——它将所有字符转化为UTF-8字节序列。比如汉字语的十六进制是E8 AF ADBBPE可能将其拆分为三个字节token。这带来两个关键优势词表仅需256个基础字节却能表达所有Unicode字符不同语言的相似发音字如中文马和日文ま可能在字节层面共享表征但字节级拆分也有代价相同内容的中文文本BBPE产生的token数量通常是BPE的3倍。我在RTX 4090上测试发现这会导致推理速度下降约40%不过内存占用减少了60%。3. 现代大模型的技术选型3.1 GPT-4的平衡之道分析GPT-4的tokenizer发现它采用BBPE但做了关键优化对高频Unicode字符如常见汉字保留完整编码对低频字符回退到字节模式 这种混合策略使得其中文处理效率比纯BBPE提升2倍。我在处理专业文献时注意到镓稀有金属会被字节拆分而的这种高频字始终作为整体token。3.2 LLaMA的多语言秘笈Meta开源的LLaMA系列展现了BBPE的跨语言能力。其词表仅32k却能覆盖50种语言。关键技巧在于对CJK字符中日韩统一表意文字强制字节拆分对拉丁语系保留常见词根 实测中LLaMA-2在翻译任务时能将中文成语准确映射到法语惯用语而传统BPE模型常产生字面直译。3.3 DeepSeek的工程实践深度求索团队在技术博客中透露他们的BBPE实现包含三项创新动态字节合并对高频字节组合建立缓存空格优化英文单词间的空格作为独立token失败回退机制当合并无效时自动降级 这使其在代码生成任务中对Python缩进等特殊符号的处理准确率提升15%。4. 算法对比与实战指南4.1 关键指标实测数据在维基百科多语言数据集上的测试结果算法词表大小中文压缩率英文压缩率内存占用WordPiece28,99662%78%3.2GBBPE50,25758%82%4.1GBBBPE32,76841%75%1.8GB压缩率指相比原始文本的token数量减少比例4.2 选型决策树根据我的项目经验建议按以下流程选择是否需处理emoji/生僻字 → 选BBPE是否专注单一语言 → 英文选BPE中文考虑WordPiece是否受限显存 → BBPE内存效率最高是否要求极致推理速度 → WordPiece延迟最低4.3 训练技巧备忘录词表大小设置通常取2^n如32k便于GPU内存对齐特殊token添加务必包含[UNK]、[PAD]等标准控制符预处理规则统一NFKC Unicode规范化避免全角/半角混乱罕见词处理对频率5的词建议强制字节拆分在最近的知识图谱项目中我们混合使用BBPE和WordPiece主体用BBPE保证覆盖率对专业术语额外添加WordPiece单元。这种组合使F1值提升了8.3%证明混合策略的实用性。

相关文章:

【大模型基石技术】系列一:从Word到Byte,Tokenizer演进之路与核心算法对比

1. 从单词到字节:Tokenizer的进化简史 第一次接触NLP的朋友可能会好奇,计算机究竟如何理解人类语言?想象一下教外国朋友学中文:你会先教完整词语(比如"苹果"),还是拆解成偏旁部首&…...

收藏!小白也能看懂:给AI装上“外接大脑“(RAG技术入门指南)

本文用大白话和比喻解释了RAG(检索增强生成)技术,即如何让AI接入企业内部知识库,解决ChatGPT等模型缺乏业务数据的问题。核心流程包括文档向量化存储、相似内容检索和生成回答,对比微调成本更低、更新更实时。适合企业…...

nlp_structbert_sentence-similarity_chinese-large模型安全部署指南:防范对抗样本与API滥用

NLP StructBERT 句子相似度模型安全部署指南:防范对抗样本与API滥用 在AI模型遍地开花的今天,把模型部署上线提供服务已经不是什么难事。但不知道你有没有想过,当你把一个功能强大的语义相似度模型开放出去,可能会遇到哪些“不速…...

微服务全套

微服务导学服务拆分如何把单一的大项目如何拆分成一个个小项目远程调用每个小的单体项目,在物理上是隔绝开的,使用的是不同的Tomcat,有独立的运维和部署,互相之间如何调用就涉及到了远程调用的知识学习微服务的最好方法是尝试着把…...

2026奇点智能技术大会人脸识别大模型全解析(训练成本下降67%、误识率跌破0.0001%的底层逻辑)

第一章:2026奇点智能技术大会:人脸识别大模型 2026奇点智能技术大会(https://ml-summit.org) 核心突破:多粒度语义对齐架构 本届大会首次公开了FaceSynth-7B,一个支持跨姿态、跨光照、跨年龄鲁棒识别的开源大模型。该模型摒弃传…...

从零到代码卫士:我与 NVIDIA DGX Spark 的 72 小时

从零到代码卫士:我与 NVIDIA DGX Spark 的 72 小时一个普通开发者的 Hackathon 实录序:那个让我失眠的想法 收到 NVIDIA DGX Spark Hackathon 的参赛邀请时,我正盯着公司代码仓库里一份刚被安全团队打回来的审查报告发呆。 报告上密密麻麻标注…...

两级式光伏并网逆变器的Simulink仿真 光伏pv+Boost+三相并网逆变器 PLL锁相环

两级式光伏并网逆变器的Simulink仿真 光伏pv+Boost+三相并网逆变器 PLL锁相环 MPPT最大功率点跟踪控制(扰动观察法) dq解耦控制 电流内环电压外环的并网控制策略 PWM调制/SVPWM调制可切换 电压外环控制直流母线电压稳住400V 功率4kW今天咱们来拆解一个两…...

告别云端依赖:用STM32F405+EC600N搭建一个离线/弱网可用的OTA固件升级系统

告别云端依赖:STM32F405EC600N构建高可靠离线OTA升级系统 在物联网设备部署的最后一公里,网络稳定性往往成为固件升级的最大障碍。想象一下部署在偏远农场的气象监测设备、地下停车场的传感器节点,或是移动车辆上的追踪终端——这些场景下的4…...

【工业级多模态服务架构白皮书】:基于12个千万级AI应用验证的6层解耦架构(含视觉/语音/文本协同调度协议)

第一章:多模态大模型服务化架构设计总览 2026奇点智能技术大会(https://ml-summit.org) 多模态大模型服务化架构需在推理性能、资源弹性、协议兼容性与安全隔离之间取得系统级平衡。其核心目标是将文本、图像、音频、视频等异构输入统一接入,经标准化预…...

宝塔面板安装后MySQL无法启动_修复数据表损坏与日志恢复

MySQL启动失败应先查错误日志:主路径为/www/server/data/*.err,次选/www/server/mysql/logs/error.log;若不存在则找/www/server/data/下最新.err文件;再结合my.cnf中log-error配置确认实际路径。MySQL 启动失败时先看 mysqld 错误…...

CSS文本渲染在不同操作系统差异_使用font-smoothing平滑化

-webkit-font-smoothing 在 macOS 和 Windows 上表现不一致,因依赖系统渲染机制:macOS 默认 subpixel 抗锯齿更柔,Windows 用 grayscale 更硬;该属性仅 WebKit 有效,且受 font-weight、transform 等限制,全…...

基于gmid设计方法的二级运放优化与仿真验证

1. 从零理解gmid设计方法 我第一次接触gmid设计方法时,完全被各种曲线和参数搞晕了。后来在实际项目中反复尝试,才发现这套方法简直是模拟电路设计的"瑞士军刀"。简单来说,gmid就是晶体管的跨导(gm)与漏极电…...

手把手教你解决CMake升级后的CMAKE_ROOT错误(Ubuntu环境)

手把手教你解决CMake升级后的CMAKE_ROOT错误(Ubuntu环境) 在Ubuntu系统上进行CMake版本升级时,不少开发者会遇到一个令人头疼的错误提示:CMake Error: Could not find CMAKE_ROOT !!!。这个错误通常发生在升级过程中新旧版本混用或…...

别只把它当查询器!DataGrip 2026.1 深度实测:AI Agent 时代的数据库工作流质变

DataGrip 2026.1部署工具包 🚀 前言:工具只是表象,思维才是降维打击 我发现很多同学还在把 DataGrip 当成一个“换了皮的 Navicat”。 如果 2026 年你还没发现 DataGrip 的进化逻辑,那你每天至少在 CRUD 上浪费了 2 小时。 一、…...

从零开始搭建MogFace:环境依赖、模型下载、界面开发一步到位

从零开始搭建MogFace:环境依赖、模型下载、界面开发一步到位 1. 项目简介与核心优势 MogFace是CVPR 2022提出的一种高精度人脸检测算法,基于ResNet101架构设计,特别擅长处理具有挑战性的人脸检测场景。本教程将带您从零开始搭建完整的MogFa…...

NVIDIA Jetson Orin系列:人形机器人边缘AI计算的革命性突破

1. 为什么人形机器人需要NVIDIA Jetson Orin? 当你看到波士顿动力Atlas机器人后空翻时,可能不会想到背后需要多少算力支持。传统机器人主控芯片在实时处理高清摄像头、激光雷达、惯性测量单元等多传感器数据时常常力不从心,就像用老年机玩3A游…...

Qwen3.5-2B实战体验:低门槛搭建本地AI助手,支持图片识别与文本对话

Qwen3.5-2B实战体验:低门槛搭建本地AI助手,支持图片识别与文本对话 1. 为什么选择Qwen3.5-2B 在AI模型越来越庞大的今天,找到一个既轻量又实用的本地AI助手并不容易。Qwen3.5-2B作为阿里千问系列的小尺寸版本,完美平衡了性能与资…...

分布式光纤传感:新一代管网探漏监测技术

摘要:长期以来,长距离地埋管网的探漏一直是个大难题 —— 人工探漏盖不全、响应慢,定点传感器又只能盯着几个点,很多漏损都得等到路面冒水了才被发现。近年来,分布式光纤传感技术的成熟应用,给这个行业带来了颠覆性的改…...

FPGA新手避坑指南:用74HC595驱动静态数码管,时序问题一次讲清(附野火教程对比)

FPGA时序控制实战:74HC595驱动数码管的避坑与优化 第一次用FPGA驱动74HC595芯片时,我盯着Modelsim里那堆乱七八糟的波形整整发呆了半小时——明明按照手册写的时序图编写代码,为什么数码管显示的数字总是跳变?后来才发现&#xff…...

【毕设】毕业生实习与就业管理系统

💟博主:程序员俊星:CSDN作者、博客专家、全栈领域优质创作者 💟专注于计算机毕业设计,大数据、深度学习、Java、小程序、python、安卓等技术领域 📲文章末尾获取源码数据库 🌈还有大家在毕设选题…...

台达DVP PLC与三台变频器通讯程序详解:昆仑通态接线方式、设置指南及功能实现(频率设定、启...

台达DVP PLC与3台台达VFD-M变频器通讯程序 程序带注释,并附送昆仑通态有接线方式,设置。 器件:台达DVP ES系列的PLC,3台台达VFD M系列变频器,昆仑通态 功能:实现频率设定,启停控制,实…...

【粉丝福利社】从“找资料”到“资料找我”:OpenClaw如何让信息搜集效率翻倍?

💎【行业认证权威头衔】 ✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家 ✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主 ✔ 技术生态共建先锋&am…...

【愚公系列】《剪映+DeepSeek+即梦:短视频制作》057-剪映智能剪辑+多款AI工具联动(剪映的AI剪视频)

💎【行业认证权威头衔】 ✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家 ✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主 ✔ 技术生态共建先锋&am…...

**光场显示中的编程实践:基于Python与OpenCV的3D立体图像生成技术探索**在虚拟现实、增强现实和下一

光场显示中的编程实践:基于Python与OpenCv的3D立体图像生成技术探索 在虚拟现实、增强现实和下一代人机交互系统中,光场显示(Light Field Display) 正逐步从实验室走向产业化落地。它通过精确控制光线的方向和强度,在不…...

传统软件工程是不是已经噶了

站在2026年这个节点,面对满大街的“自然语言即代码”和满屏幕的智能体(Agent)自动协作,“传统软件工程”还活着么?如果深入到工业、能源、制造这些硬核生产力的底层看一眼,你会发现:传统软件工程…...

Spring全家桶系列框架核心源码解析!

Spring是我们Java程序员面试和工作都绕不开的重难点。很多粉丝就经常跟我反馈说由Spring衍生出来的一系列框架太多了,根本不知道从何下手;大家学习过程中大都不成体系,但面试的时候都上升到源码级别了,你不光要清楚了解Spring源码…...

bge-large-zh-v1.5开源模型实践:符合信创要求的国产AI基础设施部署

bge-large-zh-v1.5开源模型实践:符合信创要求的国产AI基础设施部署 如果你正在寻找一个性能强劲、完全开源且符合信创要求的文本向量化模型,那么bge-large-zh-v1.5绝对值得你深入了解。今天,我们就来聊聊如何快速部署和使用这个优秀的国产嵌…...

CV实战:LBP纹理特征在Python中的高效实现与优化

1. LBP纹理特征入门:从原理到应用场景 第一次接触LBP(Local Binary Pattern)是在2015年的人脸识别项目中。当时深度学习还没现在这么火爆,LBP因其计算简单、效果稳定成为我们团队的首选特征。现在虽然CNN大行其道,但LB…...

Samhelper(Sam helper 下载)

Sam Helper 是一款专为三星 Galaxy 手机用户开发的强大实用工具,它被誉为三星手机的“最强辅助”。如果你希望挖掘三星手机的隐藏潜力,特别是想要深度自定义屏幕刷新率或系统主题,那么 Sam Helper 绝对能让你眼前一亮。 Sam Helper 不仅能让…...

MoveIt Servo 如何通过 FollowJointTrajectoryControllerHandle Action Server 通信

一、通信架构图textMoveIt Servo (moveit_servo node)↓ MoveItSimpleControllerManager (插件管理器)↓ FollowJointTrajectoryControllerHandle (您看到的这个类)↓ [内部创建 Action Client]↓ ROS 2 Action Client (自动生成)↓ [通过 ROS 2 Action 协议]↓ 您的 Action Se…...