当前位置: 首页 > article >正文

AI技术原理--AI Token是什么:10分钟搞懂大模型基础单位

当你在ChatGPT里输入你好今天天气怎么样的时候你以为它真的读懂你的话吗并不是。在你看不到的地方有一个叫分词器的程序正在把你的文字拆解成一个一个叫Token的单元。这就像在人类语言和机器语言之间有一个隐形的翻译官——它不翻译意思而是把文字切割成机器能够理解的积木块。Token的本质三次关键转换当你输入一句话时经历了三次转换步骤转换内容示例第一步文本 → Token序列“这很聪明” → “这”、“很”、“聪明”第二步Token → 数字ID这→1024很→348第三步数字ID → 向量嵌入1024 → [0.1, -0.5, …]4096维向量AI模型本质上就是在玩一场复杂的数字游戏。第一步从文本到Token分词策略策略优点缺点按单词分词直观词表爆炸英语几十万单词按字符分词词表小序列超长计算成本暴增子词分词Subword平衡词表大小和序列长度主流选择子词分词的逻辑BPE算法词类型处理方式示例高频词单独成一个Token“the”、“is”低频词拆成常见组合“tokenization” → “token” “ization”未知词拆到字符级别保证模型不会读不懂这就像拼音系统常用字直接认识生僻字可以拼读。第二步从Token到数字ID每个Token在词表里有唯一的编号。比如这很聪明可能变成TokenID这1024很348聪明101713关键细节这些数字本身没有任何语义关联。比如ID 5481和5482可能分别代表狗和猫它们在数值上相邻但意义上可能毫无关系。第三步从数字ID到向量嵌入这是最关键的一步也是最容易误解的。AI模型不会直接处理1024、348这样的数字而是通过嵌入层把它转换成一个高维向量。比如4096维的向量[0.1, -0.5, 0.3, …]这个向量才是Token的真正形态。向量的意义向量编码了Token在语义空间中的位置距离相近的向量代表意义相近的词比如king和queen的向量在空间中是相近的这也是为什么AI能够理解近义词、类比关系——因为这些在数学空间里有对应的位置关系。反向过程从Token回到文字当AI生成回复时过程是反过来的模型预测下一个Token的概率分布 ↓ 选择概率最高的Token ID ↓ 在词表中查找对应的文字 ↓ 拼接成完整的句子返回给你一个违反直觉的事实AI每次只会预测下一个Token而不是下一个词或下一句话。比如生成ChatGPT这个词实际上分成了两步先预测Token “Chat”看到Chat后再预测Token “GPT”这也是为什么AI有时候会说话说到一半——它们在Token级别做决策不是在词或句子级别。不同语言的Token消耗差异同样的意思用不同的语言表达Token数量可能天差地别。语言100个单词对应的Token数英语约130个中文约100个德语更多芬兰语更多原因不同语言的颗粒度不同。英语里的一个词可能是一个Token但中文里的长复合词可能被拆成好几个Token。更深层的问题当前AI系统是否对某些语言更友好答案是肯定的。这不仅仅是技术问题更是经济问题。Token的经济账你在按Token付费当你使用GPT或Claude时你输入的每一个字、AI回复的每句话都占Token费。项目消耗155字符、25个单词的段落约30个Token每天处理成千上万条对话费用显著不同模型的分词器不同影响说明产生的Token数量不一样同样的内容不同模型可能产生不同数量的Token成本不同一个更高效的分词器可以降低20-30%的运营成本选择AI模型不只是性能问题更是成本问题。Token暴露的AI局限AI并不是真正理解语言人类读一本书理解的是故事、情感、思想。AI读一本书看到的是Token序列、数值向量、概率分布。Token就是这道鸿沟上的桥梁。奇怪的错误从何而来AI有时候会把tokenization拆成token和ization两部分然后在某些上下文混淆它们的关系。因为对AI来说这只是两个独立的数字而不是一个完整的概念。给开发者的三个建议1. 测试不同语言的Token表现不要假设你的英文优化方案对中文也有效。2. 把Token成本纳入产品设计有时候少用几个词、换一种表达能显著降低成本。3. 关注新的分词技术这个领域在快速发展一个更好的分词器可能改变整个项目的经济模型。常见问题Q1Token和字符有什么区别概念说明字符人类看到的单个字TokenAI处理的最小单位一个Token可能是一个词、一个子词甚至一个字符。Q2为什么中文Token消耗比英文少中文一个汉字通常对应一个Token而英文一个单词可能对应1-2个Token。Q3Token数量和推理速度有什么关系Token越多计算量越大N²复杂度推理越慢。一句话总结Token看起来是一个技术细节但它触及了AI的本质这些系统还没有真正理解我们它们只是在翻译、在计算、在拟合。下次跟AI对话时不妨想一想在那些流畅的回答背后有无数个Token在跳跃、在组合、在消失。

相关文章:

AI技术原理--AI Token是什么:10分钟搞懂大模型基础单位

当你在ChatGPT里输入"你好,今天天气怎么样"的时候,你以为它真的读懂你的话吗? 并不是。 在你看不到的地方,有一个叫"分词器"的程序,正在把你的文字拆解成一个一个叫"Token"的单元。 …...

【研报280】汽车轻量化材料研究报告:改性塑料的应用趋势

本报告提供限时下载,请查看文后提示以下仅为报告部分内容:摘要:政策与新能源汽车需求双重驱动下,汽车轻量化成为行业核心发展方向,2026年国内将实施新的乘用车碳排放国标,叠加新能源汽车普遍重于燃油车&…...

Delphi经典8大天坑|第五篇:ShortString与String混用,导致字符串截断/乱码

一、现象描述项目中同时使用ShortString和string两种字符串类型,赋值时出现字符串被莫名截断(超过255字符的部分丢失),或出现乱码,尤其是在Delphi D7及以下版本中,问题更常见。典型场景:将一个长…...

强强联合:在快马平台用AI模型驱动你的下一代智能agent应用

最近在尝试用AI辅助开发时,发现了一个特别有意思的方向——智能agent框架。这类框架就像是AI应用的"骨架",而平台内置的AI模型则为其注入了"灵魂"。今天想分享下在InsCode(快马)平台上实现的一个创作辅助agent,整个过程让…...

3步构建数字记忆堡垒:开源工具GetQzonehistory数据留存全攻略

3步构建数字记忆堡垒:开源工具GetQzonehistory数据留存全攻略 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 在数字时代,我们的生活轨迹日益依赖在线平台&#…...

实例 9:液体压强探究

实例 9:液体压强探究 功能介绍: 模拟U形管压强计探究液体内部压强规律。学生将探头放入液体不同深度,观察U形管高度差变化;更换不同密度的液体(水、盐水、酒精),对比压强大小。应用清晰展示“液体压强随深度增加而增大”及“液体压强与液体密度有关”的规律,并可计算具…...

**用Python实现高效分子结构建模与能量计算:从零开始构建你的计算化学工具链**在现代计算化学中,**Python已成

用Python实现高效分子结构建模与能量计算:从零开始构建你的计算化学工具链 在现代计算化学中,Python已成为科研人员首选的编程语言之一,它不仅语法简洁、生态丰富,还具备强大的科学计算能力。本文将带你一步步搭建一个基于Python的…...

双臂机器人piper_ros

1.piper gazebo仿真启动gazebo终端1:cd piper_ros source devel/setup.bash roslaunch piper_gazebo piper_gazebo.launch #有夹爪roslaunch piper_gazebo piper_no_gripper_gazebo.launch #无夹爪启动rviz终端2:cd ~/piper_ros source devel/setup.bash…...

OpenClaw 实用指南-节假日系统巡检全自动化(下)

前言 在上一篇文章中,我们已详细讲解了节假日系统巡检全自动化的前三个核心部分,分别是:Part1:AI节假日智能判断、Part2:目标服务器稳定连接、Part3:借助“小龙虾”工具批量部署软件,并利用部署…...

lvgl_v8之设置label背景颜色一种方式

void lv_label_demo() {static lv_style_t style;lv_style_init(&style);lv_style_set_radius...

Chrome for Testing 终极配置指南:5个实战技巧让浏览器自动化测试更高效

Chrome for Testing 终极配置指南:5个实战技巧让浏览器自动化测试更高效 【免费下载链接】chrome-for-testing 项目地址: https://gitcode.com/gh_mirrors/ch/chrome-for-testing Chrome for Testing 是 GoogleChromeLabs 团队专门为浏览器自动化测试设计的…...

向量数据库:大模型的高效外存

一、 向量数据库概述:AI大模型的“外部记忆体” 向量数据库是一种专门用于存储、索引和查询**向量嵌入(Vector Embedding)**的数据库系统。在大模型时代,它扮演着至关重要的“外部记忆体”角色,其核心价值在于解决大模…...

2024IEEE 《基于二次规划的安全关键型多智能体系统的控制》四旋翼 无人机 MATLAB

2024IEEE 《基于二次规划的安全关键型多智能体系统的控制》四旋翼 无人机 MATLAB 代码复现(文献代码)协同控制 规划 无人机 研究了基于二次规划的安全关键型多智能体系统的控制问题。 每个被控智能体被建模为一个积分器和一个不确定非线性驱动系统的级联…...

基于Comsol的钢筋混凝土腐蚀开裂力学-化学耦合相场模型

基于Comsol的钢筋混凝土腐蚀开裂的力学-化学耦合相场模型 钢筋混凝土腐蚀开裂的力学-化学耦合相场模型,采用多场耦合有限元软件Comsol建模,方便易懂。 相场模型能够准确模拟钢筋混凝土的腐蚀诱导开裂行为。 (附源文件和参考论文)钢…...

BES-XGBoost多变量时间序列预测的‘秃鹰搜索优化算法‘与交叉验证抑制过拟合问题的Mat...

基于秃鹰搜索优化算法优化XGBoost(BES-XGBoost)的多变量时间序列预测 BES-XGBoost多变量时间序列 采用交叉验证抑制过拟合问题 优化参数为迭代次数、最大深度和学习率 matlab代码,注:暂无Matlab版本要求 -- 推荐 2016B 版本及以上 注:采用 XG…...

nlp_gte_sentence-embedding_chinese-large模型在嵌入式Linux系统上的优化部署

nlp_gte_sentence-embedding_chinese-large模型在嵌入式Linux系统上的优化部署 1. 引言 在智能硬件和边缘计算快速发展的今天,越来越多的设备需要在本地运行AI模型。对于嵌入式Linux系统来说,如何在资源受限的环境下高效部署大型文本表示模型&#xff…...

Pixel Aurora Engine应用场景:复古游戏机主题网站AI生成视觉系统集成

Pixel Aurora Engine应用场景:复古游戏机主题网站AI生成视觉系统集成 1. 项目背景与核心价值 Pixel Aurora Engine(像素极光引擎)是一款专为复古游戏风格设计的AI视觉生成系统。它巧妙地将现代AI技术与怀旧像素美学相结合,为网站…...

AI辅助开发:让快马AI理解并生成ccswitch工具的核心逻辑与UI管理代码

AI辅助开发:让快马AI理解并生成ccswitch工具的核心逻辑与UI管理代码 最近在开发一个网络切换工具ccswitch时,发现AI辅助开发能大幅提升效率。通过InsCode(快马)平台集成的AI模型,可以用自然语言描述需求,就能自动生成核心功能代码…...

OpenMS实战指南:如何用开源工具解决质谱数据分析三大难题

OpenMS实战指南:如何用开源工具解决质谱数据分析三大难题 【免费下载链接】OpenMS The codebase of the OpenMS project 项目地址: https://gitcode.com/gh_mirrors/op/OpenMS 你是否正在为复杂的质谱数据分析而烦恼?面对海量的LC-MS数据&#xf…...

FIFA 23 Live Editor终极指南:10分钟掌握实时游戏修改技巧

FIFA 23 Live Editor终极指南:10分钟掌握实时游戏修改技巧 【免费下载链接】FIFA-23-Live-Editor FIFA 23 Live Editor 项目地址: https://gitcode.com/gh_mirrors/fi/FIFA-23-Live-Editor FIFA 23 Live Editor 是一款专为FIFA 23玩家设计的革命性实时编辑工…...

操作系统与数据库系统的核心知识点,属于计算机科学与技术专业(尤其是考研408统考或相关课程)的重点复习提纲

操作系统与数据库系统的核心知识点,属于计算机科学与技术专业(尤其是考研408统考或相关课程)的重点复习提纲。以下是对各部分的简明梳理与关键点说明: ✅ 死锁处理 预防:破坏死锁四个必要条件之一(互斥、占…...

Redis Sentinel 高可用方案在WMS仓储管理系统的应用

Redis Sentinel 高可用方案在WMS仓储管理系统的应用 一、仓储场景的特殊挑战 在WMS(Warehouse Management System)系统中,Redis承载着高频且关键的业务数据:业务模块Redis用途可用性要求库存实时缓存SKU库存量、库位占用状态99.99…...

kprobe函数入口时的汇编跳板执行流程与栈帧机制

kprobe函数入口汇编跳板执行流程与栈帧机制 文章目录kprobe函数入口汇编跳板执行流程与栈帧机制前言环境准备ftrace跳板创建跳板执行流程与栈帧逐行拆解初始状态与安全校验双层栈帧构建(CONFIG_FRAME_POINTER)通用寄存器保存与C函数参数准备剩余寄存器保…...

全国霸王餐 API 接口聚合平台,Java 后端多数据源路由策略设计

全国霸王餐 API 接口聚合平台,Java 后端多数据源路由策略设计 在构建全国性的霸王餐(Free Meal)与外卖CPS聚合平台时,单一的数据源架构往往无法支撑海量的并发请求与复杂的业务隔离需求。随着业务规模的扩张,系统通常面…...

高可用外卖返利 CPS 平台:Java 后端异步回调处理机制深度解析

高可用外卖返利 CPS 平台:Java 后端异步回调处理机制深度解析 在构建外卖返利(CPS)系统时,异步回调(Callback)机制是连接用户授权、订单同步与佣金结算的神经中枢。美团、饿了么等平台的用户授权与订单状态…...

测试计划详细说明

一份高质量的测试计划本质上是质量风险的防御蓝图,它要在有限资源和无限质量诉求之间找到平衡点。我将从结构、内容、决策逻辑三个维度展开,并提供一个可直接落地的框架。一、测试计划的核心定位测试计划的本质回答三个问题:测什么&#xff1…...

当 95% 泳池拒绝轮椅人群时,“泳池升降机” 正在创造包容性蓝海​

在一座城市的游泳馆里,坐在轮椅上的小李望着眼前的泳池,眼神中满是渴望却又带着一丝无奈。以往,他只能看着别人在水中畅游,因为大部分泳池没有适合他这样行动不便者入水的设施。但最近,这家游泳馆引入了一款便携式泳池…...

嵌入式系统高可靠存储模块(Store)设计与实现

在嵌入式系统开发中,数据持久化是保障设备稳定性、连续性运行的核心支撑,尤其对于物联网网关、工业控制器、智能家居终端等设备,需长期存储设备配置、运行参数、网络信息等关键数据,且要求掉电不丢失、读写高效、容错性强。基于此…...

CPU与操作系统【简单的认识理解】

在日常开发过程中,我们都是正常写完代码去执行即可,不用了解计算机运行的底层逻辑。但是了解计算机运行的底层逻辑,对于我们以后理解撰写代码以及理解错误原理有着重要地位,因此,我们特意写上一篇文章跟大家介绍。在计…...

Agno 多 Agent 实战(二):搭建完整内容创作流水线

前情回顾 上一篇我们用路由模式做了一个智能问答系统,路由模式适合单步任务,一次分配。今天分享的是更复杂的场景:多步骤协作。 很多任务不是一步能做完的,比如写一篇文章:得先找资料,再写初稿,再审核修改,最后排版。这就需要多个 Agent 一步步协作,我们可以用协调模…...