当前位置：首页 > article >正文

07｜Token 与上下文窗口：为什么它会忘、为什么会贵

article 2026/3/17 2:36:48

本篇目标这是卷 1LLM 核心原理的第一篇。我们将拆解“Token”这个 AI 计费的最小单位让你看懂账单并理解为什么聊久了它就“失忆”。一、Token 是什么不是“字”是“块”很多人以为 AI 是按“字数”或“单词数”收费的其实不是。它的计量单位叫Token。1. 怎么理解 TokenLLM 不识字它只认识数字。在它眼里一段话会被切成一个个小碎块每个碎块就是一个 Token。英文大约 1 个 Token ≈ 0.75 个单词或者说 4 个字符。例如apple是 1 个 Token。programming可能被切成programming2 个 Token。中文大约 1 个 Token ≈ 0.5 ~ 0.8 个汉字取决于模型。老模型如 GPT-3.5中文切得很碎一个汉字可能要 2-3 个 Token很贵。新模型如 GPT-4o, DeepSeek-V3优化了中文词表一个汉字约等于 0.6 ~ 1 个 Token便宜多了。通俗公式1000 Tokens ≈ 750 个英文单词1000 Tokens ≈ 500-700 个中文字符2. 为什么这很重要因为 Token 就是钱和算力。你发给 AI 的每一句话Input要算钱。AI 回复你的每一句话Output也要算钱通常更贵。字数越多Token 越多反应越慢钱扣得越快。二、上下文窗口Context Window它的“短时记忆”很多新手会问“为什么我跟 AI 聊了 20 轮它就把我第 1 轮说的需求忘了”答案是它的脑容量Context Window满了旧记忆被挤出去了。1. “滑动窗口”机制想象你在看书但你的视野窗口只能容纳 1000 个字。当你读到第 1001 个字时第 1 个字就必须移出你的视野。AI 的对话也是这样你以为的对话它记得我们要做的整个项目。实际的对话每一次你发新消息系统都会把[历史记录新消息]打包一起发给 AI。当总长度超过上限系统会强制切掉最早的对话Truncation。2. 常见的窗口大小4k / 8k (GPT-4 初代)约 3000-6000 汉字。聊一会儿就忘。128k (GPT-4o, DeepSeek-V3)约 10 万汉字。能塞进去一整本《哈利波特》第一部。1M / 2M (Gemini 1.5 Pro)约 100 万汉字。能塞进去几十个代码文件。注意窗口越大推理速度越慢且越容易“迷糊”大海捞针效应。不要无脑塞一堆不相关的东西给它。三、为什么会“忘”遗忘的本质LLM 本质上是无状态的。它就像一条鱼只有 7 秒记忆比喻。第 1 轮你发“A”它回“B”。第 2 轮你发“C”。系统实际发给 LLM 的是“A, B, C”。LLM 看着这三个字预测出“D”。第 100 轮你发“Z”。系统想发“A…Z”但发现超过 128k 了。系统被迫扔掉“A, B…”只发“X, Y, Z”。LLM 收到“X, Y, Z”完全不知道曾经有过“A”。这就是为什么它会“忘”。不是它脑子不好是你的“提示词Prompt”里已经没有那段历史了。四、为什么会“贵”成本陷阱1. 计费陷阱历史记录也要钱在网页版如 ChatGPT Plus你是包月的没感觉。但在API 模式或者某些按量计费的工具下每一次对话都要把历史记录重新传一遍重新算钱第 1 轮传 100 Token付 100 Token 的钱。第 2 轮传 (100100) Token付 200 Token 的钱。第 10 轮传 1000 Token付 1000 Token 的钱。结论聊得越久每一句话越贵。就像滚雪球一样。对策如果话题结束了开启一个新对话New Chat既省钱又清空干扰让 AI 脑子更清醒。2. 输入 vs 输出Input vs Output通常Output它写的字比 Input你给的字更贵大约贵 3 倍。Input只要“读”就行并行计算快。Output要一个字一个字“写”预测计算量大。省钱技巧多给 Context便宜。让它少废话直接给代码贵但值。不要让它“解释一下”除非你真不懂。本篇产出Token 成本估算表简化版当你准备开发一个 AI 功能时用这个表算算账。假设费率Input $2.5/M, Output $10/M —— 这是 GPT-4o 的大概价格DeepSeek 会便宜 10 倍以上。任务类型平均 Input (Tokens)平均 Output (Tokens)单次成本 (GPT-4o)单次成本 (DeepSeek-V3)备注代码补全2,000 (上下文)50 (几行代码)$0.0055 (~0.04元) 0.001元补全很便宜因为输出少代码解释3,000 (整个文件)500 (详细解释)$0.0125 (~0.09元) 0.002元解释很贵因为废话多生成单元测试3,000 (源文件)1,000 (测试代码)$0.0175 (~0.12元) 0.003元性价比最高省人工时间长文档总结50,000 (一本书)500 (摘要)$0.13 (~0.9元) 0.02元这种任务尽量用便宜模型注DeepSeek-V3 API 的价格大约是 GPT-4o 的 1/10 甚至更低所以对于个人开发者强烈建议首选 DeepSeek 接口。练习题为什么 AI 突然傻了场景你把一个 2 万行的代码文件贴给 AI问它“第 18000 行那个函数怎么改”。AI 回答“对不起我没看到那个函数。” 或者开始胡编乱造。原因分析超长截断2 万行代码可能超过了它的 Input Token 上限导致第 18000 行根本没传进去。注意力稀释就像让你在一本字典里找一个字内容太多它“看漏了”。正确做法不要把整个文件扔进去。只复制第 18000 行周围的 500 行代码及相关定义发给它。帮它聚焦它才能聪明。下一步既然知道了 Token 是怎么算的下一章我们将深入那个神秘的参数——Temperature温度。为什么有时候 AI 很有创意有时候又很死板怎么调节它

07｜Token 与上下文窗口：为什么它会忘、为什么会贵

相关文章：

07｜Token 与上下文窗口：为什么它会忘、为什么会贵

Qt 工业机器视觉开发

Day 3 复盘：我为什么选择了 OpenClaw

2026年游戏主题海报制作复盘：从找图卡壳到快速出稿的全过程

Figma学习

AI智能分析系统在班级与教学楼的应用解决方案

springboot无人机农田巡查系统设计-

ArduinoIDE调试ESP32的5个隐藏技巧：从串口监视器到错误定位的实战手册

如何使用 Docker 安全地部署 OpenClaw (龙虾)

计算机组成原理视角下的AI算力：剖析万象熔炉·丹青幻境的GPU资源利用

02 今日内容大纲

阿里大模型二面：在 Agent 的设计中，“规划能力“至关重要。请谈谈目前有哪些主流方法可以赋予 LLM 规划能力？（例如 CoT, ToT, GoT 等）

Qwen3-VL-8B轻量部署全攻略：从环境搭建到API调用，一步到位

2026.3.16oj总结

GLM-OCR入门教程：3步完成Ubuntu20.04环境部署与首次调用

为RVC模型设计自动化测试流水线：确保模型更新后的质量稳定

【CVPR26-Min Tan-杭电】基于多线索学习的伪标签进化融合与优化：用于无监督伪装检测

Python战棋游戏开发：六边形地图A*寻路算法实战（附完整代码）

开源大模型实践：软萌拆拆屋LoRA融合多专家模型探索

DJI Windows SDK开发避坑指南：从注册到成功运行（VS2019实测）

Windows 上 openclaw onboard --install-daemon 命令的安装位置和启动配置

PyTorch钩子方法实战：如何用register_forward_hook提取中间层特征图（附代码避坑指南）

ChatGLM3-6B在医疗领域的创新应用：智能问诊与病历分析

AirLLM技术教程：低资源环境下的大模型部署解决方案

RTOS技术路线之争的办公室江湖

AI超清画质增强镜像：图片细节修复与降噪功能体验

Wan2.1问题解决指南：视频生成失败、质量不高怎么办？

美国FDA官网的这些宝藏文件，撰写综述类文章的优质参考资料

Alpamayo-R1-10B基础操作：Front/Left/Right三摄像头图像上传与格式规范

NEURAL MASK 版本管理与协作：使用Git进行代码和模型资产的版本控制