当前位置: 首页 > article >正文

07|Token 与上下文窗口:为什么它会忘、为什么会贵

本篇目标这是卷 1LLM 核心原理的第一篇。我们将拆解“Token”这个 AI 计费的最小单位让你看懂账单并理解为什么聊久了它就“失忆”。一、Token 是什么不是“字”是“块”很多人以为 AI 是按“字数”或“单词数”收费的其实不是。它的计量单位叫Token。1. 怎么理解 TokenLLM 不识字它只认识数字。在它眼里一段话会被切成一个个小碎块每个碎块就是一个 Token。英文大约 1 个 Token ≈ 0.75 个单词或者说 4 个字符。例如apple是 1 个 Token。programming可能被切成programming2 个 Token。中文大约 1 个 Token ≈ 0.5 ~ 0.8 个汉字取决于模型。老模型如 GPT-3.5中文切得很碎一个汉字可能要 2-3 个 Token很贵。新模型如 GPT-4o, DeepSeek-V3优化了中文词表一个汉字约等于 0.6 ~ 1 个 Token便宜多了。通俗公式1000 Tokens ≈ 750 个英文单词1000 Tokens ≈ 500-700 个中文字符2. 为什么这很重要因为 Token 就是钱和算力。你发给 AI 的每一句话Input要算钱。AI 回复你的每一句话Output也要算钱通常更贵。字数越多Token 越多反应越慢钱扣得越快。二、上下文窗口Context Window它的“短时记忆”很多新手会问“为什么我跟 AI 聊了 20 轮它就把我第 1 轮说的需求忘了”答案是它的脑容量Context Window满了旧记忆被挤出去了。1. “滑动窗口”机制想象你在看书但你的视野窗口只能容纳 1000 个字。当你读到第 1001 个字时第 1 个字就必须移出你的视野。AI 的对话也是这样你以为的对话它记得我们要做的整个项目。实际的对话每一次你发新消息系统都会把[历史记录 新消息]打包一起发给 AI。当总长度超过上限系统会强制切掉最早的对话Truncation。2. 常见的窗口大小4k / 8k (GPT-4 初代)约 3000-6000 汉字。聊一会儿就忘。128k (GPT-4o, DeepSeek-V3)约 10 万汉字。能塞进去一整本《哈利波特》第一部。1M / 2M (Gemini 1.5 Pro)约 100 万汉字。能塞进去几十个代码文件。注意窗口越大推理速度越慢且越容易“迷糊”大海捞针效应。不要无脑塞一堆不相关的东西给它。三、为什么会“忘”遗忘的本质LLM 本质上是无状态的。它就像一条鱼只有 7 秒记忆比喻。第 1 轮你发“A”它回“B”。第 2 轮你发“C”。系统实际发给 LLM 的是“A, B, C”。LLM 看着这三个字预测出“D”。第 100 轮你发“Z”。系统想发“A…Z”但发现超过 128k 了。系统被迫扔掉“A, B…”只发“X, Y, Z”。LLM 收到“X, Y, Z”完全不知道曾经有过“A”。这就是为什么它会“忘”。不是它脑子不好是你的“提示词Prompt”里已经没有那段历史了。四、为什么会“贵”成本陷阱1. 计费陷阱历史记录也要钱在网页版如 ChatGPT Plus你是包月的没感觉。但在API 模式或者某些按量计费的工具下每一次对话都要把历史记录重新传一遍重新算钱第 1 轮传 100 Token付 100 Token 的钱。第 2 轮传 (100100) Token付 200 Token 的钱。第 10 轮传 1000 Token付 1000 Token 的钱。结论聊得越久每一句话越贵。就像滚雪球一样。对策如果话题结束了开启一个新对话New Chat既省钱又清空干扰让 AI 脑子更清醒。2. 输入 vs 输出Input vs Output通常Output它写的字比 Input你给的字更贵大约贵 3 倍。Input只要“读”就行并行计算快。Output要一个字一个字“写”预测计算量大。省钱技巧多给 Context便宜。让它少废话直接给代码贵但值。不要让它“解释一下”除非你真不懂。本篇产出Token 成本估算表简化版当你准备开发一个 AI 功能时用这个表算算账。假设费率Input $2.5/M, Output $10/M —— 这是 GPT-4o 的大概价格DeepSeek 会便宜 10 倍以上。任务类型平均 Input (Tokens)平均 Output (Tokens)单次成本 (GPT-4o)单次成本 (DeepSeek-V3)备注代码补全2,000 (上下文)50 (几行代码)$0.0055 (~0.04元) 0.001元补全很便宜因为输出少代码解释3,000 (整个文件)500 (详细解释)$0.0125 (~0.09元) 0.002元解释很贵因为废话多生成单元测试3,000 (源文件)1,000 (测试代码)$0.0175 (~0.12元) 0.003元性价比最高省人工时间长文档总结50,000 (一本书)500 (摘要)$0.13 (~0.9元) 0.02元这种任务尽量用便宜模型注DeepSeek-V3 API 的价格大约是 GPT-4o 的 1/10 甚至更低所以对于个人开发者强烈建议首选 DeepSeek 接口。练习题为什么 AI 突然傻了场景你把一个 2 万行的代码文件贴给 AI问它“第 18000 行那个函数怎么改”。AI 回答“对不起我没看到那个函数。” 或者开始胡编乱造。原因分析超长截断2 万行代码可能超过了它的 Input Token 上限导致第 18000 行根本没传进去。注意力稀释就像让你在一本字典里找一个字内容太多它“看漏了”。正确做法不要把整个文件扔进去。只复制第 18000 行周围的 500 行代码及相关定义发给它。帮它聚焦它才能聪明。下一步既然知道了 Token 是怎么算的下一章我们将深入那个神秘的参数——Temperature温度。为什么有时候 AI 很有创意有时候又很死板怎么调节它

相关文章:

07|Token 与上下文窗口:为什么它会忘、为什么会贵

本篇目标:这是卷 1(LLM 核心原理)的第一篇。我们将拆解“Token”这个 AI 计费的最小单位,让你看懂账单,并理解为什么聊久了它就“失忆”。一、Token 是什么?(不是“字”,是“块”&am…...

Qt 工业机器视觉开发

Qt在工业视觉开发中的应用Qt是一个跨平台的C应用程序开发框架,广泛用于工业视觉系统的开发。其强大的图形界面能力和丰富的库支持,使其成为工业视觉领域的理想选择。工业视觉开发的核心需求工业视觉系统通常需要实时图像处理、高精度测量、缺陷检测等功能…...

Day 3 复盘:我为什么选择了 OpenClaw

Day 3 复盘:我为什么选择了 OpenClaw 技术选择没有标准答案,只有最适合的场景。 在经历了多个项目的 CI/CD 工具选型后,我最终决定将 OpenClaw 作为核心自动化平台。今天想和大家分享一下这个决策背后的思考过程。 🔍 选型背景 作为一名开发经理,我接触过各种自动化工具…...

2026年游戏主题海报制作复盘:从找图卡壳到快速出稿的全过程

我是个游戏社群的运营,这周五前要给周末的线上活动赶一张主题海报。主题是经典的游戏角色风格,类似大家熟知的“马里奥”那种。听起来不难,但真动起手来,我卡了两天,主要是找不到风格统一、清晰度又够用的素材。直接用…...

Figma学习

一、快捷键的使用 1、F 预选手机屏幕框架 2、选中主体按alt拖动实现复制3、shiftR标尺显示与消失 4、 ctrlG 成组...

AI智能分析系统在班级与教学楼的应用解决方案

目录 引言 一、方案背景与客户需求 方案背景 客户需求 二、AI智能分析系统方案说明 系统架构 前端设备 AI Box边缘计算设备 算法部署与应用 三、实施效果与优势 实施效果 方案优势 四、结论与展望 引言 随着教育信息化与智能化浪潮的推进,智慧教育环境建设已成为…...

springboot无人机农田巡查系统设计-

目录系统架构设计无人机控制模块实现农田数据采集模块数据分析处理模块用户界面与权限控制系统集成与测试部署运维方案项目技术支持可定制开发之功能创新亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作系统架构设计 采用SpringBoot作为…...

ArduinoIDE调试ESP32的5个隐藏技巧:从串口监视器到错误定位的实战手册

ArduinoIDE调试ESP32的5个隐藏技巧:从串口监视器到错误定位的实战手册 当你在深夜赶项目时,突然遇到ESP32编译报错却找不到问题所在;当你精心编写的代码上传后,串口监视器却一片空白;当你试图追踪变量值时,…...

如何使用 Docker 安全地部署 OpenClaw (龙虾)

OpenClaw (龙虾) 是一个强大的个人 AI 助手,它可以连接各种消息平台并执行工具。本文介绍如何通过 Docker Compose 安全地部署 OpenClaw,并解析其中的关键配置。 OpenClaw 提供了强大的 AI 能力,但也意味着它需要访问你的文件、工具和 API 密…...

计算机组成原理视角下的AI算力:剖析万象熔炉·丹青幻境的GPU资源利用

计算机组成原理视角下的AI算力:剖析万象熔炉丹青幻境的GPU资源利用 最近在折腾一个挺有意思的AI绘画模型,叫“万象熔炉丹青幻境”。名字听着挺玄乎,其实就是个能根据文字描述生成各种风格图片的模型。玩了几次之后,我发现它生成图…...

02 今日内容大纲

02 今日内容大纲计算机相关概述Linux系统简介Linux安装环境搭建 安装vmware虚拟化软件安装linux虚拟机安装远程连接工具 finallshell crt. tabby配置finalshell 连接虚拟机 - 修改虚拟机 - 修改vmware软件的ip信息 - 修改本地vmnet8的网卡信息 - 配置finalshell软件的连接信息…...

阿里大模型二面:在 Agent 的设计中,“规划能力“至关重要。请谈谈目前有哪些主流方法可以赋予 LLM 规划能力?(例如 CoT, ToT, GoT 等)

1. 题目分析这道题考察的是你对 Agent 核心能力之一——规划(Planning)的系统性理解。面试官提到了 CoT、ToT、GoT 这些关键词,但他真正想听的不是你把这几个缩写展开然后各背一段定义,而是你能不能把这些方法放到一条演进脉络上&…...

Qwen3-VL-8B轻量部署全攻略:从环境搭建到API调用,一步到位

Qwen3-VL-8B轻量部署全攻略:从环境搭建到API调用,一步到位 在当今AI技术快速发展的时代,多模态模型正成为行业新宠。然而,大多数高性能视觉语言模型对硬件要求极高,让许多开发者和中小企业望而却步。Qwen3-VL-8B-Inst…...

2026.3.16oj总结

1.学生信息问题描述你的程序需要从标准输入设备(通常为键盘)中输入N(1≤N≤10)个学生的信息,每项信息包含该学生的编号、姓名、性别、年龄、成绩共五项,按成绩进行排序,然后按成绩从低到高输出&…...

GLM-OCR入门教程:3步完成Ubuntu20.04环境部署与首次调用

GLM-OCR入门教程:3步完成Ubuntu20.04环境部署与首次调用 你是不是也遇到过这种情况:手头有一堆图片,里面全是文字信息,比如扫描的文档、截图的聊天记录,或者拍下来的白板内容。一个个手动敲键盘录入?太费时…...

为RVC模型设计自动化测试流水线:确保模型更新后的质量稳定

为RVC模型设计自动化测试流水线:确保模型更新后的质量稳定 每次更新RVC模型,心里是不是都有点打鼓?新版本的声音转换效果真的比老版本好吗?有没有在某个你没注意到的场景下,效果反而变差了?手动测试几个样…...

【CVPR26-Min Tan-杭电】基于多线索学习的伪标签进化融合与优化:用于无监督伪装检测

文章:EReCu: Pseudo-label Evolution Fusion and Refinement with Multi-Cue Learning for Unsupervised Camouflage Detection代码:https://github.com/JSLiam94/EReCu单位:杭州电子科技大学、浙江大学一、问题背景伪装目标检测的核心难点&a…...

Python战棋游戏开发:六边形地图A*寻路算法实战(附完整代码)

Python战棋游戏开发:六边形地图A*寻路算法实战(附完整代码) 战棋游戏作为一种经典的策略游戏类型,其核心玩法往往围绕着地图移动和战术决策展开。与传统的方形网格地图相比,六边形地图提供了更自然的移动路径和更丰富的…...

开源大模型实践:软萌拆拆屋LoRA融合多专家模型探索

开源大模型实践:软萌拆拆屋LoRA融合多专家模型探索 1. 引言:当AI遇见“软萌”拆解术 想象一下,你有一件设计复杂的洛丽塔裙子,想把它拆解开,把每一个蝴蝶结、每一片蕾丝都整整齐齐地铺在桌面上,拍一张既专…...

DJI Windows SDK开发避坑指南:从注册到成功运行(VS2019实测)

DJI Windows SDK开发实战:从环境搭建到关键问题解决(VS2019全流程) 第一次接触DJI Windows SDK时,那种既兴奋又忐忑的心情至今记忆犹新。作为大疆生态的重要入口,这套SDK为开发者打开了无人机控制的无限可能&#xff0…...

Windows 上 openclaw onboard --install-daemon 命令的安装位置和启动配置

如果你想禁用openclaw的启动,需要在这个任务位置进行禁用,或删除。 # Windows 上 openclaw-cn onboard --install-daemon 命令的安装位置和启动配置 ## 安装位置 当你在 Windows 上运行 openclaw-cn onboard --install-daemon 命令时,它会: 1. 生成任务脚本文件 : …...

PyTorch钩子方法实战:如何用register_forward_hook提取中间层特征图(附代码避坑指南)

PyTorch钩子方法实战:如何用register_forward_hook提取中间层特征图(附代码避坑指南) 在深度学习的模型开发与调试过程中,中间层特征图的可视化与分析是理解模型行为的关键手段。PyTorch提供的register_forward_hook方法&#xff…...

ChatGLM3-6B在医疗领域的创新应用:智能问诊与病历分析

ChatGLM3-6B在医疗领域的创新应用:智能问诊与病历分析 1. 当医生还在写病历时,AI已经完成了初步诊断建议 上周我陪家人去社区医院看慢性咳嗽,候诊时看到一位老医生正对着电脑反复修改病历,手指在键盘上停顿了好几次。旁边年轻医…...

AirLLM技术教程:低资源环境下的大模型部署解决方案

AirLLM技术教程:低资源环境下的大模型部署解决方案 【免费下载链接】airllm AirLLM 70B inference with single 4GB GPU 项目地址: https://gitcode.com/GitHub_Trending/ai/airllm 核心价值主张:破解大模型部署的资源困境 在人工智能领域&#…...

RTOS技术路线之争的办公室江湖

《死锁》 第一章 架构师的尊严 我叫陈规,规矩的规。这名字是我爹取的,他是厂里的八级钳工,一辈子信奉"没有规矩不成方圆"。我继承了他的信仰,只不过我的规矩是MISRA-C,我的方圆是AutoSAR OS的架构图。 在华夏智驾干了八年,我从写驱动的小兵混成了AutoSAR OS派…...

AI超清画质增强镜像:图片细节修复与降噪功能体验

AI超清画质增强镜像:图片细节修复与降噪功能体验 1. 引言:当模糊照片遇上AI“脑补”技术 你有没有翻出过一张老照片,却发现它已经模糊得看不清人脸?或者从网上下载了一张心仪的图片,放大后却满是马赛克和噪点&#x…...

Wan2.1问题解决指南:视频生成失败、质量不高怎么办?

Wan2.1问题解决指南:视频生成失败、质量不高怎么办? 1. 常见视频生成问题与解决方案 1.1 视频生成失败的原因排查 当Wan2.1视频生成失败时,可以按照以下步骤进行排查: 检查服务状态 访问 http://100.64.16.90:7860 确认WebUI是…...

美国FDA官网的这些宝藏文件,撰写综述类文章的优质参考资料

美国食品药品监督管理局(FDA)作为全球药品监管的标杆机构,建立了系统化、多层次的信息公开与数据查询体系。其发布的各类数据库不仅为药品研发、注册申报和临床用药提供了权威依据,也成为国际医药企业进行市场准入评估与竞争情报分…...

Alpamayo-R1-10B基础操作:Front/Left/Right三摄像头图像上传与格式规范

Alpamayo-R1-10B基础操作:Front/Left/Right三摄像头图像上传与格式规范 1. 项目概述 Alpamayo-R1-10B是NVIDIA开发的自动驾驶专用视觉-语言-动作(VLA)模型,通过100亿参数的大规模预训练,结合AlpaSim模拟器与Physical…...

NEURAL MASK 版本管理与协作:使用Git进行代码和模型资产的版本控制

NEURAL MASK 版本管理与协作:使用Git进行代码和模型资产的版本控制 1. 引言 想象一下这个场景:你和团队正在开发一个基于NEURAL MASK的智能应用,比如一个自动生成营销文案的工具。经过几天的努力,你们终于调出了一个效果不错的提…...