当前位置：首页 > article >正文

记忆的遗忘与压缩：Harness 的上下文维护

article 2026/4/16 19:01:35

记忆的遗忘与压缩：Harness 的上下文维护一、标题：从人类记忆的工作机制，到 AI 对话系统的核心瓶颈解决之道——深度解析 Harness 如何通过「遗忘与压缩」构建高可用长上下文系统二、摘要/引言2.1 开门见山：当 AI 对话系统遇到「记忆断层」与「性能雪崩」你有没有试过和 ChatGPT-4o Mini、Claude Sonnet 这类主流 AI 对话助手聊天，聊到第 10 页、第 20 页甚至第 50 页时，突然发现它完全忘了半小时前你告诉它的「我叫李小花，正在准备 2025 年的产品经理秋招，目标公司是字节跳动的抖音电商运营岗」这类核心信息？不仅如此，当你把一份 100MB 的财报 PDF 直接丢给它分析时，它要么会直接报错「输入上下文长度超限」，要么需要等 30 秒甚至更久才能给出一个漏洞百出的结论——比如把营收 100 亿说成营收 10 亿，或者漏看了最关键的「2024 年 Q4 电商业务同比增长 280%」的数据。这两个问题本质上是什么？前者是AI 对话系统的「短期记忆（Context Window）」容量不足导致的「遗忘断层」——主流的开源模型（比如 Llama 3 8B）只有 8K 上下文窗口，相当于大约 6000 个中文汉字或 12000 个英文单词；闭源的大模型虽然窗口更大（比如 Claude 3.5 Opus 目前最大支持 2M 上下文，GPT-4o 支持 128K），但 2M 上下文窗口的调用成本贵得离谱——根据 OpenAI 和 Anthropic 的公开报价，GPT-4o 的 128K 上下文调用成本是每百万输入 token 5 美元，输出 token 15 美元；Claude 3.5 Opus 的 2M 上下文调用成本更是恐怖到每百万输入 token 150 美元，输出 token 750 美元——如果你每天丢 10 份 100MB 的财报给 Claude 3.5 Opus 分析，光这一项的月开销就可能超过10 万美元，这对绝大多数个人开发者、中小企业甚至是一些现金流不那么充裕的大型企业来说，都是完全不可接受的。后者则是AI 对话系统的「上下文处理效率」问题导致的「性能雪崩」——当输入的上下文窗口变大时，Transformer 模型内部的自注意力机制（Self-Attention）的计算复杂度会呈指数级增长：经典的 Transformer 自注意力机制的计算复杂度是O ( n 2 ⋅ d ) O(n^2 \cdot d)O(n2⋅d)，其中n nn是输入序列的长度（也就是 token 数量），d dd是 token 的 embedding 维度——也就是说，如果输入序列的长度从 1K 变成 128K，计算复杂度会增长16384 倍；如果变成 2M，计算复杂度会增长400 万倍！这不仅会大幅增加 AI 模型的响应时间（Latency），还会消耗掉大量的 GPU/TPU 显存和算力，导致服务器的运营成本呈指数级上升。那么，有没有一种方法，既能模拟人类记忆的工作机制——既保留短期记忆里的「核心高频、近期重要」信息，又能把长期记忆里的「次要低频、过时冗余」信息安全、高效地压缩/遗忘/检索，既解决主流 AI 对话系统的「记忆断层」问题，又解决「成本过高、性能过差」的问题？答案是肯定的——今天我们要深度解析的Harness 上下文维护系统（以下简称 Harness），就是专门为解决这个问题而设计的一套开源、通用、可扩展的 AI 长上下文维护解决方案。2.2 问题陈述：本文将要解决的核心技术难题本文将围绕「Harness 上下文维护系统」的设计、实现、优化与应用展开，重点解决以下几个核心技术难题：核心概念的构建与对齐：如何从人类记忆的认知神经科学机制、信息论的压缩原理、数据库的索引与检索原理出发，构建一套适用于 AI 对话系统的「记忆分层、遗忘触发、压缩算法、检索排序」的核心概念体系？记忆分层架构的设计：如何设计一套通用的「短期记忆（STM）- 工作记忆（WM）- 长期记忆（LTM）」三层或四层记忆分层架构？每一层的作用是什么？每一层的存储介质、存储容量、访问速度、压缩/遗忘/检索策略分别是什么？安全高效的遗忘算法的设计与实现：如何设计一套既符合人类记忆的「衰退遗忘、干扰遗忘、动机性遗忘」机制，又能保证 AI 对话系统的「语义连贯性、逻辑一致性」的安全高效的遗忘算法？如何量化「信息的重要性」「信息的时效性」「信息的冗余性」这三个核心的遗忘触发指标？语义无损的压缩算法的设计与实现：如何设计一套既能大幅压缩长期记忆里的信息体积（压缩比至少达到 10:1，甚至 100:1），又能保证压缩后的信息在语义上与原信息完全一致（语义相似度至少达到 95% 以上，用 BERTScore、BLEURT 等专业的语义相似度评估指标来衡量）的语义无损压缩算法？快速精准的检索排序算法的设计与实现：如何设计一套既能快速检索到与当前用户输入/AI 对话场景相关的长期记忆信息（检索延迟控制在 10ms 以内），又能精准地对检索到的信息进行排序（Top-K 召回的准确率至少达到 90% 以上，用 MRR、NDCG@K、MAP@K 等专业的信息检索评估指标来衡量）的快速精准的检索排序算法？通用可扩展的系统架构的设计与实现：如何设计一套通用可扩展的 Harness 上下文维护系统架构？如何支持多种主流的 AI 大模型（比如 Llama 3、Qwen 2、ChatGLM 3、GPT-4o、Claude 3.5）？如何支持多种主流的长期记忆存储介质（比如 SQLite、PostgreSQL、Redis、Elasticsearch、Milvus、ChromaDB）？如何支持多种主流的语义压缩/遗忘/检索算法？实际场景的落地与最佳实践：如何将 Harness 上下文维护系统应用到实际的 AI 对话场景中（比如智能客服、个人助理、代码助手、知识问答机器人、长文档分析助手）？如何优化 Harness 的性能和成本？如何测试 Harness 的记忆准确性和语义连贯性？2.3 核心价值：读者从本文中学到的知识与收获读完本文后，你将获得以下核心价值：系统理解 AI 长上下文维护的核心原理：你将从认知神经科学、信息论、数据库、计算机视觉（类比稀疏编码）、自然语言处理（类比语义理解）等多个学科的角度，系统理解 AI 长上下文维护的核心原理，不再是「知其然，而不知其所以然」。掌握一套通用可扩展的 AI 长上下文维护系统的设计方法：你将掌握 Harness 上下文维护系统的「记忆分层架构设计」「核心算法设计」「系统架构设计」「接口设计」「核心实现」等完整的设计方法，能够根据自己的实际需求，快速开发或定制一套属于自己的 AI 长上下文维护系统。获得一套完整的 Harness 上下文维护系统的 Python 源代码：你将获得本文附带的一套完整的、经过测试的、可直接运行的 Harness 上下文维护系统的 Python 源代码，包括记忆分层存储模块、遗忘触发与执行模块、语义压缩模块、检索排序模块、模型适配模块、接口模块等所有核心模块。了解 Harness 上下文维护系统的实际落地场景与最佳实践：你将了解 Harness 上下文维护系统在「智能客服」「个人助理」「代码助手」「知识问答机器人」「长文档分析助手」等五个典型的 AI 对话场景中的实际落地案例，以及优化性能和成本的最佳实践 tips。把握 AI 长上下文维护领域的未来发展趋势：你将了解 AI 长上下文维护领域的「问题演变发展历史」「当前的主流技术方案」「未来的发展方向」（比如基于 Transformer-XL 的动态上下文窗口、基于 MoE 的稀疏注意力机制、基于知识图谱的结构化记忆、基于强化学习的自适应遗忘与压缩算法等），能够提前布局自己的技术栈。2.4 文章概述：本文将要涵盖的主要部分本文将按照以下的结构展开：摘要/引言：即本部分，介绍本文的背景、问题、核心价值和文章概述。核心概念与理论基础：从「认知神经科学的人类记忆工作机制」「信息论的压缩与冗余原理」「数据库的索引与检索原理」「自然语言处理的语义理解与相似度评估原理」「强化学习的自适应决策原理」等五个方面，构建 Harness 上下文维护系统的核心概念体系与理论基础。Harness 的记忆分层架构设计：详细介绍 Harness 采用的「四层记忆分层架构」——「瞬时记忆（SM）- 短期记忆（STM）- 工作记忆（WM）- 长期语义记忆（LTSM）」，包括每一层的作用、存储介质、存储容量、访问速度、数据结构、压缩/遗忘/检索策略等。Harness 的核心算法设计与实现：详细介绍 Harness 的四个核心算法——「安全高效的遗忘算法（基于多指标加权评分与衰退模型）」「语义无损的压缩算法（基于语义摘要生成与结构化知识抽取）」「快速精准的检索排序算法（基于混合检索与重排序）」「自适应参数调整算法（基于强化学习的 PPO 算法）」，包括算法的数学模型、算法流程图、Python 源代码、测试结果等。Harness 的通用可扩展系统架构设计：详细介绍 Harness 的「微服务架构」，包括「模型适配微服务」「记忆管理微服务」「检索微服务」「压缩微服务」「接口微服务」「监控微服务」等六个核心微服务，以及微服务之间的交互关系图（ER 实体关系图、Mermaid 交互图）、系统接口设计（RESTful API、WebSocket API）等。Harness 的实际场景落地与最佳实践：详细介绍 Harness 在「智能客服」「个人助理」「代码助手」「知识问答机器人」「长文档分析助手」等五个典型场景中的落地案例，包括项目介绍、环境安装、系统功能设计、系统核心实现源代码、性能测试结果、成本测试结果等，以及优化性能和成本的 20 条最佳实践 tips。行业发展与未来趋势：详细介绍 AI 长上下文维护领域的「问题演变发展历史」（用 Markdown 表格整理）、「当前的主流技术方案对比」（用 Markdown 表格整理，对比维度包括「上下文窗口大小」「成本」「性能」「记忆准确性」「可扩展性」「开源性」等）、「未来的发展方向」等。本章小结：不对，是全文总结，简要回顾本文的主要内容，重申核心价值，提出行动号召，展望未来。参考文献/延伸阅读：提供相关的学术论文、技术文档、开源项目链接。致谢：感谢那些为本文的研究或写作提供过帮助的人。作者简介：简要介绍作者自己以及专业背景。三、核心概念与理论基础3.1 核心概念：Harness 上下文维护系统的核心概念体系在正式介绍 Harness 的设计与实现之前，我们首先需要构建一套统一的、清晰的核心概念体系，这样才能确保后续的讨论不会出现概念混淆的问题。3.1.1 核心概念 1：记忆（Memory）在 Harness 上下文维护系统中，记忆是指 AI 对话系统在与用户的交互过程中积累的所有信息的集合，包括但不限于：用户输入信息：用户说的每一句话、提的每一个问题、发的每一个指令、上传的每一个文件（文本、图片、音频、视频等）。AI 输出信息：AI 说的每一句话、给出的每一个答案、执行的每一个指令的结果。交互场景信息：交互的时间、地点（如果有的话）、设备（如果有的话）、用户的情绪（如果通过情感分析算法识别出来的话）、交互的主题（如果通过主题模型识别出来的话）。结构化知识信息：从用户输入信息、AI 输出信息、上传的文件中抽取出来的实体（Entity）、关系（Relation）、属性（Attribute）、事件（Event）等结构化知识。系统元信息：记忆的创建时间、修改时间、访问次数、最后访问时间、重要性评分、时效性评分、冗余性评分、压缩状态等系统元信息。为了更好地管理和利用这些记忆，Harness 借鉴了认知神经科学中的「人类记忆分层模型」，将记忆分为四个层次：瞬时记忆（Sensory Memory, SM）、短期记忆（Short-Term Memory, STM）、工作记忆（Working Memory, WM）、长期语义记忆（Long-Term Semantic Memory, LTSM）——这四个层次的作用、存储介质、存储容量、访问速度、数据结构、压缩/遗忘/检索策略都各不相同，我们将在第四章「Harness 的记忆分层架构设计」中详细介绍。3.1.2 核心概念 2：遗忘（Forgetting）在 Harness 上下文维护系统中，遗忘不是指「完全删除掉某个记忆单元」，而是指「将某个记忆单元从快速访问的层次（比如瞬时记忆、短期记忆、工作记忆）移动到慢速访问的层次（比如长期语义记忆）」，或者「压缩掉某个记忆单元中的冗余信息」，或者「降低某个记忆单元的检索优先级」——只有在绝对必要的情况下（比如某个记忆单元的重要性评分、时效性评分、冗余性评分都达到了「完全删除阈值」），Harness 才会真正地完全删除掉某个记忆单元。Harness 借鉴了认知神经科学中的「人类遗忘机制」，设计了三种遗忘触发方式：衰退遗忘（Decay Forgetting）：随着时间的推移，记忆单元的重要性评分和时效性评分会逐渐降低，当降低到「分层移动阈值」时，记忆单元会从快速访问的层次移动到慢速访问的层次；当降低到「完全删除阈值」时，记忆单元会被真正地完全删除掉。干扰遗忘（Interference Forgetting）：当有新的、更重要的、更相关的记忆单元进入快速访问的层次时，旧的、次要的、不相关的记忆单元的检索优先级会逐渐降低，甚至会被挤出快速访问的层次（移动到慢速访问的层次）。动机性遗忘（Motivated Forgetting）：用户可以主动要求 Harness 「遗忘某个记忆单元」「遗忘某个主题的所有记忆单元」「遗忘某个时间段的所有记忆单元」——Harness 会根据用户的要求，将对应的记忆单元移动到慢速访问的层次，或者完全删除掉（取决于用户的要求和记忆单元的重要性评分）。为了量化「信息的重要性」「信息的时效性」「信息的冗余性」这三个核心的遗忘触发指标，Harness 设计了一套「多指标加权评分模型」，我们将在第五章「Harness 的核心算法设计与实现」中详细介绍。3.1.3 核心概念 3：压缩（Compression）在 Harness 上下文维护系统中，压缩不是指「传统的有损或无损数据压缩算法」（比如 ZIP、GZIP、JPEG、PNG 等），而是指「语义压缩算法」——即通过语义摘要生成或结构化知识抽取的方式，将原始的、冗长的、冗余的记忆单元（比如一段 1000 字的用户输入、一份 10000 字的长文档片段）压缩成一段简短的、语义无损的摘要，或者一组结构化的实体、关系、属性、事件等知识，从而大幅减少记忆单元的存储体积和处理成本，同时保证压缩后的信息在语义上与原信息完全一致（或者至少高度一致）。Harness 设计了两种语义压缩方式：轻量级语义压缩（Lightweight Semantic Compression）：适用于短期记忆、工作记忆中的记忆单元，压缩比一般在 2:1 到 5:1 之间，采用的是「基于关键词抽取和句子重排序的轻量级语义摘要生成算法」，不需要调用外部的 AI 大模型，处理速度非常快（延迟控制在 1ms 以内）。重量级语义压缩（Heavyweight Semantic Compression）：适用于长期语义记忆中的记忆单元，压缩比一般在 10:1 到 100:1 之间，甚至更高，采用的是「基于 AI 大模型的语义摘要生成算法」和「基于知识图谱的结构化知识抽取算法」，需要调用外部的 AI 大模型，但处理后的信息质量非常高（语义相似度至少达到 95% 以上）。为了评估语义压缩算法的质量，Harness 采用了 BERTScore、BLEURT、ROUGE-1、ROUGE-2、ROUGE-L 等五个专业的语义相似度评估指标，我们将在第五章「Harness 的核心算法设计与实现」中详细介绍。3.1.4 核心概念 4：检索（Retrieval）在 Harness 上下文维护系统中，检索是指「根据当前用户输入/AI 对话场景的语义，从长期语义记忆中快速检索到最相关的 Top-K 个记忆单元」的过程——检索到的记忆单元会被送入工作记忆中，与当前的短期记忆一起，作为 AI 大模型的输入上下文，从而解决 AI 大模型的「记忆断层」问题。Harness 设计了一套「混合检索与重排序架构」，包括三个步骤：粗检索（Coarse Retrieval）：采用「基于向量数据库的语义检索」和「基于倒排索引的关键词检索」两种检索方式，分别从长期语义记忆中检索到 Top-100 个最相关的记忆单元，然后合并这两个结果集，得到一个初步的候选集（最多 200 个记忆单元）。精过滤（Fine Filtering）：根据「记忆单元的重要性评分」「记忆单元的时效性评分」「记忆单元与当前用户输入/AI 对话场景的语义相似度」三个指标，对初步的候选集进行精过滤，去掉那些重要性评分太低、时效性评分太低、语义相似度太低的记忆单元，得到一个精简的候选集（最多 50 个记忆单元）。重排序（Reranking）：采用「基于交叉编码器（Cross-Encoder）的语义重排序算法」，对精简的候选集进行重排序，得到最终的 Top-K 个最相关的记忆单元（K 的值可以根据 AI 大模型的上下文窗口大小和当前对话场景的需求进行调整，一般在 5 到 20 之间）。为了评估检索排序算法的质量，Harness 采用了 MRR（Mean Reciprocal Rank）、NDCG@K（Normalized Discounted Cumulative Gain）、MAP@K（Mean Average Precision）、Precision@K、Recall@K 等五个专业的信息检索评估指标，我们将在第五章「Harness 的核心算法设计与实现」中详细介绍。3.1.5 核心概念 5：自适应参数调整（Adaptive Parameter Tuning）在 Harness 上下文维护系统中，自适应参数调整是指「根据 AI 对话系统的性能指标（比如响应时间、记忆准确性、语义连贯性）、成本指标（比如 GPU/TPU 显存占用率、算力消耗、调用外部 AI 大模型的成本）、用户反馈指标（比如用户的满意度评分、用户的主动遗忘/保留记忆的指令），自动调整 Harness 的核心参数」的过程——这些核心参数包括但不限于：记忆分层架构中每一层的存储容量阈值。衰退遗忘模型中的衰退系数。多指标加权评分模型中每个指标的权重。压缩算法中的压缩比阈值。检索排序算法中的 K 值（Top-K 召回的数量）。混合检索与重排序架构中语义检索和关键词检索的权重。为了实现自适应参数调整，Harness 采用了强化学习中的 PPO（Proximal Policy Optimization）算法——PPO 算法是目前最流行、最稳定的强化学习算法之一，非常适合用于这类「连续动作空间、延迟奖励」的自适应决策问题，我们将在第五章「Harness 的核心算法设计与实现」中详细介绍。3.2 认知神经科学的人类记忆工作机制Harness 上下文维护系统的核心灵感来源于认知神经科学中的人类记忆工作机制——因此，在正式介绍 Harness 的设计与实现之前，我们首先需要了解一下人类记忆的工作机制，这样才能更好地理解 Harness 的设计理念。3.2.1 人类记忆的分层模型认知神经科学家经过多年的研究，提出了多种人类记忆的分层模型，其中最著名、最被广泛接受的是阿特金森-希弗林记忆模型（Atkinson-Shiffrin Memory Model）——该模型由美国心理学家理查德·阿特金森（Richard Atkinson）和理查德·希弗林（Richard Shiffrin）于 1968 年提出，将人类记忆分为三个层次：瞬时记忆（Sensory Memory, SM）：也称为「感觉登记」，是指人类通过视觉、听觉、触觉、嗅觉、味觉等感觉器官接收到的信息的暂时存储——瞬时记忆的存储容量非常大（理论上可以存储所有接收到的感觉信息），但存储时间非常短（视觉瞬时记忆的存储时间大约是 0.25 到 1 秒，听觉瞬时记忆的存储时间大约是 2 到 4 秒）——如果瞬时记忆中的信息没有被「注意」到，就会很快被遗忘；如果被「注意」到，就会被送入短期记忆中。短期记忆（Short-Term Memory, STM）：也称为「初级记忆」，是指人类在短时间内（大约 15 到 30 秒）能够保持的信息的存储——短期记忆的存储容量非常有限，根据美国心理学家乔治·米勒（George Miller）于 1956 年发表的著名论文《神奇的数字 7±2：我们信息加工能力的局限》，短期记忆的存储容量大约是 7±2 个「组块（Chunk）」——组块是指人类将多个小的信息单元组合成一个大的、有意义的信息单元的过程（比如将「1、3、8、0、0、1、3、8、0、0」这 10 个数字组合成「1380013800」这个中国移动的客服电话号码，就是一个组块）——如果短期记忆中的信息没有被「复述（Rehearsal）」，就会很快被遗忘；如果被「复述」，就会被送入长期记忆中。长期记忆（Long-Term Memory, LTM）：也称为「次级记忆」，是指人类在长时间内（从几分钟到几十年甚至终身）能够保持的信息的存储——长期记忆的存储容量几乎是无限的，存储时间也非常长——长期记忆可以进一步分为两种类型：a.陈述性记忆（Declarative Memory）：也称为「外显记忆（Explicit Memory）」，是指人类能够有意识地回忆起来的事实和事件的记忆——陈述性记忆可以进一步分为两种类型：i.语义记忆（Semantic Memory）：是指人类对客观世界的一般知识的记忆（比如「北京是中国的首都」「2+2=4」「苹果是一种水果」）——语义记忆与特定的时间和地点无关。ii.情景记忆（Episodic Memory）：是指人类对个人经历的事件的记忆（比如「我昨天在电影院看了《流浪地球 3》」「我 2020 年从北京大学毕业」）——情景记忆与特定的时间和地点有关。b.程序性记忆（Procedural Memory）：也称为「内隐记忆（Implicit Memory）」，是指人类对技能、习惯、动作的记忆（比如「骑自行车」「游泳」「打字」）——程序性记忆不需要有意识地回忆，而是通过练习自动形成的。3.2.2 人类记忆的遗忘机制认知神经科学家经过多年的研究，提出了多种人类记忆的遗忘机制理论，其中最著名、最被广泛接受的有以下三种：衰退理论（Decay Theory）：该理论由德国心理学家赫尔曼·艾宾浩斯（Hermann Ebbinghaus）于 1885 年提出——艾宾浩斯通过自己做的「无意义音节记忆实验」，绘制了著名的艾宾浩斯遗忘曲线（Ebbinghaus Forgetting Curve）——该曲线表明，人类的遗忘速度是先快后慢的：在学习后的 20 分钟内，大约会遗忘 42% 的信息；在学习后的 1 小时内，大约会遗忘 56% 的信息；在学习后的 9 小时内，大约会遗忘 64% 的信息；在学习后的 1 天内，大约会遗忘 67% 的信息；在学习后的 2 天内，大约会遗忘 75% 的信息；在学习后的 6 天内，大约会遗忘 78% 的信息；在学习后的 31 天内，大约会遗忘 79% 的信息——之后，遗忘的速度会变得非常慢，几乎不会再遗忘了。衰退理论认为，人类的遗忘是由于「记忆痕迹（Memory Trace）」随着时间的推移而逐渐衰退导致的——记忆痕迹是指人类大脑中的神经元之间形成的新的突触连接——如果这些突触连接没有被「复述」或「激活」，就会逐渐减弱甚至消失，从而导致遗忘。干扰理论（Interference Theory）：该理论由美国心理学家约翰·华生（John Watson）和伯尔赫斯·弗雷德里克·斯金纳（Burrhus Frederic Skinner）等行为主义心理学家于 20 世纪初提出——干扰理论认为，人类的遗忘不是由于「记忆痕迹」随着时间的推移而逐渐衰退导致的，而是由于「新的记忆」和「旧的记忆」之间的相互干扰导致的——干扰理论可以进一步分为两种类型：a.前摄干扰（Proactive Interference, PI）：是指「旧的记忆」对「新的记忆」的学习和回忆产生的干扰（比如你先学习了法语，然后再学习西班牙语，法语的词汇和语法会对你学习西班牙语的词汇和语法产生干扰）。b.倒摄干扰（Retroactive Interference, RI）：是指「新的记忆」对「旧的记忆」的回忆产生的干扰（比如你先学习了西班牙语，然后再学习法语，法语的词汇和语法会对你回忆西班牙语的词汇和语法产生干扰）。动机性遗忘理论（Motivated Forgetting Theory）：该理论由奥地利心理学家西格蒙德·弗洛伊德（Sigmund Freud）于 20 世纪初提出——动机性遗忘理论认为，人类的遗忘不是由于「记忆痕迹」的衰退或「新旧记忆」的干扰导致的，而是由于「人类的潜意识」为了避免痛苦、焦虑、羞耻等负面情绪的体验，主动将那些「不愉快的记忆」压抑（Repression）到潜意识中，从而导致无法有意识地回忆起来——动机性遗忘也称为「压抑性遗忘」。3.2.3 人类记忆的压缩机制认知神经科学家经过多年的研究，发现人类的大脑也具有强大的「语义压缩机制」——人类的大脑不会存储所有接收到的感觉信息，而是会通过组块（Chunking）、抽象（Abstraction）、概括（Generalization）、**结构化（Structuring）**等方式，将原始的、冗长的、冗余的信息压缩成简短的、有意义的、结构化的信息，从而大幅减少大脑的存储负担——例如：组块：将「1、3、8、0、0、1、3、8、0、0」这 10 个数字组合成「1380013800」这个中国移动的客服电话号码，就是一个组块——组块可以将短期记忆的存储容量从 7±2 个数字/字母/单词，扩展到 7±2 个有意义的信息单元，从而大幅提高短期记忆的存储效率。抽象与概括：当你读了一篇 10000 字的关于「人工智能的发展历史」的长文档后，你不会存储这篇文档的每一个字、每一句话，而是会抽象和概括出这篇文档的核心要点（比如「人工智能的发展历史可以分为三个阶段：孕育期（1940s-1950s）、低谷期（1970s-1980s）、爆发期（2010s-至今）」「ChatGPT 的出现是人工智能发展历史上的一个里程碑事件」），从而大幅减少长期记忆的存储负担。结构化：当你学习了一门新的学科（比如「计算机科学」）后，你不会存储这门学科的每一个知识点，而是会将这些知识点组织成一个结构化的知识体系（比如「计算机科学可以分为理论计算机科学和应用计算机科学，理论计算机科学包括算法、数据结构、计算理论等，应用计算机科学包括软件工程、人工智能、计算机网络等」），从而大幅提高长期记忆的检索效率。3.3 信息论的压缩与冗余原理Harness 上下文维护系统的语义压缩算法的核心理论基础来源于克劳德·香农（Claude Shannon）于 1948 年发表的著名论文《通信的数学原理（A Mathematical Theory of Communication）》中提出的信息论——因此，在正式介绍 Harness 的语义压缩算法之前，我们首先需要了解一下信息论的压缩与冗余原理。3.3.1 核心概念 1：信息熵（Entropy）信息论中的信息熵（Entropy）是用来衡量「一个随机事件的不确定性」或「一个随机变量的信息量」的指标——信息熵的单位是「比特（Bit）」——对于一个离散的随机变量X XX，其可能的取值为x 1 , x 2 , . . . , x n x_1, x_2, ..., x_nx1,x2,...,x

记忆的遗忘与压缩：Harness 的上下文维护

相关文章：

记忆的遗忘与压缩：Harness 的上下文维护

终极指南：如何使用applera1n工具在iOS 15-16设备上绕过激活锁

jEasyUI 添加工具栏

玄域靶场越权系列第1关实战复盘

终极免费音频解密工具：3分钟解锁QQ音乐加密文件实现跨平台播放

Python学习日志（二）：基础语法

网盘直链下载助手：八大网盘一键解析，告别限速烦恼的终极解决方案

《深度解析QClaw同步架构：为什么它比所有云盘都快10倍》

DearPyGui内置的‘开发者工具箱’有多强？手把手教你用Style Editor和Metrics打造专属UI

免费数据恢复软件推荐：Wise Data Recovery 6.2.0 激活版使用指南

AUV增量PID轨迹跟踪与USV路径跟随的MATLAB仿真

JavaScript 递归调用栈深度解析与层级遍历陷阱详解

c++怎么在读取文件时自动跳过所有UTF-8编码的非法字符【实战】

List.Sort与LINQ排序哪种更高效

C语言属于什么软件

MCP协议如何重塑前端开发工作流

React 20与Server Components生态：2026年全新实践

从精确到共识：一种关于数据架构的经济学解释

解放双手！碧蓝航线全自动助手Alas：7x24小时智能托管你的舰队

孩子 KET 口语总丢分？这份指南帮你搞定

从精确到共识

保姆级教程：用ENVI 5.6处理Landsat 8影像，5步搞定郑州市土地利用分类图

响应式编程-Flux 背压机制与操作符链式调用源码解析

Python重点知识总结（含爬虫）

基于yolov26+pyqt5的石榴成熟度检测系统python源码+pytorch模型+评估指标曲线+精美GUI界面

客服机器人支持快捷键操作吗？Agent 系统后台可自定义热键，客服效率能提升多少？

记一次跨境电商客服系统的搭建与差评处理复盘

Python与爬虫

【多模态大模型落地自动驾驶实战白皮书】：20年智驾专家首曝3大失败场景、5类传感器融合陷阱与实时推理优化黄金公式

【紧急预警】HuggingFace最新v4.45更新已默认禁用legacy cross-attention kernel——你的多模态微调Pipeline可能已在静默崩溃！