当前位置: 首页 > article >正文

记忆的遗忘与压缩:Harness 的上下文维护

记忆的遗忘与压缩:Harness 的上下文维护一、 标题:从人类记忆的工作机制,到 AI 对话系统的核心瓶颈解决之道——深度解析 Harness 如何通过「遗忘与压缩」构建高可用长上下文系统二、 摘要/引言2.1 开门见山:当 AI 对话系统遇到「记忆断层」与「性能雪崩」你有没有试过和 ChatGPT-4o Mini、Claude Sonnet 这类主流 AI 对话助手聊天,聊到第 10 页、第 20 页甚至第 50 页时,突然发现它完全忘了半小时前你告诉它的「我叫李小花,正在准备 2025 年的产品经理秋招,目标公司是字节跳动的抖音电商运营岗」这类核心信息?不仅如此,当你把一份 100MB 的财报 PDF 直接丢给它分析时,它要么会直接报错「输入上下文长度超限」,要么需要等 30 秒甚至更久才能给出一个漏洞百出的结论——比如把营收 100 亿说成营收 10 亿,或者漏看了最关键的「2024 年 Q4 电商业务同比增长 280%」的数据。这两个问题本质上是什么?前者是AI 对话系统的「短期记忆(Context Window)」容量不足导致的「遗忘断层」——主流的开源模型(比如 Llama 3 8B)只有 8K 上下文窗口,相当于大约 6000 个中文汉字或 12000 个英文单词;闭源的大模型虽然窗口更大(比如 Claude 3.5 Opus 目前最大支持 2M 上下文,GPT-4o 支持 128K),但 2M 上下文窗口的调用成本贵得离谱——根据 OpenAI 和 Anthropic 的公开报价,GPT-4o 的 128K 上下文调用成本是每百万输入 token 5 美元,输出 token 15 美元;Claude 3.5 Opus 的 2M 上下文调用成本更是恐怖到每百万输入 token 150 美元,输出 token 750 美元——如果你每天丢 10 份 100MB 的财报给 Claude 3.5 Opus 分析,光这一项的月开销就可能超过10 万美元,这对绝大多数个人开发者、中小企业甚至是一些现金流不那么充裕的大型企业来说,都是完全不可接受的。后者则是AI 对话系统的「上下文处理效率」问题导致的「性能雪崩」——当输入的上下文窗口变大时,Transformer 模型内部的自注意力机制(Self-Attention)的计算复杂度会呈指数级增长:经典的 Transformer 自注意力机制的计算复杂度是O ( n 2 ⋅ d ) O(n^2 \cdot d)O(n2⋅d),其中n nn是输入序列的长度(也就是 token 数量),d dd是 token 的 embedding 维度——也就是说,如果输入序列的长度从 1K 变成 128K,计算复杂度会增长16384 倍;如果变成 2M,计算复杂度会增长400 万倍!这不仅会大幅增加 AI 模型的响应时间(Latency),还会消耗掉大量的 GPU/TPU 显存和算力,导致服务器的运营成本呈指数级上升。那么,有没有一种方法,既能模拟人类记忆的工作机制——既保留短期记忆里的「核心高频、近期重要」信息,又能把长期记忆里的「次要低频、过时冗余」信息安全、高效地压缩/遗忘/检索,既解决主流 AI 对话系统的「记忆断层」问题,又解决「成本过高、性能过差」的问题?答案是肯定的——今天我们要深度解析的Harness 上下文维护系统(以下简称 Harness),就是专门为解决这个问题而设计的一套开源、通用、可扩展的 AI 长上下文维护解决方案。2.2 问题陈述:本文将要解决的核心技术难题本文将围绕「Harness 上下文维护系统」的设计、实现、优化与应用展开,重点解决以下几个核心技术难题:核心概念的构建与对齐:如何从人类记忆的认知神经科学机制、信息论的压缩原理、数据库的索引与检索原理出发,构建一套适用于 AI 对话系统的「记忆分层、遗忘触发、压缩算法、检索排序」的核心概念体系?记忆分层架构的设计:如何设计一套通用的「短期记忆(STM)- 工作记忆(WM)- 长期记忆(LTM)」三层或四层记忆分层架构?每一层的作用是什么?每一层的存储介质、存储容量、访问速度、压缩/遗忘/检索策略分别是什么?安全高效的遗忘算法的设计与实现:如何设计一套既符合人类记忆的「衰退遗忘、干扰遗忘、动机性遗忘」机制,又能保证 AI 对话系统的「语义连贯性、逻辑一致性」的安全高效的遗忘算法?如何量化「信息的重要性」「信息的时效性」「信息的冗余性」这三个核心的遗忘触发指标?语义无损的压缩算法的设计与实现:如何设计一套既能大幅压缩长期记忆里的信息体积(压缩比至少达到 10:1,甚至 100:1),又能保证压缩后的信息在语义上与原信息完全一致(语义相似度至少达到 95% 以上,用 BERTScore、BLEURT 等专业的语义相似度评估指标来衡量)的语义无损压缩算法?快速精准的检索排序算法的设计与实现:如何设计一套既能快速检索到与当前用户输入/AI 对话场景相关的长期记忆信息(检索延迟控制在 10ms 以内),又能精准地对检索到的信息进行排序(Top-K 召回的准确率至少达到 90% 以上,用 MRR、NDCG@K、MAP@K 等专业的信息检索评估指标来衡量)的快速精准的检索排序算法?通用可扩展的系统架构的设计与实现:如何设计一套通用可扩展的 Harness 上下文维护系统架构?如何支持多种主流的 AI 大模型(比如 Llama 3、Qwen 2、ChatGLM 3、GPT-4o、Claude 3.5)?如何支持多种主流的长期记忆存储介质(比如 SQLite、PostgreSQL、Redis、Elasticsearch、Milvus、ChromaDB)?如何支持多种主流的语义压缩/遗忘/检索算法?实际场景的落地与最佳实践:如何将 Harness 上下文维护系统应用到实际的 AI 对话场景中(比如智能客服、个人助理、代码助手、知识问答机器人、长文档分析助手)?如何优化 Harness 的性能和成本?如何测试 Harness 的记忆准确性和语义连贯性?2.3 核心价值:读者从本文中学到的知识与收获读完本文后,你将获得以下核心价值:系统理解 AI 长上下文维护的核心原理:你将从认知神经科学、信息论、数据库、计算机视觉(类比稀疏编码)、自然语言处理(类比语义理解)等多个学科的角度,系统理解 AI 长上下文维护的核心原理,不再是「知其然,而不知其所以然」。掌握一套通用可扩展的 AI 长上下文维护系统的设计方法:你将掌握 Harness 上下文维护系统的「记忆分层架构设计」「核心算法设计」「系统架构设计」「接口设计」「核心实现」等完整的设计方法,能够根据自己的实际需求,快速开发或定制一套属于自己的 AI 长上下文维护系统。获得一套完整的 Harness 上下文维护系统的 Python 源代码:你将获得本文附带的一套完整的、经过测试的、可直接运行的 Harness 上下文维护系统的 Python 源代码,包括记忆分层存储模块、遗忘触发与执行模块、语义压缩模块、检索排序模块、模型适配模块、接口模块等所有核心模块。了解 Harness 上下文维护系统的实际落地场景与最佳实践:你将了解 Harness 上下文维护系统在「智能客服」「个人助理」「代码助手」「知识问答机器人」「长文档分析助手」等五个典型的 AI 对话场景中的实际落地案例,以及优化性能和成本的最佳实践 tips。把握 AI 长上下文维护领域的未来发展趋势:你将了解 AI 长上下文维护领域的「问题演变发展历史」「当前的主流技术方案」「未来的发展方向」(比如基于 Transformer-XL 的动态上下文窗口、基于 MoE 的稀疏注意力机制、基于知识图谱的结构化记忆、基于强化学习的自适应遗忘与压缩算法等),能够提前布局自己的技术栈。2.4 文章概述:本文将要涵盖的主要部分本文将按照以下的结构展开:摘要/引言:即本部分,介绍本文的背景、问题、核心价值和文章概述。核心概念与理论基础:从「认知神经科学的人类记忆工作机制」「信息论的压缩与冗余原理」「数据库的索引与检索原理」「自然语言处理的语义理解与相似度评估原理」「强化学习的自适应决策原理」等五个方面,构建 Harness 上下文维护系统的核心概念体系与理论基础。Harness 的记忆分层架构设计:详细介绍 Harness 采用的「四层记忆分层架构」——「瞬时记忆(SM)- 短期记忆(STM)- 工作记忆(WM)- 长期语义记忆(LTSM)」,包括每一层的作用、存储介质、存储容量、访问速度、数据结构、压缩/遗忘/检索策略等。Harness 的核心算法设计与实现:详细介绍 Harness 的四个核心算法——「安全高效的遗忘算法(基于多指标加权评分与衰退模型)」「语义无损的压缩算法(基于语义摘要生成与结构化知识抽取)」「快速精准的检索排序算法(基于混合检索与重排序)」「自适应参数调整算法(基于强化学习的 PPO 算法)」,包括算法的数学模型、算法流程图、Python 源代码、测试结果等。Harness 的通用可扩展系统架构设计:详细介绍 Harness 的「微服务架构」,包括「模型适配微服务」「记忆管理微服务」「检索微服务」「压缩微服务」「接口微服务」「监控微服务」等六个核心微服务,以及微服务之间的交互关系图(ER 实体关系图、Mermaid 交互图)、系统接口设计(RESTful API、WebSocket API)等。Harness 的实际场景落地与最佳实践:详细介绍 Harness 在「智能客服」「个人助理」「代码助手」「知识问答机器人」「长文档分析助手」等五个典型场景中的落地案例,包括项目介绍、环境安装、系统功能设计、系统核心实现源代码、性能测试结果、成本测试结果等,以及优化性能和成本的 20 条最佳实践 tips。行业发展与未来趋势:详细介绍 AI 长上下文维护领域的「问题演变发展历史」(用 Markdown 表格整理)、「当前的主流技术方案对比」(用 Markdown 表格整理,对比维度包括「上下文窗口大小」「成本」「性能」「记忆准确性」「可扩展性」「开源性」等)、「未来的发展方向」等。本章小结:不对,是全文总结,简要回顾本文的主要内容,重申核心价值,提出行动号召,展望未来。参考文献/延伸阅读:提供相关的学术论文、技术文档、开源项目链接。致谢:感谢那些为本文的研究或写作提供过帮助的人。作者简介:简要介绍作者自己以及专业背景。三、 核心概念与理论基础3.1 核心概念:Harness 上下文维护系统的核心概念体系在正式介绍 Harness 的设计与实现之前,我们首先需要构建一套统一的、清晰的核心概念体系,这样才能确保后续的讨论不会出现概念混淆的问题。3.1.1 核心概念 1:记忆(Memory)在 Harness 上下文维护系统中,记忆是指 AI 对话系统在与用户的交互过程中积累的所有信息的集合,包括但不限于:用户输入信息:用户说的每一句话、提的每一个问题、发的每一个指令、上传的每一个文件(文本、图片、音频、视频等)。AI 输出信息:AI 说的每一句话、给出的每一个答案、执行的每一个指令的结果。交互场景信息:交互的时间、地点(如果有的话)、设备(如果有的话)、用户的情绪(如果通过情感分析算法识别出来的话)、交互的主题(如果通过主题模型识别出来的话)。结构化知识信息:从用户输入信息、AI 输出信息、上传的文件中抽取出来的实体(Entity)、关系(Relation)、属性(Attribute)、事件(Event)等结构化知识。系统元信息:记忆的创建时间、修改时间、访问次数、最后访问时间、重要性评分、时效性评分、冗余性评分、压缩状态等系统元信息。为了更好地管理和利用这些记忆,Harness 借鉴了认知神经科学中的「人类记忆分层模型」,将记忆分为四个层次:瞬时记忆(Sensory Memory, SM)、短期记忆(Short-Term Memory, STM)、工作记忆(Working Memory, WM)、长期语义记忆(Long-Term Semantic Memory, LTSM)——这四个层次的作用、存储介质、存储容量、访问速度、数据结构、压缩/遗忘/检索策略都各不相同,我们将在第四章「Harness 的记忆分层架构设计」中详细介绍。3.1.2 核心概念 2:遗忘(Forgetting)在 Harness 上下文维护系统中,遗忘不是指「完全删除掉某个记忆单元」,而是指「将某个记忆单元从快速访问的层次(比如瞬时记忆、短期记忆、工作记忆)移动到慢速访问的层次(比如长期语义记忆)」,或者「压缩掉某个记忆单元中的冗余信息」,或者「降低某个记忆单元的检索优先级」——只有在绝对必要的情况下(比如某个记忆单元的重要性评分、时效性评分、冗余性评分都达到了「完全删除阈值」),Harness 才会真正地完全删除掉某个记忆单元。Harness 借鉴了认知神经科学中的「人类遗忘机制」,设计了三种遗忘触发方式:衰退遗忘(Decay Forgetting):随着时间的推移,记忆单元的重要性评分和时效性评分会逐渐降低,当降低到「分层移动阈值」时,记忆单元会从快速访问的层次移动到慢速访问的层次;当降低到「完全删除阈值」时,记忆单元会被真正地完全删除掉。干扰遗忘(Interference Forgetting):当有新的、更重要的、更相关的记忆单元进入快速访问的层次时,旧的、次要的、不相关的记忆单元的检索优先级会逐渐降低,甚至会被挤出快速访问的层次(移动到慢速访问的层次)。动机性遗忘(Motivated Forgetting):用户可以主动要求 Harness 「遗忘某个记忆单元」「遗忘某个主题的所有记忆单元」「遗忘某个时间段的所有记忆单元」——Harness 会根据用户的要求,将对应的记忆单元移动到慢速访问的层次,或者完全删除掉(取决于用户的要求和记忆单元的重要性评分)。为了量化「信息的重要性」「信息的时效性」「信息的冗余性」这三个核心的遗忘触发指标,Harness 设计了一套「多指标加权评分模型」,我们将在第五章「Harness 的核心算法设计与实现」中详细介绍。3.1.3 核心概念 3:压缩(Compression)在 Harness 上下文维护系统中,压缩不是指「传统的有损或无损数据压缩算法」(比如 ZIP、GZIP、JPEG、PNG 等),而是指「语义压缩算法」——即通过语义摘要生成或结构化知识抽取的方式,将原始的、冗长的、冗余的记忆单元(比如一段 1000 字的用户输入、一份 10000 字的长文档片段)压缩成一段简短的、语义无损的摘要,或者一组结构化的实体、关系、属性、事件等知识,从而大幅减少记忆单元的存储体积和处理成本,同时保证压缩后的信息在语义上与原信息完全一致(或者至少高度一致)。Harness 设计了两种语义压缩方式:轻量级语义压缩(Lightweight Semantic Compression):适用于短期记忆、工作记忆中的记忆单元,压缩比一般在 2:1 到 5:1 之间,采用的是「基于关键词抽取和句子重排序的轻量级语义摘要生成算法」,不需要调用外部的 AI 大模型,处理速度非常快(延迟控制在 1ms 以内)。重量级语义压缩(Heavyweight Semantic Compression):适用于长期语义记忆中的记忆单元,压缩比一般在 10:1 到 100:1 之间,甚至更高,采用的是「基于 AI 大模型的语义摘要生成算法」和「基于知识图谱的结构化知识抽取算法」,需要调用外部的 AI 大模型,但处理后的信息质量非常高(语义相似度至少达到 95% 以上)。为了评估语义压缩算法的质量,Harness 采用了 BERTScore、BLEURT、ROUGE-1、ROUGE-2、ROUGE-L 等五个专业的语义相似度评估指标,我们将在第五章「Harness 的核心算法设计与实现」中详细介绍。3.1.4 核心概念 4:检索(Retrieval)在 Harness 上下文维护系统中,检索是指「根据当前用户输入/AI 对话场景的语义,从长期语义记忆中快速检索到最相关的 Top-K 个记忆单元」的过程——检索到的记忆单元会被送入工作记忆中,与当前的短期记忆一起,作为 AI 大模型的输入上下文,从而解决 AI 大模型的「记忆断层」问题。Harness 设计了一套「混合检索与重排序架构」,包括三个步骤:粗检索(Coarse Retrieval):采用「基于向量数据库的语义检索」和「基于倒排索引的关键词检索」两种检索方式,分别从长期语义记忆中检索到 Top-100 个最相关的记忆单元,然后合并这两个结果集,得到一个初步的候选集(最多 200 个记忆单元)。精过滤(Fine Filtering):根据「记忆单元的重要性评分」「记忆单元的时效性评分」「记忆单元与当前用户输入/AI 对话场景的语义相似度」三个指标,对初步的候选集进行精过滤,去掉那些重要性评分太低、时效性评分太低、语义相似度太低的记忆单元,得到一个精简的候选集(最多 50 个记忆单元)。重排序(Reranking):采用「基于交叉编码器(Cross-Encoder)的语义重排序算法」,对精简的候选集进行重排序,得到最终的 Top-K 个最相关的记忆单元(K 的值可以根据 AI 大模型的上下文窗口大小和当前对话场景的需求进行调整,一般在 5 到 20 之间)。为了评估检索排序算法的质量,Harness 采用了 MRR(Mean Reciprocal Rank)、NDCG@K(Normalized Discounted Cumulative Gain)、MAP@K(Mean Average Precision)、Precision@K、Recall@K 等五个专业的信息检索评估指标,我们将在第五章「Harness 的核心算法设计与实现」中详细介绍。3.1.5 核心概念 5:自适应参数调整(Adaptive Parameter Tuning)在 Harness 上下文维护系统中,自适应参数调整是指「根据 AI 对话系统的性能指标(比如响应时间、记忆准确性、语义连贯性)、成本指标(比如 GPU/TPU 显存占用率、算力消耗、调用外部 AI 大模型的成本)、用户反馈指标(比如用户的满意度评分、用户的主动遗忘/保留记忆的指令),自动调整 Harness 的核心参数」的过程——这些核心参数包括但不限于:记忆分层架构中每一层的存储容量阈值。衰退遗忘模型中的衰退系数。多指标加权评分模型中每个指标的权重。压缩算法中的压缩比阈值。检索排序算法中的 K 值(Top-K 召回的数量)。混合检索与重排序架构中语义检索和关键词检索的权重。为了实现自适应参数调整,Harness 采用了强化学习中的 PPO(Proximal Policy Optimization)算法——PPO 算法是目前最流行、最稳定的强化学习算法之一,非常适合用于这类「连续动作空间、延迟奖励」的自适应决策问题,我们将在第五章「Harness 的核心算法设计与实现」中详细介绍。3.2 认知神经科学的人类记忆工作机制Harness 上下文维护系统的核心灵感来源于认知神经科学中的人类记忆工作机制——因此,在正式介绍 Harness 的设计与实现之前,我们首先需要了解一下人类记忆的工作机制,这样才能更好地理解 Harness 的设计理念。3.2.1 人类记忆的分层模型认知神经科学家经过多年的研究,提出了多种人类记忆的分层模型,其中最著名、最被广泛接受的是阿特金森-希弗林记忆模型(Atkinson-Shiffrin Memory Model)——该模型由美国心理学家理查德·阿特金森(Richard Atkinson)和理查德·希弗林(Richard Shiffrin)于 1968 年提出,将人类记忆分为三个层次:瞬时记忆(Sensory Memory, SM):也称为「感觉登记」,是指人类通过视觉、听觉、触觉、嗅觉、味觉等感觉器官接收到的信息的暂时存储——瞬时记忆的存储容量非常大(理论上可以存储所有接收到的感觉信息),但存储时间非常短(视觉瞬时记忆的存储时间大约是 0.25 到 1 秒,听觉瞬时记忆的存储时间大约是 2 到 4 秒)——如果瞬时记忆中的信息没有被「注意」到,就会很快被遗忘;如果被「注意」到,就会被送入短期记忆中。短期记忆(Short-Term Memory, STM):也称为「初级记忆」,是指人类在短时间内(大约 15 到 30 秒)能够保持的信息的存储——短期记忆的存储容量非常有限,根据美国心理学家乔治·米勒(George Miller)于 1956 年发表的著名论文《神奇的数字 7±2:我们信息加工能力的局限》,短期记忆的存储容量大约是 7±2 个「组块(Chunk)」——组块是指人类将多个小的信息单元组合成一个大的、有意义的信息单元的过程(比如将「1、3、8、0、0、1、3、8、0、0」这 10 个数字组合成「1380013800」这个中国移动的客服电话号码,就是一个组块)——如果短期记忆中的信息没有被「复述(Rehearsal)」,就会很快被遗忘;如果被「复述」,就会被送入长期记忆中。长期记忆(Long-Term Memory, LTM):也称为「次级记忆」,是指人类在长时间内(从几分钟到几十年甚至终身)能够保持的信息的存储——长期记忆的存储容量几乎是无限的,存储时间也非常长——长期记忆可以进一步分为两种类型:a.陈述性记忆(Declarative Memory):也称为「外显记忆(Explicit Memory)」,是指人类能够有意识地回忆起来的事实和事件的记忆——陈述性记忆可以进一步分为两种类型:i.语义记忆(Semantic Memory):是指人类对客观世界的一般知识的记忆(比如「北京是中国的首都」「2+2=4」「苹果是一种水果」)——语义记忆与特定的时间和地点无关。ii.情景记忆(Episodic Memory):是指人类对个人经历的事件的记忆(比如「我昨天在电影院看了《流浪地球 3》」「我 2020 年从北京大学毕业」)——情景记忆与特定的时间和地点有关。b.程序性记忆(Procedural Memory):也称为「内隐记忆(Implicit Memory)」,是指人类对技能、习惯、动作的记忆(比如「骑自行车」「游泳」「打字」)——程序性记忆不需要有意识地回忆,而是通过练习自动形成的。3.2.2 人类记忆的遗忘机制认知神经科学家经过多年的研究,提出了多种人类记忆的遗忘机制理论,其中最著名、最被广泛接受的有以下三种:衰退理论(Decay Theory):该理论由德国心理学家赫尔曼·艾宾浩斯(Hermann Ebbinghaus)于 1885 年提出——艾宾浩斯通过自己做的「无意义音节记忆实验」,绘制了著名的艾宾浩斯遗忘曲线(Ebbinghaus Forgetting Curve)——该曲线表明,人类的遗忘速度是先快后慢的:在学习后的 20 分钟内,大约会遗忘 42% 的信息;在学习后的 1 小时内,大约会遗忘 56% 的信息;在学习后的 9 小时内,大约会遗忘 64% 的信息;在学习后的 1 天内,大约会遗忘 67% 的信息;在学习后的 2 天内,大约会遗忘 75% 的信息;在学习后的 6 天内,大约会遗忘 78% 的信息;在学习后的 31 天内,大约会遗忘 79% 的信息——之后,遗忘的速度会变得非常慢,几乎不会再遗忘了。衰退理论认为,人类的遗忘是由于「记忆痕迹(Memory Trace)」随着时间的推移而逐渐衰退导致的——记忆痕迹是指人类大脑中的神经元之间形成的新的突触连接——如果这些突触连接没有被「复述」或「激活」,就会逐渐减弱甚至消失,从而导致遗忘。干扰理论(Interference Theory):该理论由美国心理学家约翰·华生(John Watson)和伯尔赫斯·弗雷德里克·斯金纳(Burrhus Frederic Skinner)等行为主义心理学家于 20 世纪初提出——干扰理论认为,人类的遗忘不是由于「记忆痕迹」随着时间的推移而逐渐衰退导致的,而是由于「新的记忆」和「旧的记忆」之间的相互干扰导致的——干扰理论可以进一步分为两种类型:a.前摄干扰(Proactive Interference, PI):是指「旧的记忆」对「新的记忆」的学习和回忆产生的干扰(比如你先学习了法语,然后再学习西班牙语,法语的词汇和语法会对你学习西班牙语的词汇和语法产生干扰)。b.倒摄干扰(Retroactive Interference, RI):是指「新的记忆」对「旧的记忆」的回忆产生的干扰(比如你先学习了西班牙语,然后再学习法语,法语的词汇和语法会对你回忆西班牙语的词汇和语法产生干扰)。动机性遗忘理论(Motivated Forgetting Theory):该理论由奥地利心理学家西格蒙德·弗洛伊德(Sigmund Freud)于 20 世纪初提出——动机性遗忘理论认为,人类的遗忘不是由于「记忆痕迹」的衰退或「新旧记忆」的干扰导致的,而是由于「人类的潜意识」为了避免痛苦、焦虑、羞耻等负面情绪的体验,主动将那些「不愉快的记忆」压抑(Repression)到潜意识中,从而导致无法有意识地回忆起来——动机性遗忘也称为「压抑性遗忘」。3.2.3 人类记忆的压缩机制认知神经科学家经过多年的研究,发现人类的大脑也具有强大的「语义压缩机制」——人类的大脑不会存储所有接收到的感觉信息,而是会通过组块(Chunking)、抽象(Abstraction)、概括(Generalization)、**结构化(Structuring)**等方式,将原始的、冗长的、冗余的信息压缩成简短的、有意义的、结构化的信息,从而大幅减少大脑的存储负担——例如:组块:将「1、3、8、0、0、1、3、8、0、0」这 10 个数字组合成「1380013800」这个中国移动的客服电话号码,就是一个组块——组块可以将短期记忆的存储容量从 7±2 个数字/字母/单词,扩展到 7±2 个有意义的信息单元,从而大幅提高短期记忆的存储效率。抽象与概括:当你读了一篇 10000 字的关于「人工智能的发展历史」的长文档后,你不会存储这篇文档的每一个字、每一句话,而是会抽象和概括出这篇文档的核心要点(比如「人工智能的发展历史可以分为三个阶段:孕育期(1940s-1950s)、低谷期(1970s-1980s)、爆发期(2010s-至今)」「ChatGPT 的出现是人工智能发展历史上的一个里程碑事件」),从而大幅减少长期记忆的存储负担。结构化:当你学习了一门新的学科(比如「计算机科学」)后,你不会存储这门学科的每一个知识点,而是会将这些知识点组织成一个结构化的知识体系(比如「计算机科学可以分为理论计算机科学和应用计算机科学,理论计算机科学包括算法、数据结构、计算理论等,应用计算机科学包括软件工程、人工智能、计算机网络等」),从而大幅提高长期记忆的检索效率。3.3 信息论的压缩与冗余原理Harness 上下文维护系统的语义压缩算法的核心理论基础来源于克劳德·香农(Claude Shannon)于 1948 年发表的著名论文《通信的数学原理(A Mathematical Theory of Communication)》中提出的信息论——因此,在正式介绍 Harness 的语义压缩算法之前,我们首先需要了解一下信息论的压缩与冗余原理。3.3.1 核心概念 1:信息熵(Entropy)信息论中的信息熵(Entropy)是用来衡量「一个随机事件的不确定性」或「一个随机变量的信息量」的指标——信息熵的单位是「比特(Bit)」——对于一个离散的随机变量X XX,其可能的取值为x 1 , x 2 , . . . , x n x_1, x_2, ..., x_nx1​,x2​,...,x

相关文章:

记忆的遗忘与压缩:Harness 的上下文维护

记忆的遗忘与压缩:Harness 的上下文维护 一、 标题:从人类记忆的工作机制,到 AI 对话系统的核心瓶颈解决之道——深度解析 Harness 如何通过「遗忘与压缩」构建高可用长上下文系统 二、 摘要/引言 2.1 开门见山:当 AI 对话系统遇到「记忆断层」与「性能雪崩」 你有没有试…...

终极指南:如何使用applera1n工具在iOS 15-16设备上绕过激活锁

终极指南:如何使用applera1n工具在iOS 15-16设备上绕过激活锁 【免费下载链接】applera1n icloud bypass for ios 15-16 项目地址: https://gitcode.com/gh_mirrors/ap/applera1n 如果你曾经遇到过iPhone或iPad被原主人的Apple ID锁定的情况,那么…...

jEasyUI 添加工具栏

jEasyUI 添加工具栏 引言 jEasyUI 是一款流行的 jQuery UI 扩展库,它提供了丰富的 UI 组件和交互功能,使得开发人员可以轻松地构建出具有丰富用户体验的 Web 应用程序。在 jEasyUI 中,工具栏(Toolbar)是一个非常重要的组件,它允许用户通过按钮、菜单或其他控件执行各种…...

玄域靶场越权系列第1关实战复盘

不止是通关,更是总结一套通用高效的漏洞挖掘思路。最近在刷几个网络安全靶场,准备把一路上的 WriteUp 整理成系列分享出来。后续会陆续更新国内知名靶场、HackTheBox、VulnHub等国际靶场的通关思路,内容涵盖 SRC、渗透测试、应急响应、内网与…...

终极免费音频解密工具:3分钟解锁QQ音乐加密文件实现跨平台播放

终极免费音频解密工具:3分钟解锁QQ音乐加密文件实现跨平台播放 【免费下载链接】qmc-decoder Fastest & best convert qmc 2 mp3 | flac tools 项目地址: https://gitcode.com/gh_mirrors/qm/qmc-decoder 您是否曾经从QQ音乐下载了喜爱的歌曲&#xff0c…...

Python学习日志(二):基础语法

Python基础语法 一、变量 变量是存储数据的容器,通过赋值语句创建: name "Alice" # 字符串变量 age 25 # 整数变量 height 1.68 # 浮点数变量 is_student True # 布尔变量注意事项: 变量名区分大小写&#xff1a…...

网盘直链下载助手:八大网盘一键解析,告别限速烦恼的终极解决方案

网盘直链下载助手:八大网盘一键解析,告别限速烦恼的终极解决方案 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 …...

《深度解析QClaw同步架构:为什么它比所有云盘都快10倍》

绝大多数人对跨设备同步的理解还停留在文件传输的层面,认为只要能把一个文件从A电脑传到B电脑就叫同步。但真正的工作同步远不止于此,它应该包括你未完成的任务队列、上下文记忆、技能配置、甚至是你和AI助手之间形成的独特工作默契。QClaw 2.0带来的本地P2P状态快照机制,第…...

DearPyGui内置的‘开发者工具箱’有多强?手把手教你用Style Editor和Metrics打造专属UI

DearPyGui开发者工具箱实战:用Style Editor和Metrics打造高效UI工作流 第一次在项目中使用DearPyGui时,我被它流畅的GPU渲染效果所吸引,但真正让我决定长期投入的,却是它那些藏在角落里的开发者工具。记得当时为了调整一个按钮的颜…...

免费数据恢复软件推荐:Wise Data Recovery 6.2.0 激活版使用指南

原文作者:程序视点 转载自:https://cloud.tencent.com/developer/article/2550182 数据恢复需求:为什么需要专业软件? 在日常使用电脑时,误删文件、清空回收站、格式化磁盘等情况时有发生。此时,专业的数…...

AUV增量PID轨迹跟踪与USV路径跟随的MATLAB仿真

AUV 增量PID轨迹跟踪 水下机器人无人船无人艇 USV路径跟随 MATLAB仿真AUV 圆轨迹跟踪增量 PID 控制系统——功能说明书(基于 MATLAB 仿真框架)一、系统定位本仿真包为“Infante”型 AUV 提供一套可即插即用的圆轨迹跟踪解决方案。核心算法采用“增量式…...

JavaScript 递归调用栈深度解析与层级遍历陷阱详解

本文深入剖析 javascript 中递归函数的执行栈行为,结合二叉树遍历实例,揭示因边界检查顺序不当导致的空指针异常、输出截断问题,并对比说明递归实现的“伪层级遍历”与真正 bfs 层序遍历的本质区别。 本文深入剖析 javascript 中递归函数…...

c++怎么在读取文件时自动跳过所有UTF-8编码的非法字符【实战】

UTF-8非法字节序列导致std::invalid_argument或乱码,应使用std::vector以char流方式读取并手动跳过非法序列,而非直接用std::string接收后解析。读取文件时遇到 std::invalid_argument 或乱码,大概率是 UTF-8 非法字节序列标准 C 的 std::ifs…...

List.Sort与LINQ排序哪种更高效

在C#开发里头,针对集合操作排序这件事儿,那可是极为常见的。List.Sort方法,还有LINQ给出的OrderBy以及OrderByDescending方法,它们都能够轻易地达成排序任务。然而呢,它们在底层所遵循的机制,就连使用的场景…...

C语言属于什么软件

c语言不属于任何软件! C语言是一门通用计算机编程语言,应用广泛。C语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。 特有特点 C语言是一个有结构化程序设计、具有变量作用…...

MCP协议如何重塑前端开发工作流

前言 2026年,AI与前端开发的融合进入新阶段。MCP(Model Context Protocol)协议作为Anthropic推出的开放标准,正在彻底改变我们构建AI驱动应用的方式。本文将深入探讨MCP在前端工程中的实战应用。 正文 一、MCP协议核心概念 MCP协议…...

React 20与Server Components生态:2026年全新实践

前言 2026年,React生态迎来重大更新。React 20正式版发布,Server Components从实验性功能走向生产环境。本文将深入解析新特性,并分享大型项目迁移实战经验。 正文 一、React 20核心更新 1. Server Components正式版 零Bundle Size组件直接访…...

从精确到共识:一种关于数据架构的经济学解释

数据库系统的核心张力,或许可以用一个日常场景来理解。当你走进一家小店,账单显示102.3元,商家说"收您102元",双方欣然成交。这0.3元的抹零不是数学错误,而是一种精明的成本计算——它节省了找零的时间、对账…...

解放双手!碧蓝航线全自动助手Alas:7x24小时智能托管你的舰队

解放双手!碧蓝航线全自动助手Alas:7x24小时智能托管你的舰队 【免费下载链接】AzurLaneAutoScript Azur Lane bot (CN/EN/JP/TW) 碧蓝航线脚本 | 无缝委托科研,全自动大世界 项目地址: https://gitcode.com/gh_mirrors/az/AzurLaneAutoScri…...

孩子 KET 口语总丢分?这份指南帮你搞定

很多家长陪孩子练 KET 口语时,最怕遇到的场面就是“挤牙膏”。你问:“What’s your favourite school subject?”孩子答:“English.”你等了半天,没了。这种回答,在 KET 评分标准里是很难冲刺高分的。其实&#xff0c…...

从精确到共识

从精确到共识 2026-04-14 一 数据库系统诞生至今的半个多世纪里,“精确”一直是它不可动摇的基石。关系代数、ACID事务、范式理论——所有这些核心概念都建立在一个共同的假设之上:查询的结果必须是确定的、可重复的、绝对正确的。当你询问“账户余额是多…...

保姆级教程:用ENVI 5.6处理Landsat 8影像,5步搞定郑州市土地利用分类图

零基础实战:5步速成Landsat 8土地利用分类图(ENVI 5.6全流程) 刚拿到遥感影像数据时,很多新手会被复杂的预处理步骤吓退。去年带学生做毕业设计时,我发现用ENVI处理一景Landsat 8影像其实可以很高效——只要抓住5个关键…...

响应式编程-Flux 背压机制与操作符链式调用源码解析

1. 响应式编程与背压机制基础 第一次接触响应式编程时,我被它的"数据流"概念深深吸引。想象一下,数据就像水管中的水流,而背压机制就是水管上的阀门控制——当水压过大时自动调节流量,防止爆管。这种设计完美解决了异步…...

Python重点知识总结(含爬虫)

一、Python 语言基础语言定位 解释型、面向对象、简洁易读,适合Web安全、爬虫、自动化,只用Python3(Python2已停止维护)。基础语法注释:# 单行; / """ """ 多行变量&#x…...

基于yolov26+pyqt5的石榴成熟度检测系统python源码+pytorch模型+评估指标曲线+精美GUI界面

基于 PyQt5 和 YOLO26 的目标检测桌面应用程序,支持图片、视频和摄像头实时检测。 功能特性 图片检测:支持图片检测视频检测:支持视频文件实时检测与播放摄像头检测:支持实时摄像头视频流检测模型切换:支持加载不同的 …...

客服机器人支持快捷键操作吗?Agent 系统后台可自定义热键,客服效率能提升多少?

在数字化客服时代,企业每天面对海量咨询,如何让客服团队从重复劳动中解放出来,同时实现秒级响应和精准转化,成为竞争关键。许多企业主和客服负责人都在问:客服机器人支持快捷键操作吗?Agent 系统后台可自定…...

记一次跨境电商客服系统的搭建与差评处理复盘

做跨境独立站第一年,被一个差评整破防了。美国客户买的露营灯,留言说亮度虚标,给了一星。我当时盯着后台看了半小时,不知道怎么回,怕英文写不利索把事情搞得更糟。后来问了一圈做跨境的朋友,慢慢摸出点门道…...

Python与爬虫

爬虫是一种Python编写的,按照既定的规则,抓取网站数据的脚本程序,其优点在于,语言简洁,工作效率高,适合重复性工作1.先导入模块,首先打开wiindows命令行,输入pip install requests下…...

【多模态大模型落地自动驾驶实战白皮书】:20年智驾专家首曝3大失败场景、5类传感器融合陷阱与实时推理优化黄金公式

第一章:多模态大模型在自动驾驶中的应用 2026奇点智能技术大会(https://ml-summit.org) 多模态大模型正深刻重塑自动驾驶系统的感知、推理与决策范式。传统 pipeline 架构依赖独立模块分别处理摄像头、激光雷达、毫米波雷达及高精地图数据,而多模态大模…...

【紧急预警】HuggingFace最新v4.45更新已默认禁用legacy cross-attention kernel——你的多模态微调Pipeline可能已在静默崩溃!

第一章:多模态大模型中的注意力机制 2026奇点智能技术大会(https://ml-summit.org) 多模态大模型的核心挑战在于如何对齐与融合来自图像、文本、音频等异构模态的语义表征,而注意力机制正是实现跨模态动态关联的关键引擎。它不再局限于单一模态内的局部…...