当前位置：首页 > article >正文

基于向量数据库与LLM构建持久化记忆系统的工程实践

article 2026/4/29 22:20:35

1. 项目概述当AI学会“记笔记”最近在折腾一个挺有意思的开源项目叫neural-memory。简单来说它试图解决一个困扰很多AI应用开发者的核心问题如何让大语言模型LLM拥有更持久、更结构化的“记忆”能力。我们平时用ChatGPT或者类似的API每次对话都是“一锤子买卖”。你问它一个问题它基于训练好的知识库给你一个回答但对话一结束它就把刚才聊过的一切都“忘”了。下次你再问“我们刚才聊了什么”它基本上一无所知。即使有些系统提供了“上下文窗口”能记住最近几千个token的对话但这种记忆是短暂的、线性的而且很快就会因为窗口长度限制而被“挤出”大脑。neural-memory项目的目标就是为LLM构建一个外挂的、可持久化、可查询的“第二大脑”或“记忆库”。想象一下你正在开发一个智能客服机器人、一个个性化的学习助手或者一个长期陪伴的AI伙伴。你肯定希望它能记住用户的偏好、历史对话的要点、达成的共识甚至是一些私人的小细节。neural-memory提供了一套框架让你可以方便地将对话中的信息提取、编码、存储到一个向量数据库中。当模型需要“回忆”时它不再是绞尽脑汁地从有限的上下文里搜索而是像我们人类翻看笔记或相册一样从这个外部的记忆库中快速检索出最相关的片段然后整合进当前的思考中。这不仅仅是延长了上下文更是改变了AI与信息交互的方式——从“瞬时反应”转向了“基于经验的决策”。2. 核心架构与设计哲学2.1 记忆的“编码-存储-检索”循环neural-memory的核心思想借鉴了人类记忆的形成过程并将其抽象为一个可工程化的循环。这个循环包含三个关键阶段理解它们对于用好这个库至关重要。编码Encoding这是记忆的入口。当一段对话或文本产生时系统需要决定“记住什么”。并不是所有信息都值得存入长期记忆那样会导致记忆库迅速膨胀且充满噪音。neural-memory通常采用LLM本身比如通过一个轻量级的提示工程来担任“记忆编码员”的角色。它的任务是从原始文本中提取出结构化的、高信息密度的“记忆单元”。例如从对话“用户说他喜欢看科幻电影尤其是《星际穿越》”中编码器可能提取出{“entity”: “user”, “preference”: “movie_genre”, “value”: “sci-fi”, “specific”: “Interstellar”}这样的结构化表示。这一步的质量直接决定了记忆的可用性。存储Storage编码后的记忆单元需要被持久化。这里的关键技术是向量化和向量数据库。每个记忆单元都会被一个嵌入模型如text-embedding-ada-002转换成一个高维向量一组数字。这个向量在数学空间中的“位置”就代表了这段记忆的“语义”。所有记忆向量被存入像ChromaDB、Pinecone或Weaviate这样的向量数据库中。同时原始的记忆文本和其元数据如时间戳、来源会话ID等也会被关联存储以便后续检索后能还原出可读的文本。检索Retrieval当AI在后续对话中需要相关信息时就进入检索阶段。系统会将当前的查询或对话上下文也编码成一个向量然后在向量数据库中进行相似性搜索找出与当前语境最“接近”的N个记忆向量。这种“接近”不是关键词匹配而是语义层面的相似。比如用户现在问“有什么电影推荐吗”系统检索到的记忆向量可能就包含之前存储的“用户喜欢科幻片”这个记忆。检索到的记忆片段会被作为额外的上下文注入到给LLM的提示中从而让LLM的回复变得“有记性”。注意这个循环不是单向的。一次对话中检索到的旧记忆可能会影响新信息的编码例如强化相关记忆新存入的记忆也会改变未来检索的结果分布。这是一个动态的、不断演化的系统。2.2 关键组件选型与考量搭建一个可用的神经记忆系统需要在每个环节做出技术选型。neural-memory作为一个框架通常提供了接口和默认实现但理解背后的选项能让你更好地定制。LLM 主干网络负责核心对话和记忆编码。选择取决于你对成本、速度和能力的权衡。GPT-4编码和理解能力最强生成的记忆质量高但成本也最高速度慢。适合对记忆准确性要求极高的场景。Claude 3在长上下文和指令遵循方面表现出色适合处理复杂的记忆提取任务。开源模型如 Llama 3、Qwen成本可控可私有化部署数据隐私有保障。但需要自己处理部署和优化且小模型在复杂推理上可能稍逊一筹。neural-memory项目通常对开源模型支持良好。嵌入模型决定记忆存储和检索的“语义空间”质量。这是记忆系统的“心脏”。专用嵌入模型如 OpenAI 的text-embedding-3-small/largeCohere的embed-english-v3.0专门为生成高质量的文本向量而训练在检索任务上通常比用LLM本身生成的向量更专业、更高效。LLM 自带的嵌入能力一些LLM如通过其隐藏层也可以生成向量但可能不是最优选择除非为了架构统一。选型心得对于生产环境强烈建议使用成熟的专用嵌入模型。它们的API通常更稳定价格更低且针对检索进行了优化。开源嵌入模型如BGE-M3、Snowflake Arctic Embed也是不错的选择尤其注重多语言和长文本支持时。向量数据库记忆的“仓库”。选型标准包括易用性、性能、可扩展性和成本。ChromaDB轻量级易于集成适合原型开发和中小型项目。它可以直接在内存或本地磁盘运行无需额外服务。Pinecone / Weaviate全托管的云服务提供自动扩缩容、高性能检索适合大规模、高并发的生产环境。但会产生持续的费用。PGVector (PostgreSQL扩展)如果你已有的技术栈围绕PostgreSQLPGVector是一个完美的选择。它让你能在关系型数据库中直接进行向量运算简化了技术栈保证了数据的一致性。Qdrant / Milvus高性能、可扩展的开源向量数据库适合需要自建大规模向量检索服务的团队。记忆元数据管理除了向量记忆还需要丰富的元数据来辅助管理和高级检索。时间戳实现“最近优先”或按时间线回忆。会话/用户ID隔离不同用户或对话的记忆保证隐私。记忆类型/标签例如fact事实、preference偏好、goal目标、emotion情感等。这允许进行基于类型的过滤检索。置信度/重要性分数由编码器生成用于衡量该记忆的可靠性和价值可以在检索时作为权重。3. 从零搭建一个可运行的记忆系统理论讲得再多不如动手搭一个。下面我将以neural-memory项目的基本思路为蓝本带你用 Python 和主流工具链构建一个最小可用的记忆增强型对话助手。我们会使用LangChain框架来简化流程因为它对记忆、检索和LLM集成的抽象做得很好。3.1 环境准备与依赖安装首先确保你的 Python 环境在 3.8 以上。我们创建一个新的虚拟环境并安装核心依赖。# 创建并激活虚拟环境以 conda 为例 conda create -n neural-memory-demo python3.10 conda activate neural-memory-demo # 安装核心库 pip install langchain langchain-openai langchain-community chromadb tiktoken # langchain: 核心框架 # langchain-openai: OpenAI模型集成 # langchain-community: 包含ChromaDB等社区集成 # chromadb: 向量数据库 # tiktoken: OpenAI的token计数器接下来你需要准备API密钥。如果你使用OpenAI需要设置环境变量。# 在终端中设置临时 export OPENAI_API_KEYyour-api-key-here # 或者在代码中设置 import os os.environ[OPENAI_API_KEY] your-api-key-here实操心得对于开发建议将API密钥存储在.env文件中使用python-dotenv加载避免硬编码。对于生产环境请使用安全的密钥管理服务如AWS Secrets Manager, HashiCorp Vault。3.2 构建记忆编码与存储层我们不直接使用neural-memory的源码而是用LangChain的抽象来实现其核心思想。第一步是创建记忆的存储后端。from langchain.vectorstores import Chroma from langchain.embeddings import OpenAIEmbeddings from langchain.schema import Document from langchain.text_splitter import RecursiveCharacterTextSplitter # 1. 初始化嵌入模型 # 使用OpenAI的嵌入模型这是将文本转为向量的“编码器” embeddings OpenAIEmbeddings(modeltext-embedding-3-small) # 2. 初始化向量数据库Chroma # persist_directory 指定数据持久化到本地磁盘的路径 persist_directory ./chroma_db vectordb Chroma( collection_nameuser_memories, embedding_functionembeddings, persist_directorypersist_directory ) # 3. 定义一个文本分割器 # 记忆不是一整段存而是分成有意义的“块”便于检索。 text_splitter RecursiveCharacterTextSplitter( chunk_size500, # 每个记忆块大约500字符 chunk_overlap50, # 块之间重叠50字符防止语义被割裂 separators[\n\n, \n, 。, , , , , , ] # 中文友好的分隔符 ) def create_and_store_memory(raw_text, metadataNone): 将原始文本编码并存储为记忆。 :param raw_text: 需要记住的文本 :param metadata: 附加的元数据如 {user_id: alice, memory_type: preference} if metadata is None: metadata {} # 使用文本分割器创建文档块 texts text_splitter.split_text(raw_text) docs [] for i, text in enumerate(texts): # 为每个文档块创建 Document 对象包含内容和元数据 doc Document( page_contenttext, metadata{**metadata, chunk_index: i} # 合并元数据 ) docs.append(doc) # 将文档块添加到向量数据库 # 这一步会隐式调用 embeddings 为每个文档生成向量并存储 vectordb.add_documents(docs) print(f已存储 {len(docs)} 个记忆片段。)这个create_and_store_memory函数就是我们的“记忆编码存储器”。它接收一段文本将其切分成块附上元数据然后向量化并存入ChromaDB。元数据是未来进行过滤检索的关键。3.3 实现记忆检索与对话集成有了记忆库下一步就是在对话时检索相关记忆并让LLM使用它们。from langchain.chat_models import ChatOpenAI from langchain.chains import ConversationalRetrievalChain from langchain.memory import ConversationBufferWindowMemory # 1. 初始化LLM对话模型 llm ChatOpenAI(modelgpt-3.5-turbo, temperature0.7) # temperature 控制创造性对于记忆辅助对话0.7左右平衡了准确性和友好度。 # 2. 将向量数据库转换为检索器 # search_kwargs 控制检索行为 retriever vectordb.as_retriever( search_kwargs{k: 3} # 每次检索返回最相关的3个记忆片段 ) # 3. 创建对话链并集成检索到的记忆 # 这里我们使用 ConversationalRetrievalChain它专为“对话检索”场景设计 qa_chain ConversationalRetrievalChain.from_llm( llmllm, retrieverretriever, memoryConversationBufferWindowMemory( memory_keychat_history, output_keyanswer, k3, # 保留最近3轮对话作为“短期记忆”上下文窗口 return_messagesTrue ), return_source_documentsTrue, # 返回检索到的源文档便于调试 verboseFalse # 设为True可以看到链的详细执行过程 ) def chat_with_memory(user_input): 与带有记忆的AI对话。 # 调用对话链 result qa_chain({question: user_input, chat_history: []}) # chat_history由内部memory管理 answer result[answer] source_memories result[source_documents] print(f\n用户: {user_input}) print(fAI: {answer}) if source_memories: print(\n【本次回答参考了以下记忆】:) for i, doc in enumerate(source_memories): print(f {i1}. {doc.page_content[:150]}... (来源: {doc.metadata})) print(- * 50) return answer现在让我们模拟一个完整的对话流程看看记忆是如何工作的。# 模拟对话开始前先存入一些关于用户的“长期记忆” print( 初始化记忆库 ) create_and_store_memory( 用户Alice在2023年10月的一次聊天中提到她最喜欢的颜色是深蓝色觉得这个颜色沉稳又神秘。, metadata{user_id: alice, memory_type: preference, entity: color} ) create_and_store_memory( Alice养了一只三岁的布偶猫名字叫‘棉花糖’。她每周都会去一次健身房。, metadata{user_id: alice, memory_type: fact, entity: pet, entity: hobby} ) # 开始对话 print(\n 开始对话 ) chat_with_memory(你好我是Alice还记得我吗) # AI可能会回复“你好Alice当然记得你有一只叫‘棉花糖’的布偶猫而且你喜欢深蓝色。” chat_with_memory(我今天心情不太好。) # 这次对话可能没有触发具体的记忆检索AI会进行常规的共情回复。 chat_with_memory(你觉得我周末去做点什么能开心起来) # AI在生成建议时可能会检索到“每周去健身房”的记忆从而建议“或许可以按你的习惯去健身房运动一下或者带着‘棉花糖’出去晒晒太阳运动和小动物都能让人心情变好。”通过这个流程你可以清晰地看到AI在回答第三个问题时其回复融入了从记忆库中检索到的关于“健身房”和“宠物猫”的信息从而使建议更具个性化。3.4 高级功能记忆的更新、衰减与关联一个基本的记忆系统搭建完成了但一个健壮的系统还需要处理更复杂的情况。记忆更新用户的信息会变。比如Alice说“我现在不喜欢深蓝色了更喜欢薄荷绿。”简单的做法是存入新记忆。但更好的做法是能“覆盖”或“弱化”旧记忆。一种策略是为记忆添加版本号或有效性标签并在检索时优先返回最新的、有效的记忆。也可以在元数据中设置valid_until或is_active字段。def update_memory(entity, new_value, user_id, memory_typepreference): 一个简单的记忆更新策略存入新记忆并标记旧记忆为过时。 # 1. 标记旧记忆这里采用软删除通过元数据过滤 # 在实际中可能需要更复杂的查询来找到具体的旧记忆并更新其状态。 # 2. 存入新记忆 new_text f用户{user_id}更新了信息关于{entity}现在认为是{new_value}。 create_and_store_memory( new_text, metadata{ user_id: user_id, memory_type: memory_type, entity: entity, status: active, version: new } ) print(f已更新关于 {entity} 的记忆。)记忆衰减与重要性排序不是所有记忆都同等重要。neural-memory更高级的实现会引入“记忆强度”或“访问频率”的概念。每次记忆被成功检索并用于生成有效回答其“强度”可以增加。同时所有记忆的强度随时间缓慢“衰减”。检索时可以将“相似度分数”和“记忆强度”结合起来进行排序让更重要、更相关的记忆优先被召回。这需要在向量数据库之外维护一个单独的记忆元数据索引。记忆关联与图网络最前沿的思路是将记忆组织成图结构。每个记忆是一个节点记忆之间的关系如“导致”、“类似于”、“发生于之前”是边。当检索到一个关于“健身房”的记忆时系统可以沿着边找到“健康”、“自律”、“周末例行活动”等相关记忆从而提供更深入、更连贯的上下文。这通常需要借助知识图谱的技术。4. 生产环境部署与优化实战将原型转化为稳定、高效的生产服务会面临一系列新的挑战。下面分享一些关键的实战经验。4.1 性能优化检索速度与精度平衡向量检索的速度和精度Recall是一对需要权衡的参数。索引选择ChromaDB默认使用HNSWHierarchical Navigable Small World索引它在速度和精度上有很好的平衡。对于千万级以上的向量可能需要考虑调整HNSW的参数如ef_construction,M或者评估其他索引如IVFInverted File。检索参数k与score_thresholdk返回数量不是越大越好。太大的k会引入不相关的噪音增加LLM处理负担和成本。通常从3-5开始测试。score_threshold分数阈值可以设置一个最小相似度分数。低于此阈值的记忆将被过滤掉即使它排在前k名。这能有效提升召回记忆的质量。阈值需要根据你的嵌入模型和数据进行实验确定。分层检索与过滤先通过元数据如user_id,memory_type进行快速过滤缩小搜索范围再在子集内进行向量相似度搜索可以极大提升性能。ChromaDB和大多数向量数据库都支持元数据过滤。# 示例带过滤的检索 retriever vectordb.as_retriever( search_kwargs{ k: 4, score_threshold: 0.7, # 相似度分数阈值 filter: {user_id: alice, memory_type: preference} # 元数据过滤 } )4.2 成本控制Token消耗与缓存策略使用商业LLM API成本主要来自两个方面记忆编码和对话生成。记忆编码优化摘要而非原文在存储前先用LLM对长文本进行摘要只存储摘要。这大大减少了存储的token和后续检索时注入上下文的token。例如将一段500字的对话总结成50字的核心事实。异步与批量编码不要每次对话都实时编码存储。可以累积一定量的对话记录在后台异步、批量地进行编码和存储利用批量API调用可能有的折扣。使用更便宜的模型进行编码记忆编码对推理能力要求低于对话。可以考虑使用gpt-3.5-turbo甚至更小的专用模型来完成提取摘要和结构化的任务。对话生成优化记忆压缩/重写检索到的多个记忆片段可能冗长或重复。在注入LLM上下文前可以先用一个快速的LLM对这些记忆进行去重、排序和压缩生成一个精炼的“记忆上下文摘要”。缓存层对于频繁出现的、通用的用户查询及其对应的“记忆上下文回答”组合可以建立缓存。下次遇到相同或高度相似的查询时直接返回缓存结果避免重复的检索和LLM调用。4.3 监控、评估与迭代一个记忆系统上线后必须持续监控其效果。关键指标检索命中率用户问题触发记忆检索的比例。记忆利用率被检索到的记忆中真正对生成回答有贡献的比例可通过分析source_documents判断。用户满意度通过直接反馈或间接指标如对话轮次、任务完成率衡量。响应延迟重点关注检索和LLM生成的总耗时。API成本每日/每月的token消耗和费用。评估方法人工抽查定期抽样检查对话日志看记忆的检索和使用是否合理。A/B测试对比有无记忆系统、或不同记忆策略如不同k值、不同编码方式下的核心指标。自动化测试集构建一个包含用户历史信息和后续问题的测试集评估系统回答的准确性和个性化程度。5. 避坑指南与常见问题排查在实际开发和运维中我踩过不少坑这里总结几个最常见的问题和解决方法。5.1 记忆检索不相关或“幻觉”加剧问题描述AI的回答开始胡言乱语或者明显引用了完全不相关的“记忆”。可能原因与排查嵌入模型不匹配检查你使用的嵌入模型是否与文本领域匹配。例如用通用的英文嵌入模型处理专业的中文医学文献效果会很差。确保使用适合你文本语言和领域的嵌入模型。记忆块切割不合理chunk_size太大一个记忆块包含多个不相关主题太小则语义不完整。调整RecursiveCharacterTextSplitter的参数或者尝试按句子、按段落分割。元数据缺失或错误如果没有正确的user_id过滤用户A可能会看到用户B的记忆。确保在存储和检索时元数据过滤条件设置正确。相似度阈值过低如果score_threshold设得太低比如0.3会召回大量低质量记忆。逐步提高阈值观察效果。LLM的上下文误导即使检索到的记忆是相关的如果它们在提示词中的位置或格式不当也可能干扰LLM。尝试优化提示词模板明确指示LLM如何使用提供的记忆。实操心得建立一个“记忆检索诊断”工具非常有用。对于任何一次对话不仅输出回答还输出所有被检索到的记忆及其相似度分数。这样你可以直观地看到哪些记忆被召回了以及它们与问题的匹配度如何便于快速定位问题。5.2 系统响应变慢问题描述随着记忆库中文档数量增长对话响应时间明显变长。排查与优化向量数据库索引确认向量数据库是否建立了合适的索引。对于ChromaDB数据是自动索引的。但如果是从零开始导入海量数据首次构建索引可能需要时间。检索范围过大检查是否忘记了使用元数据过滤。如果每次都在全库几百万条记忆中搜索肯定慢。务必加上user_id、session_id或时间范围等过滤条件。硬件与配置ChromaDB在内存中运行更快。如果数据量大确保服务器有足够RAM。对于云服务如Pinecone检查你购买的Pod规格是否满足性能需求。异步处理将记忆的编码和存储操作改为异步例如使用Celery任务队列不要阻塞主对话线程。5.3 记忆的隐私、安全与偏见这是一个至关重要但常被忽视的领域。隐私记忆库中可能存储了用户的个人信息。必须做到数据加密存储时静态和传输时动态加密。访问控制严格的API认证和授权确保只有合法的请求能访问记忆。用户权利提供让用户查看、更正、导出和删除其个人记忆的接口符合GDPR/CCPA等法规要求。安全防止提示词注入攻击。恶意用户可能输入精心构造的文本试图污染记忆库或让AI执行不当操作。需要在记忆编码前对输入进行清洗和审查。偏见记忆系统可能放大LLM中已有的偏见。例如如果记忆库中关于某个群体的负面信息较多AI在相关问题上可能会产生有偏见的回答。需要定期审计记忆内容考虑使用去偏见的算法对记忆进行重新加权或平衡。一个实用的检查清单[ ] 所有记忆存储是否都关联了正确的、不可篡改的user_id[ ] 检索接口是否强制进行了身份验证和权限校验[ ] 是否有机制防止单个用户写入海量垃圾数据攻击记忆库[ ] 是否制定了记忆数据的保留和清理策略如6个月自动过期[ ] 是否对记忆编码的提示词进行了安全加固防止系统提示被覆盖构建neural-memory这样的系统是一个在技术可行性、用户体验、成本控制和伦理安全之间不断寻找平衡点的过程。它不是一个“一劳永逸”的工具而是一个需要持续喂养、训练和调校的“数字生命体”。从简单的向量检索起步到引入记忆强度、关联图谱和复杂的事件推理这条路上充满了挑战但也正是其魅力所在。每一次看到AI因为“记得”而给出那个恰到好处的、充满连续性的回复时都会觉得这些折腾是值得的。

基于向量数据库与LLM构建持久化记忆系统的工程实践

相关文章：

基于向量数据库与LLM构建持久化记忆系统的工程实践

PHP 8.9 Fiber vs Swoole vs RoadRunner：横向压测对比报告（含CPU/内存/错误率/启动耗时6维数据）

Windows风扇控制终极指南：如何用Fan Control实现智能散热与静音平衡

Video2X终极指南：如何用AI轻松实现视频4K超分辨率

机器学习模型开发中的Tiny Test Models实践指南

FileBrowser配置太复杂？一份JSON配置文件搞定所有，附详细参数解读

别再为Keil的printf发愁了！三种方法（含MicroLIB和半主机）保姆级配置指南

5分钟掌握知网文献批量下载：CNKI-download自动化工具完全指南

别再让Compose偷偷重组了！手把手教你用@Stable优化列表性能（附踩坑实录）

多传感器速率异构与噪声差异化协同全域优化处理方案

别再用Laravel Octane硬扛AI流量了！PHP 9.0原生异步I/O重构方案，实测吞吐量翻4.8倍

从NeRF论文到代码实战：手把手教你复现ECCV2020经典3D重建（附避坑指南）

时间序列预测的十大挑战与实战解决方案

从Get-WmiObject到Get-CimInstance：PowerShell监控内存用法的‘新老司机’避坑指南

Cursor Pro激活方案终极指南：三步实现永久免费使用AI编程助手

一次讲清：华为网络中的‘MSTP负载’与‘VRRP主备’到底怎么配合才不冲突？

告别手动delete！用Qt6的QScopedPointer轻松管理QTimer对象（附完整代码示例）

八大网盘直链获取：从等待到掌控的下载体验蜕变

题解：AtCoder AT_awc0006_b Efficient Quests

PHP 9.0异步AI机器人开发全链路避坑指南（从Composer.lock锁死到OpenAI流式响应中断的终极解法）

《Foundation 按钮组》

终极便携式Windows C/C++开发套件：w64devkit完整指南

从LiDAR扫描到3D打印：CloudCompare点云缩放与平移的完整预处理指南

4.26华为OD机试真题新系统 - 项目模块依赖构建顺序规划 (Java/Py/C/C++/Js/Go)

告别命令行恐惧：用 Ultralytics YOLOv8 Python API 在 Jupyter Notebook 里训练你的第一个检测模型

Gin项目参数校验踩坑实录：从`required`失效到`dive`标签的正确用法

Scikit-learn 机器学习库使用指南

【软考高级架构】案例题考前突击4——云原生架构

构建AI智能体本地记忆中枢：解决多工具知识孤岛与架构漂移

从sysfs目录看Linux设备模型：一个‘ls /sys’命令背后的kobject、kset与ktype故事