当前位置: 首页 > article >正文

小米Agent岗二面:你们 RAG 知识库上线之后,文档更新了怎么办?

面试官你们 RAG 知识库上线之后文档更新了怎么办总不能每次改个文档就把整个知识库重建一遍吧。‍♂️我可以直接找到变了的那个 chunk更新它的向量就行了。面试官你以为改了一段文字chunk 的边界还能和之前一模一样文档内容一变切割结果可能完全不同你根本没法把旧 chunk 和新 chunk 一一对应起来做局部更新。‍♂️我那我把整个文档对应的所有 chunk 都删掉然后重新入库但是系统怎么知道哪些文档变了呢面试官这还算靠点谱但你怎么感知文档变更总不能让人告诉你吧。接下来看看 RAG 知识库动态更新的完整方案。 简要回答我理解知识库更新的核心挑战是文档变了对应的 chunk 和向量都要跟着变而且要做到增量处理不能每次全量重建。我们的通用方案是给每个文档算一个内容 hash通过轮询或者监听数据源变更检测到文档新增、修改、删除的时候先清掉旧的向量再重新切割入库。对于实时性要求比较高的场景我会用消息队列比如 Kafka 做变更事件驱动实现秒级的入库。 详细解析知识库更新这个问题很多同学做 RAG Demo 时不会碰到一旦上生产就必须面对。文档本身是会变的产品手册改版、政策文件更新、FAQ 内容迭代如果知识库不及时跟进RAG 就会一直给用户返回过期信息。所以动态更新能力是 RAG 系统投入生产的必备条件而不是锦上添花的功能。为什么更新 RAG 知识库比更新普通数据库麻烦在讲具体方案之前先搞清楚一个关键问题为什么 RAG 知识库的更新不能像普通数据库那样直接 UPDATE原因在于普通数据库更新一条记录直接 UPDATE 就行数据是独立的改一条不影响别的。但 RAG 知识库的麻烦在于原始文档和向量库之间不是一对一的关系而是一对多的关系。一篇文档会被切割成几十甚至上百个 chunk每个 chunk 分别 Embedding 后存入向量库。当文档内容发生变化时你不能简单地「更新一条记录」因为文档结构变了切割结果可能完全不同chunk 的数量、边界、内容都会变。所以 RAG 知识库在工程上最可靠的更新逻辑是先删掉旧文档对应的所有 chunk再重新切割入库即「先删后增」而不是在原来的 chunk 上做局部更新。理论上如果 Chunking 策略完全稳定比如按固定 token 窗口切某些场景可以做局部更新但生产环境里 chunk 边界一变就全乱套与其在这种不确定性上博弈不如直接走「先删后增」简单可靠。抽象来看知识库的变更只有三种操作类型。新增是最简单的文档以前不存在走一遍完整的「切割 - Embedding - 写入」流程就行没有任何历史包袱。修改是最容易踩坑的操作值得多说几句。很多同学第一次做这个功能直觉上认为「只改了一段文字更新那一个 chunk 就好了」这个思路在实际中行不通。原因很简单文档内容一改切割边界就变了原来第 3 个 chunk 的内容可能现在分散在第 3 和第 4 个 chunk 里你根本没法把旧 chunk 和新 chunk 一一对应起来做「局部打补丁」。就像装修时把一堵墙拆了重建不能指望原来的插座位置还能对上整面墙的电路要重新布。所以修改的正确做法是推倒重来把这篇文档之前入库的所有 chunk 全部删掉然后重新按新内容切割入库。操作虽然暴力但是可靠也是唯一不会出 bug 的做法。删除最直接文档下线了把它对应的所有 chunk 从向量库中清除不能留着「僵尸 chunk」否则用户还是会检索到这些已经失效的内容。如何知道文档是否发生了变化搞清楚了更新策略是「先删后增」下一个绕不开的工程问题就是系统怎么知道一篇文档「变没变」最常用的方案是内容 hash。每次文档入库时计算文档内容的 MD5 或 SHA256 摘要把这个 hash 值和文档 ID、对应的 chunk ID 列表一起存下来存在 Redis、数据库都行。下次检测到这篇文档时重新计算 hash 和存储的值对比相同说明内容没变跳过不同说明内容有更新触发重处理流程。你可能会担心每次都算 hash 性能会不会有问题完全不会。hash 运算非常快哪怕只改了文档里的一个标点符号hash 值就会完全不同不会漏掉任何变更计算成本极低。实际工程里还有一个进一步优化先用「最后修改时间」这个轻量字段做粗筛只对时间戳发生变化的文档才计算 hash。比如数据源每晚同步一次上百万篇文档里真正改过的可能只有几千篇这样能把 99% 的文档过滤掉hash 只对小部分计算开销再降一个量级。文档 ID 和 chunk ID 的设计有了变更检测的方案还有一个容易被忽视但非常关键的设计问题chunk ID 的命名规范。这个东西一开始不设计好后面做更新的时候会非常痛苦。为什么因为删除一篇文档的所有 chunk 时你需要能快速找出「这篇文档对应了哪些 chunk」。常见的做法是让 chunk ID 带上文档 ID 作为前缀比如product_manual_v3_chunk_001、product_manual_v3_chunk_002这样按前缀就能批量查找和删除对应的所有 chunk。另一种做法是在每个 chunk 的 metadata 里存上文档 ID 字段比如source_doc_id: product_manual_v3向量库一般都支持按 metadata 字段过滤批量删除效果是一样的。无论选哪种方式关键是从一开始就把文档和 chunk 的关联关系设计好等到需要更新时再临时想办法会很狼狈。两种主流的变更感知方式前面说了怎么检测变更hash和怎么处理变更先删后增那系统怎么在第一时间感知到文档需要更新有两种主流方案各有适用场景。第一种是定时轮询Polling。系统按固定时间间隔比如每天凌晨两点、每小时一次扫描所有文档对比 hash 值把有变化的文档重新处理。这种方案实现简单不依赖任何外部系统适合文档更新频率低、对实时性要求不高的场景比如内部知识库、产品文档这类一周才改几次的内容。缺点是有延迟文档改完之后要等到下一个轮询周期才会生效而且如果文档数量很多全量扫描本身也是一笔开销大多数文档根本没变却每次都要算一遍 hash。第二种是事件驱动Event-Driven。数据源有变更时主动发出一条消息通过 Kafka、RabbitMQ、或者 Webhook知识库更新服务订阅这些消息收到事件立刻处理。这种方案延迟低文档变更后几秒内就能在知识库里生效适合实时性要求高的场景比如客服知识库运营刚更新了退款政策要求立刻在客服机器人里生效、新闻资讯类应用新文章发布就要入库。代价是需要数据源支持发消息的能力系统架构也更复杂一些。不少现代化的内容管理工具Confluence、Notion、语雀等都支持 Webhook文档保存时会自动向你配置的地址推送一条 HTTP 请求天然适合做事件驱动更新不需要引入消息队列这么重的组件。全量重建是最后的手段除了增量更新还有一种「核弹级」方案定期把整个知识库推倒重建。把所有文档重新切割、Embedding、写入相当于从零开始建一遍。你可能会想全量重建这么暴力谁会用其实这个方案的优点恰恰在于逻辑最简单不需要维护文档和 chunk 的对应关系不需要 hash 检测也不用担心有旧 chunk 漏删的问题。缺点也很明显如果知识库文档量大重建一次要消耗大量时间和 Embedding API 费用重建过程中知识库不可用或者用旧数据会影响线上服务。实际场景里全量重建一般在两种情况下用知识库规模很小几十篇文档重建几分钟搞定或者做了重大架构调整比如换了 Embedding 模型、改了 Chunking 策略新旧向量不兼容必须全量重建。平时不推荐依赖这个方案。灰度更新稳妥地切换新版本对于核心的生产知识库直接删旧数据、写新数据风险还是太大了。万一新切割的内容有问题想回滚都来不及。那怎么办更稳妥的做法是不直接删旧数据而是先并行写入新版本验证没问题再切换。具体操作是把新版本的 chunk 写入时打上versionnew的标签旧版本保留versionold。在验证阶段用一批测试问题同时跑新旧两个版本对比答案质量确认新版本没有引入退化。验证通过后把检索时的版本过滤条件从old切换到new最后再清理掉旧版本的 chunk。这个方案有点类似软件发布里的蓝绿部署好处是出了问题可以立刻回滚把版本过滤条件切回去切换是秒级的不需要重新入库。对于知识库质量要求很高的场景比如金融、医疗领域的问答系统这种谨慎的更新策略是很有必要的。把几种更新方案的特点做个对比实际选型时可以对照着看方案延迟实现复杂度适用场景定时轮询分钟 - 小时级低文档更新频率低实时性要求不高Webhook 触发秒级中数据源支持 Webhook如 Confluence、Notion消息队列秒级中高大规模、高并发更新生产环境首选全量重建分钟 - 小时级低文档量小或知识库结构大改不推荐常用总结一下生产环境推荐「事件驱动 hash 变更检测 先删后增」的组合方案兼顾实时性和数据一致性。新增和删除操作相对简单修改操作记住一个原则永远先删掉旧的所有 chunk再重新入库不要尝试「局部更新」这是最可靠也最不容易出 bug 的做法。 面试总结回到开头对话的问题知识库更新绝对不能尝试「只更新变了的那个 chunk」因为文档内容一变chunk 的切割边界就完全不同了没法做局部更新。正确的做法是给每个文档算内容 hash 来检测变更检测到变化后先把旧文档对应的所有 chunk 删掉再重新切割入库也就是「先删后增」。变更感知方面低频场景用定时轮询就够了高频场景用 Kafka 或 Webhook 做事件驱动实现秒级入库。生产环境推荐「事件驱动 hash 检测 先删后增」的组合方案同时要做好 chunk ID 与文档 ID 的关联设计这样删除和更新才有据可查。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

小米Agent岗二面:你们 RAG 知识库上线之后,文档更新了怎么办?

👔面试官:你们 RAG 知识库上线之后,文档更新了怎么办?总不能每次改个文档就把整个知识库重建一遍吧。 🙋‍♂️我:可以直接找到变了的那个 chunk,更新它的向量就行了。 👔面试官&a…...

免费一键去图片水印的App有哪些?免费去图片水印软件推荐,2026实测好用工具盘点

免费一键去图片水印的App有哪些?免费去图片水印软件推荐,2026实测好用工具盘点 在日常用图的过程中,水印几乎是绕不开的麻烦——从网络下载的素材到平台截图,从拍摄叠加的文字标注到品牌Logo,各种形式的水印让图片用起…...

DOM Node:深入解析与高效使用

DOM Node:深入解析与高效使用 引言 DOM(Document Object Model)是现代网页开发的核心技术之一,它允许开发者以程序化的方式操作HTML文档。DOM Node是DOM的核心概念之一,理解并熟练使用DOM Node对于提高网页开发效率至关重要。本文将深入解析DOM Node的概念、类型、属性和…...

从新手到老手:四类Ozon卖家选品工具选择指南

选品工具没有“最好”,只有“最匹配你当前阶段”。四类卖家,四种方案。市面上的Ozon选品工具,功能各有侧重。有的擅长给数据,有的擅长给结论,有的擅长管店铺。不同阶段的卖家,痛点不同,适合的工…...

02数据模型与单词仓库-鸿蒙PC端Electron开发

欢迎加入开源鸿蒙PC社区 https://harmonypc.csdn.net/ 源码仓库 https://atomgit.com/qq_33247427/englishProject.git 效果截图 第2篇:数据模型与单词仓库 系列教程导航 篇号 标题 状态 01 环境搭建与项目创建 ✅ 已完成 02 数据模型与单词仓库 本篇 …...

Serverless平台为何总让人“又爱又恨”?揭秘Lovable设计的3层情感化架构(开发者体验×运维韧性×业务敏捷)

更多请点击: https://intelliparadigm.com 第一章:Serverless平台为何总让人“又爱又恨”? Serverless 架构在现代云原生开发中已成为主流选择,它承诺“无需管理服务器”,让开发者专注业务逻辑。然而,在真…...

面试记录 (2026/5/12)

问题一:java并发包下的AQS,了解多少? 这个真是没看过源码,就不班门弄斧了 直接学习下 大佬的经验 https://blog.csdn.net/qq_45772447/article/details/149126295?fromshareblogdetail&sharetypeblogdetail&sharerId149126295&…...

Sora 2国内可用性深度测评(2024Q2最新版):API调用失败率<0.8%的私有化部署方案首次公开

更多请点击: https://intelliparadigm.com 第一章:ChatGPT Sora 2视频生成怎么用 Sora 2 并非 OpenAI 官方发布的模型——截至目前(2024年中),OpenAI 仅公开了 Sora(初代)的演示能力&#xff0…...

Deep Lake:统一多模态AI数据存储与向量检索的实践指南

1. 项目概述:Deep Lake,一个为AI而生的数据湖 如果你正在构建一个需要处理图像、文本、音频、PDF,甚至医学影像DICOM文件的大模型应用,或者你在训练一个需要高效加载海量数据的深度学习模型,那么你很可能正被数据管理…...

OpenClaw智能体引导基准测试:本地LLM多步骤任务执行能力评估

1. 项目概述:一个专为LLM智能体设计的“开箱即用”能力基准测试 如果你最近在关注本地大语言模型(LLM)和智能体(Agent)的进展,可能会发现一个现象:很多模型在标准问答或代码生成任务上表现不错…...

【Google全家桶AI功能2026终极前瞻】:20位谷歌AI Lab核心工程师闭门透露的7大颠覆性升级路径

更多请点击: https://intelliparadigm.com 第一章:Google全家桶AI功能2026升级全景图谱 2026年,Google正式将Gemini 3.5 Ultra深度集成至全系生产力产品中,实现跨端、实时、上下文感知的AI协同。核心升级聚焦于“意图理解前置化”…...

Claude API开发实战:从模型选型到工具调用,一站式资源与代码详解

1. 项目概述与核心价值最近在折腾AI应用开发的朋友,估计没少为Claude API的调用和管理头疼。官方文档虽然详尽,但当你需要快速查找某个特定端点、对比不同模型参数,或者只是想找个现成的代码片段时,那种在多个页面间跳转、反复搜索…...

智慧工地起重机吊钩检测数据集VOC+YOLO格式1138张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数):1138标注数量(xml文件个数):1138标注数量(txt文件个数):1138标注类别…...

LLM与图数据库融合:自然语言驱动知识图谱查询实战

1. 项目概述:当LLM遇见图数据库,知识推理的新范式最近在探索如何让大语言模型(LLM)更好地处理复杂、结构化的知识时,我遇到了一个非常有意思的项目:dylanhogg/llmgraph。这个项目本质上是一个桥梁&#xff…...

IV测试仪选购避坑指南,这几点一定要提前了解

在光伏产业链中,IV测试仪应用广泛,覆盖组件分选、实验室检定、电站验收、运维排查等场景。市面上仪器品类繁杂,包含台式实验室款、生产线分选款、户外检测款,价格差距悬殊。不少采购人员不懂场景适配,盲目比价、堆砌参…...

只做中外合作办学,并且把它做深、做精

在中外合作办学领域,信息的透明与路径的可靠始终是学生与家长最核心的诉求。当越来越多项目涌现,如何甄别真正具备专业沉淀与行业敬畏心的服务者,成为选择前的第一道课题。这就是简申品牌存在的意义,而它背后的力量,来…...

如何快速集成Draw.io Mermaid插件:提升图表绘制效率的终极指南

如何快速集成Draw.io Mermaid插件:提升图表绘制效率的终极指南 【免费下载链接】drawio_mermaid_plugin Mermaid plugin for drawio desktop 项目地址: https://gitcode.com/gh_mirrors/dr/drawio_mermaid_plugin 还在为绘制复杂的流程图、时序图而烦恼吗&am…...

从RNN的“失忆症”到LSTM的“记忆宫殿”:图解三个门控单元如何拯救梯度消失

从RNN的"失忆症"到LSTM的"记忆宫殿":图解三个门控单元如何拯救梯度消失 想象一下,你正在阅读一本精彩的小说,但每翻过一页就会忘记前一页的大部分内容——这就是标准RNN神经网络面临的困境。在自然语言处理和时间序列分析…...

OpenAI面向欧洲部分用户开放网络安全专用模型GPT-5.5-Cyber,应对AI网络威胁

OpenAI推出欧洲专属网络安全模型 5月12日消息,据eWeek报道,OpenAI正式面向欧洲地区的部分用户开放了网络安全专用模型GPT-5.5-Cyber。该模型基于GPT-5.5架构开发,专为经过OpenAI验证的网络安全防御人员打造。 满足网络安全关键任务需求 GPT-5…...

Arm Forge工具链在HPC中的调试与性能优化实践

1. Arm Forge工具链概述高性能计算(HPC)领域的开发者经常面临并行程序调试和性能优化的挑战。Arm Forge作为一套集成化工具平台,包含了三个核心组件:DDT并行调试器、MAP性能分析器和Performance Reports报告生成工具。这套工具链特别适合处理MPI、OpenMP…...

NodeMCU固件烧录终极指南:告别命令行,5分钟搞定ESP8266刷机!

NodeMCU固件烧录终极指南:告别命令行,5分钟搞定ESP8266刷机! 【免费下载链接】nodemcu-pyflasher Self-contained NodeMCU flasher with GUI based on esptool.py and wxPython. 项目地址: https://gitcode.com/gh_mirrors/no/nodemcu-pyfl…...

Docker镜像标准化机器人开发环境:OpenClaw项目协作实践

1. 项目概述:一个面向协作开发的OpenClaw项目镜像最近在开源社区里,一个名为laolin5564/openclaw-collab-dev的Docker镜像引起了我的注意。这个镜像的名字本身就很有意思,它明确指向了“OpenClaw”和“协作开发”这两个核心概念。对于从事机器…...

基于 DWT 的盲数字水印实现(嵌入与提取)

一、原理 盲数字水印(Blind Watermarking)指提取水印时无需原始载体图像,仅依靠含水印图像和密钥即可完成。 DWT(离散小波变换) 将图像分解为: LL:低频近似分量(能量集中&#xff0c…...

如何高效获取网盘直链:8大平台的完整解决方案

如何高效获取网盘直链:8大平台的完整解决方案 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘 / 迅…...

RootlessJamesDSP:无Root环境下的Android全局音频处理方案解析

1. 项目概述:在无根环境中驯服音频的“魔法师”如果你是一个对手机音质有追求的安卓用户,或者是一个喜欢折腾音频处理插件的玩家,那么你很可能听说过或者用过 JamesDSP。它是一款功能强大的音频处理引擎,能够通过复杂的算法&#…...

交完Essay才发现Turnitin更新了AI检测?我是这么应对的

上学期我的一个朋友被约谈了。 教授发邮件说:"你的Essay和AI生成文本相似度过高,请来办公室解释。" 他确实用了AI——谁没用呢——但他也认真改写了好几遍。问题是,Turnitin在2025年更新了AI检测模型,现在它不只看词汇…...

WIZnet-EVB-Pico2开始,用MicroPython玩转以太网开发

大家好呀,好久没跟大家唠唠我最近捣鼓的嵌入式小玩意儿了! 这段时间一直在折腾 MicroPython 的网络开发,踩了不少 “入门劝退坑”,也挖到了个让我直呼 “相见恨晚” 的宝藏 ——​WIZnet EVB-Pico2 系列开发板​。说真的&#xf…...

ARM GICv4.1 GICD_TYPER2寄存器详解与虚拟化应用

1. GICD_TYPER2寄存器概述 GICD_TYPER2是ARM GICv4.1架构中引入的关键寄存器,属于中断控制器类型寄存器家族。作为GIC Distributor的一部分,它专门用于增强虚拟化场景下的中断管理能力。这个32位寄存器位于内存映射地址Dist_base 0x000C处,仅…...

重磅!移远通信旗下物联网智能品牌 艾络迅™ 正式发布

物联网技术正深刻重塑产业格局,智能化转型已成为企业核心竞争力的关键。然而,企业在推进物联网项目时普遍面临技术门槛高、开发周期长、系统对接难、全球连接复杂等核心挑战。为破解行业智能化转型难题,帮助更多企业提升物联网开发效率&#…...

我花三天实测了DeepSeek V4,发现它根本不是来跟GPT-4o打架的

2026年4月24号,DeepSeek V4发布。 同一天,GPT-5.5也发布了。 这不是巧合,这是宣战。 但测了三天之后,我发现一个反直觉的结论,DeepSeek V4的真正对手根本不是GPT-4o,也不是Claude 3.5。 它要干掉的&#xf…...