当前位置：首页 > news >正文

绕过 RAG 实时检索瓶颈，缓存增强生成（CAG）如何助力性能突破？

news 2025/11/17 5:58:00

编者按： 你是否曾经遇到过这样的困扰：在开发基于 RAG 的应用时，实时检索的延迟让用户体验大打折扣？或者在处理复杂查询时，检索结果的不准确导致回答质量不尽如人意？

在当前大语言模型应用大规模落地的背景下，这些挑战正成为制约产品竞争力的关键瓶颈。传统 RAG 方案中的检索延迟、准确性波动以及系统复杂度，都在考验着开发者的耐心和智慧。

缓存增强生成（CAG）技术巧妙地利用了新一代大语言模型处理长上下文的能力，通过预加载文档和预计算 KV 缓存，消除了实时检索的需求。实验结果表明，在可管理的知识库场景下，这种方案不仅能将推理时间缩短数倍，还能提供更连贯、更准确的响应。

作者 | Vishal Rajput

编译 | 岳扬

检索增强生成（RAG）作为一种通过整合外部知识源来增强语言模型的强大方法而备受瞩目。不过，这种方法也带来了一些挑战，比如检索过程的延迟、文档挑选时可能出现的误差，以及系统复杂度的增加。

随着能够处理更长上下文的大语言模型（LLMs）的兴起，缓存增强生成（CAG）技术应运而生，它避免了实时的信息检索。这项技术通过将所有必要资源预先加载到模型的扩展上下文中，并在缓存其相关运行时（runtime）参数，尤其在处理数量有限且易于管理的文档或知识时更为有效。

话不多说，让我们来深入探讨这一新颖的技术。

本文将讨论以下主题：

RAG 如何扩展上下文的处理能力？
无限扩展的上下文窗口
CAG 技术有何优势？
其他方面的改进
CAG 框架的运作原理
总结

01 RAG 如何扩展上下文的处理能力？

RAG 是一种半参数化系统，其中参数化部分由大语言模型构成，而非参数化部分则包括其他元素。将这两部分结合，便形成了半参数化系统。在 LLMs 中，所有信息都以编码形式存储在模型的权重或参数中，而系统的其他部分则没有用参数来定义这些知识。

那么，这种设计是如何解决问题的呢？

通过在 LLMs 中灵活地替换索引（即特定的信息），能够实现信息的个性化定制，这意味着我们不会因为信息过时而受限，同时也能够更新索引的内容。
将 LLMs 与这些索引相结合，可以减少错误信息的产生，并且我们能够通过指向信息原始来源来进行引用和归属描述。

因此，从理论上讲，RAG 提升了我们为 LLMs 创建更佳上下文的能力，使其表现更加出色。

但这个过程真的这么简单吗？答案是否定的。

现有的 RAG 系统并不够智能，它们相对简单，无法应对那些需要大量自定义上下文的复杂任务。

因此，简而言之，正是由于上下文窗口对 LLMs 的限制，RAG 才得以发展起来。

02 无限扩展的上下文窗口

相关论文在此：《Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention》。

这篇论文提出了一种高效的方法，可以在有限的内存和计算资源约束下，将基于 Transformer 的大语言模型（LLMs）扩展到处理无限长的输入。该方法中的一个关键创新是一种名为 Infini-attention 的全新注意力机制。

Infini-attention 的核心思想是将局部注意力和全局注意力相结合。具体来说，首先将整篇文章分割成多个片段，在其中一个片段上应用标准的注意力机制，而为了获取前一个片段的上下文，我们采用了一种线性注意力机制。以下是对这篇论文的简要概述：

混合注意力机制：局部注意力集中于单词周围的即时上下文，而长距离注意力则通过参考迄今为止所见的整个序列的压缩摘要来保持全局视野。
压缩记忆：利用线性注意力来记忆之前的文本片段。
高效更新：为了避免冗余和节省计算量，Infini-attention 不会直接将新信息添加到记忆中。相反，它会首先检查已知信息，然后只更新记忆中的新信息或不同信息，这与 ResNet 中的跳跃连接（skip connections）类似。
权衡控制：通过一个超参数来调节局部信息和压缩记忆的混合比例。

03 CAG 技术有何优势？

无检索长上下文范式：提出了一种创新方法，通过利用预加载文档和预计算 KV 缓存的长上下文 LLMs，消除了检索延迟、错误和系统复杂性。

性能比较：实验表明，长上下文 LLMs 的性能优于传统的 RAG 系统，特别是在可管理的知识库中。

实用见解：提出可操作的优化策略以提升知识密集型工作流效率，通过实证验证无检索方法在特定应用场景下的可行性。

CAG 相较于传统 RAG 系统具有以下显著优势：

缩短推理时间：由于无需实时检索，推理过程变得更快、更高效，能够更快地响应用户查询。
统一上下文：将整个知识集合预加载到 LLM 中，可提供对文档的整体和连贯理解，从而在各种任务中提高响应质量和响应一致性。
简化架构：通过移除整合检索器和生成器的需求，系统变得更加简洁，降低了系统复杂性，提高了可维护性，并减少了开发成本。

04 其他方面的改进

对于知识密集型任务而言，增加的计算资源通常被用来融入更多的外部知识。然而，如果没有有效地利用这些知识，单纯地扩展上下文并不总是能提升性能。

两种推理扩展策略：上下文学习（In-context learning）和迭代式提示技术（iterative prompting）。

这些策略为扩展测试时计算（test-time computation）提供了额外的灵活性（例如，通过增加检索的文档数量或生成步骤），从而增强 LLMs 获取和利用上下文信息的能力。

我们需要回答两个关键问题：

(1) 在进行最优配置时，RAG 性能如何通过推理计算规模的扩展获得提升？

(2) 能否通过建模 RAG 性能与推理参数之间的量化关系，预测给定预算约束下的最优测试时计算资源分配？

在最优推理参数配置下，RAG性能随着测试时计算量级的提升呈现近似线性增长。基于实验观测，我们推导出RAG的推理扩展规律及其配套计算资源分配模型，该模型可预测不同超参数配置下的系统性能表现。

欲了解更多信息请阅读此论文：https://arxiv.org/pdf/2410.04343

另一项工作则更多地从硬件（优化）设计的角度出发：

研究团队开发了智能知识存储系统（Intelligent Knowledge Store, IKS），这是一种基于 CXL 2.0 协议的设备，采用横向扩展的近内存加速架构，通过在主机 CPU 与近内存加速器之间构建新型缓存一致性接口实现性能突破。

在 512GB 向量数据库上，IKS 执行精确最近邻搜索的速度相比 Intel Sapphire Rapids CPU 提升 13.4-27.9 倍。这种搜索性能优势使典型 RAG 应用的端到端推理时间缩短 1.7-26.3 倍。作为内存扩展器，IKS 的内部 DRAM 可解耦供服务器其他应用使用，有效避免当今服务器中最昂贵的 DRAM 资源闲置浪费。

欲了解更多信息，请阅读这里：https://arxiv.org/pdf/2412.15246

另一篇论文系统性地研究了长上下文对 20 种主流开源和商业大语言模型（LLM）的检索增强生成（RAG）性能影响。研究团队通过在三个专有领域数据集上改变总上下文长度（从 2,000 到 128,000 tokens，并在可能情况下扩展至 200 万 tokens）运行 RAG 工作流，揭示了长上下文在 RAG 应用中的优势与局限性。

他们的研究发现，虽然检索更多文档可以提高性能，但只有少数最新一代的最先进 LLMs 能够在超过 64k tokens 的长上下文中保持稳定的准确性。 他们还确定了长上下文场景中的不同故障模式，为未来的研究提出了方向。

欲了解更多信息，请阅读此论文：https://arxiv.org/pdf/2411.03538

05 CAG 框架的运作原理

CAG 框架利用长上下文 LLMs 的扩展上下文能力，消除了实时检索的需求。通过预加载外部知识源（例如，文档集合 D={d1,d2,…} ）并预计算键值（KV）缓存（C_KV），它克服了传统 RAG 系统的效率低下问题。该框架主要分三个阶段运行：

1. 外部知识预加载

对精选的文档集合 D 进行预处理，使其适配模型的扩展上下文窗口。
LLM 处理这些文档，将它们转换为预计算的键值（KV）缓存，该缓存封装了 LLM 的推理状态。LLM（M）将文档集合 D 编码成预计算的 KV 缓存：

该预计算缓存被存储以供复用，确保无论后续执行多少次查询，处理文档集合D的计算成本仅需支付一次。

2. 推理阶段

在推理阶段，KV 缓存（C_KV）与用户查询 Q 一起加载。
LLM 利用这个缓存中的上下文来生成响应，从而消除了检索延迟，并减少了由于动态检索引起的错误或遗漏的风险。LLM 通过利用缓存中的上下文来生成响应：

这种方法消除了检索延迟，将检索错误的风险降至最低。组合提示词 P=Concat(D,Q) 确保了对外部知识和查询的统一理解。

3. 缓存重置

为维持性能，需对 KV 缓存进行高效重置。在推理过程中，随着新 token（t1,t2,…,tk）被添加至上下文窗口，重置过程会截断这些 tokens：

随着新 token 的连续添加，KV 缓存逐渐增长，重置时仅需截断这些新增 token，即可实现快速重新初始化，无需从磁盘重新加载整个缓存。这种设计避免了全量缓存加载的 I/O 瓶颈，确保了系统响应速度的持续稳定。

06 Conclusion

缓存增强生成（CAG）在实时检索不可行或需要极低延迟响应的场景中优势显著。通过将海量外部知识嵌入模型的上下文窗口，CAG 能够生成信息丰富且上下文相关的回答，避免了传统检索增强生成（RAG）系统的检索延迟。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the author

Vishal Rajput

3x🏆Top writer in AI |

AI Book 📓: https://rb.gy/xc8m46 |

LinkedIn +: https://www.linkedin.com/in/vishal-rajput-999164122/

END

本期互动内容 🍻

❓你认为随着大模型上下文窗口持续扩大，RAG和CAG的技术路线会如何演进？哪些场景仍然更适合使用RAG？

原文链接：

https://medium.com/aiguys/dont-do-rag-it-s-time-for-cag-fb24ff87932b

绕过 RAG 实时检索瓶颈，缓存增强生成（CAG）如何助力性能突破？

01 RAG 如何扩展上下文的处理能力？

02 无限扩展的上下文窗口

03 CAG 技术有何优势？

04 其他方面的改进

05 CAG 框架的运作原理

06 Conclusion

相关文章：

绕过 RAG 实时检索瓶颈，缓存增强生成（CAG）如何助力性能突破？

Nginx系列09（Nginx 与其他服务集成、实战项目）

nvidia驱动更新,centos下安装openwebui+ollama（非docker）

手机端抓包大麦网抢票协议：实现自动抢票与支付

Vue3实现文件上传、下载及预览全流程详解（含完整接口调用）

普通人高效使用DeepSeek指南?

基于JAVA+Spring+mysql_快递管理系统源码+设计文档

《从0到1：用Python在鸿蒙系统开发安防图像分类AI功能》

第十四届蓝桥杯大赛软件赛国赛C/C++大学C组

黑龙江省地标-DB31/T 862-2021 “一网通办”政务服务中心建设和运行规范

基于SpringBoot的美妆购物网站系统设计与实现现(源码+SQL脚本+LW+部署讲解等)

如何评估所选择的PHP后端框架的性能？

快速搭建多语言网站的 FastAdmin 实践

单片机中的flah和RAM

【实战 ES】实战 Elasticsearch：快速上手与深度实践-1.1.2典型应用场景：日志分析、实时搜索、推荐系统

solidwork智能尺寸怎么对称尺寸

直播cdn原理

如何长期保存数据（不包括云存储）最安全有效？

【Java】I/O 流篇 —— 打印流与压缩流

更换k8s容器运行时环境为docker

MFC内存泄露

python/java环境配置

深入理解JavaScript设计模式之单例模式

Golang dig框架与GraphQL的完美结合

相机Camera日志分析之三十一：高通Camx HAL十种流程基础分析关键字汇总（后续持续更新中）

C++八股 —— 单例模式

使用 SymPy 进行向量和矩阵的高级操作

Unsafe Fileupload篇补充-木马的详细教程与木马分享（中国蚁剑方式）

管理学院权限管理系统开发总结

Yolov8 目标检测蒸馏学习记录