当前位置：首页 > news >正文

LangChain——多向量检索器

news 2026/3/29 23:58:41

每个文档存储多个向量通常是有益的。在许多用例中，这是有益的。 LangChain 有一个基础 MultiVectorRetriever ，这使得查询此类设置变得容易。很多复杂性在于如何为每个文档创建多个向量。本笔记本涵盖了创建这些向量和使用 MultiVectorRetriever 的一些常见方法。
为每个文档创建多个向量的方法包括：

较小的块：将文档分割成较小的块，然后嵌入这些块（这是 ParentDocumentRetriever）。
摘要：为每个文档创建摘要，将其与文档一起嵌入（或代替文档）
假设性问题：创建每个文档都适合回答的假设性问题，将这些问题与文档一起嵌入（或代替文档）。

请注意，这还启用了另一种添加嵌入的方法 - 手动。这很棒，因为您可以显式添加导致文档恢复的问题或查询，从而为您提供更多控制权。

from langchain.retrievers.multi_vector import MultiVectorRetriever
from langchain.storage import InMemoryByteStore
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import Chroma
from langchain_text_splitters import RecursiveCharacterTextSplitter# 导入文件
loaders = [TextLoader("./txt/faq-4359.txt",encoding="utf-8"),TextLoader("./txt/faq-7923.txt",encoding="utf-8"),
]
docs = []
# 将内容合并
for loader in loaders:docs.extend(loader.load())# 连接模型
from langchain_community.embeddings.huggingface import HuggingFaceEmbeddings
embeddings_path = "D:\\ai\\download\\bge-large-zh-v1.5"
embeddings = HuggingFaceEmbeddings(model_name=embeddings_path)# 用于索引子块的向量存储
vectorstore = Chroma(collection_name="full_documents", embedding_function=embeddings
)# 父文档的存储层
store = InMemoryByteStore()
id_key = "doc_id"# 检索器（空启动）
retriever = MultiVectorRetriever(vectorstore=vectorstore,byte_store=store,id_key=id_key,
)import uuid
# 生成唯一编码
doc_ids = [str(uuid.uuid4()) for _ in docs]from langchain_text_splitters import CharacterTextSplitter
# 用于创建较小块的分割器
child_text_splitter = CharacterTextSplitter(separator="\n\n",chunk_size=100,chunk_overlap=10,length_function=len,is_separator_regex=False,
)sub_docs = []
# 循环分割
for i, doc in enumerate(docs):_id = doc_ids[i]_sub_docs = child_text_splitter.split_documents([doc])for _doc in _sub_docs:_doc.metadata[id_key] = _idsub_docs.extend(_sub_docs)#使用一个名为retriever的对象来向一个向量存储（vectorstore）中添加文档，
#并且使用一个文档存储（docstore）来设置文档ID与文档内容之间的映射。
#这两个属性分别用于存储文档的向量化表示和文档的内容。
retriever.vectorstore.add_documents(sub_docs)
retriever.docstore.mset(list(zip(doc_ids, docs)))
# Vectorstore 单独检索小块
retriever.vectorstore.similarity_search("众测商品多久发货呢？")[0]#输出结果：Document(page_content='4、众测商品买下后多久发货？\n\n     您好，请以商品页显示为准。\n\n5、提交活动订单后多久内支付？\n\n     您好，提交订单后最长付款时效为24小时，逾期订单自动取消', metadata={'doc_id': '8f80d02b-6a27-46ae-ad6a-23cc6e1ec5c8', 'source': './txt/faq-7923.txt'})

摘要总结

通常，摘要可能能够更准确地提炼出某个块的内容，从而实现更好的检索。在这里，我们展示如何创建摘要，然后嵌入它们。

import uuidfrom langchain_core.documents import Document
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI, OpenAI
openai_api_key = "EMPTY"
openai_api_base = "http://127.0.0.1:1234/v1"
model = ChatOpenAI(openai_api_key=openai_api_key,openai_api_base=openai_api_base,temperature=0.3,
)
# 创建链
chain = ({"doc": lambda x: x.page_content}| ChatPromptTemplate.from_template("总结下面的文档:\n\n{doc}")| model| StrOutputParser()
)
docs = []
for loader in loaders:docs.extend(loader.load())# max_concurrency最大的并行量    
summaries = chain.batch(docs, {"max_concurrency": 5})# The vectorstore to use to index the child chunks
vectorstore = Chroma(collection_name="summaries", embedding_function=embeddings)
# The storage layer for the parent documents
store = InMemoryByteStore()
id_key = "doc_id"
# The retriever (empty to start)
retriever = MultiVectorRetriever(vectorstore=vectorstore,byte_store=store,id_key=id_key,
)
doc_ids = [str(uuid.uuid4()) for _ in docs]summary_docs = [Document(page_content=s, metadata={id_key: doc_ids[i]})for i, s in enumerate(summaries)
]# 添加文件到检索器
retriever.vectorstore.add_documents(summary_docs)
# id和文档的映射
retriever.docstore.mset(list(zip(doc_ids, docs)))sub_docs = retriever.vectorstore.similarity_search("众测活动是否有参与限制？")

假设性查询

LLM 还可用于生成针对特定文档可能提出的假设问题列表。然后可以嵌入这些问题

from langchain_core.output_parsers import JsonOutputParser
promptStr = '''
···
{doc}
···根据上面的文档，生成3个相关问题和回答。响应以json列表的结构返回。返回的结构参考如下
···
[
{{"question":"问题1","answer":"回答1"}},
{{"question":"问题2","answer":"回答2"}},
{{"question":"问题3","answer":"回答3"}}
]
···
'''prompt = ChatPromptTemplate.from_template(promptStr)
# 生成链
chain = ({"doc": lambda x: x.page_content}| prompt| model| JsonOutputParser()
)
# 用于设置处理批量数据
hypothetical_questions = chain.batch(sub_docs, {"max_concurrency": 5})# 生成对应的文档
ocuments = []
for item in hypothetical_questions:for obj in item:content = "问：{}\n答：{}".format(obj['question'],obj['answer'])documents.append(Document(page_content=content))# The vectorstore to use to index the child chunks
vectorstore = Chroma(collection_name="Question", embedding_function=embeddings,persist_directory="./vector_store")
# The storage layer for the parent documents
store = InMemoryByteStore()
id_key = "doc_id"
# The retriever (empty to start)
retriever = MultiVectorRetriever(vectorstore=vectorstore,byte_store=store,id_key=id_key,
)
doc_ids = [str(uuid.uuid4()) for _ in docs]retriever.vectorstore.add_documents(documents)retriever.vectorstore.similarity_search("众测商品多久发货呢？")[0]# 输出结果
#Document(page_content='问：众测商品买下后多久发货？\n答：您好，请以商品页显示为准。')

LangChain——多向量检索器

每个文档存储多个向量通常是有益的。在许多用例中，这是有益的。 LangChain 有一个基础 MultiVectorRetriever ，这使得查询此类设置变得容易。很多复杂性在于如何为每个文档创建多个向量。本笔记本涵盖了创建这些向量和使用 MultiVectorRetriever 的一些常…...

编程日记 2024/11/27 10:13:15

《岩石学报》

本刊主要报道有关岩石学基础理论的岩石学领域各学科包括岩浆岩石学、变质岩石学、沉积岩石学、岩石大地构造学、岩石同位素年代学和同位素地球化学、岩石成矿学、造岩矿物学等方面的重要基础理论和应用研究成果，同时也刊载综述性文章、问题讨论、学术动态以及书评等…...

编程日记 2024/11/27 10:08:10

数据结构（12）串的存储实现

一、顺序存储结构顺序存储结构是用一组连续的存储单元来存储串中的字符序列。这种存储方式类似于线性表的顺序存储结构，但串的存储对象仅限于字符。顺序存储结构又可以分为定长顺序存储和堆分配存储两种方式。定长顺序存储： 使用静态数组存储&#xff…...

编程日记 2024/11/27 10:05:06

职场发展陷阱

一、只有执行，没有思考二、只有过程，没有结果三、只有重复，没有精进四、不懂向上管理五、定期汇报六、不要憋大招七、多同步信息...

编程日记 2024/11/27 10:03:03

Xcode15（iOS17.4）打包的项目在 iOS12 系统上启动崩溃

0x00 启动崩溃崩溃日志，只有 2 行，看不出啥来。 0x01 默认配置由于我开发时，使用的 Xcode 14.1，打包在另外一台电脑 Xcode 15.3 Xcode 14.1 Build Settings -> Asset Catalog Compliter - Options Xcode 15.3 Build S…...

编程日记 2024/11/27 9:54:54

极狐GitLab 17.6 正式发布几十项与 DevSecOps 相关的功能【二】

GitLab 是一个全球知名的一体化 DevOps 平台，很多人都通过私有化部署 GitLab 来进行源代码托管。极狐GitLab 是 GitLab 在中国的发行版，专门为中国程序员服务。可以一键式部署极狐GitLab。学习极狐GitLab 的相关资料： 极狐GitLab 官网极狐…...

编程日记 2024/11/27 9:53:51

PVE相关名词通俗表述方式———多处细节实验（方便理解）

PVE设置初期，对CIDR、网关、 LinuxBridge、VLAN等很有困惑的朋友一定很需要一篇能够全面通俗易懂的方式去理解PVE 中Linux网桥的工作方式，就像操作一个英雄，多个技能，还是需要一点点去学习理解的，如果你上来就对着别人…...

编程日记 2024/11/27 9:50:47

Ansible--自动化运维工具

Ansible自动化运维工具介绍 1.Ansible介绍 Ansible是一款自动化运维工具，基于Python开发，集合了众多运维工具（puppet、cfengine、chef、func、fabric）的优点，实现了批量系统配置、批量程序部署、批量运行命令等功能。…...

编程日记 2024/11/27 9:48:42

微信小程序学习指南从入门到精通

🗽微信小程序学习指南从入门到精通🗽 🔝微信小程序学习指南从入门到精通🔝✍前言✍💻微信小程序学习指南前言💻一、🚀文章列表🚀二、🔯教程文章的好处🔯1. ✅…...

编程日记 2024/11/27 9:46:40

微服务篇-深入了解使用 RestTemplate 远程调用、Nacos 注册中心基本原理与使用、OpenFeign 的基本使用

🔥博客主页： 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 认识微服务 1.1 单体架构 1.2 微服务 1.3 SpringCloud 框架 2.0 服务调用 2.1 RestTemplate 远程调用 3.0 服务注册和发现 3.1 注册中心原理 3.2 Nacos 注册中心 …...

编程日记 2024/11/27 9:45:39

使用 Django 构建支持 Kubernetes API 测试连接的 POST 接口

文章目录使用 Django 构建支持 Kubernetes API 测试连接的 POST 接口功能需求使用 kubectl 获取 Token命令解析输出示例完整代码实现Kubernetes API 客户端类功能说明 Django 接口视图关键点解析路由配置接口测试请求示例响应结果成功错误优化建议1. 安全性2. 错误处理3. …...

编程日记 2024/11/27 9:44:38

十二、正则表达式、元字符、替换修饰符、手势和对话框插件

1. 正则表达式 1.1 基本使用 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title&g…...

编程日记 2024/11/27 9:42:36

计算机毕业设计Python+大模型美食推荐系统美食可视化美食数据分析大屏美食爬虫美团爬虫机器学习大数据毕业设计 Django Vue.js

温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 作者简介：Java领…...

编程日记 2024/11/27 9:41:34

【后端面试总结】MySQL索引

数据库索引不只一种实现方法，但是其中最具代表性，也是我们面试中遇到最多的无疑是B树。索引为什么选择B树数据量很大的查找，是不能直接放入内存的，而是需要什么数据就通过磁盘IO去获得。红黑树，AVL树等二叉查找树…...

编程日记 2024/11/27 9:39:33

[蓝桥杯 2021 省 AB2] 小平方

题目描述小蓝发现，对于一个正整数 nn 和一个小于 nn 的正整数 vv，将 vv 平方后对 nn 取余可能小于 nn 的一半，也可能大于等于 nn 的一半。请问，在 11 到 n−1n−1 中, 有多少个数平方后除以 nn 的余数小于 nn 的一半。例如&…...

编程日记 2024/11/27 9:38:31

Jmeter测试工具的安装和使用，mac版本，jmeter版本5.2.1

Jmeter测试工具的安装和使用JSON格式请求一、安装1、安装jdk包和设置java环境2、去官网下载Jmeter3、解压后，打开mac终端，进入apache-jmeter的bin文件开启jmeter 二、使用jmeter1、添加线程2、添加HTTP请求3、配置请求的协议、IP地址、端口号、请求方法…...

编程日记 2024/11/27 9:37:29

kmeans 最佳聚类个数 | 轮廓系数（越大越好）

轮廓系数越大，表示簇内实例之间紧凑，簇间距离大，这正是聚类的标准概念。簇内的样本应该尽可能相似。不同簇之间应该尽可能不相似。目的：鸢尾花数据进行kmeans聚类，最佳聚类个数是多少？ plot(iris[,1:4…...

编程日记 2024/11/27 9:36:28

【纪念365天】我的创作纪念日

过去的一年没有注意加入csdn已经有一年了。这几天翻看小猴儿的通知才发现时间来到了一年的纪念日。稍稍思索想要将这一段时间的学习到的知识以及偶然遇到的机遇做一下总结。上一次写纪念日是来到csdn128天的时候， 200天前我的学习状态是非常疯狂的。只记得我当时…...

编程日记 2024/11/27 9:32:22

Opencv+ROS实现颜色识别应用

目录一、工具二、原理概念本质三、实践添加发布话题主要代码四、成果五、总结一、工具 opencvros ubuntu18.04 摄像头二、原理概念彩色图像：RGB（红，绿，蓝） HSV图像：H&#xff0…...

编程日记 2024/11/27 9:31:21

蓝桥杯c++算法秒杀【6】之动态规划【下】（数字三角形、砝码称重(背包问题)、括号序列、异或三角：：：非常典型的必刷例题！！！）

别忘了请点个赞收藏关注支持一下博主喵！！！! ! ! ! ！ 关注博主，更多蓝桥杯nice题目静待更新:) 动态规划三、括号序列【问题描述】给定一个括号序列，要求尽可能少地添加若干括号使得括号序列变得合…...

编程日记 2024/11/27 9:30:20

对于对话中的反讽识别，OpenClaw 的模型是否结合了语调特征？

关于OpenClaw模型在反讽识别中是否结合了语调特征，这个问题其实触及了当前自然语言处理中一个相当微妙的领域。从技术实现的角度来看，OpenClaw这类基于Transformer架构的大语言模型，其训练数据主要来源于互联网上的文本语料，比如网…...

编程新知 2026/3/29 23:03:07

5分钟集成Android条码扫描：Barcode Scanner库完全指南

5分钟集成Android条码扫描：Barcode Scanner库完全指南【免费下载链接】barcodescanner Barcode Scanner Libraries for Android 项目地址: https://gitcode.com/gh_mirrors/ba/barcodescanner 在移动应用开发中，条码扫描功能已成为许多应用的核心…...

编程新知 2026/3/29 22:57:06

如何快速实现分布式定时任务？Disque完整指南详解

如何快速实现分布式定时任务？Disque完整指南详解【免费下载链接】disque Disque is a distributed message broker 项目地址: https://gitcode.com/gh_mirrors/di/disque 分布式定时任务在现代应用中至关重要，而Disque作为Redis作者antirez开发的…...

编程新知 2026/3/29 20:48:10

SlopeCraft：Minecraft地图艺术创作的高效解决方案

SlopeCraft：Minecraft地图艺术创作的高效解决方案【免费下载链接】SlopeCraft Map Pixel Art Generator for Minecraft 项目地址: https://gitcode.com/gh_mirrors/sl/SlopeCraft 在Minecraft的方块世界中，将现实中的图像转化为立体地图艺术一直…...

编程新知 2026/3/29 20:46:10

Swagger2配置避坑指南：为什么你的Docket分组设置会导致api-docs 404？

Swagger2配置避坑指南：为什么你的Docket分组设置会导致api-docs 404？ 在RESTful API开发中，Swagger2作为API文档生成工具被广泛使用。但许多开发者在配置过程中都遇到过这样的问题：明明能正常访问swagger-ui.html页面，…...

编程新知 2026/3/29 19:15:35

CK3M多轴运动控制器实战：EtherCAT总线伺服系统从零配置全解析

1. CK3M控制器与EtherCAT系统初识第一次接触CK3M多轴运动控制器时，我完全被它强大的功能震撼到了。这款控制器就像工业自动化领域的"大脑"，能够同时协调多个伺服电机精准运动。而EtherCAT总线技术则是连接这个大脑与各个执行机构（…...

编程新知 2026/3/29 19:05:34

从DTC诊断码到ECU恢复：深入解析车载CAN总线的BUSOFF快慢恢复机制

从DTC诊断码到ECU恢复：车载CAN总线BUSOFF快慢恢复机制实战指南当CAN总线上的某个ECU因连续发送失败而触发BUSOFF状态时，整个车载网络的稳定性便面临严峻考验。作为汽车电子诊断工程师，我们常常需要在深夜的生产线上，面对闪烁的故…...

编程新知 2026/3/29 17:55:10

Swin Transformer生产部署与性能调优：从环境适配到架构优化的全周期解决方案

Swin Transformer生产部署与性能调优：从环境适配到架构优化的全周期解决方案【免费下载链接】Swin-Transformer This is an official implementation for "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows". 项目地址: http…...

编程新知 2026/3/29 17:33:07

STM32F103C8T6实战：在最小系统板上运行轻量级TranslateGemma

STM32F103C8T6实战：在最小系统板上运行轻量级TranslateGemma 1. 引言你有没有想过，在一块只有拇指大小的开发板上运行AI翻译模型？STM32F103C8T6最小系统板，这个通常用来控制LED灯、读取传感器的小家伙，现在居然能跑…...

编程新知 2026/3/29 16:54:30

PyTorch 2.8镜像多场景落地：从Diffusers文生视频到Transformers微调全流程

PyTorch 2.8镜像多场景落地：从Diffusers文生视频到Transformers微调全流程 1. 开箱即用的深度学习环境 PyTorch 2.8深度学习镜像基于RTX 4090D 24GB显卡和CUDA 12.4深度优化，为各类AI任务提供稳定高效的运行环境。这个镜像最吸引人的特点是它的"万…...

编程新知 2026/3/29 16:42:27

摘要总结

假设性查询

相关文章：