当前位置：首页 > news >正文

LLM - 使用 RAG (检索增强生成) 多路召回实现精准知识问答教程

news 2026/5/13 2:31:40

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/142629289

免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。

RAG

RAG (Retrieval-Augmented Generation，检索增强生成) 的多路召回，包括向量召回和本文召回，可用于精准知识问答，减轻大模型的幻觉问题，即：

并行：同时使用文本召回和向量召回，合计获得 TopN 个样本，再使用重排序的方式，获得 TopK 个样本，作为最终的召回文本。
串行：优先使用文本召回，召回 TopN 个样本，再使用向量排序，获得 TopK 个样本，作为最终的召回样本。

启动 Ollama 服务：

# 配置 HOST
export OLLAMA_HOST="0.0.0.0:11434"
# 配置 模型路径
export OLLAMA_MODELS="ollama_models"nohup ollama serve > nohup.ollama.out &

RAG 使用 LangChain 框架，参考：LangChain - Quickstart

LangChain 的相关依赖包，即：

pip install langchain
pip install beautifulsoup4
pip install faiss-cpu
pip install jiebapip install langchain-community
pip install langchain-huggingface
pip install rank_bm25
pip install langchain_openai

准备编码模型 BGE，即：

# https://huggingface.co/BAAI/bge-large-zh-v1.5
modelscope download --model BAAI/bge-large-zh-v1.5 --local_dir BAAI/bge-large-zh-v1.5

导入 LangChain 的相关 Python 包：

from typing import List
import jiebafrom langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import FAISS
from langchain.document_loaders import TextLoader
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.retrievers import BM25Retriever

使用 LangChain 读取外部文档 medical_data.txt，即：

loader = TextLoader('medical_data.txt')
documents = loader.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size = 500,chunk_overlap  = 0,length_function = len,separators=['\n']
)
docs = text_splitter.split_documents(documents)

其中 medical_data.txt (4999 条) 格式如下，已经组织成 question 与 answer 的内容：

# ...
{'question': '曲匹地尔片的用法用量', 'answer': '注意：同种药品可由于不同的包装规格有不同的用法或用量。本文只供参考。如果不确定，请参看药品随带的说明书或向医生询问。口服。一次50～100mg（1-2片），3次/日，或遵医嘱。'}
# ...

Docs 是 list 格式，单项如下：

metadata 信息源
page_content 信息内容

即：

Document(metadata={'source': 'medical_data.txt'}, page_content="{'question': '曲匹地尔片的用法用量', 'answer': '注意：同种药品可由于不同的包装规格有不同的用法或用量。本文只供参考。如果不确定，请参看药品随带的说明书或向医生询问。口服。一次50～100mg（1-2片），3次/日，或遵医嘱。'}")

Query 是文档中已经问题，即：

query = "请问锁骨骨折多久能干活?"

使用 BM25Retriever 构建检索器，选择 TopK=10 个文档，因为是中文，预处理使用 Jieba 分词，即：

def preprocessing_func(text: str) -> List[str]:return list(jieba.cut(text))
retriever = BM25Retriever.from_documents(docs, preprocess_func=preprocessing_func, k=10)
bm25_res = retriever.invoke(query)

BM25 算法的核心，在于利用词频(Term Frequency, TF) 和逆文档频率(Inverse Document Frequency, IDF) 衡量文档与查询之间的相关性，同时引入文档长度信息，来调整相关性的计算。

构建向量 Embeddings 库：

embeddings = HuggingFaceEmbeddings(model_name='llm/BAAI/bge-large-zh-v1.5', model_kwargs = {'device': 'cuda:1'})
db = FAISS.from_documents(docs, embeddings)

其中 5000 条向量，构建 embeddings 需要 1min 15s，CPU 执行。

获取向量召回：

vector_res = db.similarity_search(query, k=10)

使用 RRF 算法，进行多路召回合并，10+10=20 选取最优的 10 个召回，即：

def rrf(vector_results: List[str], text_results: List[str], k: int=10, m: int=60):"""使用 RRF 算法对两组检索结果进行重排序params:vector_results (list): 向量召回的结果列表, 每个元素是专利IDtext_results (list): 文本召回的结果列表, 每个元素是专利IDk(int): 排序后返回前k个m (int): 超参数return:重排序后的结果列表,每个元素是(文档ID, 融合分数)"""doc_scores = {}# 遍历两组结果,计算每个文档的融合分数for rank, doc_id in enumerate(vector_results):doc_scores[doc_id] = doc_scores.get(doc_id, 0) + 1 / (rank+m)for rank, doc_id in enumerate(text_results):doc_scores[doc_id] = doc_scores.get(doc_id, 0) + 1 / (rank+m)# 将结果按融合分数排序sorted_results = [d for d, _ in sorted(doc_scores.items(), key=lambda x: x[1], reverse=True)[:k]]return sorted_resultsvector_results = [i.page_content for i in vector_res]
text_results = [i.page_content for i in bm25_res]
rrf_res = rrf(vector_results, text_results)

RRF (Reciprocal Rank Fusion, 倒数排名融合) 算法将多个检索结果合并一个聚合列表，通过每个列表中每个项目的排名取倒数，即 1 除以排名，将倒数排名在所有列表中相加，得到每个项目的最终得分。

提示词工程：

prompt = '''
任务目标：根据检索出的文档回答用户问题
任务要求：1、不得脱离检索出的文档回答问题2、若检索出的文档不包含用户问题的答案，请回答我不知道用户问题：
{}检索出的文档：
{}
'''

使用 Ollama 服务进行大模型推理，注意需要使用长 Token 模型，即：

from langchain_community.llms import Ollama
model = Ollama(model="qwen-2_5-32b-max-context:latest")
print(f"[Info] rrf_res: {len(rrf_res)}")
full_prompt = prompt.format(query, ''.join(rrf_res))
# print(f"[Info] prompt: {full_prompt}")
res = model.invoke(full_prompt)  # RAG
print(f"[Info] response: {res}")res = model.invoke(query)  # 非 RAG
print(f"[Info] response: {res}")

RAG 的输出，与文档高度一致，即：

锁骨骨折的恢复时间一般在3个月左右。虽然骨折刚刚愈合时可以进行轻微的工作，但若涉及重体力劳动，则通常需要大约半年的时间才能重新开始，最少也需要4-5个月。过早地从事重体力工作有可能导致骨折处再次受伤。因此，在这期间避免过度负重活动是十分重要的，以确保锁骨能完全恢复并维持愈合效果。

非 RAG 的输出：

锁骨骨折的恢复时间取决于骨折的严重程度以及治疗方法。一般来说，轻微到中度的锁骨骨折可能需要大约6-8周的时间来初步愈合，在这段时间内，患者可能会被建议限制肩部和上肢的活动以促进骨折部位的稳定与修复。
但是，能否重新开始工作还依赖于具体工作的性质。如果工作不需要使用受伤的手臂或肩膀进行高强度劳动，则在几周后可能就可以慢慢恢复工作。然而，如果是需要手臂大力操作的工作，则可能需要等待3个月甚至更长时间才能安全地返回工作岗位，并且最好等到医生确认骨折完全愈合为止。
因此，在考虑重返岗位之前，应该咨询主治医师的意见，确保不会对康复过程造成负面影响或导致二次伤害。

参考：https://github.com/wyf3/llm_related

全部源码：

from typing import Listimport jieba
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.llms import Ollama
from langchain_community.retrievers import BM25Retriever
from langchain_community.vectorstores import FAISS
from langchain_huggingface import HuggingFaceEmbeddingsclass RagRetriever(object):"""RAG retriever"""def __init__(self):loader = TextLoader(db_path)documents = loader.load()text_splitter = RecursiveCharacterTextSplitter(chunk_size=500,chunk_overlap=0,length_function=len,separators=['\n'])docs = text_splitter.split_documents(documents)def preprocessing_func(text: str) -> List[str]:return list(jieba.cut(text))self.doc_retriever = BM25Retriever.from_documents(docs, preprocess_func=preprocessing_func, k=10)print("[Info] init doc done!")embeddings = HuggingFaceEmbeddings(model_name=bge_path,model_kwargs={'device': 'cuda:1'})self.db = FAISS.from_documents(docs, embeddings)print("[Info] init db done!")self.prompt = '''任务目标：根据检索出的文档回答用户问题任务要求：1、不得脱离检索出的文档回答问题2、若检索出的文档不包含用户问题的答案，请回答我不知道用户问题：{}检索出的文档：{}'''print("[Info] init all done!")@staticmethoddef rrf(vector_results: List[str], text_results: List[str], k: int = 10, m: int = 60):"""使用 RRF 算法对两组检索结果进行重排序params:vector_results (list): 向量召回的结果列表, 每个元素是专利IDtext_results (list): 文本召回的结果列表, 每个元素是专利IDk(int): 排序后返回前k个m (int): 超参数return:重排序后的结果列表,每个元素是(文档ID, 融合分数)"""doc_scores = {}# 遍历两组结果,计算每个文档的融合分数for rank, doc_id in enumerate(vector_results):doc_scores[doc_id] = doc_scores.get(doc_id, 0) + 1 / (rank + m)for rank, doc_id in enumerate(text_results):doc_scores[doc_id] = doc_scores.get(doc_id, 0) + 1 / (rank + m)# 将结果按融合分数排序sorted_results = [d for d, _ in sorted(doc_scores.items(), key=lambda x: x[1], reverse=True)[:k]]return sorted_resultsdef retrieve(self, query):bm25_res = self.doc_retriever.invoke(query)vector_res = self.db.similarity_search(query, k=10)vector_results = [i.page_content for i in vector_res]text_results = [i.page_content for i in bm25_res]rrf_res = self.rrf(vector_results, text_results)model = Ollama(model="qwen-2_5-32b-max-context:latest")print(f"[Info] rrf_res: {len(rrf_res)}")full_prompt = self.prompt.format(query, ''.join(rrf_res))# print(f"[Info] prompt: {full_prompt}")res1 = model.invoke(full_prompt)print(f"[Info] rag response: {res1}")res2 = model.invoke(query)print(f"[Info] n-rag response: {res2}")return res1, res2def main():query = "请问锁骨骨折多久能干活?"rr = RagRetriever()rr.retrieve(query)if __name__ == '__main__':main()

LLM - 使用 RAG (检索增强生成) 多路召回实现精准知识问答教程

欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/142629289 免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。 RAG (R…...

编程日记 2024/9/29 13:57:39

编程语言图书创作要注意的事情有哪些？

编程语言图书的创作是一项复杂且具有挑战性的任务，需要作者深入理解技术、清晰表达，并考虑读者的学习体验。一本优秀的编程书籍不仅能够教授技术知识，更能引导读者逐步深入，激发他们的思考和实际应用能力。以下将详细探讨编程语言…...

编程日记 2024/9/29 13:56:37

主流高级编程语言的推出时间及年份

1.下表一些主流高级编程语言的推出时间及年份： 高级语言推出时间岁数 FORTRAN 1957 67 LISP 1959 65 COBOL 1961 63 BASIC 1964 60 Pascal 1970 54 C 1972 52 MATLAB 1978 46 SQL 1978 46 Objective-C 1983 41 C 1983 41 Perl …...

编程日记 2024/9/29 13:54:35

qt 模仿简易的软狗实现

我们在写软件的时候，希望我们的软件只在固定的机器上运行，其他机器上运行不了，那我们应该如何做呢？ 1 首先我们需要得到运行机器的mac地址，这样可以简易的判断是否是我们授权的机器。那我们首先定义一个授权mac机器…...

编程日记 2024/9/29 13:53:34

荣业食品销售费用每年上亿元：主要产品收入大降，电商占比过低

《港湾商业观察》黄懿今年3月，广东荣业食品有限公司的控股公司Wing Yip Food Holdings Group Limited（下称“荣业食品”）向美国SEC递交了纳斯达克上市申请。据悉，2023年11月，商务部宣布移除了一批共计55家因长期经…...

编程日记 2024/9/29 13:52:33

数据结构：并查集

数据结构：并查集并查集原理实现框架初始化合并查询获取成员路径压缩其它总代码并查集在生活中，经常会出现分组问题。比如一个班级分为多个小组，打篮球分为两方等等。在同一个组中的所有成员，就构成一个集合。对这种一个群体分…...

编程日记 2024/9/29 13:51:32

微信小程序实战教程：轻松实现列表批量选择功能

在许多场景下，用户需要对列表中的多项内容进行操作，如批量删除、批量下载等。为了满足这一需求，我们需要在微信小程序中实现列表批量选择功能。具体要求如下： 用户可以逐个选择列表项，也可通过全选按钮快速选择所有列表…...

编程日记 2024/9/29 13:48:27

企业微信：开启客户联系和配置

前言客户联系是企业微信的一项非常实用且自定义化配置丰富的功能，使企业内的授权员工可以添加外部客户（企业微信联系人和微信联系人）进行工作沟通，并且还可以建立客户群，甚至发表内容到客户朋友圈！ 由于功…...

编程日记 2024/9/29 13:46:25

Python发送邮件教程：如何实现自动化发信？

Python发送邮件有哪些方法？如何利用python发送邮件？ 无论是工作汇报、客户通知还是个人提醒，邮件都能快速传递信息。Python发送邮件的自动化功能就显得尤为重要。AokSend将详细介绍如何使用Python发送邮件，实现自动化发信&#x…...

编程日记 2024/9/29 13:44:23

一周热门｜苏姿丰：芯片行业不能只盯着 GPU；Gartner：GenAI 即将越过期望膨胀期

大模型周报将从【企业动态】【技术前瞻】【政策法规】【专家观点】四部分，带你快速跟进大模型行业热门动态。 01 企业动态 Open AI 计划从非营利组织向营利组织转型日前，路透社报道称，OpenAI 正在制定一项计划，将其核心业务重…...

编程日记 2024/9/29 13:43:22

Failed to load WebView provider: No WebView installed

1、问题使用webview加载网页，在应用运行时，报了如下错误：android.webkit.WebViewFactory$MissingWebViewPackageException: Failed to load WebView provider: No WebView installed2、分析通过查看项目的修改记录，确实安装了We…...

编程日记 2024/9/29 13:35:13

java日志框架之Log4j

文章目录一、Log4j简介二、Log4j组件介绍1、Loggers (日志记录器)2、Appenders（输出控制器）3、Layout（日志格式化器） 三、Log4j快速入门四、Log4j自定义配置文件输出日志1、输出到控制台2、输出到文件3、输出到数据库五、Log4j自…...

编程日记 2024/9/29 13:34:11

C++ bitset（位图）的模拟实现

文章目录一、bitset接口总览二、bitset模拟实现1. 构造函数2. set、reset、flip、test3. size、count4. any、none、all5. 打印函数三、完整代码一、bitset接口总览成员函数功能set设置指定位或所有位为1（即设置为“已设置”状态）reset清空指定位或…...

编程日记 2024/9/29 13:33:10

Llama 3.2：利用开放、可定制的模型实现边缘人工智能和视觉革命

在我们发布 Llama 3.1 模型群后的两个月内，包括 405B - 第一个开放的前沿级人工智能模型在内，它们所产生的影响令我们兴奋不已。虽然这些模型非常强大，但我们也认识到，使用它们进行构建需要大量的计算资源和专业知识。我们也听到…...

编程日记 2024/9/29 13:32:08

解决R语言bug ‘sh‘ is not recognized as an internal or external command

安装源码包‘httr2’ trying URL ‘https://cran.rstudio.com/src/contrib/httr2_1.0.5.tar.gz’ Content type ‘application/x-gzip’ length 230632 bytes (225 KB) downloaded 225 KB installing source package ‘httr2’ … ** package ‘httr2’ successfully unpacked…...

编程日记 2024/9/29 13:31:06

记一次Mac 匪夷所思终端常用网络命令恢复记录

一天莫名奇妙发现ping dig 等基础命令都无法正常使用。还好能浏览器能正常访问，，，， 赶紧拿baidu试试^-^ ; <<>> DiG 9.10.6 <<>> baidu.com ;; global options: cmd ;; connection timed out; no serve…...

编程日记 2024/9/29 13:30:04

2024最新！！Java后端面试题（4）看这一篇就够了！！！！

七、异常 throw 和 throws 的区别？ throw用来显式地抛出一个异常，而throws则用于在方法声明中指明该方法可能抛出的异常。简单来说，throw是抛出异常的实际动作，throws是告知调用者这个方法可能会抛出哪些异常的声明。 final、f…...

编程日记 2024/9/29 13:29:03

springboot整合sentinel和对feign熔断降级

一、准备 docker安装好sentinel-dashboard（sentinel控制台），参考docker安装好各个组件的命令启动sentinel-dashboard，我的虚拟机ip为192.168.200.131，sentinel-dashboard的端口为8858 二、整合sentinel的主要工作在…...

编程日记 2024/9/29 13:25:57

遗传算法与深度学习实战——使用进化策略实现EvoLisa

遗传算法与深度学习实战——使用进化策略实现EvoLisa 0. 前言1. 使用进化策略实现 EvoLisa2. 运行结果相关链接 0. 前言我们已经学习了进化策略 (Evolutionary Strategies, ES) 的基本原理，并且尝试使用 ES 解决了函数逼近问题。函数逼近是一个很好的基准问题&…...

编程日记 2024/9/29 13:23:54

HttpServletRequest简介

HttpServletRequest是什么？ HttpServletRequest是一个接口，其父接口是ServletRequest；HttpServletRequest是Tomcat将请求报文转换封装而来的对象，在Tomcat调用service方法时传入；HttpServletRequest代表客户端发来的请…...

编程日记 2024/9/29 13:21:51

Arm Forge工具在高性能计算中的性能分析与优化实践

1. Arm Forge性能分析工具概述高性能计算(HPC)领域的开发者们经常面临一个共同挑战：如何从复杂的并行程序中榨取出最后一点性能潜力。Arm Forge作为一套专业的性能分析工具链，为这个难题提供了系统化的解决方案。我在多个超算中心的实际调优工作中发现&a…...

编程新知 2026/5/13 2:30:05

在新磁盘挂载点/data安装codex

实例是 Oracle Cloud Always Free VM.Standard.E2.1.Micro Linux, /data 目录。 Codex CLI 官方支持用 npm 安装：npm i -g openai/codex，首次运行需要登录 ChatGPT 或配置 API key； 建议：Codex 安装到 /data；bubblewr…...

编程新知 2026/5/13 0:38:29

基于MCP协议与FFmpeg构建AI视频处理服务器：原理、部署与实战

1. 项目概述：一个面向视频处理的MCP服务器最近在折腾一些AI应用，发现很多工具在处理视频内容时，总感觉差了那么一口气。要么是功能太单一，只能做简单的剪辑或转码；要么就是流程太复杂，需要把视频下载、处…...

编程新知 2026/5/13 0:22:22

Docker 的了解和使用

1. 虚拟化全虚拟化：虚拟机的操作系统可以和宿主机的操作系统完全不同。os层虚拟化：操作内核相同，软件虚拟化。2. docker安装 Docker容器本质上是Linux容器，它需要Linux内核环境才能运行。在Windows上直接运行Docker，需…...

编程新知 2026/5/13 0:12:12

5个简单步骤实现iOS虚拟定位：iFakeLocation终极解决方案

5个简单步骤实现iOS虚拟定位：iFakeLocation终极解决方案【免费下载链接】iFakeLocation Simulate locations on iOS devices on Windows, Mac and Ubuntu. 项目地址: https://gitcode.com/gh_mirrors/if/iFakeLocation 你是否曾经需要在不同城市测试应用的位…...

编程新知 2026/5/12 23:55:27

抖音下载器终极指南：3分钟实现无水印批量下载的高效解决方案

抖音下载器终极指南：3分钟实现无水印批量下载的高效解决方案【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback…...

编程新知 2026/5/12 23:16:47

告别网盘限速烦恼！九大平台直链下载助手让你的文件下载飞起来

告别网盘限速烦恼！九大平台直链下载助手让你的文件下载飞起来【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘…...

编程新知 2026/5/12 23:16:11

企业采购AI升级：需求驱动的智能供应商匹配实战

工业数字化与 AI 技术深度融合的当下，传统采购招标模式的短板愈发凸显。众多 Java 架构的企业采购系统仍停留在人工化、经验化运营阶段，供应商管理效率低、匹配精准度不足、人力成本居高不下。依托JBoltAI企业级 Java AI 应用开发框架所倡导的 AIGS 人工…...

编程新知 2026/5/12 23:09:51

免费LLM API实战指南：从选型到架构的完整解决方案

1. 项目概述：一份免费LLM API的实用指南如果你正在开发AI应用，或者只是想低成本地体验各种大语言模型，那么“API调用成本”绝对是一个绕不开的痛点。无论是OpenAI还是Anthropic，按Token计费的模式在频繁调用下，账单数…...

编程新知 2026/5/12 23:05:48

Windows 10 PL2303驱动修复终极指南：3种方案解决串口设备兼容性问题

Windows 10 PL2303驱动修复终极指南：3种方案解决串口设备兼容性问题【免费下载链接】pl2303-win10 Windows 10 driver for end-of-life PL-2303 chipsets. 项目地址: https://gitcode.com/gh_mirrors/pl/pl2303-win10 PL2303驱动修复方案是解决Windows 10系…...

编程新知 2026/5/12 21:24:30

相关文章：