当前位置: 首页 > article >正文

端到端 RAG 实战:用 LangChain 搭建 PDF 问答系统

一、今天要做什么前 6 天我们逐一学习了 RAG 的每个核心组件Day01RAG 整体架构Day02文本分块ChunkingDay03Embedding 模型Day04向量数据库Day05检索策略Day06提示词工程今天把它们全部串联起来从零搭建一个可以本地运行的 PDF 问答系统。二、系统架构设计完整代码约 150 行包含错误处理和日志输出。三、环境准备pip install langchain langchain-openai langchain-community \ chromadb pymupdf rank_bm25 python-dotenv创建.env文件OPENAI_API_KEYyour_api_key_here四、完整实现代码4.1 文档加载与预处理# rag_pdf_qa.pyimport osfrom pathlib import Pathfrom dotenv import load_dotenvload_dotenv()# 1. 文档加载 from langchain_community.document_loaders import PyMuPDFLoaderdef load_documents(pdf_path: str) - list: 加载 PDF 文档返回页面列表 loader PyMuPDFLoader(pdf_path) docs loader.load() print(f✅ 加载文档{pdf_path}共 {len(docs)} 页) return docs4.2 文本分块# 2. 文本分块 from langchain.text_splitter import RecursiveCharacterTextSplitterdef split_documents(docs: list) - list: 将文档分割为适合检索的小块 splitter RecursiveCharacterTextSplitter( chunk_size500, chunk_overlap50, separators[\n\n, \n, 。, , , ., , ] ) chunks splitter.split_documents(docs) # 为每个块添加来源元数据 for i, chunk inenumerate(chunks): chunk.metadata[chunk_id] i chunk.metadata[chunk_total] len(chunks) print(f✅ 分块完成{len(chunks)} 个文本块f平均长度 {sum(len(c.page_content) for c in chunks)//len(chunks)} 字) return chunks4.3 向量化与存储# 3 4. 向量化与向量数据库 from langchain_openai import OpenAIEmbeddingsfrom langchain_community.vectorstores import Chromadef build_vectorstore(chunks: list, persist_dir: str ./chroma_db) - Chroma: 构建向量索引如已存在则加载 embeddings OpenAIEmbeddings(modeltext-embedding-3-small) if Path(persist_dir).exists(): print(f✅ 加载已有向量库{persist_dir}) vectorstore Chroma( persist_directorypersist_dir, embedding_functionembeddings ) else: print(f⏳ 构建向量库首次运行需要调用 Embedding API...) vectorstore Chroma.from_documents( documentschunks, embeddingembeddings, persist_directorypersist_dir ) print(f✅ 向量库构建完成已持久化到 {persist_dir}) return vectorstore4.4 混合检索器# 5. 混合检索 from langchain.retrievers import EnsembleRetrieverfrom langchain_community.retrievers import BM25Retrieverdef build_hybrid_retriever(chunks: list, vectorstore: Chroma) - EnsembleRetriever: 构建混合检索器向量 BM25 # 向量检索器 vector_retriever vectorstore.as_retriever( search_typemmr, # 使用 MMR 保证结果多样性 search_kwargs{k: 5, fetch_k: 20, lambda_mult: 0.7} ) # BM25 关键词检索器 bm25_retriever BM25Retriever.from_documents(chunks) bm25_retriever.k 5 # 混合检索器6:4 权重 ensemble EnsembleRetriever( retrievers[vector_retriever, bm25_retriever], weights[0.6, 0.4] ) print(✅ 混合检索器构建完成向量 60% BM25 40%) return ensemble4.5 提示词模板# 6. 提示词构建 from langchain_core.prompts import ChatPromptTemplateSYSTEM_PROMPT 你是一位严谨的文档问答助手。## 规则1. **只**基于下方参考资料中的内容回答2. 每个关键信息后用 [文档X 第Y页] 格式标注来源3. 若参考资料不足以回答明确说「根据现有资料无法回答此问题。」4. 禁止使用训练知识补充答案5. 使用清晰的 Markdown 格式输出USER_TEMPLATE ## 参考资料{context}---## 问题{question}prompt ChatPromptTemplate.from_messages([ (system, SYSTEM_PROMPT), (human, USER_TEMPLATE)])def format_docs(docs: list) - str:格式化检索结果为结构化上下文 # 按相关性重排首尾放最相关避免 Lost-in-the-Middle reordered [] for i, doc inenumerate(docs): if i % 2 0: reordered.append(doc) else: reordered.insert(0, doc) formatted [] for i, doc inenumerate(reordered, 1): source Path(doc.metadata.get(source, 未知)).name page doc.metadata.get(page, ?) formatted.append(f[文档{i} 第{page}页 | {source}]\n{doc.page_content} ) return\n\n---\n\n.join(formatted)4.6 LLM 生成与完整链路# 7. 生成与完整 Chain from langchain_openai import ChatOpenAIfrom langchain_core.output_parsers import StrOutputParserfrom langchain_core.runnables import RunnablePassthroughdef build_rag_chain(retriever, prompt): 构建完整 RAG 链路 llm ChatOpenAI(modelgpt-4o-mini, temperature0) chain ( {context: retriever | format_docs,question: RunnablePassthrough() } | prompt | llm | StrOutputParser() ) return chain4.7 主程序入口# 主程序 def main(): import sys # 默认使用示例 PDF也可以通过命令行参数指定 pdf_path sys.argv[1] if len(sys.argv) 1 else sample.pdf if not Path(pdf_path).exists(): print(f❌ 文件不存在{pdf_path}) print(请提供一个 PDF 文件路径例如python rag_pdf_qa.py my_doc.pdf) return print( * 50) print( RAG PDF 问答系统启动) print( * 50) # 构建索引首次运行约需 1~2 分钟 docs load_documents(pdf_path) chunks split_documents(docs) vectorstore build_vectorstore(chunks) retriever build_hybrid_retriever(chunks, vectorstore) rag_chain build_rag_chain(retriever, prompt) print(\n✅ 系统就绪输入问题开始问答输入 quit 退出\n) while True: question input(❓ 请输入问题).strip() if question.lower() in (quit, exit, q): print( 再见) break if not question: continue print(\n⏳ 检索与生成中...\n) answer rag_chain.invoke(question) print(f 回答\n{answer}\n) print(- * 50) if __name__ __main__: main()五、运行效果示例假设 PDF 是一份《RAG 技术白皮书》运行效果如下 RAG PDF 问答系统启动✅ 加载文档rag_whitepaper.pdf共 32 页✅ 分块完成186 个文本块平均长度 412 字✅ 向量库构建完成已持久化到 ./chroma_db✅ 混合检索器构建完成向量 60% BM25 40%✅ 系统就绪输入问题开始问答输入 quit 退出❓ 请输入问题RAG 和微调的区别是什么⏳ 检索与生成中... 回答RAG 和微调的主要区别体现在以下几个维度**知识更新方式**- RAG 通过更新外部知识库实现实时知识更新无需重新训练模型 [文档1 第5页]- 微调需要重新训练模型参数周期较长通常数天到数周[文档3 第12页]**成本对比**- RAG 主要成本为向量存储和检索计算远低于微调所需的 GPU 资源 [文档2 第8页]六、进阶优化方向系统跑通之后可以继续优化优化方向具体方法预期效果提升检索精度加入重排序模型Day09 会讲15~20% 精度优化分块改用父子分块Day02更完整上下文查询改写自动扩展用户问题Day0810% 召回率流式输出rag_chain.stream(question)更好的用户体验多文档支持支持文件夹批量加载扩大知识库规模对话历史加入 Chat History 支持多轮对话支持追问七、第一阶段总结至此RAG 第一阶段基础认知圆满结束回顾 7 天的学习Day01 → RAG 是什么架构全景Day02 → 文本分块Chunking 策略Day03 → Embedding 模型向量化Day04 → 向量数据库存储与检索Day05 → 检索策略BM25/向量/混合Day06 → 提示词工程防幻觉Day07 → 端到端实战本地 PDF 问答下周预告进阶优化阶段Day08查询改写——HyDE、多查询扩展Day09重排序——Cross-Encoder 精排Day10RAG 评估体系——RAGAS 框架知识点索引#知识点说明1PyMuPDF高性能 PDF 解析库支持文字、图表、表格提取2LangChainLLM 应用开发框架提供完整 RAG 工具链3LCELLangChain Expression Language链式组合语法 4RunnablePassthroughLangChain 中透传用户输入的组件5Chroma PersistChroma 向量库持久化避免重复构建索引6MMR Retrieval最大边际相关性检索保证结果多样性7StrOutputParser将 LLM 输出解析为纯字符串8StreamOutput流式输出逐 token 返回提升用户体验学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

端到端 RAG 实战:用 LangChain 搭建 PDF 问答系统

一、今天要做什么 前 6 天我们逐一学习了 RAG 的每个核心组件: Day01:RAG 整体架构Day02:文本分块(Chunking)Day03:Embedding 模型Day04:向量数据库Day05:检索策略Day06&#xff1…...

海报颜色选择指南:选对色彩,让海报更具吸引力

色彩是海报视觉传达的核心要素,比文字、图形更能快速抓住受众目光,传递情绪与信息。选对海报颜色,不仅能提升整体设计质感,还能强化信息传递效率,让海报在众多视觉素材中脱颖而出;反之,色彩搭配…...

C语言的发展及其版本

如果您是一名入门学者,或者您还不理解什么是编程语言,请查看:什么是编程语言。 如果您之前未接触任何编程语言,或者您不理解为什么学习C语言,请查看:为什么C语言是首选。 C语言于1972年11月问世&#xff0c…...

国产化迁移笔记:在龙芯/飞腾的银河麒麟V10中,为OpenJDK 8补全Icedtea-netx插件全记录

国产化迁移实战:在银河麒麟V10中为OpenJDK 8补全Icedtea-netx插件全流程解析 当企业级应用从传统x86架构向国产化平台迁移时,Java Web Start技术的兼容性问题往往成为拦路虎。最近在将某金融系统迁移到龙芯3A5000平台时,我们遇到了一个典型场…...

运放稳定性分析:电阻电容组合对波特图零点极点的影响

1. 从洗澡水温度理解波特图与零极点 想象一下你正在调节淋浴的水温。刚开始转动混水阀时,水温变化很快,但随着接近舒适温度,变化速度会逐渐放缓。这个过程中有两个关键点:一个是水温开始变化的起始点(类似零点&#xf…...

从SAD到SGBM:双目立体视觉核心匹配算法演进与实战解析

1. 双目立体视觉的基石:为什么需要匹配算法? 第一次接触双目立体视觉时,我盯着左右两个摄像头拍摄的画面看了半天也没想明白:明明是两个普通2D图像,怎么就能变出深度信息?后来才发现,这个魔术的…...

别再只用Image Asset了!Android Studio图标生成的隐藏技巧与实战避坑

别再只用Image Asset了!Android Studio图标生成的隐藏技巧与实战避坑 在安卓应用开发中,图标作为用户对产品的第一印象,其适配质量直接影响应用的专业度和用户体验。虽然Android Studio的Image Asset工具简化了图标生成流程,但许多…...

幻境·流金入门必看:DiffSynth-Studio+玄金美学环境搭建详解

幻境流金入门必看:DiffSynth-Studio玄金美学环境搭建详解 “流光瞬息,影画幻成。” 你是否曾幻想过,只需输入一段文字描述,就能在十几秒内获得一张细节丰富、质感堪比电影画面的高清图像?这听起来像是科幻电影里的场景…...

ANSYS面载荷施加避坑指南:SFL、SFA、SFE命令的区别与SFFRAN转换时机

ANSYS面载荷施加避坑指南:SFL、SFA、SFE命令的区别与SFFRAN转换时机 在ANSYS结构分析中,面载荷的施加是建模过程中最容易出现问题的环节之一。许多工程师虽然掌握了基本命令语法,但在实际应用中常常遇到载荷显示异常、计算结果不符预期等问题…...

Qwen3-32B智能问答系统搭建:基于API的快速开发指南

Qwen3-32B智能问答系统搭建:基于API的快速开发指南 1. 环境准备与快速部署 在开始使用Qwen3-32B构建智能问答系统前,我们需要完成基础环境准备。Qwen3-32B作为320亿参数的大型语言模型,其API调用方式既简单又高效。 1.1 获取API访问凭证 …...

Matlab 2023b最新版安装指南:从下载到激活的完整流程(附百度网盘资源)

MATLAB 2023b 高效安装与配置全攻略:工程师的实战手册 在科研计算与工程仿真领域,MATLAB始终保持着不可替代的地位。2023b版本带来的性能优化和新工具箱让数据处理效率提升显著——根据MathWorks官方测试报告,矩阵运算速度比前代提升23%&…...

SLAM从未消失,只是在各产业中悄悄完成「位置下沉、角色重组」

对未来SLAM形态的核心判断下沉为底层基础能力:未来SLAM不会以完整独立模块存在,其核心能力将拆解融入定位、建图等各环节,实现底层下沉。混合式系统成主流选择:纯几何方法在可解释性、效率和稳定性上仍有优势,而融合多…...

单元选择与精度权衡:ANSYS多单元模型求解悬臂梁均布载荷对比分析

1. 为什么我们需要关注单元选择? 第一次用ANSYS做悬臂梁分析时,我犯了个典型错误——随手选了三维实体单元。结果计算耗时长达2小时,而隔壁工位用梁单元5分钟就搞定了,关键是他的结果反而更接近理论值!这个教训让我深刻…...

测试数据治理趋势:合规与效率平衡

在数字化浪潮席卷各行各业的今天,软件测试已远非仅仅是寻找程序缺陷的活动。它正深度融入产品的全生命周期,而驱动高质量测试的核心燃料——测试数据——其治理水平直接决定了测试的广度、深度与可信度。对于广大软件测试从业者而言,我们正站…...

从编译到心跳:手把手搞定libwebsockets v4.0的WSS加密连接与保活机制

从编译到心跳:手把手搞定libwebsockets v4.0的WSS加密连接与保活机制 在物联网和实时通信领域,WebSocket协议因其全双工通信特性成为长连接场景的首选方案。而libwebsockets作为轻量级C库,凭借其跨平台能力和对嵌入式环境的友好支持&#xff…...

从医疗到自动驾驶:SOTA技术如何改变5大行业的游戏规则(2025最新案例)

从医疗到自动驾驶:SOTA技术如何改变5大行业的游戏规则(2025最新案例) 当一家三甲医院的放射科主任第一次看到AI系统在3秒内完成300张肺部CT的病灶标注时,他意识到传统的阅片流程将被彻底改写。这不是科幻场景,而是2025…...

多轮任务型对话驱动的虚拟员工核心代码 带完整的搭建部署教程

温馨提示:文末有资源获取方式最近圈子里有个东西特别火,到处都在说。但说实话,普通人想真正用起来,门槛还是挺高的——要懂代码、要配置环境、还要养着它,一个月光消耗成本少则一两百,多则上千。很多人跟风…...

【GPU存储架构与CUDA编程实战】从寄存器到显存:性能调优的存储层次全景解析

1. GPU存储架构全景解析:从寄存器到显存的性能金字塔 第一次接触CUDA编程时,我对着kernel函数里各种内存修饰符发懵——shared、__constant__这些下划线开头的关键字到底有什么区别?直到亲眼看到把变量从寄存器挪到共享内存后,计算…...

PLM系统在环保合规设计中的关键作用与实施路径

1. 环保合规设计的行业挑战与PLM解决方案价值在电子产品和汽车制造业,材料合规管理已成为产品设计的核心环节。过去五年间,全球新增了47项与有害物质管控相关的法规,其中中国RoHS 2.0和欧盟REACH法规的更新频率达到每年2-3次。某国际汽车零部…...

3个三极管+LED就能搞定?手把手教你DIY电线断点检测神器(附电路图)

电子爱好者必备:零基础打造高灵敏度电线断点检测器 电线断点检测是每个电子爱好者和家庭维修达人都可能遇到的棘手问题。想象一下,当你面对一捆杂乱的电线,需要快速定位其中哪一段出现了断路,传统的万用表检测方式不仅效率低下&am…...

揭秘高质量代码训练数据构建全流程:从GitHub噪声过滤到AST语义对齐的7个关键决策点

第一章:智能代码生成训练数据构建 2026奇点智能技术大会(https://ml-summit.org) 高质量、结构化、语义丰富的训练数据是智能代码生成模型性能的基石。构建此类数据并非简单爬取开源仓库,而需系统性地完成清洗、标注、切分、对齐与质量验证等多阶段工程…...

实测 Claude Opus 4.6:三种接入方式、重构能力拆解与避坑总结

上周团队在做一个自动化重构工具,需要模型能理解大段遗留代码并给出重构方案。我先用 GPT-5 跑了一轮,生成的代码能跑但结构比较平庸;换 DeepSeek V3 试了下,中文理解不错但复杂逻辑偶尔会断。最后同事甩给我一句「你试试 Claude …...

用JoinQuant写你的第一个量化策略:从Python零基础到跑通回测(附完整代码)

用JoinQuant写你的第一个量化策略:从Python零基础到跑通回测(附完整代码) 第一次听说量化交易时,很多人脑海中会浮现出华尔街精英对着六个屏幕同时操作的画面。但事实上,随着像JoinQuant这样的在线量化平台出现&#x…...

1TB流量可支撑多少订单数据

要预估 1TB 网络流量能支撑多少订单数据量,核心在于分析单个订单请求的平均数据流量,然后进行除法计算。这是一个典型的系统容量与资源估算问题,涉及对请求链路、数据格式和压缩情况的深入分析 。 问题解构与核心变量 此问题的答案并非固定…...

【FPGA】Vivado综合进程异常终止(PID Not Specified)排查与修复指南

1. 遇到Vivado综合进程异常终止怎么办? 最近在调试FPGA项目时,遇到了一个让人头疼的问题:每次点击"Run Synthesis"按钮后,Vivado就会莫名其妙地卡死。刚开始我还以为是综合时间太长,但等了半小时发现进度条纹…...

职业发展故事:测试专家成长访谈

在快速迭代的科技浪潮中,软件测试已从一项辅助性工作,演变为保障产品质量、塑造用户体验乃至驱动业务决策的核心环节。测试专家的成长路径,不仅是个人的职业奋斗史,更映射了整个行业专业化、体系化的发展轨迹。我们聚焦于几位资深…...

WeChatExporter终极指南:如何在Mac上完整备份微信聊天记录

WeChatExporter终极指南:如何在Mac上完整备份微信聊天记录 【免费下载链接】WeChatExporter 一个可以快速导出、查看你的微信聊天记录的工具 项目地址: https://gitcode.com/gh_mirrors/wec/WeChatExporter 你是否曾经担心过手机丢失或更换时,那些…...

Spring AI与MCP协议整合实战:架构分析与关键技术

Spring AI与MCP协议整合实战:架构分析与关键技术 引言 随着人工智能技术的快速发展,AI系统与现有通信协议的整合成为提升行业应用的重要手段。Spring AI作为新一代智能平台框架,结合MCP(Minecraft Protocol)协议&#…...

(一)openEuler的安装和使用基础

一、官网下载openEuler镜像 1.进入官网,点击如图 2.点击所有版本 3.这里学习使用openEuler 22.03 LTS SP2,前往下载 4.选择自己主机用的架构,我这里是x86_64,下载标准版 二、搭建openEuler虚拟机 1.创建新的虚拟机 2.选择自定义…...

2025届必备的十大降重复率助手推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 通过降低AIGC率,也就是要减少文本里能被认定成是人工智能生成内容的一些特征。这…...