当前位置: 首页 > article >正文

大模型应用开发实战(7)——文档清洗、切分、入库、召回、重排、生成:完整 RAG 流程拆解

‍♂️ 个人主页小李同学_LSH的主页✍ 作者简介LLM学习者 希望大家多多支持我们一起进步如果文章对你有帮助的话欢迎评论 点赞 收藏 加关注目录一、RAG 不是一个点而是一条链二、文档清洗——别让垃圾进系统1. 什么叫文档清洗2. 文档清洗的本质3. 工程里要重点保留什么三、文本切分——为什么不能整篇直接入库1. 切分的目标2. 切分策略常见有三种按长度切按结构切按语义切3. 为什么要 overlap4. 切分不是越小越好四、入库——不只是存向量而是存“向量 元数据”1. 为什么只存向量不够2. 入库可以写成什么五、召回——先把“可能相关的”找出来1. 余弦相似度2. Top-K 召回3. 为什么召回不是最终答案第五步重排——从“可能相关”里再挑最好的1. 重排到底在做什么2. 为什么重排有效第六步生成——模型不是自己想而是“带资料作答”1. 生成阶段最核心的不是模型而是 prompt 组织2. 一个简化版生成目标这两年RAG 几乎已经成了大模型应用开发里最常见的一条技术路线。很多人第一次接触 RAG会把它理解成一句话“把文档喂给模型。”真正做过项目的人都知道RAG 的效果好不好通常不取决于“你有没有接一个向量库”而取决于整条链路有没有设计好。因为在真实项目里RAG 从来不是只有“检索”这一步它至少包含下面这几个关键环节文档清洗文本切分向量化与入库召回重排生成如果你把这条链路理解成一个流水线会更容易明白模型最后答得准不准往往不是生成阶段单独决定的而是前面每一步共同决定的。这篇文章我就按工程视角把一条完整的 RAG 流程彻底拆开。一、RAG 不是一个点而是一条链RAG 的本质不是“加一个知识库”而是在生成之前先从外部知识中检索出最相关的信息再把这些信息作为上下文交给模型生成答案。所以它天然分成两大阶段Retrieval先找到相关内容Generation再基于这些内容回答如果只写成最简公式可以这样表示答案不是只靠模型参数生成而是要条件化在外部文档上。阶段输入核心任务输出常见问题文档清洗原始文档去噪、去重、保留结构干净文本乱码、页眉页脚干扰、OCR 错误文本切分干净文本拆成适合检索的 chunkchunk 集合切太碎或切太大向量化与入库chunk生成 embedding并存储元数据向量索引只存向量不存来源信息召回用户问题从索引中粗筛相关片段Top-K 候选召回不准、噪声太多重排候选片段更精细地重新排序Top-N 高质量上下文相关但不关键的片段排在前面生成问题 上下文基于检索结果回答最终答案幻觉、引用错位、上下文污染二、文档清洗——别让垃圾进系统问题类型典型表现对 RAG 的影响常见处理方式页眉页脚重复每页都有相同标题、日期、公司名干扰 embedding召回噪声增加正则清理、模板去重OCR 错误字符识别错、断字、乱码语义失真检索失败OCR 后校正、人工抽样检查空白与换行混乱断句异常、段落碎裂切分后语义断裂标准化空格、合并异常换行表格被打散列对齐丢失模型难理解结构化信息表格单独解析、转 markdown重复内容同一段反复出现检索结果冗余去重、哈希检测标题层级丢失章节关系消失后续切分和来源展示变差保留标题、层级标签化很多人做 RAG 的第一反应是读文件切 chunk扔进向量库但如果原始文档本身很脏后面步骤做得再精细也会出问题。1. 什么叫文档清洗文档清洗的目标是把原始资料处理成适合后续切分和检索的文本形式。常见要处理的问题包括重复页眉页脚乱码空白行过多OCR 识别错误表格被打散标题层级丢失图片说明缺失HTML / PDF 解析噪声如果这些东西不清理后面向量化时模型会把很多没意义的信息也学进去结果就是召回不准chunk 语义断裂模型引用无关内容2. 文档清洗的本质文档清洗的本质可以理解成一个预处理函数这个阶段的目标不是让文本“更漂亮”而是让它更适合后续结构化处理。3. 工程里要重点保留什么清洗时最重要的不是删而是保住结构。尤其要尽量保住标题小节层级段落边界表格语义来源信息页码文档元数据因为这些结构后面都会影响切分、召回、重排甚至影响最终引用来源的可信度。三、文本切分——为什么不能整篇直接入库文档清洗后很多人会问既然已经是干净文本了为什么还要切分答案很简单因为检索和生成都不适合直接处理整篇长文。如果整篇都塞进去会有几个问题向量太粗语义平均化严重检索时很难命中真正相关的小段落上下文太长生成成本太高模型回答时容易引用无关内容所以必须切 chunk。切分方式做法优点缺点适用场景固定长度切分按字符数或 token 数切实现简单速度快容易切断语义快速原型、通用文本按段落切分以自然段为单位语义完整度较高长度不稳定文本结构较清晰的文档按标题/章节切分按文档结构切保留主题边界某些段可能过长手册、论文、技术文档语义切分根据语义边界切质量通常最好成本更高、实现复杂高质量知识库滑窗切分chunk 间保留 overlap缓解信息断裂冗余增加大多数生产 RAG1. 切分的目标文本切分本质上是在做把长文拆成“足够短但语义尽量完整”的小片段。设清洗后的文档为 x′切分后得到2. 切分策略常见有三种按长度切比如固定 500 字、1000 token 一段。优点是简单缺点是容易把语义切断。按结构切比如按标题、段落、章节、小节切。优点是语义完整性更强缺点是块大小可能不稳定。按语义切比如尽量让每个 chunk 保持一个完整主题。效果通常最好但实现更复杂。3. 为什么要 overlap参数偏小的影响偏大的影响一般建议chunk size语义不完整检索召回碎片化上下文太杂检索不精准先从 300–800 token 试chunk overlap信息断裂边界内容丢失冗余过高成本增加常见取 10%–20%Top-K 召回数容易漏掉关键信息噪声太多重排压力大先从 5–20 试Top-N 重排输出数上下文不足模型输入过长常见取 3–8很多系统在切分时会保留重叠区比如前后 chunk 重叠 50 到 100 个 token。原因很简单防止关键信息正好被切断。如果 chunk 写成那 overlap 相当于让相邻区间满足4. 切分不是越小越好这是很多人最容易踩的坑。chunk 太大召回不精准chunk 太小上下文不完整overlap 太少语义断裂overlap 太多冗余严重、成本升高所以切分本质上是在平衡两件事尽量完整”与“尽量可检索”之间的平衡点四、入库——不只是存向量而是存“向量 元数据”切完 chunk 以后下一步不是直接“存文本”而是先把它们变成向量。这些向量会被放进向量库里供后续召回使用。元数据字段作用为什么重要文档 ID标识来源文档便于追踪与去重文档名称展示来源回答引用更可信页码 / 段落号精确定位方便用户核对标题路径保留层级结构有助于后续重排和展示更新时间时间过滤避免引用过时内容权限标签访问控制企业场景常常必须有业务标签分类检索支持多知识库场景1. 为什么只存向量不够工程里绝对不能只存chunk 文本embedding 向量还必须存元数据比如文档名页码段落位置标题路径文件类型更新时间权限信息业务标签因为后面你做权限过滤来源展示时间筛选多文档聚合都离不开元数据。2. 入库可以写成什么你可以把一个入库单元理解成这个三元组才是一个完整的 RAG 索引单元。五、召回——先把“可能相关的”找出来当用户提出问题 q时系统首先要做的是把问题向量化去向量库里找最像的 chunk设问题向量为然后对每个候选 chunk 向量 vi 计算相似度1. 余弦相似度2. Top-K 召回最后取相似度最高的前 K个3. 为什么召回不是最终答案召回的目标只是把“可能相关”的先找出来。注意是“可能相关”不是“最适合直接喂给模型”。所以召回是一个高召回率优先的阶段它更像一个粗筛。这也是为什么很多系统到了这一步还不够需要下一层重排。第五步重排——从“可能相关”里再挑最好的很多 RAG 项目效果不佳不是因为没检索到而是因为召回回来的内容顺序不对或者前几条不够好。于是就需要重排器Reranker。1. 重排到底在做什么2. 为什么重排有效因为向量召回擅长的是“语义近似搜索”但它不一定最擅长细粒度判断这个 chunk 和问题到底是不是同一件事是不是只是词很像但意思不对多个 chunk 里哪个最适合直接回答而重排器更像是一个精筛器它会更细致地看query 和 chunk 的相关性回答价值语义匹配程度所以一个常见组合就是召回负责扩大候选范围重排负责压缩高质量上下文第六步生成——模型不是自己想而是“带资料作答”坑点典型现象根因解决思路不做清洗直接入库检索全是噪声原始文档太脏先做结构化清洗chunk 切太机械句子被腰斩只按长度切引入段落/标题/overlap只做召回不重排答案老引用错片段粗筛结果顺序不准增加 rerankmetadata 缺失无法标注来源入库字段太少保存页码、标题、文档名prompt 没约束模型胡编乱造生成阶段自由发挥明确“只基于上下文回答”Top-K 过大模型看了太多噪声召回结果过宽调小 K 或增加重排到了生成阶段才终于轮到大模型上场。但这里一定要记住RAG 里的生成不是自由发挥而是带着检索到的上下文回答。设最终选出的上下文为那生成过程可以写成1. 生成阶段最核心的不是模型而是 prompt 组织很多人做 RAG 只盯着召回模型向量库rerank 模型但生成阶段真正的关键常常是如何拼接上下文如何限制模型只基于文档回答如何让模型在不知道时明确说不知道如何要求它引用来源所以一个很常见的生成 Prompt 会包括system 角色说明context 文档片段用户问题输出格式要求2. 一个简化版生成目标可以把 RAG 生成阶段写成意思就是在给定问题 q和上下文 C的条件下找出最可能的答案。

相关文章:

大模型应用开发实战(7)——文档清洗、切分、入库、召回、重排、生成:完整 RAG 流程拆解

🤵‍♂️ 个人主页:小李同学_LSH的主页 ✍🏻 作者简介:LLM学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…...

python freezegun

## 聊聊 Python 里的 Mixer:一个不太起眼但很省事的工具 平时写代码,尤其是做测试或者快速搭建原型的时候,经常需要一堆假数据。比如用户的名字、邮箱、文章的标题和内容,或者订单的金额。自己手动编这些数据,写个循环…...

如何为Windows和Linux系统免费获取macOS风格的鼠标指针主题?

如何为Windows和Linux系统免费获取macOS风格的鼠标指针主题? 【免费下载链接】apple_cursor Free & Open source macOS Cursors. 项目地址: https://gitcode.com/gh_mirrors/ap/apple_cursor 厌倦了系统默认的单调鼠标指针?想要为你的桌面增添…...

如何使用C#调用Oracle存储过程_OracleCommand配置CommandType.StoredProcedure

OracleCommand.CommandType CommandType.StoredProcedure 生效的前提是:存储过程名与CommandText完全一致(含大小写、包名),参数名、方向、类型须与PL/SQL端严格匹配,且连接字符串必须包含UnicodeTrue以确保字符串正确…...

Speechless:如何快速免费备份微博内容到PDF的终极完整指南

Speechless:如何快速免费备份微博内容到PDF的终极完整指南 【免费下载链接】Speechless 把新浪微博的内容,导出成 PDF 文件进行备份的 Chrome Extension。 项目地址: https://gitcode.com/gh_mirrors/sp/Speechless 还在为微博内容随时可能消失而…...

CSS如何让多个元素在一行显示_灵活使用float属性

float让元素排成一行失败的核心原因是脱离文档流致父容器塌陷;需触发BFC(如overflow:hidden)、子元素设width、慎用clear:both位置、响应式中须重置float/clear。float让多个元素排成一行的典型失败场景直接给多个 div 加 float: left&#x…...

腾讯开源多模态RAG实战:从零构建企业级知识库,API集成全解析

1. WeKnora:腾讯开源的多模态RAG利器 第一次接触WeKnora时,我正为一个制造业客户头疼——他们堆积如山的设备手册、质检报告和培训视频,分散在PDF、Word甚至手机拍摄的图片里。传统方案要么只能处理文本,要么需要组合五六个工具才…...

当图像描述遇上ASR转录噪声:多模态Prompt鲁棒性加固指南(附GitHub Star 4.2k的PromptShield开源工具链实测)

第一章:当图像描述遇上ASR转录噪声:多模态Prompt鲁棒性加固指南(附GitHub Star 4.2k的PromptShield开源工具链实测) 2026奇点智能技术大会(https://ml-summit.org) 在视觉-语言联合推理场景中,图像描述模型&#xff…...

【python-sc2】从零到一:构建你的星际争霸2 AI智能体核心数据感知与决策模块

1. 初识python-sc2:你的星际2 AI开发起点 第一次接触python-sc2框架时,我完全被它简洁的API设计惊艳到了。这个基于Python的星际争霸2 AI开发库,让普通开发者也能轻松构建自己的游戏AI。想象一下,你写的代码能控制游戏中的单位进行…...

SITS2026独家披露:37个高价值多模态艺术Prompt模板(含中文语境优化版),覆盖国风/赛博朋克/生物机械等12大风格域

第一章:SITS2026多模态艺术Prompt工程全景图谱 2026奇点智能技术大会(https://ml-summit.org) 核心范式演进 SITS2026标志着Prompt工程从单模态文本指令迈向跨模态协同生成的质变节点。视觉、音频、3D几何与时空动作信号不再作为独立输出目标,而是通过…...

20个核心AI概念拆解:小白也能看懂的大模型世界,速收藏

本文用大白话拆解了20个AI核心概念,从神经网络、迁移学习等基础到Transformer架构、大模型(LLM)进阶,再到训练优化和应用推理等实战技巧。通过生动的比喻和实例,帮助读者理解AI底层逻辑,特别是大语言模型的…...

南洋理工大学发现“简单到离谱“的视频理解方法

流媒体视频理解听起来就像是个高深的技术问题,但实际上我们每个人都在日常生活中面对这样的挑战。比如当你正在看直播时,主播突然问你刚才发生了什么,你需要既记住之前看到的内容,又要关注当前正在发生的事情。这就是流媒体视频理…...

新加坡南洋理工大学重新定义AI助手:让电脑学会读懂你的文件习惯

这项由新加坡南洋理工大学S-Lab实验室领导的研究发表于2026年4月6日,论文编号为arXiv:2604.04901v1,为我们展现了一个令人兴趣盎然的未来图景:电脑助手不再只是被动地执行我们的指令,而是能够主动理解我们的工作习惯,像…...

浙江大学提出“少即是多“:让AI减少细节反而看得更清楚

这项由浙江大学国家CAD&CG重点实验室领导的研究发表于2026年4月的arXiv预印本平台(论文编号:arXiv:2604.04838v1),有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队在视觉语言模型(VLM)领域取…...

技术主管揭秘:AI 辅助开发工作流程,兼顾速度与软件可维护性!

核心思想:用文字思考,而非代码AI 擅长实现,但不擅长弄清楚你真正想要什么、发现你忘记明确的假设以及指出你对问题心理模型的错误,这是你的工作。我最有价值的转变是,将每个功能先视为思考问题,再视为实现问…...

借口的本质的庖丁解牛

它的本质是:一种为了维护“虚假自我形象”而构建的认知防火墙。借口是大脑为了保护自尊心(Ego)免受“我不够好”、“我失败了”这种痛苦真相的伤害,而临时编译的一段 错误处理逻辑 (Error Handling Logic) 。它将内部的“能力/意愿…...

如何加固SQL通信安全_启用SSL加密确保数据传输安全

启用 require_secure_transportON 后连接被拒,需确保客户端显式启用 SSL(如 --ssl-modeREQUIRED)、服务端 SSL 已正确配置(have_sslYES),并避免 localhost 走 socket;PostgreSQL 需用 hostssl 规…...

NextJS水合冲突:插件引发的服务端与客户端渲染不匹配问题解析

1. 什么是NextJS水合冲突? 当你使用NextJS开发应用时,可能会遇到这样的错误提示:"Hydration failed because the initial UI does not match what was rendered on the server"。这就是典型的水合冲突(Hydration Error&…...

如何在3分钟内掌握SourceGit:跨平台Git GUI客户端的完整入门指南

如何在3分钟内掌握SourceGit:跨平台Git GUI客户端的完整入门指南 【免费下载链接】sourcegit Windows/macOS/Linux GUI client for GIT users 项目地址: https://gitcode.com/gh_mirrors/so/sourcegit 还在为命令行Git的复杂性而烦恼吗?SourceGit…...

深入PX4Ctrl状态机:从AUTO_TAKEOFF到AUTO_HOVER,看无人机起飞背后的控制逻辑设计

深入PX4Ctrl状态机:从AUTO_TAKEOFF到AUTO_HOVER,看无人机起飞背后的控制逻辑设计 无人机自主起飞看似简单,实则蕴含精妙的状态机设计与控制逻辑。PX4Ctrl作为开源飞控中的核心模块,其状态机设计体现了工业级无人机控制系统的典型…...

思源宋体完整使用指南:7款免费中文宋体字体终极教程

思源宋体完整使用指南:7款免费中文宋体字体终极教程 【免费下载链接】source-han-serif-ttf Source Han Serif TTF 项目地址: https://gitcode.com/gh_mirrors/so/source-han-serif-ttf 还在为中文排版寻找高质量且完全免费的字体吗?思源宋体简体…...

基于simulink的12/8开关磁阻电机电流斩波、角度位置调速控制、模型预测电流、转矩控制仿真程序

基于simulink的12/8开关磁阻电机电流斩波、角度位置调速控制、模型预测电流、转矩控制仿真程序开磁阻电机这玩意儿在工业控制里算是个硬骨头,啃下来能解决不少实际问题。今天咱们直接上Simulink搞点实战,聊聊电流斩波这些经典玩法怎么在仿真里落地。先把…...

C#进阶-特性全知识点总结

前言:特性就像是给代码贴上的**“标签”或“注释”。但它不仅仅是给程序员看的注释,它还是给编译器或程序本身**看的。通过这些标签,你可以告诉程序:“这个方法已经过时了”或者“这个类在保存到数据库时叫另一个名字一什么是特性…...

图解UEFI启动时,PCIe的‘根’与‘桥’是如何长出来的(以EDK2代码为例)

从树根到枝叶:EDK2中PCIe拓扑结构的可视化构建指南 1. PCIe拓扑结构的生物学隐喻 想象一下,当你观察一棵大树的生长过程时,首先看到的是深埋地下的根系,它们为整棵树提供支撑和养分输送通道。PCIe子系统在计算机系统中的角色与这棵…...

07_NVIDIA Triton Java API:企业级高性能推理服务

NVIDIA Triton Java API:企业级高性能推理服务 摘要:NVIDIA Triton 是业界最先进的模型推理服务软件,支持多框架并发执行和动态批处理。本文深入解析 Triton 架构、Java API 的两种形态、TensorRT-LLM 后端集成,以及如何构建高性能…...

hph的构造详解 内部结构图

HPH身为核心液压组件,其具备的精密构造对设备运行效率与寿命有着直接的影响。从外壳所选用的材质,到内部流道的精心设计,其间的每个细节都蕴含着关键因素,都值得我们进行深入的拆解分析。 壳体材质怎么选 HPH壳体一般选用高强度球…...

QTTabBar终极语言设置指南:让Windows文件管理器说你的母语

QTTabBar终极语言设置指南:让Windows文件管理器说你的母语 【免费下载链接】qttabbar QTTabBar is a small tool that allows you to use tab multi label function in Windows Explorer. https://www.yuque.com/indiff/qttabbar 项目地址: https://gitcode.com/g…...

HPH的构造全解析

HPH身为一种至关重要的工程结构,其内部所具备的构造直接对设备的安全性以及运行效率起着决定性作用。对于从事相关领域工作的技术人员而言,透彻理解HPH的组成逻辑以及设计原理是极为关键的。本文会从核心部件、密封机制和安全设计这三个维度入手&#xf…...

别再手动摆石头了!用GeoScatter插件5分钟搞定Blender自然场景搭建(附植被预设库使用心得)

别再手动摆石头了!用GeoScatter插件5分钟搞定Blender自然场景搭建(附植被预设库使用心得) 自然场景搭建一直是3D艺术家们最头疼的环节之一。想象一下,你需要为一个游戏关卡创建一片茂密的森林,或者为建筑可视化项目设计…...

CLion与OpenSSL集成:从环境配置到MD5加密实战

1. 为什么要在CLion中集成OpenSSL 作为一个长期使用CLion进行C开发的程序员,我深刻体会到加密功能在现代软件开发中的重要性。无论是网络通信、数据存储还是用户认证,加密都是不可或缺的一环。OpenSSL作为业界广泛使用的加密工具库,提供了丰富…...