当前位置: 首页 > article >正文

RAG 实战:给 AI 接上私有知识库的完整方案

上一篇我们聊了 Agent 动态路由——任务交接时怎么把控流向。这次换个方向聊一个大家问得最多的问题怎么让 AI 能回答你自己公司的文档、产品手册、内部 Wiki你可能试过直接把文档塞进 System Prompt结果 token 超限了。你也可能试过 Fine-tuning但数据更新一次就得重新训练。两条路都走不通——这就是 RAG 存在的原因。RAG 是什么一句话类比RAGRetrieval-Augmented Generation 先检索再生成。类比RAG 就像开卷考试。模型本身是那个能写文章的学生知识库是那一堆参考书。考试时不靠死记硬背而是先翻书找到相关段落再用自己的理解写答案。没有 RAG 的 AI 是闭卷考——它只能答它训练时见过的内容。为什么不直接 Fine-tuning这是大家最常问的问题。Fine-tuning 训练的是「风格和能力」不是「知识」。维度RAGFine-tuning知识更新改向量库秒级生效重新训练几小时到几天成本低API 向量DB高GPU 算力幻觉风险可溯源能引用原文模型可能「记错」适用场景私有知识、频繁更新专业语气、特定格式输出结论知识库类需求首选 RAG想让模型说话更像你们品牌才考虑 Fine-tuning。RAG 完整流程拆解RAG 分两个阶段索引阶段离线和查询阶段在线。索引阶段一次性/更新时 文档 → 分块(Chunking) → 向量化(Embedding) → 存入向量数据库 查询阶段每次对话 用户提问 → 向量化 → 相似度检索 → 取出 Top-K 段落 → 拼进 Prompt → LLM 生成回答第一关文档分块Chunking分块策略直接决定检索质量但大多数人第一次都搞错了。固定长度分块最常见但有问题fromimport# 最常见写法按字符数切分1000# 每块最多1000字符200# 相邻块重叠200字符防止语义断裂\n\n\n。 ❌ 常见错误chunk_overlap0→ 一个完整句子被切成两半检索时两半都不完整模型无法理解✅ 正确做法chunk_overlap设为chunk_size的 10%-20%→ 语义完整相邻块有重叠保护语义分块效果更好稍复杂fromimportfromimport# 按语义相似度自动切分不按字符数硬切percentile# 超过85%相似度阈值才切分85# 输出的每个 chunk 语义上都是完整的✅ 语义分块在技术文档、法律合同这类强结构文本效果明显更好❌ 但速度更慢每次都要调用 Embedding适合离线批量处理第二关向量化EmbeddingEmbedding 是把文本变成一串数字向量语义相近的文本向量距离更近。类比把每段文字映射到一个 1536 维的空间里「苹果手机」和「iPhone」在这个空间里距离很近和「橙子」距离远。选 Embedding 模型# 方案AOpenAI text-embedding-3-small性价比最高推荐fromimporttext-embedding-3-small# 1536维比 ada-002 便宜5倍# modeltext-embedding-3-large, # 精度更高贵3倍一般用不到# 方案B本地模型零成本但精度稍差fromimportBAAI/bge-m3# 多语言中文效果好devicecpu# 测试一下两段近义句向量距离应该很小如何重置密码忘记密码怎么办# 这两个向量的余弦相似度应该 0.9关键原则索引时用什么 Embedding查询时必须用同一个——不能混用。向量数据库选型数据库适用场景特点Chroma本地开发、原型验证零配置纯 PythonQdrant生产环境推荐性能好支持过滤Pinecone云服务快速上线全托管按量付费pgvector已有 PostgreSQL不用新增基础设施# Chroma 本地版开发用fromimport./chroma_db# 本地持久化my_knowledge_base# Qdrant 生产版fromimportimporthttp://localhost:6333my_knowledge_base第三关检索策略大多数 RAG 系统检索效果差不是因为 Embedding 模型不好而是检索策略太简单。基础检索相似度搜索# 最基础返回最相似的4个chunk如何申请年假4# 带分数能看到每个 chunk 的相似度0-1越高越相关如何申请年假4forinprintf相似度: {score:.3f} | 内容: {doc.page_content[:50]}...进阶检索MMR最大边际相关性❌ 纯相似度搜索的问题Top-4 可能都是在说同一件事高度重复✅ MMR 在保证相关性的同时最大化结果多样性# MMR 检索相关 不重复如何申请年假4# 返回4个20# 先取20个候选再从中选4个最多样的0.7# 0最多样1最相关0.5-0.7 效果最好混合检索向量 关键词生产推荐fromimportfromimport# 关键词检索BM25对专有名词、型号特别有效4# 向量检索k4# 混合各取 50%0.50.5# 可调专有名词多时提高 BM25 权重iPhone 14 的电池容量是多少# BM25 精准匹配「iPhone 14」向量找到语义相关段落两者互补第四关完整 RAG Chain 搭建把前面所有环节串起来搭一个可以直接上生产的 RAG Chainfromimportfromimportfromimportfromimportfromimport# 1. 初始化组件gpt-4o-mini0text-embedding-3-small./chroma_dbmy_knowledge_basemmrk4fetch_k20# 2. RAG Prompt关键要求模型基于上下文回答你是一个专业的知识库助手。请根据以下检索到的上下文回答用户问题。**规则**- 只基于提供的上下文回答不要编造- 如果上下文中没有相关信息直接说「根据现有资料我找不到这个问题的答案」- 回答要简洁直接引用原文时用引号**检索到的上下文**{context}**用户问题**{question}# 3. 格式化检索结果多个 chunk 拼在一起defformat_docsdocsreturn\n\n---\n\nf[来源: {doc.metadata.get(source, 未知)}]\n{doc.page_content}forin# 4. 组装 ChainLCEL 写法context# 检索 → 格式化question# 问题直接传入# 5. 使用我们公司的年假政策是什么print带来源引用的版本fromimport# 同时返回答案和来源文档answersource_documents# 保留原始 chunk年假怎么申请print答案answerprint\n引用来源forinsource_documentsprintf - {doc.metadata.get(source, 未知)}: {doc.page_content[:80]}...第五关文档入库工程化把文档批量处理入库这才是生产中最麻烦的部分importfromimportfromimportfromimportdefload_documentsdocs_dir: strlist支持 PDF、Word、TXT、Markdown 混合入库.pdf.docx.txt.mdforin*ifinstr# 给每个 chunk 打上来源标记forinsourcefile_pathstrprintf✅ 已加载: {file_path.name} ({len(docs)} 段)returndefbuild_knowledge_basedocs_dir: str, persist_dir: str一键构建知识库# 加载文档printf\n共加载 {len(raw_docs)} 个文档片段# 分块800150\n\n\n。printf分块后共 {len(chunks)} 个 chunk# 向量化入库分批处理避免 API 限流text-embedding-3-small# 批量处理每批 100 个100Noneforinrange0lenifisNoneknowledge_baseelseprintf进度: {min(ibatch_size, len(chunks))}/{len(chunks)}printf\n✅ 知识库构建完成共 {len(chunks)} 个向量return# 使用./docs./chroma_db常见坑踩过才知道坑1Chunk 太大检索噪音多❌chunk_size3000一个 chunk 包含了太多无关内容检索出来的段落「离题」✅ 推荐chunk_size600-1000回答简单问题用小 chunk需要完整上下文时用k6坑2相同文档重复入库# ❌ 每次启动都重新入库向量越来越多# ✅ 检查是否已有数据有就直接加载ifandprint加载已有向量库elseprint新建向量库坑3提问语言和文档语言不一致❌ 文档是中文用英文查询 → 相似度打分错乱✅ 用多语言 EmbeddingBAAI/bge-m3或在检索前把提问翻译成文档语言坑4Top-K 太少关键信息检索不到❌k2覆盖太少问题涉及多个段落时漏答✅ 生产环境推荐k4~6token 允许的情况下宁多不少坑5Prompt 没有「只基于上下文回答」约束❌ 没加限制 → 模型结合自己训练知识和检索结果混答无法区分哪些是你的文档里有的✅ 明确写「只基于以下上下文没有就说没有」——这一句能把幻觉降低 80%发布前自查清单Embedding 模型索引和查询时一致chunk_overlap≥chunk_size的 10%每个文档 chunk 打了来源 metadataPrompt 中有「只基于上下文」约束检索数量k≥ 4重复入库已做幂等检查混合检索BM25 向量用于专有名词多的场景总结这篇我们从零搭了一套完整的 RAG 私有知识库方案分块决定上限chunk_size800overlap150语义分块效果比固定分块好 20-30%Embedding 选型开发用text-embedding-3-small中文内容用bge-m3检索策略分层基础用相似度去重用 MMR专有名词多用混合检索Prompt 约束是关键「只基于上下文」这一句能把幻觉降低 80%工程化必做入库幂等检查文档打 metadata 来源批量处理防限流理解 RAG 的核心是检索质量 生成质量——答案已经在文档里了问题是能不能找对。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

RAG 实战:给 AI 接上私有知识库的完整方案

上一篇我们聊了 Agent 动态路由——任务交接时怎么把控流向。这次换个方向,聊一个大家问得最多的问题:怎么让 AI 能回答你自己公司的文档、产品手册、内部 Wiki? 你可能试过直接把文档塞进 System Prompt,结果 token 超限了。你也…...

ARM CP15协处理器架构与缓存控制技术详解

1. ARM CP15协处理器架构解析在ARMv7架构中,CP15协处理器承担着系统控制的核心职能。作为特权模式下才能访问的硬件模块,它通过一组专用寄存器实现对内存管理单元(MMU)、缓存子系统、TLB等关键组件的精细控制。与通用寄存器不同&a…...

小米手表表盘设计终极指南:用Mi-Create打造你的专属表盘

小米手表表盘设计终极指南:用Mi-Create打造你的专属表盘 【免费下载链接】Mi-Create Unofficial watchface creator for Xiaomi wearables ~2021 and above 项目地址: https://gitcode.com/gh_mirrors/mi/Mi-Create 还在为小米手表找不到心仪的表盘而烦恼吗&…...

光伏组件封装产线自动化通讯方案:三菱A系列PLC以太网多节点互联案例

一、行业背景与项目概况1.1 光伏行业技术需求光伏产业是实现“双碳”目标的核心支撑,光伏组件封装产线需实现电池片焊接、层压、裁切、检测等工序的高度自动化与数据互联互通,核心诉求涵盖设备协同联动、数据实时采集、远程运维效率提升,以保…...

我与AI的对话:当教科书思维撞上第一性原理 关于机器学习

一次让我重新思考“正确”的对话最近,我和AI进行了一次对话。起初我只是随口做了一个类比:“无监督学习和监督学习的分类,就像深度学习和机器学习一样。”AI立刻纠正我:这个类比不准确。它解释说,监督/无监督是按“是否…...

大模型API缓存的底层原理:从显存到网关

一、一个直觉引发的思考最近和一位朋友聊到API的缓存,他提出了一个很敏锐的问题:“其实tokens缓存都是假的吧?LLM本身就是无状态的。这种缓存只是一种计费规则。实际上跟上下文显存空间有关,你来用,他那边就会给你开一…...

一种通用的前端复刻思路:提取 UI 结构数据,交给 AI 生成代码

有时需要复刻一个已有的界面——可能是某个网页、一个 App 页面,或者微信小程序。传统做法是对着截图手动写代码,费时且还原度不稳定。最近试了一种方式:先把目标界面的 UI 结构数据提取出来,同时截一张高清截图,两者一…...

5分钟终极指南:一键解密网易云NCM音乐文件,免费高效转换音频格式

5分钟终极指南:一键解密网易云NCM音乐文件,免费高效转换音频格式 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 你是否曾经下载了网易云音乐,却发现文件是加密的NCM格式,无法在其他播…...

JavaScript中利用宏任务拆分阻塞任务的实操案例

...

AutoJS无限制版安装使用教程:附送礼物与私信自动化脚本完整源码分享

AutoJS无限制版安装使用教程:附送礼物与私信自动化脚本完整源码分享 作为一名每天都在各种APP里“摸鱼”的打工人,我最近发现那些重复性的点击操作简直是在浪费生命。比如刷直播间、自动领福利、或者是给喜欢的博主发私信,点多了手都酸。 为了彻底解放双手,我研究了一下 A…...

EvaDB:用SQL桥接数据库与AI模型,构建声明式数据处理流水线

1. 项目概述:当数据库遇上AI,EvaDB想解决什么?如果你最近在关注AI应用开发,尤其是想让大语言模型(LLM)或者计算机视觉模型(CV Model)直接处理你的业务数据,那你大概率会遇…...

图记忆技术:构建LLM智能体的结构化记忆系统

1. 项目概述:图记忆库的兴起与价值如果你最近在关注大语言模型(LLM)和智能体(Agent)的前沿进展,那么“图”这个概念一定频繁地出现在你的视野里。从知识图谱到图神经网络,再到现在的图记忆&…...

医疗AI中的癌症生存率预测:神经网络模型构建与实践

1. 项目背景与核心目标癌症生存率预测一直是医疗AI领域的重要研究方向。基于临床数据构建神经网络模型,能够帮助医生更准确地评估患者预后情况,为个性化治疗方案制定提供数据支持。这个项目需要处理典型的医疗结构化数据,包含患者 demographi…...

图像分类中像素缩放算法选择与优化实践

1. 图像分类任务中的像素缩放方法概述在计算机视觉领域,像素缩放是图像预处理环节中最基础却至关重要的步骤。当我们把原始图像输入卷积神经网络(CNN)进行训练或推理时,绝大多数情况下都需要先将图像调整为统一尺寸。这个看似简单的操作,实际…...

Golioth ESP-IDF SDK:ESP32云端连接开发实战指南

1. Golioth ESP-IDF SDK:为ESP32开发者打造的云端连接利器作为一名长期深耕物联网领域的开发者,我最近在项目中频繁使用ESP32系列芯片,而Golioth新推出的ESP-IDF SDK彻底改变了我的开发体验。这个开源工具包让ESP32硬件与Golioth Cloud的连接…...

OpenPose与Stable Diffusion协同生成姿态控制图像

1. 项目概述:OpenPose与Stable Diffusion的协同工作流去年在开发一个动画项目时,我需要批量生成风格统一但姿态各异的人物图像。传统手动调整不仅效率低下,而且难以保持角色比例的一致性。这时OpenPose与Stable Diffusion的组合方案完美解决了…...

Python机器学习数据预处理实战与Scikit-Learn技巧

1. 数据预处理在机器学习中的核心价值用Python和Scikit-Learn做机器学习时,原始数据就像未经雕琢的玉石——潜在价值巨大但需要精细处理。我在金融风控和医疗影像分析项目中深刻体会到:数据预处理的质量直接决定模型效果上限,其重要性往往超过…...

机器学习核心概念与实践指南

1. 机器学习领域的边界与定位 作为一名在数据科学领域摸爬滚打多年的从业者,我经常被问到这样一个问题:"机器学习到底是什么?它和人工智能、数据挖掘有什么区别?"这个问题看似简单,但要准确回答却需要理清整…...

Reqwest 兼顾简洁与高性能的现代 HTTP 客户端

Reqwest 兼顾简洁与高性能的现代 HTTP 客户端 HTTP 客户端的选择往往面临易用性与性能的权衡,要么接口繁琐但性能出众,要么用法简洁却难以应对高并发场景。Reqwest 基于 Rust 异步运行时 tokio 构建,封装了简洁直观的 API,既能让…...

基于强化学习的浏览器自动化智能体:HyperAgent 架构与实战

1. 项目概述:当强化学习遇见浏览器自动化 最近在开源社区里,一个名为 hyperbrowserai/HyperAgent 的项目引起了我的注意。乍一看,这像是一个将“超”和“浏览器”结合的名字,很容易让人联想到某种增强版的浏览器工具。但深入探究…...

LoRA技术在Stable Diffusion中的高效微调与应用实践

1. LoRA技术概述与Stable Diffusion适配性LoRA(Low-Rank Adaptation)作为大模型微调领域的突破性技术,在Stable Diffusion生态中展现出独特价值。其核心原理是通过低秩矩阵分解,在原始模型参数旁添加可训练的小型适配层。具体到文…...

AI驱动开发工具全景解析:从GitHub Copilot到工作流重构

1. 项目概述:当AI成为你的编程搭档如果你是一名开发者,最近可能已经感受到了身边的变化。以前,我们写代码、查文档、调试Bug,大部分时间都在和IDE、搜索引擎、以及偶尔的Stack Overflow打交道。但现在,一个全新的“同事…...

《100个“反常识”经验11:删了30万行数据表还是那么大?》

本期摘要你用DELETE删了30万行数据,df -h一看磁盘空间没变,表文件还是那么大。这不是Bug,是InnoDB存储引擎的设计特性:DELETE只标记删除,不释放磁盘空间,留下的位置叫“空洞”。真正释放空间需要执行OPTIMI…...

LightGlue深度解析:从自适应剪枝到高速特征匹配的实战指南

LightGlue深度解析:从自适应剪枝到高速特征匹配的实战指南 【免费下载链接】LightGlue LightGlue: Local Feature Matching at Light Speed (ICCV 2023) 项目地址: https://gitcode.com/gh_mirrors/li/LightGlue 在计算机视觉领域,特征匹配作为三…...

MLP、CNN与RNN选型指南:深度学习三大经典网络解析

1. 神经网络选型指南:MLP、CNN与RNN的适用场景解析作为从业十余年的深度学习工程师,我经常被问到同一个问题:"我的项目该用哪种神经网络?"这确实是个值得深入探讨的话题。在本文中,我将结合工业界实战经验&a…...

分布式量子计算:架构演进与关键技术解析

1. 分布式量子计算的核心概念与技术演进量子计算正经历从单量子处理器(QPU)向多节点协同的分布式架构演进的关键阶段。这种转变类似于经典计算从单机走向集群的历史进程,但量子领域面临的挑战更为复杂。分布式量子计算的核心在于通过量子网络…...

Saga分布式事务:补偿事务与协同式的实现对比

Saga分布式事务:补偿事务与协同式的实现对比 在微服务架构中,分布式事务的处理一直是技术难点之一。Saga模式作为一种流行的解决方案,通过将长事务拆分为多个本地事务,并采用补偿或协同机制来保证最终一致性。本文将对比Saga的两…...

LibreDWG:开源CAD格式解析如何打破工程数据壁垒

LibreDWG:开源CAD格式解析如何打破工程数据壁垒 【免费下载链接】libredwg Official mirror of libredwg. With CI hooks and nightly releases. PRs ok 项目地址: https://gitcode.com/gh_mirrors/li/libredwg 你是否曾因无法打开一个DWG文件而陷入困境&…...

神经网络函数逼近原理与实践:从理论到代码实现

1. 神经网络作为函数逼近算法的本质在机器学习领域,监督学习的核心任务可以抽象为函数逼近问题。想象你手中有一本神秘的密码本,左边是各种加密信息(输入),右边是对应的解密内容(输出)。虽然你不…...

深度学习分类变量编码方法全解析

1. 深度学习中的分类变量编码方法解析在机器学习项目中,我们经常会遇到包含分类变量的数据集。这些变量代表的是离散的类别而非数值,比如颜色(红/绿/蓝)、产品类型(A/B/C)等。但所有深度学习模型都要求输入…...