当前位置: 首页 > article >正文

RAG实战指南:让大模型学会检索外部知识

RAG给 LLM 装上知识库——从原理到完整可运行系统LLM 的知识截止在训练日期。RAG 让 AI 能「查资料」回答——这是 Agent 有「长期记忆」的基础。一、为什么需要 RAG用户HarmonyOS NEXT 的 Observed 装饰器怎么用 没有 RAG 的 LLM Observed 是用于...可能对可能编——因为它的训练数据可能没有最新文档 有 RAG 的 Agent 1. 把问题向量化 2. 在文档库中检索相关段落 3. 把检索到的文档 问题一起发给 LLM 4. LLM 基于真实文档回答 → 准确、有出处二、RAG 完整流程5 步① 文档分块Chunking 大文档切成 512 Token 的小块 ↓ ② 向量化Embedding 每个小块 → 1024 维向量 ↓ ③ 存入向量库 向量 原文 → Milvus / Chroma ↓ ④ 检索Retrieval 用户问题向量化 → 向量库找 Top-K 相似 ↓ ⑤ 生成Generation 问题 检索结果 → LLM → 答案三、完整 RAG 系统代码# ── 1. 环境准备 ──# pip install chromadb sentence-transformers openaiimportchromadbfromchromadb.utilsimportembedding_functionsfromopenaiimportOpenAI# ── 2. 初始化 Chroma向量数据库 ──embedding_fnembedding_functions.SentenceTransformerEmbeddingFunction(model_nameBAAI/bge-large-zh-v1.5)clientchromadb.PersistentClient(path./rag_db)collectionclient.get_or_create_collection(nameharmonyos_docs,embedding_functionembedding_fn)client_llmOpenAI(api_keyyour-key,base_urlhttps://api.deepseek.com/v1)# ── 3. 导入文档 ──documents[Observed 装饰器用于观察类对象的变化。当被 Observed 装饰的类的属性发生变化时绑定该对象的组件会自动重新渲染。用法Observed class MyData { ... },State 装饰器用于声明组件内部的状态变量。当状态变量改变时组件重新渲染。Prop 装饰器用于父组件向子组件传递数据子组件不能修改 Prop 变量。,HarmonyOS NEXT 基于 ArkTS 语言。ArkTS 是 TypeScript 的超集增加了声明式 UI 语法和状态管理能力。API 12 是最新版本。,]collection.add(documentsdocuments,ids[fdoc_{i}foriinrange(len(documents))])print(f✅ 已导入{len(documents)}个文档片段)# ── 4. RAG 查询函数 ──defrag_query(question:str,n_results:int3)-str:# 4.1 向量检索resultscollection.query(query_texts[question],n_resultsn_results)# 4.2 拼接检索结果retrieved_docsresults[documents][0]context\n\n---\n\n.join(retrieved_docs)# 4.3 调用 LLM 生成答案system_prompt你是 HarmonyOS 开发助手。请根据提供的参考文档回答问题。 如果文档中没有相关信息请明确告知。回答时引用文档来源。responseclient_llm.chat.completions.create(modeldeepseek-chat,messages[{role:system,content:system_prompt},{role:user,content:f参考文档\n{context}\n\n用户问题{question}}])returnresponse.choices[0].message.content# ── 5. 测试 ──questions[Observed 装饰器是做什么的,State 和 Prop 有什么区别,HarmonyOS NEXT 用什么语言,]forqinquestions:print(f\n{*50})print(f❓{q})answerrag_query(q)print(f{answer})四、Embedding 怎么选模型维度中文效果部署难度BGE-Large-ZH v1.51024⭐⭐⭐⭐⭐pip install 即用text2vec-large-chinese1024⭐⭐⭐⭐同上M3E-large1024⭐⭐⭐⭐同上OpenAI text-embedding-31536⭐⭐⭐API 计费建议BGE-Large-ZH免费、中文最好、本地跑、1024 维不高不低。五、Chunking分块策略策略块大小适用场景固定大小512 Token通用按标题分割h2/h3 为界技术文档语义分割相似度阈值高级场景递归分割按段落→句子混合内容# 按标题分割适合技术文档defsplit_by_headers(markdown_text:str)-list[str]:按 ## 和 ### 分割文档chunks[]current_chunk[]forlineinmarkdown_text.split(\n):ifline.startswith(## ):# 遇到新标题ifcurrent_chunk:chunks.append(\n.join(current_chunk))current_chunk[line]else:current_chunk.append(line)ifcurrent_chunk:chunks.append(\n.join(current_chunk))returnchunks六、进阶混合检索纯向量检索的准确率约 70-75%。加上关键词检索BM25可到 85%。用户问题 ↓ ┌─────────────┐ ▼ ▼ 向量检索 关键词检索(BM25) Top-10 Top-10 └──────┬──────┘ ▼ 融合排序(RRF) │ ▼ Top-5 结果 → LLM# 简单实现向量 关键词双路检索defhybrid_search(query:str,top_k:int5):# 向量检索vec_resultscollection.query(query_texts[query],n_resultstop_k)# 关键词匹配简单版keywordsset(query)keyword_scores[]fordocindocuments:scoresum(1forkwinkeywordsifkwindoc)keyword_scores.append(score)# 合并排序简化的 RRF# 生产环境建议用专门的 RRF 实现returnvec_results[documents][0]# 这里简化了七、RAG 在 Agent 中的角色Agent │ ┌──────────────┼──────────────┐ ▼ ▼ ▼ Function RAG 对话 Calling 系统 管理 做事 查知识 记上下文 │ │ │ ▼ ▼ ▼ 天气 API 向量数据库 会话历史 数据库 文档库 摘要RAG 不是 Agent 的全部但它是 Agent 的「知识层」。一个没有 RAG 的 Agent 只能说它训练数据里有的东西有 RAG 的 Agent 能回答任何存入知识库的问题。八、生产实战RAG 系统上线前的检查清单8.1 混合检索 重排序完整代码纯向量检索准确率 70-75%。加上 BM25 关键词检索可到 85%再加 Cross-Encoder Reranker 可到 90%fromrank_bm25importBM25Okapifromsentence_transformersimportCrossEncoderimportjiebadefhybrid_search_with_rerank(query:str,all_docs:list[str],top_k:int5):# 1. 向量检索vec_resultscollection.query(query_texts[query],n_results20)# 2. BM25 关键词检索tokenized_corpus[list(jieba.cut(doc))fordocinall_docs]bm25BM25Okapi(tokenized_corpus)bm25_scoresbm25.get_scores(list(jieba.cut(query)))bm25_topsorted(range(len(bm25_scores)),keylambdai:bm25_scores[i],reverseTrue)[:20]# 3. RRF 融合 (k60)rrf{}forrank,docinenumerate(vec_results[documents][0]):rrf[doc]rrf.get(doc,0)1/(61rank)forrank,idxinenumerate(bm25_top):docall_docs[idx]rrf[doc]rrf.get(doc,0)1/(61rank)candidatessorted(rrf.items(),keylambdax:x[1],reverseTrue)[:10]# 4. Cross-Encoder 重排序rerankerCrossEncoder(BAAI/bge-reranker-large)pairs[[query,doc]fordoc,_incandidates]scoresreranker.predict(pairs)rankedsorted(zip([dford,_incandidates],scores),keylambdax:x[1],reverseTrue)return[docfordoc,_inranked[:top_k]]8.2 RAG 评估指标做 RAG 最怕「感觉变好了」——必须有量化指标指标含义合格线Hit Rate10Top-10 包含正确答案的比例 85%MRR第一个正确答案的平均排名倒数 0.6NDCG10考虑排序位置的精度 0.7defevaluate_rag(test_queries:list[dict]):test_queries [{query: ..., expected_doc_id: doc_3}]hits,rr0,[]fortintest_queries:resultscollection.query(query_texts[t[query]],n_results10)ift[expected_doc_id]inresults[ids][0]:hits1rankresults[ids][0].index(t[expected_doc_id])1rr.append(1/rank)else:rr.append(0)print(fHit Rate10:{hits/len(test_queries):.1%}MRR:{sum(rr)/len(rr):.4f})8.3 Query 改写模糊问题搜不到的原因用户问「上次那个方法怎么用」——直接向量化什么都搜不到。必须先用 LLM 改写REWRITE_PROMPT将模糊问题改写为适合检索的查询。补充指代拆解复合问题。输出 {\queries\: [\查询1\]}asyncdefrewrite_query(user_input:str,history:list)-list[str]:responseawaitllm.chat([{role:system,content:REWRITE_PROMPT},{role:user,content:f历史{history}\n问题{user_input}}])returnjson.loads(response)[queries]8.4 RAG vs 长 Context什么时候不需要 RAGClaude 200K Context Window 能装下一整本书。那还要 RAG 吗场景方案理由固定文档如产品手册RAG只需检索相关部分一次性长文档分析直接塞 ContextRAG 检索有损耗多轮对话引用文档RAG不可能每轮都塞全文文档频繁更新RAG只需更新向量库经验大多数场景下 RAG 更优。长 Context 是备选方案——Token 成本高且推理速度随 Context 增长线性下降下一篇《Agent 设计模式ReAct 与 Plan-Execute》——两种最经典的 Agent 模式让你的 Agent 学会「思考」。系列文章00-总纲 → ①-LLM 原理 → ②-Prompt 工程 → ③-Function Calling → ④-RAG → ⑤-Agent 模式 → ⑥-LangGraph → ⑦-MCP → ⑧-Multi-Agent

相关文章:

RAG实战指南:让大模型学会检索外部知识

RAG:给 LLM 装上知识库——从原理到完整可运行系统LLM 的知识截止在训练日期。RAG 让 AI 能「查资料」回答——这是 Agent 有「长期记忆」的基础。一、为什么需要 RAG 用户:HarmonyOS NEXT 的 Observed 装饰器怎么用?没有 RAG 的 LLM&#xf…...

GenAI云服务事故特征与高效缓解策略解析

1. GenAI云服务事故特征与挑战 在云服务运维领域,GenAI服务因其独特的架构特性呈现出明显区别于传统云服务的事故特征。根据微软云系统的大规模实证研究数据,GenAI事故的平均缓解时间(TTM)达到1.12个时间单位,比非GenA…...

终极指南:如何在Windows电脑上免费预览iPhone的HEIC照片

终极指南:如何在Windows电脑上免费预览iPhone的HEIC照片 【免费下载链接】windows-heic-thumbnails Enable Windows Explorer to display thumbnails for HEIC/HEIF files 项目地址: https://gitcode.com/gh_mirrors/wi/windows-heic-thumbnails 你是否经常遇…...

Cursor AI插件深度解析:从自动化脚本到智能编程工作流

1. 项目概述:一个为 Cursor 编辑器注入灵魂的 AI 增强插件如果你和我一样,日常开发重度依赖 Cursor 这款“AI 原生”编辑器,那你一定体验过它内置的 AI 对话和代码生成带来的效率提升。但用久了,你可能会发现一些痒点:…...

ElevenLabs动画配音语音交付危机预警,紧急修复唇动不同步、语速断层、多语言混读错位的6大实时响应方案

更多请点击: https://intelliparadigm.com 第一章:ElevenLabs动画配音语音交付危机的本质溯源 当动画制作团队依赖 ElevenLabs API 实时生成角色语音时,突然出现的 429 Too Many Requests 响应、TTS 音频静音片段、以及语音情感断层现象&…...

微信好友检测终极指南:快速发现谁删除了你的免费解决方案

微信好友检测终极指南:快速发现谁删除了你的免费解决方案 【免费下载链接】WechatRealFriends 微信好友关系一键检测,基于微信ipad协议,看看有没有朋友偷偷删掉或者拉黑你 项目地址: https://gitcode.com/gh_mirrors/we/WechatRealFriends …...

别再替换同义词!2026实测论文降AIGC工具:一次降至10%以下的排版保护指南

自从央视公开探讨初稿写作的AI味儿现象:据相关数据显示,近六成师生习惯使用生成式辅助,其中近三成学生将其用于核心初稿的撰写,各高校针对AIGC的审查便日益严格。 正是因为这种大背景,四月一到,定稿通知刚…...

终极指南:如何让Figma说中文,快速提升设计效率

终极指南:如何让Figma说中文,快速提升设计效率 【免费下载链接】figmaCN 中文 Figma 插件,设计师人工翻译校验 项目地址: https://gitcode.com/gh_mirrors/fi/figmaCN FigmaCN是一款专为中文用户设计的Figma中文界面插件,通…...

苹果砂不锈钢蜂窝板做出来真的和苹果店一样吗?来自广东优之彩!

当“苹果店质感”成为高级商业空间的隐形标尺,无数人追问:我们能用苹果砂不锈钢蜂窝板,复刻那种极致、均匀、充满科技感的哑光金属美学吗?答案是:可以。但前提是,你选择的不仅是材料,更是一套完…...

应对2026知网维普算法更新:论文降AI全攻略,实测3款主流工具与手动微调方法

自从央视公开探讨初稿写作的AI味儿现象:据相关数据显示,近六成师生习惯使用生成式辅助,其中近三成学生将其用于核心初稿的撰写,各高校针对AIGC的审查便日益严格。 正是因为这种大背景,四月一到,定稿通知刚…...

Windows终极优化神器:WinUtil - 一键解决系统安装、优化、修复的完整指南

Windows终极优化神器:WinUtil - 一键解决系统安装、优化、修复的完整指南 【免费下载链接】winutil Chris Titus Techs Windows Utility - Install Programs, Tweaks, Fixes, and Updates 项目地址: https://gitcode.com/GitHub_Trending/wi/winutil 你是否厌…...

终极解决方案:3分钟免费恢复微信网页版完整访问权限

终极解决方案:3分钟免费恢复微信网页版完整访问权限 【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为微信网页版无法登录而烦恼吗&am…...

Arm DynamIQ DSU L3缓存电源管理技术解析

1. Arm DynamIQ DSU L3缓存电源管理技术全景解析在现代处理器架构设计中,缓存子系统往往占据芯片总功耗的30%-40%,其中L3共享末级缓存因其大容量特性成为功耗优化的重点对象。Arm DynamIQ™架构创新的DSU(DynamIQ Shared Unit)通过…...

3分钟彻底告别Windows资源管理器窗口混乱:QTTabBar终极标签页解决方案

3分钟彻底告别Windows资源管理器窗口混乱:QTTabBar终极标签页解决方案 【免费下载链接】qttabbar QTTabBar is a small tool that allows you to use tab multi label function in Windows Explorer. https://www.yuque.com/indiff/qttabbar 项目地址: https://gi…...

书匠策AI官网www.shujiangce.com|别再死磕“洗稿式降重“了!这才是2025论文通关的正确姿势

🫠 你有没有经历过这种"窒息时刻"? 凌晨两点,你对着查重报告,满屏飘红像开了大灯的KTV。你一句一句地改,把"因此"换成"所以",把"研究表明"换成"分析发现&qu…...

【Claude Redis缓存方案实战白皮书】:20年架构师亲授高并发场景下99.99%命中率的5层缓存协同设计

更多请点击: https://intelliparadigm.com 第一章:Claude Redis缓存方案的演进逻辑与设计哲学 Claude 系统在高并发对话场景下对低延迟、强一致性的缓存层提出严苛要求。其 Redis 缓存方案并非简单封装客户端,而是围绕“语义感知缓存生命周期…...

Markdown到思维导图的架构化转换:基于AST解析与D3渲染的技术实现

Markdown到思维导图的架构化转换:基于AST解析与D3渲染的技术实现 【免费下载链接】markmap Build mindmaps with plain text 项目地址: https://gitcode.com/gh_mirrors/ma/markmap Markdown思维导图转换技术通过结构化文本解析与可视化渲染引擎的协同工作&a…...

TI SimpleLink CC26xx/CC13xx超低功耗无线平台架构解析与实战

1. 项目概述:为什么我们需要一个“超低功耗”的无线平台?如果你正在设计一个需要靠电池运行数年甚至十年的物联网设备,比如智能门锁、环境传感器或者可穿戴健康监测器,那么“功耗”这个词绝对是你每天都要面对的噩梦。传统的无线方…...

BilibiliDown:如何轻松实现B站视频批量下载与音频提取的终极指南

BilibiliDown:如何轻松实现B站视频批量下载与音频提取的终极指南 【免费下载链接】BilibiliDown (GUI-多平台支持) B站 哔哩哔哩 视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh…...

Python 簡單的 股市資料 API 呼叫範例

前言 假如我們想從某個外部服務取得股市資料,藉由Python API 呼叫,可以讓我們從雅虎財經的API下載市場數據。以下簡單得介紹一個API , yfinance 一個 Python 開源函式庫,使用者可以輕鬆地取得股票、指數、貨幣、ETF、基金以及期貨…...

别再只会用os.listdir了!Python遍历文件夹的3种高效方法(附性能对比)

别再只会用os.listdir了!Python遍历文件夹的3种高效方法(附性能对比) 当你的Python项目需要处理成千上万的文件时,传统的os.listdir()方法可能会成为性能瓶颈。我曾经在一个图像处理项目中,因为使用了不当的遍历方法&a…...

从脚本到爆款:ElevenLabs广告配音全流程SOP(含品牌人设音色锚定表+情绪曲线映射表)

更多请点击: https://intelliparadigm.com 第一章:从脚本到爆款:ElevenLabs广告配音全流程SOP(含品牌人设音色锚定表情绪曲线映射表) ElevenLabs 已成为全球增长最快的 AI 语音平台之一,其高保真、低延迟、…...

Arduino激光绊线制作:从光电传感器到智能触发系统

1. 项目概述:从创意到实现的激光绊线几年前,我在一个创客工作坊里,看到有人用一个简单的激光笔和光敏电阻,就做出了一个能触发警报的“隐形防线”。当时就觉得这玩意儿太酷了,原理简单,但应用场景多得数不过…...

SillyTavern角色卡片系统:打造属于你的AI灵魂伴侣

SillyTavern角色卡片系统:打造属于你的AI灵魂伴侣 【免费下载链接】SillyTavern LLM Frontend for Power Users. 项目地址: https://gitcode.com/GitHub_Trending/si/SillyTavern 你是否曾经幻想过,能有一个真正理解你、陪伴你的AI伙伴&#xff1…...

LeetCode 01矩阵中距离题解

LeetCode 01矩阵中距离题解 题目描述 给定一个 01 矩阵,找到每个 0 到最近的 0 的距离。 示例: 输入:mat [[0,0,0],[0,1,0],[1,1,1]]输出:[[0,0,0],[0,1,0],[1,2,1]] 解题思路 方法:BFS 思路: 使用 BFS 从…...

Windows文件管理器终极增强:3步实现APK文件原生图标显示

Windows文件管理器终极增强:3步实现APK文件原生图标显示 【免费下载链接】apkshellext Show app icons in windows explorer 项目地址: https://gitcode.com/gh_mirrors/ap/apkshellext 在Windows系统中管理移动应用安装包时,你是否曾为难以区分…...

为你的 AI Agent 项目选择并接入性价比更高的多模型服务

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 为你的 AI Agent 项目选择并接入性价比更高的多模型服务 在构建 AI Agent 应用时,开发者常常面临一个两难选择&#xf…...

从零搭建高效AI协作工作流,NotebookLM团队空间配置、知识对齐与冲突消解全链路实操手册

更多请点击: https://intelliparadigm.com 第一章:NotebookLM团队协作功能概览 NotebookLM 是 Google 推出的基于 LLM 的研究型笔记工具,其团队协作能力围绕“共享上下文、实时协同、权限精细化”三大核心设计。当多个成员加入同一 Notebook…...

实战指南:如何为nvm-windows项目配置专业级持续集成流水线

实战指南:如何为nvm-windows项目配置专业级持续集成流水线 【免费下载链接】nvm-windows A node.js version management utility for Windows. Ironically written in Go. 项目地址: https://gitcode.com/gh_mirrors/nv/nvm-windows nvm-windows作为Windows平…...

不用登录!3 步把 Excel 进度表变成甘特图

很多团队并不是缺项目管理工具,而是缺时间:领导下午要进度图,表格还在同事电脑里,甘特图只能熬夜手画。PJMan 提供了一条「先出图、再决策」的轻路径:免登录 Excel 一键可视化。 为什么值得试? 零注册门槛&…...