当前位置: 首页 > article >正文

AI入门—— 一文读懂什么是RAG

一文读懂什么是RAG如果你在用大模型做问答、知识库、客服、代码助手你一定会遇到同一个问题模型“很会说”但它并不总是“知道最新、最对、最贴合你业务”的内容。RAGRetrieval-Augmented Generation检索增强生成就是为这个问题而生的。这篇文章会用实战视角讲清楚RAG 的基本概念和核心工作机制RAG 在项目中的常见用法RAG 与 Skill、Prompt、MCP 的联系和区别如何用向量数据库、Dify、n8n 构建可落地的 RAG大模型在什么时机、按什么规则触发 RAG 调用先说结论RAG 是什么RAG 是“先检索外部知识再让模型生成答案”的技术范式。你可以把它理解成两段式流程Retrieval检索从知识库里找出和问题最相关的内容片段Generation生成把这些片段作为上下文喂给大模型生成答案这和“直接问模型”最大的区别是RAG 的答案不仅来自模型参数记忆还来自你可控、可更新的外部知识源。为什么 RAG 这么重要因为它正好补上了纯大模型的三大短板1) 最新知识不足大模型训练数据有时间截断。你昨天更新的产品文档、今天发布的政策公告模型参数里并不一定有。2) 业务私有知识缺失企业内部 SOP、合同条款、项目经验、运维手册通常不在公开互联网中。RAG 可以把这些私域内容变成模型可用上下文。3) 可追溯性弱纯生成容易“讲得像真的”却难以给出来源。RAG 可以把引用片段和来源 URL 一起返回提升可信度和审计性。RAG 的核心架构最小理解版一个典型 RAG 系统通常由 6 部分组成文档加载器Loader读取 PDF、Markdown、网页、数据库记录文本切分器Chunker把长文拆成适合检索的小片段向量化模型Embedding把文本转成向量向量数据库Vector Store存储向量并支持相似度检索检索器Retriever根据问题召回 top-k 相关片段生成器LLM基于“问题 检索上下文”生成最终回答常见链路是Query - Embedding - Similarity Search - Context Assembly - LLM AnswerRAG 的典型用法从 0 到 1用法 1企业内部知识问答最常见落地方式是把文档中心接成知识库例如产品文档实施手册售后 FAQ安全规范用户提问时先检索相关片段再让模型回答并附引用来源。用法 2客服和工单辅助在客服场景里RAG 可把“回答一致性”从“靠人记忆”升级为“靠知识检索”。这样新客服也能快速给出接近资深同事的答案质量。用法 3代码与运维助手把 README、架构文档、历史事故复盘、部署手册接入 RAG。当工程师问“某服务为什么这样配”“这个告警怎么处理”时能得到贴近团队上下文的回答。RAG 与 Prompt、Skill、MCP 的联系与区别这四个概念经常一起出现但关注层次不同。Prompt定义表达与行为风格Prompt 解决“模型怎么回答”输出语言与格式角色语气禁止事项例如不要编造它本身不提供知识检索能力。Skill定义任务流程方法Skill 解决“任务怎么做更稳”先检索还是先澄清命中阈值不够时是否拒答回答时是否必须附引用它是可复用 SOP不是底层连接协议。MCP定义工具连接协议MCP 解决“模型如何调用外部能力”。在 RAG 场景下MCP 可以连接向量检索工具文档读取工具重排序rerank工具权限和审计系统RAG定义“检索 生成”的能力范式RAG 关注的是知识增强本身。它可以在没有 MCP 的情况下实现也可以通过 MCP 让这套能力更标准化、更可治理。一张表看清四者差异维度PromptSkillMCPRAG核心作用约束模型表达固化任务流程连接外部工具用检索增强生成解决问题怎么说怎么做怎么接知识从哪来所在层次推理层编排层集成层能力层是否直接引入外部知识否间接间接是常见产物提示词模板SKILL/SOPServer/Tool API检索链路与知识库RAG 实战示例一向量数据库方案可直接上手下面给一个最小可运行思路使用LangChain Chroma搭一个本地 RAG 原型。第一步准备数据将你的知识文档放入docs/格式可以是.md.txt.pdf需对应 loader第二步构建索引离线阶段fromlangchain_community.document_loadersimportDirectoryLoader,TextLoaderfromlangchain_text_splittersimportRecursiveCharacterTextSplitterfromlangchain_openaiimportOpenAIEmbeddingsfromlangchain_community.vectorstoresimportChroma loaderDirectoryLoader(docs,glob**/*.md,loader_clsTextLoader)docsloader.load()splitterRecursiveCharacterTextSplitter(chunk_size800,chunk_overlap120)chunkssplitter.split_documents(docs)embOpenAIEmbeddings(modeltext-embedding-3-large)dbChroma.from_documents(chunks,emb,persist_directory./chroma_db)db.persist()第三步在线问答检索 生成fromlangchain_openaiimportChatOpenAI,OpenAIEmbeddingsfromlangchain_community.vectorstoresimportChromafromlangchain.promptsimportChatPromptTemplate dbChroma(persist_directory./chroma_db,embedding_functionOpenAIEmbeddings(modeltext-embedding-3-large))retrieverdb.as_retriever(search_kwargs{k:4})llmChatOpenAI(modelgpt-4o-mini,temperature0)promptChatPromptTemplate.from_template(你是企业知识助手。请仅基于上下文回答若上下文不足请明确说明。\n\n问题{question}\n\n上下文\n{context}\n\n请给出要点式回答并附上引用片段编号。)defask(question:str):hitsretriever.invoke(question)context\n\n.join([f[{i1}]{d.page_content}fori,dinenumerate(hits)])answerllm.invoke(prompt.format(questionquestion,contextcontext))returnanswer.content第四步上线前加三件事重排序Rerank提升 top-k 相关性引用回传答案附 source、文档名、段落位置阈值拒答相似度太低时不回答避免幻觉RAG 实战示例二借助 Dify 快速搭建Dify 的优势是低代码、可视化快。常见做法是“先验证业务价值再决定是否自研”。一套实操流程在 Dify 创建知识库导入企业文档配置切分策略chunk size / overlap选择 embedding 模型和召回参数top-k在工作流中加入“知识检索节点 LLM 节点”配置未命中策略追问、转人工、拒答打开日志评估命中率和回答质量适合 Dify 的场景业务要快速 PoC团队工程资源有限需要产品、运营一起调试 Prompt 与知识库RAG 实战示例三借助 n8n 编排自动化流程n8n 更像自动化编排平台适合把 RAG 接入业务流程。一个典型工作流Webhook - Query Normalize - Vector Search - LLM Answer - Slack/CRM 回写你可以在 n8n 里做什么把用户提问先做意图分类FAQ/工单/销售咨询仅对“知识问答类”触发 RAG对“交易类操作”走审批流不直接由模型执行把问答日志写回数据库做后续质量评估大模型在什么时机触发 RAG这是 RAG 成败最关键的工程问题之一。不是每个问题都要走检索触发策略应该可配置、可观测。常见触发时机建议组合使用1) 关键词/意图触发当问题包含“最新版本、公司政策、价格、SLA、内部流程”等词时强制触发 RAG。因为这些问题最依赖实时和私域知识。2) 置信度触发先让模型做一次“是否需要外部知识”判断如果模型对答案置信度低自动进入检索链路。3) 任务类型触发对 FAQ、客服、合规问答默认走 RAG对创意写作、头脑风暴可不走 RAG降低延迟和成本。4) 用户显式触发允许用户通过指令触发例如“请基于知识库回答”“请给出处”“只用公司文档回答”如何设计 RAG 触发策略实战版建议采用“三段式决策”Router 判断分类问题类型知识密集/通用对话/操作执行Gate 判门槛看是否满足检索阈值相似度、时效性、领域敏感度Fallback 策略未命中时追问或拒答而不是硬编可参考下面伪代码defshould_use_rag(query,intent,user_preference):ifuser_preferenceforce_rag:returnTrueifintentin{policy,pricing,internal_sop,faq}:returnTrueif最新inqueryor版本inqueryor公司inquery:returnTruereturnFalsedefanswer(query):intentclassify_intent(query)ifshould_use_rag(query,intent,user_preferenceauto):docsretrieve(query,top_k5)ifnotdocsormax_score(docs)0.72:return当前知识库未检索到足够可信的信息请补充上下文或转人工。returnllm_with_context(query,docs)returnllm_direct(query)RAG 常见坑与优化建议坑 1只换了向量库没做数据治理RAG 的瓶颈往往不在模型而在文档质量。脏数据、重复文档、过期内容会直接拉低答案可信度。坑 2切分策略不合理chunk 太大召回不准chunk 太小上下文断裂。建议按文档类型分策略比如 FAQ、技术文档、合同文本分别配置。坑 3只看“能回答”不看“答得对”需要建立评估集至少跟踪命中率retrieval hit rate引用准确率citation precision拒答准确率该拒时是否拒坑 4忽略成本与延迟RAG 是“检索 生成”双成本路径。要通过缓存、路由、分层索引来控制延迟与 token 消耗。RAG 的优势与劣势优势可以补足大模型的最新知识和私域知识回答更可追溯适合企业审计场景知识更新不需要重新训练大模型可按业务域做精细化治理劣势系统复杂度明显高于纯 Prompt 方案需要持续维护知识库与索引检索链路增加延迟和成本召回不准时会把错误上下文“放大”RAG Skill Prompt MCP 的推荐组合在真实项目里建议这样分层Prompt定义回答边界只基于证据、必须附来源Skill定义流程何时检索、何时拒答、何时追问MCP接入检索工具、权限策略、审计能力RAG提供外部知识增强能力这个组合能同时兼顾可用性、准确性、可治理性。总结RAG 的本质不是“让模型更聪明”而是“让答案更有依据”。当你需要最新信息、私域知识、可追溯输出时RAG 几乎是必选项。你可以记住这句Prompt 决定怎么说Skill 决定怎么做MCP 决定怎么接工具RAG 决定知识从哪来如果你正在做企业级 AI 应用建议从一个高价值场景开始先用 Dify/n8n 快速验证再逐步升级到向量库 自定义触发策略 全链路评估。这样你不仅能“做出一个能答的机器人”还能做出“答得准、可持续迭代”的生产级系统。

相关文章:

AI入门—— 一文读懂什么是RAG

一文读懂什么是RAG 如果你在用大模型做问答、知识库、客服、代码助手,你一定会遇到同一个问题: 模型“很会说”,但它并不总是“知道最新、最对、最贴合你业务”的内容。 RAG(Retrieval-Augmented Generation,检索增强生…...

基于大模型的AI外呼系统:语音与对话能力拆解(二)

在完成基础架构升级之后,AI外呼系统的核心竞争开始转向“语音 对话”的细节能力。相比传统机器人只能执行预设逻辑,新一代系统需要具备更强的语义理解、上下文记忆与情绪反馈能力,这本质上是对实时对话系统的工程挑战。 语音处理侧的关键在于…...

单链表的多项式创建和相加

#include<stdio.h> #include<iostream> #include <windows.h> // 必须放在最前面&#xff08;或至少在 SetConsoleOutputCP 之前&#xff09; using namespace std; typedef struct PLnode {int coef;//系数int exp;//指数struct PLnode* next; }PLnode, *…...

Android高级开发工程师技术深度解析与面试指南

在移动互联网时代,Android应用开发已成为技术领域的热点。作为一名Android应用高级开发工程师,不仅需要扎实的编程基础,还需具备解决复杂问题的能力。本文基于典型的职位要求(如KTV产品开发、性能优化、技术攻坚等),提供全面的技术解析和实用指导。文章将从开发经验、性能…...

GHelper终极指南:如何用轻量级工具全面掌控华硕笔记本性能

GHelper终极指南&#xff1a;如何用轻量级工具全面掌控华硕笔记本性能 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Strix…...

AIGC算法岗面试指南:从Transformer到AI Agent的求职秘籍

1. 项目概述&#xff1a;一份来自AIGC从业者的面试求生指南最近几年&#xff0c;AI领域&#xff0c;特别是AIGC&#xff08;生成式AI&#xff09;和LLM&#xff08;大语言模型&#xff09;的爆发&#xff0c;让算法岗和开发岗的面试难度和广度都上了一个新台阶。我身边不少朋友…...

ncmdump解密工具:3分钟解锁网易云音乐NCM格式的完整指南

ncmdump解密工具&#xff1a;3分钟解锁网易云音乐NCM格式的完整指南 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 你是否曾在网易云音乐下载了心爱的歌曲&#xff0c;却发现在其他播放器无法播放&#xff1f;那种感觉就像买了一把…...

如何快速解决网易云音乐格式限制:3步免费解密NCM文件终极指南

如何快速解决网易云音乐格式限制&#xff1a;3步免费解密NCM文件终极指南 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 还在为网易云音乐下载的加密NCM文件只能在特定客户端播放而困扰吗&#xff1f;ncmdump是一款实用的开源解密工…...

Redis AOF 重写机制与性能优化

Redis AOF重写机制与性能优化 Redis作为高性能内存数据库&#xff0c;其持久化机制直接影响数据安全与性能。AOF&#xff08;Append-Only File&#xff09;通过记录写操作日志实现持久化&#xff0c;但长期运行会导致文件膨胀&#xff0c;影响恢复效率。AOF重写机制通过压缩冗…...

终极NCM文件解密指南:3步解锁网易云音乐加密格式

终极NCM文件解密指南&#xff1a;3步解锁网易云音乐加密格式 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 还在为网易云音乐下载的NCM格式文件无法在其他播放器播放而烦恼吗&#xff1f;ncmdump是一款强大的开源解密工具&#xff…...

Flash内容复活术:3分钟让旧游戏和课件在现代电脑上重生 [特殊字符]

Flash内容复活术&#xff1a;3分钟让旧游戏和课件在现代电脑上重生 &#x1f60a; 【免费下载链接】CefFlashBrowser Flash浏览器 / Flash Browser 项目地址: https://gitcode.com/gh_mirrors/ce/CefFlashBrowser 还在为无法玩经典Flash游戏而烦恼吗&#xff1f;CefFlas…...

终极指南:5分钟快速掌握Iwara视频下载工具,轻松保存你喜欢的每一个视频!

终极指南&#xff1a;5分钟快速掌握Iwara视频下载工具&#xff0c;轻松保存你喜欢的每一个视频&#xff01; 【免费下载链接】IwaraDownloadTool Iwara 下载工具 | Iwara Downloader 项目地址: https://gitcode.com/gh_mirrors/iw/IwaraDownloadTool 你是不是经常在Iwar…...

软件质量管理中的质量标准制定

软件质量管理中的质量标准制定 在当今快速发展的软件行业中&#xff0c;质量是决定产品成败的关键因素之一。软件质量管理&#xff08;SQM&#xff09;的核心在于通过科学的方法和标准化的流程&#xff0c;确保软件产品满足用户需求并具备高可靠性。而质量标准制定作为SQM的重…...

重庆会展行业观察|参展商家普遍面临的几大难题,太真实了✨

在重庆各类展会百花齐放的当下&#xff0c;会展早已成为企业拓客、展示品牌、对接资源的重要渠道。但看似热闹的展会现场&#xff0c;背后藏着无数参展商家的无奈与困境&#xff0c;每一位参展人都深有体会。1. 参展成本居高不下&#xff0c;投入压力大展位费、展台搭建、物料制…...

PyTorch自动微分引擎autograd原理与实战

1. PyTorch自动微分引擎autograd解析PyTorch的autograd系统是其作为深度学习框架的核心竞争力之一。与TensorFlow等框架不同&#xff0c;PyTorch采用动态计算图机制&#xff0c;使得自动微分过程更加直观灵活。让我们深入剖析autograd的工作原理。1.1 计算图构建机制当我们在Py…...

R语言机器学习算法快速验证与实战指南

## 1. 为什么需要快速验证机器学习算法在数据科学项目初期&#xff0c;我们常面临这样的困境&#xff1a;手头有清洗好的数据集&#xff0c;但不确定哪种算法最适合解决当前问题。传统做法是逐个实现算法进行比较&#xff0c;但这种方法效率低下且容易陷入"选择困难症&quo…...

03-数据类型、sizeof 运算符、标识符、scanf 输入

1. 数据类型 sizeof 运算符目标&#xff1a;会查看变量、类型占用内存大小 ​ 每种数据类型&#xff0c;都有自己固定的占用内存大小和取值范围。语法 1&#xff1a;sizeof(变量名)int a 10; printf("%llu\n", sizeof(a));//sizeof(a) 获取 a 变量占用内存大小。可…...

Blender3mfFormat:Blender中3MF格式的专业导入导出解决方案

Blender3mfFormat&#xff1a;Blender中3MF格式的专业导入导出解决方案 【免费下载链接】Blender3mfFormat Blender add-on to import/export 3MF files 项目地址: https://gitcode.com/gh_mirrors/bl/Blender3mfFormat 3D打印技术在现代制造和创意产业中扮演着日益重要…...

3步打造你的智能游戏管家:告别重复操作,重获游戏乐趣

3步打造你的智能游戏管家&#xff1a;告别重复操作&#xff0c;重获游戏乐趣 【免费下载链接】AzurLaneAutoScript Azur Lane bot (CN/EN/JP/TW) 碧蓝航线脚本 | 无缝委托科研&#xff0c;全自动大世界 项目地址: https://gitcode.com/gh_mirrors/az/AzurLaneAutoScript …...

新手必看!Hunyuan-MT-7B-WEBUI翻译模型快速入门实战

新手必看&#xff01;Hunyuan-MT-7B-WEBUI翻译模型快速入门实战 1. 为什么选择Hunyuan-MT-7B-WEBUI 在全球化交流日益频繁的今天&#xff0c;语言障碍成为许多人面临的实际问题。无论是阅读外文资料、处理国际业务&#xff0c;还是学习外语&#xff0c;一个强大的翻译工具都能…...

R语言caret包:机器学习模型评估与精度提升实践

## 1. 项目概述&#xff1a;用caret包评估R模型精度的必要性在数据科学项目中&#xff0c;模型精度评估从来不是可有可无的装饰品。三年前我参与过一个银行信用评分项目&#xff0c;团队花了三周时间构建的随机森林模型&#xff0c;上线后才发现测试集AUC比验证阶段低了15%——…...

计算机视觉中图像数据预处理与增强的核心技术

1. 图像数据预处理的核心价值在计算机视觉项目中&#xff0c;数据质量往往比模型架构更能决定最终效果。我见过太多团队把精力过度集中在调参上&#xff0c;却忽略了数据准备这个基础环节。实际上&#xff0c;经过专业处理的图像数据能让普通CNN模型的准确率提升20%以上&#x…...

保姆级教程:在CentOS 7上从零搭建K8s v1.23集群(含Docker 20.10配置与Flannel网络避坑)

从零构建生产级K8s集群&#xff1a;CentOS 7实战指南与深度避坑手册 当容器化技术成为现代应用部署的标准范式时&#xff0c;Kubernetes&#xff08;K8s&#xff09;作为容器编排领域的事实标准&#xff0c;其学习曲线却让许多初学者望而生畏。本指南专为使用CentOS 7系统的技…...

【卷卷观察】有图无真相:GPT Image 2之后,我们正在经历什么

有个朋友问我&#xff1a;GPT Image 2出来之后&#xff0c;这个世界会不会彻底乱套&#xff1f;我想了两秒钟&#xff0c;告诉他&#xff1a;不会一夜崩塌&#xff0c;但已经在慢慢烂掉了。他觉得我太悲观。我没跟他争论&#xff0c;因为这两件事同时为真——既不会突然崩溃&am…...

图像识别技术实践

图像识别技术实践&#xff1a;从理论到应用的探索 在人工智能飞速发展的今天&#xff0c;图像识别技术已成为计算机视觉领域的核心应用之一。从智能手机的人脸解锁到自动驾驶的实时路况分析&#xff0c;图像识别技术正深刻改变着我们的生活和工作方式。这项技术通过算法模型对…...

基于深度学习的的计算机视觉火灾烟雾识别 森林防火系统 AI人工智能无人机智能森林防火之烟火检测系统

文章目录AI人工智能无人机智能森林防火之烟火检测系统1. 系统概述2. YOLO11算法的优势4. 系统优势5. 应用场景6. 未来发展方向训练代码AI人工智能无人机智能森林防火之烟火检测系统 YOLO11无人机森林防火系统的烟火检测技术结合了先进的计算机视觉、深度学习和无人机技术&…...

题解:洛谷 B2066 救援

本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来&#xff0c;并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构&#xff0c;旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。 欢迎大…...

基于深度学习的UNet卫星图像植被分割识别 植被分割识别

VM-UNet 卫星图像植被分割 &#x1f331; 本仓库使用 VM-UNet&#xff08;基于 Mamba 架构的变体&#xff0c;原用于医学图像分割&#xff09;对卫星图像进行分割。本项目将其适配地理空间应用&#xff0c;优化多通道卫星影像的处理。更多技术细节可参模型性能对比&#xff08;…...

物联网安全简介

1. 什么是物联网&#xff08;IOT&#xff09; 简单来说就是万物互联&#xff0c;把传统非智能物理设备通过传感器、通信模块、嵌入式芯片接入网络&#xff0c;实现数据采集、远程控制、云端联动的整套体系物联网整体三层架构 感知层&#xff1a;终端设备、传感器等硬件设备&…...

智能体的决策机制

在人工智能领域&#xff0c;智能体&#xff08;Agent&#xff09;作为具备环境感知、信息处理、自主决策与行为执行能力的计算实体&#xff0c;其核心价值在于通过高效决策机制&#xff0c;实现与环境的动态交互、目标达成及持续优化。决策机制是智能体的“大脑中枢”&#xff…...