当前位置: 首页 > article >正文

大模型落地:实打实地提升 RAG 系统准确率的五种方案!

网上 B 站有很多那种基于 LangChain 或者 LlamaIndex 十分钟搭建 RAG 系统的教程。不少团队看着挺简单照猫画虎也跟着搭了一套。跑测试数据的时候看着还凑合但只要真正接入企业的生产环境让真实的业务人员去用准确率惨不忍睹模型甚至开始一本正经地瞎编乱造。出现这种落差根本原因在于大家搞错了重点RAG 系统的核心壁垒根本不在于你用了多昂贵的大模型而在于你对数据管道Data Pipeline的处理和检索的优化。大模型本质上仅仅是一个做阅读理解的机器如果前面检索系统喂给它的参考资料全是一堆不相关的垃圾它再聪明也给不出正确的答案。最近在业务实际落地中踩了不少坑我总结了几个能把 RAG 的能力实打实拉升起来的方案今天给大家盘一盘。1. 别暴力切分做好语义分块与元数据注入挺多初级的 RAG 项目第一步就死在了长文档比如 PDF、Word处理上。最粗暴的做法就是按固定长度比如 500 个 Token 一刀切开。这种做法用在生产环境真的是灾难。设想有一份财务报表一个表格正好被这一刀从中间切成了两半。表头在上一块具体数据在下一块。当用户提问时单独被检索出来的下半块数据根本没有表头的定义别说大模型看了是一头雾水换我去看也是一样懵逼。生产上比较好的做法是采用结构化感知分块。对于文档必须先用专门的解析工具将其还原为 Markdown 等带有结构化标记的文本。切分的时候要按段落、按标题层级、甚至按完整的表格边界进行切分。此外还有极其重要的一步为切出来的每一个文本块注入上下文元数据Metadata。比如你切出来一段文本是“该设备的维护周期为六个月”。如果只把这句话存进向量库将来检索出来也是毫无意义的因为你根本不知道它说的是哪个设备。必须在构建索引时让这段文本带上它的层级信息{文件:2023维修手册, 章节:发动机保养, 内容:该设备的维护周期为六个月}。这样大模型在回答时手里才有充分的语境。2. 混合检索绝大多数的开源 RAG 默认使用的是单一的稠密向量检索。向量检索擅长处理语义相似度比如你搜“苹果手机”它能给你找出来“iPhone”这没错。但业务线上的很多提问是非常精准且死板的。比如售后人员搜“设备报错 Error-0x9F4A 是什么原因”。这里的Error-0x9F4A是一个极具特征的业务专有名词。如果纯靠向量模型这种无语义的纯字符编号在做 Embedding 之后特征往往会被严重稀释导致底层根本检索不到包含这个报错码的文档。要解决这个问题必须引入传统的关键词检索采用双路召回Hybrid Search。一方面用向量库做语义泛化召回另一方面用 ElasticSearch 或者同类全文引擎做纯文本的精确匹配召回。两路数据拿回来之后再通过 RRF倒数排序融合算法把两份结果交叉打分合并成一份列表。这就彻底兜底了“同义词找不到”和“专业词汇匹配不上”的两个极端。3. 引入重排Rerank检索结果拿回来后怎么给大模型很多团队为了提高命中率会把检索库返回的前 20 个文档全部塞进大模型的 Prompt 里让它去总结。但这会直接触发大模型一个著名的缺陷“迷失在中间Lost in the Middle”。上下文过长且包含大量无关噪音时大模型会遗忘关键信息甚至被错误信息带偏最终产生幻觉。而且超长的输入又会大量消耗 Token推高 API 成本的同时严重拉高响应延迟。标准的工程解决方案是分为两阶段检索Retrieve Rerank。第一阶段粗排利用便宜且快速的向量检索和 BM25粗略地召回 50 篇可能相关的文档。第二阶段精排引入一个专门的 Cross-Encoder 模型也就是重排模型比如 BGE-Reranker。重排模型的底层机制是将“用户提问”和“候选文档”拼在一起同时输入神经网络它对相关性的判断极其精准缺点就是计算耗时。通过重排模型对这 50 篇文档进行精准打分排序最后只挑出得分最高的 3 到 5 篇核心文档喂给大模型。这样既保证了整体速度也降低了大模型的阅读负担。4. 提问预处理Query 重写与扩展回到用户端实际业务里用户提的问题往往是极度口语化且严重缺乏上下文的。比如在一个多轮对话场景中用户第一句先问了“OA系统怎么登录” 紧接着第二句问“密码忘了怎么办”如果 RAG 系统直接拿着“密码忘了怎么办”这几个字去检索文档库召回的结果大概率是各种乱七八糟业务系统的密码找回规则毫无针对性。所以在把问题扔进检索器之前必须增加一个提问预处理层。通常的做法是调用一个轻量级、响应极快的小模型把历史聊天记录和当前提问结合起来重写成一个标准的检索词// 伪代码演示 Query Rewrite 逻辑 String userQuery 密码忘了怎么办; String chatHistory [User: OA系统怎么登录, System: 您可以通过企业微信扫码...]; // 利用小模型进行意图重写 String rewrittenQuery fastLlm.generate( 根据以下聊天历史将用户的最新提问重写为一个具体且独立的查询请求。历史 chatHistory 提问 userQuery ); // rewrittenQuery 此时变成了OA系统密码忘了怎么找回 // 用这个词再去执行底层的混合检索 ListDocument docs retrievalPipeline.search(rewrittenQuery);除了重写还可以顺手做 Query 扩展让模型根据用户的原始提问变异出三四个近义问题用多路查询去并发检索这能极大弥补用户自身表达不准导致的数据遗漏。5. 动态评估传统的 RAG 就是一条单向流水线提问 - 检索 - 生成。只要检索这个环节出了错最后生成的绝对是废话。目前更先进的做法是演进到带有评估反馈逻辑的架构。在这个架构里大模型不仅是文本生成器还充当了业务流的“裁判员”。当底层返回检索结果后先用大模型跑一次轻量级的打分机制评估检索回来的这几篇文档里到底包不包含能回答用户问题的线索如果包含进入生成环节。如果判定所有文档都不相关系统主动放弃基于知识库生成要么老老实实告诉用户“知识库暂无记录”要么触发外接的搜索引擎比如 Bing Search API去公网上找答案。总之决不允许它强行拿着无关文档去编故事。上边这几种能把企业级 RAG 的可用性拉上一个大台阶。希望能帮助到在业务一线折腾落地的大家吧。最后感慨一句这两年 AI 技术更迭太快了真的有点学不动了。不过万变不离其宗底层的工程思维吃透了遇到新东西也就是见招拆招。学习资源推荐如果你想更深入地学习大模型以下是一些非常有价值的学习资源这些资源将帮助你从不同角度学习大模型提升你的实践能力。一、全套AGI大模型学习路线AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能​因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取二、640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示​因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取三、AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取四、AI大模型商业化落地方案作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。

相关文章:

大模型落地:实打实地提升 RAG 系统准确率的五种方案!

网上 B 站有很多那种基于 LangChain 或者 LlamaIndex 十分钟搭建 RAG 系统的教程。不少团队看着挺简单,照猫画虎也跟着搭了一套。 跑测试数据的时候看着还凑合,但只要真正接入企业的生产环境,让真实的业务人员去用,准确率惨不忍睹…...

如何快速破解网易云音乐NCM格式限制:ncmdumpGUI完全指南

如何快速破解网易云音乐NCM格式限制:ncmdumpGUI完全指南 【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换,Windows图形界面版本 项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 还在为网易云音乐下载的NCM加密文件无法在…...

Claude Code 自定义 Agent 实战,打造三个专属智能体

Claude Code 内置了 Explore、Plan 和 general-purpose 三个 Sub-agent,日常使用已经够用了。但你有没有过这种体验:每次让 Claude 审查代码,都要重复一遍「关注安全漏洞、检查错误处理、看看有没有 N1 查询」——本质上你在用对话复述一个 s…...

Rsync服务架构配置详解【20260416002篇】

文章目录 ✅ 一、生产级 `/etc/rsyncd.conf`(已加固 & 注释完备) ✅ 二、生产环境部署全流程(含权限加固) 步骤 1:创建专用系统用户(无登录、无 shell) 步骤 2:生成加密密码文件(避免明文) 步骤 3:预建 chroot 基础环境(启用 `use chroot = yes` 必须) 步骤 4…...

Cloud Document Converter:3分钟解决飞书文档转Markdown的所有痛点

Cloud Document Converter:3分钟解决飞书文档转Markdown的所有痛点 【免费下载链接】cloud-document-converter Convert Lark Doc to Markdown 项目地址: https://gitcode.com/gh_mirrors/cl/cloud-document-converter 你是否曾经花费数小时手动整理飞书文档…...

ADC选型实战指南:从关键参数到系统性能的精准匹配

1. ADC选型的关键参数解析 第一次接触ADC选型时,我被数据手册上密密麻麻的参数表搞得头晕眼花。分辨率、采样率、信噪比...这些指标到底哪个更重要?经过多个项目的实战积累,我发现ADC选型就像挑选相机 - 不是像素越高越好,关键要看…...

深入解析RX/TX:通信世界的收发核心

目录 引言 RX/TX的基本概念与原理 定义与功能 信号转换原理 RX/TX在不同通信场景中的应用 有线通信 无线通信 卫星通信 RX/TX技术的发展趋势 高速化 集成化 智能化 结论 引言 在当今高度数字化、信息化的时代,通信技术如同神经脉络,将世界的各个角落…...

Web Speech API 实现语音识别

场景很简单,就是当用户长按按钮说话之后,可以将识别到的语音转为文字,效果图如下:长按转换文字,断句动态拼接分隔符识别的文字由浮层展示光标在哪,语音插入到哪支持中途编辑清除文本和复制文本长按按钮有动…...

微信读书的划线,同步到 Notion 只是开始;接上 AI 才算“拥有“

微信读书的划线,同步到 Notion 只是开始;接上 AI 才算"拥有"昨晚我在写一篇东西,想引用一段《打造第二大脑》里关于"CODE 法"的描述。 放在半年前,我会这么干:打开微信读书 → 找到这本书 → 翻目…...

从复古游戏到电子墨水屏:聊聊Floyd-Steinberg抖动算法的那些神奇应用场景

从复古游戏到电子墨水屏:Floyd-Steinberg抖动算法的跨时代魔法 1983年,任天堂红白机设计师面临一个棘手问题:如何在仅支持52色的硬件上呈现《超级马里奥兄弟》中碧蓝的海水与翠绿的管道?答案藏在一项诞生于1976年的图像处理技术中…...

告别base环境自动激活:CentOS7安装Miniconda后必做的几项贴心配置

告别base环境自动激活:CentOS7安装Miniconda后必做的几项贴心配置 当你第一次在CentOS7服务器上成功安装Miniconda后,可能会遇到一个令人困扰的默认行为:每次打开新终端会话时,conda都会自动激活base环境。对于需要通过SSH频繁连接…...

嵌入式老鸟的VSCode私房插件清单:除了C/C++,这些调试和效率工具让你事半功倍

嵌入式开发者的VSCode效率革命:资深工程师的插件配置秘籍 作为一名在嵌入式领域摸爬滚打多年的开发者,我深知效率工具对项目进度的影响。记得有一次在调试STM32的CAN总线通信时,传统IDE的局限性让我不得不频繁切换多个工具,直到发…...

大模型RAG (一)

一、RAG介绍 1、LLM的缺陷 LLM的知识不是实时的,不具备知识更新.LLM可能不知道你私有的领域/业务知识.LLM有时会在回答中生成看似合理但实际上是错误的信息。 2、为什么会用到RAG 减少幻觉(Hallucination):回答基于真实资料&…...

深度剖析:LangGraph中的状态管理与循环逻辑

深度剖析:LangGraph中的状态管理与循环逻辑 副标题:从核心原理到工业级落地,彻底掌握LangChain生态中下一代Agent编排的灵魂 第一部分:引言与基础 (Introduction & Foundation) 1. 引人注目的标题 深度剖析:LangGraph中的状态管理与循环逻辑——从核心原理到工业级…...

微软新 Xbox 负责人阿莎·夏尔马忙不停:Game Pass 定价待调,“螺旋计划”影响几何?

承诺“Xbox 回归”后,负责人忙不停微软新任 Xbox 负责人承诺“Xbox 回归”后,一直忙得不可开交。阿莎夏尔马在 3 月游戏开发者大会上与发行商会面,最近几周走访微软旗下游戏工作室和产品团队。曾在微软 CoreAI 部门工作的她目前处于学习阶段&…...

vivo X300 Ultra长焦套件集市游玩体验佳,小巧轻便成家庭出游必备!

vivo X300 Ultra长焦套件体验:集市游玩拍出惊喜,小巧轻便再游必备!原本我以为 vivo X300 系列只是个博眼球、难促销售的噱头概念。然而,带着这部手机和精心设计、造型奇特的小镜头套件度过一个周末后,我玩得十分尽兴。…...

RAG基本流程

RAG(Retrieval-Augmented Generation,检索增强生成)是一种将外部知识检索与大语言模型(LLM)生成能力相结合的技术,用于提升回答的准确性、减少“幻觉”(Hallucination),并…...

Super Qwen Voice World智能语音助手开发:基于Python的完整项目实战

Super Qwen Voice World智能语音助手开发:基于Python的完整项目实战 1. 引言:语音交互的新时代 你有没有想过,给自己的项目加上一个能听会说的智能语音助手?就像电影里的科幻场景一样,用自然语言和机器对话&#xff…...

如何监控AWR数据收集Job_DBA_SCHEDULER_JOBS中的BSLN_MAINTAIN_STATS

BSLN_MAINTAIN_STATS状态需查DBA_SCHEDULER_JOBS中含%BSLN%MAINTAIN%STATS%的作业,若无结果则可能被禁用或功能未启用;还需确认维护窗口、AWR快照、statistics_level参数及磁盘空间是否正常。查 Job_DBASCHEDULER_JOBS 里 BSLN_MAINTAIN_STATS 的状态这个…...

【Gartner 2024 DevOps趋势验证】:已上线智能代码生成的团队,MTTR缩短61%,但89%未启用变更影响分析——你的流水线安全吗?

第一章:智能代码生成与DevOps流水线整合 2026奇点智能技术大会(https://ml-summit.org) 现代软件交付已从“人工驱动”转向“AI协同驱动”,智能代码生成不再仅限于IDE插件中的单点辅助,而是深度嵌入CI/CD流水线各阶段,实现从需求…...

Py之pycocotools:从COCO数据加载到自定义标注可视化的实战指南

1. 为什么你需要pycocotools 如果你正在做计算机视觉相关的项目,特别是目标检测、实例分割这类任务,那么COCO数据集一定不会陌生。作为计算机视觉领域最常用的基准数据集之一,COCO提供了超过20万张标注图像,包含80个常见物体类别。…...

阿里云国际版防火墙规则:从安全组配置到流量过滤的深度实操

在云计算的生产环境中,“防火墙规则”是保障业务安全的第一道、也是最关键的一道防线。很多开发者在阿里云国际版(Alibaba Cloud International)开通实例后,常会遇到“SSH连不上”、“Web页面打不开”或者“数据库连接超时”等问题…...

2026届最火的十大降AI率方案实测分析

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 让AIGC(人工智能生成内容)留下的痕迹得以降低,其关键之处…...

2026奇点智能技术大会核心成果发布(AI文档生成引擎v3.2正式开源)

第一章:2026奇点智能技术大会:AI接口文档生成 2026奇点智能技术大会(https://ml-summit.org) 在2026奇点智能技术大会上,AI驱动的接口文档自动生成技术成为核心议题之一。该技术依托多模态大模型对源码、注释、测试用例及通信日志的联合理解…...

ComfyUI-Impact-Pack终极指南:如何快速掌握AI图像增强与面部细化技术

ComfyUI-Impact-Pack终极指南:如何快速掌握AI图像增强与面部细化技术 【免费下载链接】ComfyUI-Impact-Pack Custom nodes pack for ComfyUI This custom node helps to conveniently enhance images through Detector, Detailer, Upscaler, Pipe, and more. 项目…...

20天速通LeetCode day07:前缀和

前言 今日练习目的:掌握前缀和思维。前缀和的核心价值是能实现在O(1)时间求区间和,是各类子数组问题的常用工具 560:和为k的子数组 题目要求:给定一个整数数组nums和整数k 要求:统计并返回和为k的子数组 核心思路&…...

给数学恐惧者的图解:用几何直觉理解SVM中的对偶问题与KKT条件

给数学恐惧者的图解:用几何直觉理解SVM中的对偶问题与KKT条件 第一次接触支持向量机(SVM)时,很多人都会被"对偶问题"和"KKT条件"这两个概念吓退。教科书上密密麻麻的数学推导让人望而生畏,仿佛在提…...

Python实战:从零实现Transformer中的多头注意力机制

1. 理解多头注意力机制的核心思想 多头注意力机制是Transformer架构中最关键的组成部分之一,它让模型能够同时关注输入序列的不同位置,并学习到丰富的上下文信息。想象一下你在阅读一篇文章时,大脑会同时关注当前句子、前文提到的关键概念&am…...

Jupyter Notebook代码补全插件安装踩坑实录:从nbextensions不显示到完美解决(Anaconda环境)

Jupyter Notebook代码补全插件安装踩坑实录:从nbextensions不显示到完美解决(Anaconda环境) 在数据科学和机器学习的工作流中,Jupyter Notebook因其交互式特性广受欢迎,而代码补全功能能显著提升开发效率。然而&#x…...

若依WMS仓库管理系统:企业级仓储管理的现代化解决方案

若依WMS仓库管理系统:企业级仓储管理的现代化解决方案 【免费下载链接】RuoYi-WMS-VUE 若依wms是一套基于若依的wms仓库管理系统,支持lodop和网页打印入库单、出库单。包括仓库/库区/货架管理,出入库管理,客户/供应商/承运商&…...