当前位置: 首页 > article >正文

多路召回RAG系统

项目采用 多路召回 Rerank的RAG架构核心入口是 RagSpecialistAgent.java当用户与问答助手进行语言交流时输入查询首先先进行意图识别判断是单任务还是多任务并且判断是否需要RAG检索因为对于记录热量记账等操作无需进行RAG检索增强只有针对那种用户学校的私有知识才需要走RAG流程。多路召回的具体流程1.向量检索ES KNNk-nearest neighbork 近邻向量搜索给定一个查询向量从索引中找出最相似的Top-K向量文档近似KNN是生产首选采用HNSW算法HNSW是多层图索引把向量组织成多层网络上层稀疏、粗粒度快速过滤候选下层稠密、细粒度精确找近邻搜索从顶层入口 → 逐层往下贪心遍历 → 收集最近邻核心 trade-offm每层每个节点最大连接数默认 16→ 越大越准、越耗内存ef_construction建图时候选队列大小默认 100→ 越大建索引越慢、召回越高private ListMapString, Object knnSearch(String query, String school, int topK) { float[] embedding embeddingModel.embed(query); // 生成向量 // 使用 ES 的 knn 查询 .knn(k - k .field(embedding) .queryVector(queryVector) .k(topK) .numCandidates(topK * 2) ) // 低分过滤score 0.5 }Embedding模型选取的是阿里百炼平台的向量模型会生成1536维向量ES向量检索会采用余弦相似度。2.BM25文本检索关键词检索Best Matching 25ES、Solr 默认经典概率检索打分算法用来做关键词文本相似度匹配检索传统文字内容。词频 TF词语在文档出现次数越多分越高逆文档频率 IDF词越稀有权重越高常用词权重压低文档长度抑制长文档天然占便宜避免越长分越高private ListMapString, Object textSearch(String keyword, String school, int topK) { builder.query(q - q.bool(b - b .must(m - m.match(mc - mc.field(question).query(keyword))) .filter(f - f.term(t - t.field(school).value(school))) )); }3.对双路检索到的结果进行去重使用LinkedHashMapMapString, MapString, Object dedupMap new LinkedHashMap(); // docId school | title String docId getDocId(r); dedupMap.put(docId, r); // 后出现的同ID会被忽略4.Rerank重排序调用 阿里云 DashScope Rerank API qwen3-rerank 模型对多路召回结果进行语义重排。相关问题1为什么是这两种检索方式有没有别的检索方式为什么不用其他的方式还有知识图谱检索 (Knowledge Graph)ColBERT (Late Interaction)等。不选第一个的原因是需要额外构建知识图谱会增加系统的复杂度而且针对学校的私有信息例如奖学金宿舍信息等不会很复杂和困难因此无需使用复杂度较高的检索方式不选第二个的原因是需要特殊的 embedding 模型。2知识库如何进行扩充针对学校的私有知识管理员手动上传文档然后经过数据清洗chunk以及向量化最后存入数据库chunk时会进行少量的重复防止语义断裂针对chunk的切分方式我知道的有以下几种1.固定大小切块基础常用按字符 / Token 固定长度切割设重叠窗口防语义断裂特点实现最简单、速度快适用规整文档、纯文本2. 滑动窗口切块固定步长滑动切割相邻块保留重叠内容特点减少上下文丢失提升召回完整性适用长段落、连续叙事文本3. 语义切块智能最优依据句子语义边界、语义相似度分割不割裂完整含义特点块语义独立完整检索精度最高适用论文、合同、专业资料4. 层级切块先大章节拆分再逐层细分段落、句子树形结构分块特点保留文档层级结构适用书籍、手册、带标题层级文档5. 规则分隔切块按换行、句号、分页符、标题标签、特殊符号切割特点贴合原生排版边界清晰适用PDF、Word、结构化台账6. 标题驱动切块以一级 / 二级标题为分割依据一个标题对应一个块特点主题高度统一适用报告、规章制度、技术文档7. 问答式切块把原文拆成独立问答单元一问一答为单块特点贴合提问检索习惯适用题库、FAQ、客服话术5.向量模型与重排模型的选择应该注意什么问题首先是向量模型选型时需要注意第一领域要匹配业务场景专业场景可以使用微调过的专用模型通用文本使用通用预训练模型保障语义表征贴合业务特征第二维度严格统一模型输出向量维度必须和向量数据库索引维度保持一致避免入库、检索异常第三权衡精度与性能参数量、向量维度越高语义效果越好但资源消耗、推理耗时同步上升根据并发规模、硬件资源合理取舍第四适配相似度算法模型输出格式匹配库内设定的余弦、点积、欧式距离计算规则保证相似度判定有效第五上下文窗口适配切块长度根据文本分块大小选择对应上下文长度的模型防止文本截断丢失关键信息。其次重排模型选型时需要注意第一明确使用定位重排仅作用于检索召回后的候选集不替代全量检索用来精细化筛选排序结果第二把控候选集数量常规选取 20-50 条召回结果送入重排数量过多会大幅增加耗时影响接口响应速度第三匹配文本长度依据分块文本篇幅选择对应窗口大小的重排模型避免超长文本无法完整解析第四按需取舍精度高精准业务选用高精度重排模型高并发吞吐场景选用轻量化模型平衡效率。6.如何评估你的RAG的效果如何向量模型效果评估基础召回指标采用召回率、精确率、F1 分数评判检索匹配度检验相关文档能否被有效筛选出来。相似度分布检验查看同类文本向量距离、异类文本向量距离合格模型同类聚集、异类区分明显。场景实测验证结合业务测试集提问对比真实标准答案判断语义匹配、专业术语识别能力。性能指标评估统计单条推理耗时、内存占用兼顾检索精度与线上并发承载能力。重排模型效果评估排序质量指标使用 NDCG、MAP 评价排序合理性越相关的文档排名越靠前。正负样本区分度测试模型能否有效区分高度相关、弱相关、无关文本过滤无效干扰结果。边界案例测试针对歧义语句、近似语义、专业话术做测试检验排序稳定性。耗时开销评估统计重排处理耗时控制候选集处理时延满足接口响应要求。整体链路综合评估全流程对比打分分别单用 BM25、向量检索、向量加重排组合横向对比最终检索准确率。极端用例验证短句、长文本、模糊语义、专业冷门词汇全覆盖测试鲁棒性。业务落地验收贴合实际业务查询场景以真实使用体验、答案可用性作为最终评判依据。

相关文章:

多路召回RAG系统

项目采用 多路召回 Rerank的RAG架构,核心入口是 RagSpecialistAgent.java,当用户与问答助手进行语言交流时,输入查询,首先先进行意图识别,判断是单任务还是多任务,并且判断是否需要RAG检索,因为…...

Adobe-GenP 3.0终极指南:5分钟掌握Adobe全系列软件激活技巧

Adobe-GenP 3.0终极指南:5分钟掌握Adobe全系列软件激活技巧 【免费下载链接】Adobe-GenP Adobe CC 2019/2020/2021/2022/2023 GenP Universal Patch 3.0 项目地址: https://gitcode.com/gh_mirrors/ad/Adobe-GenP Adobe-GenP 3.0是一款功能强大的Adobe Creat…...

为什么83%的Gemini CSR活动陷入“形式主义陷阱”?顶级科技公司首席可持续官亲述3个致命断层与修复路径

更多请点击: https://codechina.net 第一章:Gemini CSR活动策划的底层逻辑重构 传统CSR(企业社会责任)活动策划常陷于“项目驱动”与“KPI导向”的线性思维,而Gemini平台引入的CSR框架则以AI原生协同为前提&#xff0…...

【Google官方未公开】Gemini免费层底层计费逻辑揭秘:按token粒度精算,92%用户多花了37%配额

更多请点击: https://codechina.net 第一章:Gemini免费额度的本质与边界认知 Gemini 的免费额度并非无条件的“无限试用”,而是由 Google Cloud 的配额管理系统(Quota System)严格管控的服务配额,其本质是…...

AI时代公众号生存指南(ChatGPT自动化运营全链路拆解)

更多请点击: https://codechina.net 第一章:AI时代公众号的生存逻辑与定位重构 在生成式AI深度渗透内容生态的当下,公众号已从“流量分发管道”蜕变为“人机协同的认知接口”。其生存逻辑不再依赖单一的推送频次或标题党技巧,而取…...

【仅剩72小时有效】ChatGPT最新指令缓存机制变更预警:所有未启用“strict_mode”配置的账号将于4月30日降权

更多请点击: https://kaifayun.com 第一章:ChatGPT自定义指令设置的底层逻辑与变更背景 ChatGPT 的自定义指令(Custom Instructions)并非简单的前端配置开关,而是深度集成于模型推理前处理(pre-inference …...

如何用.NET Windows Desktop Runtime彻底解决Windows桌面应用部署难题?终极指南来了!

如何用.NET Windows Desktop Runtime彻底解决Windows桌面应用部署难题?终极指南来了! 【免费下载链接】windowsdesktop 项目地址: https://gitcode.com/gh_mirrors/wi/windowsdesktop 想象一下这样的场景:你花费数月精心开发的Window…...

DeepSeek安全认证落地实战手册(含ISO 27001+AI治理双认证模板)

更多请点击: https://codechina.net 第一章:DeepSeek安全合规认证全景概览 DeepSeek系列大模型在企业级落地过程中,安全与合规能力是核心信任基石。其认证体系覆盖全球主流监管框架与行业标准,形成多维度、全生命周期的保障网络。…...

Palworld存档迁移终极解决方案:palworld-host-save-fix完整教程

Palworld存档迁移终极解决方案:palworld-host-save-fix完整教程 【免费下载链接】palworld-host-save-fix Fixes the bug which forces a player to create a new character when they already have a save. Useful for migrating maps from co-op to dedicated ser…...

VideoSrt:重新定义本地化视频字幕生成的技术架构与实践范式

VideoSrt:重新定义本地化视频字幕生成的技术架构与实践范式 【免费下载链接】video-srt-windows 这是一个可以识别视频语音自动生成字幕SRT文件的开源 Windows-GUI 软件工具。 项目地址: https://gitcode.com/gh_mirrors/vi/video-srt-windows 在多媒体内容创…...

【DeepSeek敏感信息过滤实战指南】:20年安全专家亲授5大误判陷阱与99.97%准确率调优公式

更多请点击: https://codechina.net 第一章:DeepSeek敏感信息过滤的核心原理与演进脉络 DeepSeek敏感信息过滤系统并非依赖单一规则引擎或静态词库,而是融合多层级语义理解、上下文感知建模与动态策略调度的复合型防护架构。其核心原理建立在…...

如何高效使用Monitorian:3个智能自动化技巧解放你的双手

如何高效使用Monitorian:3个智能自动化技巧解放你的双手 【免费下载链接】Monitorian A Windows desktop tool to adjust the brightness of multiple monitors with ease 项目地址: https://gitcode.com/gh_mirrors/mo/Monitorian 你是否还在为多显示器亮度…...

Taotoken 的 Token Plan 套餐如何帮助初创项目更可控地管理大模型调用预算

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 Taotoken 的 Token Plan 套餐如何帮助初创项目更可控地管理大模型调用预算 对于预算有限的初创团队或个人开发者而言,大…...

5大AI音频处理神器:OpenVINO插件让Audacity变身专业音频工作站 [特殊字符]

5大AI音频处理神器:OpenVINO插件让Audacity变身专业音频工作站 🎵 【免费下载链接】openvino-plugins-ai-audacity A set of AI-enabled effects, generators, and analyzers for Audacity. 项目地址: https://gitcode.com/gh_mirrors/op/openvino-plu…...

【专业级】Draw.io ECE电路设计库:电子工程师的绘图效率革命

【专业级】Draw.io ECE电路设计库:电子工程师的绘图效率革命 【免费下载链接】Draw-io-ECE Custom-made draw.io-shapes - in the form of an importable library - for drawing circuits and conceptual drawings in draw.io. 项目地址: https://gitcode.com/gh_…...

毫米波雷达非接触生命体征监测技术解密:从8.6米远距探测到医疗级精准分析

毫米波雷达非接触生命体征监测技术解密:从8.6米远距探测到医疗级精准分析 【免费下载链接】mmVital-Signs mmVital-Signs project aims at vital signs detection and provide standard python API from Texas Instrument (TI) mmWave hardware, such as xWR14xx, x…...

如何快速释放微信空间:CleanMyWechat终极清理指南

如何快速释放微信空间:CleanMyWechat终极清理指南 【免费下载链接】CleanMyWechat 自动删除 PC 端微信缓存数据,包括从所有聊天中自动下载的大量文件、视频、图片等数据内容,解放你的空间。 项目地址: https://gitcode.com/gh_mirrors/cl/C…...

基于SpringBoot的校园心理健康匿名互助社区毕设源码

博主介绍:✌ 专注于Java,python,✌关注✌私信我✌具体的问题,我会尽力帮助你。一、研究目的本研究旨在构建一个基于Spring Boot与Vue框架的校园心理健康匿名互助社区系统以解决当前高校心理健康服务中存在的信息传播效率低下、公众参与度不足以及资源利用…...

基于SpringBoot的技术博客与开源知识分享平台毕设

博主介绍:✌ 专注于Java,python,✌关注✌私信我✌具体的问题,我会尽力帮助你。一、研究目的本研究旨在构建一个基于Spring Boot技术栈的技术博客与开源知识分享平台以解决传统知识传播模式中存在的信息孤岛现象与协作效率低下问题。随着信息技术的快速发…...

利用Taotoken多模型广场为不同业务场景选择最优模型

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 利用Taotoken多模型广场为不同业务场景选择最优模型 当你的产品需要集成AI能力时,面对市场上众多的模型提供商和复杂的…...

独立开发者如何利用 Taotoken 的 Token Plan 降低项目长期成本

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 独立开发者如何利用 Taotoken 的 Token Plan 降低项目长期成本 对于独立开发者而言,项目的长期维护成本是必须精打细算…...

TestDisk PhotoRec:免费开源数据恢复工具的终极完整指南

TestDisk & PhotoRec:免费开源数据恢复工具的终极完整指南 【免费下载链接】testdisk TestDisk & PhotoRec 项目地址: https://gitcode.com/gh_mirrors/te/testdisk 当您不小心删除了重要文件,或者硬盘分区突然消失时,那种恐慌…...

告别TeamViewer!在Ubuntu 22.04上安装向日葵远程控制的完整保姆级教程

告别TeamViewer!在Ubuntu 22.04上安装向日葵远程控制的完整保姆级教程 远程协作已成为现代开发者和运维人员的日常刚需。当TeamViewer频繁弹出商业使用提醒或遭遇连接不稳定时,许多技术从业者开始寻找更轻量、更自由的替代方案。作为国内领先的远程控制…...

从云服务器到树莓派:不同场景下Linux IP地址类型的管理与查看技巧(ip/nmcli实战)

从云服务器到树莓派:Linux IP地址管理的场景化实战指南在混合计算环境中工作的开发者常常面临一个看似简单却充满陷阱的问题:如何快速确定当前Linux设备的IP地址类型?这个问题在公有云、本地虚拟机和嵌入式设备等不同场景下有着截然不同的答案…...

CentOS 7 Minimal安装后,别急着装图形界面!先试试这个命令搞定粘贴和联网

CentOS 7 Minimal安装后的高效运维起点:命令行解决粘贴与联网难题当你第一次启动刚安装好的CentOS 7 Minimal系统,面对漆黑终端闪烁的光标,是否感到一丝不安?许多新手在遇到无法从宿主机粘贴命令或无法联网时,第一反应…...

科学机器学习:从隐式动力学到时空算子学习的模型构建与实践

1. 科学机器学习中的模型构建:从数据到物理规律的桥梁在工程与科学计算的深水区,我们常常面对一类“熟悉的陌生人”:系统的物理规律在宏观上已被方程描述,但微观机理复杂、参数未知,或者直接求解的计算成本高到令人望而…...

CentOS停服后,我为什么选了Rocky Linux 8.9?手把手教你从下载到配置网卡(附避坑点)

CentOS停服后,我为什么选了Rocky Linux 8.9?手把手教你从下载到配置网卡(附避坑点)当CentOS宣布转向Stream滚动更新模式时,整个运维圈都在寻找稳定可靠的替代方案。作为一位经历过CentOS 5到7全周期的系统管理员&#…...

DeepSeek RAG场景下的请求倾斜难题,如何用一致性哈希+请求指纹预分流实现毫秒级负载再均衡?

更多请点击: https://kaifayun.com 第一章:DeepSeek RAG场景下请求倾斜的本质与影响 在 DeepSeek RAG(Retrieval-Augmented Generation)系统中,请求倾斜并非简单的流量分布不均现象,而是由检索模块、向量数…...

DeepSeek训练数据准备实战手册(含GitHub可复现Pipeline):覆盖去重、毒性过滤、领域配比、版权脱敏、质量打分五大核心模块

更多请点击: https://kaifayun.com 第一章:DeepSeek训练数据准备概述 DeepSeek系列大语言模型的训练质量高度依赖于原始数据的规模、多样性与清洗精度。数据准备并非简单拼接语料,而是一个涵盖采集、去重、过滤、格式标准化与安全对齐的系统…...

破解行业共性管控难题,推动矿山安全体系迭代升级 ——基于视频孪生无感定位的矿山安全体系革新技术方案

破解行业共性管控难题,推动矿山安全体系迭代升级——基于视频孪生无感定位的矿山安全体系革新技术方案一、方案引言国内煤炭矿山长期在人员监管、灾害应急、隐患溯源、空间管控层面沉淀诸多共性难题,佩戴管控流于形式、监测数据失真失实、灾变监测体系快…...