当前位置: 首页 > article >正文

本地知识库RAG总结

目录

RAG流程:

知识库的要求:

知识抽取:

知识存储:

向量化:

知识检索:

应用客户端:

RAG智能问答应用几个痛点:

如何提升召回率改进思路:

如何提升回答专业性:

RAG评测:

总结:

参考链接:


RAG流程:

知识加载 -> 知识切片 -> 信息抽取 -> 知识加工(embedding/graph/keywords) -> 知识存储

知识库的要求:

1、支持多人同时编辑

2、事件通知机制:新增或修改以后同步通知(有最佳)

3、有对外的api或可以爬取的页面

4、支持多路召回,检索的时候可以同时从多个知识库进行检索

知识抽取:

1、目前支持向量抽取,知识图谱抽取,关键词抽取。

知识图谱抽取 -> knowledge graph, 通过利用大模型提取(实体,关系,实体)三元组结构。

倒排索引抽取 -> keywords分词,可以用es默认的分词库,也可以使用es的插件模式自定义分词

知识存储:

Dify 在v0.6.x 及更高版本中默认集成PGVector(基于 PostgreSQL 的向量扩展)在配置文件中可改

MaxKB 默认使用Weaviate作为向量存储引擎

数据库

存储容量

查询延迟

扩展性

典型场景

Milvus

PB级(分布式)

毫秒级

⭐⭐⭐⭐⭐

大规模AI应用

FAISS

内存限制

微秒~毫秒级

⭐⭐

内存内快速检索

Weaviate

TB

毫秒级

⭐⭐⭐

混合查询

Vespa

PB

<50ms

⭐⭐⭐⭐

企业级实时搜索

Qdrant

TB

毫秒级

⭐⭐⭐

带过滤的向量搜索

Chroma

GB

毫秒级

原型开发与小规模应用

Elastic

PB

毫秒级

⭐⭐⭐⭐

日志分析、全文搜索

选型建议

超大规模数据+分布式:Milvus、Vespa。

高维向量+GPU加速:FAISS(需自研存储层)、Milvus。

轻量级+快速开发:Chroma、Annoy。

混合查询(向量+属性):Weaviate、Qdrant。

向量化:

高精度要求建议自己写程序处理,更准确一些,能解决索引质量和信息丢失的问题

分段优化4原则:  
语义完整性校验(BERTScore>0.85)  
动态重叠窗口(建议15%-20%文本长度)  
关键实体锚点锁定(使用spaCy实体识别)

知识切片默认使用分割符separator(换行”\n”)+固定size,其他切片方式包括基于页面page、段落paragraph、markdown header等。

知识检索:

question -> rewrite -> similarity_search -> rerank -> context_candidates

Graph RAG

首先通过模型进行关键词抽取,这里可以通过传统的nlp技术进行分词,也可以通过大模型进行分词,然后进行关键词按照同义词做扩充,找到关键词的候选列表,最好根据关键词候选列表调用explore方法召回局部子图。

应用客户端:

产品

形式

对外api服务

外部知识库

外部向量库

cherry studio

桌面

anythingLLM

桌面或web

dify

web

MaxKB

web

ragflow

web

/

FastGPT

web

openwebui

web

RAG智能问答应用几个痛点:

1、知识库文档越来越多以后,检索噪音大,召回准确率不高

2、召回不全,完整性不够

3、召回和用户问题意图相关性不大

4、只能回答静态数据,无法动态获取知识,导致答疑应用比较呆,比较笨。

5、用于大模型推理相关上下文的召回率低,推不准确,幻觉严重

6、从数据库中检索到包含答案的文档,因为重排序/过滤规则等策略,导致有用的文档没有被整合到上下文中。

7、召回的上下文中,依然存在过多的噪音或矛盾,导致问题难以被准确回复。

8、仅基于上下文提供的内容生成答案,会导致回答的内容不够充整。

9、当用户的提问过于笼统时,也会出现准确性不足的问题。

10、召回率还有巨大改进空间。

11、已经有现成的知识库(自动采集)

12、嵌入向量拆分的时候可能会丢失信息(分段优化,分段最大长度500,分段重叠长度50)

13、给llm的信息受令牌数量限制(分级召回策略)

14、使用dify建知识库加集成ollama,感觉效果一般(索引优化)

15、局域网内多终端访问同一个向量数据库(web应用)

如何提升召回率改进思路:

1、融入“关键字检索”技术,用于排除召回文档中和问题关键字无关的内容。

2、保持双向量数据库架构,保持chunk中前后端以及文档结构描述。

3、融入“知识图谱”技术,将文档中的实体和属性形成可解释的知识图谱,在检索的时候,通过问题中语义实体或关系,基于知识图谱库获取和该问题推理相关的上下文(事实或逻辑),让大模型按照可解释的推理过程进行问题的分解和答案生成。

4、构建依据问题的自动检素路由,用于提高问题的回复效率。

5、知识处理优化

非结构化/半结构化/结构化数据的处理,准备决定着RAG应用的上限,因此首先需要在知识处理,索引阶段做大量的细粒度的ETL工作,主要优化的思路方向:

(1)非结构化 -> 结构化:有条理地组织知识信息。

(2)提取更加丰富的, 多元化的语义信息。

(3)建议将docx、txt或者其他文本事先处理为pdf或者markdown格式,这样可以利用一些识别工具更好的提取文本中的各项内容。

(4)提取文本中的表格信息。

(5)保留markdown和pdf的标题层级信息,为接下来的层级关系树等索引方式准备。

(6)保留图片链接,公式等信息,也统一处理成markdown的格式。

(7)切片Chunk尽量保持完整,保存上下文完整性和相关性,这直接关乎回复准确率。保持在大模型的上下文限制内,分块保证输入到LLMs的文本不会超过其token限制。

(8)图片 + 表格 单独抽取成Chunk,将表格和图片标题保留到metadata元数据里。

(9)文档内容尽量按照标题层级或者Markdown Header进行拆分,尽可能保留chunk的完整性。

(10)如果有自定义分隔符可以按照自定义分割符切分。

(11)知识图谱,依赖大模型提取(实体,关系,实体)三元组关系。依赖前期高质量,结构化的知识准备,清洗,抽取,通过业务规则通过手动或者自定义SOP流程构建知识图谱。

(12)Doc Tree,以标题层级构建chunk的树形节点,形成一个多叉树结构,每一层级节点只需要存储文档标题,叶子节点存储具体的文本内容。这样利用树的遍历算法,如果用户问题命中相关非叶子标题节点,就可以将相关的子节点数据进行召回。这样就不会存在chunk完整性缺失的问题。

(13)提取QA对,需要前置通过预定义或者模型抽取的方式提取QA对信息。预定义:预先为每个chunk添加一些问题。模型抽取:通过给定一下上下文,让模型进行QA对抽取。

(14)元数据抽取,根据自身业务数据特点,提取数据的特征进行保留,比如标签,类别,时间,版本等元数据属性。

(15)总结提取,通过mapreduce等方式分段抽取,通过模型为每段chunk提取摘要信息。

6、RAG流程优化

(1)原始问题分类,通过问题分类可以LLM分类(LLMExtractor),构建embedding+逻辑回归实现双塔模型,text2nlu DB-GPT-Hub/src/dbgpt-hub-nlu/README.zh.md at main · eosphoros-ai/DB-GPT-Hub。tip:需要高质量的Embedding模型,推荐bge-v1.5-large

(2)反问用户,如果语义不清晰将问题再抛给用户进行问题澄清,通过多轮交互。通过热搜词库根据语义相关性给用户推荐他想要的问题候选列表

(3)槽位提取,目的是获取用户问题中的关键slot信息,比如意图,业务属性等等。LLM提取(LLMExtractor)

(4)问题改写,热搜词库进行改写,多轮交互。

(5)元数据过滤,当我们把索引分成许多chunks并且都存储在相同的知识空间里面,检索效率会成为问题。比如用户问"浙江我武科技公司"相关信息时,并不想召回其他公司的信息。因此,如果可以通过公司名称元数据属性先进行过滤,就会大大提升效率和相关度。

(6)多策略混合召回。按照优先级召回,分别为不同的检索器定义优先级,检索到内容后立即返回。定义不同检索,比如qa_retriever, doc_tree_retriever写入到队列里面, 通过队列的先进先出的特性实现优先级召回。

(7)多知识索引/空间并行召回。通过知识的不同索引形式,通过并行召回方式获取候选列表,保证召回完整性。

(8)后置过滤。经过粗筛候选列表后,怎么通过精筛过滤噪音呢?无关的候选分片剔除、时效性剔除、业务属性不满足剔除、topk去重、重排序,仅仅靠粗筛的召回还不够,这时候我们需要有一些策略来对检索的结果做重排序,比如把组合相关度、匹配度等因素做一些重新调整,得到更符合我们业务场景的排序。因为在这一步之后,我们就会把结果送给LLM进行最终处理了,所以这一部分的结果很重要。使用相关重排序模型进行精筛,可以使用开源的模型,也可以使用带业务语义微调的模型。

(9)显示优化+兜底话术/话题引导。让模型使用markdown的格式进行输出。

如何提升回答专业性:

原生RAG的困难:

1、文档来源复杂,质量参差不齐,要精确解析文档非常困难。对于文档中的公式、图片和表格等,既要保持原语义的基础上,又要处理为字符,目前的技术相当的困难。

2、当文档的数量增多增大的时候,正确地召回到包含答案的文档是最大的挑战。原生RAG召回的文档和问题的语义关联相差甚远。

3、当噪声文档多的话,会正确的答案生成造成极大干扰。

4、专业技术文档里有大量的专业术语、缩写,大模型理解不正确。

5、问题只涉及局部信息时,召回率高;问题涉及到全局信息时,召回率就很低。

改进思路:

1、生成问答对新语料

基于Qwen2-72B 模型,利用提示词,对每个chunk的内容产生多个问答对数据,将问答数据整合(N:1)Embedding,存储“问答向量数据库”中。

2、Chunk的前后段和文档结构保持

第一、依据自然段,对原文档进行切分,以自然段为chunk基准。第二,对每个自然段进行摘要。第三,将某自然段的前后自然段摘要,链接到该自然段前后,作为前后段。第四,将该自然段所处文档的结构,作为上下文添加到该自然段中。最后将以上整合的语块以Embedding的方式,存储在“原文档+前后端+文档结构向量数据库”中。

3、利用工具拆分表格和图像

用专门的工具对文档内容中涉及图片、公式(图片格式)和表格(图片格式)进行重命名,其图片保存为同文档目录下的同名的图片。在检索成功后,依据文字中的名称从同目录下获取对应的图片。

RAG评测:

在评估智能问答流程时,需要单独对召回相关性准确率以及模型问答的相关性进行评估,然后再综合考虑,以判断RAG流程在哪些方面仍需改进。

RAG召回指标(RetrieverEvaluationMetric):

RetrieverHitRateMetric:命中率衡量的是RAG retriever召回出现在检索结果前top-k个文档中的比例。

RetrieverMRRMetric: Mean Reciprocal Rank通过分析最相关文档在检索结果里的排名来计算每个查询的准确性。更具体地说,它是所有查询的相关文档排名倒数的平均值。例如,若最相关的文档排在第一位,其倒数排名为 1;排在第二位时,为 1/2;以此类推。

RetrieverSimilarityMetric: 相似度指标计算,计算召回内容与预测内容的相似度。

模型生成答案指标:

AnswerRelevancyMetric:智能体答案相关性指标,通过智能体答案与用户提问的匹配程度。高相关性的答案不仅要求模型能够理解用户的问题,还要求其能够生成与问题密切相关的答案。这直接影响到用户的满意度和模型的实用性。

总结:

1、Dify的强大之处在于流程引擎。知识库这方面,尤其是检索Retrieval这块其实只是基础版的实现,实验室跑跑demo还行,实际使用的话,召回很低。

2、摆在面前的3条路,何去何从,引人思考。第一,自己从0开始实现RAG,优点是灵活度高,可以定制,召回有保证,缺点是工作量大。第二,使用开源的RAG,优点是工作量少,缺点是召回太低,自己源码级别的修改又不知道自己是否能cover。第三,基于开源的做2次开发,优点解决了召回的问题,缺点还是不知道是否可以cover。

3、RAG这套流程想要做好,最少需要2个人以上的团队。

参考链接:

http://www.360doc.com/content/25/0208/14/58415156_1146300439.shtml

万字长文讲透 RAG在实际落地场景中的优化

架构思考 · 语雀

评估(Evaluation) · 语雀

相关文章:

本地知识库RAG总结

目录 RAG流程: 知识库的要求&#xff1a; 知识抽取&#xff1a; 知识存储: 向量化: 知识检索: 应用客户端: RAG智能问答应用几个痛点&#xff1a; 如何提升召回率改进思路&#xff1a; 如何提升回答专业性&#xff1a; RAG评测&#xff1a; 总结&#xff1a; 参考…...

torch_geometric 安装

环境监测&#xff1a; import torch print(torch.__version__) # 查看pytorch安装的版本号 print(torch.cuda.is_available()) # 查看cuda是否可用。True为可用&#xff0c;即是gpu版本pytorch print(torch.cuda.get_device_name(0)) # 返回GPU型号 …...

网页打印很简单!用web打印插件lodop轻松实现文件打印

最近&#xff0c;给客户发一个事件提醒软件&#xff0c;其中客户要求实现打印功能&#xff0c;因为是用asp.net mvc 开发首先考虑到用水晶报表来实现&#xff08;crystalReport&#xff09;&#xff0c;以前开发c# winform程序&#xff0c;感觉水晶报表还是蛮好的&#xff0c;但…...

北京迅为iTOP-RK3568开发板OpenHarmony系统南向驱动开发实操-HDF驱动配置LED

瑞芯微RK3568芯片是一款定位中高端的通用型SOC&#xff0c;采用22nm制程工艺&#xff0c;搭载一颗四核Cortex-A55处理器和Mali G52 2EE 图形处理器。RK3568 支持4K 解码和 1080P 编码&#xff0c;支持SATA/PCIE/USB3.0 外围接口。RK3568内置独立NPU&#xff0c;可用于轻量级人工…...

C语言函数全解析 | 零基础入门指南

&#x1f4da; C语言函数全解析 | 零基础入门指南 &#x1f4d1; 目录 &#x1f31f; 什么是函数&#xff1f;&#x1f527; 函数的定义与结构⚙️ 函数参数与返回值&#x1f4a1; 函数声明与调用&#x1f3c1; Main函数详解&#x1f680; 实战案例演示 1. 什么是函数 功能单…...

驻场运维服务方案书(Word文件)

目 录 第一章 背景分析 1.1. 项目背景 1.2. 项目目标 1.3. 系统现状 1.3.1. 网络系统 1.3.2. 设备清单梳理 1.3.3. 应用系统 第二章 需求分析及理解 2.1. 在重要日期能保障信息系统安全 2.2. 信息系统可长期安全、持续、稳定的运行 2.3. 提升发现安全问题、解决安全…...

【时时三省】(C语言基础)用printf函数输出数据2

山不在高&#xff0c;有仙则名。水不在深&#xff0c;有龙则灵。 ----CSDN 时时三省 格式字符 在输出时&#xff0c;对不同类型的数据要指定不同的格式声明&#xff0c;而格式声明中最重要的内容是格式字符。常用的有以下几种格式字符。 ( 1 ) d格式符。用来输出一个有符号的…...

django框架 [面试篇]

Django 是一个基于 Python 的web框架&#xff0c;遵循"快速开发&#xff0c;不重复造轮子(dont repeat yourself)"的原则&#xff0c;帮助用户构建web应用。 而 Django 它本身提供了一些全栈式的一些组件&#xff0c;包括了 ORM&#xff0c;模板引擎&#xff0c;表单…...

吴恩达机器学习笔记复盘(三)Jupyter NoteBook

Jupyter NoteBook Jupyter是一个开源的交互式计算环境&#xff1a; 特点 交互式编程&#xff1a;支持以单元格为单位编写和运行代码&#xff0c;用户可以实时看到代码的执行结果&#xff0c;便于逐步调试和理解代码逻辑。多语言支持&#xff1a;不仅支持Python&#xff0c;还…...

【Docker项目实战】使用Docker部署serverMmon青蛇探针(详细教程)

【Docker项目实战】使用Docker部署serverMmon青蛇探针 一、serverMmon介绍1.1 serverMmon 简介1.2 主要特点二、本次实践规划2.1 本地环境规划2.2 本次实践介绍三、本地环境检查3.1 检查Docker服务状态3.2 检查Docker版本3.3 检查docker compose 版本四、下载serverMmon镜像五、…...

信息学奥赛一本通 1449:【例题2】魔板

题目 1449&#xff1a;【例题2】魔板 分析 首先注意&#xff1a;输入是按顺时针给出的&#xff0c;但我们处理时需要按正常顺序排&#xff0c;可以用以下代码读入 string s(8, 0); // 初始化全零字符串 cin>>s[0]>>s[1]>>s[2]>>s[3]; cin>>…...

Linly-Talker:开源数字人框架的技术解析与影响

一、引言&#xff1a;AI 数字人的发展趋势 近年来&#xff0c;数字人&#xff08;Digital Human&#xff09; 技术迅速发展&#xff0c;从最早的 2D 虚拟主播&#xff0c;到如今能够进行实时交互的 3D 智能助手&#xff0c;AI 在多模态交互领域的应用愈发广泛。各大互联网公司…...

你的完美主义:从缺陷到超能力

所属专栏&#xff1a;《逻辑辨证系列》 前情回顾&#xff1a; 《完美还是完成》&#xff08;一&#xff09;&#xff1a;完成还是完美—完成大于完美 时间、机会、情绪成本 先完成 … 本期&#xff1a; 《完美还是完成》&#xff08;二&#xff09;&#xff1a;你的完美主…...

Java 8 + Tomcat 9.0.102 的稳定环境搭建方案,适用于生产环境

一、安装 Java 8 安装 OpenJDK 8 bash sudo apt update sudo apt install openjdk-8-jdk -y 验证安装 bash java -version 应输出类似: openjdk version “1.8.0_412” OpenJDK Runtime Environment (build 1.8.0_412-8u412-ga-1~22.04-b08) OpenJDK 64-Bit Server VM (bui…...

Java基础关键_021_集合(五)

目 录 一、HashMap 1.key 存储自定义类型 2.Hash 表存储原理 3.重写 hashCode 和 equals 方法 4.key 为 null 5.jdk 8 后新特性 &#xff08;1&#xff09;初始化时 &#xff08;2&#xff09;插入 &#xff08;3&#xff09;数据结构 6.容量 二、LinkedHashMap 1.…...

mcp 是一种什么协议,怎么构建mcpserver,怎么实现多智能体的调用

MCP&#xff08;Message Control Protocol&#xff09;是一种用于分布式系统中多智能体通信的协议框架&#xff0c;特别适合于构建多智能体系统。下面我将介绍MCP协议的基本原理以及如何构建MCP服务器和实现多智能体调用。 MCP协议概述 MCP协议主要用于定义智能体之间如何交换…...

Nginx的流式响应配置详解

现在大模型场景繁多&#xff0c;项目中涉及nginx转发大模型的流式数据时&#xff0c;需配置nginx的转发策略&#xff1a; location /streaming {proxy_pass http://backend_server;proxy_cache off; # 关闭缓存proxy_buffering off; # 关闭代理缓冲chunked_transfer_encoding …...

windows10 清理 C 盘

系统自带功能清理 磁盘清理&#xff1a;右键单击 C 盘&#xff0c;选择“属性” &#xff0c;点击“磁盘清理” &#xff0c;系统会开始扫描可清理的文件&#xff0c;如临时文件、回收站文件、系统更新备份文件等。扫描完成后&#xff0c;勾选想要清理的文件类型&#xff0c;点…...

浅谈Linux中的Shell及其原理

浅谈Linux中的Shell及其原理 Linux中Shell的运行原理github地址前言一、Linux内核与Shell的关系1.1 操作系统核心1.2 用户与内核的隔离 二、Shell的演进与核心机制2.1 发展历程2.2 核心功能解析2.3 shell的工作流程1. 用户输入命令2. 解析器拆分指令3. 扩展器处理动态内容变量替…...

ARM内部寄存器与常用汇编指令(ARM汇编)

1 地址空间&RISC与CISC CISC&#xff1a;复杂指令集计算机 RISC&#xff1a;精简指令集计算机 RISC 与 CISC 的比较 2 ARM内部寄存器 3 ARM汇编概述 RISC精简指令可以大致分为几类&#xff1a; 1.内存读写 2.运算 3.跳转/分支 4.比较 而指令的集合就称之为“指令集”…...

【QT5 Widgets示例】Model/View编程初探

文章目录 Model/ViewModel/View编程的优点常见Model类和View类Model/View应用程序示例只读的表格修改文本外观显示变化的数据设置表格标头可编辑视图示例树结构视图示例获取视图选中项 Model/View Model/View编程的优点 Model/View编程介绍&#xff1a;https://doc.qt.io/qt-…...

一键优化右键菜单,高效又清爽!

打工人们你们好&#xff01;这里是摸鱼 特供版~ 电脑右键菜单杂乱无章&#xff0c;常用功能被淹没&#xff1f;图标显示异常、打印出错让人手足无措&#xff1f;别担心&#xff0c;Easy Context Menu来帮你&#xff01;这是一款右键菜单管理工具&#xff0c;能快速清理不必要的…...

排查数据库的正在执行的占用的慢sql语句,可以查看生产的执行sql语句时间

1. 生产报错异常&#xff1a; org.springframework.transaction.CannotCreateTransactionException: Could not open JDBC Connection for transaction; nested exception is java.sql.SQLException: master - Interrupted during connection acquisition2.在数据库执行查询生…...

Java泛型程序设计使用方法

Java泛型程序设计是Java语言中一项强大的特性&#xff0c;它允许你编写更加通用和类型安全的代码。以下是Java泛型程序设计的使用方法和技巧&#xff1a; 1. 基本概念 泛型类&#xff1a;可以定义一个类&#xff0c;其中的某些类型是参数化的。 public class Box<T> {pr…...

成绩排序(结构体排序)

成绩排序 #include<stdio.h> #include<stdlib.h> struct student{char name[50];int score;int order; }; int flag; int cmp(const void *a,const void *b){struct student *s1(struct student*)a;struct student *s2(struct student*)b;if(s1->scores2->…...

【redis】lua脚本

在分布式系统与高并发架构的战场中&#xff0c;开发者们始终在与两个永恒的命题博弈&#xff1a;数据一致性与系统性能。当我们试图用Redis构建高速缓存、实现分布式锁或设计秒杀系统时&#xff0c;往往会陷入这样的困境——如何在保证原子性的同时&#xff0c;避免网络往返带来…...

Oracle中的INHERIT PRIVILEGES权限

Oracle中的INHERIT PRIVILEGES权限 存储过程和用户函数的AUTHID属性调用者权限vs定义者权限一个简单的示例INHERIT PRIVILEGES权限的含义INHERIT PRIVILEGES权限的安全隐患注意到Oracle 19c数据库中有如下权限信息: SQL> select grantor,grantee,table_name,privilege fro…...

Kafka相关的面试题

以下是150道Kafka相关的面试题及简洁回答&#xff1a; Kafka基础概念 1. 什么是Kafka&#xff1f; Kafka是一个分布式、可扩展、容错的发布-订阅消息系统&#xff0c;最初由LinkedIn开发&#xff0c;现为Apache项目。它适用于高吞吐量的场景&#xff0c;如大数据处理和实时数据…...

OpenHarmony-XTS测试

OpenHarmony-XTS测试 OpenHarmony-XTS测试环境搭建测试准备开始运行PS OpenHarmony-XTS测试 针对OpenHarmony版本进行XTS测试使用记录。 windows环境。 以acts套件为例。 环境搭建 获取测试套件&#xff0c;两种方法 1&#xff09;官网下载&#xff1a;https://www.openharm…...

【物联网-WIFI】

物联网-WIFI ■ ESP32-C3-模块简介■ ESP32-C3-■ ESP32-C3-■ WIFI-模组■ WIFI-■ WIFI- ■ ESP32-C3-模块简介 ■ ESP32-C3- ■ ESP32-C3- ■ WIFI-模组 ■ WIFI- ■ WIFI-...