当前位置: 首页 > news >正文

dify实现分析-rag-关键词索引的实现

概述

在dify中有两种构建索引的方式,一种是经济型,另一种是高质量索引(通过向量数据库来实现)。其中经济型就是关键词索引,通过构建关键词索引来定位查询的文本块,而关键词索引的构建是通过Jieba这个库来完成的。

Jieba(“结巴”)是一个强大的中文分词和关键词提取工具库。在dify中,Jieba类作为一个基于关键词的文档检索系统的核心实现。

本文介绍关键词索引的构建类Jieba类的实现,包括:文本的索引的添加,修改等操作。

Jieba类的构成

Jieba类
基础功能
数据管理
搜索功能
关键词提取
分词处理
关键词表管理
存储策略
关键词搜索
文档检索

关键词索引创建

总体实现逻辑

关键词索引创建在create函数中实现,该函数的声明如下:

    def create(self, texts: list[Document], **kwargs) -> BaseKeyword:

该函数的主要逻辑如下:

开始创建关键词索引
获取Redis分布式锁
检查关键词表是否存在,若不存在,创建关键词表:dataset_keyword_tables
遍历文件分块列表: Document对象列表
关键词提取: extract_keywords
更新段落关键词
更新关键词表: 把关键词保存到字典中
保存关键词表: 保存关键词表到数据库或文件系统
返回实例
关键词提取:extract_keywords

关键词提取主要完成:从文本中提取关键词,支持停用词过滤和子词提取。extract_keywords函数的声明如下:

    def extract_keywords(self, text: str, max_keywords_per_chunk: Optional[int] = 10) -> set[str]:

该函数的处理流程如下:

输入文本
TFIDF关键词提取
子词拆分
停用词过滤
返回关键词集合
def extract_keywords(self, text: str, max_keywords_per_chunk: Optional[int] = 10) -> set[str]:"""Extract keywords with JIEBA tfidf."""# 1. 使用TFIDF算法提取关键词keywords = jieba.analyse.extract_tags(sentence=text,topK=max_keywords_per_chunk,  # 默认最多10个关键词)# 2. 扩展子词并过滤停用词return set(self._expand_tokens_with_subtokens(keywords))
def _expand_tokens_with_subtokens(self, tokens: set[str]) -> set[str]:"""获取tokens的子词,并过滤停用词"""results = set()for token in tokens:# 1. 添加原始tokenresults.add(token)# 2. 使用正则提取子词sub_tokens = re.findall(r"\w+", token)# 3. 如果存在多个子词if len(sub_tokens) > 1:# 过滤停用词并添加到结果集results.update({w for w in sub_tokens if w not in list(STOPWORDS)})return results
关键词存储

关键词存储的函数声明如下:

def _save_dataset_keyword_table(self, keyword_table):

其中处理完成的关键词,都已经保存到dataset_keyword_tables字典中了。

接收关键词表
构建元数据字典
判断存储类型
数据库存储: database
文件存储: file
JSON序列化
构建文件路径
检查文件是否存在: 若存在删除之
保存文件

该函数的详细实现如下:

    # 这段代码的主要功能是将一个关键词表 (dataset_keyword_tables) 保存到数据库或文件中,具体取决于数据源类型。def _save_dataset_keyword_table(self, keyword_table):# 创建数据字典,保存元数据信息keyword_table_dict = {"__type__": "keyword_table","__data__": {"index_id": self.dataset.id, "summary": None, "table": keyword_table},}# 记录数据集的数据来源类型dataset_keyword_table = self.dataset.dataset_keyword_tablekeyword_data_source_type = dataset_keyword_table.data_source_type# 数据源是数据库,则将字典编码为 JSON 字符串,并更新数据库中的 keyword_table 字段。然后提交事务。if keyword_data_source_type == "database":dataset_keyword_table.keyword_table = json.dumps(keyword_table_dict, cls=SetEncoder)db.session.commit()else:# 来源是文件,则构建一个文件键(路径),检查文件是否存在,如果存在则删除file_key = "keyword_files/" + self.dataset.tenant_id + "/" + self.dataset.id + ".txt"if storage.exists(file_key):storage.delete(file_key)# 最后将字典编码为 JSON 并保存到指定的文件路径。storage.save(file_key, json.dumps(keyword_table_dict, cls=SetEncoder).encode("utf-8"))
class SetEncoder(json.JSONEncoder):"""自定义JSON编码器,处理set类型"""def default(self, obj):if isinstance(obj, set):return list(obj)  # 将set转换为listreturn super().default(obj)

关键词查询

获取关键词表名,从表中查询对应数据集的关键词字典
获取top-k参数
提取查询字符串中的关键词,根据查询关键词在文档切片关键词中进行查询,并对结果排序
按排序切片索引id从数据库表中查询文档内容
构建Document对象
返回Document对象列表

search函数的详细实现分析:

    def search(self, query: str, **kwargs: Any) -> list[Document]:# 从dataset_keyword_tables表中获取对应数据集的数据分块记录字典keyword_table = self._get_dataset_keyword_table()k = kwargs.get("top_k", 4)# (1)使用Jieba对用户输入的查询字符串进行关键词提取# (2)然后从刚才查询出来的关键词字典中,查询出与查询字符串中关键词匹配的文本索引idsorted_chunk_indices = self._retrieve_ids_by_query(keyword_table, query, k)documents = []# 根据文本块索引id,从数据库中查询出对应的文本块内容for chunk_index in sorted_chunk_indices:segment = (db.session.query(DocumentSegment).filter(DocumentSegment.dataset_id == self.dataset.id, DocumentSegment.index_node_id == chunk_index).first())# 以Document对象结构来返回结果if segment:documents.append(Document(page_content=segment.content,metadata={"doc_id": chunk_index,"doc_hash": segment.index_node_hash,"document_id": segment.document_id,"dataset_id": segment.dataset_id,},))return documents

小结

说明,分析到这里,我们基本上就了解了关键词查询的基本原理:对用户查询字符串进行分词处理(通过Jieba库),根据分词结果在对应数据集中查询对应分词,然后获取该分词对应的文本和文本块。

可见,关键词索引主要是依赖对文本进行分词,然后通过分词来进行匹配,从而找到对应文本块的数据。这种方式并没有从语义角度去理解文本,本质上是通过分词得到的关键词进行匹配的方式来找到对应文本块。与通过语义的方式来查找文本,这种方式会存在一定的局限性。

关键词添加和删除

关键词的添加和删除都是要先从数据表或文件中把该数据集原有关键词读取到一个字典中,然后对该字典中的关键词进行添加或删除操作,然后再把数据写回数据表或文件。

(1)先查询数据集对应的关键词表(或文件)的数据,并以字典的方式返回

(2)在字典中添加对应关键词

(3)把添加完关键词的字典再写回关键词存储表或文件中

关键词的删除和关键词添加步骤类似,只是在第二步会从获取到的字段中把关键词删除,然后再写回数据表或文件中。

总结

关键词索引方式不需要其他额外的存储组件就可以完成索引的构建,成本相对比较低,比较经济实惠。但该方式是通过分词和关键词匹配方式来构建的文本块查询,比起通过向量和语义匹配的方式,有一定的局限性,选择那种方式,需要根据具体的场景来确定。

相关文章:

dify实现分析-rag-关键词索引的实现

概述 在dify中有两种构建索引的方式,一种是经济型,另一种是高质量索引(通过向量数据库来实现)。其中经济型就是关键词索引,通过构建关键词索引来定位查询的文本块,而关键词索引的构建是通过Jieba这个库来完…...

【小白学HTML5】一文讲清常用单位(px、em、rem、%、vw、vh)

html5中,常用的单位有px、em、rem、%、vw、vh(不常用)、cm、m等,这里主要讲解px、em、rem、%、vw。 学习了解:主流浏览器默认的字号:font-size:16px,无论用什么单位,浏览器最终计算…...

Fastgpt学习(5)- FastGPT 私有化部署问题解决

1.☺ 问题描述: Windows系统,本地私有化部署,postgresql数据库镜像日志持续报错" data directory “/var/lib/postgresql/data” has invalid permissions ",“ DETAIL: Permissions should be urwx (0700) or urwx,gr…...

ubuntu下安装TFTP服务器

在 Ubuntu 系统下安装和配置 TFTP(Trivial File Transfer Protocol)服务器可以按照以下步骤进行: 1. 安装 TFTP 服务器软件包 TFTP 服务器通常使用 tftpd-hpa 软件包,你可以使用以下命令进行安装: sudo apt update …...

深入解析 iText 7:从 PDF 文档中提取文本和图像

在现代开发中,PDF 文件的操作是不可避免的一部分。无论是生成报告、解析文档,还是从文件中提取信息,我们常常需要处理 PDF 文件。iText 是一个非常强大的库,广泛应用于 PDF 文件的创建、修改和解析。自 iText 7 发布以来&#xff…...

Rust编程语言入门教程 (六)变量与可变性

Rust 系列 🎀Rust编程语言入门教程(一)安装Rust🚪 🎀Rust编程语言入门教程(二)hello_world🚪 🎀Rust编程语言入门教程(三) Hello Cargo&#x1f…...

事务--实操演示

目录 一、准备工作 二、在MySQL中操作事务(重点) 第一种方式:使用命令的方式 第二种方式:设置MySQL事务不默认提交的方式 结 三、在JDBC中操作事务(掌握) 第一种方式:使用命令的方式 第…...

PHP是如何并行异步处理HTTP请求的?

文章精选推荐 1 JetBrains Ai assistant 编程工具让你的工作效率翻倍 2 Extra Icons:JetBrains IDE的图标增强神器 3 IDEA插件推荐-SequenceDiagram,自动生成时序图 4 BashSupport Pro 这个ides插件主要是用来干嘛的 ? 5 IDEA必装的插件&…...

【Spring详解一】Spring整体架构和环境搭建

一、Spring整体架构和环境搭建 1.1 Spring的整体架构 Spring框架是一个分层架构,包含一系列功能要素,被分为大约20个模块 Spring核心容器:包含Core、Bean、Context、Expression Language模块 Core :其他组件的基本核心&#xff…...

在 Vue 3 中使用 Lottie 动画:实现一个加载动画

在现代前端开发中,动画是提升用户体验的重要元素之一。Lottie 是一个流行的动画库,它允许我们使用 JSON 文件来渲染高质量的动画。本文将介绍如何在 Vue 3 项目中集成 Lottie 动画,并实现一个加载动画效果。 如果对你有帮助请帮忙点个&#x…...

深度解析:使用 Headless 模式 ChromeDriver 进行无界面浏览器操作

一、问题背景(传统爬虫的痛点) 数据采集是现代网络爬虫技术的核心任务之一。然而,传统爬虫面临多重挑战,主要包括: 反爬机制:许多网站通过检测请求头、IP地址、Cookie等信息识别爬虫,进而限制…...

MySQL 主从复制原理及其工作过程

一、MySQL主从复制原理 MySQL 主从复制是一种将数据从一个 MySQL 数据库服务器(主服务器,Master)复制到一个或多个 MySQL 数据库服务器(从服务器,Slave)的技术。以下简述其原理,主要包含三个核…...

计算机网络抄手 运输层

一、运输层协议概述 1. 进程之间的通信 从通信和信息处理的角度看,运输层向它上面的应用层提供通信服务,它属于面向通信部分的最高层,同时也是用户功能中的最低层。当网络边缘部分的两台主机使用网络核心部分的功能进行端到端的通信时&…...

字符串函数和结构题内存对齐

图下为函数使用&#xff1a; #include <ctype.h>int main() {int ret isdigit(Q);printf("%d\n", ret);return 0; }int main() {printf("%c\n", toupper(a));printf("%c\n", tolower(A));return 0; }...

【嵌入式Linux应用开发基础】特殊进程

目录 一、守护进程&#xff08;Daemon Process&#xff09; 1.1. 概念 1.2. 特点 1.3. 守护进程的命名 1.4. 创建守护进程的步骤 1.5. 守护进程的实例 1.6. 守护进程的管理 1.7. 影响与处理 二、僵尸进程&#xff08;Zombie Process&#xff09; 2.1. 僵尸进程的定义…...

深度学习pytorch之19种优化算法(optimizer)解析

提示&#xff1a;有谬误请指正 摘要 本博客详细介绍了多种常见的深度学习优化算法&#xff0c;包括经典的LBFGS 、Rprop 、Adagrad、RMSprop 、Adadelta 、ASGD 、Adamax、Adam、AdamW、NAdam、RAdam以及SparseAdam等&#xff0c;通过对这些算法的公式和参数说明进行详细解析…...

rust笔记5-derive属性2

在 Rust 中,derive 是一种自动为结构体或枚举实现特定 trait 的机制。通过 #[derive(...)] 属性,Rust 编译器可以自动生成一些常见 trait 的实现代码,从而减少手动编写重复代码的工作量。 以下是对 Copy、Clone、Hash 和 Default 这几个常用 trait 的详细介绍和示例: 1. C…...

DeepSeek、微信、硅基流动、纳米搜索、秘塔搜索……十种不同方法实现DeepSeek使用自由

为了让大家实现 DeepSeek 使用自由&#xff0c;今天分享 10 个畅用 DeepSeek 的平台。 一、官方满血版&#xff1a;DeepSeek官网与APP 首推&#xff0c;肯定是 DeepSeek 的官网和 APP&#xff0c;可以使用满血版 R1 和 V3 模型&#xff0c;以及联网功能。 网址&#xff1a; htt…...

介绍cherrypick

git cherry-pick 是 Git 中的一个强大命令&#xff0c;用于将一个或多个提交&#xff08;commit&#xff09;从一个分支应用到另一个分支。它允许你选择性地将特定的变更引入到当前分支&#xff0c;而无需合并整个分支。以下是对 git cherry-pick 操作的详细介绍&#xff1a; 1…...

HTTP、HTTPS区别可靠性及POST为什么比GET安全的探讨

一、简述HTTP协议 HTTP底层是TCP实现&#xff0c;TCP是一个可靠的传输层网络协议&#xff0c;但是可靠性不是安全性——可靠但不安全 1、为什么TCP可靠&#xff1f;UDP不可靠&#xff1f; 可靠指的是源和目标可以相互访问以及确保数据的传输顺序&#xff0c;我能通过IP端口访…...

Spark 之 入门讲解详细版(1)

1、简介 1.1 Spark简介 Spark是加州大学伯克利分校AMP实验室&#xff08;Algorithms, Machines, and People Lab&#xff09;开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目&#xff0c;8个月后成为Apache顶级项目&#xff0c;速度之快足见过人之处&…...

Day131 | 灵神 | 回溯算法 | 子集型 子集

Day131 | 灵神 | 回溯算法 | 子集型 子集 78.子集 78. 子集 - 力扣&#xff08;LeetCode&#xff09; 思路&#xff1a; 笔者写过很多次这道题了&#xff0c;不想写题解了&#xff0c;大家看灵神讲解吧 回溯算法套路①子集型回溯【基础算法精讲 14】_哔哩哔哩_bilibili 完…...

《Playwright:微软的自动化测试工具详解》

Playwright 简介:声明内容来自网络&#xff0c;将内容拼接整理出来的文档 Playwright 是微软开发的自动化测试工具&#xff0c;支持 Chrome、Firefox、Safari 等主流浏览器&#xff0c;提供多语言 API&#xff08;Python、JavaScript、Java、.NET&#xff09;。它的特点包括&a…...

Objective-C常用命名规范总结

【OC】常用命名规范总结 文章目录 【OC】常用命名规范总结1.类名&#xff08;Class Name)2.协议名&#xff08;Protocol Name)3.方法名&#xff08;Method Name)4.属性名&#xff08;Property Name&#xff09;5.局部变量/实例变量&#xff08;Local / Instance Variables&…...

学校招生小程序源码介绍

基于ThinkPHPFastAdminUniApp开发的学校招生小程序源码&#xff0c;专为学校招生场景量身打造&#xff0c;功能实用且操作便捷。 从技术架构来看&#xff0c;ThinkPHP提供稳定可靠的后台服务&#xff0c;FastAdmin加速开发流程&#xff0c;UniApp则保障小程序在多端有良好的兼…...

是否存在路径(FIFOBB算法)

题目描述 一个具有 n 个顶点e条边的无向图&#xff0c;该图顶点的编号依次为0到n-1且不存在顶点与自身相连的边。请使用FIFOBB算法编写程序&#xff0c;确定是否存在从顶点 source到顶点 destination的路径。 输入 第一行两个整数&#xff0c;分别表示n 和 e 的值&#xff08;1…...

什么是Ansible Jinja2

理解 Ansible Jinja2 模板 Ansible 是一款功能强大的开源自动化工具&#xff0c;可让您无缝地管理和配置系统。Ansible 的一大亮点是它使用 Jinja2 模板&#xff0c;允许您根据变量数据动态生成文件、配置设置和脚本。本文将向您介绍 Ansible 中的 Jinja2 模板&#xff0c;并通…...

蓝桥杯 冶炼金属

原题目链接 &#x1f527; 冶炼金属转换率推测题解 &#x1f4dc; 原题描述 小蓝有一个神奇的炉子用于将普通金属 O O O 冶炼成为一种特殊金属 X X X。这个炉子有一个属性叫转换率 V V V&#xff0c;是一个正整数&#xff0c;表示每 V V V 个普通金属 O O O 可以冶炼出 …...

让回归模型不再被异常值“带跑偏“,MSE和Cauchy损失函数在噪声数据环境下的实战对比

在机器学习的回归分析中&#xff0c;损失函数的选择对模型性能具有决定性影响。均方误差&#xff08;MSE&#xff09;作为经典的损失函数&#xff0c;在处理干净数据时表现优异&#xff0c;但在面对包含异常值的噪声数据时&#xff0c;其对大误差的二次惩罚机制往往导致模型参数…...

虚拟电厂发展三大趋势:市场化、技术主导、车网互联

市场化&#xff1a;从政策驱动到多元盈利 政策全面赋能 2025年4月&#xff0c;国家发改委、能源局发布《关于加快推进虚拟电厂发展的指导意见》&#xff0c;首次明确虚拟电厂为“独立市场主体”&#xff0c;提出硬性目标&#xff1a;2027年全国调节能力≥2000万千瓦&#xff0…...