当前位置: 首页 > news >正文

jina的Embedding Reranker

插入向量库是否需要使用 Jina 的 EmbeddingReranker 取决于你希望如何处理和优化语义搜索的质量。以下是使用 Jina Embedding 和 Reranker 的原因,以及它们如何作用于插入向量库的流程。

1. Jina 的 Embedding 作用

Jina 是一个流行的开源框架,用于构建多模态搜索系统。Jina 的 Embedding 模型可以将文本或其他数据转换成向量表示,方便存储在向量数据库(如 Milvus)中,支持更高效的相似度检索。

如果你希望在 Milvus 中进行基于语义的搜索(而不仅仅是基于关键词匹配),则可以使用 Jina 提供的 Embedding 模型来将术语和相关数据转换为向量,并将这些向量存储在 Milvus 中。

Embedding 的步骤:
  1. 获取文本或术语:如 “收入”、“净利润” 等术语。
  2. 使用 Jina 的 Embedding 模型:将这些术语转换为语义向量(即高维度向量表示)。
  3. 将向量插入到 Milvus:通过向量表示进行高效的相似度搜索。
什么时候需要 Embedding?
  • 当你需要语义匹配时,比如用户可能输入的是同义词或类似的概念。Embedding 会捕捉到词语之间的语义关系,而不仅仅是字符串匹配。
  • 提高查询改写的准确性,Embedding 向量化后的术语可以更好地进行相似度计算,找到最相关的术语进行改写。

2. Reranker 的作用

Reranker 是一个重排序模型,通常在搜索结果返回之后,用于根据更复杂的规则或模型对结果进行二次排序。Reranker 在以下情况下是有用的:

  • 多阶段检索:在初步检索后,可以使用 Reranker 对返回的结果根据更多上下文或更细粒度的语义关系进行重排序,确保最相关的结果排在前面。
  • 提高搜索精度:Reranker 可以基于上下文和用户查询更好地优化结果排序。

3. 如何结合 Jina Embedding 和 Reranker?

  • Embedding:负责将术语和用户查询转化为语义向量。这一步是插入向量库之前的必要步骤,以便向量库可以高效处理语义搜索。
  • Reranker:在你从 Milvus 中检索到最相关的术语后,使用 Reranker 对结果进行重排序。这一步确保返回的结果更加符合用户的意图。

4. 如何将它们结合到你的现有代码中?

更新 MilvusClient,使用 Jina 的 Embedding 模型

首先,确保你已经安装了 Jina 的必要依赖:

pip install jina

然后你可以使用 Jina 的预训练 Embedding 模型来将术语转化为向量。

from jina import Flow
from jina.types.document.generators import from_dict
from pymilvus import Collection, connectionsclass MilvusClient:def __init__(self):# 连接 Milvus 服务器connections.connect(alias="default", host="localhost", port="19530")# 定义 Collection Schemaself.collection_name = "industry_terms"self.collection = Collection(name=self.collection_name)# Jina 流,用于 Embeddingself.flow = Flow().add(uses='jinahub://TransformerTorchEncoder')def embed_and_insert_terms(self, term_data_list):"""1. 使用 Jina 进行 Embedding2. 插入向量数据到 Milvus 知识库"""# 准备插入数据field_names = [data['field_name'] for data in term_data_list]terms = [data['term'] for data in term_data_list]source_tables = [data['source_table'] for data in term_data_list]descriptions = [data['description'] for data in term_data_list]data_types = [data['data_type'] for data in term_data_list]related_fields = [data['related_fields'] for data in term_data_list]explanations = [data['term_explanation'] for data in term_data_list]# 通过 Jina 的 Embedding 将术语转换为向量docs = from_dict([{"text": term} for term in terms])with self.flow:embedding_docs = self.flow.post(on='/index', inputs=docs)# 从嵌入结果中提取向量embeddings = [doc.embedding for doc in embedding_docs]# 插入向量和原始数据到 Milvus 中self.collection.insert([field_names, terms, source_tables, descriptions, data_types, related_fields, explanations, embeddings])print(f"成功插入了 {len(term_data_list)} 条数据到 Milvus 知识库")
更新 search_terms,进行语义搜索并使用 Reranker
class MilvusClient:# 初始化和插入方法如上def search_terms(self, query: str):"""1. 使用 Jina 进行查询的 Embedding。2. 在 Milvus 中进行相似度搜索。3. 使用 Reranker 对搜索结果进行重排序。"""# Step 1: 使用 Jina 进行 Embeddingdocs = from_dict([{"text": query}])with self.flow:query_docs = self.flow.post(on='/search', inputs=docs)query_embedding = query_docs[0].embedding# Step 2: 在 Milvus 中进行向量搜索search_results = self.collection.search(data=[query_embedding],  anns_field="embedding",  # 搜索字段为 embeddingparam={"metric_type": "L2", "params": {"nprobe": 10}},limit=10  )# Step 3: 使用 Reranker 对结果进行重排序(此处是简单的排序示例)sorted_results = sorted(search_results, key=lambda x: x.distance)if len(sorted_results) > 0:return sorted_results[0].entities[0]["term"]  # 返回最相关的术语else:return None  # 如果没有找到匹配项,返回 None

5. 使用 Jina 和 Milvus 的工作流程

  1. 术语数据插入:使用 Jina 的 Embedding 模型,将术语转换为向量并存入 Milvus 向量库。
  2. 用户查询处理
    • 首先对用户的查询进行 Embedding。
    • 使用生成的向量在 Milvus 中进行相似度搜索,找到最接近的术语。
  3. Reranker 重新排序:对 Milvus 返回的候选结果进行重排序,确保最相关的结果排在前面。
  4. 返回改写结果:使用改写的术语查询 Clude 模型生成 SQL。

6. 总结

在插入数据之前使用 Jina 的 Embedding 模型来生成术语的向量表示是非常有必要的,它将大大提高语义搜索的精度。然后,搜索后可以使用 Reranker 对候选结果进行重排序,以进一步提高查询的准确性。

具体来说:

  • Embedding:确保术语能够在 Milvus 中进行语义级别的搜索,而不是基于关键词匹配。
  • Reranker:进一步提升搜索结果的相关性,确保最符合用户查询意图的术语排在首位。

你可以根据需求选择合适的 Embedding 模型和 Reranker 机制,来优化整体查询流程。

相关文章:

jina的Embedding Reranker

插入向量库是否需要使用 Jina 的 Embedding 和 Reranker 取决于你希望如何处理和优化语义搜索的质量。以下是使用 Jina Embedding 和 Reranker 的原因,以及它们如何作用于插入向量库的流程。 1. Jina 的 Embedding 作用 Jina 是一个流行的开源框架,用于…...

Prompt Engineer: 使用Thought来提升LLM的回复能力

这是一个小的实验, 用来测试思维导图这种表达形式对于LLM在答案组织上是否会有帮助 结构化Prompt 根据目前的测试来看, 结构化Ptompt在实践中有着很好的可读性以及可维护性. (通常来说我使用Markdown格式来作为输入的格式, 虽然在内容完整性上存在问题, 但是我是不喜欢写丑陋…...

tekton构建标准ci(clone repo, test, build push img)

场景介绍 我们在上一篇文章中构建了一个最简单的ci,接下来我们对我们的github的项目构建一个较标准的ci。 Tekton简介,安装和构建最简单ci/cd-CSDN博客文章浏览阅读239次,点赞2次,收藏2次。本文介绍了tekton是什么,如…...

【电力系统】复杂网络分析在电力系统规范中的应用

摘要 复杂网络分析在电力系统中的应用为理解和优化电力系统的运行提供了新的视角。本文探讨了复杂网络理论在电力系统规范中的应用,通过分析电力系统的拓扑结构、节点重要性和脆弱性,提出了优化电力系统设计和运行的新策略。仿真结果表明,复…...

CDGA|推动数据治理与传统产业深度融合:策略与实践路径

在数字化浪潮席卷全球的今天,数据已成为推动经济社会发展的关键生产要素。传统产业,作为国民经济的基石,正面临着前所未有的转型挑战与机遇。如何让数据治理这一现代管理理念与实践方法深度融入传统产业,促进其转型升级与高质量发…...

【FastAPI】离线使用Swagger UI 或 国内网络如何快速加载Swagger UI

在FastAPI中,默认情况下,当应用启动时,Swagger UI 会通过在线加载 Swagger UI 的静态资源。这意味着如果应用运行在没有互联网连接的环境中,默认的 Swagger 文档页面将无法加载。 为了在离线环境中使用 Swagger UI,你…...

Linux:从入门到放弃

目录 一、基础巩固Linux:常用命令 二、实战应用Linux:CentOS7基础配置Linux:CentOS7安装MySQL 三、常见问题Linux:yum源失效问题 一、基础巩固 Linux:常用命令 二、实战应用 Linux:CentOS7基础配置 Lin…...

SVM 监督学习

一、分类问题 利用一条直线分类存在很多问题 二、SVM 支持向量机 其核心思想是通过在特征空间中找到一个最优的超平面来进行分类,并且间隔最大。分类面尽可能远离样本点,宽度越大越好。 适用于中小型复杂数据集的分类。 三、硬间隔和软间隔 硬&#x…...

奖励模型的训练

文章目录 训练方法训练策略代码实践由于 RLHF 的训练过程中需要依赖大量的人类偏好数据进行学习,因此很难在训练过程中要求人类标注者实时提供偏好反馈。为此,我们需要训练一个模型来替代人类在 RLHF 训练过程中实时提供反馈,这个模型被称为奖励模型。在训练开始前,我们需要…...

Ubuntu22.04之禁止内核自动更新(二百六十八)

简介: CSDN博客专家、《Android系统多媒体进阶实战》一书作者 新书发布:《Android系统多媒体进阶实战》🚀 优质专栏: Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏: 多媒体系统工程师系列【…...

kaggle题-房价预测(Pytorch),手把手教,全文代码解释

房价预测 本题是经典的通过表格数据去预测最终值,主要分为几大步骤: 一.将数据集修改为可以代入到网络模型的数字,因为给的数据大部分都是str类型,是无法直接放到网络模型里跑的,例如下图,很多标签值为str类…...

PulseSensor心率传感器详解(STM32)

目录 一、介绍 二、传感器原理 1.接线图 2.引脚描述 3.工作原理:光电容积法原理 4.工作原理:心率采样数据处理算法 三、程序设计 main.c文件 adcx.h文件 adc.c文件 四、实验效果 五、资料获取 项目分享 一、介绍 PulseSensor传感器是一种基…...

NISP 一级 | 3.1 网络基础知识

关注这个证书的其他相关笔记:NISP 一级 —— 考证笔记合集-CSDN博客 0x01:Internet 和 TCP/IP 协议 因特网(Internet)通过 TCP/IP 协议将遍布在全世界各地的计算机互联,从而形成超级计算机网络。因特网为用户提供了非…...

模拟网络丢包常用方法以及工具

文章目录 背景常用方法代码实现使用方法测试代码 使用网络流量控制工具 常用工具Clumsy 背景 在软件开发过程中,经常需要模拟不同的网络环境来测试应用在不同条件下的表现。 这些模拟可以采用多种方式进行,包括在代码中实现随机丢包、随机延时、乱序&am…...

ABC 370 E - Avoid K Partition

原题链接:E - Avoid K Partition 题意:给长度为n的数组,将数组划分成任意份,但是每一份的总和都不能是k,问有多少种分割方法。 思路:dp,f[i],代表前i个元素满足题意的划分的总和&a…...

C++: set与map容器的介绍与使用

本文索引 前言1. 二叉搜索树1.1 概念1.2 二叉搜索树操作1.2.1 查找与插入1.2.2 删除1.2.3 二叉搜索树实现代码 2. 树形结构的关联式容器2.1 set的介绍与使用2.1.1 set的构造函数2.1.2 set的迭代器2.1.3 set的容量2.1.4 set的修改操作 2.2 map的介绍与使用2.2.1 map的构造函数2.…...

单片机-STM32 看门狗(八)

目录 一、看门狗概念 1、定义: 二、单片机中的看门狗 1、功能描述: 2、看门狗设置部分 预分频寄存器(IWDG_PR) 3、窗口看门狗 特性: 4、看门狗配置: 一、看门狗概念 看门狗--定时器(不属于基本定时器、通用定…...

iOS 18.1将上线新功能,可惜这波国内的小伙伴无缘了

在科技巨头苹果持续推动其生态系统全球化的进程中,最新的iOS 18.1、iPadOS 18.1及macOS 15.1开发者测试版发布,不仅为开发者们带来了新功能的预览,还悄然间对Apple智能功能的地区限制进行了微妙而重要的调整。 这一变化,虽看似细…...

MySQL中DML操作(二)

默认值处理(DEFAULT) 在MySQL中可以使用DEFAULT为列设定一个默认值。如果在插入数据时并未指定该列的值,那么MySQL将默认值添加到该列中。 创建表时指定列的默认值 CREATE TABLE 表名(列名 类型 default 默认值......); 示例:…...

LLMs技术 | 整合Ollama实现本地LLMs调用

前言 近两年AIGC发展的非常迅速,从刚开始的只有ChatGPT到现在的很百家争鸣。从开始的大参数模型,再到后来的小参数模型,从一开始单一的文本模型到现在的多模态模型等等。随着一起进步的不仅仅是模型的多样化,还有模型的使用方式。…...

【C-实践】文件服务器(3.0)

文件服务器1.0文件服务器2.0文件服务器4.0 概述 使用了 tcp epoll 线程池 生产者消费者模型,实现文件服务器 有两个进程,主进程负责接收退出信号用来退出整个程序;子进程负责管理线程池、客户端连接以及线程池的退出 子进程中的主线程生…...

LeetCode 2181.合并零之间的节点

题目描述 给你一个链表的头节点 head ,该链表包含由 0 分隔开的一连串整数。链表的 开端 和 末尾 的节点都满足 Node.val 0 。 对于每两个相邻的 0 ,请你将它们之间的所有节点合并成一个节点,其值是所有已合并节点的值之和。然后将所有 0 …...

千益畅行,共享旅游卡,引领旅游新潮流

千益畅行旅游卡是一款专为旅游爱好者打造的超值卡片。它就像一把神奇的钥匙,为您打开国内丰富多彩的旅游世界。 我们的旅游卡拥有众多令人惊喜的特点。首先,它涵盖了国内 40 多条精心策划的旅游线路,无论您是向往历史文化名城的厚重底蕴&…...

K均值聚类

根据到给点样本的距离,来聚类。 1.曼哈顿距离、 2.欧几里得距离 直线距离 3.切比雪夫距离 4.闵氏距离 5.余弦相似度 对数据大小/长度等不关注,只关注相似度。 6.汉明距离 二进制距离 二、密度聚类 DBSCAN 前提是样本是根据紧密程度分布的。 先用超参…...

【Ubuntu】安装常用软件包

安装java 直接输入java,如果没有安装的话会提醒你输入命令安装,类似 Command java not found, but can be installed with: sudo apt install jdkxxxxxxxxxxxxxx然后选一个版本安装就好,我这里选的jdk17,安装完确认一下 ubuntuVM-4-13-ubu…...

探索全光网技术 | 全光网产品解决方案整理-(宇洪科技)

探索全光网技术 |全光网产品解决方案整理-宇洪科技 目录 一、数据中心场景1、方案概述2、方案需求3、相关产品4、产品推荐5、方案价值 二、教育场景1、方案概述2、方案需求3、相关产品4、方案价值 三、医疗场景1、方案概述2、方案需求3、相关产品4、方案价值 注:本文…...

资料分析(2)

C B 增长量不变就是1002020 上面是利滚利:按照20%当利息 本题:涨跌幅度的意思就是增长率,本题是按照增长率不变的情况下进行计算D B 7551400X>1.2*100000 B B B 总体增量部分增量之和 先进行计算固定通信业务收入的增长量移动通信业务实现收入的增长量 增长量现期…...

百元以下蓝牙耳机性价比之王品牌?四大高能性价比机型推荐

面对市场上琳琅满目的蓝牙耳机品牌和型号,消费者往往难以抉择,特别是当预算限定在百元以下时,找到一款既满足基本功能又具备一定品质的蓝牙耳机变得尤其困难,那么百元以下蓝牙耳机性价比之王品牌?尽管价格是一个重要的…...

考场考生行为检测数据集 7000张 带标注 voc yolo

数据集名称: 考场考生行为检测数据集 数据集规模: 图像数量:7000张标注类型:行为检测(例如:作弊、玩手机、睡觉等)格式兼容性:支持VOC和YOLO标注格式 数据集内容: 该…...

深度学习算法,该如何深入,举例说明

深度学习算法的深入学习可以从理论和实践两个方面进行。理论上,深入理解深度学习需要掌握数学基础(如线性代数、概率论、微积分)、机器学习基础和深度学习框架原理。实践上,可以通过实现和优化深度学习模型来提升技能。 理论深入…...