当前位置：首页 > news >正文

lucene 9.10向量检索基本用法

news 2026/5/18 15:59:54

Lucene 9.10 中的 KnnFloatVectorQuery 是用来执行最近邻（k-Nearest Neighbors，kNN）搜索的查询类，它可以在一个字段中搜索与目标向量最相似的k个向量。以下是 KnnFloatVectorQuery 的基本用法和代码示例。

1. 索引向量字段

首先，你需要一个包含向量字段的索引。你可以使用 KnnFloatVectorField 来添加向量到文档中。

import org.apache.lucene.document.Document;
import org.apache.lucene.document.KnnFloatVectorField;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.FSDirectory;import java.io.IOException;
import java.util.ArrayList;
import java.util.List;public class VectorIndexing {public static void main(String[] args) throws IOException {List<Document> docs = new ArrayList<>();String fieldName = "knnFloatField";IndexWriter writer = new IndexWriter(FSDirectory.open(/* ... */), new IndexWriterConfig());for (float[] vector : /* ... */) {Document doc = new Document();doc.add(new KnnFloatVectorField(fieldName, vector, VectorSimilarityFunction.EUCLIDEAN));docs.add(doc);// ... 其他字段的添加 ...writer.addDocument(doc);}writer.close();}
}

2. 执行 kNN 查询

接下来，使用 KnnFloatVectorQuery 来执行查询。你需要指定查询的字段、目标向量以及想要检索的最近邻个数 k。

import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.KnnFloatVectorQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.DirectoryReader;public class VectorSearch {public static void main(String[] args) throws IOException {try (DirectoryReader reader = DirectoryReader.open(/* ... */)) {IndexSearcher searcher = new IndexSearcher(reader);float[] targetVector = { /* ... */ }; // 目标向量int k = 3; // 想要检索的最近邻个数KnnFloatVectorQuery knnQuery = new KnnFloatVectorQuery("knnFloatField", targetVector, k);TopDocs topDocs = searcher.search(knnQuery, 10);for (ScoreDoc scoreDoc : topDocs.scoreDocs) {// 处理检索到的文档}}}
}

3. 结果处理

TopDocs 对象包含了按分数排序的文档列表，其中分数是基于向量相似度计算的。你可以根据需要遍历这些文档。

请注意，KnnFloatVectorQuery 是基于 KnnVectorsReader 的，它使用特定的算法（如 HNSW）来执行高效的向量最近邻搜索。查询时，相似度的计算由字段定义的 VectorSimilarityFunction 决定，例如欧几里得距离（Euclidean distance）。

在实际应用中，你可能还需要考虑如何存储和检索其他相关的文档信息，以及如何处理查询结果以满足你的业务需求。此外，向量字段的索引和搜索可能需要特定的索引配置和优化，以确保性能和准确性。

以上示例代码提供了在 Lucene 9.10 中使用 KnnFloatVectorQuery 进行向量检索的基本框架。具体的实现细节（如索引的创建、字段的配置等）需要根据你的具体应用场景进行调整。

VectorSimilarityFunction 下枚举值解释:

VectorSimilarityFunction 是 Lucene 中用于定义向量相似度计算方法的枚举类型。它提供了几种不同的函数，用于在执行向量搜索时比较向量的相似度。以下是 VectorSimilarityFunction 的一些枚举值及其解释：

EUCLIDEAN: 使用欧几里得距离来衡量向量之间的相似度。这是一种常见的距离度量，用于计算两点之间的直线距离。在 Lucene 中，它用于计算查询向量与索引中向量之间的距离。
COSINE: 使用余弦相似度来衡量向量之间的相似度。余弦相似度测量的是两个向量在方向上的相似性，而不是大小。它通过计算两个向量的点积与它们模的乘积的比值来得到。
DOT_PRODUCT: 点积相似度，与余弦相似度类似，它计算两个向量的点积，但不需要归一化向量。点积相似度对向量的长度敏感，因此在比较之前通常需要将向量标准化到单位长度。
MANHATTAN: 使用曼哈顿距离（也称为城市街区距离）来衡量向量之间的相似度。这种距离度量是各个维度上差的绝对值之和。
HAMMING: 汉明相似度，通常用于二进制向量，它计算两个向量中不同位置的个数。
JACCARD: 杰卡德相似度，用于衡量集合之间的相似度，它定义为两个集合交集大小与并集大小之比。
CHEBYCHEV: 切比雪夫距离，它是向量中对应元素差的绝对值的最大值。
CANBERRA: 坎培拉距离，是一种加权的曼哈顿距离，它考虑了两个元素值的差的绝对值与它们值的和的比率。
BRAY_CURTIS: 布雷-柯蒂斯相似度，它是基于两个向量交集和并集的大小，类似于杰卡德相似度，但权重不同。
ROGERSTANIMOTO: 罗杰斯-谭马托相似度，它是一种基于向量元素差的绝对值的相似度度量。
RUSSELLRAO: 罗素-劳相似度，它是基于两个集合交集大小与各自独有元素大小之和的度量。
SOKALSNEATH: 索卡尔-斯内思相似度，它结合了汉明距离和杰卡德相似度的特点。

这些相似度函数可以用于不同的场景，选择哪一种取决于你的具体需求以及数据的特性。例如，如果你关心的是向量的方向而不是大小，那么余弦相似度可能是一个好选择；如果你关心的是向量间的实际距离，欧几里得距离可能更合适。

lucene 9.10向量检索基本用法

1. 索引向量字段

2. 执行 kNN 查询

3. 结果处理

VectorSimilarityFunction 下枚举值解释:

相关文章：

lucene 9.10向量检索基本用法

【2023百度之星初赛】跑步，夏日漫步，糖果促销，第五维度，公园，新材料，星际航行，蛋糕划分

vs2019 QT UI 添加新成员或者控件代码不提示问题解决方法

【面试八股总结】MySQL事务：事务特性、事务并行、事务的隔离级别

STL用法总结

他人项目二次开发——慎接

k8s之PV、PVC

新人学习笔记之（JavaScript作用域）

图论第一天

革新风暴来袭：报事报修系统小程序如何重塑报事报修体验？

linux各个日志的含义以及使用方法

详解 Spark 核心编程之 RDD 持久化

创新融合，5G+工业操作系统引领未来工厂

自监督表示学习和神经音频合成实现语音修复

【论文复现|智能算法改进】融合黑寡妇思想的蜣螂优化算法

Unity + 雷达粒子互动（待更新）

英语翻译程序，可以对用户自己建立的词汇表进行增删查改

Django ORM魔法：用Python代码召唤数据库之灵！

JetBrains Mono字体下载及安装

【OS】AUTOSAR OS系统调用产生Trap的过程详解

3小时从零掌握yuzu：在PC上畅玩任天堂Switch游戏的完整指南

3大核心功能深度解析：茉莉花插件如何彻底解决中文文献管理难题

Pixelle-Video完整指南：如何用AI在3分钟内创建专业短视频

从原理到实战：拆解LCR表如何实现0.1%精度的电容测量（附寄生效应消除指南）

2026年同一机器两服务偶发`ECONNRESET`错误：实验室复现、场景分析与后续解决思路

中小团队如何利用Taotoken统一管理多个AI模型的API调用

从混乱到掌控：FastbootEnhance如何重塑安卓设备管理体验

从原理到批量利用：深入剖析Apache Superset默认密钥漏洞(CVE-2023-27524)

终极指南：10分钟掌握SPT-AKI存档编辑器完整使用教程

Kubernetes部署Valheim游戏服务器：云原生架构实践指南