在 Elasticsearch 中探索基于 NVIDIA 的 GPU 加速向量搜索
作者:来自 Elastic Chris Hegarty 及 Hemant Malik

由 NVIDIA cuVS 提供支持,此次合作旨在为开发者在 Elasticsearch 中的向量搜索提供 GPU 加速。
在 Elastic Engineering 组织内,我们一直致力于优化向量数据库的性能。我们的使命是让 Lucene 和 Elasticsearch 成为最优秀的向量数据库。通过硬件加速的 CPU SIMD 指令、引入新的向量数据压缩创新(Better Binary Quantization,简称 BBQ),以及进一步优化 BBQ 的算法以带来更大收益,同时加速 Filtered HNSW —— 总之,我们正在为开发者构建一个更快、更优、更高效的向量数据库,以帮助他们解决 RAG 相关问题!
在追求极致效率的过程中,我们也在探索这些有趣的计算芯片——NVIDIA GPU!(说真的,你不会没听说过吧?)。
当我们专注于性能优化时,需要解决多个问题:如何索引指数级增长的数据、如何高效检索数据、以及如何在涉及机器学习模型时优化整个流程。有了 GPU,你应该能够充分利用所有可能的优势。
在本文中,我们将深入探讨与 NVIDIA 向量搜索团队的合作,探索在 Elasticsearch 中实现 GPU 加速的向量搜索。这项工作为开发者在实际应用中结合 GPU 和 CPU 运行 Elasticsearch 提供了新的可能性。令人振奋的时代已经到来!
Elasticsearch:你好,GPU!
我们很高兴与大家分享,Elasticsearch 工程团队正在帮助构建开源 cuVS Java API,为开发者提供向量搜索算法的绑定接口。这项工作利用了我们在 Panama FFI 方面的经验。Elasticsearch 和 Apache Lucene 通过 NVIDIA cuVS API 在索引过程中构建图结构。好吧,我们说得有点快了,让我们稍微回顾一下。
NVIDIA cuVS 是一个开源 C++ 库,是此次合作的核心。它旨在通过 GPU 加速向量搜索,提高吞吐量、降低延迟,并加快索引构建时间。但 Elasticsearch 和 Apache Lucene 是用 Java 编写的,这如何实现呢?
这就是 lucene-cuvs 以及 Elastic-NVIDIA-SearchScale 合作的意义所在,我们正在将 GPU 加速的向量搜索引入 Lucene 生态系统,并探索其在 Elasticsearch 中的应用。在最近发布的 NVIDIA cuVS 25.02 版本中,我们新增了 cuVS 的 Java API。该 API 目前仍处于实验阶段,并将持续优化,但已经可供使用。也许你会问:Java 调用本地函数不是很慢吗?现在不再是问题!我们使用了新的 Panama FFI(外部函数接口)来绑定 cuVS,它能使 Java 到本地代码的调用开销降到最低。
我们已经在 Elasticsearch 和 Lucene 中使用 Panama FFI 一段时间了,它真的很棒!但是……总有个 “但是”,对吧?FFI 在不同 Java 版本上的可用性存在一定挑战。为了解决这个问题,我们将 cuVS API 编译到 Java 21,并将实现封装在一个面向 Java 22 的多版本 JAR 包中。这使得 cuVS Java 可以直接用于 Lucene 和 Elasticsearch。
好了,现在我们已经有了 cuVS Java API,接下来还需要什么?
两个算法的故事
Elasticsearch 目前支持 HNSW 算法来实现可扩展的近似 KNN 搜索。然而,为了充分利用 GPU 的性能,我们采用了另一种专为 GPU 高度并行计算设计的算法 —— CAGRA(CUDA ANN GRAph)。
在探讨如何为 CAGRA 添加支持之前,先来看一下 Elasticsearch 和 Lucene 如何通过 “编解码格式”(codec format)访问索引数据。它包括以下部分:
- 磁盘上的数据表示,
- 读写数据的接口,
- 处理 Lucene 段式架构的机制。
我们正在实现一种新的 KNN(k 近邻)向量格式,该格式在内部使用 cuVS Java API 在 GPU 上进行索引和搜索。然后,我们将此编解码类型与 Elasticsearch 的映射机制集成,使其成为索引中的一种字段类型。因此,无论底层索引使用的是 CAGRA 还是 HNSW 图,你的现有 KNN 查询都能继续正常工作。当然,这里省略了许多细节,我们计划在后续博客中详细介绍。以下是 GPU 加速 Elasticsearch 的高层架构图。

这种新的编解码格式默认使用 CAGRA,但同时支持将 CAGRA 图转换为 HNSW 图,以便在 CPU 上进行搜索。
索引与搜索:做出 “核心” 决策
在 Elasticsearch Serverless 的 stateless 架构下,索引与搜索被明确分离,各自承担独立的职责,使我们能够选择最优的硬件配置来满足不同需求。
我们预计用户会考虑两种主要的部署策略:
- 在 GPU 上索引和搜索:在索引过程中构建 CAGRA 图,并在搜索时直接使用它 —— 适用于需要极低延迟搜索的场景。
- 在 GPU 上索引,在 CPU 上搜索:在索引过程中构建 CAGRA 图,并将其转换为 HNSW 图。转换后的 HNSW 图存储在索引中,供后续 CPU 搜索使用。
这种灵活性支持不同的部署模式,在成本与性能之间提供平衡。例如,索引服务可以利用 GPU 高效地构建和合并图结构,而搜索服务则可在低功耗 CPU 上运行,以降低成本。
计划如下,Stan!
我们期待通过优化部署策略,为用户带来性能提升和更大的灵活性,并提供多种调节方式,以在成本和性能之间取得最佳平衡。以下是 NVIDIA GTC 2025 会议的相关内容,在会上,我们详细介绍了这一工作。
我们要感谢 NVIDIA 和 SearchScale 工程团队的出色合作!在即将发布的博客中,我们将深入探讨实现细节和性能分析。请保持好奇心 🎩!
Elasticsearch 还原生集成了行业领先的 生成式 AI 工具和提供商。欢迎查看我们的网络研讨会,了解如何超越 RAG 基础,或如何使用 Elastic Vector Database 构建生产级应用。
要为你的业务场景打造最佳搜索解决方案,现在就开始 免费云试用 或在本地运行 Elastic 吧!
原文:Exploring GPU-accelerated Vector Search in Elasticsearch with NVIDIA - Elasticsearch Labs
相关文章:
在 Elasticsearch 中探索基于 NVIDIA 的 GPU 加速向量搜索
作者:来自 Elastic Chris Hegarty 及 Hemant Malik 由 NVIDIA cuVS 提供支持,此次合作旨在为开发者在 Elasticsearch 中的向量搜索提供 GPU 加速。 在 Elastic Engineering 组织内,我们一直致力于优化向量数据库的性能。我们的使命是让 Lucen…...
Junit在测试过程中的使用方式,具体使用在项目测试中的重点说明
JUnit 是一个广泛使用的 Java 单元测试框架,主要用于编写和运行可重复的测试。以下是 JUnit 在项目测试中的使用方式和重点说明: 1. 基本使用 场景:测试一个简单的 Java 类。 示例: import org.junit.Test; import static org.junit.Assert.*;public class CalculatorTe…...
关于CNN,RNN,GAN,GNN,DQN,Transformer,LSTM,DBN你了解多少
以下是神经网络中常见的几种模型的简要介绍: 1. CNN (Convolutional Neural Network, 卷积神经网络) 用途: 主要用于图像处理和计算机视觉任务。特点: 通过卷积核提取局部特征,具有平移不变性,能够有效处理高维数据(如图像…...
asp.net 4.5在医院自助系统中使用DeepSeek帮助医生分析患者报告
环境: asp.net 4.5Visual Studio 2015本地已经部署deepseek-r1:1.5b 涉及技术 ASP.NET MVC框架用于构建Web应用程序。使用HttpWebRequest和HttpWebResponse进行HTTP请求和响应处理。JSON序列化和反序列化用于构造和解析数据。SSE(服务器发送事件…...
HeyGem.ai 全离线数字人生成引擎加入 GitCode:开启本地化 AIGC 创作新时代
在人工智能技术飞速演进的时代,数据隐私与创作自由正成为全球开发者关注的焦点。硅基智能旗下开源项目 HeyGem.ai 近日正式加入 GitCode,以全球首个全离线数字人生成引擎的颠覆性技术,重新定义人工智能生成内容(AIGC)的…...
密码协议与网络安全——引言
三个基本概念 计算机安全(Computer Security):对于一个自动化的信息系统,采取保护措施确保信息系统资源(包括硬件、软件、固件、信息、数据和通信)的保密性、完整性和可用性。 网络安全(Netwo…...
springboot实现调用百度ocr实现身份识别+二要素校验
一、技术选型 OCR服务:推荐使用百度AI 二、实现 1.注册一个服务 百度智能云控制台https://console.bce.baidu.com/ai-engine/ocr/overview/index?_1742309417611 填写完之后可以获取到app-id、apiKey、SecretKey这三个后面文件配置会用到 2、导入依赖 <!-- …...
MATLAB 控制系统设计与仿真 - 28
MATLAB状态空间控制系统分析 - 极点配置 就受控系统的控制律的设计而言,由状态反馈极点配置和输出反馈极点配置。 状态反馈极点配置问题就是:通过状态反馈矩阵K的选取,使闭环系统的极点,即(A-BK)的特征值恰好处于所希望的一组给定闭环极点的位置。 另外,线性定常系统可…...
JetsonNano —— 4、Windows下对JetsonNano板卡烧录刷机Ubuntu20.04版本(官方教程)
介绍 NVIDIA Jetson Nano™ 开发者套件是一款面向创客、学习者和开发人员的小型 AI 计算机。按照这个简短的指南,你就可以开始构建实用的 AI 应用程序、酷炫的 AI 机器人等了。 烧录刷机 1、下载 Jetson Nano开发者套件SD卡映像 解压出.img文件并记下它在计算机上的…...
加速还是安全?CDN与群联云防护的本质差异与适用场景
一、核心功能定位对比 维度传统CDN群联云防护核心目标内容加速(降低延迟、提升访问速度)安全防护(抵御DDoS/CC攻击、隐藏源站)技术重心缓存优化、边缘节点分发流量清洗、AI行为分析、加密隧道主要能力静态资源缓存、负载均衡攻击…...
简单理解机器学习中top_k、top_p、temperature三个参数的作用
在机器学习中,top_k、top_p 和 temperature 是用于控制生成模型(如语言模型)输出质量的参数,尤其在文本生成任务中常见。然而,网上文章很多很全,但大多晦涩难懂,今天我们来用最简单的语言谈谈它…...
Java面试黄金宝典6
1. 什么是 CAS 原理: CAS (Compare-And-Swap)是一种硬件级别的原子操作指令,在 Java 并发编程中常被用于实现无锁算法。其核心逻辑是:在进行数据更新时,会先将内存位置 V 的值与预期原值 A 进行比较&#x…...
【深度学习新浪潮】AI ISP技术与手机厂商演进历史
本文是关于AI ISP(人工智能图像信号处理器)的技术解析、与传统ISP(图像信号处理器)的区别、近三年研究进展,以及各大手机厂商在该领域演进历史的详细报告。本报告综合多个权威来源的信息,力求全面、深入地呈现相关技术发展脉络与行业动态。 第一部分:AI ISP的定义及与传…...
C语言基础08
内容提要 数组 排序算法:冒泡排序 二维数组 字符数组 数组 冒泡排序 排序思想(向前冒泡) 一次只排好一个数,针对n个数,最差情况需要n-1次就可以排好 每次排序假定第一个元素是最大或者最小,用第一个…...
基于Arm GNU Toolchain编译生成的.elf转hex/bin文件格式方法
基于Arm GNU Toolchain编译生成的.elf转hex/bin文件格式方法 已经弃用的版本(Version 10.3-2021.10):gcc-arm-none-eabi:https://developer.arm.com/downloads/-/gnu-rmArm GNU Toolchain当前版本:https://developer.a…...
1.angular介绍
初級使用视频添加链接描述 angular工具 angular.module(‘名’, [依赖模块]) 模块 angular.bind(*) : 修改this指向 angualr.copy() // a angular.copy(a, b) —a完全覆盖了b,c就是a angular.extend(a, b) a里面集成了b属性 angular.isArray angular.isDate angular.isDefin…...
java项目40分钟后token失效问题排查(40分钟后刷新页面白屏)
项目40分钟后token失效问题排查(40分钟后刷新页面白屏) 经过我 对比失效前token 可以正常访问接口,失效后的token 不能访问系统, 得出结论,我系统对接第三方 sso 系统,token 失效时间 在他们那边配置&…...
音频进阶学习二十——DFT离散傅里叶变换
文章目录 前言一、FT、FS、DTFT、DFS1.FT和FS2.DTFT和DFS 二、DFT定义1.对于DFT的理解1)DTFT和DFT2)DFS和DFT3)有限长序列和周期序列 2.圆周卷积1)线性卷积2)圆周卷积 三、频率采样和插值恢复1.频率采样的影响2.频率采…...
【Rust】集合的使用——Rust语言基础16
文章目录 1. 前言2. Vector2.1. 构建一个 vector2.2. 获取 vector 中的元素2.3. 遍历 vector2.4. 使用枚举来储存多种类型 3. String3.1. 新建字符串3.2. 更新字符串3.3. 字符串的内部结构3.3.1. 字符串如何访问内部元素?3.3.2. 字节、标量值和字形簇 3.4. 字符串 s…...
centos 7 部署ftp 基于匿名用户
在 CentOS 7 上搭建基于匿名用户的 FTP 服务,可按以下步骤进行: 1. 安装 vsftpd 服务 vsftpd 是一款常用的 FTP 服务器软件,可使用以下命令进行安装: bash sudo yum install -y vsftpd2. 启动并设置开机自启 vsftpd 服务 bash …...
Apache SeaTunnel脚本升级及参数调优实战
最近作者针对实时数仓的Apache SeaTunnel同步链路,完成了双引擎架构升级与全链路参数深度调优,希望本文能够给大家有所启发,欢迎批评指正! Apache SeaTunnel 版本 :2.3.9 Doris版本:2.0.6 MySQL JDBC Conne…...
算法 | 优化算法比较
===================================================== github:https://github.com/MichaelBeechan CSDN:https://blog.csdn.net/u011344545 ===================================================== 优化算法 一、主流优化算法分类1、传统梯度类算法2、启发式算…...
破局 MySQL 死锁:深入理解锁机制与高效解决方案
死锁的原理 1. 什么是死锁? 当 多个事务 在并发执行时,每个事务都 持有其他事务需要的锁,同时又在 等待对方释放锁,导致所有事务都无法继续执行的状态,称为 死锁(Deadlock)。 2. 死锁的四个必要…...
学习记录-cssjs-综合复习案例(二)
目录 商城复合案例功能实现(二)商城首页实现步骤1.准备工作2. 搭建html框架3. 编写js代码 完整实例代码完整项目心得 商城复合案例功能实现(二) 使用html,css,基于bootstrap框架以及媒体查询搭建响应式布局…...
使用 JDBC 插入数据并获取自动生成的主键(如 MySQL 的 AUTO_INCREMENT 或 Oracle 的序列) 的完整示例代码,包含详细注释
以下是使用 JDBC 插入数据并获取自动生成的主键(如 MySQL 的 AUTO_INCREMENT 或 Oracle 的序列) 的完整示例代码,包含详细注释: import java.sql.*;public class GeneratedKeysExample {// 数据库连接参数private static final St…...
图解AUTOSAR_CP_EEPROM_Abstraction
AUTOSAR EEPROM抽象模块详细说明 基于AUTOSAR标准的EEPROM抽象层技术解析 目录 1. 概述 1.1 核心功能1.2 模块地位2. 架构概览 2.1 架构层次2.2 模块交互3. 配置结构 3.1 主要配置容器3.2 关键配置参数4. 状态管理 4.1 基本状态4.2 状态转换5. 接口设计 5.1 主要接口分类5.2 接…...
汇川EASY系列之以太网通讯(MODBUS_TCP做从站)
汇川easy系列PLC做MODBUS_TCP从站,不需要任何操作,但是有一些需要知道的东西。具体如下: 1、汇川easy系列PLC做MODBUS_TCP从站,,ModbusTCP服务器默认开启,无需设置通信协议(即不需要配置),端口号为“502”。ModbusTCP从站最多支持31个ModbusTCP客户端(ModbusTCP主站…...
QT 图表(拆线图,栏状图,饼状图 ,动态图表)
效果 折线图 // 创建折线数据系列// 创建折线系列QLineSeries *series new QLineSeries;// series->append(0, 6);// series->append(2, 4);// series->append(3, 8);// 创建图表并添加系列QChart *chart new QChart;chart->addSeries(series);chart->setTit…...
基于vue框架的在线影院系统a079l(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
系统程序文件列表 项目功能:用户,电影,电影类别,电影库 开题报告内容 基于Vue框架的在线影院系统开题报告 一、研究背景与意义 随着文化娱乐产业的蓬勃发展,电影院作为人们休闲消遣的重要场所,其管理效率和服务质量直接影响着顾客的观影体…...
vscode/cursor中python运行路径设置 模块导入问题
vscode/cursor中python运行路径设置 ## 文件路径设置 问题描述 pycharm的项目用cursor运行,出现目录找不到 后来利用 os.getcwd(),经过打印调试发现是IDE的本身配置问题 pycharm中,os.getcwd()默认打开当前脚本所在目录 vscode/cursor中…...
