当前位置: 首页 > article >正文

我们是如何为 ES|QL 重建自动补全功能的

作者:来自 Elastic Drew Tate

Elasticsearch 拥有许多新功能,可以帮助你根据使用场景构建最佳搜索方案。浏览我们的示例笔记本了解更多内容,开始免费试用云服务,或者立即在本地机器上尝试 Elastic。


对于我们开发者来说,优秀的自动补全似乎是理所当然的。它运行得很顺畅 —— 直到你尝试亲手构建它。

这篇文章讲的是我们最近为支持 ES|QL 持续演进而进行的一次自动补全架构重建。

关于 ES|QL 的一点介绍

如果你还没听说过,ES|QL 是 Elastic 推出的新查询语言。它非常强大,我们认为它将成为未来 AI 代理、应用程序和人类与 Elastic 交互的主要方式。因此,我们在 Kibana 的多个地方(包括 Discover 和 Dashboard 应用)提供了 ES|QL 的编辑体验。

Discover 中的 ES|QL

要理解这次重构,关键是要了解一些语言组件。

一个 ES|QL 查询由一系列连接在一起的命令组成,用于执行一连串的操作。

这里,我们将一个索引的数据与另一个索引进行连接:

FROM firewall_logs-* METADATA _index| LOOKUP JOIN threat_list ON source.IP| SORT _index

在上面的示例中,FROM、LOOKUP JOIN 和 SORT 是命令。

命令可以包含主要的子组件(称为子命令),通常由下一个管道符号前的第二个关键字标识(例如上面示例中的 METADATA)。和命令一样,子命令也有自己的语义规则,用于定义关键字后面可以出现的内容。

ES|QL 也有函数,看起来与你预期的一样。请看下面示例中的 AVG:

FROM logs-* | STATS AVG(bytes) BY agent.name

自动补全是帮助用户学习 ES|QL 的一个重要功能。

自动补全 1.0

我们最初构建的自动补全引擎具有以下几个关键特点:

  • 声明式 - declarative —— 使用静态声明来描述命令
  • 通用性 - generic —— 严重依赖通用逻辑,适用于大多数或全部语言上下文
  • 具体化子命令 - Reified subcommands—— 将子命令视为一等抽象,拥有自己的逻辑

在顶层建议程序中,我们的代码会分析查询内容,检测用户光标所在的大致区域。然后根据语言子组件的不同,进入多个子程序中的一个。

命令和子命令的语义是通过 “命令签名 - command signature” 以声明式方式描述的。它定义了命令名称后可以使用的模式。比如,它可能会声明 “接受任意数量的布尔表达式”,或者“先接受一个字符串字段,再接受一个数值字面量”。

如果第一次分析判断光标处于某个命令或子命令中,对应的分支就会尝试将(子)命令签名与查询内容进行匹配,并以通用的方式推断出建议内容。

问题开始显现

起初,这种架构是有效的。早期的 ES|QL 命令相对统一。它们基本上看起来像这样:

COMMAND arg[, arg] SUB_COMMAND arg[, arg]

但随着时间的推移,命令开始变得更加定制化。

随着每个新命令的增加,几个问题也随之出现并不断加剧:

  • 代码复杂性 —— 自动补全的代码变得庞大、复杂且难以理解。很难分清哪些逻辑适用于哪些命令。
  • 缺乏正交性 —— 对语言某一部分行为的更改常常会影响到语言的其他部分。例如,在 KEEP 中的字段列表添加逗号建议,意外地也在 DISSECT 的字段后给出逗号建议 —— 这是无效的。

问题在于,新的语法和行为让我们原本 “通用” 的代码需要越来越多的特定命令分支,而命令定义则需要越来越多其实只适用于单个命令的 “通用” 设置。

逐渐地,我们开始意识到,用一个声明式接口来描述每个命令结构和行为的细微差异,这个想法有些理想化。

投资重构的时机

什么时候该投资进行重构?答案因情境而异。你需要权衡好收益与成本。说实话,你通常可以长期承担低效带来的代价 —— 而且这可能是合理的。

推迟重构的一种方式是 “治标不治本”。我们就是这样坚持了好几个月。我们用冗长的注释来应对代码复杂性,用更完善的测试覆盖率和细致的人工测试来应对正交性不足的问题。

但总有一个时刻,修修补补的代价超过了彻底重构的成本。对我们来说,这个节点就是一个出色的新 ES|QL 功能的引入 —— 基于聚合的过滤。

WHERE 命令自 ES|QL 初期就已经存在,但这个新功能让 WHERE 可以作为 STATS 中的子命令使用。

... | STATS COUNT(*) WHERE <expression>

这看起来像是一个小改动,但它打破了原本清晰区分命令与子命令的架构界限。现在,我们有了一个既是命令又可以作为子命令的结构。

这个基本抽象的突破,加上之前积累的各种低效问题,让我们决定是时候进行投资了。

Autocomplete 2.0

ES|QL 并不是一个通用语言,而是一种查询语言。所以我们决定接受一个现实:命令本就是为特定需求而设计的(符合传统查询语言的风格)。

新的架构必须足够灵活和适应性强,同时要清晰地表达出哪些代码属于哪个命令。这意味着我们需要一个具备以下特性的系统:

  • 命令式 -  Imperative —— 不再通过声明命令名之后允许的内容并单独解释声明,而是直接编写逻辑来验证命令的正确性。
  • 命令专属 - Command-specific —— 每个命令都有自己的逻辑。不再存在适用于所有命令的通用处理程序。

在 Autocomplete 1.0 中,前期的分类逻辑承担了大量工作。现在,它只判断光标是否已经位于某个命令内部。如果在命令内,它就直接交给该命令专属的建议方法。现在大部分的处理逻辑都发生在具体命令内部,该命令拥有对其建议生成的完整控制权。

这并不意味着命令之间完全不共享逻辑。它们仍然会将建议的生成,甚至一些初步判断步骤,委托给可复用的子程序(例如判断光标是否位于一个 ES|QL 函数中)。但同时,它们保留了按需定制行为的灵活性。

为每个命令提供自己的建议方法提升了代码隔离性,减少了副作用,也更清晰地表达了哪些代码适用于哪个命令。

核心仍是用户

毫无疑问,这次重构为开发者带来了更好的体验。每个接触过两个系统的人都能感受到这种改变带来的清新感。但归根结底,我们进行这项投入是为了服务我们的用户。

首先,有些 ES|QL 功能若没有此次重构,是无法合理支持的。我们的用户在编写 ES|QL 时期待获得高质量的建议,现在我们可以在更多上下文中满足这一需求。

旧系统很容易引入回归问题。而现在,我们预计此类问题会更少。

我们团队最主要的任务之一就是为新命令添加支持。现在,我们可以更快完成这项工作。

虽然这项工作还没有结束,但我们已经建立起了一个支持变化、而非抵抗变化的系统。通过这次投入,我们为语言和编辑器的未来发展打下了坚实的基础。

原文:How we rebuilt autocomplete for ES|QL - Elasticsearch Labs

相关文章:

我们是如何为 ES|QL 重建自动补全功能的

作者&#xff1a;来自 Elastic Drew Tate Elasticsearch 拥有许多新功能&#xff0c;可以帮助你根据使用场景构建最佳搜索方案。浏览我们的示例笔记本了解更多内容&#xff0c;开始免费试用云服务&#xff0c;或者立即在本地机器上尝试 Elastic。 对于我们开发者来说&#xff0…...

Keepalived 配置 VIP 的核心步骤

Keepalived 配置 VIP 的核心步骤主要涉及安装软件、主备节点配置及服务管理。以下是具体操作指南: 一、安装 Keepalived ‌Ubuntu/Debian 系统‌ sudo apt update sudo apt install keepalived ‌CentOS/RHEL 系统‌ sudo yum install keepalived 注:需确保已配置 EPE…...

如何使用 Redis 快速实现排行榜?

Redis 的 Sorted Set&#xff08;有序集合&#xff09; 是实现排行榜的高效工具&#xff0c;其天然支持按分数排序、范围查询和原子操作。以下是快速实现排行榜的步骤和核心方案&#xff1a; 一、核心数据结构&#xff1a;Sorted Set 特性&#xff1a; 每个成员&#xff08;me…...

MATLAB在逐渐被Python淘汰吗

MATLAB在学术研究、工程仿真、数值计算等传统领域仍占据一席之地&#xff0c;但Python因其开源免费、生态丰富、易于集成的优势&#xff0c;正在快速崛起&#xff0c;逐步蚕食MATLAB的市场份额。尤其在人工智能、数据分析和科学计算等领域&#xff0c;Python的优势愈发明显。例…...

Git 使用规范

Git 使用规范 一、版本控制的核心原则 &#x1f9ed;二、分支策略&#xff08;Branch Strategy&#xff09; &#x1f33f;2.1 分支类型与命名规范2.2 可视化流程图 三、提交信息规范&#xff08;Commit Message&#xff09;✍️3.1 提交格式3.2 Type 类型说明 四、Tag 版本规范…...

代码随想录第43天:图论4(最小生成树、拓扑排序)

一、冗余的边II&#xff08;Kamacoder 109&#xff09; from collections import defaultdict# 并查集 - 查找根节点&#xff08;路径压缩&#xff09; def find(fa, x):if fa[x] ! x:fa[x] find(fa, fa[x])return fa[x]# 并查集 - 合并两个集合&#xff0c;返回是否合并成功 …...

AI智能体|扣子(Coze)搭建【自动生成超高质量PPT】工作流

各位好久不见&#xff0c;你的失踪人口又回来了&#xff0c;已经超过一周的时间没有进行文章的更新了。 没更新的这段时间&#xff0c;主要还是因为工作上的调整以及身体生病所导致的停更&#xff0c;具体以后再说。 我们先讲今天的主要主题&#xff0c;使用 Coze 智能体一键生…...

list.sort(*, key=None, reverse=False)的两个问题

在python官网中&#xff0c;5.1. More on Lists&#xff0c;list.sort()是关于排序的方法。 list.sort(*&#xff0c; keyNone, reverseFalse) 中有两个问题&#xff1a; * 是什么意思key有什么作用 * 是什么意思 * 表示后面必须是关键字参数&#xff0c;具体见python官网4…...

文档处理的相关工具

目前网页端的文档&#xff0c;可以通过沉浸式翻译来进行翻译阅读和学习。 但是某些文献只有pdf下载的版本&#xff0c;所以需要一个免费的针对pdf的翻译工具。 保留公式和图片格式。 推荐一个pdf翻译的工具&#xff0c;可以自己部署使用。如果需要word版本&#xff0c;后面讨论…...

java基础(面向对象进阶高级)内部类

内部类 内部类概述、成员内部类 (了解&#xff09; 内部类创建对象&#xff1a; 一定要继承外部类对象&#xff0c;才能创建内部类对象。 拓展:成员内部类访问外部类的成员特点&#xff1a; 成员内部类中&#xff0c;是否可以直接访问外部类的实例成员?? 当然可以啊&#x…...

使用Python,OpenCV,Tesseract-OCR对自己的运动数据图片进行识别及分析,并使用Matplotlib绘制配速图出来

使用Python,OpenCV,Tesseract-OCR对自己的运动数据图片进行识别及分析,并使用Matplotlib绘制配速图出来 1. 效果图2. 源码3. 全量源码及运动图片资源参考主要分为 目录下图片解析及读取;拼九宫格图片出来,可以自由配置(m*n)取决于自己有多少张运动图片遍历图片并进行运动…...

小白的进阶之路系列之七----人工智能从初步到精通pytorch自动微分优化以及载入和保存模型

本文将介绍Pytorch的以下内容 自动微分函数 优化 模型保存和载入 好了,我们首先介绍一下关于微分的内容。 在训练神经网络时,最常用的算法是反向传播算法。在该算法中,根据损失函数相对于给定参数的梯度来调整参数(模型权重)。 为了计算这些梯度,PyTorch有一个内置…...

创建型模式之 Builder (生成器)

创建型模式之 Builder (生成器) 摘要&#xff1a; 本文介绍了生成器&#xff08;Builder&#xff09;设计模式&#xff0c;属于创建型模式之一。该模式通过将复杂对象的构建与表示分离&#xff0c;使同一构建过程能创建不同表现形式。文章以小米汽车不同配置版本为例说明了模式…...

智能物资出入库管控系统

概述 智能物资管理系统利用RFID自动识别技术&#xff0c;物联网技术、人脸识别、指纹、指静脉生物识别技术&#xff0c;应用于军械装备的管理&#xff0c;可实时准确采集军械装备编配、 储存、供应、使用等数据&#xff0c;实时掌握军械装备物资的分布及数量 状况。细化管理到…...

鸿蒙OSUniApp 制作倒计时与提醒功能#三方框架 #Uniapp

使用 UniApp 制作倒计时与提醒功能 前言 倒计时与提醒功能在移动应用中应用广泛&#xff0c;如活动秒杀、任务提醒、考试倒计时等。一个实用的倒计时组件不仅要精准计时&#xff0c;还要兼容多端&#xff0c;尤其是在鸿蒙&#xff08;HarmonyOS&#xff09;等新兴平台上保证流…...

深入剖析网络协议:七层协议与四层协议详解

在计算机网络的世界中&#xff0c;数据的传输与交互离不开协议的规范。其中&#xff0c;七层协议和四层协议是网络通信架构的核心概念&#xff0c;它们如同网络世界的 “交通规则”&#xff0c;保障着数据准确、高效地在不同设备间流转。本文将深入解读七层协议与四层协议&…...

机器学习-线性回归基础

一、什么是回归 依据输入x写出一个目标值y的计算方程&#xff0c;求回归系数的过程就叫回归。简言之&#xff1a;根据题意列出方程&#xff0c;求出系数的过程就叫做回归。 回归的目的是预测数值型的目标值y&#xff0c;分类的目的预测标称型的目标值y。 二、线性回归 2.1线性…...

自学嵌入式 day 25 - 系统编程 标准io 缓冲区 文件io

&#xff08;3&#xff09;二进制文件读写函数&#xff1a; ①fread&#xff1a; size_t fread(void *ptr, size_t size, size_t nmemb, FILE *stream); 功能&#xff1a;从指定的stream流对象中获取nmemeb个大小为size字节的数据块到ptr所在的本地内存中。 参数&…...

[Vue组件]半环进度显示器

[Vue组件]半环进度显示器 纯svg实现&#xff0c;不需要其他第三方库&#xff0c;功能简单&#xff0c;理论上现代浏览器都能支持 封装组件 所有参数都选填&#xff0c;进度都可选填 <template><div class"ys-semiring"><div class"svg-container…...

科技赋能建筑行业,智能楼宇自控系统崭露头角成发展新势力

在科技浪潮席卷全球的时代背景下&#xff0c;传统建筑行业正面临着前所未有的变革压力。随着城市化进程加快&#xff0c;建筑规模与复杂度不断攀升&#xff0c;能源消耗、运营效率、用户体验等问题日益凸显。智能楼宇自控系统凭借物联网、大数据、人工智能等前沿技术&#xff0…...

Rust入门之并发编程基础(一)

Rust入门之并发编程基础&#xff08;一&#xff09; 无畏并发 本文源码 安全且高效地处理并发编程是 Rust 的另一个主要目标。并发编程&#xff08;Concurrent programming&#xff09;&#xff0c;代表程序的不同部分相互独立地执行&#xff0c;而 并行编程&#xff08;par…...

高级特性实战:死信队列、延迟队列与优先级队列(二)

三、延迟队列&#xff1a;实现任务定时执行 3.1 延迟队列概念解析 延迟队列&#xff08;Delay Queue&#xff09;&#xff0c;是一种特殊的队列&#xff0c;它的独特之处在于队列中的元素&#xff08;消息&#xff09;并不会立即被处理&#xff0c;而是会在指定的延迟时间过后…...

VR 电缆故障测试系统:技术革新​

VR 电缆故障测试系统&#xff0c;作为电力领域的创新科技成果&#xff0c;融合了虚拟现实技术、三维建模、实时交互等前沿技术&#xff0c;为电缆故障测试带来了全新的解决方案。它的工作原理犹如一位经验丰富的侦探&#xff0c;通过层层线索&#xff0c;精准地锁定电缆故障的位…...

Rocky Linux上安装Go

使用官方二进制包安装 1. 下载 Go 官方二进制包 cd /tmp wget https://go.dev/dl/go1.22.3.linux-amd64.tar.gz2. 解压并安装到 /usr/local sudo rm -rf /usr/local/go # 如果之前有旧版本先删除 sudo tar -C /usr/local -xzf go1.22.3.linux-amd64.tar.gz3. 设置环境变量…...

深度学习论文: FastVLM: Efficient Vision Encoding for Vision Language Models

深度学习论文: FastVLM: Efficient Vision Encoding for Vision Language Models FastVLM: Efficient Vision Encoding for Vision Language Models PDF: https://www.arxiv.org/abs/2412.13303 PyTorch代码: https://github.com/shanglianlm0525/CvPytorch PyTorch代码: https…...

白杨SEO:做AI搜索优化的DeepSeek、豆包、Kimi、百度文心一言、腾讯元宝、通义、智谱、天工等AI生成内容信息采集主要来自哪?占比是多少?

大家好&#xff0c;我是白杨SEO&#xff0c;专注SEO十年以上&#xff0c;全网SEO流量实战派&#xff0c;AI搜索优化研究者。 在开始写之前&#xff0c;先说个抱歉。 上周在上海客户以及线下聚会AI搜索优化分享说各大AI模型的联网搜索是关闭的&#xff0c;最开始上来确实是的。…...

显示docker桌面,vnc远程连接docker

目录 相关概念&#xff1a; 实现步骤&#xff1a; 1.启动docker容器 2.安装x11 3.Docker 容器中安装一个完整的图形桌面&#xff08;XFCE&#xff09;和 VNC 远程桌面服务器&#xff08;TightVNC&#xff09; 4.配置vncservice 5.本地安装VNC Viewer连接VNC Viewer下载地…...

Web 端顶级视效实现:山海鲸端渲染底层原理与发布模式详解

大家好&#xff0c;欢迎大家回到山海鲸的渲染模式系列教程。昨天&#xff0c;我们看了一下山海鲸支持的3种渲染模式的整体概览。今天&#xff0c;我们就来看一下山海鲸支持的最基础的渲染模式&#xff0c;也就是端渲染的渲染设置。 1. 山海鲸的端渲染 我们说到端渲染&#xf…...

腾讯云国际站性能调优

全球化业务扩张中&#xff0c;云端性能直接决定用户体验与商业成败。腾讯云国际站通过资源适配、网络优化与存储革新&#xff0c;为企业提供全链路调优方案。 ​​资源精准适配​​ 实例选型需与业务场景深度耦合&#xff0c;计算优化型实例加速AI训练效率3倍&#xff0c;内存…...

深入解析操作系统内核与用户空间以及内核态与用户态转换

用户空间和内核空间的划分是现代操作系统的基础&#xff0c;对应用程序网络模型的设计和优化有着深远的影响。 内核空间与用户空间的分工 现代操作系统为了保证系统的稳定性和安全性&#xff0c;将虚拟内存空间划分为用户空间和内核空间。 一、用户空间 用户空间是用户程序…...