【开源社区】Elasticsearch(ES)中空值字段 null_value 及通过exists查找非空文档
文章目录
- 0、声明
- 1、问题描述
- 2、问题剖析
- 2.1 NULL或者空值类型有哪些
- 2.2 案例讲解:尝试检索值为 `null` 的字段
- 2.3 解决思路
- 3、使用 null_value 的诸多坑(避免生产事故)
- 3.1 null_value 替换的是索引,并不会直接替换源数据
- 3.2 不支持 Text 类型
- 3.2 null_value 的值必须可以隐式类型转换为当前字段类型
- 3.4 BUG
- 4、如何查询字段值非空或者不为 null 的文档?
0、声明
本文所述问题和解决方案基于 Elasticsearch 7.17.3 版本,具体问题可能会随着版本的变化有所不同,如有疑问请联系作者。
1、问题描述
null 值是个麻烦的问题,在业务系统中经常有如下场景:
- 检索值为
null或''的文档(数据记录) - 判断某字段是否存在
本文主要解决在 ES 中如何处理空只或者 NULL 值,如检索值为空的文档,如何存储空值或 NULL 值等。
2、问题剖析
2.1 NULL或者空值类型有哪些
"NULL"(字符串,不区分大小写)null' '(空白符)''(空值)
2.2 案例讲解:尝试检索值为 null 的字段
首先添加一个名为 null_value_index 的测试索引,将上述类型的值分别创建一条数据出来,然后查看检索结果,如下所示:
PUT null_value_index
{"mappings": {"properties": {"null_field": {"type": "keyword"}}}
}PUT null_value_index/_bulk
{"index":{"_id":1}}
{"null_field":null}
{"index":{"_id":2}}
{"null_field":"null"}
{"index":{"_id":3}}
{"null_field":""}
{"index":{"_id":4}}
{"null_field":" "}
{"index":{"_id":5}}
{"null_field":[]}GET null_value_index/_search
1、尝试检索值为null的文档:
POST null_value_index/_search
{"query": {"term": {"null_field": null}}
}
执行结果如下:
{"error" : {"root_cause" : [{"type" : "illegal_argument_exception","reason" : "field name is null or empty"}],"type" : "illegal_argument_exception","reason" : "field name is null or empty"},"status" : 400
}
发现不支持直接搜索值为 null 的字段,搜索值为 [] 也是一样
2、那么尝试搜索其他几种空值呢?
POST null_value_index/_search
{"query": {"terms": {"null_field": [""," "]}}
}
执行结果:
{"took" : 0,"timed_out" : false,"_shards" : {"total" : 1,"successful" : 1,"skipped" : 0,"failed" : 0},"hits" : {"total" : {"value" : 0,"relation" : "eq"},"max_score" : null,"hits" : [ ]}
}
结果:没有匹配任何文档,说明不论是检索''还是' '都检索不到任何文档
分析:在全文检索中,空值本来就会被作为停用词处理,在分词过程中就会被“干掉”,即便我们使用 term 做精准查询,不会被分词,空值也不会被创建索引,因此无法匹配到任何结果,这一点不同于关系数据库。
3、那么搜索"null"值呢?
POST null_value_index/_search
{"query": {"term": {"null_field": "null"}}
}
查询结果:
{"took" : 0,"timed_out" : false,"_shards" : {"total" : 1,"successful" : 1,"skipped" : 0,"failed" : 0},"hits" : {"total" : {"value" : 1,"relation" : "eq"},"max_score" : 0.2876821,"hits" : [{"_index" : "null_value_index","_type" : "_doc","_id" : "2","_score" : 0.2876821,"_source" : {"null_field" : "null"}}]}
}
为什么搜索字符串就有值了呢?很简单,这就是一个普通的搜索,跟空值没有任何关系,这本质上跟搜索 "test_value"没有任何区别。
2.3 解决思路
那么这有什么意义呢?
其实这给我们提供了一个思路,如果我们想搜索空值字段,只需要在数据写入的时候,把空值字段给他一个默认值就行了
ES 为我们提供了一个 null_value 参数,在定义字段的时候,可以声明在遇到 null 值或其他空值的时候,将其替换为指定的值,
注意: null_value 替换的是分词后的结果,源数据并不受影响,这一点后面会详细讲述
代码示例:
DELETE null_value_index
PUT null_value_index
{"mappings": {"properties": {"null_field": {"type": "keyword","null_value": "NULL"}}}
}
PUT null_value_index/_bulk
{"index":{"_id":1}}
{"null_field":null}
{"index":{"_id":2}}
{"null_field":"NULL"}
{"index":{"_id":3}}
{"null_field":""}
{"index":{"_id":4}}
{"null_field":" "}
{"index":{"_id":5}}
{"null_field":[]}
上述代码在创建 Mapping 的时候,显式的声明 null_value 参数,其值为当 null_field 字段遇到null值的时候的替换值,也就是说 null_value 的值配置什么,这个字段原本的null值就会被替换成什么。
因此上述例子中 _id:1 的数据的值就会被替换,而其他数据不受到影响,因此当执行以下查询时,返回结果应该为 _id: 1 和 _id: 2 两条结果。
GET null_value_index/_search
{"query": {"term": {"null_field": "NULL"}}
}
执行结果:
"hits" : [{"_index" : "null_value_index","_type" : "_doc","_id" : "1","_score" : 0.6931471,"_source" : {"null_field" : null}},{"_index" : "null_value_index","_type" : "_doc","_id" : "2","_score" : 0.6931471,"_source" : {"null_field" : "NULL"}}
]
3、使用 null_value 的诸多坑(避免生产事故)
3.1 null_value 替换的是索引,并不会直接替换源数据
解释:当 null_value 生效发生替换行为时,其替换的并不是源数据(_source_data)而是索引数据,简单来说,就是当你执行 GET null_value_index/_search 时,是看不到任何源数据的变化的。
示例:
测试数据:
DELETE null_value_index
PUT null_value_index
{"mappings": {"properties": {"null_field": {"type": "keyword","null_value": "Elastic"}}}
}PUT null_value_index/_bulk
{"index":{"_id":1}}
{"null_field":null}
执行查询:
GET null_value_index/_search
返回结果:
"hits" : {"total" : {"value" : 1,"relation" : "eq"},"max_score" : 1.0,"hits" : [{"_index" : "null_value_index","_type" : "_doc","_id" : "1","_score" : 1.0,"_source" : {"null_field" : null}}]}
可以看到,源数据中的 null 并未被直接替换,这是因为 null_value 替换的并不是源数据,而是索引数据,也就是说,当我们通过 term:"Elastic" 是可以检索到上面的文档的,替换的值对我们是不可见的。

3.2 不支持 Text 类型
作为 ES 中最常用的类型,text 类型是不支持设置 null_value 参数的,如过添加次参数会出现以下错误:

报错可以看出:text 类型不支持配置 null_value 参数
分析原因:推测是因为 text 类型是用于全文检索,会被分词,通常使用 match 检索 text 字段,而此时源数据和搜索词都会被分词,如果给出了 null_value,ES 就不知道应不应该给这个 null_value 的值分词了,null_value 替换的原本就是索引数据,如果分词可能会影响搜索结果的准确性,使用户得到意想不到的结果,但是如果部分词又违背了 text 类型的设计理念和规则,因此选择了不支持。
引申理解:其实非常建议官方添加对 text 类型对 null_value 类型的支持,因为用户只需要设置一个不会被分词的 null_value 值就可以了,比如"elastic"、"null"这样的词。因为这个问题实在是给广大 elastic 爱好者带来了很大的麻烦。
解决方案:鉴于在业务场景中,经常有 “查询结果 不为空 或不为 null " 这样的需求,针对此问题,文末将给出解决方案。
3.2 null_value 的值必须可以隐式类型转换为当前字段类型
官方的解释是需要设置成和当前字段相同的类型,原文如下:

注意官方文档说的必须是 the same data type as the field,实际上只要是可以隐式类型转换转换就可以,比如字段类型为 long 而 null_value 的配置值为 "1" 或者1 在语法上都是完全没问题的。

可以看到,不管是创建 Mapping 还是写入数据,都是没有问题的,而且不影响 null_value 的正常功能。
但需要注意的是,如果 type 是 long 类型,那么 null_value 的值给了一个 "elastic" 这样的值是不行的。
3.4 BUG
请看如下示例:
DELETE null_value_index
PUT null_value_index
{"mappings": {"properties": {"null_field": {"type": "short","null_value": 1}}}
}PUT null_value_index/_bulk
{"index":{"_id":1}}
{"null_field":null}
{"index":{"_id":2}}
{"null_field":""}
{"index":{"_id":3}}
{"null_field":[]}
基于以上数据,执行如下查询,请各位思考,返回的结果应该是什么
GET null_value_index/_search
{"query": {"term": {"null_field": {"value": 1}}}
}
按照官方对 null_value 的解释,返回结果应只为 doc2(_id: 1)的数据,然而 doc2(_id: 1)也被召回了,这显然是不正常的。

注意,""值是不被 null_value 替换的,这一点当我们把字段类型换成 keyword 的时候,就可以得到验证:

4、如何查询字段值非空或者不为 null 的文档?
推荐阅读:
相关文章:
【开源社区】Elasticsearch(ES)中空值字段 null_value 及通过exists查找非空文档
文章目录 0、声明1、问题描述2、问题剖析2.1 NULL或者空值类型有哪些2.2 案例讲解:尝试检索值为 null 的字段2.3 解决思路 3、使用 null_value 的诸多坑(避免生产事故)3.1 null_value 替换的是索引,并不会直接替换源数据3.2 不支持…...
JavaDS —— 位图(BitSet)与 布隆过滤器
位图 引入问题:给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中。 首先要注意 40 亿个数据如果使用 整型(int) 来存放的话,就是要 40 亿个整型,一个整型有…...
如何确保场外个股期权交易的安全?
如何确保场外个股期权交易的安全?投资者可以采取以下措施,以提高交易的安全性和减少风险: 增强知识储备:深入学习期权的基础知识,包括不同类型的期权、它们的权利和义务、定价方式以及风险特性,从而提升自…...
第2章:LabVIEW FPGA未来发展方向《LabVIEW ZYNQ FPGA宝典》
2.1:NI的LabVIEW FPGA未来战略部署 在展望NI公司的LabVIEW FPGA技术未来发展趋势之前,让我们先来回顾一下LabVIEW与FPGA的技术发展历程,如图2-1所示。可以看出,NI公司的LabVIEW FPGA软件一方面是跟随Xilinx最新的FPGA硬件可持续发…...
苹果电脑维护工具:CleanMyMac X让你的Mac焕发新生!
在我们的数字生活中,苹果电脑(Mac)已成为不可或缺的一部分,无论是为工作披星戴月,还是为娱乐畅游云端。但是,就像任何长时间运行的机器一样,Mac也可能会因为积累的文件和不必要的数据而开始变慢…...
MySQL2 DML数据操纵语言和SQL约束
DML和SQL约束 SQL-DML1.添加数据2.修改数据3.删除 TRUNCATE和DELETE的区别:SQL-约束Primary Key创建主键约束单列主键联合主键**验证主键约束**删除主键约束设置主键自增AUTO_INCREMENTdelete和truncate删除后,主键的自增 SQL-唯一约束UNIQUE创建唯一约束…...
Ubuntu 20.04 中安装 Nginx (通过传包编译的方式)、开启关闭防火墙、开放端口号
文章目录 前言一、安装包下载二、上传服务器并解压缩三、依赖配置安装四、生成编译脚本五、编译六、查看是否编译完成七、开始安装八、查看是否安装成功九、设置为开机自启动 前言 参考大佬文章并在基础上做了点修改,发篇文章记录下 防止下次遇到。 参考文章&#…...
解决no main manifest attribute错误
文章目录 0. 背景1. java程序如何运行2. jar是什么3. java -jar test-1.0-SNAPSHOT.jar:4. 添加执行入口 0. 背景 在开发Spring boot项目的时候,有时候会需要使用java -jar test-1.0-SNAPSHOT.jar指令来运行开发的java应用,但是很不幸&#…...
002 | 常见的金融量化指标计算
金融量化指标 在金融量化分析中,常用的指标可以帮助我们判断市场走势、评估风险和收益,以及构建交易策略。以下是一些常见的金融量化指标及其计算方法的详细教程,包括公式与Python代码实现。 1. 移动平均线(Moving Average, MA&…...
Web Vitals:提升用户体验的关键指标
Web Vitals 是 Google 提出的一套核心网页性能指标,旨在帮助开发者理解和优化网站的用户体验。这些指标分为核心 Web Vitals 和附加 Web Vitals,涵盖了加载性能、交互性和视觉稳定性三个方面。以下是详细的介绍和如何使用 Web Vitals 来优化你的网站。 …...
c#中的约束、TimeSpan、defult、operator
c#中的约束 在C#中,约束(Constraints)用于限制泛型类型参数的类型,以确保泛型类型或方法在编译时能够满足特定的要求。约束允许开发者指定泛型类型参数必须满足的条件,比如实现特定的接口或继承自特定的类。以下是一些…...
挖矿木马攻破了服务器
最近被国外的挖矿木马攻破了服务器 根据非法登录,用 #last指令查看登录ip 首先删掉登录主机 #kill -9 pts/0 第二步 #top 看看什么占用cpu高 第三步杀死狂刷CPU的服务 过一分钟后,服务又开始狂刷cpu。 第四步根据pid查到服务地址 #systemctl status…...
从容应对技术面试:策略、技巧与成功案例
欢迎来到我的博客,很高兴能够在这里和您见面!欢迎订阅相关专栏: 工💗重💗hao💗:野老杂谈 ⭐️ 全网最全IT互联网公司面试宝典:收集整理全网各大IT互联网公司技术、项目、HR面试真题. ⭐️ AIGC时代的创新与未来:详细讲解AIGC的概念、核心技术、应用领域等内容。 ⭐…...
Spring Boot 整合 RestTemplate:详解与实战
Spring Boot 整合 RestTemplate:详解与实战指南 一、引言二、依赖添加Maven 示例:Gradle 示例: 三、创建 RestTemplate 实例四、使用 RestTemplate 发起请求五、处理响应六、高级用法1. 自定义 RestTemplate 实例2. 文件上传、下载以及常见的…...
【利用模板模式和责任链模式实现数据校验】
利用模板模式和责任链模式实现数据校验 一、业务背景二、模板模式和责任链模式代码实现1、数据校验抽象处理器ValidateHandler2、数据校验责任链工具类ValidateChainUtil3、网元调整数据校验抽象类AbstractNodeCheckHandler4、依次定义3个责任链handler,通过Order注…...
学习笔记第十九天
1.标准I/O的基本概念 标准输入(stdin):默认是指键盘输入。 标准输出(stdout):默认是指显示器输出。 标准错误(stderr):用于输出错误信息,也是指向显示器&…...
设计模式 - 单例模式
💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 文章目录 引言一、单例模…...
fastapi之WebSockets
文章目录 WebSockets基本概念FastAPI 中的 WebSocket 支持WebSocket 应用示例示例 1: 简单的 WebSocket 连接解释 示例 2: 广播消息的 WebSocket 实现解释 客户端代码示例 完整示例项目结构服务器端代码 (main.py)解释 简单的前端客户端 (static/index.html)解释 测试 相关代码…...
Kotlin 和 Java区别
Kotlin 和 Java 是两种主要用于 Android 开发的编程语言,它们之间有一些关键的区别: 1. 语法简洁性: Kotlin:具有更简洁的语法,减少了冗余代码。例如,Kotlin 支持类型推断,避免了大量的样板…...
windows 达梦到ORACLE dblink
达梦通过DBLINK访问Oracle数据库有两种: 方式一:通过Oracle oci接口; 方式二:一种是通过ODBC数据源的方式。 本案例选择使用Oralce OCI的方式去访问Oracle数据库。 配置Oracle OCI客户端 下载地址:https://www.oracle.com/database/techno…...
【Axure高保真原型】引导弹窗
今天和大家中分享引导弹窗的原型模板,载入页面后,会显示引导弹窗,适用于引导用户使用页面,点击完成后,会显示下一个引导弹窗,直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…...
镜像里切换为普通用户
如果你登录远程虚拟机默认就是 root 用户,但你不希望用 root 权限运行 ns-3(这是对的,ns3 工具会拒绝 root),你可以按以下方法创建一个 非 root 用户账号 并切换到它运行 ns-3。 一次性解决方案:创建非 roo…...
HBuilderX安装(uni-app和小程序开发)
下载HBuilderX 访问官方网站:https://www.dcloud.io/hbuilderx.html 根据您的操作系统选择合适版本: Windows版(推荐下载标准版) Windows系统安装步骤 运行安装程序: 双击下载的.exe安装文件 如果出现安全提示&…...
Ascend NPU上适配Step-Audio模型
1 概述 1.1 简述 Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统,支持多语言对话(如 中文,英文,日语),语音情感(如 开心,悲伤)&#x…...
ardupilot 开发环境eclipse 中import 缺少C++
目录 文章目录 目录摘要1.修复过程摘要 本节主要解决ardupilot 开发环境eclipse 中import 缺少C++,无法导入ardupilot代码,会引起查看不方便的问题。如下图所示 1.修复过程 0.安装ubuntu 软件中自带的eclipse 1.打开eclipse—Help—install new software 2.在 Work with中…...
selenium学习实战【Python爬虫】
selenium学习实战【Python爬虫】 文章目录 selenium学习实战【Python爬虫】一、声明二、学习目标三、安装依赖3.1 安装selenium库3.2 安装浏览器驱动3.2.1 查看Edge版本3.2.2 驱动安装 四、代码讲解4.1 配置浏览器4.2 加载更多4.3 寻找内容4.4 完整代码 五、报告文件爬取5.1 提…...
企业如何增强终端安全?
在数字化转型加速的今天,企业的业务运行越来越依赖于终端设备。从员工的笔记本电脑、智能手机,到工厂里的物联网设备、智能传感器,这些终端构成了企业与外部世界连接的 “神经末梢”。然而,随着远程办公的常态化和设备接入的爆炸式…...
C# 求圆面积的程序(Program to find area of a circle)
给定半径r,求圆的面积。圆的面积应精确到小数点后5位。 例子: 输入:r 5 输出:78.53982 解释:由于面积 PI * r * r 3.14159265358979323846 * 5 * 5 78.53982,因为我们只保留小数点后 5 位数字。 输…...
算法岗面试经验分享-大模型篇
文章目录 A 基础语言模型A.1 TransformerA.2 Bert B 大语言模型结构B.1 GPTB.2 LLamaB.3 ChatGLMB.4 Qwen C 大语言模型微调C.1 Fine-tuningC.2 Adapter-tuningC.3 Prefix-tuningC.4 P-tuningC.5 LoRA A 基础语言模型 A.1 Transformer (1)资源 论文&a…...
JVM 内存结构 详解
内存结构 运行时数据区: Java虚拟机在运行Java程序过程中管理的内存区域。 程序计数器: 线程私有,程序控制流的指示器,分支、循环、跳转、异常处理、线程恢复等基础功能都依赖这个计数器完成。 每个线程都有一个程序计数…...
