当前位置: 首页 > news >正文

深度测试:指定DoC ID对ES写入性能的影响

在[[使用python批量写入ES索引数据]]中已经介绍了如何批量写入ES数据。基于该流程实际测试一下指定文档ID对ES性能的影响有多大。

一句话版

指定ID比不指定ID的性能下降了63%,且加剧趋势。

以下是测评验证的细节。

百万数据量

索引默认使用1分片和1副本。

指定ID写入

执行完写入程序,后台显示耗时:
'Total Time Spent: ', 225.49,据此计算吞吐量为4444/s。

索引速度监控截图显示约4550条每秒:

不指定ID写入

执行完写入程序,后台显示耗时:
'Total Time Spent: ', 214.52,据此计算为4672/s。
后台索引的性能监控显示,写入速度约是4750条每秒,比写ID时略高5%。

千万级数据量

索引创建多个分片

此时我们指定要写入的索引为3个分片,也是1份副本。
代码里添加的内容是:

# 定义要创建的索引及其设置,包括主分片数为3  
create_index_body = {  "settings": {  "index": {  "number_of_shards": 3,  # 设置主分片数为3  "number_of_replicas": 1  # 设置副本数为1,可以根据需要调整  }  }  
} # 创建索引  
if not es.indices.exists(index="my_index"):  es.indices.create(index="my_index", body=create_index_body) 

指定ID

后台显示耗时:
'Total Time Spent: ', 1465.45,据此计算写入速度平均6825/s。
索引速度约6700条每秒。

不指定ID

后台显示耗时:
'Total Time Spent: ', 1434.30,计算为6973/s。
监控趋势展示,约7016条每秒。

优势似乎不明显。
我们继续追加1000万条数据,此时id使用随机生成的字符串。

追加1000万数据

从写入机制考虑,应该原始索引有存量数据才对性能有影响,我们追加写入1000万数据进行验证,且使用随机生成的uuid。

指定文档ID

1000万到2000万:程序耗时1778.45秒。
最终通过ES查询索引元数据观察到索引操作累计耗时是1215秒。
其余的时间多是python程序自身运行的占用。
2000万到3000万:程序耗时1904.99秒;索引累计耗时2026秒。
3000万到4000万:程序耗时1904.99秒;索引累计耗时2026秒。
4000万到5000万:程序耗时1904.99秒;索引累计耗时2026秒。
那么,最后1000万数据实际入库索引速度是11025/s

不指定文档ID

1000万到2000万:程序耗时1446.72秒;索引操作耗时1112秒。
2000万到3000万:程序耗时1458.31秒;索引累计耗时1672秒。
3000万到4000万:程序耗时1497.03秒;索引累计耗时2232秒。
4000万到5000万:程序耗时1475.83秒;索引累计耗时2788秒。
那么,最后1000万数据的实际索引速度是17985/s

最终,测试集群已经有一个亿的数据:

统计以上数据趋势看图。

  • 不指定ID的运行效率基本恒定
  • 指定ID的运行效率逐步下降了约33%

  • 索引速度的差距稳步拉开!!

总结

综上,指定ID写入对性能的负面影响随着数据量增长而增大。数据显示在5000万级别性能已损失了63%。

这是虚拟机环境的模拟,具体计算指定ID对性能的影响是复杂的,因为它取决于上述多个因素以及你的软硬件环境。

据ES官方的性能调优指南:在为具有显式 id 的文档编制索引时,Elasticsearch 需要检查同一分区内是否已经存在具有相同 id 的文档,这是一项成本很高的操作,而且随着索引的增加,成本会越来越高。

可以预见的是当索引变大到某一程度时指定ID的性能可能会断崖式下跌而非缓慢下降。

与君共赏

《题西林壁》宋·苏轼
横看成岭侧成峰,远近高低各不同。
不识庐山真面目,只缘身在此山中。

相关文章:

深度测试:指定DoC ID对ES写入性能的影响

在[[使用python批量写入ES索引数据]]中已经介绍了如何批量写入ES数据。基于该流程实际测试一下指定文档ID对ES性能的影响有多大。 一句话版 指定ID比不指定ID的性能下降了63%,且加剧趋势。 以下是测评验证的细节。 百万数据量 索引默认使用1分片和1副本。 指定…...

【JGit】 AddCommand 新增的文件不能添加到暂存区

执行git.add().addFilepattern(".").setUpdate(true).call() 。新增的文件不能添加到暂存区,为什么? 在 JGit 中,setUpdate(true) 方法用于在调用 AddCommand 的 addFilepattern() 方法时,将已跟踪文件标记为需要更新。…...

golang学习6,glang的web的restful接口传参

1.get传参 //get请求 返回json 接口传参r.GET("/getJson/:id", controller.GetUserInfo) 1.2.接收处理 package controllerimport "github.com/gin-gonic/gin"func GetUserInfo(c *gin.Context) {_ c.Param("id")ReturnSucess(c, 200, &quo…...

Carla自动驾驶仿真八:两种查找CARLA地图坐标点的方法

文章目录 前言一、通过Spectator获取坐标二、通过道路ID获取坐标总结 前言 CARLA没有直接的方法给使用者查找地图坐标点来生成车辆,这里推荐两种实用的方法在特定的地方生成车辆。 一、通过Spectator获取坐标 1、Spectator(观察者)&#xf…...

HarmonyOS | 状态管理(八) | PersistentStorage(持久化存储UI状态)

系列文章目录 1.HarmonyOS | 状态管理(一) | State装饰器 2.HarmonyOS | 状态管理(二) | Prop装饰器 3.HarmonyOS | 状态管理(三) | Link装饰器 4.HarmonyOS | 状态管理(四) | Provide和Consume装饰器 5.HarmonyOS | 状态管理(五) | Observed装饰器和ObjectLink装饰器 6.Harmo…...

Git 突破 文件尺寸限制

前言 当Git本地存储里右超过50MB,却又确实需要上传的时候,就需要用到了不是 解决 本代码就是把大文件进行拆解成小文件,然后上传。 等到拉取下来的时候,可以直接再进行合并,合并成原文件 代码如下,仅供…...

HarmonyOS开发云工程与开发云函数

创建函数 您可直接在DevEco Studio创建函数、编写函数业务代码、为函数配置调用触发器。 1.右击“cloudfunctions”目录,选择“New > Cloud Function”。 2.输入函数名称后,点击“OK”。 函数名称仅支持小写英文字母、数字、中划线(-&a…...

SpringMVC了解

1.springMVC概述 Spring MVC(Model-View-Controller)是基于 Java 的 Web 应用程序框架,用于开发 Web 应用程序。它通过将应用程序分为模型(Model)、视图(View)和控制器(Controller&a…...

day44((VueJS)路由的懒加载使用 路由的元信息(meta) 路由守卫函数 vant组件库的应用)

一.路由懒加载的使用 使用原因 1.使用原因1) 使用一般写法(即直接填写组件的缺点)当使用这种写法,页面在初次加载会将所有路由配置表的添加的组件一次性全部加载,如果项目中组件代码量庞大,就需要很长时间…...

非线性优化资料整理

做课题看了一些非线性优化的资料,整理一下,以方便查看: 优化的中文博客 数值优化|笔记整理(8)——带约束优化:引入,梯度投影法 (附代码)QP求解器对比对于MPC的QP求解器 数值优化| 二次规划的…...

踩坑wow.js 和animate.css一起使用没有效果

踩坑wow.js 和animate.css一起使用没有效果 问题及解决方法一、电脑系统配置问题二、版本问题 问题及解决方法 一、电脑系统配置问题 在系统属性里面把窗口内的动画和元素勾选 二、版本问题 使用wow加animate4.4.1也就是最新本,打开网页没有任何动画效果 但是把…...

Laravel - API 项目适用的图片验证码

1. 安装 gregwar/captcha 图片验证码接口的流程是: 生成图片验证码 生成随机的 key,将验证码文本存入缓存。 返回随机的 key,以及验证码图片 # 不限于 laravel 普通 php 项目也可以使用额 $ composer require gregwar/captcha2. 开发接口 …...

iMazing3安全吗?好不好用?值不值得下载

一、安全性 iMazing在设计和开发过程中,始终把用户数据的安全性放在首位。它采用了多种先进的安全技术来确保用户数据在传输、备份和存储过程中的安全。 iMazing3Mac-最新绿色安装包下载如下: https://wm.makeding.com/iclk/?zoneid49816 iMazing3Wi…...

韩国突发:将批准比特币ETF

作者:秦晋 韩国两党宣布将批准比特币ETF。比特币也再次成为竞选的宠儿。 4月10日,韩国将迎来每隔4年而进行的一次立法大选。在大选之前,现执政党与反对党都承诺将批准比特币ETF。 我们知道,比特币的主要受众群体以年轻人居多。此前…...

Kubernetes IoTDB系列 | IoTDB数据库同步|IoTDB数据库高可用

目录 一、介绍二、应用场景三、IoTDB 数据库搭建四、修改同步配置文件1、配置接收端的参数2、配置发送端的参数五、启动同步功能发送端六、测试一、介绍 IoTDB 数据库同步是指将一个节点的数据复制到其他节点,以确保数据的冗余和可用性。在分布式环境中,数据同步是保证系统高…...

重拾前端基础知识:CSS

重拾前端基础知识:CSS 前言选择器简单选择器属性选择器组合选择器 插入CSS内嵌样式(Inline Style)内部样式(Internal Style)外部样式(External Style) 层叠颜色背景颜色文本颜色RGB 颜色HEX 颜色…...

综合实战(volume and Compose)

"让我,重获新生~" MySQL 灾难恢复 熟练掌握挂载卷的使用,将Mysql的业务数据存储在 外部。 实战思想: 使用 MySQL 5.7 的镜像创建容器并创建一个普通数据卷 "mysql-data"用来保存容器中产生的数据。我们需要容器连接到Mysql服务&a…...

国际黄金价格要具体市况具体分析

国际黄金价格走势多变,投资者在参与的过程中要注意自己交易策略的灵活度,要做到具体市况具体分析,而且面对不同的市况,要采用不同的挂单方式,这样才能把握住更有利的入场时机。在大家常用的现货黄金交易软件MT4中&…...

【python】0、超详细介绍:json、http

文章目录 一、json二、http2.1 json 读取 request 序列化 三、基本类型3.1 decimal 四、图像4.1 颜色格式转换 一、json import json f open(data.json) # open json file data json.load(f) # 读出 json object for i in data[emp_details]: # 取出一级属性 emp_details, …...

可观测性在威胁检测和取证日志分析中的作用

在网络中,威胁是指可能影响其平稳运行的恶意元素,因此,对于任何希望避免任何财政损失或生产力下降机会的组织来说,威胁检测都是必要的。为了先发制人地抵御来自不同来源的任何此类攻击,需要有效的威胁检测情报。 威胁…...

红外遥控模块实战:从解码到智能控制全解析

1. 红外遥控模块基础认知 第一次接触红外遥控模块时,我盯着桌上那个黑色的小方块研究了半天——它看起来就像个普通电子元件,却能隔空控制空调电视。这种神奇的能力其实源于红外光的特性:波长介于可见光和微波之间(通常850-1100nm…...

抖音无水印下载终极指南:5分钟掌握专业级资源管理工具

抖音无水印下载终极指南:5分钟掌握专业级资源管理工具 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback suppo…...

别再只谈参数了!SITS2026首次发布AGI能效黄金公式:E = (FLOPs × V² × f) ÷ Accuracy² —— 附Python自动测算脚本

第一章:SITS2026分享:AGI的能源消耗问题 2026奇点智能技术大会(https://ml-summit.org) AGI训练能耗已逼近传统工业规模 据SITS2026大会披露,单次AGI基座模型全量训练(参数量≥10 13)平均耗电达270–450 MWh&#xf…...

终极指南:3小时完成100个NCBI基因组数据批量下载的完整解决方案

终极指南:3小时完成100个NCBI基因组数据批量下载的完整解决方案 【免费下载链接】ncbi-genome-download Scripts to download genomes from the NCBI FTP servers 项目地址: https://gitcode.com/gh_mirrors/nc/ncbi-genome-download 作为生物信息学研究人员…...

ThinkPHP5.x与3.x核心差异解析

ThinkPHP 5.x 与 3.x 的主要区别体现在架构设计、语法规范及功能特性上:1. 架构规范5.x:严格遵循 PSR 规范(如 PSR-2、PSR-4),采用命名空间和自动加载机制,代码组织结构更清晰。例如:控制器类需…...

ECharts折线图标签智能避让:基于数据比较的动态上下布局方案

1. 为什么折线图标签会重叠? 做过数据可视化的朋友应该都遇到过这个头疼的问题——当多条折线密集交叉时,它们的数值标签经常会挤成一团。我刚开始用ECharts时,每次看到这种重叠的标签都特别烦躁,就像超市收银台排队时前面的人突然…...

实时人脸检测实战指南:YOLOv5-face解决密集场景下人脸识别难题

实时人脸检测实战指南:YOLOv5-face解决密集场景下人脸识别难题 【免费下载链接】yolov5-face YOLO5Face: Why Reinventing a Face Detector (https://arxiv.org/abs/2105.12931) ECCV Workshops 2022) 项目地址: https://gitcode.com/gh_mirrors/yo/yolov5-face …...

从AMP到BMP:在ZYNQ上玩转多核任务绑定的三种模式对比与选型指南

从AMP到BMP:ZYNQ多核架构设计的黄金三角法则 当你在ZYNQ-7000平台上启动第二个Cortex-A9核心时,就像打开了潘多拉魔盒——性能提升的诱惑与资源冲突的风险并存。我曾亲眼见证一个工业控制器项目因为双核内存访问冲突导致产线停机,也参与过某医…...

OSPF网络优化核心:深入解析DR与BDR的选举机制与实战价值

1. 为什么你的OSPF网络越跑越慢? 每次看到企业园区网的OSPF性能问题,我都会想起刚入行时踩过的坑。当时接手一个200路由器的网络,运行一段时间后CPU使用率直接飙到90%,全网延迟高得离谱。排查后发现,核心问题就出在OSP…...

别只重装Qt了!解决QtCreator无法调试,九成问题出在Windows SDK和CDB版本匹配上

别只重装Qt了!解决QtCreator无法调试的Windows SDK与CDB版本匹配指南 当你按下F5键期待调试器启动,却只看到QtCreator无情地跳过所有断点时,重装Qt可能是最无效的解决方案。真正的问题往往隐藏在Windows SDK和CDB调试器的版本匹配中——这个…...