当前位置：首页 > news >正文

python监控ES索引数量变化

news 2026/5/11 16:33:57

文章目录

1, datafram根据相同的key聚合
2, 数据合并：获取采集10,20,30分钟es索引数据
- 脚本测试验证

1, datafram根据相同的key聚合

# 创建df1 ==> json {'key':'A', 'value':1 } {'key':'B', 'value':2 }
data1 = {'key': ['A', 'B'],
'value': [1, 2]}
df1 = pd.DataFrame(data1)# 创建df2 ==> {'key':'A', 'value':11 } {'key':'B', 'value':22 }
data2 = {'key': ['A', 'B'],
'value': [11, 22]}
df2 = pd.DataFrame(data2)# 创建df3 ==&gt;{'key':'A', 'value':111 } {'key':'B', 'value':222 } {'key':'C', 'value':333 }
data3 = {'key': ['A', 'B', 'c'],
'value': [111, 222, 333]}
df3 = pd.DataFrame(data3)#### 聚合两个dataframe  
#==> {'key':'A', 'value_x':1, 'value_y':11 } {'key':'B', 'value_x':2, 'value_y':22 }
&gt;&gt;> mdf1=pd.merge(df1, df2, on='key')
&gt;&gt;> mdf1key  value_x  value_y
0   A        1       11
1   B        2       22
#### 再聚合两个dataframe 
#==> {'key':'A',  'value_x':1, 'value_y':11 , 'value':111 } {'key':'B', 'value_x':2, 'value_y':22 , 'value':222 }
mdf = pd.merge(pd.merge(df1, df2, on='key'), df3, on='key') 
&gt;&gt;> mdf2=pd.merge(mdf1, df3, on='key')
&gt;&gt;> mdf2key  value_x  value_y  value
0   A        1       11    111
1   B        2       22    222

2, 数据合并：获取采集10,20,30分钟es索引数据

[root@localhost ] # cat es-indices-monitor.py
import json
import time
import requests
import os
import sys
import glob
import pandas as pddef deloldfile(workdir):# 获取目录下所有的文件all_files = glob.glob(os.path.join(workdir, '*'))# 将文件名和访问时间存入列表file_list = []for file in all_files:file_list.append((file, os.path.getatime(file)))# 根据访问时间排序file_list.sort(key=lambda x: x[1], reverse=False)# 删除旧文件，只保留最新的文件for file in file_list[:-3]: # 排除最后三个文件，因为它是最新的os.remove(file[0])def createfile(workdir,fileName):if not os.path.exists(workdir):os.makedirs(workdir)#os.system("find {}/*.json   -type f -ctime +1 -delete".format(workdir) )#for fileName in os.listdir(workdir):file=open(workdir+fileName,'w',encoding="utf-8")return filedef readfile(workdir):if not os.path.exists(workdir):os.makedirs(workdir)# 获取目录下所有的文件all_files = glob.glob(os.path.join(workdir, '*'))# 将文件名和访问时间存入列表file_list = []for file in all_files:file_list.append((file, os.path.getatime(file)))# 根据访问时间排序files=[]file_list.sort(key=lambda x: x[1], reverse=False)for file in file_list: # 排除最后两个文件，因为它是最新的files.append(file[0])return filesdef writejson(file,jsonArr):for js in jsonArr:jstr=json.dumps(js)+"\n"file.write(jstr)file.close()#3，json转字符串
def getdata(domain,password):url = "http://"+domain+"/_cat/indices?format=json"# 设置认证信息auth = ('elastic', password)# 发送GET请求，并在请求中添加认证信息response = requests.get(url, auth=auth)# 检查响应状态码，如果成功则打印响应内容if response.status_code == 200:#遍历返回的json数组，提取需要的字段jsonArr=json.loads(response.text)df = pd.json_normalize(jsonArr)dfnew = df.drop(["uuid","docs.deleted"], axis=1)#print(dfnew)#保存_cat/es/indices数据到json文件workdir="/data/es-indices/"workdir_tmp=workdir+"tmp/"f_time = time.strftime("%Y-%m-%d_%H-%M-%S",time.localtime())filename="es-data-{}.json".format(f_time)filename_tmp="tmp-{}.json".format(f_time)file=createfile(workdir_tmp,filename_tmp)writejson(file,jsonArr)#删除旧文件，只保留2个最新的deloldfile(workdir_tmp)deloldfile(workdir)files=readfile(workdir_tmp)#df1=pd.read_json(files[0],lines=True,convert_dates=False)if len(files) > 1:print(files[0])print(files[1])df1=pd.read_json(files[0],lines=True)df2=pd.read_json(files[1],lines=True)#"health","status","index","uuid","pri","rep","docs.count","docs.deleted","store.size","pri.store.size"df1 = df1.drop(["health","status","uuid","pri","rep","docs.deleted","store.size","pri.store.size"], axis=1)df2 = df2.drop(["health","status","uuid","pri","rep","docs.deleted","store.size","pri.store.size"], axis=1)mdf = pd.merge(df1, df2, on='index', how='outer')#print(df1)else:mdf=dfnew#聚合3条数据,查看索引文档数量是否变化: 近10分钟的数量为doc.count, 前10分钟的数量为doc.count_x, 前20分钟的数量为doc.count_y, #print(mdf) mdf2 = pd.merge(dfnew, mdf, on='index', how='outer')mdf2 = mdf2.rename(columns={"docs.count_x":"docs.count_30", "docs.count_y":"docs.count_20"})#print(mdf2) file=createfile(workdir,filename)for idx,row in mdf2.iterrows():jstr=row.to_json()file.write(jstr+"\n")file.close()else:print('请求失败，状态码：', response.status_code)domain="196.1.0.106:9200"
password="123456"
getdata(domain,password)

脚本测试验证

[root@localhost] #  python3 es-indices-monitor.py
/data/es-indices/tmp/tmp-2023-09-28_13-56-12.json
/data/es-indices/tmp/tmp-2023-09-28_14-11-47.json#查看结果
[root@localhost] # /appset/ldm/script # ll /data/es-indices/
total 148
-rw------- 1 root root 46791 Sep 28 13:56 es-data-2023-09-28_13-56-12.json
-rw------- 1 root root 46788 Sep 28 14:11 es-data-2023-09-28_14-11-47.json
-rw------- 1 root root 46788 Sep 28 14:12 es-data-2023-09-28_14-12-07.json
drwx------ 2 root root  4096 Sep 28 14:12 tmp
[root@localhost] # /appset/ldm/script # ll /data/es-indices/tmp/
total 156
-rw------- 1 root root 52367 Sep 28 13:56 tmp-2023-09-28_13-56-12.json
-rw------- 1 root root 52364 Sep 28 14:11 tmp-2023-09-28_14-11-47.json
-rw------- 1 root root 52364 Sep 28 14:12 tmp-2023-09-28_14-12-07.json#核对文档数量
[root@localhost] # /appset/ldm/script # head  -n 2 /data/es-indices/es-data-2023-09-28_13-56-12.json  |grep 2023_09 |grep count
{"health":"green","status":"open","index":"test_2023_09","pri":"3","rep":"1","docs.count":"14393","store.size":"29.7mb","pri.store.size":"13.9mb","docs.count_30":14391.0,"docs.count_20":14393.0}[root@localhost] # /appset/ldm/script # head  -n 2 /data/es-indices/es-data-2023-09-28_14-11-47.json  |grep 2023_09 |grep count
{"health":"green","status":"open","index":"test_2023_09","pri":"3","rep":"1","docs.count":"14422","store.size":"33.5mb","pri.store.size":"15.8mb","docs.count_30":14391.0,"docs.count_20":14393.0}[root@localhost] # /appset/ldm/script # head  -n 2 /data/es-indices/es-data-2023-09-28_14-12-07.json  |grep 2023_09 |grep count
{"health":"green","status":"open","index":"test_2023_09","pri":"3","rep":"1","docs.count":"14427","store.size":"33.5mb","pri.store.size":"15.8mb","docs.count_30":14393.0,"docs.count_20":14422.0}

在这里插入图片描述

python监控ES索引数量变化

文章目录 1, datafram根据相同的key聚合2, 数据合并：获取采集10,20,30分钟es索引数据脚本测试验证 1, datafram根据相同的key聚合 # 创建df1 > json {key:A, value:1 } {key:B, value:2 } data1 {key: [A, B], value: [1, 2]} df1 pd.DataFrame(data1)# 创建d…...

编程日记 2023/9/29 10:23:00

MySQL explain SQL分析工具详解与最佳实践

目录一、explain工具介绍二、添加示例表和数据用于后续演示三、explain中的列3.1、id列3.2、select_type列3.3、table列3.4、partitions列3.5、type列NULLsystemconsteq_refrefrangeindexALL 3.6、possible_keys列3.7、key列3.8、key_len列3.9、ref列3.10、rows列3.11、filter…...

编程日记 2023/9/29 10:19:57

【2023年11月第四版教材】第16章《采购管理》（第一部分）

第16章《采购管理》（第一部分） 1 章节内容2 管理基础3 管理过程4 采购管理ITTO汇总 1 章节内容【本章分值预测】大部分内容不变，细节有一些变化，预计选择题考3-4分，案例和论文都有可能考；是需要重点学习…...

编程日记 2023/9/29 10:17:54

矢量图形编辑软件illustrator 2023 mac软件特点

illustrator 2023 mac是一款矢量图形编辑软件，用于创建和编辑排版、图标、标志、插图和其他类型的矢量图形。 illustrator mac软件特点矢量图形：illustrator创建的图形是矢量图形，可以无限放大而不失真，这与像素图形编辑软件&am…...

编程日记 2023/9/29 10:14:49

前端架构师之01_JavaScript_Ajax

1 Web基础知识 1.1 Web服务器 Web服务器又称为网站服务器，主要用于提供网上信息浏览服务。常见的Web服务器软件有Apache HTTP Server（简称Apache）、Nginx等。浏览器与服务器交互在Web服务器中，请求资源又分为静态资源和动态…...

编程日记 2023/9/29 10:13:48

Java Spring Boot 目录结构介绍

Java Spring Boot 是一个用于简化Java应用程序开发的框架，它提供了一套灵活、易用的开发工具和约定，帮助开发者更快速地构建各种类型的Java应用程序。Spring Boot 的目录结构是一个重要的组成部分，它规定了如何组织和管理项目代码和资源文件。…...

编程日记 2023/9/29 10:09:43

ubuntu apt工具软件操作

apt工具 -----> 网关国内网络(仓库源) 美国网络(仓库源)/etc/apt/sources.list https://mirrors.tuna.tsinghua.edu.cn/help/ubuntu/sudo apt-get update sudo apt install sl 安装包 sudo apt-cache show sl 查看包信…...

编程日记 2023/9/29 10:08:42

【论文阅读】UniDiffuser： Transformer+Diffusion 用于图、文互相推理

而多模态大模型将能够打通各种模态能力，实现任意模态之间转化，被认为是通用式生成模型的未来发展方向。最近看到不少多模态大模型的工作，有医学、金融混合，还有CV&NLP。今天介绍： One Transformer Fits All Di…...

编程日记 2023/9/29 10:07:39

Python爬虫教程——解析网页中的元素

前言： 嗨喽~大家好呀，这里是小曼呐 ~ 在我们理解了网页中标签是如何嵌套，以及网页的构成之后， 我们就是可以开始学习使用python中的第三方库BeautifulSoup筛选出一个网页中我们想要得到的数据。接下来我们了解一下爬取网页信息…...

编程日记 2023/9/29 10:06:39

BiMPM实战文本匹配【上】

引言今天来实现BiMPM模型进行文本匹配，数据集采用的是中文文本匹配数据集。内容较长，分为上下两部分。数据准备数据准备这里和之前的模型有些区别，主要是因为它同时有字符词表和单词词表。 from collections import defaultdict from …...

编程日记 2023/9/29 10:03:35

【C++】构造函数和析构函数第二部分（拷贝构造函数）--- 2023.9.28

目录什么是拷贝构造函数？编译器默认的拷贝构造函数构造函数的分类及调用结束语什么是拷贝构造函数？ 用一句话来描述为拷贝构造即 “用一个已知的对象去初始化另一个对象” 具体怎么使用我们直接看代码，代码如下： class Maker…...

编程日记 2023/9/29 10:02:33

现在学RPA，还有前途吗，会不会太卷？

RPA是机器人流程自动化的缩写，是一种通过软件机器人模拟人类操作计算机的技术。随着人工智能和自动化技术的不断发展，RPA已经成为了企业数字化转型的重要工具之一。那么，现在学习RPA还有前途吗？会不会太卷？ 一、RPA的…...

编程日记 2023/9/29 10:01:32

Vue的详细教程--用Vue-cli搭建SPA项目

Vue的详细教程--用Vue-cli搭建SPA项目 1.Vue-cli是什么2.什么是SPA项目1.vue init webpack spa2.一问一答模式2：运行完上面的命令后，我们需要将当前路径改变到SPA这个文件夹内，然后安装需要的模块此步骤可理解成：maven的web项目创…...

编程日记 2023/9/29 10:00:31

openldap访问控制

系统：debian12 /etc/ldap/slapd.d/cnconfig目录下包含以下三个数据库： dn: olcDatabase{-1}frontend,cnconfig dn: olcDatabase{0}config,cnconfig dn: olcDatabase{1}mdb,cnconfigolcDatabase: [{\<index\>}]\<type\>数据库条目必须具有…...

编程日记 2023/9/29 9:59:30

阿里云服务器技术创新、网络技术和数据中心技术说明

阿里云服务器技术创新、网络技术创新、数据中心技术创新和智能运维：云服务器方升架构、自研硬件、自研存储硬件AliFlash和异构计算加速平台，以及全自研网络系统技术创新和数据中心巴拿马电源、液冷技术等技术创新说明，阿里云百科分享阿里云服…...

编程日记 2023/9/29 9:58:28

华为智能高校出口安全解决方案（2）

本文承接： https://qiuhualin.blog.csdn.net/article/details/131475315?spm1001.2014.3001.5502 重点讲解华为智能高校出口安全解决方案的基础网络安全&业务部署与优化的部署流程。华为智能高校出口安全解决方案（2） 课程地址基础网络…...

编程日记 2023/9/29 9:57:26

【AI绘画】Stable Diffusion WebUI

💝💝💝欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kuan 的首页,持续学…...

编程日记 2023/9/29 9:56:25

html、css学习记录【uniapp前奏】

Html 声明：该学习笔记源于菜鸟自学网站，特此记录笔记。很多示例源于此官网，若有侵权请联系删除。文章目录 Html声明： CSS 全称 Cascading Style Sheets，层叠样式表。是一种用来为结构化文档（如 HTML 文档…...

编程日记 2023/9/29 9:52:21

Linux-正则三剑客

目录一、正则简介 1.正则表达式分两类： 2.正则表达式的意义二、Linux三剑客简介 1.文本处理工具，均支持正则表达式引擎 2.正则表达式分类 3.基本正则表达式BRE集合 4.扩展正则表达式ere集合三、grep 1.简介 2.实践 3.贪婪匹配四、sed …...

编程日记 2023/9/29 9:46:15

Zilliz@阿里云：大模型时代下Milvus Cloud向量数据库处理非结构化数据的最佳实践

大模型时代下的数据存储与分析该如何处理？有没有已经落地的应用实践？为探讨这些问题，近日，阿里云联合 Zilliz 和 Doris 举办了一场以《大模型时代下的数据存储与分析》为主题的技术沙龙，其中，阿里云对象存储 OSS 上拥有海量的非结构化数据，Milvus（Zilliz）作为全球最有…...

编程日记 2023/9/29 9:44:12

从理论到实践：基于离散时间LQR的车辆运动学路径跟踪算法详解

1. 车辆路径跟踪的核心挑战想象一下你正在玩遥控赛车游戏，手指在方向盘上微调方向，试图让车辆完美沿着赛道中心线行驶。这个看似简单的操作背后，其实隐藏着控制理论中经典的路径跟踪问题。在实际的自动驾驶或辅助驾驶系统中，工程…...

编程新知 2026/5/11 16:31:59

Apache Flink未授权访问漏洞深度剖析：从Dashboard暴露到Jar包上传攻击链

1. Apache Flink未授权访问漏洞全景透视第一次接触Apache Flink的漏洞场景是在去年某次企业内网渗透测试中。当时发现目标系统开放着8081端口，访问后竟直接看到了Flink Dashboard的完整控制界面——没有任何登录验证，就像走进了一家没锁门的银行金库。这…...

编程新知 2026/5/11 16:12:10

用Python和Matlab可视化高斯分布融合：从理论到代码，理解卡尔曼滤波的‘信任权重’

高斯分布融合的可视化实践：用Python与Matlab揭秘卡尔曼滤波的信任机制在传感器融合、机器人定位和金融预测等领域，我们常常需要将多个不确定信息源的数据进行整合。高斯分布（正态分布）作为描述不确定性的黄金标准，其融…...

编程新知 2026/5/11 16:07:57

从 AI 电影到小说：《凰标》延续《第一大道》的东方梦@凤凰标志

科技为翼，文脉为魂； 大道开路，凰标定局。一、时代之问：当AI沦为流量收割机，谁来守护东方文脉？ AI 正以惊人的速度渗透文娱产业，却多数被资本用作「快餐内容」的流水线。海棠山铁哥反其道而行—…...

编程新知 2026/5/11 15:49:19

【NotebookLM音频黑科技深度解析】：20年AI产品经理亲测的5大颠覆性功能与3个未公开技巧

更多请点击： https://intelliparadigm.com 第一章：NotebookLM Audio Overview NotebookLM Audio 是 Google 推出的实验性语音增强功能，深度集成于 NotebookLM 平台，旨在将用户上传的 PDF、网页文本等资料转化为可交互的语音知识体…...

编程新知 2026/5/11 15:22:14

告别ifconfig：用ubus命令玩转OpenWrt网络接口（netifd实战指南）

告别ifconfig：用ubus命令玩转OpenWrt网络接口（netifd实战指南） 在OpenWrt的世界里，网络接口管理一直是个既基础又关键的课题。传统Linux用户习惯使用ifconfig或ip命令来配置网络，但在OpenWrt环境下，这些工具…...

编程新知 2026/5/11 14:48:03

CTF新手必看：用010Editor和CRC校验，5分钟揪出被篡改的PNG图片宽高

CTF新手实战：5分钟掌握PNG图片宽高篡改检测技巧当你第一次参加CTF比赛，面对一张无法正常显示的PNG图片时，是否感到无从下手？这很可能是题目设计者修改了图片的宽高参数。作为MISC方向的基础题型，掌握快速检测PNG图片…...

编程新知 2026/5/11 14:20:22

保姆级教程：用Docker Compose在Linux服务器上部署Transmission，并搞定IPv6加速

深度指南：基于Docker Compose的Transmission部署与IPv6优化实战在当今数字资源获取日益便捷的时代，一个稳定高效的下载工具对于技术爱好者和资源收集者来说至关重要。Transmission作为一款轻量级、高性能的BitTorrent客户端，凭借其简洁的界面…...

编程新知 2026/5/11 13:07:02

PARD-SSM：基于概率状态空间模型的多阶段网络攻击检测

1. 项目概述在网络安全领域，传统的入侵检测系统(IDS)面临着多阶段攻击检测的严峻挑战。攻击者通常会按照"攻击链"(Kill Chain)的步骤逐步渗透系统，从最初的侦察阶段到最终的数据窃取，每个阶段的网络流量特征可能单独看起来都像是正…...

编程新知 2026/5/11 12:47:57

揭秘HunterPie：如何用现代化覆盖层技术革新《怪物猎人：世界》体验

揭秘HunterPie：如何用现代化覆盖层技术革新《怪物猎人：世界》体验【免费下载链接】HunterPie-legacy A complete, modern and clean overlay with Discord Rich Presence integration for Monster Hunter: World. 项目地址: https://gitcode.com/gh_m…...

编程新知 2026/5/11 12:27:11

文章目录

1, datafram根据相同的key聚合

2, 数据合并：获取采集10,20,30分钟es索引数据

脚本测试验证

相关文章：