当前位置: 首页 > article >正文

[python脚本]论文1.(一)CPU/内存数据分析和分组

CPU

收集到的CPU数据,格式如下:

由于这里6个数据为一组来收集latency的数据以及各个分位值的数据,而本质上每一行都是一次完整的测试,因此这里将这个csv文件分为两个文件,第一个是和latency相关的,将6条数据融合为一条,而剩下的数据比如eps等,单独整理为一个文件。

这里分为两步,第一步单独处理每个实例收集到的数据,第二步是汇总所有实例数据。

对于50个实例收到的数据,先通过将6条合并为一条,一共收集到12条数据(线程4*负载3),然后放在一个csv文件里面,再把不需要合并的数据放在另一个csv文件里面。

#写一个方法来处理这个逻辑
import pandas as pd# 处理第一个文件
def process_file_1(df):print(df.columns.tolist())# 检查列名是否存在required_columns = ["threads", "cpu_max_prime", "percentile", "min_latency", "avg_latency", "max_latency", "percentile_latency"]for col in required_columns:if col not in df.columns:raise KeyError(f"列名 '{col}' 不存在于文件中")# 提取需要的列df = df[required_columns]# 按照 threads 和 cpu_max_prime 分组grouped = df.groupby(["threads", "cpu_max_prime"])# 定义新的数据结构result = []for name, group in grouped:# 确保每组有 6 条数据(对应 6 个百分位)if len(group) == 6:# 提取百分位数据percentiles = group.set_index("percentile")["percentile_latency"].to_dict()# 计算 min_latency, avg_latency, max_latency 的最大值、最小值和平均值min_latency_max = group["min_latency"].max()min_latency_min = group["min_latency"].min()min_latency_avg = group["min_latency"].mean()avg_latency_max = group["avg_latency"].max()avg_latency_min = group["avg_latency"].min()avg_latency_avg = group["avg_latency"].mean()max_latency_max = group["max_latency"].max()max_latency_min = group["max_latency"].min()max_latency_avg = group["max_latency"].mean()# 构建新的一条数据new_row = {"threads": name[0],"cpu_max_prime": name[1],"25percentile": percentiles.get(25, None),"50percentile": percentiles.get(50, None),"75percentile": percentiles.get(75, None),"90percentile": percentiles.get(90, None),"95percentile": percentiles.get(95, None),"99percentile": percentiles.get(99, None),"min_latency_max": min_latency_max,"min_latency_min": min_latency_min,"min_latency_avg": min_latency_avg,"avg_latency_max": avg_latency_max,"avg_latency_min": avg_latency_min,"avg_latency_avg": avg_latency_avg,"max_latency_max": max_latency_max,"max_latency_min": max_latency_min,"max_latency_avg": max_latency_avg,}result.append(new_row)# 转换为 DataFramereturn pd.DataFrame(result)

随后批量处理,将所有的文件汇总到一个csv文件,每一个实例收集到的数据有一个index标记。

 处理node1,node2的数据,也是将6条合并为一条,最后有51*12条数据。

画箱线图:

def plot_boxplots(path, threads, cpu_max_prime, num_boxes=50, ax=None, save_path=None,label=None,y_min=None, y_max=None):"""新增参数:- ax: 要绘制的子图坐标轴- save_path: 独立保存路径"""df = pd.read_csv(path)# 提取指定线程数和 CPU 负载的数据data = df[(df['threads'] == threads) & (df['cpu_max_prime'] == cpu_max_prime)]data = data.reset_index(drop=True)# 检查是否有数据if data.empty:raise ValueError(f"没有满足条件的数据 (threads={threads}, cpu_max_prime={cpu_max_prime})!")# 将相关列转换为 float 类型numeric_columns = ['min_latency_min', '25percentile', '50percentile', '75percentile', '90percentile']for col in numeric_columns:data[col] = pd.to_numeric(data[col], errors='coerce')# 收集箱线图所需的数据boxplot_data = {'min': data['min_latency_min'].values,'25%': data['25percentile'].values,'50%': data['50percentile'].values,'75%': data['75percentile'].values,'max': data['90percentile'].values}# 使用传入的坐标轴或创建新的if ax is None:fig, ax = plt.subplots(figsize=(15, 8))else:plt.sca(ax)  # 激活传入的坐标轴# 确定 y 轴的范围if y_min is None and y_max is None:y_min = data[numeric_columns].min().min()y_max = data[numeric_columns].max().max()ax.set_ylim(y_min * 0.9, y_max * 1.1)else:# 显式设置用户定义的边界ax.set_ylim(y_min, y_max)# 绘制指定数量的箱线图for i in range(num_boxes):min_val = boxplot_data['min'][i]q1_val = boxplot_data['25%'][i]median_val = boxplot_data['50%'][i]q3_val = boxplot_data['75%'][i]max_val = boxplot_data['max'][i]# 调试打印#print(f"Box {i+1}: Min={min_val:.2f}, Q1={q1_val:.2f}, Median={median_val:.2f}, Q3={q3_val:.2f}, Max={max_val:.2f}")# 绘制箱子(25% 到 75%)ax.fill_between(x=[i + 0.8, i + 1.2],y1=[q1_val, q1_val],y2=[q3_val, q3_val],color='lightblue', alpha=0.7)# 绘制中位线ax.plot([i + 0.8, i + 1.2],[median_val, median_val],color='red', linewidth=0.5)# 绘制下须(min 到 25%)ax.plot([i + 1, i + 1],[min_val, q1_val],color='black', linewidth=1)# 绘制上须(75% 到 max)ax.plot([i + 1, i + 1],[q3_val, max_val],color='black', linewidth=1)# 修改所有 plt.plot -> ax.plotax.set_title(f'Latency Distribution (Threads={threads}, CPU={cpu_max_prime}, First {num_boxes} Tests,{label} plot.)')ax.set_xlabel('Test Index')ax.set_ylabel('Latency (ms)')ax.grid(True, linestyle='--', alpha=0.7)ax.set_xticks(range(1, num_boxes + 1))# 独立保存逻辑if save_path:plt.savefig(save_path, dpi=300, bbox_inches='tight')return ax

这里有两个生成箱线图的函数,一个是做的25%-75%的,一个是5%-95%的。

这里输出的图的纵坐标应该是相同的,从而更方便比较,所以这里的纵坐标也是一个输入变量。

最后得到的图:

这里使用了箱线图,但是具体的图还得改一下。还要加上一些数据说明。

这里的是CPU的图,类似的图有很多张。

这里要证明的是在时间latency的维度上,这里要比较哪个实例最稳定,当证明了虽然性能比较差,共享型实例最稳定/共享型实例的稳定性较物理设备也差不多的时候,可以进一步论述对于不同的实例,哪些负载的稳定性最高。

内存:

内存没有做,但是估计差不多,可以从本地来循环的做,看看数据分布。

相关文章:

[python脚本]论文1.(一)CPU/内存数据分析和分组

CPU 收集到的CPU数据,格式如下: 由于这里6个数据为一组来收集latency的数据以及各个分位值的数据,而本质上每一行都是一次完整的测试,因此这里将这个csv文件分为两个文件,第一个是和latency相关的,将6条数…...

一周学会Flask3 Python Web开发-Jinja2模板基本使用

锋哥原创的Flask3 Python Web开发 Flask3视频教程: 2025版 Flask3 Python web开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili 我们平台开发web系统,必须用到网页,单纯的静态网页无法满足我们的需求。我们可以使用模版引擎技术&am…...

基于大数据爬虫的旅游分析可视化平台设计和实现

# 当数据蜘蛛侠遇上旅游百事通:一场说走就走的技术狂欢 ## 引言:当旅游攻略遇上大数据,世界突然变得透明 去年国庆假期,小王在黄山之巅挤成"人肉三明治"时突然顿悟——如果能提前知道哪个景点即将爆满,哪个…...

sql调优之数据库开发规范

数据库 数据库开发规范 也可用于PostgreSQL以及兼容PG的数据库 通用命名规则 【强制】 本规则适用于所有对象名,包括:库名、表名、列名、函数名、视图名、序列号名、别名等。 【强制】 对象名务必只使用小写字母,下划线,数字&…...

《操作系统 - 清华大学》8 -3:进程管理:进程特点

深入剖析进程的特点、实现及进程控制块 一、进程的特点 (一)动态性 进程具有明显的动态性。它可以被动态创建,在执行过程中会发生状态切换,从一个状态转变为另一个状态。当所有任务执行完毕后,进程还会结束运行。整…...

Java 大视界 -- 总结与展望:Java 大数据领域的新征程与无限可能(96)

💖亲爱的朋友们,热烈欢迎来到 青云交的博客!能与诸位在此相逢,我倍感荣幸。在这飞速更迭的时代,我们都渴望一方心灵净土,而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识,也…...

前端ES面试题及参考答案

目录 let/const 与 var 的区别?TDZ 是什么? 箭头函数与普通函数的区别?箭头函数能否作为构造函数? 模板字符串的嵌套表达式和标签模板用法? 解构赋值的应用场景及对象 / 数组解构差异? 函数参数默认值的生效条件及暂时性死区问题? 展开运算符(...)在数组 / 对象中…...

【微服务】深入解析spring aop原理

目录 一、前言 二、AOP 概述 2.1 什么是AOP 2.2 AOP中的一些概念 2.2.1 aop通知类型 2.3 AOP实现原理 2.3.1 aop中的代理实现 2.4 静态代理与动态代理 2.4.1 静态代理实现 三、 jdk动态代理与cglib代理 3.1 jdk动态代理 3.1.1 jdk动态代理模拟实现 3.2 CGLIB 代理…...

计算机网络之路由协议(OSPF路由协议)

一、定义与分类 OSPF是一种内部网关协议(IGP),也属于链路状态路由协议。它使用链路状态路由算法,在单一自治系统(AS)内部工作。适用于IPv4的OSPFv2协议定义于RFC2328,而RFC5340则定义了适用于I…...

DeepSeek等LLM对网络安全行业的影响

大家好,我是AI拉呱,一个专注于人工智领域与网络安全方面的博主,现任资深算法研究员一职,兼职硕士研究生导师;热爱机器学习和深度学习算法应用,深耕大语言模型微调、量化、私域部署。曾获多次获得AI竞赛大奖,拥有多项发明专利和学术论文。对于AI算法有自己独特见解和经验…...

Ai沟通学习记录三

代理模式 简单的理解可以任务角色扮演。例如:“你是伟大的画家”,帮我构思一个山水花的描述词。 你是个眼科医生,我最近眼干燥,怎么弄。 等等。 举例环节 输入: 如果你是熊。看到一个人,蹲下来捡石头。 你…...

pikachu靶场搭建教程

需要的东西 phpStudy: 链接: https://pan.baidu.com/s/1fJ-5TNtdDZGUf5FhTm245g 提取码:0278 pikachu-master: Github链接:https://github.com/zhuifengshaonianhanlu/pikachu 链接: https://pan.baidu.c…...

游戏引擎学习第119天

仓库:https://gitee.com/mrxiao_com/2d_game_3 上一集回顾和今天的议程 如果你们还记得昨天的进展,我们刚刚完成了优化工作,目标是让某个程序能够尽可能快速地运行。我觉得现在可以说它已经快速运行了。虽然可能还没有达到最快的速度,但我们…...

数据结构与算法再探(七)查找-排序

查找 一、二分查找 二分查找是一种高效的查找算法,适用于在已排序的数组或列表中查找特定元素。它通过将搜索范围逐步减半来快速定位目标元素。理解二分查找的“不变量”和选择左开右闭区间的方式是掌握这个算法的关键。 二分查找关键点 不变量 在二分查找中&a…...

从零开始制作一个漂亮的悬浮按钮

0.1血版 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title> </head> &l…...

Win11更新系统c盘爆满处理

1.打开磁盘管理 2.右击c盘选择属性&#xff0c;进行磁盘管理&#xff0c;选择详细信息。 3.选择以前安装的文件删除即可释放c盘空间。...

element ui的time时间和table表格

<el-date-picker v-model"value1" align"right" type"date" placeholder"选择日期" value-format"yyyy-MM-dd" change"changeDate"></el-date-picker><el-date-picker v-model"datetime"…...

从零实现机器人自主避障

1. 编译工具安装 sudo apt update sudo apt install python3-catkin-pkg python3-rosdep python3-rosinstall-generator python3-wstool python3-rosinstall build-essential sudo rosdep init rosdep update2. 构建节点 mkdir -p ~/ros2_ws/src cd ~/ros2_ws ros2 pkg creat…...

《筑牢元宇宙根基:AI与区块链的安全信任密码》

在科技浪潮汹涌澎湃的当下&#xff0c;元宇宙已不再是科幻作品中的遥远构想&#xff0c;而是逐渐步入现实&#xff0c;成为人们热议与探索的前沿领域。从沉浸式的虚拟社交&#xff0c;到创新的数字经济模式&#xff0c;元宇宙的发展前景广阔&#xff0c;潜力无限。但要让元宇宙…...

深入探索 DeepSeek 在数据分析与可视化中的应用

在数据驱动的时代&#xff0c;快速且准确地分析和呈现数据对于企业和个人都至关重要。DeepSeek 作为一款先进的人工智能工具&#xff0c;凭借其强大的数据处理和可视化能力&#xff0c;正在革新数据分析的方式。 1. 数据预处理与清洗 在进行数据分析前&#xff0c;数据预处理…...

【Nacos】从零开始启动Nacos服务(windows/linux)

文章目录 前言前置条件官方网址一、Nacos下载1.1 选择Nacos版本1.2 下载 二、解压2.1 解压到某个文件夹 三、 启动3.1 方式一&#xff1a;直接使用命令启动3.1.1 进入bin文件夹3.1.2 进入命令行工具3.1.3 执行命令 3.2 方式二&#xff1a;修改配置文件后启动3.2.1 修改启动脚本…...

即插即用Transformer、扩散模型、机器人规划、长文本检索增强生成 | Big Model Weekly 第57期...

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入&#xff01; 01 ProTransformer: Robustify Transformers via Plug-and-Play Paradigm 近年来&#xff0c;基于Transformer的架构在机器学习的各个领域占据了主导地位。本文介绍了一种新颖的鲁棒性注意力机制&#xff0c;旨…...

FPGA DSP:Vivado 中带有 DDS 的 FIR 滤波器

本文使用 DDS 生成三个信号&#xff0c;并在 Vivado 中实现低通滤波器。低通滤波器将滤除相关信号。 介绍 用DDS生成三个信号&#xff0c;并在Vivado中实现低通滤波器。低通滤波器将滤除较快的信号。 本文分为几个主要部分&#xff1a; 信号生成&#xff1a;展示如何使用DDS&am…...

DeepSeek各模型现有版本对比分析

文章目录 一、基础模型系列&#xff1a;V1 到 V3 的演进二、专用模型系列&#xff1a;推理与多模态三、版本选型与商业化趋势 DeepSeek作为最近特别火爆的模型&#xff0c;本文将对DeepSeek现有的主要版本进行对比分析,涵盖参数规模、训练数据、功能改进、应用场景和性能表现等…...

ASP.NET Core Clean Architecture

文章目录 项目地址一、项目主体1. CQRS1.1 Repository数据库接口1.2 GetEventDetail 完整的Query流程1.3 创建CreateEventCommand并使用validation 2. EFcore层2.1 BaseRepository2.2 CategoryRepository2.3 OrderRepository 3. Email/Excel导出3.1 Email1. Email接口层 4. 定义…...

紫光同创开发板使用教程(二):sbit文件下载

sbit文件相当于zynq里面的bit文件&#xff0c;紫光的fpga工程编译完成后会自动生成sbit文件&#xff0c;因工程编译比较简单&#xff0c;这里不在讲解工程编译&#xff0c;所以我这里直接下载sbit文件。 1.工程编译完成后&#xff0c;可以看到Flow列表里面没有报错&#xff0c…...

【Python爬虫(58)】从0到1:Scrapy实战爬取大型新闻网站

【Python爬虫】专栏简介&#xff1a;本专栏是 Python 爬虫领域的集大成之作&#xff0c;共 100 章节。从 Python 基础语法、爬虫入门知识讲起&#xff0c;深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑&#xff0c;覆盖网页、图片、音频等各类数据爬取&#xff…...

1. 自定义组件基础

相关资源&#xff1a; &#x1f4ce;day10 图片素材.zip 1. 自定义组件基础 概念&#xff1a;在ArkUI中由框架直接提供的称为系统组件 -> Column&#xff0c;Button等&#xff0c;由开发者定义的称为自定义组件 作用&#xff1a;自定义组件可以对 UI和业务逻辑进行封装&…...

MySQL MHA 部署全攻略:从零搭建高可用数据库架构

文章目录 1.MHA介绍2.MHA组件介绍3.集群规划4.服务器初始化5.MySQL集群部署5.1 安装MySQL集群5.2 配置一主两从5.3 测试MySQL主从5.4 赋予MHA用户连接权限 6.安装MHA环境6.1 安装MHA Node6.2 安装MHA Manager 7.配置MHA环境8.MySQL MHA高可用集群测试8.1 通过VIP连接MySQL8.2模…...

Spring Boot3+Vue2极速整合:10分钟搭建DeepSeek AI对话系统

前言 在生成式AI技术蓬勃发展的今天&#xff0c;大语言模型已成为企业智能化转型和个人效率提升的核心驱动力。作为国产大模型的优秀代表&#xff0c;DeepSeek凭借其卓越的中文语义理解能力和开发者友好的API生态&#xff0c;正在成为构建本土化AI应用的首选平台。 本文将以S…...