当前位置：首页 > news >正文

使用 esrally race 测试 Elasticsearch 性能：实践指南

news 2026/2/10 10:30:15

在 Elasticsearch 性能优化和容量规划中，使用 esrally 进行基准测试是官方推荐的方式。通过 esrally race 命令，您可以针对不同的数据集与挑战类型，对 Elasticsearch 集群进行精确的性能评估。本文将简要介绍常用的数据集与挑战类型，并详细解析命令参数，然后展示测试结果分析和最终总结。

一、不同数据集与挑战类型简介

数据集（Tracks）：

geonames：
- 数据特性：地理位置相关信息（城市名、坐标、国家代码等），字段较为复杂。
- 场景适用：地理查询、基于位置的检索和分析。
http_logs：
- 数据特性：仿真 HTTP 访问日志的半结构化数据，字段较少、文本为主。
- 场景适用：日志分析、全文搜索、可视化检索。

挑战类型（Challenges）：

append-no-conflicts-index-only：
- 特点：仅对集群进行数据写入（索引）操作，无查询。
- 场景：高写入吞吐场景，如日志持续入库。
append-no-conflicts：
- 特点：同时进行数据写入和查询操作。
- 场景：读写混合场景，如搜索引擎、实时分析系统。

通过结合不同的数据集与挑战类型，您可以模拟多种现实场景。例如，使用 geonames + append-no-conflicts 来测试地理数据的读写混合性能，或使用 http_logs + append-no-conflicts-index-only 来评估日志高写入场景的吞吐量。

二、测试命令与参数解析

以下为一条典型的 esrally race 命令示例。请根据实际环境替换 <ES_CLUSTER_IP>, <USERNAME>, <PASSWORD> 与所需的数据集、挑战类型参数。

esrally race --pipeline=benchmark-only \--target-hosts=<ES_CLUSTER_IP>:9200 \--track-path=~/.rally/benchmarks/tracks/default/http_logs \--client-options="basic_auth_user:<USERNAME>,basic_auth_password:<PASSWORD>" \--challenge=append-no-conflicts \--report-file=~/result.csv \--report-format=csv

参数解析：

--pipeline=benchmark-only
使用已存在的 Elasticsearch 集群进行测试，不启动新的测试集群。
--target-hosts=<ES_CLUSTER_IP>:9200
指定目标集群的地址与端口。可使用内网 IP 或公网 IP，需根据实际情况替换。
--track-path=~/.rally/benchmarks/tracks/default/<DATASET>
指定数据集（如 geonames 或 http_logs）的轨迹路径。
--client-options="basic_auth_user:<USERNAME>,basic_auth_password:<PASSWORD>"
配置客户端认证信息。如果 Elasticsearch 开启了安全认证，请替换为真实用户名与密码；未开启则可忽略此参数。
--challenge=<CHALLENGE_TYPE>
选择测试挑战类型，如 append-no-conflicts-index-only 或 append-no-conflicts。
--report-file=~/result.csv 与 --report-format=csv
将测试结果保存为 CSV 文件，便于后续数据分析、比对和存档。

三、测试结果分析

执行上述命令后，esrally 会产生一份 CSV 格式的报告文件（如 http_logs_result.csv）。报告中常见的指标包括：

索引吞吐量 (Indexing Throughput)：每秒成功写入的文档数。
查询吞吐量 (Query Throughput)：每秒完成的查询请求数（仅在 append-no-conflicts 场景下有意义）。
延迟 (Latency)：请求操作（索引或查询）从发出到响应的时间分布（如 50th 百分位、90th 百分位）。
错误率 (Error Rate)：测试过程中操作失败的比例。

举例分析（示例数据并非真实测试结果）：

数据集	挑战类型	索引吞吐量 (ops/s)	查询吞吐量 (ops/s)	延迟50th (ms)	延迟90th (ms)
`geonames`	`append-no-conflicts-index-only`	5,000	-	10	15
`geonames`	`append-no-conflicts`	4,000	1,500	12 (索引)	20 (查询)
`http_logs`	`append-no-conflicts-index-only`	8,000	-	8	12
`http_logs`	`append-no-conflicts`	6,500	2,000	10 (索引)	18 (查询)

从上表可见：

对于高写入场景（index-only），http_logs 数据集因数据结构简单而获得更高的写入吞吐量。
对于混合场景（append-no-conflicts），http_logs 也表现出较高的查询吞吐量和较低的延迟，适合日志分析类场景。
geonames 数据集在复杂查询下的吞吐量与延迟表现稍逊于 http_logs，但更能模拟地理复杂查询的真实情况，对于地理搜索场景更具参考价值。

四、总结

通过合理搭配数据集（如 geonames 与 http_logs）和挑战类型（如 append-no-conflicts 与 append-no-conflicts-index-only），您可以全面评估 Elasticsearch 集群在不同业务场景下的性能表现。生成的测试报告（如 CSV 格式）有助于直观了解吞吐量、延迟和错误率，并为后续集群优化提供指导。

在实际生产中，您可根据业务需求选择最符合场景的数据集与挑战类型，不断迭代测试与优化，最终提升 Elasticsearch 的服务质量与用户体验。

如有进一步问题或建议，欢迎留言讨论！

使用 esrally race 测试 Elasticsearch 性能：实践指南

一、不同数据集与挑战类型简介

二、测试命令与参数解析

三、测试结果分析

四、总结

相关文章：

使用 esrally race 测试 Elasticsearch 性能：实践指南

OkHttp源码分析：分发器任务调配，拦截器责任链设计，连接池socket复用

中国计算机学会计算机视觉专委会携手合合信息举办企业交流活动，为AI安全治理打开“新思路”

重生之我在异世界学编程之C语言：深入预处理篇（上）

dolphinscheduler服务RPC框架源码解析(二)RPC核心注解@RpcService和@RpcMethod设计实现

【从零开始入门unity游戏开发之——C#篇04】栈（Stack）和堆（Heap），值类型和引用类型，以及特殊的引用类型string

ARCGIS国土超级工具集1.2更新说明

暂停window11自动更新

Git简介和特点

如何通过docker 部署minio，端口号为9105

设置Qt程序开机自启动(windows版本)

【HarmonyOS】鸿蒙获取appIdentifier，Identifier

【Rust自学】3.5. 控制流：if else

美国信息学奥林匹克竞赛USACO 2024年12月比赛铜级问题1. 循环舍入-答案代码

Llama3模型详解 - Meta最新开源大模型全面解析

2021-02-12 c++里面cin.sync()函数的意思

下载红米Note 9 Pro5G对应的LineageOS代码下载及编译

《探索 Caffe2 的 C++接口在移动设备上的性能优化之路》

1.编写一个程序，给定一个大写字母，要求用小写输出

条件随机场(CRF)详解：原理、算法与实现（深入浅出）

HTML 列表、表格、表单

c++ 面试题(1)-----深度优先搜索（DFS）实现

linux 错误码总结

Mac软件卸载指南，简单易懂！

TRS收益互换：跨境资本流动的金融创新工具与系统化解决方案

MySQL 8.0 OCP 英文题库解析（十三）

【RockeMQ】第2节｜RocketMQ快速实战以及核⼼概念详解（二）

零基础在实践中学习网络安全-皮卡丘靶场（第九期-Unsafe Fileupload模块）（yakit方式）

MySQL 部分重点知识篇

WebRTC从入门到实践 - 零基础教程