当前位置: 首页 > news >正文

Ceph性能调优

1. 最佳实践

1.1 基本

  1. 监控节点对于集群的正确运行非常重要,应当为其分配独立的硬件资源。如果跨数据中心部署,监控节点应该分散在不同数据中心或者可用性区域
  2. 日志可能会让集群的吞吐量减半。理想情况下,应该在不同磁盘上运行操作系统、OSD数据、OSD日志。对于高吞吐量工作负载,考虑使用SSD进行日志存储
  3. 纠删编码(Erasure coding)可以用于存储大容量的一次性写、非频繁读、性能要求不高的数据。纠删编码存储消耗小,但是IOPS也降低
  4. 目录项(Dentry)和inode缓存可以提升性能,特别是存在很多小对象的情况下
  5. 使用缓存分层(Cache Tiering)可以大大提升集群性能。此技术可以在热、冷Tier之间自动的进行数据迁移。为了最大化性能,请使用SSD作为缓存池、并且在低延迟节点上部署缓存池
  6. 部署奇数个数的监控节点,以便仲裁投票(Quorum Voting),建议使用3-5个节点。更多的节点可以增强集群的健壮性,但是mon之间需要保持数据同步,这会影响性能
  7. 诊断性能问题的时候,总是从最底层(磁盘、网络)开始,然后再检查块设备、对象网关等高层接口
  8. 在大型集群里用单独的集群网络(Cluster Newwork)可显著地提升性能和安全性

1.2 文件系统

  1. 限制最大文件大小,创建极大的文件会导致删除过程很缓慢
  2. 避免在生产环境下使用试验特性。你应该使用单个活动MDS、不使用快照(默认如此)
  3. 避免增大max_mds,可能导致大于1个的MDS处于Active
  4. 客户端选择:
    1. FUSE,容易使用、容易升级和服务器集群保持一致
    2. 内核,性能好
    3. 不同客户端的功能并不完全一致,例如FUSE支持客户端配额,内核不支持
  5. 对于Ceph 10.x,最好使用4.x内核。如果必须使用老内核,你应该使用FUSE作为客户端

2. 基础设施要求

2.1 处理器

OSD需要消耗CPU资源,可以将其绑定到一个核心上。如果使用纠删码,则需要更多的CPU资源。此外,集群处于Recovery状态时,OSD的CPU消耗显著增加

MON不怎么消耗CPU资源,几个G内存的单核心物理机即可。

MDS相当消耗CPU资源,考虑4核心或更多CPU。如果依赖于CephFS处理大量工作,应当分配专用物理机

2.2 内存

MON/MDS需要不少于2G内存。OSD通常需要1G内存(和存储容量有关)。此外,集群处于Recovery状态时,OSD的内存消耗显著增加,因此配备2G内存更好

2.3 网络

最好具有万兆网络,公共网络、集群网络需要物理隔离(双网卡连接到独立交换机)。对于数百TB规模的集群,千兆网络也能够正常工作

集群网络往往消耗更多的带宽,此外,高性能的集群网络对于Recovery的效率很重要。

如果交换机支持,应当启用Jumbo帧,可以提升网络吞吐量。

2.4 磁盘

在生产环境下,最好让OSD使用独立的驱动器,如果和OS共享驱动,最好使用独立的分区。

通常使用SATA SSD作为日志存储,预算足够可以考虑PCIE SSD。Intel S3500的4K随机写 IOPS可达10K+

关于RAID:

  1. 最好不要使用RAID
  2. 如果有RAID卡,并且磁盘数量太多,而对应的内存数量不足(每个OSD大概需要2G内存),可以RAID0
  3. 不要使用RAID5,因为随机IO的性能降低

关于filestore:

  1. 建议使用SSD存储日志,以减少访问时间、读取延迟,实现吞吐量的显著提升
  2. 可以为创建SSD分区,每个分区作为一个OSD的日志存储,但是最好不要超过4个

2.5 BIOS设置

  1. 启用超线程Hyper-Threading技术
  2. 关闭节能
  3. 关闭NUMA

2.6 内核参数

# 修改pid max
# 执行命令
echo 4194303 > /proc/sys/kernel/pid_max
# 或者
sysctl -w kernel.pid_max=4194303# read_ahead, 数据预读到内存,提升磁盘读操作能力
echo "8192" > /sys/block/sda/queue/read_ahead_kb# 禁用交换文件
echo "vm.swappiness = 0" | tee -a /etc/sysctl.conf# I/O Scheduler:SSD使用用noop,SATA/SAS使用deadline
echo "deadline" > /sys/block/sda/queue/scheduler
echo "noop" > /sys/block/sda/queue/scheduler

2.7 文件系统

底层文件系统的稳定性和性能对于Ceph很重要。在开发、非关键部署时可以使用btrfs,这也是未来的方向。关键的生产环境下应该使用XFS。

在高可扩容性的存储环境下,XFS和btrfs相比起ext3/4有很大优势。XFS和btrfs都是日志式文件系统,更健壮,容易从崩溃、断电中恢复。日志文件系统会在执行写操作之前,把需要进行的变更记录到日志。

OSD依赖于底层文件系统的扩展属性(Extended Attributes,XATTRs),来存储各种内部对象状态和属性。XFS支持64KB的XATTRs,但是ext4就太小了,你应该为运行在ext4上的OSD配置:

# 新版本Ceph此配置项已经没了
filestore xattr use omap = true

关于文件系统的一些知识:

  1. XFS 、 btrfs 和 ext4 都是日志文件系统
  2. XFS很成熟
  3. btrfs相对年轻,他是一个写时复制(COW)文件系统,因而支持可写文件系统快照。此外它还支持透明压缩、完整性校验

3. 归置组

3.1 PG数量

PG的数量应当总是和PGP相同。PGP是为了实现定位而创建的PG。再平衡仅仅再pgp_num被修改后才会触发,仅仅修改pg_num不会触发。

随着OSD数量的变化,选取适当的PG数量很重要。因为PG数量对集群行为、数据持久性(Durability,灾难性事件发生时保证数据堡丢失)有很大影响。此外,归置组很耗计算资源,所以很多存储池x很多归置组会导致性能下降。建议的取值:

  1. 对于小于5个OSD的集群:设置为128
  2. 5-10个OSD的集群:设置为512
  3. 10-50个OSD的集群:设置为1024
  4. 超过50个OSD的集群,需要自己权衡,利用pgcalc来计算适合的PG数量

《Ceph分布式存储学习指南》一书中建议的PG数量算法:

每个池的PG数量 = OSD总数 * 100 / 最大副本数 / 池数

计算结果需要向上舍入到2的N次幂。此外该书倾向于让所有池具有相同的PG数量。

4. 再平衡

  1. 加入新的OSD后,考虑设置权重为0,然后逐渐增加权重,这样可以避免性能下降

相关文章:

Ceph性能调优

1. 最佳实践 1.1 基本 监控节点对于集群的正确运行非常重要,应当为其分配独立的硬件资源。如果跨数据中心部署,监控节点应该分散在不同数据中心或者可用性区域日志可能会让集群的吞吐量减半。理想情况下,应该在不同磁盘上运行操作系统、OSD…...

机器学习-问答题准备(英文)-更新中

第一章 入门 How would you define Machine Learning? Machine Learning is about building systems that can learn from data. Learning means getting better at some task, given some performance measure. Can you name four types of problems where it shines? To r…...

展示演示软件设计制作(C语言)

展示演示软件设计制作 所谓展示演示软件就像是PPT那样的东西。PPT是幻灯片式的展示,而我设计的软件是多媒体的,多样展示方法的,多种功能的。可以扩展为产品展示,项目介绍,景点导游,多媒体授课,…...

Android 自定义view 入门 案例

自定义一个圆环进度条: 1.首页Android Studio创建一个项目 2.在项目src/xxx/目录下右键选择创建一个自定义view页面:new->UICompoent->customer view 3.输入自定义名称,选择开发语言 4.确定之后,自动生成3个文件一个是&…...

[imangazaliev/didom]一个简单又快速的DOM操作库

DiDOM是一个功能齐全、易于使用和高性能的解析器和操作库,可以帮助PHP开发者更加高效地处理HTML文档。 为了更好地了解这个项目,我们先来看看下面的介绍。 安装 你可以使用composer来安装DiDOM,只需要在你的项目目录下执行下面的命令&…...

Cookie和Session的工作流程及区别(附代码案例)

目录 一、 HTTP协议 1.1 为什么HTTP协议是无状态的? 1.2 在HTTP协议中流式传输和分块传输编码的区别 二、Cookie和Session 2.1 Cookie 2.2 Session 2.3 Cookie和Session的区别 三、servlet中与Cookie和Session相关的API 3.1 HttpServletRequest 类中的相关方…...

适用于高级别自动驾驶的驾驶员可预见误用仿真测试

摘要 借助高级别自动驾驶(HAD),驾驶员可以从事与驾驶无关的任务。在系统出现失效的情况下,驾驶员应该合理地重新获得对自动驾驶车辆(AV)的控制。不正确的系统理解可能会引起驾驶员的误操作,并可能导致车辆级的危害。ISO 21448预期功能安全标…...

Linux之进程知识点

一、什么是进程 进程是一个运行起来的程序。 问题思考: ❓ 思考:程序是文件吗? 是!都读到这一章了,这种问题都无需思考!文件在磁盘哈。 本章一开始讲的冯诺依曼,磁盘就是外设,和内…...

一种供水系统物联网监测系统

1.1供水系统 1.1.1监测范围选择依据 (1)管网老化区域管网 管网建设年代久远,通常管网发生破损问题较大,根据管网本身属性和历史发生事件的统计分析,结合数理统计,优先选择管网老化区域的管段所在区域进行…...

Linux驱动开发——字符设备(2)

目录 虚拟串口设备驱动 一个驱动支持多个设备 习题 虚拟串口设备驱动 字符设备驱动除了前面搭建好代码的框架外,接下来最重要的就是要实现特定于设备的操作方法,这是驱动的核心和关键所在,是一个驱动区别于其他驱动的本质所在,…...

【MySQL数据库原理】MySQL Community安装与配置

目录 安装成功之后查看版本验证1、介绍、安装与配置数据库2、操作MySQL数据库3、MySQL数据库原理安装成功之后查看版本验证 SELECT VERSION();查看mysql版本号 1、介绍、安装与配置数据库 下载安装包:https://download.csdn.net/download/weixin_41194129/87672588 MySQL…...

【ROS参数服务器增删改c++操作1】

需求:实现参数服务器参数的增删改查操作。 在C中实现参数服务器数据的增删改查,可以通过两套API实现:. ros::NodeHandle ros::param下面为具体操作演示: 在src下面的自己定义的作用包下面新建文件。 比如我的是一直存在的demo03_ws文件下的src里面&…...

elasticsearch 常用数据类型详解和范例

主要内容 elasticsearch 中的字符串(keyword)类型 的详解和范例 elasticsearch 中的字符串/文本(text)类型 的详解和范例 elasticsearch 中的数字(数值)类型 的详解和范例 elasticsearch 中的布尔&#…...

力扣119杨辉三角 II:代码实现 + 方法总结(数学规律法 记忆法/备忘录)

文章目录第一部分:题目第二部分:解法①-数学规律法2.1 规律分析2.2 代码实现2.3 需要思考第三部分:解法②-记忆法(备忘录)第四部分:对比总结第一部分:题目 🏠 链接:119.…...

安装pandas遇到No module named ‘_bz2’ 的解决方案

出现这个问题我们可以按照这篇博客去解决: https://blog.csdn.net/bf96163/article/details/128654915 如果解决不了,可以这样去做: 1.确保安装了 对应的库 // ubuntu安装命令 sudo apt-get install bzip2-devel // centos安装命令 sudo y…...

【数据治理-05】什么数据才是货真价实的数据资产,一起聊聊数据资产

在国家层面一些列文件、纲要、政策、办法等政府力量的推动下,数据资产这个词越来越频繁的出现在我们寻常工作当中,现在越来越觉得这个词被滥用,大有“一切数据皆是资产”的感觉,业务数据是资产、技术数据是资产,不能共…...

第三章 ARM处理器体系结构【嵌入式系统】

第三章 ARM处理器体系结构【嵌入式系统】前言推荐第三章 ARM处理器体系结构3.1 概述3.2 ARM处理器的结构3.7 ARM的异常中断处理最后前言 以下内容源自《【嵌入式系统】》 仅供学习交流使用 推荐 无 第三章 ARM处理器体系结构 留着占位 敬请期待 3.1 概述 3.2 ARM处理器的…...

最速下降法

首先,计算函数f的梯度向量:∇f(x1,x2)[2x150x2]\nabla f(x_1,x_2) \begin{bmatrix}2x_1\\50x_2\end{bmatrix}∇f(x1​,x2​)[2x1​50x2​​] 然后,选择一个初始点(x10,x20)(x_1^0,x_2^0)(x10​,x20​),比如(0,0)(0,0)(0,0)。 接…...

R语言实践——ggplot2+ggrepel绘制散点+优化注释文本位置

简介 书接adjustText实践——调整matplotlib散点图标签,避免重复 上文中,matplotlibadjustText对于我的实例来说并没有起到很好的效果。所以,博主决定在R中利用gglot2ggrepel绘制,期待效果。 操作过程 博主不常使用R&#xff…...

[TIFS 2022] FLCert:可证明安全的联邦学习免受中毒攻击

FLCert: Provably Secure Federated Learning Against Poisoning Attacks | IEEE Journals & Magazine | IEEE Xplore 摘要 由于其分布式性质,联邦学习容易受到中毒攻击,其中恶意客户端通过操纵其本地训练数据和/或发送到云服务器的本地模型更新来毒…...

idea大量爆红问题解决

问题描述 在学习和工作中,idea是程序员不可缺少的一个工具,但是突然在有些时候就会出现大量爆红的问题,发现无法跳转,无论是关机重启或者是替换root都无法解决 就是如上所展示的问题,但是程序依然可以启动。 问题解决…...

【Python】 -- 趣味代码 - 小恐龙游戏

文章目录 文章目录 00 小恐龙游戏程序设计框架代码结构和功能游戏流程总结01 小恐龙游戏程序设计02 百度网盘地址00 小恐龙游戏程序设计框架 这段代码是一个基于 Pygame 的简易跑酷游戏的完整实现,玩家控制一个角色(龙)躲避障碍物(仙人掌和乌鸦)。以下是代码的详细介绍:…...

零门槛NAS搭建:WinNAS如何让普通电脑秒变私有云?

一、核心优势:专为Windows用户设计的极简NAS WinNAS由深圳耘想存储科技开发,是一款收费低廉但功能全面的Windows NAS工具,主打“无学习成本部署” 。与其他NAS软件相比,其优势在于: 无需硬件改造:将任意W…...

【kafka】Golang实现分布式Masscan任务调度系统

要求: 输出两个程序,一个命令行程序(命令行参数用flag)和一个服务端程序。 命令行程序支持通过命令行参数配置下发IP或IP段、端口、扫描带宽,然后将消息推送到kafka里面。 服务端程序: 从kafka消费者接收…...

React Native 导航系统实战(React Navigation)

导航系统实战(React Navigation) React Navigation 是 React Native 应用中最常用的导航库之一,它提供了多种导航模式,如堆栈导航(Stack Navigator)、标签导航(Tab Navigator)和抽屉…...

盘古信息PCB行业解决方案:以全域场景重构,激活智造新未来

一、破局:PCB行业的时代之问 在数字经济蓬勃发展的浪潮中,PCB(印制电路板)作为 “电子产品之母”,其重要性愈发凸显。随着 5G、人工智能等新兴技术的加速渗透,PCB行业面临着前所未有的挑战与机遇。产品迭代…...

Python爬虫(二):爬虫完整流程

爬虫完整流程详解(7大核心步骤实战技巧) 一、爬虫完整工作流程 以下是爬虫开发的完整流程,我将结合具体技术点和实战经验展开说明: 1. 目标分析与前期准备 网站技术分析: 使用浏览器开发者工具(F12&…...

ElasticSearch搜索引擎之倒排索引及其底层算法

文章目录 一、搜索引擎1、什么是搜索引擎?2、搜索引擎的分类3、常用的搜索引擎4、搜索引擎的特点二、倒排索引1、简介2、为什么倒排索引不用B+树1.创建时间长,文件大。2.其次,树深,IO次数可怕。3.索引可能会失效。4.精准度差。三. 倒排索引四、算法1、Term Index的算法2、 …...

聊一聊接口测试的意义有哪些?

目录 一、隔离性 & 早期测试 二、保障系统集成质量 三、验证业务逻辑的核心层 四、提升测试效率与覆盖度 五、系统稳定性的守护者 六、驱动团队协作与契约管理 七、性能与扩展性的前置评估 八、持续交付的核心支撑 接口测试的意义可以从四个维度展开,首…...

代理篇12|深入理解 Vite中的Proxy接口代理配置

在前端开发中,常常会遇到 跨域请求接口 的情况。为了解决这个问题,Vite 和 Webpack 都提供了 proxy 代理功能,用于将本地开发请求转发到后端服务器。 什么是代理(proxy)? 代理是在开发过程中,前端项目通过开发服务器,将指定的请求“转发”到真实的后端服务器,从而绕…...