当前位置: 首页 > news >正文

3 种方法限制 K8s Pod 磁盘容量使用

容器在运行期间会产生临时文件、日志。如果没有任何配额机制,则某些容器可能很快将磁盘写满,影响宿主机内核和所有应用。

容器的临时存储,例如 emptyDir,位于目录/var/lib/kubelet/pods 下:

/var/lib/kubelet/pods/
└── ac0810f5-a1ce-11ea-9caf-00e04c687e45  # POD_ID├── containers│   ├── istio-init│   │   └── 32390fd7│   ├── istio-proxy│   │   └── 70ed81da│   └── zookeeper│       └── e9e21e59├── etc-hosts          # 命名空间的Host文件└── volumes            # Pod的卷├── kubernetes.io~configmap  # ConfigMap类型的卷│   └── istiod-ca-cert│       └── root-cert.pem -> ..data/root-cert.pem├── kubernetes.io~downward-api│   └── istio-podinfo│       ├── annotations -> ..data/annotations│       └── labels -> ..data/labels├── kubernetes.io~empty-dir # Empty类型的卷│   ├── istio-data│   └── istio-envoy│       ├── envoy-rev0.json│       └── SDS├── kubernetes.io~rbd       # RBD卷│   └── pvc-644a7e30-845e-11ea-a4e1-70e24c686d29 # /dev/rbd0挂载到这个挂载点├── kubernetes.io~csi       # CSI卷└── kubernetes.io~secret    # Secret类型的卷└── default-token-jp4n8├── ca.crt -> ..data/ca.crt├── namespace -> ..data/namespace└── token -> ..data/token

持久卷的挂载点也位于/var/lib/kubelet/pods 下,但是不会导致存储空间的消耗

容器的日志,存放在/var/log/pods 目录下。

使用 Docker 时,容器的 rootfs位于/var/lib/docker 下,具体位置取决于存储驱动。

Pod 驱逐机制

磁盘容量不足触发的驱逐

具体细节参考:/kubernetes-study-note#out-of-resource[1]

当不可压缩资源(内存、磁盘)不足时,节点上的 Kubelet 会尝试驱逐掉某些 Pod,以释放资源,防止整个系统受到影响。

其中,磁盘资源不足的信号来源有两个:

  1. imagefs:容器运行时用作存储镜像、可写层的文件系统

  2. nodefs:Kubelet 用作卷、守护进程日志的文件系统

当 imagefs 用量到达驱逐阈值,Kubelet 会删除所有未使用的镜像,释放空间。

当 nodefs 用量到达阈值,Kubelet 会选择性的驱逐 Pod(及其容器)来释放空间。

本地临时存储触发的驱逐

较新版本的 K8S 支持设置每个 Pod 可以使用的临时存储的 request/limit,驱逐行为可以更具有针对性。

如果 Pod 使用了超过限制的本地临时存储,Kubelet 将设置驱逐信号,触发 Pod 驱逐流程:

  1. 对于容器级别的隔离,如果一个容器的可写层、日志占用磁盘超过限制,则 Kubelet 标记 Pod 为待驱逐

  2. 对于 Pod 级别的隔离,Pod 总用量限制,是每个容器限制之和。如果各容器用量之和+Pod 的 emptyDir 卷超过 Pod 总用量限制,标记 Pod 为待驱逐

从编排层限制

从 K8S 1.8 开始,支持本地临时存储(local ephemeral storage),ephemeral 的意思是,数据的持久性(durability)不做保证。临时存储可能 Backed by 本地 Attach 的可写设备,或者内存。

Pod 可以使用本地临时存储来作为暂存空间,或者存放缓存、日志。Kubelet 可以利用本地临时存储,将 emptyDir 卷挂载给容器。Kubelet 也使用本地临时存储来保存节点级别的容器日志、容器镜像、容器的可写层

Kubelet 会将日志写入到你配置好的日志目录,默认 /var/log。其它文件默认都写入到 /var/lib/kubelet。在典型情况下,这两个目录可能都位于宿主机的 rootfs 之下。

Kubernetes 支持跟踪、保留/限制 Pod 能够使用的本地临时存储的总量。

限制 Pod 用量

打开特性开关:LocalStorageCapacityIsolation,可以限制每个 Pod 能够使用的临时存储的总量。

注意:以内存为媒介(tmpfs)的 emptyDir,其用量计入容器内存消耗,而非本地临时存储消耗。

使用类似限制内存、CPU 用量的方式,限制本地临时存储用量:

spec.containers[].resources.limits.ephemeral-storage
spec.containers[].resources.requests.ephemeral-storage

单位可以是 E, P, T, G, M, K,或者 Ei, Pi, Ti, Gi, Mi, Ki(1024)。

下面这个例子,Pod 具有两个容器,每个容器最多使用 4GiB 的本地临时存储:

apiVersion: v1
kind: Pod
metadata:name: frontend
spec:containers:- name: dbimage: mysqlenv:- name: MYSQL_ROOT_PASSWORDvalue: "password"resources:requests:ephemeral-storage: "2Gi"limits:ephemeral-storage: "4Gi"- name: wpimage: wordpressresources:requests:ephemeral-storage: "2Gi"limits:ephemeral-storage: "4Gi"

对 Pod 用量的监控

不监控

如果禁用 Kubelet 对本地临时存储的监控,则 Pod 超过 limit 限制后不会被驱逐。但是,如果磁盘整体上容量太低,节点会被打上污点,所有不能容忍此污点的 Pod 都会被驱逐。

周期性扫描

Kubelet 可以执行周期性的扫描,检查 emptyDir 卷、容器日志目录、可写容器层,然后计算 Pod/容器使用了多少磁盘。

这个模式下有个问题需要注意,Kubelet不会跟踪已删除文件的描述符。也就是说,如果你创建一个文件,打开文件,写入 1GB,然后删除文件,这种情况下 inode 仍然存在(直到你关闭文件),空间仍然被占用,但是 Kubelet 却没有算这 1GB.

Project Quotas

此特性在 1.15+处于 Alpha 状态。

Project quotas 是 Linux 操作系统级别的特性,用于在目录级别限制磁盘用量。只有本地临时存储(例如 emptyDir)的后备(Backing)文件系统支持 Project quotas,才可以使用该特性。XFS、ext4 都支持 Project quotas。

K8S 将占用从 1048576 开始的 Project ID,占用中的 ID 注册在/etc/projects、/etc/projid 文件中。如果系统中其它进程占用 Project ID,则也必须在这两个文件中注册,这样 K8S 才会改用其它 ID。

Quotas 比周期性扫描快,而且更加精准。当一个目录被分配到一个 Project 中后,该目录中创建的任何文件,都是在 Project 中创建的。为了统计用量,内核只需要跟踪 Project 中创建了多少 block 就可以了。

如果文件被创建、然后删除,但是它的文件描述符仍然处于打开状态,这种情况下,它仍然消耗空间,不会出现周期性扫描的那种漏统计的问题。

要启用 Project Quotas,你需要:

  1. XFS 文件系统默认支持,不需要操作

  2. ext4 文件系统,你需要在未挂载之前,启用:

    $ sudo tune2fs -O project -Q prjquota /dev/vda
    
  1. 开启 Kubelet 特性开关:LocalStorageCapacityIsolationFSQuotaMonitoring

  2. 确保文件系统支持 Project quotas:

  3. 确保文件系统挂载时,启用了 Project quotas。使用挂载选项 prjquota

inode 耗尽问题

有的时候,我们会发现磁盘写入时会报磁盘满,但是 df 查看容量并没有 100%使用,此时可能只是因为 inode 耗尽造成的。

当前 k8s 并不支持对 Pod 的临时存储设置 inode 的 limits/requests。

但是,如果 node 进入了 inode 紧缺的状态,kubelet 会将 node 设置为 under pressure,不再接收新的 Pod 请求。

从容器引擎限制

Docker 提供了配置项 --storage-opt,可以限制容器占用磁盘空间的大小,此大小影响镜像和容器文件系统,默认 10G。

你也可以在 /etc/docker/daemon.json 中修改此配置项:

{"storage-driver": "devicemapper","storage-opts": [// devicemapper"dm.basesize=20G",// overlay2"overlay2.size=20G",]
}

但是这种配置无法影响那些挂载的卷,例如 emptyDir。

从系统层限制

你可以使用 Linux 系统提供的任何能够限制磁盘用量的机制,为了和 K8S 对接,需要开发 Flexvolume 或 CSI 驱动。

磁盘配额

前文已经介绍过,K8S 目前支持基于 Project quotas 来统计 Pod 的磁盘用量。这里简单总结一下 Linux 磁盘配额机制。

配额目标

Linux 系统支持以下几种角度的配额:

  1. 在文件系统级别,限制群组能够使用的最大磁盘额度

  2. 在文件系统级别,限制单个用户能够使用的最大磁盘额度

  3. 限制某个目录(directory, project)能够占用的最大磁盘额度

前面 2 种配额,现代 Linux 都支持,不需要前提条件。你甚至可以在一个虚拟的文件系统上进行配额:

# 写一个空白文件
$ dd if=/dev/zero of=/path/to/the/file bs=4096 count=4096
# 格式化
...
# 挂载为虚拟文件系统
$ mount -o loop,rw,usrquota,grpquota /path/to/the/file /path/of/mount/point# 进行配额设置...

第 3 种需要较新的文件系统,例如 XFS、ext4fs。

配额角度

配额可以针对 Block 用量进行,也可以针对 inode 用量进行。

配额可以具有软限制、硬限制。超过软限制后,仍然可以正常使用,但是登陆后会收到警告,在 grace time 倒计时完毕之前,用量低于软限制后,一切恢复正常。如果 grace time 到期仍然没做清理,则无法创建新文件。

统计用量

启用配额,内核自然需要统计用量。管理员要查询用量,可以使用 xfs_quota 这样的命令,比 du 这种遍历文件计算的方式要快得多。

启用配额

在保证底层文件系统支持之后,你需要修改挂载选项来启用配额:

  1. uquota/usrquota/quota:针对用户设置配额

  2. gquota/grpquota:针对群组设置配额

  3. pquota/prjquota:针对目录设置配额

LVM

使用 LVM 你可以任意创建具有尺寸限制的逻辑卷,把这些逻辑卷挂载给 Pod 即可:

volumes:
- flexVolume:# 编写的flexVolume驱动放到# /usr/libexec/kubernetes/kubelet-plugins/volume/exec/kubernetes.io~lvm/lvmdriver: kubernetes.io/lvmfsType: ext4options:size: 30Givolumegroup: dockername: mnt
volumeMounts:- mountPath: /mntname: mnt

这需要修改编排方式,不使用 emptyDir 这种本地临时存储,还需要处理好逻辑卷清理工作。

Flexvolume 驱动的示例可以参考:/flexvolume-study-note#lvm[2]

相关文章:

3 种方法限制 K8s Pod 磁盘容量使用

容器在运行期间会产生临时文件、日志。如果没有任何配额机制,则某些容器可能很快将磁盘写满,影响宿主机内核和所有应用。 容器的临时存储,例如 emptyDir,位于目录/var/lib/kubelet/pods 下: /var/lib/kubelet/pods/ …...

05-ESP32-S3-IDF USART

ESP32-S3 IDF USART详解 USART简介 USART是一种串行通信协议,广泛应用于微控制器和计算机之间的通信。USART支持异步和同步模式,因此它可以在没有时钟信号的情况下(异步模式)或有时钟信号的情况下(同步模式&#xff…...

安塔利斯升级php8

1、includes/classes/class.Database.php 255行 multi_query方法加返回类型 :bool query方法加返回类型:: mysqli_result|bool 2、includes/classes/class.Session.php on line 91 Optional parameter $planetID declared before required parameter $dpath is…...

Clickhouse MergeTree 原理(一)

作者:俊达 MergeTree是Clickhouse里最核心的存储引擎。Clickhouse里有一系列以MergeTree为基础的引擎(见下图),理解了基础MergeTree,就能理解整个系列的MergeTree引擎的核心原理。 本文对MergeTree的基本原理进行介绍…...

【C语言】字符串函数上

👑个人主页:啊Q闻 🎇收录专栏:《C语言》 🎉道阻且长,行则将至 前言 这篇博客是字符串函数上篇,主要是关于长度不受限制的字符串函数(strlen,strcpy,strcat,strcm…...

Java集合基础知识总结(绝对经典)

List接口继承了Collection接口,定义一个允许重复项的有序集合。该接口不但能够对列表的一部分进行处理,还添加了面向位置的操作。 实际上有两种list:一种是基本的ArrayList,其优点在于随机访问元素,另一种是更强大的L…...

Linux:导出环境变量命令export

相关阅读 Linuxhttps://blog.csdn.net/weixin_45791458/category_12234591.html?spm1001.2014.3001.5482 Linux中的内建命令export命令用于创建一个环境变量,或将一个普通变量导出为环境变量,并且在这个过程中,可以给该环境变量赋值。 下面…...

案例--某站视频爬取

众所周知,某站的视频是: 由视频和音频分开的。 所以我们进行获取,需要分别获得它的音频和视频数据,然后进行音视频合并。 这么多年了,某站还是老样子,只要加个防盗链就能绕过。(防止403&#xf…...

清华把大模型用于城市规划,回龙观和大红门地区成研究对象

引言:参与式城市规划的新篇章 随着城市化的不断推进,传统的城市规划方法面临着越来越多的挑战。这些方法往往需要大量的时间和人力,且严重依赖于经验丰富的城市规划师。为了应对这些挑战,参与式城市规划应运而生,它强…...

Vue+SpringBoot打造创意工坊双创管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 管理员端2.2 Web 端2.3 移动端 三、系统展示四、核心代码4.1 查询项目4.2 移动端新增团队4.3 查询讲座4.4 讲座收藏4.5 小程序登录 五、免责说明 一、摘要 1.1 项目介绍 基于JAVAVueSpringBootMySQL的创意工坊双创管理…...

Web框架开发-Django简介

一、MVC和MTV模型 MVC 所谓MVC就是把web应用分为模型(M),控制器(C)和视图(V)三层,他们之间以一种插件式的,松耦合的方式连接在一起,模型负责业务对象与数据库…...

VB播放器(动态服务器获取歌词)-183-(代码+说明)

转载地址: http://www.3q2008.com/soft/search.asp?keyword183 VBASP vb动态从服务器读取歌词 VB asp交互 程序, 模式不一样, 与普通的MP3播放器不一样, 这个是可以实现歌词从服务器上查询功能的. 看好了在咨询 我可以給您演示 目  录 前  言 1 1 . 简述 2 1.1 开发…...

java-可变参数

可变参数是什么? 可变参数就是指传入的参数个数是可变的,不是固定的 为什么要可变参数? 当我们要传入大量的形参时,我们就可以用到可变参数了 定义格式 数据类型...变量名; 例如int ...a; 可变参数的细节: &…...

嵌入式学习day37 数据结构

1.sqlite3_open int sqlite3_open( const char *filename, /* Database filename (UTF-8) */ sqlite3 **ppDb /* OUT: SQLite db handle */ ); 功能: 打开数据库文件(创建一个数据库连接) 参数: filename:数据库文…...

嵌入式学习39-程序创建数据库及查找

1.sqlite3_open int sqlite3_open( const char *filename, /* Database filename (UTF-8) */ sqlite3 **ppDb /* OUT: SQLite db handle */ ); 功能: 打开 数据库文件(创建一个数据库连接) 参数: filename: …...

科研三维模型高精度三维扫描服务3d逆向测绘建模工业产品抄数设计

三维抄数技术在科研三维模型的应用已经日益广泛,其高精度、高效率的特点使得科研工作者能够更快速、更准确地获取和分析数据。这一技术的核心在于通过专业的三维扫描仪对实物进行高精度测量,再将这些数据转化为三维数字模型,为后续的研究提供…...

【LeetCode热题100】141. 环形链表(链表)

一.题目要求 给你一个链表的头节点 head ,判断链表中是否有环。 如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了表示给定链表中的环,评测系统内部使用整数 pos 来表示链表尾连接到链表中的位置…...

express+mysql+vue,从零搭建一个商城管理系统11--使用Sequelize

提示:学习express,搭建管理系统 文章目录 前言一、安装sequelize和mysql2二、修改config/db.js三、修改models/user.js,models/shop.js,models/goods.js四、新建dao/user.js,dao/shop.js,dao/goods.js五、修…...

霹雳学习笔记——6.1 ResNet网络结构、BN以及迁移学习

一、ResNet结构 ResNet是一个突破一千层的网络架构。主要是卷积层Conv和池化层的堆叠。但是普通的堆叠会使得错误率更高,如下图所述,这是因为会产生梯度消失/梯度爆炸等。(梯度就是增量,有大小有方向) 解决方法&#…...

Gitee的注册和代码提交(附有下载链接)

目录 一、Git的下载和安装二、安装图形化界面工具三、在Gitee上创建仓库四、如何把仓库开源五、Clone远程仓库到本地六、拷贝代码到本地的仓库七、Add-Commit-Push到远程仓库八、可能出现的问题8.1 建议在本地仓库直接创建项目8.2 第一次Push可能出现的问题8.3 怎么删除Gitee上…...

Python爬虫实战:研究mechanize库相关技术

1. 引言 随着互联网数据量的爆炸式增长,网络爬虫已成为数据采集和信息挖掘的重要工具。Python 作为一种功能强大且易于学习的编程语言,拥有丰富的爬虫相关库,如 Requests、BeautifulSoup、Scrapy 等。Mechanize 库作为其中的一员,特别擅长处理复杂的表单提交和会话管理,为…...

Linux配置yum 时间同步服务 关闭防火墙 关闭ESlinux

1、配置yum 1.1、Could not resolve host: mirrorlist.centos.org; 未知的错误 https://blog.csdn.net/fansfi/article/details/146369946?fromshareblogdetail&sharetypeblogdetail&sharerId146369946&sharereferPC&sharesourceRockandrollman&sharefr…...

物联网通信技术全景指南(2025)之如何挑选合适的物联网模块

物联网通信技术全景指南(2025)之 如何挑选合适的物联网模块 物联网通信技术全景指南(2025)一、技术代际演进与退网背景二、5G 物联网技术体系(Sub-6 GHz 核心)1. 技术分层架构2. 蜂窝技术性能矩阵3. Sub-6 …...

.net 使用MQTT订阅消息

在nuGet下载M2Mqtt V4.3.0版本。(支持.net framework) 订阅主题 public void LoadMQQCData() {string enpoint "xxx.xxx.x.x";//ip地址int port 1883;//端口string user "usrname";//用户名string pwd "pwd";//密码…...

stm32_DMA

DMA 1. 概念与基本原理 DMA,全称Direct Memory Access,即直接存储器访问。它是微控制器(MCU)、嵌入式处理器中的一个独立硬件模块,用于在无需CPU干预的情况下,在不同内存区域(包括外设寄存器和…...

Spring Boot-面试题(52)

摘要: 1、通俗易懂,适合小白 2、仅做面试复习用,部分来源网络,博文免费,知识无价,侵权请联系! 1. 什么是 Spring Boot 框架? Spring Boot 是基于 Spring 框架的快速开发框架&#…...

python学习打卡day45

DAY 45 Tensorboard使用介绍 知识点回顾: tensorboard的发展历史和原理tensorboard的常见操作tensorboard在cifar上的实战:MLP和CNN模型 效果展示如下,很适合拿去组会汇报撑页数: 作业:对resnet18在cifar10上采用微调策…...

AudioRelay 0.27.5 手机充当电脑音响

—————【下 载 地 址】——————— 【​本章下载一】:https://pan.xunlei.com/s/VOS4MvfPxrnfS2Zu_YS4egykA1?pwdi2we# 【​本章下载二】:https://pan.xunlei.com/s/VOS4MvfPxrnfS2Zu_YS4egykA1?pwdi2we# 【百款黑科技】:https://uc…...

短视频矩阵系统技术saas源头6年开发构架

在短视频内容爆发式增长的今天,短视频矩阵系统SAAS技术成为企业快速搭建视频平台的关键解决方案。本文将系统解析从技术源头到服务落地的全流程开发路径。 一、系统定义与技术基础 短视频矩阵系统是集视频上传、智能编辑、多端分享、高清播放于一体的综合性平台。其…...

前端原生构建交互式进度步骤组件(Progress Steps)

在现代网页设计中,进度步骤(Progress Steps) 是一种常见的 UI 模式,常用于引导用户完成注册流程、多步表单、教程或任何需要分步骤操作的场景。本文将带你从零开始构建一个美观且功能完整的 “进度步骤”组件,并详细讲…...