K8s集群调度续章
目录
一、污点(Taint)
1、污点(Taint)
2、污点组成格式
3、当前taint effect支持如下三个选项:
4、查看node节点上的污点
5、设置污点
6、清除污点
7、示例一
查看pod状态,模拟驱逐node02上的pod
设置驱逐node02
再次查看pod状态
此时node02全部被驱逐
二、容忍(Tolerations)
1、容忍的简介
2、面对污点,创建pod资源的容忍的实例
在两个 Node 上都设置了污点后,此时 Pod 将无法创建成功
然后在修改pod3.yaml文件创建pod资源的容忍设置
此时pod创建成功
3、其他注意事项
①当不指定 key 值时,表示容忍所有的污点 key
②当不指定 effect 值时,表示容忍所有的污点作用
③有多个 Master 存在时,防止资源浪费,可以如下设置
4、维护操作cordon和drain
5、pod启动阶段(相位phase)
5.1.一般来说,pod 这个过程包含以下几个步骤:
5.2.phase的可能状态有
6、如何和删除UNknown状态的pod
三、k8s集群的故障排查步骤
1、查看pod事件
2、查看pod日志(Failed状态下)
3、进入pod(状态为running,但是服务没有提供)
4、查看集群信息
5、发现集群状态正常
6、查看kubelet日志发现
一、污点(Taint)
1、污点(Taint)
①节点亲和性,是Pod的一种属性(偏好或硬性要求),它是Pod被吸引到一类特定的节点。Taint则相反,它使得节点能够排斥一类特定的pod。
②Taint与Toleration相互配合,可以用来避免pod被分配到不合适的节点上。每个节点上的都可以应用一个或者多个Taint,这表示对于那些不能容忍这些 taint 的 Pod,是不会被该节点接受的。如果将 toleration 应用于 Pod 上,则表示这些 Pod 可以(但不一定)被调度到具有匹配 taint 的节点上。
③使用 kubectl taint 命令可以给某个 Node 节点设置污点,Node 被设置上污点之后就和 Pod 之间存在了一种相斥的关系,可以让 Node 拒绝 Pod 的调度执行,甚至将 Node 已经存在的 Pod 驱逐出去。
2、污点组成格式
key=value:effect## 每个污点有一个 key 和 value 作为污点的标签,其中 value 可以为空,effect 描述污点的作用。
3、当前taint effect支持如下三个选项:
①NoSchedule:表示 k8s 将不会将 Pod 调度到具有该污点的 Node 上
②PreferNoSchedule:表示 k8s 将尽量避免将 Pod 调度到具有该污点的 Node 上
③NoExecute:表示 k8s 将不会将 Pod 调度到具有该污点的 Node 上,同时会将 Node 上已经存在的 Pod 驱逐出去
4、查看node节点上的污点
格式:kubectl describe nodes <节点名称> | grep Taints
或者是kubectl describe nodes <节点名称> | grep -i taints
eg:查看master01的污点
kubectl describe nodes master01 |grep -i taints
5、设置污点
格式kubectl taint node 指定的node key1=value1:NoSchedule
eg:给node01 设置污点进行测试
kubectl taint node node01 abc=a:NoSchedule
6、清除污点
格式:kubectl taint node 指定的node key:NoSchedule-
eg:清除node01 设置的污点
kubectl taint node node01 abc:NoSchedule-
7、示例一
查看pod状态,模拟驱逐node02上的pod
[root@master01 ~]]#kubectl get pods -owide
查看pod状态
设置驱逐node02
kubectl taint node node02 check=mycheck:NoExecute
再次查看pod状态
kubectl get pods -owide
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
affinity 1/1 Running 0 20h 10.244.2.24 node01 <none> <none>
myapp-699655c7fd-rnfzg 1/1 Running 0 20h 10.244.2.23 node01 <none> <none>
myapp-699655c7fd-v2dtt 1/1 Running 0 20h 10.244.2.22 node01 <none> <none>
myapp-699655c7fd-vxbz9 1/1 Running 0 20h 10.244.2.21 node01 <none> <none>
myapp1-58794f76cb-6twr4 1/1 Running 0 20h 10.244.2.27 node01 <none> <none>
myapp1-58794f76cb-75gzs 1/1 Running 0 20h 10.244.2.25 node01 <none> <none>
myapp1-58794f76cb-v5gcz 1/1 Running 0 20h 10.244.2.26 node01 <none> <none>
myapp10 1/1 Running 0 19h 10.244.2.28 node01 <none> <none>
myapp20 1/1 Running 0 19h 10.244.2.29 node01 <none> <none>
nginx-deployment-797d747cf6-nldj2 1/1 Running 0 29s 10.244.2.31 node01 <none> <none>
nginx-deployment-797d747cf6-sqcm9 1/1 Running 0 29s 10.244.2.32 node01 <none> <none>
nginx-deployment-797d747cf6-t4tsk 1/1 Running 0 29s 10.244.2.30 node01 <none> <none>
此时node02全部被驱逐
二、容忍(Tolerations)
1、容忍的简介
设置了污点的 Node 将根据 taint 的 effect:NoSchedule、PreferNoSchedule、NoExecute 和 Pod 之间产生互斥的关系,Pod 将在一定程度上不会被调度到 Node 上。但我们可以在 Pod 上设置容忍(Tolerations),意思是设置了容忍的 Pod 将可以容忍污点的存在,可以被调度到存在污点的 Node 上。
2、面对污点,创建pod资源的容忍的实例
kubectl taint node node01 check=mycheck:NoExecute
vim pod3.yaml
apiVersion: v1
kind: Pod
metadata:name: myapp01labels:app: myapp01
spec:containers:- name: with-node-affinityimage: nginx:1.14tolerations:- key: "abc"operator: "Equal"value: "a"effect: "NoExecute"tolerationSeconds: 3600
在两个 Node 上都设置了污点后,此时 Pod 将无法创建成功
然后在修改pod3.yaml文件创建pod资源的容忍设置
vim pod3.yaml
apiVersion: v1
kind: Pod
metadata:name: myapp01labels:app: myapp01
spec:containers:- name: with-node-affinityimage: soscscs/myapp:v1tolerations:- key: "check"operator: "Equal"value: "mycheck"effect: "NoExecute"tolerationSeconds: 3600
[root@master01 ~]]#kubectl delete -f pod3.yaml
pod "myapp01" deleted
[root@master01 ~]]#kubectl apply -f pod3.yaml
pod/myapp01 created
[root@master01 ~]]#kubectl get pods -owide
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
affinity 1/1 Running 0 23h 10.244.2.24 node01 <none> <none>
myapp-699655c7fd-rnfzg 1/1 Running 0 23h 10.244.2.23 node01 <none> <none>
myapp-699655c7fd-v2dtt 1/1 Running 0 23h 10.244.2.22 node01 <none> <none>
myapp-699655c7fd-vxbz9 1/1 Running 0 23h 10.244.2.21 node01 <none> <none>
myapp01 1/1 Running 0 87s 10.244.1.18 node02 <none> <none>
myapp1-58794f76cb-6twr4 1/1 Running 0 23h 10.244.2.27 node01 <none> <none>
myapp1-58794f76cb-75gzs 1/1 Running 0 23h 10.244.2.25 node01 <none> <none>
myapp1-58794f76cb-v5gcz 1/1 Running 0 23h 10.244.2.26 node01 <none> <none>
myapp10 1/1 Running 0 23h 10.244.2.28 node01 <none> <none>
myapp20 1/1 Running 0 23h 10.244.2.29 node01 <none> <none>
nginx-deployment-797d747cf6-nldj2 1/1 Running 0 3h20m 10.244.2.31 node01 <none> <none>
nginx-deployment-797d747cf6-sqcm9 1/1 Running 0 3h20m 10.244.2.32 node01 <none> <none>
nginx-deployment-797d747cf6-t4tsk 1/1 Running 0 3h20m 10.244.2.30 node01 <none> <none>
#其中的 key、vaule、effect 都要与 Node 上设置的 taint 保持一致
#operator 的值为 Exists 将会忽略 value 值,即存在即可
#tolerationSeconds 用于描述当 Pod 需要被驱逐时可以在 Node 上继续保留运行的时间
此时pod创建成功
3、其他注意事项
①当不指定 key 值时,表示容忍所有的污点 key
tolerations:
- operator: "Exists"
②当不指定 effect 值时,表示容忍所有的污点作用
tolerations:
- key: "key"
operator: "Exists"
③有多个 Master 存在时,防止资源浪费,可以如下设置
kubectl taint node Master-Name node-role.kubernetes.io/master=:PreferNoSchedule
//如果某个 Node 更新升级系统组件,为了防止业务长时间中断,可以先在该 Node 设置 NoExecute 污点,把该 Node 上的 Pod 都驱逐出去
kubectl taint node node01 check=mycheck:NoExecute
//此时如果别的 Node 资源不够用,可临时给 Master 设置 PreferNoSchedule 污点,让 Pod 可在 Master 上临时创建
kubectl taint node master node-role.kubernetes.io/master=:PreferNoSchedule
//待所有 Node 的更新操作都完成后,再去除污点
kubectl taint node node01 check=mycheck:NoExecute-
4、维护操作cordon和drain
##对节点执行维护操作:
kubectl get nodes//将 Node 标记为不可调度的状态,这样就不会让新创建的 Pod 在此 Node 上运行
kubectl cordon <NODE_NAME> #该node将会变为SchedulingDisabled状态//kubectl drain 可以让 Node 节点开始释放所有 pod,并且不接收新的 pod 进程。drain 本意排水,意思是将出问题的 Node 下的 Pod 转移到其它 Node 下运行
kubectl drain <NODE_NAME> --ignore-daemonsets --delete-emptydir-data --force--ignore-daemonsets:无视 DaemonSet 管理下的 Pod。
--delete-emptydir-data:如果有 mount local volume 的 pod,会强制杀掉该 pod。
--force:强制释放不是控制器管理的 Pod。注:执行 drain 命令,会自动做了两件事情:
(1)设定此 node 为不可调度状态(cordon)
(2)evict(驱逐)了 Pod//kubectl uncordon 将 Node 标记为可调度的状态
kubectl uncordon <NODE_NAME>
5、pod启动阶段(相位phase)
Pod 创建完之后,一直到持久运行起来,中间有很多步骤,也就有很多出错的可能,因此会有很多不同的状态。
5.1.一般来说,pod 这个过程包含以下几个步骤:
①调度到某台 node 上。kubernetes 根据一定的优先级算法选择一台 node 节点将其作为 Pod 运行的 node
②拉取镜像
③挂载存储配置等
④运行起来,如果有健康检查,会根据检查的结果来设置其状态
5.2.phase的可能状态有
①Pending:表示APIServer创建了Pod资源对象并已经存入了etcd中,但是它并未被调度完成(比如还没有调度到某台node上),或者仍然处于从仓库下载镜像的过程中。
②Running:Pod已经被调度到某节点之上,并且Pod中所有容器都已经被kubelet创建。至少有一个容器正在运行,或者正处于启动或者重启状态(也就是说Running状态下的Pod不一定能被正常访问)。
③Succeeded:有些pod不是长久运行的,比如job、cronjob,一段时间后Pod中的所有容器都被成功终止,并且不会再重启。需要反馈任务执行的结果。
④Failed:Pod中的所有容器都已终止了,并且至少有一个容器是因为失败终止。也就是说,容器以非0状态退出或者被系统终止,比如 command 写的有问题。
⑤Unknown:表示无法读取 Pod 状态,通常是 kube-controller-manager 无法与 Pod 通信。
6、如何和删除UNknown状态的pod
①从集群中删除有问题的 Node。使用公有云时,kube-controller-manager 会在 VM 删除后自动删除对应的 Node。 而在物理机部署的集群中,需要管理员手动删除 Node(kubectl delete node <node_name>)。
②被动等待 Node 恢复正常,Kubelet 会重新跟 kube-apiserver 通信确认这些 Pod 的期待状态,进而再决定删除或者继续运行这些 Pod。
③主动删除 Pod,通过执行 kubectl delete pod <pod_name> --grace-period=0 --force 强制删除 Pod。但是这里需要注意的是,除非明确知道 Pod 的确处于停止状态(比如 Node 所在 VM 或物理机已经关机),否则不建议使用该方法。特别是 StatefulSet 管理的 Pod,强制删除容易导致脑裂或者数据丢失等问题
三、k8s集群的故障排查步骤
1、查看pod事件
kubectl describe TYPE NAME_PREFIX
2、查看pod日志(Failed状态下)
kubectl logs <POD_NAME> [-c Container_NAME]
3、进入pod(状态为running,但是服务没有提供)
kubectl exec –it <POD_NAME> bash
4、查看集群信息
kubectl get nodes
5、发现集群状态正常
kubectl cluster-info
6、查看kubelet日志发现
journalctl -xefu kubelet
相关文章:

K8s集群调度续章
目录 一、污点(Taint) 1、污点(Taint) 2、污点组成格式 3、当前taint effect支持如下三个选项: 4、查看node节点上的污点 5、设置污点 6、清除污点 7、示例一 查看pod状态,模拟驱逐node02上的pod …...

大工作量LUAD代谢重编程模型多组学(J Transl Med)
目录 1,单细胞早期、晚期和转移性 LUAD 的细胞动力学变化 2,细胞代谢重编程介导的LUAD驱动恶性转移的异质性 3,模型构建 S-MMR评分管线构建 4,S-MMR 模型的预后评估 5, 还开发了S-MMR 评分网络工具 6,…...

C语言#include<>和#include““有什么区别?
一、问题 有两种头⽂件包含的形式,⼀种是⽤尖括号将头⽂件括起,⼀种是⽤双引号将⽂件括起。那么,这两种形式有什么区别呢? 二、解答 这两种包含头⽂件的形式都是合法的,也是经常在代码中看到的,两者的区别…...

正在直播:Microsoft Copilot Studio 新增支持Copilot代理、Copilot扩展等多项功能
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…...

数据通信基本概念汇总
1. 数据通信基础 网关: 提供协议转换,路由选择,数据交换的网络设备 报文: 网络中所传递的一个数据单元。 数据载荷: 最终要传递的信息 封装: 给数据载荷添加头部和尾部的过程(形成新的报文) 解封装: 给数据载荷去掉头部和尾部的过程(获取数据载荷) 终端设…...

AcWing 835. Trie字符串统计——算法基础课题解
AcWing 835. Trie 字符串统计 题目描述 维护一个字符串集合,支持两种操作: I x 向集合中插入一个字符串 𝑥;Q x 询问一个字符串在集合中出现了多少次。 共有 𝑁 个操作,所有输入的字符串总长度不超过 1…...

RT-DETR算法改进【NO.1】借鉴CVPR2024中的StarNet网络StarBlock改进算法
前 言 YOLO算法改进的路有点拥挤,尝试选择其他的baseline作为算法研究,可能会更加好发一些文章。后面将陆续介绍RT-DETR算法改进的方法思路。 很多朋友问改进如何选择是最佳的,下面我就根据个人多年的写作发文章以及指导发文章的经验来看,按照优先顺序进行排序讲解…...

5,串口编程---实现简单的用串口发送接收数据
单片机通过串口向PC机发送数据 PC机通过串口接收单片机发过来的数据 1.UART和USART的区别: USART支持同步通信方式,可以通过外部时钟信号进行同步传输,而UART仅支持异步通信方式 本开发板STM32F103ZET6有5个串口,用串口1作调试串口,因为串…...

LeetCode583:两个字符串的删除操作
题目描述 给定两个单词 word1 和 word2 ,返回使得 word1 和 word2 相同所需的最小步数。 每步 可以删除任意一个字符串中的一个字符。 代码 解法1 /*dp[i][j]:以i-1为结尾的wrod1中有以j-1为尾的word2的个数为了让word1和word2相同,最少操作…...

LLama学习记录
学习前: 五大问题: 为什么SwiGLU激活函数能够提升模型性能?RoPE位置编码是什么?怎么用的?还有哪些位置编码方式?GQA(Grouped-Query Attention, GQA)分组查询注意力机制是什么&…...

如何克隆非默认分支
直接git clone下来的我们知道是默认分支,那如何克隆其他分支呢: 比如这个,我们想克隆AdvNet。 我们可以在本地文件夹打开Git Bash 依次输入: git clone --branch AdvNet https://github.com/wgcban/SemiCD.git cd SemiCD git b…...

数据结构——图
一 图论基本概念 Directed Acyclic Graph (DAG) 二 图的存储 ①邻接矩阵(适用于稠密图) ②邻接表(适用于稀疏图) 三、图的遍历 ①深度优先搜索 //(基于邻接表实现,以有向图为例) //DFS:Depth First Search 深度优先搜索 //1、访问起始顶点 …...

蓝桥杯—SysTick中断精准定时实现闪烁灯
在嵌入式系统中,SysTick_Handler 是一个中断服务例程(Interrupt Service Routine, ISR),用于处理 SysTick 定时器的中断。SysTick 定时器通常用于提供一个周期性的定时中断,可以用来实现延时或者周期性任务。 SysTick…...

ML307R OpenCPU UDP使用
一、UDP通信流程 二、示例 三、UDP通信代码 一、UDP通信流程 ML307R UDP 是使用LWIP的标准的通信,具体UDP流程可以自行百度 二、示例 实验目的:实现把接收的数据再发送到服务端 测试网址:UDP电脑端测试网址 因为是4G,所以必须用外网的 /* 测试前请先补充如下参数 */…...

pod详解
目录 pod pod基本介绍 k8s集群中pod两种使用方式 pause容器使得Pod中所有容器共享两种资源:网络和存储 kubernetes中的pause容器主要为每个容器提供以下功能 k8s设计这样的pod概念和特殊组成结构有什么用意 pod分类 pod容器的分类 基础容器(infr…...

免费插件集-illustrator插件-Ai插件-文本对象分行
文章目录 1.介绍2.安装3.通过窗口>扩展>知了插件4.功能解释5.总结 1.介绍 本文介绍一款免费插件,加强illustrator使用人员工作效率,进行文本对象分行。首先从下载网址下载这款插件 https://download.csdn.net/download/m0_67316550/87890501&…...

web学习笔记(五十九)
目录 1.style样式 1.1作用域 scoped 1.2 less和 sass 1.3 less和 sass两者的区别 2. 计算属性computed 3. 响应式基础reactive() 4. 什么是MVVM? 1.style样式 1.1作用域 scoped scoped表示样式作用域,把内部的样式仅限于当前组件模板生效,其…...

UE5 UE4 快速定位节点位置
在材质面板中,找到之前写的一个节点,想要修改,但是当时写的比较多,想要快速定位到节点位置. 在面板下方的 Find Results面板中,输入所需节点,找结果后双击,就定位到该节点处。 同理,…...

go routing 之 gorilla/mux
1. 背景 继续学习 go 2. 关于 routing 的学习 上一篇 go 用的库是:net/http ,这次我们使用官方的库 github.com/gorilla/mux 来实现 routing。 3. demo示例 package mainimport ("fmt""net/http""github.com/gorilla/mux&…...

新火种AI|警钟长鸣!教唆自杀,威胁人类,破坏生态,AI的“反攻”值得深思...
作者:小岩 编辑:彩云 在昨天的文章中,我们提到了谷歌的AI Overview竟然教唆情绪低迷的网友“从金门大桥跳下去”。很多人觉得,这只是AI 模型的一次错误判断,不会有人真的会因此而照做。但现实就是比小说电影中的桥段…...

AAA实验配置
一、实验目的 掌握AAA本地认证的配置方法 掌握AAA本地授权的配置方法 掌握AAA维护的方法 1.搭建实验拓扑图 2.完成基础配置: 3.使用ping命令测试两台设备的连通性: 二、配置AAA 1.打开R1:配置AAA方案 这两个方框内的可以改名,…...

Maven高级详解
文章目录 一、分模块开发与设计分模块开发的意义模块拆分原则 分模块开发(模块拆分)创建Maven模块书写模块代码通过maven指令安装模块到本地仓库(install指令) 二、依赖管理依赖传递可选依赖排除依赖可选依赖和排除依赖的区别 三、聚合与继承聚合工程聚合工程开发创建Maven模块…...

C++的算法:模拟算法
模拟算法是一种基于事物运动变化过程的模型,通过计算机程序来模拟实际系统行为或过程的方法。在C++中,模拟算法常用于解决复杂系统或过程的建模与仿真问题。本文将介绍模拟算法的实现思路及实际应用,并通过具体的实例来展示如何在C++中实现模拟算法。 一、模拟算法的实现思…...

Spring boot集成easy excel
Spring boot集成easy excel 一 查看官网 easyexcel官方网站地址为easyexcel官网,官网的信息比较齐全,可以查看官网使用easyexcel的功能。 二 引入依赖 使用easyexcel,首先要引入easyexcel的maven依赖,具体的版本根据你的需求去…...

【开发 | 环境配置】解决 VSCode 编写 eBPF 程序找不到头文件
问题描述: 在使用 vscode 编写 eBPF 程序时,如果不做一些头文件定位的操作,默认情况下头文件总是带有“红色下划线”,并且大部分的变量不会有提示与补全。 在编写代码文件较小时(或者功能需求小时)并不会…...

View->Bitmap缩放到自定义ViewGroup的任意区域
Bitmap缩放和平移 加载一张Bitmap可能为宽高相同的正方形,也可能为宽高不同的矩形缩放方向可以为中心缩放,左上角缩放,右上角缩放,左下角缩放,右下角缩放Bitmap中心缩放,包含了缩放和平移两个操作…...

十种常用数据分析方法
描述性统计分析(Descriptive Statistics) 使用场景:用来总结数据的基本特征,如平均值、中位数、标准差等。 优势:简单易懂,快速总结数据。 劣势:无法深入挖掘数据的潜在关系。 模拟数据及示例…...

拉格朗日插值及牛顿差商方法的实现(Matlab)
一、问题描述 拉格朗日插值及牛顿差商方法的实现。 二、实验目的 掌握拉格朗日插值和牛顿差商方法的原理,能够编写代码实现两种方法;能够分析多项式插值中的误差。 三、实验内容及要求 利用拉格朗日插值及牛顿差商方法估计1980 年的人口,并…...

【InternLM实战营第二期笔记】02:大模型全链路开源体系与趣味demo
文章目录 00 环境设置01 部署一个 chat 小模型作业一 02 Lagent 运行 InternLM2-chat-7B运行一个工具调用解方程 03 浦语灵笔2进阶作业 第二节课程视频与文档: https://www.bilibili.com/video/BV1AH4y1H78d/ https://github.com/InternLM/Tutorial/blob/camp2/hell…...

Postgresql源码(134)优化器针对volatile函数的排序优化分析
相关 《Postgresql源码(133)优化器动态规划生成连接路径的实例分析》 上一篇对路径的生成进行了分析,通过make_one_rel最终拿到了一个带着路径的RelOptInfo。本篇针对带volatile函数的排序场景继续分析subquery_planner的后续流程。 subquer…...