【GitOps系列】如何实施自动化渐进式交付?
文章目录
- 前言
- 自动渐进式交付概述
- 自动渐进式交付准备
- 创建生产环境
- 创建 AnalysisTemplate
- 访问生产环境
- 安装Prometheus
- 配置 Ingress-Nginx 和 ServiceMonitor
- 验证 Ingress-Nginx 指标
- 自动渐进式交付实战
- 自动渐进式交付成功
- 自动渐进式交付失败
- 结语
前言
在实施金丝雀发布的过程中,我们通过 Argo Rollout 的金丝雀策略将发布过程分成了 3 个阶段,每个阶段金丝雀的流量比例都不同,经过一段时间之后,金丝雀环境变成了新的生产环境。实际上,这也是一种渐进式的交付方式,它通过延长发布时间来保护生产环境,降低了发生生产事故的概率。
不过,这种渐进式的交付方式存在一个明显的缺点:无法自动判断金丝雀环境是否出错?
这可能会导致一种情况,当金丝雀环境在接收生产流量之后,它产生了大量的请求错误,在缺少人工介入的情况下,发布仍然按照计划进行,最终导致生产环境故障。
为了解决这个问题,我们希望渐进式交付
变得更加智能,一个好的工程实践方式是: 通过指标分析来自动判断金丝雀发布的质量,如果符合预期,就继续金丝雀步骤;如果不符合预期,则进行回滚。 这样,也就能够避免将金丝雀环境的故障带到生产环境中了,这种分析方法也称之为金丝雀分析
。
自动渐进式交付概述
相比较金丝雀发布,自动渐进式交付增加了
Prometheus、Analysis Template 和 AnalysisRun 对象
。其中,Analysis Template 定义用于分析的模板,AnalysisRun 是分析模板的实例化,Prometheus 是用来存储指标的数据库。
自动渐进式交付流程图:
自动渐进式交付开始时,首先会先将金丝雀环境的流量比例设置为
20%
并持续两分钟,然后将金丝雀环境的流量比例设置为40%
并持续两分钟,然后再以此类推到60%、80%
,直到将金丝雀环境提升为生产环境为止。
从第二个阶段开始,自动金丝雀分析开始运行,在持续运行的过程中,如果金丝雀分析失败,那么金丝雀环境将进行
自动回滚
。这样就达到了自动渐进式交付的目的。
自动渐进式交付准备
创建生产环境
创建用于模拟生产环境的 Rollout 对象、Service 和 Ingress.
cat rollout-with-analysis.yaml
apiVersion: argoproj.io/v1alpha1
kind: Rollout
metadata:name: canary-demo
spec:replicas: 1selector:matchLabels:app: canary-demostrategy:canary:analysis:templates:- templateName: success-ratestartingStep: 2args:- name: traefikvalue: traefik-service#- name: ingress# value: canary-democanaryService: canary-demo-canarystableService: canary-demotrafficRouting:traefik:weightedTraefikServiceName: traefik-service#nginx:# stableIngress: canary-demosteps:- setWeight: 20- pause:duration: 2m- setWeight: 40- pause:duration: 2m- setWeight: 60- pause:duration: 2m- setWeight: 80- pause:duration: 2mtemplate:metadata:labels:app: canary-demospec:containers:- image: argoproj/rollouts-demo:blueimagePullPolicy: Alwaysname: canary-demoports:- containerPort: 8080name: httpprotocol: TCPresources:requests:cpu: 5mmemory: 32Mi
对比金丝雀发布的 Rollout 对象并没有太大差异,只是在 canary 字段下面增加了
analysis
字段,它的作用是指定金丝雀分析的模板,模板内容需单独创建。另外,这里同样使用了argoproj/rollouts-demo:blue
镜像来模拟生产环境。
#创建生产环境和金丝雀环境所需要用到的 Service
cat canary-demo-service-v2.yaml
apiVersion: v1
kind: Service
metadata:name: canary-demolabels:app: canary-demo
spec:ports:- port: 80targetPort: httpprotocol: TCPname: httpselector:app: canary-demo
---
apiVersion: v1
kind: Service
metadata:name: canary-demo-canarylabels:app: canary-demo
spec:ports:- port: 80targetPort: httpprotocol: TCPname: httpselector:app: canary-demo$ kubectl apply -f canary-demo-service-v2.yaml#创建ingress
cat canary-demo-ingress-v2.yaml
apiVersion: traefik.containo.us/v1alpha1
kind: IngressRoute
metadata:name: canary-demolabels:app: canary-demo
spec:entryPoints:- webroutes:- match: Host(`progressive.auto`) && PathPrefix(`/`)kind: Ruleservices:- name: canary-demoport: http
创建 AnalysisTemplate
$ cat analysis-success.yaml
apiVersion: argoproj.io/v1alpha1
kind: AnalysisTemplate
metadata:name: success-rate
spec:args:- name: traefikmetrics:- name: success-rateinterval: 10sfailureLimit: 3successCondition: result[0] > 0.90provider:prometheus:address: http://prometheus-kube-prometheus-prometheus.prometheus:9090query: >+sum(rate(traefik_service_requests_total{traefik="{{args.traefik}}",status!~"[4-5].*"}[60s]))/sum(rate(traefik_service_requests_total{traefik="{{args.traefik}}"}[60s]))
介绍一下 AnalysisTemplate 对象字段的含义:
首先spec.args
字段定义了参数,该参数会在后续的 query 语句中使用,它的值是从 Rollout 对象的canary.analysis.args
字段传递进来的。
spec.metrics
字段定义了自动分析的相关配置。其中,interval 字段为频率,每 10 秒钟执行一次分析。failureLimit 字段代表“连续 3 次失败则金丝雀分析失败”,此时要执行回滚动作。successCondition
字段代表判断条件,这里的 result[0] 是一个表达式,代表的含义是当查询语句的返回值大于 0.90 时,说明本次金丝雀分析成功了。
spec.metrics.provider
字段定义了分析数据来源于 Prometheus,还定义了 Prometheus Server 的连接地址
query
字段是金丝雀分析的查询语句。这条查询语句的含义简单理解为:在 60 秒内 HTTP 状态码不为 4xx 和 5xx 的请求占所有请求的比例。换句话说,当 HTTP 请求成功的比例大于 0.90 时,代表一次金丝雀分析成功。
访问生产环境
http://progressive.auto/
安装Prometheus
由于金丝雀分析需要用到 Prometheus 来查询指标,可以通过helm安装或者用自己本地环境的Prometheus也可以。
$ helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
$ helm upgrade prometheus prometheus-community/kube-prometheus-stack \
--namespace prometheus --create-namespace --install \
--set prometheus.prometheusSpec.podMonitorSelectorNilUsesHelmValues=false \
--set prometheus.prometheusSpec.serviceMonitorSelectorNilUsesHelmValues=falseRelease "prometheus" does not exist. Installing it now.
......
STATUS: deployed--set 对安装参数进行了配置,这是为了让它后续能够顺利获取到 Ingress-Nginx 的监控指标
配置 Ingress-Nginx 和 ServiceMonitor
为了让 Prometheus 能够顺利地获取到 HTTP 请求指标,我们需要打开 Ingress-Nginx Metric 指标端口。
$ kubectl patch deployment ingress-nginx-controller -n ingress-nginx --type='json' -p='[{"op": "add", "path": "/spec/template/spec/containers/0/ports/-", "value": {"name": "prometheus","containerPort":10254}}]'
deployment.apps/ingress-nginx-controller patched然后,为 Ingrss-Nginx Service 添加指标端口。
$ kubectl patch service ingress-nginx-controller -n ingress-nginx --type='json' -p='[{"op": "add", "path": "/spec/ports/-", "value": {"name": "prometheus","port":10254,"targetPort":"prometheus"}}]'
service/ingress-nginx-controller patched用Traefik的话开启metrics即可- containerPort: 9101hostPort: 9101name: metrics
创建 ServiceMonitor 对象,它可以为 Prometheus 配置指标获取的策略
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:name: nginx-ingress-controller-metricsnamespace: prometheuslabels:app: nginx-ingressrelease: prometheus-operator
spec:endpoints:- interval: 10sport: prometheusselector:matchLabels:app.kubernetes.io/instance: ingress-nginxapp.kubernetes.io/name: ingress-nginxnamespaceSelector:matchNames:- ingress-nginx如果你使用的是Traefik,可以用以下配置:
cat servicemonitor.yaml
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:name: traefik-ingress-controllernamespace: kubesphere-monitoring-systemlabels:app: traefik
spec:endpoints:- interval: 10sport: metricsselector:matchLabels:app: traefiknamespaceSelector:matchNames:- traefik
验证 Ingress-Nginx 指标
测试Prometheus 是否已经成功获取到了 Ingress-Nginx 指标,这将决定自动金丝雀分析是否能成功获取到数据,博主此处用的是
Traefik
自动渐进式交付实战
此次实战过程中,会按照这张流程图分别进行两个实验。
- 自动渐进式交付成功(图中①号链路)
- 自动渐进式交付失败(图中②号链路)
自动渐进式交付成功
验证的话只要更新 Rollout 对象的镜像版本即可。两种方式,第一直接编辑 Rollout 对象并通过 kubectl apply 的方法来更新镜像版本。第二种通过
Argo Rollout kubectl
插件来更新镜像。
kubectl argo rollouts set image canary-demo canary-demo=argoproj/rollouts-demo:green
rollout "canary-demo" image updated
过一会儿看到绿色方块开始出现,流量占比约为 20%,如下图所示:
也可以打开Argo Rollout 控制台观察自动渐进式交付过程。可以看到目前处在 20% 金丝雀流量的下一阶段,也就是暂停 2 分钟的阶段。
2 分钟后,将进入到 40% 金丝雀流量阶段,从这个阶段开始,自动金丝雀分析开始工作,直到最后金丝雀发布完成,金丝雀环境提升为了生产环境,这时自动分析也完成了.
自动渐进式交付失败
上述演示中,由于应用返回的 HTTP 状态码都是 200 ,所以金丝雀分析自然是会成功的。
接下来,我们来尝试进行自动渐进式交付失败的实验。
经过了自动渐进式交付成功的实验之后,当前生产环境中的镜像为argoproj/rollouts-demo:green
,我们继续使用Argo Rollout kubectl
插件来更新镜像,并将镜像版本修改为yellow
版本。
kubectl argo rollouts set image canary-demo canary-demo=argoproj/rollouts-demo:yellow
rollout "canary-demo" image updated
接下来,我们让应用返回错误的 HTTP 状态码。你可以滑动界面上的 ERROR 滑动块,将错误率设置为 50%
现在,你会在黄色方块中看到带有红色描边的方块,这代表本次请求返回的 HTTP 状态码不等于 200,说明 我们成功控制了一部分请求返回错误。
2 分钟后,金丝雀发布会进入到 40% 流量的阶段,此时自动分析将开始进行。可以通过 Argo Rollout 控制台实时观察。
等待一段时间后,金丝雀分析将失败,是预期内的!
此时,Argo Rollout 将执行自动回滚操作,这时候重新返回http://progressive.auto
打开应用,你会看到黄色方块的流量消失,所有请求被绿色方块取代,说明已经完成回滚了,如下图所示:
到这里,一次完整的渐进式交付失败实验就完成了。
结语
跟之前金丝雀发布不同的是:渐进式交付在金丝雀发布的过程中加入了自动金丝雀分析,它可以验证新版本在生产环境中的表现,而这是单纯的金丝雀发布所无法实现的。借助渐进式交付,我们可以在发布过程通过指标实时分析金丝雀环境,兼顾发布的安全性和效率。
值得注意的是,为了能够查询到示例应用的 HTTP 指标,开启了
Ingress-Nginx/Traefik-controller
的指标开关,这样所有经过 Ingress-Nginx 的流量都会被记录下来,结合Prometheus ServiceMonitor
实现了 HTTP 请求指标的采集。
此外,为了让 ArgoCD 在渐进式交付时顺利运行金丝雀分析,我们还需要创建
AnalysisTemplate
对象,它实际上是 PromQL 编写的查询语句,ArgoCD 在交付过程中会用这条语句去 Prometheus 查询,并将返回的结果和预定义的阈值进行对比,以此控制渐进式交付应该继续进行还是回滚。
在实际的业务场景中,如果希望验证多个维度的指标,你可以创建多个
AnalysisTemplate
并将它配置到 Rollout 对象中,进一步提高分析的可靠性。另外,还可以在金丝雀发布的steps
阶段里配置“内联”的分析步骤,比如在金丝雀环境 20% 和 40% 流量阶段的下一阶段分别运行不同的金丝雀分析,具体参考 https://argoproj.github.io/argo-rollouts/features/analysis/
相关文章:

【GitOps系列】如何实施自动化渐进式交付?
文章目录 前言自动渐进式交付概述自动渐进式交付准备创建生产环境创建 AnalysisTemplate访问生产环境安装Prometheus配置 Ingress-Nginx 和 ServiceMonitor验证 Ingress-Nginx 指标 自动渐进式交付实战自动渐进式交付成功自动渐进式交付失败 结语 前言 在实施金丝雀发布的过程中…...

【网络】网络层(IP协议)
目录 一、基本概念 二、协议头格式 三、网段划分 四、特殊的IP地址 五、IP地址的数量限制 六、私有IP地址和公网IP地址 七、路由 一、基本概念 IP协议:提供一种能力, 将数据从A主机送到B主机,(TCP协议:确保IP协议…...

Unity数字可视化学校_昼夜(一)
maya2022:链接:https://pan.baidu.com/s/1cvB438UKsv_tU37NsOaNow 3dmax软件合集:百度网盘 请输入提取码 1180 1、 2、unity3d 导入插件 : (1)UniStorm - Volumetric Clouds Sky 5.3.0.unitypackage (天气&…...

QWidget样式
1、设置边框样式: QWidget {font-family:Microsoft YaHei UI;background:#ffffff;/*border:3px solid rgba(207, 209, 208, 170);设置整体边框*/border-bottom: 3px solid rgba(207, 209, 208, 170);/*设置底部边框*/border-top: 3px solid rgba(207, 209, 208, 1…...

TypeScript基础学习
目录 一、安装 1、下载国内镜像 2、安装 3、查看安装情况 4、使用例子 二、变量声明 1、规则 2、声明的四种方式 3、注意 4、类型断言 5、类型推断 6、变量作用域 三、基础类型(共11种) 1、Any 类型 2、Null 和 Undefined 3、never 类型…...

AOF日志:宕机了,Redis如何避免数据丢失
当服务器宕机后,数据全部丢失:我们很容易想到的一个解决方案是从后端数据库恢复这些数据,但这种方式存在两个问题:一是,需要频繁访问数据库,会给数据库带来巨大的压力;二是,这些数据…...

【编程】典型题目:寻找数组第K大数(四种方法对比)
【编程】典型题目:寻找数组第K大数(四种方法对比) 文章目录 【编程】典型题目:寻找数组第K大数(四种方法对比)1. 题目2. 题解2.1 方法一:全局排序(粗暴)2.2 方法二&#…...
Vue3 对比 Vue2 的变化
Vue3 对比 Vue2 的变化 1.源码组织方式变化:使用 TS 重写 2.支持 compositionAPI,基于函数的 api,更灵活组织组件逻辑(Vue2 使用 options api) 3.响应式系统提升:Vue3 的响应式数据原理改成了 Proxy,可以监听动态新增删…...

harbor搭建
回到目录 Harbor 是 VMware 公司开源的企业级 Docker Registry 项目,其目标是帮助用户迅速搭建一个企业级的 Docker Registry 服务 通俗的讲,harbor是一个私人镜像存储服务器 1 下载安装 进入官网,下载一个离线安装包,harbor官网下载 这…...
机器学习05-数据准备(利用 scikit-learn基于Pima Indian数据集作数据预处理)
机器学习的数据准备是指在将数据用于机器学习算法之前,对原始数据进行预处理、清洗和转换的过程。数据准备是机器学习中非常重要的一步,它直接影响了模型的性能和预测结果的准确性 以下是机器学习数据准备的一些常见步骤: 数据收集ÿ…...

【枚举+trie+dfs】CF514 C
Problem - 514C - Codeforces 题意: 思路: 其实是trie上dfs的板题 先把字符串插入到字典树中 对于每次询问,都去字典树上dfs 注意到字符集只有3,因此如果发现有不同的字符,去枚举新的字符 Code: #in…...

【计算机视觉】BLIP:统一理解和生成的自举多模态模型
文章目录 一、导读二、背景和动机三、方法3.1 模型架构3.2 预训练目标3.3 BLIP 高效率利用噪声网络数据的方法:CapFilt 四、实验4.1 实验结果4.2 各个下游任务 BLIP 与其他 VLP 模型的对比 一、导读 BLIP 是一种多模态 Transformer 模型,主要针对以往的…...

【Ansible】Ansible自动化运维工具之playbook剧本搭建LNMP架构
LNMP 一、playbooks 分布式部署 LNMP1. 环境配置2. 安装 ansble3. 安装 nginx3.1 准备 nginx 相关文件3.2 编写 lnmp.yaml 的 nginx 部分3.3 测试 nginx4. 安装 mysql4.1 准备 mysql 相关文件4.2 编写 lnmp.yaml 的 mysql 部分4.3 测试 mysql5. 安装 php5.1 编写 lnmp.yaml 的 …...

Spring中的事务
一、为什么需要事务? 事务定义 将一组操作封装成一个执行单元(封装到一起),要么全部成功,要么全部失败。 为什么要用事务? 比如转账分为两个操作: 第一步操作: A 账户 -100 元…...

38 非法地址访问的 segment fault 的调试
前言 在前面一篇文章 coredump 的生成和使用 中, 我们看到 "测试用例2 - 非法地址访问" 产生了一个 segment fault 我们这里 就来调试一下 这个 segment fault 是怎么回事 测试用例 #include "stdio.h"int main(int argc, char** argv) {int x 2; i…...
c++中c_str()的用法详解
c_str()就是将C的string转化为C的字符串数组!!! C中没有string,所以函数c_str()就是将C的string转化为C的字符串数组,c_str()生成一个const char *指针,指向字符串的首地址。 下文通过3段简单的代码比较分析…...

谈谈关于新能源汽车的话题
新能源汽车是指使用新型能源替代传统燃油的汽车,主要包括纯电动汽车、插电式混合动力汽车和燃料电池汽车等。随着环境污染和能源安全问题的日益突出,新能源汽车已经成为全球汽车行业的发展趋势。下面我们来谈谈关于新能源汽车的话题。 首先,新…...
EventBus 开源库学习(二)
整体流程阅读 EventBus在使用的时候基本分为以下几步: 1、注册订阅者 EventBus.getDefault().register(this);2、订阅者解注册,否者会导致内存泄漏 EventBus.getDefault().unregister(this);3、在订阅者中编写注解为Subscribe的事件处理函数 Subscri…...
4_Apollo4BlueLite电源管理
1.Cortex-M4 Power Modes Apollo4BlueLite支持以下4种功耗模式: ▪ High Performance Active (not a differentiated power mode for the Cortex-M4) ▪ Active ▪ Sleep ▪ Deep Sleep (1)High Performance Mode 高性能模式不是arm定…...

Pytorch入门学习——快速搭建神经网络、优化器、梯度计算
我的代码可以在我的Github找到 GIthub地址 https://github.com/QinghongShao-sqh/Pytorch_Study 因为最近有同学问我如何Nerf入门,这里就简单给出一些我的建议: (1)基本的pytorch,机器学习,深度学习知识&a…...

Docker 离线安装指南
参考文章 1、确认操作系统类型及内核版本 Docker依赖于Linux内核的一些特性,不同版本的Docker对内核版本有不同要求。例如,Docker 17.06及之后的版本通常需要Linux内核3.10及以上版本,Docker17.09及更高版本对应Linux内核4.9.x及更高版本。…...

理解 MCP 工作流:使用 Ollama 和 LangChain 构建本地 MCP 客户端
🌟 什么是 MCP? 模型控制协议 (MCP) 是一种创新的协议,旨在无缝连接 AI 模型与应用程序。 MCP 是一个开源协议,它标准化了我们的 LLM 应用程序连接所需工具和数据源并与之协作的方式。 可以把它想象成你的 AI 模型 和想要使用它…...
高防服务器能够抵御哪些网络攻击呢?
高防服务器作为一种有着高度防御能力的服务器,可以帮助网站应对分布式拒绝服务攻击,有效识别和清理一些恶意的网络流量,为用户提供安全且稳定的网络环境,那么,高防服务器一般都可以抵御哪些网络攻击呢?下面…...
浅谈不同二分算法的查找情况
二分算法原理比较简单,但是实际的算法模板却有很多,这一切都源于二分查找问题中的复杂情况和二分算法的边界处理,以下是博主对一些二分算法查找的情况分析。 需要说明的是,以下二分算法都是基于有序序列为升序有序的情况…...

OPENCV形态学基础之二腐蚀
一.腐蚀的原理 (图1) 数学表达式:dst(x,y) erode(src(x,y)) min(x,y)src(xx,yy) 腐蚀也是图像形态学的基本功能之一,腐蚀跟膨胀属于反向操作,膨胀是把图像图像变大,而腐蚀就是把图像变小。腐蚀后的图像变小变暗淡。 腐蚀…...

Netty从入门到进阶(二)
二、Netty入门 1. 概述 1.1 Netty是什么 Netty is an asynchronous event-driven network application framework for rapid development of maintainable high performance protocol servers & clients. Netty是一个异步的、基于事件驱动的网络应用框架,用于…...
OCR MLLM Evaluation
为什么需要评测体系?——背景与矛盾 能干的事: 看清楚发票、身份证上的字(准确率>90%),速度飞快(眨眼间完成)。干不了的事: 碰到复杂表格(合并单元…...
Electron简介(附电子书学习资料)
一、什么是Electron? Electron 是一个由 GitHub 开发的 开源框架,允许开发者使用 Web技术(HTML、CSS、JavaScript) 构建跨平台的桌面应用程序(Windows、macOS、Linux)。它将 Chromium浏览器内核 和 Node.j…...

构建Docker镜像的Dockerfile文件详解
文章目录 前言Dockerfile 案例docker build1. 基本构建2. 指定 Dockerfile 路径3. 设置构建时变量4. 不使用缓存5. 删除中间容器6. 拉取最新基础镜像7. 静默输出完整示例 docker runDockerFile 入门syntax指定构造器FROM基础镜像RUN命令注释COPY复制ENV设置环境变量EXPOSE暴露端…...

使用homeassistant 插件将tasmota 接入到米家
我写一个一个 将本地tasmoat的的设备同通过ha集成到小爱同学的功能,利用了巴法接入小爱的功能,将本地mqtt转发给巴法以实现小爱控制的功能,前提条件。1需要tasmota 设备, 2.在本地搭建了mqtt服务可, 3.搭建了ha 4.在h…...