5分钟搞懂分布式可观测性
可观测性是大规模分布式(微服务)系统的必要组件,没有可观测系统的支持,监控和调试分布式系统将是一场灾难。本文讨论了可观测系统的主要功能,并基于流行的开源工具搭建了一套可观测系统架构。原文: A Primer on Distributed Systems Observability

在这篇文章中,我们将探索什么是可观测性和监测系统,讨论怎样构建好的可观测性平台以及可观测性子系统可能的架构。
过去几年,系统体系架构的复杂性急剧增加,特别是基于分布式、微服务的体系架构。大多数情况下,调试和监控日志非常困难,且效率低下,特别是当我们有数百甚至数千个微服务或模块时,更是一场灾难。本文将介绍可观测性和监测系统的基本概念,讨论好的可观察性平台模式,以及可观察性子系统的可能架构。
可观测性(Observability) vs.监测性(Monitoring)
在进入主题之前,我们先介绍一下什么是可观测性,包括哪些组件,以及与监测有什么不同。可观测性允许我们在不知道细节或领域模型的情况下对系统中发生的事情有一个清晰的概述。此外,可观测性可以有效提供以下信息:
-
整个系统或者单一服务的故障或中断 -
常规系统和服务的行为 -
整体安全性和告警
知道了可观测系统应该覆盖什么功能,下面看一下应该收集哪些信息来正确设计可观测性监测平台。
-
指标(Metrics) —— 收集数据了解应用程序和基础设施状态,例如延迟、CPU、内存和存储的使用情况。 -
分布式跟踪(Distributed traces) —— 允许我们调查从一个服务到另一个服务的事件或分发流。 -
日志(Logs) —— 带有时间戳的消息,包含有关应用程序或服务级别错误、异常以及常规信息。 -
告警(Alerting) —— 当发生停机问题,或者某个或某几个服务出现问题时,将通过电子邮件、短信、聊天或电话向运维人员发出告警,通知这些问题,从而能够快速采取行动来解决问题。 -
可用性(Availability) —— 确保所有服务都启动并运行。监测平台向某些服务或组件(HTTP API端点)发送探测消息,以检查是否响应。如果没有响应,那么可观测性系统将生成告警。
此外,还有一些可观测性监测平台可能包括用户体验监测,如热图和用户操作记录等。
可观测性和监测遵循相同的原则和模式,主要依赖于工具集,所以在我看来,两者之间的区别是出于营销目的。可观测性与监测有何不同并没有明确定义,所有定义都是不同的高级定义。
可观测性模式
所有基于微服务的复杂系统都有建议和模式,使我们能够建立可靠的系统,而不需要重新发明轮子。可观测性系统也有一些基本的模式,下面几节讨论五个最重要的模式。
日志聚合模式
在分布式系统中,日志记录可能很困难。每个微服务都会产生大量日志,查找和分析每个微服务的错误或日志消息是一场噩梦。因此,日志聚合模式可以提供帮助。它包含作为中央日志存储的中央日志聚合服务,该服务提供标记、索引、分类、搜索和分析所有日志的选项。有一些日志聚合平台案例,如Grafana Loki、Splunk、Fluentd和ELK技术栈。

运行状况检查模式
如果有多个服务或微服务,当然需要知道它们的当前状态。我们可以通过日志聚合服务检查日志,但是服务有可能正在启动,还没有产生日志。此外,当服务失败时,可能会出现日志不可用的情况。
在这些案例中,需要实现运行状况检查模式。我们只需要在服务中创建一个运行状况(或ping)端点,并指示日志聚合系统检查和收集每个服务的状态,还可以设置服务不可用时的通知或警报,这样可以节省大量时间来识别哪些服务启动失败或关闭。

分布式跟踪模式
想象一下这样的场景: 在一个或几个微服务中有多个组件、模块和库,我们需要检查组件执行的整个历史或者将请求发送到某个微服务,并且需要检查从一个服务组件列表到另一个服务组件列表的执行历史。
为此,需要一些分布式系统来收集和分析所有跟踪数据。一些开源服务可以帮助我们实现这一点,例如Jaeger、OpenTelemetry和OpenCensus。请查看Istio文档,里面有分布式跟踪的演示示例。

应用指标模式
具有分布式日志记录和跟踪是必不可少的,然而,如果没有应用程序指标,可观测性系统就还不完整。我们可能需要收集底层和应用层的指标,比如:
-
CPU -
内存 -
硬盘使用情况 -
服务请求/响应时间 -
时延
收集这些指标不仅可以帮助我们了解需要的基础设施规模,还可以帮助我们节省在云供应商上的资金。此外还可以帮助我们快速识别由于缺少CPU或内存资源而导致的中断。
下面是一个通过代理收集指标的服务示例,代理聚合遥测数据并将其发送到可观测平台。

可观测性服务网格
服务网格不仅为微服务体系架构提供了中央管理控制平面,而且还提供了单一可观测子系统。
我们可以使用现成的工具来收集指标、分布式跟踪和日志,而不用安装单独的工具。例如,Azure提供了集成的服务网格附加组件[1],可以在一分钟内设置好。
或者还可以选择Istio服务网格[2],它包含了可观测性子系统所需的所有特性。此外,还可以为控制平面[3]收集指标、日志和跟踪。
例如,当我们设置Grafana、Loki或其他工具时,也需要为它们启用可观测性,因为它们也可能在工作时或在部署过程中失败,而我们需要排除这种故障。

微服务的可观测性架构
下面会用一个智能供暖系统作为可观测性架构的例子。智能供暖是每个家庭(甚至是智能家居)的重要组成部分,可以让业主:
-
通过应用程序手动管理公寓的温度。 -
根据时间和内外温度自动调节温度。
此外,系统还可以执行以下操作来帮助业主:
-
当人们即将到达公寓时,打开/关闭暖气。 -
通知、提醒或只是询问是否有需要人类注意的事情或是否有错误。

在图6中,可以看到一个基于微服务模式的架构,它工作的很好,代表了所有系统组件,包含主系统和可观测性子系统。每个微服务都基于Azure Functions,并部署在Azure Kubernetes集群上。我们使用KEDA框架将功能部署到Kubernetes。KEDA是开源的、基于Kubernetes的事件自动扩容框架,允许我们自动部署和扩展我微服务功能。另外,KEDA还提供了将功能封装到Docker容器的工具。如果没有大规模负载,也不需要扩容,也可以不使用KEDA和Kubernetes,而是直接部署微服务功能。该架构包含以下代表主要子系统的组件:
-
Azure作为微服务运行 -
Azure服务总线(或Azure IoT Hub)作为微服务用于通信的中央消息总线 -
Azure API为移动/桌面应用提供API
这里的关键部分是一个可观测子系统,包含一组组件和工具,下面的表格介绍了所有组件:
可观测性系统组件
工具 | 描述 |
---|---|
Prometheus | Prometheus是用于收集和存储作为时间序列数据的日志和遥测的开源框架。此外,它还提供告警逻辑。Prometheus代理或sidecar与每个微服务集成,以收集所有日志、遥测和追踪数据。 |
Grafana Loki | Grafana Loki是一个基于标签的开源分布式日志聚合服务。它不对日志进行索引,而是为每个日志域、子系统或类别分配标签。 |
Jaeger | Jaeger是用于在基于微服务的系统中进行分布式追踪的开源框架,还提供搜索和数据可视化选项。Jaeger的一些高级用例包括: 1. 性能和延迟优化 2. 分布式事务监控 3. 服务依赖分析 4. 分布式上下文传播 5. 根因分析 |
Grafana (Azure托管的Grafana) | Grafana是一个开源数据可视化和分析系统,允许从不同来源收集跟踪、日志和其他遥测数据。我们使用Grafana作为主要的UI"控制平面"来构建和可视化来自Prometheus、Loki和Grafana Loki数据源的仪表板。 |

值得一提的是,我们不一定需要添加OTel,因为它可能会给系统增加额外的复杂性。上图中可以看到我们需要将所有日志从Prometheus转发到OTel。此外,也可以使用Jaeger作为OTel的后端服务。Loki和Grafana将从OTel获得数据。
结论
在本文中,我们揭开了可观测性和监控系统的神秘面纱,并介绍了具有可观测性子系统的微服务架构示例,这些子系统不仅可以用于Azure,也可以用于其他云供应商。此外,我们还定义了监控和可观测性之间的主要区别,并介绍了基本的监控和可观测性模式及工具集。开发人员和架构师应该理解可观测性/监控平台是一种允许团队主动调试系统的工具或技术解决方案。
你好,我是俞凡,在Motorola做过研发,现在在Mavenir做技术工作,对通信、网络、后端架构、云原生、DevOps、CICD、区块链、AI等技术始终保持着浓厚的兴趣,平时喜欢阅读、思考,相信持续学习、终身成长,欢迎一起交流学习。
微信公众号:DeepNoMind
参考资料
Open Service Mesh AKS add-on: https://learn.microsoft.com/en-us/azure/aks/open-service-mesh-about
[2]Istio Observability: https://istio.io/latest/docs/concepts/observability
[3]Istio Control plane metrics: https://istio.io/latest/docs/concepts/observability/#control-plane-metrics
本文由 mdnice 多平台发布
相关文章:

5分钟搞懂分布式可观测性
可观测性是大规模分布式(微服务)系统的必要组件,没有可观测系统的支持,监控和调试分布式系统将是一场灾难。本文讨论了可观测系统的主要功能,并基于流行的开源工具搭建了一套可观测系统架构。原文: A Primer on Distributed Systems Observab…...

桥梁结构健康监测系统落地方案
桥梁结构健康监测的意义是多方面的。首先,它可以实时采集桥梁的结构数据,并对其进行处理和分析,以确定结构损伤的位置、评估桥梁的健康状况,并预测承载力的发展趋势。这有助于及时发现桥梁的结构问题和潜在风险,为采取…...
hive和presto的求数组长度函数区别及注意事项
1、任务 获取邮箱字符串’后字符串 ,求长度 2、hive & spark-sql 求数组长度的函数 size hive & spark-sql 求数组长度的函数 sizeselect size(split(email, )),split(email, ),split(email, )[0],split(email, )[1] FROM (select "jack126.com"…...
Kotlin Lambda表达式与标准库中的高阶函数
在Kotlin中,Lambda表达式和标准库中的高阶函数为我们提供了一种简洁而强大的方式来处理集合和执行各种操作。本篇博客将介绍Lambda表达式的基本概念,并结合标准库中的高阶函数示例,展示它们的用法和功能。 Lambda表达式的基本概念 Lambda表…...

【JavaEE初阶】 CAS详解
文章目录 🌲什么是 CAS🚩CAS伪代码 🎋CAS 是怎么实现的🌳CAS的应用🚩实现原子类🚩实现自旋锁 🎄CAS 的 ABA 问题🚩什么是 ABA 问题🚩ABA 问题引来的 BUG🚩解决…...
Docker镜像制作
目录 Dockfile是什么 构建镜像的三个步骤 dockerfile内容基础知识 docker执行一个Dockerfile脚本的大致流程 Dockerfile指令 FROM MAINTAINER RUN EXPOSE WORKDIR ENV ADD COPY VOLUME USER ONBUILD CMD ENTRYPOINT CMD和ENTRYPOINT区别 构建dockerfile Do…...

v-on 可以监听多个方法吗?
目录 编辑 前言:Vue 3 中的 v-on 指令 详解:v-on 指令的基本概念 用法:v-on 指令监听多个方法 解析:v-on 指令的优势和局限性 优势 局限性 **v-on 指令的最佳实践** - **适度监听**: - **方法抽离**&#x…...

【Docker】Docker Compose的使用
我们知道使用一个Dockerfile模板文件,可以让用户很方便的定义⼀个单独的应用容器。然而,在日常工作中,经常会碰到需要多个容器相互配合来完成某项任务的情况。 例如要实现一个Web项目,除了Web服务容器本身,往往还需要…...

2023年中国调速器产量、销量及市场规模分析[图]
调速器行业是指生产、销售和维修各种调速器设备的行业。调速器是一种能够改变机械传动系统输出转速的装置,通过调整输入和输出的转速比来实现转速调节的功能。 调速器行业分类 资料来源:共研产业咨询(共研网) 随着工业自动化程度…...

深入了解JVM调优:解锁Java应用程序性能的秘诀
文章目录 🍊 JVM调优🎉 增大Eden 空间大小🎉 如果MinorGC 频繁,且容易引发 Full GC📝 S1 区大小 < MGC 存活的对象大小,对象的年龄才1岁📝 相同年龄的对象所占总空间大小>s1区空间大小的一…...

[java进阶]——线程池的使用,自定义线程池
🌈键盘敲烂,年薪30万🌈 目录 一、线程池的存在意义 二、线程池的使用 2.1线程池的核心原理 2.2线程池的代码实现 三、自定义线程池 3.1线程池的参数详解 3.2线程池的执行原理 3.3灵魂两问 3.4线程池多大合适 3.5拒绝策略 一、线程池…...

Linux 进程切换与命令行参数
假设进程1现在要切走了,切入进程2.那进程1就要先保存数据,方便以后恢复, 然后进程2再切走,进程1再把数据还原: 操作系统又分为实时操作系统和分时操作系统。 实时操作系统是是给操作系统一个进程,操作系统…...

Python基础入门例程6-NP6 牛牛的小数输出
目录 描述 输入描述: 输出描述: 示例1 解答: 说明: 描述 牛牛正在学习Python的输出,他想要使用print函数控制小数的位数,你能帮助它把所有读入的数据都保留两位小数输出吗? 输入描述&a…...
传奇游戏常见问题解决办法
GEE合区出现错误常规解决方案 GEE合区出现错误大部分因数据库损坏导致的合区报错,如果合区提示内存不足,更新64位合区,使用64位合区工具在服务器上进行合并,合区需要将2个区数据大部分提取到内存中,32位合区工具支持内…...
2310D的dll问题
原文 我正在开发一个游戏引擎,偶然发现了一些空针问题. 考虑此简单程序: class Test {void doIt(){} } void main() {Test t;t.doIt(); }它编译,然后在Linux上使用DMD时,用11信号干掉了. 如果使用Java,甚至不会构建该程序,因为它会失败,说明从未初化它. 但我不关心分析器,我宁…...

包管理工具
代码共享方案 放到npm仓库,下载到本地放到node_modules npm配置文件 必须填写的属性:name、version name是项目的名称; version是当前项目的版本号; description是描述信息,很多时候是作为项目的基本描述;…...

Qt第六十五章:自定义菜单栏的隐藏、弹出
目录 一、效果图 二、qtDesigner 三、ui文件如下: 四、代码 一、效果图 二、qtDesigner 原理是利用属性动画来控制QFrame的minimumWidth属性。 ①先拖出相应的控件 ②布局一下 ③填上一些样式 相关QSS background-color: rgb(238, 242, 255); border:2px sol…...
element table中嵌套el-select 无法选择问题
<el-table-column align"left" label"姓名" show-overflow-tooltip :key"tableKey"><template slot-scope"scope"><el-select placeholder"请选择" :disabled"!saveButton" v-model"scope.ro…...

2.6.C++项目:网络版五子棋对战之数据管理模块-游戏房间管理模块的设计
文章目录 一、意义二、功能三、作用四、游戏房间类基本框架五、游戏房间管理类基本框架七、游戏房间类代码八、游戏房间管理类代码 一、意义 对匹配成功的玩家创建房间,建立起一个小范围的玩家之间的关联关系! 房间里一个玩家产生的动作将会广播给房间里…...

计算机视觉中的数据预处理与模型训练技巧总结
计算机视觉主要问题有图像分类、目标检测和图像分割等。针对图像分类任务,提升准确率的方法路线有两条,一个是模型的修改,另一个是各种数据处理和训练的技巧(tricks)。图像分类中的各种技巧对于目标检测、图像分割等任务也有很好的作用&#…...

stm32G473的flash模式是单bank还是双bank?
今天突然有人stm32G473的flash模式是单bank还是双bank?由于时间太久,我真忘记了。搜搜发现,还真有人和我一样。见下面的链接:https://shequ.stmicroelectronics.cn/forum.php?modviewthread&tid644563 根据STM32G4系列参考手…...
树莓派超全系列教程文档--(62)使用rpicam-app通过网络流式传输视频
使用rpicam-app通过网络流式传输视频 使用 rpicam-app 通过网络流式传输视频UDPTCPRTSPlibavGStreamerRTPlibcamerasrc GStreamer 元素 文章来源: http://raspberry.dns8844.cn/documentation 原文网址 使用 rpicam-app 通过网络流式传输视频 本节介绍来自 rpica…...
【C语言练习】080. 使用C语言实现简单的数据库操作
080. 使用C语言实现简单的数据库操作 080. 使用C语言实现简单的数据库操作使用原生APIODBC接口第三方库ORM框架文件模拟1. 安装SQLite2. 示例代码:使用SQLite创建数据库、表和插入数据3. 编译和运行4. 示例运行输出:5. 注意事项6. 总结080. 使用C语言实现简单的数据库操作 在…...
聊一聊接口测试的意义有哪些?
目录 一、隔离性 & 早期测试 二、保障系统集成质量 三、验证业务逻辑的核心层 四、提升测试效率与覆盖度 五、系统稳定性的守护者 六、驱动团队协作与契约管理 七、性能与扩展性的前置评估 八、持续交付的核心支撑 接口测试的意义可以从四个维度展开,首…...

JVM虚拟机:内存结构、垃圾回收、性能优化
1、JVM虚拟机的简介 Java 虚拟机(Java Virtual Machine 简称:JVM)是运行所有 Java 程序的抽象计算机,是 Java 语言的运行环境,实现了 Java 程序的跨平台特性。JVM 屏蔽了与具体操作系统平台相关的信息,使得 Java 程序只需生成在 JVM 上运行的目标代码(字节码),就可以…...

【C++进阶篇】智能指针
C内存管理终极指南:智能指针从入门到源码剖析 一. 智能指针1.1 auto_ptr1.2 unique_ptr1.3 shared_ptr1.4 make_shared 二. 原理三. shared_ptr循环引用问题三. 线程安全问题四. 内存泄漏4.1 什么是内存泄漏4.2 危害4.3 避免内存泄漏 五. 最后 一. 智能指针 智能指…...
关于uniapp展示PDF的解决方案
在 UniApp 的 H5 环境中使用 pdf-vue3 组件可以实现完整的 PDF 预览功能。以下是详细实现步骤和注意事项: 一、安装依赖 安装 pdf-vue3 和 PDF.js 核心库: npm install pdf-vue3 pdfjs-dist二、基本使用示例 <template><view class"con…...

Chromium 136 编译指南 Windows篇:depot_tools 配置与源码获取(二)
引言 工欲善其事,必先利其器。在完成了 Visual Studio 2022 和 Windows SDK 的安装后,我们即将接触到 Chromium 开发生态中最核心的工具——depot_tools。这个由 Google 精心打造的工具集,就像是连接开发者与 Chromium 庞大代码库的智能桥梁…...
Python常用模块:time、os、shutil与flask初探
一、Flask初探 & PyCharm终端配置 目的: 快速搭建小型Web服务器以提供数据。 工具: 第三方Web框架 Flask (需 pip install flask 安装)。 安装 Flask: 建议: 使用 PyCharm 内置的 Terminal (模拟命令行) 进行安装,避免频繁切换。 PyCharm Terminal 配置建议: 打开 Py…...

【PX4飞控】mavros gps相关话题分析,经纬度海拔获取方法,卫星数锁定状态获取方法
使用 ROS1-Noetic 和 mavros v1.20.1, 携带经纬度海拔的话题主要有三个: /mavros/global_position/raw/fix/mavros/gpsstatus/gps1/raw/mavros/global_position/global 查看 mavros 源码,来分析他们的发布过程。发现前两个话题都对应了同一…...