阿里云运维第一步(监控):开箱即用的监控
作者:仲阳
这是云的时代,现在云计算已经在各行各业广泛的应用。但是上云对于大多数客户来说,依然有很大的学习成本,如下图仅是阿里云都有几百款产品,怎么选择?怎么用?对于客户来说都是问题。“用好云、管好云”不仅仅是口号,还是我们的目标。

来自于:https://developer.aliyun.com/ebook/8326?spm=a2c6h.26392470.ebook-read.3.1c186341TEtt9B《阿里云产品手册 2024 版》
“兵马未动、粮草先行”, 今天我们就针对阿里云的上云新用户,如何开启自己的可观测历程,做一个简单的介绍。
认识可观测的分层

在可观测的领域里面,技术栈主要分为 metric、trace、log 三个方向,从业务分成上我们的观点主要分为体验、业务、应用和资源。这个金字塔越上面的越贴近用户的真实体感,比如用户用了 100 台服务器,其中一台服务器宕机,不一定能影响用户,但如果是从网络监控上发现问题,大概率用户已经受影响。反过来讲,金字塔越下面,发现的问题越具体、越能快速解决,还是上面这个例子,ECS 有问题可以重启、扩容等处理方式,但用户体验服务不可用的原因就有很多,需要更多时间去确定问题。
言归正传,今天我们希望跟一些刚刚涉猎阿里云的客户可以快速构建一套完整的云资源监控解决方案。在此基础上随着云应用的深入,有更多可观测解决方案等着你。
阿里云云监控的初体验
阿里云云监控旨在解决可观测领域的各种问题。基石就是下面这三个技术栈,在这个基础上又分为 Dashboard、Alert、API 等多用应用方式。云监控云服务监控主要针对的是 Metrics on Cloud Resource 这个场景。

首先我们要先进入云监控产品页,可以看到有五大功能模块——云资源监控、网络分析与监控、可视化 Dashboard、告警服务、事件中心。其中云资源监控是我们今天重点分享的一个功能模块,这个模式是开箱即用的功能,只要用户在阿里云上购买了资源产品,就可以在这里看到相关的监控指标大盘。

既然要“用好云”,自然是要按照“看得见”、“听得见”。需要时可以通过可视化组件看到云资源的状态,忙时系统还会自动的监控资源,通过报警系统通知出来。

在云监控上如何“看得见”
无用质疑,ECS 是阿里云计算的根基,也是云监控首要支持的一个款产品。在云监控的菜单体系里面也是最显眼的地方,如上图。用户购买 ECS,自然可以在“主机监控”这个菜单看得到。主机监控的视图将围绕 CPU、内存、负载、网络、磁盘,同时也提供了 Top 5 进程监控。


云监控不仅仅有 ECS 的监控,有超过 100 款云产品的监控数据都在云监控产品,可以说在云监控可以看到阿里云资源的任意监控。

高阶玩家还有两个选择:
1)自定义 Dashboard,可以用自己的视角管理云资源监控。
2)通过 API 将监控指标数据拉走,通过自建的监控系统做集成。
这篇文章主要聚焦在监控运维的第一步,高阶玩法暂时不展开。
如何在云监控系统中“听得见”
做过运维的人都应该清楚一个事情,可观测是手段不是目的。客户最重要的目的是让自己的应用(服务)长期保持高可用。为了这个目标,可观测是第一步,首先要看得见系统的状态,然后就是在这个状态不正常进行合理的运维,比如扩容、重启、迁移、限流等等。
同样,高阶玩家有很多措施可以完成这个目标(“应用(服务)长期保持高可用”),但在这篇文章中,我们更想给初入此道的同学以简单易用,类似于 helloworld 这个层次的介绍。有了第一步,进阶还远么?
如何听得见?
电话、短信、邮件?不够
钉钉、企业微信、飞书?好像有点意思了
自动弹性伸缩(ESS),Serviceless 函数调度(FC),消息队列驱动运维(MSN)?还可以这样?
终极杀器——Webhook:Pagerduty、Slack、Teams。
如果上面这些措施,客户还听不见?没事,你提出来,谁知道未来是怎样的。
其中这里面暗含另一个问题:我们需要听见什么声音?报警阈值的规则,高阶玩家可以选择智能阈值、组合报警、表达式报警等重量级别的功能。那初阶玩家应该做什么?两个事情:一键报警和治理检测。
一键报警,云监控已经将最重要的指标,以及指标的合理阈值都总结出来,对于初阶用户来说不用太多思考,先将报警规则设置好,当云资源出现问题时就可以及时响应。

治理检测,如果你不清楚你在云监控的用法是否合理,不用费脑子,一键诊断,按照提示下一步即可。一下子可以达到“水准之上”的水平。

写在后面
云资源监控是可观测领域里面一个子集,监控是运维的驱动力。可观测的建设是长期的,包括体验层面的 RUM(前端监控)、synthetic(拨测)、PTS(压测),应用监控(APM),日志等多方位全面的覆盖。大家需要根据自己的业务重要程度来做相应的解决方案。
今天只是初步的介绍了最入门的几个云监控开箱即用的能力,最小依赖的可以在阿里云得到基本的监控报警保证。后面还有有一系列的文章介绍云监控的概念和能力。
参考资料:
[1] “CITE 2015”亮点解读《2015 政府工作报告》
https://www.cac.gov.cn/2015-04/09/c_1114917386.htm
[2] 阿里云产品手册 2024 版
https://developer.aliyun.com/ebook/8326?spm=a2c6h.26392470.ebook-read.3.1c186341TEtt9B
[3] 阿里云云监控帮助文档
https://help.aliyun.com/zh/cms/
[4] 云监控指标
https://help.aliyun.com/zh/cms/support/appendix-1-metrics?spm=a2c4g.11174283.0.0.2f30182fLPRKyv
[5] AWS cloudwatch
https://aws.amazon.com/cn/cloudwatch/
[6] 钉钉
https://oa.dingtalk.com/
[7] 企业微信
https://work.weixin.qq.com
[8] 飞书
https://www.feishu.cn/
[9] pagerduty
https://www.pagerduty.com
[10] slack
https://slack.com/intl/zh-cn/
[11] teams
https://www.microsoft.com/zh-cn/microsoft-teams/group-chat-software
相关文章:
阿里云运维第一步(监控):开箱即用的监控
作者:仲阳 这是云的时代,现在云计算已经在各行各业广泛的应用。但是上云对于大多数客户来说,依然有很大的学习成本,如下图仅是阿里云都有几百款产品,怎么选择?怎么用?对于客户来说都是问题。“…...
Python量化交易学习——Part7:定制增强型中证红利策略
中证红利指数是一个反映A股市场高红利股票整体状况和走势的指数。它通过选取上海、深圳交易所中现金股息率高、分红比较稳定、具有一定规模及流动性的100只股票作为样本。这个指数的目的是提供一个全面且具有代表性的视角,以观察A股市场中高红利股票的表现。中证红利指数的样本…...
拥抱未来:探索改变游戏规则的新存储技术
目录 一.存储级内存(Storage-Class Memory) 3D XPoint 技术 特点 应用场景 优点 缺点 适用场景 示例 二.QLC NAND闪存 概述 优点 缺点 适用场景 前景展望 三.DNA存储 概述 优点 原理 实际应用 关键问题 研究进展 适用场景 分布式…...
shell中的流程控制
条件判断在流程控制中的重要性 有了条件判断才能进行if判断即分支流程,才能进行case的多分支流程,才能进行for循环和while循环。 单分支流程判断 如上图所示,在shell编程中常使用英文状态下的分号来在Linux控制台一次性执行多条命令&#x…...
DiffIR: Efficient Diffusion Model for Image Restoration
清华Ð&字节&UTDhttps://github.com/Zj-BinXia/DiffIR 问题引入 IR任务和image synthesis任务不同点是IR任务本身有一个很强的低质量图片作为先验,所以可以不完全遵循图片生成的范式,本文主要在compact的IPR空间进行DM;本文提…...
xss一些笔记
(乱写的一些笔记) innerHTML只防script像是img就不会防 innerText都防 上面代码执行避免用户交互 js也可以用’‘执行 例子 alert’1‘ document.location.hash // #号后的部分,包括#号 document.location.host // 域名…...
以太坊网络中为什么要设置Gas上限
以太坊网络中的Gas上限(Gas Limit)是一个重要的机制,它主要出于以下几个目的: 防止无限循环和拒绝服务攻击(DoS): Gas上限防止了智能合约中的无限循环,这可以保护网络免受恶意合约的…...
vue-cli是什么?和 webpack是什么关系?
前言 Vue CLI是Vue.js项目的官方脚手架,基于Node.js与Webpack构建。安装Vue CLI前需确保Node.js已安装,随后通过npm全局安装。Vue CLI能迅速创建和管理Vue.js项目,提升开发效率。而Webpack则负责资源打包,通过配置文件管理依赖、插…...
leetcode刷题(46-50)
算法是码农的基本功,也是各个大厂必考察的重点,让我们一起坚持写题吧。 遇事不决,可问春风,春风不语,即是本心。 我们在我们能力范围内,做好我们该做的事,然后相信一切都事最好的安排就可以啦…...
[渗透测试学习] Runner-HackTheBox
Runner-HackTheBox 信息搜集 nmap扫描端口 nmap -sV -v 10.10.11.13扫描结果如下 PORT STATE SERVICE VERSION 22/tcp open ssh OpenSSH 8.9p1 Ubuntu 3ubuntu0.6 (Ubuntu Linux; protocol 2.0) 80/tcp open http nginx 1.18.0 (Ubuntu) 8000…...
keil5显示内存和存储占用百分比进度条工具
简介 [Keil5_disp_size_bar] 以进度条百分比来显示keil编译后生成的固件对芯片的内存ram和存储flash的占用情况, 并生成各个源码文件对ram和flash的占比整合排序后的map信息的表格和饼图。 原理是使用C语言遍历当前目录找到keil工程和编译后生成的map文件 然后读取工程文件和m…...
示例:推荐一个应用Adorner做的消息对话框
一、目的:开发过程中,经常用到对话框,下面演示一个应用Adorner做的带遮盖层蒙版的控件,使用MainWindow的Adorner实现不需要额外定义遮盖层,使用Object作为参数,可自定义DataTemplate定制消息显示样式 二、效…...
Building wheels for collected packages: mmcv, mmcv-full 卡住
安装 anime-face-detector 的时候遇到一个问题:Installation takes forever #1386:在构建mmcv-full时卡住,这里分享下解决方法(安装 mmcv 同理,将下面命令中的 mmcv-full 替换成 mmcv) 具体表现如下&#x…...
可视化表单拖拽生成器优势多 助力流程化办公!
当前,很多企业需要实现流程化办公,进入数字化转型时期。要想实现这一目标,就需要借助更优质的平台产品。低代码技术平台是得到企业喜爱的发展平台,拥有可视化操作、灵活、高效、更可靠等优势特点,在推动企业实现流程化…...
数据集制作——语义分割前png、jpg格式标签图转yolo格式.txt文件(附代码)
💪 专业从事且热爱图像处理,图像处理专栏更新如下👇: 📝《图像去噪》 📝《超分辨率重建》 📝《语义分割》 📝《风格迁移》 📝《目标检测》 📝《暗光增强》 &a…...
机器学习课程复习——ANN
Q:ANN? 基本架构 由输入层、隐藏层、输出层等构建前馈/反馈传播 工作原理 先加权求和:每个神经元的输出是输入加权和的激活再送入激活函数:激活函数的存在使得其能够拟合各类非线性任务 联想:像adaboosting的加权求…...
C++回溯算法(2)
棋盘问题 #include<bits/stdc.h> using namespace std; void func(int,int); bool tf(int,int); void c(); int n,k; char a[110][110]; int cnt20; int main() {cin>>n>>k;for(int i0;i<n;i){for(int j0;j<n;j){cin>>a[i][j];}}func(0,0);cout…...
流量有限、日活低的APP适合对接广告变现吗?
APP广告变现,总用户数和日活用户(DUA)是衡量APP价值和影响力的重要指标之一。 APP DUA过万,尤其是大几万时,通常具备了商业化价值,适合接入广告变现。日活1W意味着每天有1万名用户在使用这款应用ÿ…...
Shell 学习笔记 - 变量的类型 + 变量的赋值
1.6 Shell 变量的类型 Shell 变量分为四类,分别是 自定义变量环境变量位置变量预定义变量 根据工作要求临时定义的变量称为自定义变量; 环境变量一般是指用 export 内置命令导出的变量,用于定义 Shell 的运行环境,保证 Shell …...
vue播放flv格式的直播流
在ios无法播放,安卓可以 安装 npm install flv.js --save页面 <template><div><videoref"videoElement"style"width: 100%; height: 100%"autoplayplaysinlinemuted></video></div> </template><scr…...
ES6从入门到精通:前言
ES6简介 ES6(ECMAScript 2015)是JavaScript语言的重大更新,引入了许多新特性,包括语法糖、新数据类型、模块化支持等,显著提升了开发效率和代码可维护性。 核心知识点概览 变量声明 let 和 const 取代 var…...
IGP(Interior Gateway Protocol,内部网关协议)
IGP(Interior Gateway Protocol,内部网关协议) 是一种用于在一个自治系统(AS)内部传递路由信息的路由协议,主要用于在一个组织或机构的内部网络中决定数据包的最佳路径。与用于自治系统之间通信的 EGP&…...
Python实现prophet 理论及参数优化
文章目录 Prophet理论及模型参数介绍Python代码完整实现prophet 添加外部数据进行模型优化 之前初步学习prophet的时候,写过一篇简单实现,后期随着对该模型的深入研究,本次记录涉及到prophet 的公式以及参数调优,从公式可以更直观…...
TRS收益互换:跨境资本流动的金融创新工具与系统化解决方案
一、TRS收益互换的本质与业务逻辑 (一)概念解析 TRS(Total Return Swap)收益互换是一种金融衍生工具,指交易双方约定在未来一定期限内,基于特定资产或指数的表现进行现金流交换的协议。其核心特征包括&am…...
关于 WASM:1. WASM 基础原理
一、WASM 简介 1.1 WebAssembly 是什么? WebAssembly(WASM) 是一种能在现代浏览器中高效运行的二进制指令格式,它不是传统的编程语言,而是一种 低级字节码格式,可由高级语言(如 C、C、Rust&am…...
AGain DB和倍数增益的关系
我在设置一款索尼CMOS芯片时,Again增益0db变化为6DB,画面的变化只有2倍DN的增益,比如10变为20。 这与dB和线性增益的关系以及传感器处理流程有关。以下是具体原因分析: 1. dB与线性增益的换算关系 6dB对应的理论线性增益应为&…...
【从零学习JVM|第三篇】类的生命周期(高频面试题)
前言: 在Java编程中,类的生命周期是指类从被加载到内存中开始,到被卸载出内存为止的整个过程。了解类的生命周期对于理解Java程序的运行机制以及性能优化非常重要。本文会深入探寻类的生命周期,让读者对此有深刻印象。 目录 …...
云原生安全实战:API网关Kong的鉴权与限流详解
🔥「炎码工坊」技术弹药已装填! 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 一、基础概念 1. API网关(API Gateway) API网关是微服务架构中的核心组件,负责统一管理所有API的流量入口。它像一座…...
淘宝扭蛋机小程序系统开发:打造互动性强的购物平台
淘宝扭蛋机小程序系统的开发,旨在打造一个互动性强的购物平台,让用户在购物的同时,能够享受到更多的乐趣和惊喜。 淘宝扭蛋机小程序系统拥有丰富的互动功能。用户可以通过虚拟摇杆操作扭蛋机,实现旋转、抽拉等动作,增…...
Python网页自动化Selenium中文文档
1. 安装 1.1. 安装 Selenium Python bindings 提供了一个简单的API,让你使用Selenium WebDriver来编写功能/校验测试。 通过Selenium Python的API,你可以非常直观的使用Selenium WebDriver的所有功能。 Selenium Python bindings 使用非常简洁方便的A…...
