阿里云运维第一步(监控):开箱即用的监控
作者:仲阳
这是云的时代,现在云计算已经在各行各业广泛的应用。但是上云对于大多数客户来说,依然有很大的学习成本,如下图仅是阿里云都有几百款产品,怎么选择?怎么用?对于客户来说都是问题。“用好云、管好云”不仅仅是口号,还是我们的目标。
来自于:https://developer.aliyun.com/ebook/8326?spm=a2c6h.26392470.ebook-read.3.1c186341TEtt9B《阿里云产品手册 2024 版》
“兵马未动、粮草先行”, 今天我们就针对阿里云的上云新用户,如何开启自己的可观测历程,做一个简单的介绍。
认识可观测的分层
在可观测的领域里面,技术栈主要分为 metric、trace、log 三个方向,从业务分成上我们的观点主要分为体验、业务、应用和资源。这个金字塔越上面的越贴近用户的真实体感,比如用户用了 100 台服务器,其中一台服务器宕机,不一定能影响用户,但如果是从网络监控上发现问题,大概率用户已经受影响。反过来讲,金字塔越下面,发现的问题越具体、越能快速解决,还是上面这个例子,ECS 有问题可以重启、扩容等处理方式,但用户体验服务不可用的原因就有很多,需要更多时间去确定问题。
言归正传,今天我们希望跟一些刚刚涉猎阿里云的客户可以快速构建一套完整的云资源监控解决方案。在此基础上随着云应用的深入,有更多可观测解决方案等着你。
阿里云云监控的初体验
阿里云云监控旨在解决可观测领域的各种问题。基石就是下面这三个技术栈,在这个基础上又分为 Dashboard、Alert、API 等多用应用方式。云监控云服务监控主要针对的是 Metrics on Cloud Resource 这个场景。
首先我们要先进入云监控产品页,可以看到有五大功能模块——云资源监控、网络分析与监控、可视化 Dashboard、告警服务、事件中心。其中云资源监控是我们今天重点分享的一个功能模块,这个模式是开箱即用的功能,只要用户在阿里云上购买了资源产品,就可以在这里看到相关的监控指标大盘。
既然要“用好云”,自然是要按照“看得见”、“听得见”。需要时可以通过可视化组件看到云资源的状态,忙时系统还会自动的监控资源,通过报警系统通知出来。
在云监控上如何“看得见”
无用质疑,ECS 是阿里云计算的根基,也是云监控首要支持的一个款产品。在云监控的菜单体系里面也是最显眼的地方,如上图。用户购买 ECS,自然可以在“主机监控”这个菜单看得到。主机监控的视图将围绕 CPU、内存、负载、网络、磁盘,同时也提供了 Top 5 进程监控。
云监控不仅仅有 ECS 的监控,有超过 100 款云产品的监控数据都在云监控产品,可以说在云监控可以看到阿里云资源的任意监控。
高阶玩家还有两个选择:
1)自定义 Dashboard,可以用自己的视角管理云资源监控。
2)通过 API 将监控指标数据拉走,通过自建的监控系统做集成。
这篇文章主要聚焦在监控运维的第一步,高阶玩法暂时不展开。
如何在云监控系统中“听得见”
做过运维的人都应该清楚一个事情,可观测是手段不是目的。客户最重要的目的是让自己的应用(服务)长期保持高可用。为了这个目标,可观测是第一步,首先要看得见系统的状态,然后就是在这个状态不正常进行合理的运维,比如扩容、重启、迁移、限流等等。
同样,高阶玩家有很多措施可以完成这个目标(“应用(服务)长期保持高可用”),但在这篇文章中,我们更想给初入此道的同学以简单易用,类似于 helloworld 这个层次的介绍。有了第一步,进阶还远么?
如何听得见?
电话、短信、邮件?不够
钉钉、企业微信、飞书?好像有点意思了
自动弹性伸缩(ESS),Serviceless 函数调度(FC),消息队列驱动运维(MSN)?还可以这样?
终极杀器——Webhook:Pagerduty、Slack、Teams。
如果上面这些措施,客户还听不见?没事,你提出来,谁知道未来是怎样的。
其中这里面暗含另一个问题:我们需要听见什么声音?报警阈值的规则,高阶玩家可以选择智能阈值、组合报警、表达式报警等重量级别的功能。那初阶玩家应该做什么?两个事情:一键报警和治理检测。
一键报警,云监控已经将最重要的指标,以及指标的合理阈值都总结出来,对于初阶用户来说不用太多思考,先将报警规则设置好,当云资源出现问题时就可以及时响应。
治理检测,如果你不清楚你在云监控的用法是否合理,不用费脑子,一键诊断,按照提示下一步即可。一下子可以达到“水准之上”的水平。
写在后面
云资源监控是可观测领域里面一个子集,监控是运维的驱动力。可观测的建设是长期的,包括体验层面的 RUM(前端监控)、synthetic(拨测)、PTS(压测),应用监控(APM),日志等多方位全面的覆盖。大家需要根据自己的业务重要程度来做相应的解决方案。
今天只是初步的介绍了最入门的几个云监控开箱即用的能力,最小依赖的可以在阿里云得到基本的监控报警保证。后面还有有一系列的文章介绍云监控的概念和能力。
参考资料:
[1] “CITE 2015”亮点解读《2015 政府工作报告》
https://www.cac.gov.cn/2015-04/09/c_1114917386.htm
[2] 阿里云产品手册 2024 版
https://developer.aliyun.com/ebook/8326?spm=a2c6h.26392470.ebook-read.3.1c186341TEtt9B
[3] 阿里云云监控帮助文档
https://help.aliyun.com/zh/cms/
[4] 云监控指标
https://help.aliyun.com/zh/cms/support/appendix-1-metrics?spm=a2c4g.11174283.0.0.2f30182fLPRKyv
[5] AWS cloudwatch
https://aws.amazon.com/cn/cloudwatch/
[6] 钉钉
https://oa.dingtalk.com/
[7] 企业微信
https://work.weixin.qq.com
[8] 飞书
https://www.feishu.cn/
[9] pagerduty
https://www.pagerduty.com
[10] slack
https://slack.com/intl/zh-cn/
[11] teams
https://www.microsoft.com/zh-cn/microsoft-teams/group-chat-software
相关文章:

阿里云运维第一步(监控):开箱即用的监控
作者:仲阳 这是云的时代,现在云计算已经在各行各业广泛的应用。但是上云对于大多数客户来说,依然有很大的学习成本,如下图仅是阿里云都有几百款产品,怎么选择?怎么用?对于客户来说都是问题。“…...
Python量化交易学习——Part7:定制增强型中证红利策略
中证红利指数是一个反映A股市场高红利股票整体状况和走势的指数。它通过选取上海、深圳交易所中现金股息率高、分红比较稳定、具有一定规模及流动性的100只股票作为样本。这个指数的目的是提供一个全面且具有代表性的视角,以观察A股市场中高红利股票的表现。中证红利指数的样本…...
拥抱未来:探索改变游戏规则的新存储技术
目录 一.存储级内存(Storage-Class Memory) 3D XPoint 技术 特点 应用场景 优点 缺点 适用场景 示例 二.QLC NAND闪存 概述 优点 缺点 适用场景 前景展望 三.DNA存储 概述 优点 原理 实际应用 关键问题 研究进展 适用场景 分布式…...

shell中的流程控制
条件判断在流程控制中的重要性 有了条件判断才能进行if判断即分支流程,才能进行case的多分支流程,才能进行for循环和while循环。 单分支流程判断 如上图所示,在shell编程中常使用英文状态下的分号来在Linux控制台一次性执行多条命令&#x…...

DiffIR: Efficient Diffusion Model for Image Restoration
清华Ð&字节&UTDhttps://github.com/Zj-BinXia/DiffIR 问题引入 IR任务和image synthesis任务不同点是IR任务本身有一个很强的低质量图片作为先验,所以可以不完全遵循图片生成的范式,本文主要在compact的IPR空间进行DM;本文提…...

xss一些笔记
(乱写的一些笔记) innerHTML只防script像是img就不会防 innerText都防 上面代码执行避免用户交互 js也可以用’‘执行 例子 alert’1‘ document.location.hash // #号后的部分,包括#号 document.location.host // 域名…...
以太坊网络中为什么要设置Gas上限
以太坊网络中的Gas上限(Gas Limit)是一个重要的机制,它主要出于以下几个目的: 防止无限循环和拒绝服务攻击(DoS): Gas上限防止了智能合约中的无限循环,这可以保护网络免受恶意合约的…...

vue-cli是什么?和 webpack是什么关系?
前言 Vue CLI是Vue.js项目的官方脚手架,基于Node.js与Webpack构建。安装Vue CLI前需确保Node.js已安装,随后通过npm全局安装。Vue CLI能迅速创建和管理Vue.js项目,提升开发效率。而Webpack则负责资源打包,通过配置文件管理依赖、插…...

leetcode刷题(46-50)
算法是码农的基本功,也是各个大厂必考察的重点,让我们一起坚持写题吧。 遇事不决,可问春风,春风不语,即是本心。 我们在我们能力范围内,做好我们该做的事,然后相信一切都事最好的安排就可以啦…...

[渗透测试学习] Runner-HackTheBox
Runner-HackTheBox 信息搜集 nmap扫描端口 nmap -sV -v 10.10.11.13扫描结果如下 PORT STATE SERVICE VERSION 22/tcp open ssh OpenSSH 8.9p1 Ubuntu 3ubuntu0.6 (Ubuntu Linux; protocol 2.0) 80/tcp open http nginx 1.18.0 (Ubuntu) 8000…...

keil5显示内存和存储占用百分比进度条工具
简介 [Keil5_disp_size_bar] 以进度条百分比来显示keil编译后生成的固件对芯片的内存ram和存储flash的占用情况, 并生成各个源码文件对ram和flash的占比整合排序后的map信息的表格和饼图。 原理是使用C语言遍历当前目录找到keil工程和编译后生成的map文件 然后读取工程文件和m…...

示例:推荐一个应用Adorner做的消息对话框
一、目的:开发过程中,经常用到对话框,下面演示一个应用Adorner做的带遮盖层蒙版的控件,使用MainWindow的Adorner实现不需要额外定义遮盖层,使用Object作为参数,可自定义DataTemplate定制消息显示样式 二、效…...

Building wheels for collected packages: mmcv, mmcv-full 卡住
安装 anime-face-detector 的时候遇到一个问题:Installation takes forever #1386:在构建mmcv-full时卡住,这里分享下解决方法(安装 mmcv 同理,将下面命令中的 mmcv-full 替换成 mmcv) 具体表现如下&#x…...

可视化表单拖拽生成器优势多 助力流程化办公!
当前,很多企业需要实现流程化办公,进入数字化转型时期。要想实现这一目标,就需要借助更优质的平台产品。低代码技术平台是得到企业喜爱的发展平台,拥有可视化操作、灵活、高效、更可靠等优势特点,在推动企业实现流程化…...

数据集制作——语义分割前png、jpg格式标签图转yolo格式.txt文件(附代码)
💪 专业从事且热爱图像处理,图像处理专栏更新如下👇: 📝《图像去噪》 📝《超分辨率重建》 📝《语义分割》 📝《风格迁移》 📝《目标检测》 📝《暗光增强》 &a…...

机器学习课程复习——ANN
Q:ANN? 基本架构 由输入层、隐藏层、输出层等构建前馈/反馈传播 工作原理 先加权求和:每个神经元的输出是输入加权和的激活再送入激活函数:激活函数的存在使得其能够拟合各类非线性任务 联想:像adaboosting的加权求…...

C++回溯算法(2)
棋盘问题 #include<bits/stdc.h> using namespace std; void func(int,int); bool tf(int,int); void c(); int n,k; char a[110][110]; int cnt20; int main() {cin>>n>>k;for(int i0;i<n;i){for(int j0;j<n;j){cin>>a[i][j];}}func(0,0);cout…...
流量有限、日活低的APP适合对接广告变现吗?
APP广告变现,总用户数和日活用户(DUA)是衡量APP价值和影响力的重要指标之一。 APP DUA过万,尤其是大几万时,通常具备了商业化价值,适合接入广告变现。日活1W意味着每天有1万名用户在使用这款应用ÿ…...
Shell 学习笔记 - 变量的类型 + 变量的赋值
1.6 Shell 变量的类型 Shell 变量分为四类,分别是 自定义变量环境变量位置变量预定义变量 根据工作要求临时定义的变量称为自定义变量; 环境变量一般是指用 export 内置命令导出的变量,用于定义 Shell 的运行环境,保证 Shell …...
vue播放flv格式的直播流
在ios无法播放,安卓可以 安装 npm install flv.js --save页面 <template><div><videoref"videoElement"style"width: 100%; height: 100%"autoplayplaysinlinemuted></video></div> </template><scr…...
设计模式和设计原则回顾
设计模式和设计原则回顾 23种设计模式是设计原则的完美体现,设计原则设计原则是设计模式的理论基石, 设计模式 在经典的设计模式分类中(如《设计模式:可复用面向对象软件的基础》一书中),总共有23种设计模式,分为三大类: 一、创建型模式(5种) 1. 单例模式(Sing…...

盘古信息PCB行业解决方案:以全域场景重构,激活智造新未来
一、破局:PCB行业的时代之问 在数字经济蓬勃发展的浪潮中,PCB(印制电路板)作为 “电子产品之母”,其重要性愈发凸显。随着 5G、人工智能等新兴技术的加速渗透,PCB行业面临着前所未有的挑战与机遇。产品迭代…...

【WiFi帧结构】
文章目录 帧结构MAC头部管理帧 帧结构 Wi-Fi的帧分为三部分组成:MAC头部frame bodyFCS,其中MAC是固定格式的,frame body是可变长度。 MAC头部有frame control,duration,address1,address2,addre…...

dedecms 织梦自定义表单留言增加ajax验证码功能
增加ajax功能模块,用户不点击提交按钮,只要输入框失去焦点,就会提前提示验证码是否正确。 一,模板上增加验证码 <input name"vdcode"id"vdcode" placeholder"请输入验证码" type"text&quo…...
python爬虫:Newspaper3k 的详细使用(好用的新闻网站文章抓取和解析的Python库)
更多内容请见: 爬虫和逆向教程-专栏介绍和目录 文章目录 一、Newspaper3k 概述1.1 Newspaper3k 介绍1.2 主要功能1.3 典型应用场景1.4 安装二、基本用法2.2 提取单篇文章的内容2.2 处理多篇文档三、高级选项3.1 自定义配置3.2 分析文章情感四、实战案例4.1 构建新闻摘要聚合器…...

ETLCloud可能遇到的问题有哪些?常见坑位解析
数据集成平台ETLCloud,主要用于支持数据的抽取(Extract)、转换(Transform)和加载(Load)过程。提供了一个简洁直观的界面,以便用户可以在不同的数据源之间轻松地进行数据迁移和转换。…...

论文浅尝 | 基于判别指令微调生成式大语言模型的知识图谱补全方法(ISWC2024)
笔记整理:刘治强,浙江大学硕士生,研究方向为知识图谱表示学习,大语言模型 论文链接:http://arxiv.org/abs/2407.16127 发表会议:ISWC 2024 1. 动机 传统的知识图谱补全(KGC)模型通过…...

Python爬虫(一):爬虫伪装
一、网站防爬机制概述 在当今互联网环境中,具有一定规模或盈利性质的网站几乎都实施了各种防爬措施。这些措施主要分为两大类: 身份验证机制:直接将未经授权的爬虫阻挡在外反爬技术体系:通过各种技术手段增加爬虫获取数据的难度…...
C++.OpenGL (14/64)多光源(Multiple Lights)
多光源(Multiple Lights) 多光源渲染技术概览 #mermaid-svg-3L5e5gGn76TNh7Lq {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-3L5e5gGn76TNh7Lq .error-icon{fill:#552222;}#mermaid-svg-3L5e5gGn76TNh7Lq .erro…...

排序算法总结(C++)
目录 一、稳定性二、排序算法选择、冒泡、插入排序归并排序随机快速排序堆排序基数排序计数排序 三、总结 一、稳定性 排序算法的稳定性是指:同样大小的样本 **(同样大小的数据)**在排序之后不会改变原始的相对次序。 稳定性对基础类型对象…...