产品新说 | 指标的异常检测怎么做,能更好配合业务变化(二)

前言:
上期分享我们提到了指标异常检测实践要素中的三个方面:
以面对业务变动为前提,确定业务波动是周期性还是非周期性,进而选对算法;
通过确认业务的常规指标,确定异常方向进行监测(上基带 / 下基带 / both);
考虑不同时段的检测差异从而设定合理的运维日历并做出相应的算法模型匹配。
戳→擎创夏洛克AIOps:产品新说 | 指标异常?怎么做能更好配合业务变化(一)一键回看上期精彩
本期分享将继续通过一些场景小故事进行实践要素的后续分享
使用角色:张三( 企业应用运维人员 / 平台(云)运维人员 / 基础设施运维人员 )
实践重点:考虑不同时段的检测差异、优化模型参数、优化告警阈值、长期关注数据质量
产品:擎创夏洛克指标解析中心
一、考虑不同时段的检测差异 (工作日/非工作日的不同阈值需求)
依旧选择超级网银这一业务,该业务中有三大类型:跨行实时转账、跨行账户查询、跨行资金归集,这三类业务在对公和对私的交易时间安排上大有不同。

把跨行实时转账单拎出来,以交易量(对公)指标为监测目标,在工作日和非工作日的不同时段条件下,对于告警阈值规则的选择应该如何呢?张三通过指标解析中心以将其分为以下三类。
▲Part.1:敏感度高
正常工作日上班期间,对交易量(对公)指标检测设定的告警策略是在2个检测窗口内满足以下规则,则触发告警:
异常度大于90,则触发告警级别为严重;
异常度大于60,则触发告警级别为一般;

▲Part.2:敏感度低
周末双休及工作日下班时段,对交易量(对公)指标检测设定的告警策略是在3个检测窗口内满足以下规则,则触发告警:
异常度大于80,则触发告警级别为一般;
指标值小于100,则不监测;

▲Part.3:静默处理
在节假日期间,超级网银业务通常是停滞的,这期间设定告警监测为关闭状态。

根据业务类型在时间上的特点,设定不同的阈值及告警规则,能够节省算力的同时,更精确的监测指标是否存在异常。
二、优化告警阈值 (固定阈值 / 动态阈值 / 不监测)
指标在不同的阈值区间需要有不同的检测策略,通过算法检测智能设定阈值,应用不同规则模式,保障检测结果的准确性。
●以CPU的使用率为例

1.固定阈值
某一时段,CPU的使用率会随着业务的体量增长而水涨船高,由于负载过高会触碰警戒红线而引起告警,这个负载的极限值根据监控需求设置固定阈值即可。
2.动态阈值
这一天张三在白班值班,在不同时段业务交易的数量不同,因此CPU使用率的指标数值在中位区间来回波动,指标解析中心采用动态阈值的监测规则,在监测过程中发现有2次数值突破黄线大概率要触碰警戒红线的趋势,及时进行了告警,张三迅速查看并及时找到故障根源进行解决,使得业务运营没有出现损失。
3.不监测
与固定阈值相似的是,很多常规时段里(如工作日休息)业务是处于低交易状态的,因此指标数值一直在低位区间波动,这并不会造成任何负面影响,因此指标解析中心会对低区间的规则设定为不监测。
三、 长期关注数据质量 :(配置规则 / 查看告警)
指标异常检测需要由高质量的指标数据供给,来保证结果的高可用性,而保证数据供给质量的前提是对指标数据质量的监测能力。

张三为长期保证数据质量的可用性,通过指标解析中心配置了两条规则:
1.监控连续数据缺失:在检查周期内,连续x分钟/小时内无指标示例的数据则记录告警;
2.监控随机数据缺失:在检查周期内,按照比例检查各指标实例的确实情况,并记录。
做好规则配置以后,可以定期在告警中心里查看低质量的数据源及缺失数据的时长和比例,有据可循的进行针对性优化及改善。
四、优化算法模型 (简化算法调参)
算法的调优调参一直是令张三头疼的一件事儿,系统在使用动态阈值检测的时候,需要有一种自动优化模型的能力。指标解析中心在学习历史数据(建议训练学习周期为14-30天)的基础上,只要附加一些符合该类业务异常敏感度的设定,即能够自动简单的生成相对最优的算法模型,避免无效告警的出现。

本期关于指标解析中心的一些能力介绍到此告一段落,虽然是在说产品的一些功能,但其实这也是擎创在指标方向探索出来的一些能力建设思路,希望能为大家带来或多或少的帮助。未来,擎创将继续从业务视角出发,打造更具实战性、自动化的指标产品,助力业务运营更加平稳高效。

擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。
行业龙头客户的共同选择

更多运维思路与案例持续更新中,敬请期待
随手点关注,更新不迷路
相关文章:
产品新说 | 指标的异常检测怎么做,能更好配合业务变化(二)
前言:上期分享我们提到了指标异常检测实践要素中的三个方面:以面对业务变动为前提,确定业务波动是周期性还是非周期性,进而选对算法;通过确认业务的常规指标,确定异常方向进行监测(上基带 / 下基…...
华为OD机试题,用 Java 解【最短耗时】问题
最近更新的博客 华为OD机试题,用 Java 解【停车场车辆统计】问题华为OD机试题,用 Java 解【字符串变换最小字符串】问题华为OD机试题,用 Java 解【计算最大乘积】问题华为OD机试题,用 Java 解【DNA 序列】问题华为OD机试 - 组成最大数(Java) | 机试题算法思路 【2023】使…...
mysql数据库常见面试题
慢查询排查优化 排查 slow_query_log设置为on,就会记录慢查询sql;long_query_time可以设置慢查询sql的阈值时间;slow_query_log_file表示记录慢查询sql的日志路径。即我们可以通过打开记录慢查询的开关,设置慢查询的时间阈值&…...
【Android源码面试宝典】MMKV从使用到原理分析(一)
去年,我们写过一篇文章,对于android原生提供的key-value存储API SharePreference,进行了从使用到原理的深入分析,同时对其中存在的ANR问题、存取慢等问题,进行了深入的探索、总结。但是之前的文章,我们仅仅指出了问题,没有给大家提供解决方案,也就是说,SharePreferenc…...
你真的懂动态库吗?一文详解动态库的方方面
这里写目录标题创建动态库创建静态库动态库与静态库的区别动态链接与静态链接的区别动态库的加载过程dll的创建以及应用程序隐式链接到dll的过程dll的创建以及应用程序显示链接到dll的过程动态库的二进制兼容性创建动态库 1.【新建】-》【项目】-》【动态链接库】 新建的动态…...
I.MX6ULL内核开发12:使用设备树插件实现RGB灯驱动
目录 一、引言 二、设备树插件格式 三、实验说明 四、实验准备 4.1 通过内核工具编译设备树插件 五、实验效果 5.1 uboot加载 5.2 加载RGB驱动 一、引言 Linux4.4以后引入了动态设备树(Dynamic DevicesTree),这里翻译位“设备树插件…...
大家一起来找茬,新手第一次layout到底能挑出多少毛病?
有一个新手工程师在论坛上发了一篇帖子,把自己的处女PCB布线图贴出来。 如果不看其他网友的评论,你能看出多少问题呢?可以在留言区和我们互动哦~ 帖子里他还提出了自己的小见解:问一下,我觉得自动布线挺好用的啊&#…...
Java集合概述(Collection集合)
目录集合一、集合与数组二、集合类体系结构三、泛型(约定集合存储数据类型)四、Collection集合常用API五、Collection集合的遍历方式5.1 迭代器遍历5.2 增强for循环(for each):5.3 lambda表达式六、Collection集合存储自定义类型的对象七、常见数据结构集合 一、集合与数组 数…...
运动无线蓝牙耳机哪款好、运动无线蓝牙耳机推荐
作为 运动爱好者,每天早晨醒来后的第一件事就去家门口的湿地公园跑上一圈。各种运动装备都齐了,不过在耳机选择上还真的犯难,打着“运动耳机”旗号的产品也是种类繁多,那么到底什么样的无线耳机更适合运动呢?于是我花时…...
解决AAC音频编码时间戳的计算问题
1.主题音频是流式数据,并不像视频一样有P帧和B帧的概念。就像砌墙一样,咔咔往上摞就行了。一般来说,AAC编码中生成文件这一步,如果使用的是OutputStream流写入文件的话,就完全不需要计算时间。但在音视频同步或者使用A…...
Android 9.0 添加自定义开机广播
1.概述 在9.0的系统rom定制化开发中,由于系统开机广播接收受限,普通app接收不到这个广播,如果接收这个广播很多应用 感觉要好久收到这个广播, 所以需要自定义开机广播来使用自定义广播开启某些应用,实现自己的功能,接下来就需要分析下开机广播的流程,然后增加自定义广播…...
第四阶段10-添加类别,类别列表mapper层,service层,controller层
63. 添加类别–Mapper层 插入类别数据的功能此前已经完成! 64. 添加类别–Service层 在项目的根包下创建pojo.dto.CategoryAddNewDTO类: Data public class CategoryAddNewDTO implements Serializable {/*** 类别名称*/private String name;/*** 父…...
linux内核启动分析(一)
文章目录1.HEAD1.preserve_boot_args1.1 __inval_dcache_area2.el2_setup3. set_cpu_boot_mode_flag4. __create_page_tables4.1map_memory5. __cpu_setup6. __primary_switch6.1 __enable_mmu6.2 __primary_switched最近工作中经常使用飞腾E2000的开发版,也遇到一些…...
wireshark常见使用操作讲解以及几个故障解决案例分享
(1)网卡选择 对于电脑本身有多个网卡的时候,选择网卡就成为了一个困惑的地方,其实这里很简单,只要把鼠标放在对应的网卡上面就可以看到地址等信息,就容易判断出来了。 (2)过滤器 直…...
利用逻辑分析仪解析串口通讯数据
利用逻辑分析仪解析串口通讯数据🔧采用的是市面上最为广泛使用的USB逻辑分析仪: 📚资料下载: 链接: https://pan.baidu.com/s/1c9lwWDbtJxaJED-kzSbiJg 提取码: 5vnr🔨测试工具为:Logic 2.4.6,也可以使用Pu…...
新整理的前端面试题
pinia和vuex的区别(1)pinia它没有mutation,他只有state,getters,action【同步、异步】使用他来修改state数据(2)pinia他默认也是存入内存中,如果需要使用本地存储,在配置上比vuex麻烦…...
数据仓库-数仓分层
层级 全拼 职责划分 ODS(源数据层) Operational DataStore ODS层存储最原始的数据, 对数据不做任何加工处理; 源数据主要来自业务数据库和日志,这些数据是用户操作业务系统产生,所以叫操作型数据(Operational Data) 。 DWD(…...
【Linux】Linux根文件系统扩容
场景:根文件系统需要至少100GB的剩余空间,但是目前就剩余91GB。因此,我们需要对根文件系统进行扩容。# df -h 文件系统 容量 已用 可用 已用% 挂载点 devtmpfs 3.9G 0 3.9G 0% /dev tmpfs …...
RPC编程:Hessian RPC一个老的RPC框架(一)
RPC编程:Hessian RPC一个老的RPC框架一:Hessian RPC1:Hession RPC一个老的RPC框架2:老,为什么还要研究?3:Hession RPC概念二:Hessian RPC设计思想1:Hession依赖于服务器2…...
逆向 x蜂窝 zzzghostsigh
逆向 x蜂窝 zzzghostsigh 版本 9.3.7 新版本是64位的so charles 抓包 目标字段 zzzghostsigh frida java function hook_xPreAuthencode() {Java.perform(function() {var helper Java.use("com.mfw.tnative.AuthorizeHelper");helper.xPreAuthencode.implemen…...
在软件开发中正确使用MySQL日期时间类型的深度解析
在日常软件开发场景中,时间信息的存储是底层且核心的需求。从金融交易的精确记账时间、用户操作的行为日志,到供应链系统的物流节点时间戳,时间数据的准确性直接决定业务逻辑的可靠性。MySQL作为主流关系型数据库,其日期时间类型的…...
Ubuntu系统下交叉编译openssl
一、参考资料 OpenSSL&&libcurl库的交叉编译 - hesetone - 博客园 二、准备工作 1. 编译环境 宿主机:Ubuntu 20.04.6 LTSHost:ARM32位交叉编译器:arm-linux-gnueabihf-gcc-11.1.0 2. 设置交叉编译工具链 在交叉编译之前&#x…...
Admin.Net中的消息通信SignalR解释
定义集线器接口 IOnlineUserHub public interface IOnlineUserHub {/// 在线用户列表Task OnlineUserList(OnlineUserList context);/// 强制下线Task ForceOffline(object context);/// 发布站内消息Task PublicNotice(SysNotice context);/// 接收消息Task ReceiveMessage(…...
Cinnamon修改面板小工具图标
Cinnamon开始菜单-CSDN博客 设置模块都是做好的,比GNOME简单得多! 在 applet.js 里增加 const Settings imports.ui.settings;this.settings new Settings.AppletSettings(this, HTYMenusonichy, instance_id); this.settings.bind(menu-icon, menu…...
Go 并发编程基础:通道(Channel)的使用
在 Go 中,Channel 是 Goroutine 之间通信的核心机制。它提供了一个线程安全的通信方式,用于在多个 Goroutine 之间传递数据,从而实现高效的并发编程。 本章将介绍 Channel 的基本概念、用法、缓冲、关闭机制以及 select 的使用。 一、Channel…...
免费数学几何作图web平台
光锐软件免费数学工具,maths,数学制图,数学作图,几何作图,几何,AR开发,AR教育,增强现实,软件公司,XR,MR,VR,虚拟仿真,虚拟现实,混合现实,教育科技产品,职业模拟培训,高保真VR场景,结构互动课件,元宇宙http://xaglare.c…...
在 Spring Boot 中使用 JSP
jsp? 好多年没用了。重新整一下 还费了点时间,记录一下。 项目结构: pom: <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://ww…...
MySQL 主从同步异常处理
阅读原文:https://www.xiaozaoshu.top/articles/mysql-m-s-update-pk MySQL 做双主,遇到的这个错误: Could not execute Update_rows event on table ... Error_code: 1032是 MySQL 主从复制时的经典错误之一,通常表示ÿ…...
Elastic 获得 AWS 教育 ISV 合作伙伴资质,进一步增强教育解决方案产品组合
作者:来自 Elastic Udayasimha Theepireddy (Uday), Brian Bergholm, Marianna Jonsdottir 通过搜索 AI 和云创新推动教育领域的数字化转型。 我们非常高兴地宣布,Elastic 已获得 AWS 教育 ISV 合作伙伴资质。这一重要认证表明,Elastic 作为 …...
高防服务器价格高原因分析
高防服务器的价格较高,主要是由于其特殊的防御机制、硬件配置、运营维护等多方面的综合成本。以下从技术、资源和服务三个维度详细解析高防服务器昂贵的原因: 一、硬件与技术投入 大带宽需求 DDoS攻击通过占用大量带宽资源瘫痪目标服务器,因此…...
