当前位置: 首页 > news >正文

突破传统监测模式:业务状态监控HM的新思路

作者:京东保险 管顺利

一、传统监控系统的盲区,如何打造业务状态监控。

在系统架构设计中非常重要的一环是要做数据监控和数据最终一致性,关于一致性的补偿,已经由算法部的大佬总结过就不在赘述。这里主要讲如何去补偿?补偿的方案哪些?这就引出来数据监控系统了。有小伙伴会问了,为什么业务状态监控系统可以做补偿?别急,往下看。

传统监控系统分为两种,系统监控和业务监控。系统监控有并发量监控、异常监控、调用链监控、端口监控、zabbix 监控、http监控等。业务监控是指用以监控业务数据是否正常,用户需要进行业务埋点进行数据采集。业务监控底层常规依赖日志上报系统,接入业务监控之前先申请接入日志上报系统。如图1

(图1)

从业务监控时序图中看到一般分为五步:

1.数据埋点,业务端埋点后上报的日志,也可以是mysql。日志文件最后通过flume或者bin log上报。

2.数据收集,通常都通过kafka做数据采集。

3.数据清洗,一般都是在ods层用spark-streaming进行分流,清洗。

4.数据存储,数据分流后会存储到dw层,最后落到各种库里面。

5.数据展示,开源的很多,用的多还是grafana,还有数据大屏等。

看到这里大家有没有感觉到一丝困惑?有没有感觉跟链路追踪傻傻分不清楚?业务监控和链路追踪的区别就成了侵入式埋点上报和无侵入式agent抓取上报。这仿佛没了灵魂,于是我去问了下AI,AI给出的答案是“业务监控则是一种用于监测业务指标和关键业务流程的技术,目的在于实现对业务运营状况的实时了解和快速响应”。

二、新型业务监控,hunter-monitor的诞生。

站在巨人的肩膀上开始俯视全局,发现真实的需求:

1.报警能力,围绕业务,运营场景。设置各种预警的阈值。达到阈值后要及时发出响应。

2.数据计算和数据统计能力,根据埋点计算整条链路上,每个节点的异常数据。帮做统计和输出。

3.触达能力,京me,邮件,必要时电话,短信,微信都要跟上。

4.数据归档能力,数据归档是为了兜底,做最终一致性。是为了异常时做数据比对。

5.数据自理能力,在AI时代,必须要有自动消化处理的能力。

6.报警规则能力,“树”的应用,要把整个系统链路串联起来的能力。

我们是京东保险平台研发部,承接商城的端延保订单的流量。流量全是交易数据。交易数据是不允许丢失。因此我们孕育出自己的业务监控系统“监控猎手 (hunter-monitor)” 简称hm。hm已经实现了以上6种能力。在出现问题时,会第一时间通知业务和产品。还提供了异常数据统计、节点数据计算、回溯、补偿等能力。业务或产研发需要时,可以在平台上做数据对比。还具备了延展能力,如可以对接jsf接口。来实现自动补偿能力。

hm业务状态监控的核心能力是:数据串联和数据计算。是可以把业务整条链路在系统中的埋点,已线性串联起来。并展示出每个节点的异常状态数据。最终消化掉异常数据。

三、三连问:谁适合接入?如何使用?有接入的实例么?

1、谁适合接入

接入保险SaaS工作台的系统都可以接入业务状态监控。没介入的呢?只需要在保险SaaS工作台中,创建租户便可以使用hm业务状态监控。

2、如何使用

2.1 监控接入

接入hm只要简单的三步即可,创建规则,创建报警规则,业务接入埋点。创建方式和常规的业务监控系统一样。

2.2 数据处理

异常数据最终需要处理掉。在监控列表中可以一键处理异常数据

2.3 定制化

我们支持**触达内容定制化,异常数据处理方式定制化,异常数据统计定制化。**可以调用业务系统jsf接口完成自动处理,也可以根据需求出异常数据报告,更可以深度帮助业务方定制系统链路中的异常处理。hm已应用到延保交易全链路系统,履约平台,业财一体平台和保险abTest等系统。我们来看几个延保业务的接入的场景。

3、实战!延保业务接入场景

3.1 大屏展示:

每周都会公示出上一周延保业务出现的问题,并通过经代小助手、京me和邮件发送给业务方负责人,支持异常投保单的下载。业务收到邮件后会按照邮件中的攻略去操作,完成正确的投保。截止目前帮助业务侧完成40万+的异常投保单的重新投保。帮助业务降低了客诉率,也帮助保司拿到保费。(图2)

(图2)

3.2 自动补单:

延保的业务上游大多来自商城,业务会在系统里处理订单分发到下游,由于量大,操作门槛高,总会出现异常的情况,比如漏配某个参数,导致交易失败或者用户不能正常履约。以前都是到客户履约的时候或者下游交易发起结算失败时,才能发现的问题。在hm中配置了监控后,发现异常情况会调用补单的jsf接口,触发自动补单。以前出现问题最长要已天为单位才能解决,现在分钟级解决问题。起到了降本增效的效果。

3.3 数据归档:

hm给延保上游和下游交易提供数据了永久归档能力,如发现各种异常类的情况,可以从hm系统里面导出数据来作数据比对。如果是金额类的还可以自动接入到对账系统。在线上查看对账结果,导出对账差异数据(图3)。同时会发送异常数据邮件,通知对应的产品和业务(图4)。

(图3)

(图4)

四、HM的内核,技术架构和实现方案

如果实在是没办法接入,只能自研怎么办?没关系,我把技术方法列出来。给大家提供解决方案的思路。

1.技术架构

hm架构上化繁为简,单刀直入。从最核心的业务数据下手,在业务应用中埋点,通过树型节点nodeId串起整条链路。埋点数据统一进数仓清洗后。由调度中心定时触发去做数据计算和数据统计,展示到前端。我们先来看一张架构图。图5

(图5)

2.核心技术

2.1 规则引擎

规则引擎是指埋点的规则。规则引擎参考了Jaeger源码,用来生成我们的规则编码nodeId。(图6)构建成hm的规则树。最终缓存到工作业务台展示(图7)。

(图6)

(图7)

2.2 报警引擎

报警引擎是指配置报警的一系列的规则,数据计算的规则,触达的方式。创建好规则后,要对每一个规则进行详细的报警配置,包括触发报警的类型,报警规则,操作阈值,处理方式等。(图8)报警类型指触达方式,继承了保险SaaS-msg的能力,支持邮件、京me、微信、电话等触达方式。任务系统使用Easy-Job来动态管理任务。处理方式可以对接业务方Jsf 来完成闭环,也可以设置成归档,以便后续的有导出或对数的需求。

(图8)

2.3 数据埋点

在保险工作台配置好埋点规则和报警规则后,就可以在业务方去埋点,区别于链路追踪或传统的基于Agent系统,它们都是无侵入埋点系统。hm则属于强侵入式埋点系统,在这里我们定制了一套埋点规范,“必须启用异步线程,进行发送MQ或者调用API接口”。埋点支持两种方式,一种是send msg to topic,mq支持jmq2/jmq4。另一种就是通过调用API去初始化hunter-expoxt的实体类。由hm来发送消息。

2.4 数据清洗

hm的主要职责在业务数据的归纳、分拣。除了埋点接入外还支持,mq、数据库等数据源的接入。所有的数据统一有集团的DP(DataPilot )平台的DataBus系统的DTS完成,统一进数仓的FDM/BDM层。再由集团的调度中心Buffalo(EMR),配置的spark任务执行数据分拣。最终数据进入doris/hive/es中存储。

2.5 数据计算

hm只记录异常数据,发力在异常数据的统计和计算上。在配置好规则节点和系统埋点后,hm会去计算每个节点的异常数据。根据报警规则来进行处理,或通知业务和产研,或调用业务系统的jsf接口去做异常数据的自动处理,又或者根据规则自行处理数据。

2.6 数据统计

hm每周会出数据统计报表发送给业务和产研。报表中会体现他负责的业务线下所有系统的异常数据,包括处理过的异常数据和未处理的异常数据,A业务线和B业务线异常对比数据,业务系统与业务系统的异常对比数据等。可以根据业务需求定制报表。帮助业务和产研更好掌握系统的最新状况。

2.7 任务中心

任务中心是指EasyJob,是和报警规则强绑定的。调度任务分为两类,一类是业务类任务,是动态去创建的任务,按照设置的corn执行。另一类是平台任务。用于维护业务类任务的,比如定期去删除没有异常的任务等。(图9)

(图9)

2.8 触达展示

触达方式支持了保险工作台、经代小助手、邮件、京me通知、企业微信、电话语音等。根据业务方需求来选择。

2.9 处理方式

如果触达3次还没有做异常的处理数据,会进行自动升级,在下次触达时会抄给上一级。异常数据需要在hm列表页里做数据状态变更。

2.10 开源能力:jaeger

hm底层参考了jaeger-core,重写了jaegerSpan和jaegerTracer类。并把jaeger-core和opentracing-api重新打包-形成自己的jar(hunter-api)

五、总结

以上是hm的全部技术细节。hm灵魂是数据计算、治理、数据统计。hm根基是集成百家之长。hm生在保险SaaS工作台,是我们平台研发部自研的一款面向业务的,异常监控处理的解决方案。汇集了团队每位伙伴的智慧。感兴趣的同学可以联系我们。

相关文章:

突破传统监测模式:业务状态监控HM的新思路

作者:京东保险 管顺利 一、传统监控系统的盲区,如何打造业务状态监控。 在系统架构设计中非常重要的一环是要做数据监控和数据最终一致性,关于一致性的补偿,已经由算法部的大佬总结过就不在赘述。这里主要讲如何去补偿&#xff…...

0Ω电阻在PCB板中的5大常见作用

在PCB板中,时常见到一些阻值为0Ω的电阻。我们都知道,在电路中,电阻的作用是阻碍电流,而0Ω电阻显然失去了这个作用。那它存在于PCB板中的原因是什么呢?今天我们一探究竟。 1、充当跳线 在电路中,0Ω电阻…...

分布式消息队列Kafka(三)- 服务节点Broker

1.Kafka Broker 工作流程 (1)zookeeper中存储的kafka信息 ​ 1)启动 Zookeeper 客户端。 [zrclasshadoop102 zookeeper-3.5.7]$ bin/zkCli.sh ​ 2)通过 ls 命令可以查看 kafka 相关信息。 [zk: localhost:2181(CONNECTED) 2]…...

蠕动泵说明书_RDB

RDB_2T-S蠕 动 泵 概述 蠕动灌装泵是一种高性能、高质量的泵。采用先进的微处理技术及通讯方式做成的控制器和步进电机驱动器,配以诚合最新研制出的泵头,使产品在稳定性、先进性和性价比上达到一个新的高度。适用饮料、保健品、制药、精细化工等诸流量…...

浅谈react如何自定义hooks

react 自定义 hooks 简介 一句话:使用自定义hooks可以将某些组件逻辑提取到可重用的函数中。 自定义hooks是一个从use开始的调用其他hooks的Javascript函数。 下面以一个案例: 新闻发布操作,来简单说一下react 自定义 hooks。 不使用自定义hooks时 …...

如何优雅的写个try catch的方式!

软件开发过程中,不可避免的是需要处理各种异常,就我自己来说,至少有一半以上的时间都是在处理各种异常情况,所以代码中就会出现大量的try {...} catch {...} finally {...} 代码块,不仅有大量的冗余代码,而…...

海尔智家:智慧场景掌握「主动」权,用户体验才有话语权

2023年1月,《福布斯》AI专栏作家Rob Toews发布了年度AI发展预测,指出人工智能的发展将带来涉及各行业、跨学科领域的深远影响。变革将至,全球已掀起生成式AI热,以自然语言处理为代表的人工智能技术在快速进化,积极拥抱…...

基于铜锁,在前端对登录密码进行加密,实现隐私数据保密性

本文将基于 铜锁(tongsuo)开源基础密码库实现前端对用户登录密码的加密,从而实现前端隐私数据的保密性。 首先,铜锁密码库是一个提供现代密码学算法和安全通信协议的开源基础密码库,在中国商用密码算法,例…...

LVS的小总结

LVS的工作模式及其工作过程: LVS 有三种负载均衡的模式,分别是VS/NAT(nat 模式)、VS/DR(路由模式)、VS/TUN(隧道模式)。 1、NAT模式(NAT模式) 原理&#x…...

Spring依赖注入(DI配置)

Spring依赖注入 1. 依赖注入方式【重点】1.1 依赖注入的两种方式1.2 setter方式注入问题导入引用类型简单类型 1.3 构造方式注入问题导入引用类型简单类型参数适配【了解】 1.4 依赖注入方式选择 2. 依赖自动装配【理解】问题导入2.1 自动装配概念2.2 自动装配类型依赖自动装配…...

绘声绘影2023简体中文版新功能介绍

会声会影是一款专业的数字音频工作站软件,它提供强大的音频编辑和制作功能,被广泛应用于音乐创作、录音棚录制以及现场演出等领域。会声会影的最新版本会声会影2023将于2022年底发布,主要功能和新功能详述如下: 会声会影2023主要功能: 1. 直观易用的界面:会声会影采用简洁而不…...

一个好的前端开发人员必须掌握的前端代码整洁与开发技巧

前端代码整洁与开发技巧 ​ 为保证前端人员在团队项目开发过程中的规范化、统一化,特建立《前端代码整洁与开发技巧》文档,通过代码简洁推荐、开发技巧推荐等章节来帮助我们统一代码规范和编码风格,从而提升项目的可读性和可维护性。 目录 …...

【别再困扰于LeetCode接雨水问题了 | 从暴力法=>动态规划=>单调栈】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…...

酒厂酒业IP网络广播系统建设方案-基于局域网的新一代交互智慧酒厂酒业IP广播设计指南

酒厂酒业IP网络广播系统建设方案-基于局域网的新一代交互智酒业酒厂IP广播系统设计指南 由北京海特伟业任洪卓发布于2023年4月25日 一、酒厂酒业IP网络广播系统建设需求 随着中国经济的快速稳步发展,中国白酒行业也迎来了黄金时期,产品规模、销售业绩等…...

OpenHarmony JS Demo开发讲解

项目结构 打开entry→src→main→js,工程的开发目录如图所示 其中, i18n文件夹:用于存放配置不同语言场景的资源,比如应用文本词条,图片路径等资源。en-US.json文件定义了在英文模式下页面显示的变量内容&#xff0c…...

CentOS系统安装Intel E810 25G网卡驱动

因特尔网卡驱动给的都是二进制包,需要编译环境。 首先去Intel下载最新的驱动 E810驱动下载:https://www.intel.com/content/www/us/en/download/19630/intel-network-adapter-driver-for-e810-series-devices-under-linux.html?wapkwe810 里面有三个驱…...

Java经典的String面试题

Java经典的Spring面试题 String是基本数据类型吗? String你是基本数据类型String是可变的话? String是final类型的,不可变怎么比较两个字符串的值一样,怎么比较两个字符串是否同一对象? 比较字符串的值是否相同用equa…...

c# 结构体与类区别

在 C# 中,结构体(struct)和类(class)都是用户自定义类型,它们具有一些共同的特性,比如可以定义字段、属性、方法等。但它们也有一些区别。 下面是一些结构体和类的区别: 定义方式不…...

使用 patch 命令打补丁

之前的这篇文章 git 导出差异 diff 文件 写了导出 diff 、patch 文件。 拿到 patch 文件,用 patch 命令可以快速的把修改内容合入,合入后在 git 上是已修改的状态,如需提交还要 add 、commit 。 patch 语法 patch --help 可以看到 Usage:…...

C++——类和对象[上]

目录 1.初识面向对象 2.类的引入 3.类的定义 4.成员变量的命名规则 5.类的实例化 6.类对象模型 7.this指针 1.初识面向对象 C语言是一门面向过程的语言,它关注的是完成任务所需要的过程;C是一门面向对象的语言,将一个任务分为多个对…...

synchronized 学习

学习源: https://www.bilibili.com/video/BV1aJ411V763?spm_id_from333.788.videopod.episodes&vd_source32e1c41a9370911ab06d12fbc36c4ebc 1.应用场景 不超卖,也要考虑性能问题(场景) 2.常见面试问题: sync出…...

AI Agent与Agentic AI:原理、应用、挑战与未来展望

文章目录 一、引言二、AI Agent与Agentic AI的兴起2.1 技术契机与生态成熟2.2 Agent的定义与特征2.3 Agent的发展历程 三、AI Agent的核心技术栈解密3.1 感知模块代码示例:使用Python和OpenCV进行图像识别 3.2 认知与决策模块代码示例:使用OpenAI GPT-3进…...

8k长序列建模,蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂

蛋白质结合剂(如抗体、抑制肽)在疾病诊断、成像分析及靶向药物递送等关键场景中发挥着不可替代的作用。传统上,高特异性蛋白质结合剂的开发高度依赖噬菌体展示、定向进化等实验技术,但这类方法普遍面临资源消耗巨大、研发周期冗长…...

转转集团旗下首家二手多品类循环仓店“超级转转”开业

6月9日,国内领先的循环经济企业转转集团旗下首家二手多品类循环仓店“超级转转”正式开业。 转转集团创始人兼CEO黄炜、转转循环时尚发起人朱珠、转转集团COO兼红布林CEO胡伟琨、王府井集团副总裁祝捷等出席了开业剪彩仪式。 据「TMT星球」了解,“超级…...

Python爬虫(一):爬虫伪装

一、网站防爬机制概述 在当今互联网环境中,具有一定规模或盈利性质的网站几乎都实施了各种防爬措施。这些措施主要分为两大类: 身份验证机制:直接将未经授权的爬虫阻挡在外反爬技术体系:通过各种技术手段增加爬虫获取数据的难度…...

现代密码学 | 椭圆曲线密码学—附py代码

Elliptic Curve Cryptography 椭圆曲线密码学(ECC)是一种基于有限域上椭圆曲线数学特性的公钥加密技术。其核心原理涉及椭圆曲线的代数性质、离散对数问题以及有限域上的运算。 椭圆曲线密码学是多种数字签名算法的基础,例如椭圆曲线数字签…...

大学生职业发展与就业创业指导教学评价

这里是引用 作为软工2203/2204班的学生,我们非常感谢您在《大学生职业发展与就业创业指导》课程中的悉心教导。这门课程对我们即将面临实习和就业的工科学生来说至关重要,而您认真负责的教学态度,让课程的每一部分都充满了实用价值。 尤其让我…...

JVM暂停(Stop-The-World,STW)的原因分类及对应排查方案

JVM暂停(Stop-The-World,STW)的完整原因分类及对应排查方案,结合JVM运行机制和常见故障场景整理而成: 一、GC相关暂停​​ 1. ​​安全点(Safepoint)阻塞​​ ​​现象​​:JVM暂停但无GC日志,日志显示No GCs detected。​​原因​​:JVM等待所有线程进入安全点(如…...

蓝桥杯3498 01串的熵

问题描述 对于一个长度为 23333333的 01 串, 如果其信息熵为 11625907.5798&#xff0c; 且 0 出现次数比 1 少, 那么这个 01 串中 0 出现了多少次? #include<iostream> #include<cmath> using namespace std;int n 23333333;int main() {//枚举 0 出现的次数//因…...

Maven 概述、安装、配置、仓库、私服详解

目录 1、Maven 概述 1.1 Maven 的定义 1.2 Maven 解决的问题 1.3 Maven 的核心特性与优势 2、Maven 安装 2.1 下载 Maven 2.2 安装配置 Maven 2.3 测试安装 2.4 修改 Maven 本地仓库的默认路径 3、Maven 配置 3.1 配置本地仓库 3.2 配置 JDK 3.3 IDEA 配置本地 Ma…...