当前位置: 首页 > news >正文

从零开始写一个APM监控程序(一)协议

APM(Application Performance Monitoring)是一种用于监控和管理应用程序性能的解决方案。它通过收集、分析和报告应用程序的性能数据,帮助开发人员和系统管理员更好地了解应用程序的运行状况,识别潜在的性能问题,并进行优化。

一般来说,APM 工具提供以下功能:

  1. 性能监控: 实时监控应用程序的性能指标,包括响应时间、吞吐量、错误率等。

  2. 事务追踪: 能够跟踪和记录应用程序中各个事务的执行情况,从而了解事务的执行路径、时间分布等。

  3. 错误检测: 检测并报告应用程序中的错误和异常,帮助快速定位和解决问题。

  4. 性能分析: 分析应用程序的性能瓶颈,提供可视化的分析工具,帮助开发人员优化代码和系统配置。

  5. 资源利用率监控: 监控硬件资源(如 CPU、内存、磁盘等)的利用率,帮助发现资源瓶颈。

APM 工具通常可以与各种类型的应用程序一起使用,包括 Web 应用、移动应用、微服务架构等。它们通过在应用程序中嵌入代理或采集器来收集数据,并将数据传送到中央存储或云服务中进行分析和展示。

一些常见的 APM 工具包括 New Relic、AppDynamics、Datadog、Elastic APM 等。这些工具的具体特性和支持的技术栈可能有所不同,选择合适的工具通常取决于应用程序的特点和需求。

国产的开源东西主要是SkyWalking。Apache SkyWalking 是一个开源的应用性能管理(APM)系统,用于监控、诊断和优化分布式系统的性能。它支持多种语言,包括 Java、.NET、Node.js、Go 等,可以跟踪分布式系统中的请求流,并提供详细的性能数据和可视化的监控工具。

以下是一些 SkyWalking 的主要特点:

  1. 分布式追踪: SkyWalking 提供了分布式追踪能力,可以跟踪请求在整个分布式系统中的传播路径,包括服务之间的调用和调用链路的详细信息。

  2. 性能指标: 提供系统的性能指标,包括吞吐量、响应时间、错误率等,以便开发人员和运维人员更好地了解系统的运行状况。

  3. 自动仪表板: 提供直观的仪表板和可视化工具,帮助用户监控和诊断分布式应用程序的性能问题。

  4. 跨语言支持: SkyWalking 支持多种语言,使其适用于各种技术栈和混合语言环境。

  5. 插件扩展: 具有插件系统,可以通过插件扩展功能,支持集成其他系统和工具。

  6. 开源社区: 作为 Apache 项目,SkyWalking 拥有活跃的开源社区,不断更新和改进系统。

SkyWalking 有助于开发团队识别性能瓶颈、优化代码,并提高系统的可维护性。

但是,别人的东西永远不一定完全适合自己,大多数时候改造的成本比从零开始写一个成本更高。

典型的APM(Application Performance Monitoring)通常是通过收集、分析和展示应用程序的性能数据,以监控和优化应用程序的运行状态。以下是一般的 APM 实现思路:

  1. 数据采集(Instrumentation): 在应用程序代码中插入监控点,收集关键性能指标。这通常包括跟踪请求、记录方法执行时间、捕获错误、以及收集资源利用情况等。开发者需要在代码中嵌入监控仪器,以便收集有关应用程序性能的数据。

  2. 数据传输: 将采集到的数据传输到中央收集点。这可以通过使用 Agent、SDK 或代理来完成。这些组件可以负责收集数据并将其传输到 APM 系统的后端。

  3. 数据存储: 将数据存储在后端数据库或数据仓库中,以供分析和查询。通常,APM 系统会使用数据库或其他持久性存储来保存监控数据。

  4. 数据分析: 对收集到的数据进行分析,以识别性能瓶颈、错误和潜在的优化点。分析可能包括生成报告、绘制性能图表、检测异常等。

  5. 可视化: 将分析结果以可视化的方式展示给开发者、运维人员和其他利益相关者。这可以通过仪表板、图表、报表等方式呈现。

  6. 告警和通知: 在性能达到或超过阈值时,发出告警,通知相关人员。这有助于快速响应性能问题,保持应用程序在高性能状态。

  7. 追踪请求和事务: 通过追踪请求和事务,可以了解整个系统的性能状况,包括前端和后端服务的交互。

  8. 支持多语言和多平台: APM 工具通常需要支持多种编程语言和运行环境,以便适用于各种应用程序和服务。

  9. 安全性: 保护监控数据的安全性,确保监控数据不被未授权的访问。

采集数据的部分分为探针和SDK两种,比如是JAVA和dotNet有虚拟机的,可以使用hook技术来拦截自己需要的方法,如果是编译型语言基本上使用的是SDK,程序员插码的方式实现。当然在linux下也可以使用eBPF的方式来构建挂钩程序,但是做到通用比较麻烦。

我认为与其在后期加HOOK,不如在项目之初就考虑需要监控的位置,用SDK来解决。

首先我们要解决交换协议:

一般,采集的内容分类3类:

  • 某个代码块执行的时长效果等数据叫span,多个span可以串为一个trace;
  • 针对硬件使用率的监控一般叫metric;
  • 再有,就是分级部署时候探针(sdk)与后端之间还有一级,会对数据融合一次,减少数据量。

我打算采用protobuf3的方式定义数据交互格式,每个消息都定义最基本的常用的数据,其他的部分作为键值对可以扩展,后续只需要定义键值对就好了;其实也没有啥好扩展的,这么多年就这么点东西;数据传输可以用json,也可以用protobuf编码,目前大多数产品都是http传输,我觉得可以再进一步,使用http2或者websocket更好。

syntax = "proto3";
package model;
option go_package = "birdim/server/pb";// 服务定义
service ApmService {rpc AgentEvent (ApmAgentMsg) returns (ApmServerMsg);rpc FrontEvent (ApmAgentMsg) returns (ApmServerMsg);
}// 发送起端都是ApmAgentRequest     接收端应答ApmResponse
// 具体根据类型字段区分
// 1) ApmHello     ----> ApmHelloReply
// 2) ApmSpan      ----> ApmReply
// 3) ApmStatistic ----> ApmReply
// 4) APmUsage     ----> ApmReply
// 5) ApmHeartBeat ----> ApmReply | ApmCtrl// 服务端发起参数调整        执行后应答
// 6) ApmCtrl      ----> ApmReply// 展示端发起查询           服务端返回数据
// 7) ApmQuery     ----> ApmData// 消息的所有类型
enum ApmMsgType {// Invalid value. The name must be globally unique.AMTUnused = 0;AMTHello= 1;AMTHelloReply = 2;AMTSpan = 3;AMTStatistic =  4;AMTCtrl = 5;AMTReply = 6;AMTQuery = 7;AMTData = 8;AMTHeartBeat = 9;AMTUsage = 10;
}// 控制命令代码
enum ApmCmdCode{ACUnused = 0;ACRestart = 1;ACSuspend = 2;ACResume = 3;ACConfig = 4;
}// 执行状态代码
enum ApmStateCode{ASUnused = 0;ASOk = 1;ASFail = 2;ASPending = 3;
}// 键值对,未用
message KeyValuePair {// 定义单个键值对string key = 1;string value = 2;
}// 如果需要登录,则需要认证
enum ApmAuthType{AUTNone = 0;  // 可以不使用AUTPass = 1;  // 前端客户使用AUTKey = 2;   // agent 使用
}// 如果需要登录,一定是从客户端发起
message ApmHello{int64 seq = 1;int64 tm = 2;string u_id = 3;ApmAuthType auth_type = 4;  // 认证类型string secret = 5;     // 密码或者key,或者啥也不用map<string, string> params = 6;
}// 协商的应答
message ApmHelloReply{int64 seq = 1;int64 tm = 2;string u_id = 3;      // 应答者的身份string state = 4;     // 继续其他步骤,成功或者错误map<string, string> params = 6;
}// 采集的具体内容
message ApmSpan{// Request fields hereint64 seq = 1;int64 tm = 2;string u_id = 3;// APM-related fieldsstring trace_id = 4;string trace_name = 5;string span_id = 6;string parent_span_id = 7;string span_name = 8;string file = 9;string class = 10;string func = 11;string line = 12;int64 tm_start = 13;int64 tm_end = 14;ApmStateCode state = 15;string detail = 16;map<string, string> params = 17;
}// 如果需要在agent或者collector 统计过滤
message ApmStatistic{int64 seq = 1;int64 tm = 2;string u_id = 3;string trace_name = 4;string span_name = 5;int64 tm_start = 6;int64 tm_end = 7;int64 span_count = 8;int64 span_errors = 9;int64 span_slow_count = 10;int64 span_avg_time_cost = 11;int64 span_max_time_cost = 12;int64 span_min_time_cost = 13;map<string, string> params = 14;
}message ApmCtrl{int64 seq = 1;int64 tm = 2;string u_id =3;ApmCmdCode code = 4;  // 控制的代码string cmd = 5;string detail = 6;map<string, string> params = 7;
}// 应答一条或者多条上报
message ApmReply{int64 seq = 1;int64 tm = 2;string u_id = 3;int64 ref_seq1 = 4;int64 ref_seq2 = 5;int32 state = 6;string detail = 7;
}// 心跳数据
message ApmHearBeat{int64 seq = 1;int64 tm = 2;string u_id = 3;
}// 使用率
message ApmUsage{int64 seq = 1;int64 tm = 2;string u_id = 3;int64 start_tm = 4;   // 搜索开始时间int64 end_tm = 5;     // 搜索结束时间int64 delta_tm = 6;   // 时间片大小map<string, string> params = 7;  // 内存,CPU,磁盘;的最大值,最小值,平均值,
}// 查询类型
enum ApmQueryType{AQTUnused = 0;AQTUsage = 1;          // 利用率按时间片绘图AQTSpanDetail = 2;     //AQTSpanStatistic = 3;
}enum ApmOpCodeType{AOCTUnused = 0;         // 说明是一个括号,里面有多个childAOCTEqual = 1;          // x = 1AOCTUnEqual = 2;        // x != 1AOCTBetween = 3;        // 1 < x < 2AOCTBetweenBoth = 4;    // 1 <= x <= 2AOCTBetweenLeft = 5;    // 1 <= x < 2AOCTBetweenRight = 6;   // 1 < x <= 2AOCTGreaterThan = 7;    // x > 1AOCTGreaterOrEqual = 8; // x >= 1AOCTLessThan = 9;       // x < 9AOCTLessOrEqual = 10;   // x <= 9AOCTLike = 11;          // 正则匹配字符串AOCTUnlike = 12;AOCTIn = 13;            // 集合之中
}// 定义一个查询条件的树状结构
message ApmQueryCondition{string name = 1;string field = 2;              // 字段,ApmOpCodeType  op_code = 3;    // 计算符,值个数与运算符有关bool  join_code = 4;           // 同级条件合并运算符,and --> true, or ---> falserepeated string values = 5;   // 根据字段的类型做数据转换repeated ApmQueryCondition children = 6;   // 如果有多级,就用子节点方式,本级就相当于一个括号,op = Unused
}// 查询, 查询条件为空,就是认为全都要,统计类型需要时间分片大小,而详情不需要
message ApmQuery{int64 seq = 1;int64 tm = 2;string u_id = 3;int64 start_tm = 4;   // 搜索开始时间int64 end_tm = 5;     // 搜索结束时间int64 delta_tm = 6;   // 时间片大小ApmQueryType type = 7;repeated ApmQueryCondition conditions = 8;   // 一级条件也是一组,按照顺序合并}// 使用率的列表
message ApmUsageList{repeated ApmUsage list = 1;
}// 上报详细情况列表
message ApmSpanList{repeated ApmSpan list = 1;
}message ApmStatisticList{repeated ApmStatistic list = 1;
}// 查询数据得到的结果
message ApmData{int64 seq = 1;int64 tm = 2;string u_id = 3;int64 start_tm = 4;   // 搜索开始时间int64 end_tm = 5;     // 搜索结束时间int64 delta_tm = 6;   // 时间片大小ApmQueryType type = 7;oneof message {ApmUsageList usages = 8;ApmSpanList  spans = 9;ApmStatisticList statistic = 10;}}// the message that one agent would send
message ApmAgentMsg{ApmMsgType date_type=1;oneof message {ApmHello hello = 2;ApmSpan span = 3;ApmStatistic statistic = 4;ApmUsage usage = 5;ApmReply reply = 6;}
}// 前端查询使用
message ApmFrontMsg{ApmMsgType date_type=1;oneof message{ApmHello  hello = 2;ApmQuery  query = 3;}
}// reponse from server, collector or agent
message ApmServerMsg{ApmMsgType date_type=1;oneof message{ApmHelloReply hello_reply = 2;ApmReply reply = 3;ApmCtrl  ctrl = 4;ApmData  data = 5;}
}

未完待续……

相关文章:

从零开始写一个APM监控程序(一)协议

APM&#xff08;Application Performance Monitoring&#xff09;是一种用于监控和管理应用程序性能的解决方案。它通过收集、分析和报告应用程序的性能数据&#xff0c;帮助开发人员和系统管理员更好地了解应用程序的运行状况&#xff0c;识别潜在的性能问题&#xff0c;并进行…...

UDP网络套接字编程

先来说说数据在网络上的传输过程吧&#xff0c;我们知道系统其实终究是根据冯诺依曼来构成的&#xff0c;而网络数据是怎么发的呢&#xff1f; 其实很简单&#xff0c;网络有五层。如下&#xff1a; 如上图&#xff0c;我们知道的是&#xff0c;每层对应的操作系统中的那些地方…...

【苏州元德维康生物医药-注册】

...

从零带你底层实现unordered_map (1)

&#x1f4af; 博客内容&#xff1a;从零带你实现unordered_map &#x1f600; 作  者&#xff1a;陈大大陈 &#x1f680; 个人简介&#xff1a;一个正在努力学技术的准C后端工程师&#xff0c;专注基础和实战分享 &#xff0c;欢迎私信&#xff01; &#x1f496; 欢迎大家…...

第六届浙江省大学生网络与信息安全竞赛 2023年 初赛/决赛 WEB方向 Writeup

-------------------【初赛】------------------- easy php 简单反序列化 __debuginfo()魔术方法打印所需调试信息&#xff0c;反序列化时候执行&#xff01; 链子如下&#xff1a; BBB::__debuginfo()->CCC::__toString()->AAA::__call()EXP&#xff1a; <?php…...

设计模式篇---装饰模式

文章目录 概念结构实例总结 概念 装饰模式&#xff1a;动态的给一个对象增加一些额外的职责。就扩展功能而言&#xff0c;装饰模式提供了 一种比使用子类更加灵活的替代方案。 装饰模式是一种对象结构型模式&#xff0c;它以对客户透明的方式动态地给一个对象附加上更多的责任…...

JAXB:根据Java文件生成XML schema文件

说明 JAXB有个schemagen脚本&#xff0c;可以根据Java文件生成XML schema。这个工具在JAXB独立发布包中有&#xff0c;可以从官网下载JAXB的独立发布包&#xff1a; https://eclipse-ee4j.github.io/jaxb-ri/ 示例 使用schemagen -d <path> <java files>格式 …...

opencv(5): 滤波器

滤波的作用&#xff1a;一幅图像通过滤波器得到另一幅图像&#xff1b;其中滤波器又称为卷积核&#xff0c;滤波的过程称为卷积。 锐化&#xff1a;边缘变清晰 低通滤波&#xff08;Low-pass Filtering&#xff09;&#xff1a; 目标&#xff1a;去除图像中的高频成分&#…...

《微信小程序开发从入门到实战》学习二十二

3.3 开发创建投票页面 3.3.10 使用switch开关组件 用switch开关组件增加一个设置是否匿名投票的功能。 switch常用属性如下&#xff1a; checked 开还是关&#xff0c;默认false关 disabled 是否禁用&#xff0c;默认false不禁用&#xff0…...

LLM模型-讯飞星火与百度文心api调用

spark-wenxin 1-讯飞星火1_1-SparkApi.py1_2- Chat_spark.py1_3-调用api 2-百度文心2_1.code 3-两者之间比较与openai 1-讯飞星火 进入讯飞官网进行创建应用&#xff0c;获取相关密钥APPID&#xff0c;APISecret&#xff0c;APIKey&#xff0c;选择最新版本 首次调用讯飞官方a…...

AIGC ChatGPT 4 将数据接口文件使用Python进行入库Mysql

数据分析,数据处理的过程,往往将采集到的数据,或者从生产库过来的接口文件,我们都需要进行入库操作。 如下图数据: 将这样的数据接口文件,进行入库,插入到Mysql数据库中。 用Python代码来完成。 ChatGPT4来完成代码输入。 ChatGPT4完整内容如下: 这个任务可以使用`…...

Loguru:一个超酷的Python库

在项目中&#xff0c;了解代码运行情况至关重要&#xff0c;特别是遇到Bug需要排除问题的时候&#xff0c;而这正是日志记录发挥作用的地方。对于Python开发者来说&#xff0c;Loguru是一个简单但功能强大的日志记录库&#xff0c;它使得跟踪代码的行为变得轻松而高效。 什么是…...

cloud的概念

"Cloud"&#xff08;云&#xff09;通常指的是云计算&#xff08;cloud computing&#xff09;领域。云计算是一种通过网络&#xff08;通常是互联网&#xff09;提供计算资源和服务的模型。这些计算资源包括计算能力、存储空间、数据库、网络、分析能力等。云计算模…...

物联网赋能:WIFI HaLow在无线连接中的优势

在探讨无线网络连接时&#xff0c;我们不难发现&#xff0c;WIFI已经成为我们日常生活中不可或缺的一部分&#xff0c;承载了半数以上的互联网流量&#xff0c;并在家庭、学校、娱乐场所等各种场合广泛应用。然而&#xff0c;尽管WIFI4、WIFI5和WIFI6等协议无处不在&#xff0c…...

淘宝商品详情数据接口(Taobao.item_get)

淘宝商品详情接口是一种程序化的接口&#xff0c;允许开发者根据商品ID或商品链接&#xff0c;获取淘宝平台上的商品详细信息。通过这个接口&#xff0c;开发者可以方便地获取商品的标题、价格、销量、描述等数据&#xff0c;进而提供给用户进行展示和购买。 使用淘宝商品详情…...

视频剪辑方法:一键批量调整色调的高效技巧

在视频剪辑的过程中&#xff0c;色调调整是一项非常重要的工作。它能够改变影片的氛围、情感和视觉效果&#xff0c;更好地沉浸在影片的情境中。然而&#xff0c;对于许多视频剪辑师来说&#xff0c;批量调整色调是一项非常繁琐的任务&#xff0c;需要耗费大量的时间和精力。色…...

NAS层协议栈学习笔记

NAS(Non-Access Stratum)是无线网络中非接入层及包括移动性管理(MM)和会话管理(SM)协议 &#xff0c;在5G(NR)系统中连接管理(Connection Management)用于建立和释放UE与AMF之间的控制面(CP)信令连接。 5G中移动性管理是通过NAS信令在UE与核心网之间进行交互的&#xff0c;连接…...

前端食堂技术周刊第 105 期:TS 5.3 RC、Vite 5.0、W3C 新任 CEO、有害的 Pinia 模式、2024 更快的 Web

美味值&#xff1a;&#x1f31f;&#x1f31f;&#x1f31f;&#x1f31f;&#x1f31f; 口味&#xff1a;金桂普洱 食堂技术周刊仓库地址&#xff1a;https://github.com/Geekhyt/weekly 大家好&#xff0c;我是童欧巴。欢迎来到前端食堂技术周刊&#xff0c;我们先来看下…...

jenkins 使用原生 git clone 命令,指定ssh密钥文件

使用环境变量 GIT_SSH_COMMAND 从Git版本2.3.0可以使用环境变量GIT_SSH_COMMAND&#xff0c;如下所示&#xff1a; GIT_SSH_COMMAND"ssh -i ~/.ssh/id_rsa_example" git clone example请注意&#xff0c;-i有时可以被您的配置文件覆盖&#xff0c;在这种情况下&…...

cobol数据类型

数据类型 数据部&#xff08;data division&#xff09;是用来描述程序中使用的变量的。 data name 数据名称 数据名称必须在数据部中定义&#xff0c;才能在过程部中使用。必须有一个用户自定义的名称&#xff0c;不能使用关键字&#xff0c;为存储实际数据的存储单元提供引…...

Flask RESTful 示例

目录 1. 环境准备2. 安装依赖3. 修改main.py4. 运行应用5. API使用示例获取所有任务获取单个任务创建新任务更新任务删除任务 中文乱码问题&#xff1a; 下面创建一个简单的Flask RESTful API示例。首先&#xff0c;我们需要创建环境&#xff0c;安装必要的依赖&#xff0c;然后…...

【位运算】消失的两个数字(hard)

消失的两个数字&#xff08;hard&#xff09; 题⽬描述&#xff1a;解法&#xff08;位运算&#xff09;&#xff1a;Java 算法代码&#xff1a;更简便代码 题⽬链接&#xff1a;⾯试题 17.19. 消失的两个数字 题⽬描述&#xff1a; 给定⼀个数组&#xff0c;包含从 1 到 N 所有…...

iPhone密码忘记了办?iPhoneUnlocker,iPhone解锁工具Aiseesoft iPhone Unlocker 高级注册版​分享

平时用 iPhone 的时候&#xff0c;难免会碰到解锁的麻烦事。比如密码忘了、人脸识别 / 指纹识别突然不灵&#xff0c;或者买了二手 iPhone 却被原来的 iCloud 账号锁住&#xff0c;这时候就需要靠谱的解锁工具来帮忙了。Aiseesoft iPhone Unlocker 就是专门解决这些问题的软件&…...

在四层代理中还原真实客户端ngx_stream_realip_module

一、模块原理与价值 PROXY Protocol 回溯 第三方负载均衡&#xff08;如 HAProxy、AWS NLB、阿里 SLB&#xff09;发起上游连接时&#xff0c;将真实客户端 IP/Port 写入 PROXY Protocol v1/v2 头。Stream 层接收到头部后&#xff0c;ngx_stream_realip_module 从中提取原始信息…...

微服务商城-商品微服务

数据表 CREATE TABLE product (id bigint(20) UNSIGNED NOT NULL AUTO_INCREMENT COMMENT 商品id,cateid smallint(6) UNSIGNED NOT NULL DEFAULT 0 COMMENT 类别Id,name varchar(100) NOT NULL DEFAULT COMMENT 商品名称,subtitle varchar(200) NOT NULL DEFAULT COMMENT 商…...

RNN避坑指南:从数学推导到LSTM/GRU工业级部署实战流程

本文较长&#xff0c;建议点赞收藏&#xff0c;以免遗失。更多AI大模型应用开发学习视频及资料&#xff0c;尽在聚客AI学院。 本文全面剖析RNN核心原理&#xff0c;深入讲解梯度消失/爆炸问题&#xff0c;并通过LSTM/GRU结构实现解决方案&#xff0c;提供时间序列预测和文本生成…...

【分享】推荐一些办公小工具

1、PDF 在线转换 https://smallpdf.com/cn/pdf-tools 推荐理由&#xff1a;大部分的转换软件需要收费&#xff0c;要么功能不齐全&#xff0c;而开会员又用不了几次浪费钱&#xff0c;借用别人的又不安全。 这个网站它不需要登录或下载安装。而且提供的免费功能就能满足日常…...

Java毕业设计:WML信息查询与后端信息发布系统开发

JAVAWML信息查询与后端信息发布系统实现 一、系统概述 本系统基于Java和WML(无线标记语言)技术开发&#xff0c;实现了移动设备上的信息查询与后端信息发布功能。系统采用B/S架构&#xff0c;服务器端使用Java Servlet处理请求&#xff0c;数据库采用MySQL存储信息&#xff0…...

【 java 虚拟机知识 第一篇 】

目录 1.内存模型 1.1.JVM内存模型的介绍 1.2.堆和栈的区别 1.3.栈的存储细节 1.4.堆的部分 1.5.程序计数器的作用 1.6.方法区的内容 1.7.字符串池 1.8.引用类型 1.9.内存泄漏与内存溢出 1.10.会出现内存溢出的结构 1.内存模型 1.1.JVM内存模型的介绍 内存模型主要分…...

安卓基础(Java 和 Gradle 版本)

1. 设置项目的 JDK 版本 方法1&#xff1a;通过 Project Structure File → Project Structure... (或按 CtrlAltShiftS) 左侧选择 SDK Location 在 Gradle Settings 部分&#xff0c;设置 Gradle JDK 方法2&#xff1a;通过 Settings File → Settings... (或 CtrlAltS)…...