OBCP第八章 OB运维、监控与异常处理-数据库监控
系统监控视图:系统视图
OceanBase 数据库为多租户架构,租户分为两种类型:普通租户以及 sys 租户。OceanBase 数据库系统表都存储在 sys 租户,且主键中存储租户号(tenant_id),区分每个租户的内容。每个租户内部创建一个该租户数据的只读视图
租户类型 | 包含系统表类别 |
SYS租户 | 核心表 分表位置信息表 模式及用户权限表 DDL 操作相关的表 系统配置相关的表 系统变量及系统状态相关的表 Zone 和服务器等部署相关的系统表 租户、Resource Pool、Unit 相关的系统表 |
普通租户 | 以 __tenant 作为表名前缀的只读视图,表示租户内信息其它系统表的视图 |
状态查询SQL
SQL | 说明 | 注意事项 |
SELECT * FROM __all_zone | 查看zone状态 | is_merge_error对应的value是否是0 status是否全为ACTIVE |
SELECT ZONE, SVR_IP, STATUS,STOP_TIME FROM __all_server; | 查看OBServer状态 | status,stop_time 两个字段来标识 OBserver 的状态: stop_time为0时,表示OBServer为started状态, 不为0时,表示OBServer处于stopped状态 status为active时表示OBServer处于正常状态, 为inactive时表示OBServer处于下线状态,为 deleting时表示OBServer正在被删除 |
磁盘空间查询SQL
SQL | 说明 | 注意事项 |
SELECT * FROM __all_zone; | 查看Zone状态 | is_merge_error对应的value是否是0 status 是否全为ACTIVE |
SELECT ZONE,SVR_IP,STATUS,STOP_TIME FROM __all_server; | 查看OBServer状态 | status,stop_time 两个字段来标识 OBserver 的状态: stop_time为0时,表示OBServer为started状态,不为0时,表示OBServer处于stopped状态status为active时表示OBServer处于正常状态,为inactive时表示OBServer处于下线状态,为deleting时表示OBServer正在被删除 |
磁盘空间查询SQL
SQL | 说明 | 注意事项 |
select total_size,used_size,free_size svr_ip from __all_virtual_disk_stat; | 查询 OceanBase 集群中各 OBServer 的磁盘容量和已使用量 | free_size 一般大于800G(根据实际机器配置会有区别)。如果所有server都小于此值,说明集群存储空间不够,应考虑集群扩容 |
select tenant_id, svr_ip, unit_id, table_id, sum(data_size) /1024/1024/1024 size_G from __all_virtual_meta_table group by 1, 2, 3, 4; | 记录了副本信息,可按租户,表统计磁盘空间使用 | 如果租户某unit磁盘空间占用过大(比如>4TB)应考虑增加租户unit。如果单表磁盘空间占用过大 (比如>200GB),应考虑对表进行分区。只包含 SSTable磁盘空间,不含memTable内存中数据 |
历史事件查询SQL
__all_rootservice_event_history和__all_server_event_history分别记录集群级别和OBServer级别的历史事件。可以通过这两张表查询不同事件的信息,下表以查看转储事件为例
SQL | 说明 | 注意事项 |
select* from __all_rootservice_event_history WHERE event LIKE ‘%minor%’ORDER BY gmt_create DESC LIMIT 10; | 系统租户从 RootService 角度查看最近10次的转储记录 | __all_rootservice_event_history记录集群级事件,如major freeze, 合并,server 上下线,修改primary_zone引发的切主 操作、负载均衡任务执行等,保留 7 天内的数据 |
SELECT * FROM __all_server_event_history WHERE svr_ip='192.168.100.1' AND module IN ('freeze', 'minor_merge') ORDER BY gmt_create DESC LIMIT 10; | 系统租户查看具体某台OBServer 的转储情况 | __all_server_event_history 记录server级事件,如转储,用户发起的系统命令,保留 2 天内的数据 |
机器剩余资源查询SQL
select b.zone, a.svr_ip, a.cpu_total, a.cpu_assigned cpu_ass, a.cpu_assigned_percent
cpu_ass_percent,round(a.mem_total/1024/1024/1024, 2) as mem_total,
round(a.mem_assigned/1024/1024/1024, 2) mem_ass,round((a.mem_totala.mem_assigned)/1024/1024/1024, 2) as mem_free,a.mem_assigned_percent mem_ass_percent
from __all_virtual_server_stat a,__all_server b where a.svr_ip = b.svr_ip order by zone,cpu_assigned_percent desc;
select zone,
concat(svr_ip, ':', svr_port) observer,
cpu_capacity,
cpu_total,
cpu_assigned,
cpu_assigned_percent,
mem_capacity/(1024*1024*1024) mem_capacity,
mem_total/(1024*1024*1024) mem_total,
mem_assigned/(1024*1024*1024) mem_assigned,
mem_assigned_percent,
unit_Num,
round('load', 2) 'load',
round('cpu_weight', 2) 'cpu_weight',
round('memory_weight', 2) 'mem_weight',
leader_count
from __all_virtual_server_stat
order by zone, svr_ip;
如果某个zone中所有server的某项指标(cpu_ass_percent, mem_ass_percent) 都比较高(>90),后续加租户或扩租户资源可能会因资源不够失败,可考虑集群扩容
系统性能视图:gv$memory
gv$memory展示当前租户在所有OBServer上各个模块的内存使用情况,基于__all_virtual_memory_info创建
字段名称 | 类型 | 说明 |
CONTEXT | varchar(256) | 内存所属Mod名称 |
COUNT | bigint(20) | 当前该 Mod 使用中的内存单元个数 |
USED | bigint(20) | Mod当前使用的内存数值,单位:Byte |
ALLOC_COUNT | bigint(20) | 该Mod申请的内存总个数 |
FREE_COUNT | bigint(20) | 该Mod释放的内存总个数 |
系统性能视图:gv$memstore
gv$memstore展示所有服务器上所有租户的MEMTable的内存使用状况,以__all_virtual_tenant_memstore_info创建
select * from gv$memstore;
字段名称 | 类型 | 说明 |
ACTIVE | bigint(20) | 当前活跃的MEMTable的内存占用大小 |
TOTAL | bigint(20) | 当前该 Mod 使用中的内存单元个数,包括 active + frozen memstore(Byte) |
FREEZE_TRIGGER | bigint(20) | 触发 MEMTable 冻结的内存大小(Byte) |
MEM_LIMIT | bigint(20) | MEMTable 的内存大小限制(Byte) |
FREEZE_CNT | bigint(20) | MEMTable 的冻结次数 |
系统性能视图:gv$sql_audit
gv$sql_audit视图用于展示所有 Server 上每一次 SQL 请求的来源、执行状态等统计信息。该视图是按照租户拆分的,除了系统租户,其他租户不能跨租户查询
检查特定租户下Top 10的sql执行时间:
select sql_id, query_sql,count(*), avg(elapsed_time), avg(execute_time), avg(queue_time), avg(user_io_wait_time)
from gv$sql_audit where tenant_id=1002 group by sql_id
having count(*)>1 order by 5 desc limit 10\G
检查特定租户下消耗cpu最多的top sql:
select sql_id, avg(execute_time) avg_exec_time, count(*) cnt,
avg(execute_time-TOTAL_WAIT_TIME_MICRO) cpu_time
from gv$sql_audit where tenant_id=1002
group by 1 order by avg_exec_time * cnt desc limit 5;
系统性能视图:gv$sql
gv$sql用于记录所有热更新的 SQL 相关统计信息,记录每个 Plan 上的统计信息,汇总单个 Plan 多次执行的统计信息,每个 Plan 都会在表中有一行。下表对gv$sql部分字段进行简单归类:
字段类别 | 详细说明 |
用于定位SQL的字段 | [CON_ID : 租户 ID] [SVR_IP : IP 地址] [SVR_PORT : 端口号] [PLAN_ID : 执行计划的 ID] [SQL_ID : SQL 的标识符] [TYPE : SQL 类型,local remote distribute] [SQL_TEXT : SQL 语句文本] [PLAN_HASH_VALUE :执行计划的 Hash 值] |
SQL执行时间类统计字段 | [FIRST_LOAD_TIME : 第一次执行时间] [LAST_ACTIVE_TIME : 上一次执行时间][AVG_EXE_USEC : 平均执行耗时] [SLOWEST_EXE_TIME : 最慢执行开始时间点][SLOWEST_EXE_USEC :最慢执行消耗时间] [SLOW_COUNT :慢查询次数统计] |
SQL执行效率类统计字段 | [HIT_COUNT : 命中 Plan Cache 的统计] [PLAN_SIZE : 物理计划占用的内存][EXECUTIONS : 执行次数] [DISK_READS : 读盘次数] [DIRECT_WRITES : 写盘次数] [BUFFER_GETS : 逻辑读次数] [ELAPSED_TIME : 完成总消耗时间] [CPU_TIME : 消耗的 CPU 时间] |
系统性能视图:gv$plan_cache_plan_statgv$plan_cache_plan_stat 视图详细记录了当前租户在所有 Server 上的计划缓存中缓存的每一个缓存对象的状态。该表不仅缓存了 SQL 计划对象,也缓存了PL对象(如匿名块、PL Package 以及 PL Function),某些字段只在特定对象下有效
gv$plan_cache_plan_stat记录的信息与gv$sql视图相似,但更加丰富,下表列出一些多出的字段
字段名称 | 类型 | 说明 |
LARGE_QUERYS | bigint(20) | 被判断为大查询的次数 |
DELAYED_LARGE_QUERYS | bigint(20) | 被判断为大查询且被丢入大查询队列的次数 |
DELAYED_PX_QUERYS | bigint(20) | 并行查询被丢回队列重试的次数 |
OUTLINE_ID | bigint(20) | Outline 的 ID,为 -1 表示不是通过绑定 Outline 生成的计划 |
OUTLINE_DATA | bigint(20) | 计划对应的 Outline 信息 |
TABLE_SCAN | bigint(20) | 表示该查询是否为主键扫描 |
TIMEOUT_COUNT | bigint(20) | 超时的次数 |
系统性能视图:gv$plan_cache_plan_explain
gv$plan_cache_plan_explain视图用于展示缓存在全部的 Server 中的计划缓存中的物理执行计划。
该视图仅支持 get 操作,查询时需要指定 IP、PORT、TENANT_ID、PLAN_ID 字段
select * from gv$plan_cache_plan_stat limit 5\G;
性能监控:常规监测
性能问题应优先通过OCP 管理员入口 ==> 集群入口 ==>性能 监控==> 数据趋势中查看QPS_RT, TPS_RT,大致定位出问题时间点
性能监控:捞取慢SQL
OceanBase中执行时间超过 trace_log_slow_query_watermark (系统参数)的sql,在 OBServer日志中都会打slow query消息
在 OBServer 日志中查找慢 SQL 消息:
fgrep '[slow query]' observer.log |sed -e 's/|/\n/g' | more <--查看日志中所有的 slow query
grep '<trace_id>' observer.log |sed -e 's/|/\n/g' | more <---根据trace_id 查询某个 slow query
参数 | 说明 | 默认值 |
trace_log_query_watermark | 设置查询的执行时间阈值,如果查询的执行时间超过该阈值,则被认为是慢查询 | 100ms |
性能监控:捞取慢SQL
[process begin] [query begin] 等方框号内的名称是指SQL执行经过的每一个内部模块
trace_id与gv$sql_audit里的trace_id字段对应\
stmt是指执行的SQL
u代表每一步消耗的时间,单位是微秒
total_timeu是指整个过程消耗的总时间
性能监控:捞取慢SQL
OceanBase提供两张虚拟表 v$sql_audit , gv$sql_audit记录最近一段时间sql执行历史
v$sql_audit 存储本机的sql执行历史, gv$sql_audit存储整个集群的sql执行历史
查询v$sql_audit表,如查询某租户执行时间大于1s的SQL:
select * from v$sql_audit where tenant_id = <tenant id>
and elapsed_time > 1000000 limit 10;
查询SQL执行时间按秒分布的直方图:
select round(elapsed_time/1000000), count(*) from v$sql_audit
where tenant_id = <tenant_id> group by 1;
性能监控:捞取慢SQL
OBProxy有自己的慢查询日志打印功能,通过设置OBProxy的配置项控制打印到日志中的SQL或事务的处理时间阈值;根据实际需求修改OBProxy配置项:
ALTER PROXYCONFIG SET slow_transaction_time_threshold='100ms';
ALTER PROXYCONFIG SET slow_proxy_process_time_threshold='5ms';
参数 | 说明 | 默认值 |
slow_transaction_time_threshold | 指慢查询或事务的整个生命周期的s时间阈值,超过了该时间,就会打印相关日志 | 5s |
slow_proxy_process_time_threshold | 在发往 Server 前 Proxy 本身的处理时间,包括获取集群信息、路由信息、黑名单信息等 | 2ms |
slow_query_time_threshold | 指从OBProxy获取 SQL直到返回给客户端之前的这段时间的阈值,超过了该时间,也会打印相关日志 | 500ms |
OBProxy慢查询举例
修复慢SQL
创建索引:当慢SQL因无合适索引可用时导致时,可创建索引
outline绑定:如慢SQL由OceanBase优化器选择了不够优的执行计划导致,可通过outline绑定执行计划。有两种方式创建outline:
通过 SQL_TEXT创建(用户执行的带参数的原始语句)
通过 SQL_ID 创建
CREATE [OR REPLACE] OUTLINE outline_name ON stmt [TO target_stmt]; //SQL_TEXT方式
CREATE OUTLINE outline_name ON sql_id USING HINT hint; //SQL_ID方式
相关文章:

OBCP第八章 OB运维、监控与异常处理-数据库监控
系统监控视图:系统视图 OceanBase 数据库为多租户架构,租户分为两种类型:普通租户以及 sys 租户。OceanBase 数据库系统表都存储在 sys 租户,且主键中存储租户号(tenant_id),区分每个租户的内容…...

已经提了离职,还有一周就走,公司突然把我移出企业微信,没法考勤打卡, 还要继续上班吗?...
黎明前的黑暗最容易出事,离职前的几天也最容易出幺蛾子,比如下面这位网友的遭遇:已经提了离职,还有一周就正式离职了,公司突然把我移出企业微信,没法考勤打卡了, 还要继续上班吗?该怎…...

Win11启用IE方法
呉師傅 Win11是微软目前的最新系统,尽管该系统非常不错,但是还是有很多不一样的地方,有的用户发现Win11没有了IE浏览器,那么Win11没有IE浏览器怎么办呢,有的旧网页需要IE浏览器才能进入,下面就给大家提供一…...

有人靠ChatGPT 狂赚200W !有人到现在,连账号都没开通......
作者| Mr.K 编辑| Emma来源| 技术领导力(ID:jishulingdaoli)互联网风水轮流转,当初元宇宙盛极一时之际,在一些知识付费平台上,任何一个关于元宇宙的课程或培训,都很热销,有一定号召力的博主,登…...

基于GD32F470的mbedtls 3DES算法测试
3DES加密算法介绍 3DES数据加密算法是一种可逆的对称加密算法,也称三重数据加密算法。3DES块加密算法的设计用来提供一种相对简单的方法,即通过增加DES的密钥长度来避免类似的攻击,而不是设计一种全新的密码算法,目前3DES作为DES…...

为什么一些人很瞧不起 Java?
前言 瞧不起Java的大概是因为: Java 被认为是一门“老”语言,过时了。事实上,Java 由于其稳定性和安全性,一直是企业级应用开发的首选语言。而且,Java 语言还在不断更新和发展,例如 Java 8 引入了很多新特…...

DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking Tasks
摘要 在本文中,我们研究了掩码自动编码器(MAE)预训练的视频基于匹配的下游任务,包括视觉目标跟踪(VOT)和视频对象分割(VOS)。MAE的一个简单扩展是在视频中随机掩码帧块并重建帧像…...
【shell 基础(11)循环之for】带列表:空格子串、换行子串、展开、命令替换、seq;不带列表:接受参数、类C
文章目录一. 带列表的for循环1. 语法2. 例子2.1. 循环字串2.2. 展开或命令替换:数字循环2.3 命令替换(输出换行)作为list二. 其他for循环1. 不带列表的循环2. 类C的for循环一. 带列表的for循环 1. 语法 for var in list do commanddone注意…...

虚拟环境中创建Django项目 详细完整
一、自身安装python(我自身安装的python3.6.8) (1)官网: Python Releases for Windows | Python.org for windows> 这样下载慢的话,以下链接复制到迅雷下载: https://www.python.org/ftp/…...
BCSP-玄子JAVA开发之JAVA数据库编程CH-08_JDBC
BCSP-玄子JAVA开发之JAVA数据库编程CH-08_JDBC 8.1 JDBC 介绍 8.1.1 什么是 JDBC JDBC(Java Database Conectivity) Java数据库连接技术的简称,提供连接各种常用数据库的能力 8.1.2 JDBC 的工作原理 JDBC API 内容:供程序员…...

一位程序员将一款开源工具变成了价值75亿美元的帝国
他的成功,激励着年轻的程序员为什么翻译这些程序员大佬的成功故事?除了写代码,作为开发者,我们也需要时不时地仰望星空。我们每个人都怀有着远大的理想,希望用代码改变自己的生活、行业,甚至是这个世界。编…...

tmux | 终端操作软件,解决深度学习中终端相关问题
tmux 一次可运行多个终端会话。或者在后台运行终端会话。当需要一次访问多个 ssh 会话或只是为了一个便利的流程管理时,这很有帮助。例如,可以在下载最新的系统更新时运行 htop,编辑配置文件并在一个 tmux 会话中重新启动服务。 对于我来说t…...

信号 捕捉
signal 函数 作用:注册一个信号捕捉函数(注册而非创建) 原型: sighandler_t signal(int signum, sighandler_t handler);typedef void (*sighandler_t)(int);案例一: signal函数 捕捉 ctrlc 触发事件 #include<std…...
sqlserver中判断是否存在的方法
自定义变量 declare age int declare name varchar(20) set name‘张三’ --用set 方法给变量赋值 注: 此方法一次只能给一个变量赋值 select ageage from client where [name]name --查询客户张三的年龄赋值给age变量 注:此方法能一次多个变量赋值 …...

基于Kettle跑批的案例说明
需求概述 通过动态配置表的方式完成在kettle里动态配置参数,并调用ktr,实现跑批的目的。 问题分析 定义一个ktr读取配置表的信息并将拷贝记录到结果定义一个ktr从结果里获取记录并设置变量定义业务ktr(即按照业务需要开发的…...

2023 最新版网络安全保姆级自学指南
前言 如今,组织的信息系统和数据面临着许多威胁。而人们了解网络安全的所有基本要素是应对这些威胁的第一步。 网络安全是确保信息完整性、机密性和可用性(ICA)的做法。它代表了应对硬盘故障、断电事故,以及来自黑客或竞争对手攻击等防御和恢复能力。而…...

Chapter9.3:线性系统稳定性分析及综合实例
该系列博客主要讲述Matlab软件在自动控制方面的应用,如无自动控制理论基础,请先学习自动控制系列博文,该系列博客不再详细讲解自动控制理论知识。 自动控制理论基础相关链接:https://blog.csdn.net/qq_39032096/category_10287468…...

EXCEL 在复杂查询时摒弃vlookup() sumif() 等公式,而使用数据透视表的初步学习
1 为什么要用数据透视表 如果不用,就可能需要写很复杂的,查询公式 比如,vlookup各种sumif,sumifs 等等,如果还是多个表进行统计,那写起来更酸爽所以感觉 vlookup sumif,sumifs 更适合,简单情况下的查询&am…...
C 文件读写
C 文件读写 本章我们将介绍 C 程序员如何创建、打开、关闭文本文件或二进制文件。 一个文件,无论它是文本文件还是二进制文件,都是代表了一系列的字节。C 语言不仅提供了访问顶层的函数,也提供了底层(OS)调用来处理存…...
Linux中实现程序开机自启——将程序配置为系统服务
一、需求说明 当我们在Linux系统上安装软件时,希望软件实现开机自启,或程序崩溃后自动重启,提升软件运行的稳定性;而linux系统中的systemd刚好可以满足我们的要求(可将软件注册为系统服务)。 二、systemd systemd 是一个 Linux 系统基础组件的集合,提供了一个系统和服务…...

安宝特方案丨XRSOP人员作业标准化管理平台:AR智慧点检验收套件
在选煤厂、化工厂、钢铁厂等过程生产型企业,其生产设备的运行效率和非计划停机对工业制造效益有较大影响。 随着企业自动化和智能化建设的推进,需提前预防假检、错检、漏检,推动智慧生产运维系统数据的流动和现场赋能应用。同时,…...

MMaDA: Multimodal Large Diffusion Language Models
CODE : https://github.com/Gen-Verse/MMaDA Abstract 我们介绍了一种新型的多模态扩散基础模型MMaDA,它被设计用于在文本推理、多模态理解和文本到图像生成等不同领域实现卓越的性能。该方法的特点是三个关键创新:(i) MMaDA采用统一的扩散架构…...
C++ 基础特性深度解析
目录 引言 一、命名空间(namespace) C 中的命名空间 与 C 语言的对比 二、缺省参数 C 中的缺省参数 与 C 语言的对比 三、引用(reference) C 中的引用 与 C 语言的对比 四、inline(内联函数…...

【Java_EE】Spring MVC
目录 Spring Web MVC 编辑注解 RestController RequestMapping RequestParam RequestParam RequestBody PathVariable RequestPart 参数传递 注意事项 编辑参数重命名 RequestParam 编辑编辑传递集合 RequestParam 传递JSON数据 编辑RequestBody …...

k8s业务程序联调工具-KtConnect
概述 原理 工具作用是建立了一个从本地到集群的单向VPN,根据VPN原理,打通两个内网必然需要借助一个公共中继节点,ktconnect工具巧妙的利用k8s原生的portforward能力,简化了建立连接的过程,apiserver间接起到了中继节…...
什么?连接服务器也能可视化显示界面?:基于X11 Forwarding + CentOS + MobaXterm实战指南
文章目录 什么是X11?环境准备实战步骤1️⃣ 服务器端配置(CentOS)2️⃣ 客户端配置(MobaXterm)3️⃣ 验证X11 Forwarding4️⃣ 运行自定义GUI程序(Python示例)5️⃣ 成功效果
3-11单元格区域边界定位(End属性)学习笔记
返回一个Range 对象,只读。该对象代表包含源区域的区域上端下端左端右端的最后一个单元格。等同于按键 End 向上键(End(xlUp))、End向下键(End(xlDown))、End向左键(End(xlToLeft)End向右键(End(xlToRight)) 注意:它移动的位置必须是相连的有内容的单元格…...

C++使用 new 来创建动态数组
问题: 不能使用变量定义数组大小 原因: 这是因为数组在内存中是连续存储的,编译器需要在编译阶段就确定数组的大小,以便正确地分配内存空间。如果允许使用变量来定义数组的大小,那么编译器就无法在编译时确定数组的大…...

【7色560页】职场可视化逻辑图高级数据分析PPT模版
7种色调职场工作汇报PPT,橙蓝、黑红、红蓝、蓝橙灰、浅蓝、浅绿、深蓝七种色调模版 【7色560页】职场可视化逻辑图高级数据分析PPT模版:职场可视化逻辑图分析PPT模版https://pan.quark.cn/s/78aeabbd92d1...

使用Spring AI和MCP协议构建图片搜索服务
目录 使用Spring AI和MCP协议构建图片搜索服务 引言 技术栈概览 项目架构设计 架构图 服务端开发 1. 创建Spring Boot项目 2. 实现图片搜索工具 3. 配置传输模式 Stdio模式(本地调用) SSE模式(远程调用) 4. 注册工具提…...