【银河麒麟高级服务器操作系统实际案例分享】数据库资源重启现象分析及处理全过程
更多银河麒麟操作系统产品及技术讨论,欢迎加入银河麒麟操作系统官方论坛
https://forum.kylinos.cn
了解更多银河麒麟操作系统全新产品,请点击访问
麒麟软件产品专区:https://product.kylinos.cn
开发者专区:https://developer.kylinos.cn
文档中心:https://document.kylinos.cn
服务器环境以及配置
| 处理器: | Hygon C86 7285 32-core Processor |
| 整机类型/架构: | x86_64 |
【内核版本】
4.19.90-23.6
【OS镜像版本】
银河麒麟高级服务器操作系统 Kylin-Server-V10-SP3-General-Release-2303-x86_64
【HA版本】
银河麒麟高可用 Kylin-HA-10-SP2-Release-Build10-20211124-x86_64-2021-11-25
【第三方软件】
现象描述
集群中pgsql资源重新启动。

现象分析
心跳连接及vip资源monitor超时
分析日志信息,在Nov 11 13:28:22时集群心跳发现无法连接的问题,之后立即恢复:

20秒之后,集群vip1_sims资源monitor超时:

vip1_sims的monitor超时时间设置是20秒,所以在心跳出现问题的时间vip1资源正好执行监控操作并无法按时返回数据,说明此时系统的网络或者负载可能会有问题,导致HA集群无法及时获取数据。
脚本监控函数分析
vip1_sims资源使用的是IPaddr2脚本实现,该脚本在执行monitor的时候,主要判断和执行方式如下:
- 判断函数执行所需要的系统命令ip是否存在
- 通过uname命令判断当前系统是否为Linux系统
- 识别当前配置的ip地址的family和scope,将给定的netmask转换成对应的数字
- 判断是否给定的了网卡参数,如果给定,则通过ip命令 ip -o -f inet route list match ip/netmask scope link |grep “dev nic”命令查找并确认网络信息;
- 判断是否能够正确找到nic和netmask;
- 使用命令ip -o -f inet addr show |grep ip,判断当前ip是否存在;
- 通过/usr/libexec/heartbeat/findif命令获取当前环境变量中的nic netmask brdcast等信息;
- 通过ip link show nic命令判断是否为infiniband
- 判断是否配置了nic参数
- 根据配置的ip和netmask,使用ip -o -f inet addr show命令判断ip和nic是否存在;
如果不存在则monitor返回错误信息;如果存在则monitor返回正常。
如果在设置的超时时间内monitor没有任何返回值,则会报超时time out错误。
组资源先后关系
下图是资源配置中组资源中资源先后关系:

HA组资源是有顺序和依赖要求的,即启动的时候从第一个资源到最后一个资源顺序启动,停止的时候从最后一个资源到第一个资源顺序停止。如果有资源出现问题,则此资源后面的资源是无法启动的。所以当vip1_sims资源监控出现问题要求资源restart的时候,该资源后面的所有资源也要求随之重启,所以导致数据库资源pg_sims资源重启。
小结
如上,由于问题时间的vip1_sims资源出现monitor超时故障,导致组内该资源之后的所有资源必须随之尝试重新启动,所以导致数据库资源pg_sims重启。
vip1_sims出现monitor超时故障的原因,由于日志方面无法获取相关内容,所以猜测可能与当时即时的网络条件或者负载有关系,暂时无法确定原因。进一步的分析可以部署更细粒度的监控脚本获取系统及网络情况。
后续建议方案
- 通过分析集群心跳配置发现, 心跳网络和业务网络共用。如果业务负载较高,会影响集群心跳,建议分开。同时建议将HA集群的token设置为6000,降低集群心跳的敏感度。
- 由于当前的日志无法判断超时原因,建议给需要监控的资源增加trace_ra配置,监控记录脚本执行过程,方便排查问题原因。由于每次执行会产生一个文件, 需要定期清理,防止占用过多的空间。
- 如果vip资源和数据库资源不存在强依赖关系,建议可以将vip资源放在组的最后面,以减少其对其他资源的影响。
相关文章:
【银河麒麟高级服务器操作系统实际案例分享】数据库资源重启现象分析及处理全过程
更多银河麒麟操作系统产品及技术讨论,欢迎加入银河麒麟操作系统官方论坛 https://forum.kylinos.cn 了解更多银河麒麟操作系统全新产品,请点击访问 麒麟软件产品专区:https://product.kylinos.cn 开发者专区:https://developer…...
C#中泛型的协变和逆变
协变: 在泛型接口中,使用out关键字可以声明协变。这意味着接口的泛型参数只能作为返回类型出现,而不能作为方法的参数类型。 示例:泛型接口中的协变 假设我们有一个基类Animal和一个派生类Dog: csharp复制 public…...
【JavaScript】《JavaScript高级程序设计 (第4版) 》笔记-附录B-严格模式
附录B、严格模式 严格模式 ECMAScript 5 首次引入严格模式的概念。严格模式用于选择以更严格的条件检查 JavaScript 代码错误,可以应用到全局,也可以应用到函数内部。严格模式的好处是可以提早发现错误,因此可以捕获某些 ECMAScript 问题导致…...
跨平台 C++ 程序崩溃调试与 Dump 文件分析
前言 C 程序在运行时可能会由于 空指针访问、数组越界、非法内存访问、栈溢出 等原因崩溃。为了分析崩溃原因,我们通常会生成 Dump 文件(Windows 的 .dmp,Linux 的 core,macOS 的 .crash),然后用调试工具分…...
缺陷VS质量:为何软件缺陷是质量属性的致命对立面?
为何说缺陷是质量的对立面? 核心逻辑:软件质量的定义是“满足用户需求的程度”,而缺陷会直接破坏这种满足关系。 对立性:缺陷的存在意味着软件偏离了预期行为(如功能错误、性能不足、安全性漏洞等)&#…...
伍[5],伺服电机,电流环,速度环,位置环
电流环、速度环和位置环是电机控制系统中常见的三个闭环控制环节,通常采用嵌套结构(内环→外环:电流环→速度环→位置环),各自负责不同层级的控制目标。以下是它们的详细说明及相互关系: 1. 电流环(最内环) 作用:控制电机的电流,间接控制输出转矩(τ=Kt⋅Iτ=Kt⋅…...
RuntimeError: CUDA error: device-side assert triggered
RuntimeError: CUDA error: device-side assert triggered 欢迎来到英杰社区,这里是博主英杰https://bbs.csdn.net/topics/617804998 原因: cuda运行可能是异步的(asynchronously),因此报错信息中提示的位置可能不准确…...
清华大学Deepseek第六版AIGC发展研究3.0(共186页,附PDF下载)
人工智能生成内容(AIGC)正以前所未有的速度改变我们的生活。 2024年底,清华大学新闻与传播学院与人工智能学院联合发布了《AIGC发展研究3.0版》,这份报告系统梳理了AIGC技术的突破性进展、应用场景及社会影响,并展望了…...
SpringBoot生成唯一ID的方式
1.为什么要生成唯一ID? 数据唯一性:每个记录都需要有一个独一无二的标识符来确保数据的唯一性。这可以避免重复的数据行,并有助于准确地查询、更新或删除特定的记录。 数据完整性:通过使用唯一ID,可以保证数据库中的数…...
通俗易懂的分类算法之K近邻详解
通俗易懂的分类算法之K近邻详解 用最通俗的语言和例子,来彻底理解 K近邻(K-Nearest Neighbors,简称 KNN) 这个分类算法。不用担心复杂的数学公式,我会用生活中的例子来解释,保证你一听就懂! 1.…...
CSDN markdown 操作指令等
CSDN markdown 操作指令等 页内跳转 [内容](#1) <div id"1"> </div>...
【linux】文件与目录命令 - uniq
文章目录 1. 基本用法2. 常用参数3. 用法举例4. 注意事项 uniq 命令用于过滤文本文件中相邻的重复行,并支持统计重复次数或仅保留唯一行。它通常与 sort 命令配合使用,因为 uniq 只识别相邻的重复行。 1. 基本用法 语法: uniq [选项] [输入…...
零信任沙箱:为网络安全筑牢“隔离墙”
在数字化浪潮汹涌澎湃的今天,网络安全如同一艘船在波涛汹涌的大海中航行,面临着重重挑战。数据泄露、恶意软件攻击、网络钓鱼等安全威胁层出不穷,让企业和个人用户防不胜防。而零信任沙箱,就像是一座坚固的“隔离墙”,…...
【金融量化】Ptrade中交易环境支持的业务类型
1. 普通股票买卖 • 特点: 普通股票买卖是最基础的交易形式,投资者通过买入和卖出上市公司的股票来获取收益。 ◦ 流动性高:股票市场交易活跃,买卖方便。 ◦ 收益来源多样:包括股价上涨的资本利得和公司分红。 ◦ 风险…...
【Java---数据结构】链表 LinkedList
1. 链表的概念 链表用于存储一系列元素,由一系列节点组成,每个节点包含两部分:数据域和指针域。 数据域:用于存储数据元素 指针域:用于指向下一个节点的地址,通过指针将各个节点连接在一起,形…...
紧跟 Web3 热潮,RuleOS 如何成为行业新宠?
Web3 热潮正以汹涌之势席卷全球。从金融领域的创新应用到供应链管理的变革,从社交媒体的去中心化尝试到游戏产业的全新玩法探索,Web3 凭借其去中心化、安全性和用户赋权等特性,为各个行业带来了前所未有的机遇。在这股热潮中,Rule…...
CC++的内存管理
目录 1、C/C内存划分 C语言的动态内存管理 malloc calloc realloc free C的动态内存管理 new和delete operator new函数和operator delete函数 new和delete的原理 new T[N]原理 delete[]的原理 1、C/C内存划分 1、栈:存有非静态局部变量、函数参数、返回…...
Spark核心之02:RDD、算子分类、常用算子
spark内存计算框架 一、目标 深入理解RDD弹性分布式数据集底层原理掌握RDD弹性分布式数据集的常用算子操作 二、要点 ⭐️1. RDD是什么 RDD(Resilient Distributed Dataset)叫做**弹性分布式数据集,是Spark中最基本的数据抽象,…...
【Resis实战分析】Redis问题导致页面timeout知识点分析
事故现象:前端页面返回timeout 事故回溯总结一句话: (1)因为大KEY调用量,随着白天自然流量趋势增长而增长,最终在业务高峰最高点期占满带宽使用100%。   (2&#x…...
单一职责原则(设计模式)
目录 问题: 定义: 解决: 方式 1:使用策略模式 示例:用户管理 方式 2:使用装饰者模式 示例:用户操作 方式 3:使用责任链模式 示例:用户操作链 总结 推荐 问题&a…...
体验Taotoken多模型路由带来的高稳定性与低延迟响应
🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 体验Taotoken多模型路由带来的高稳定性与低延迟响应 在构建依赖大模型能力的应用时,开发者最关心的两个核心指标往往是…...
Windows风扇控制终极方案:从噪音困扰到静音高效的完整实战指南
Windows风扇控制终极方案:从噪音困扰到静音高效的完整实战指南 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Tre…...
iMX8MQ开发板实测:存储、网络与4K解码性能深度解析
1. 项目概述:iMX8MQ开发板深度评测最近拿到了一块飞凌嵌入式出品的OKMX8MQ-C开发板,这是一款基于NXP i.MX 8M Quad处理器设计的核心板底板套件。对于从事嵌入式多媒体、边缘计算或者工业网关开发的朋友来说,i.MX8系列一直是热门选择ÿ…...
智能体的真正核心:从“会聊天的大模型”到“会做事的系统”
大模型虽能"理解语言、回答问题、生成内容",但仅停留在对话层面无法构成真正智能体。智能体需具备理解目标、感知状态、拆解任务、选择工具、观察反馈、动态修正等闭环能力。其核心结构包括输入感知、记忆、规划、行动、反馈、评估六模块,形成…...
DMA链表模式(LLI)实战:如何用一块内存搞定不连续地址的数据搬运?
DMA链表模式(LLI)实战:如何用一块内存搞定不连续地址的数据搬运? 在物联网和通信系统的开发中,我们经常遇到需要从多个分散的数据源收集信息,或将数据分发到不同目标地址的场景。比如一个智能家居网关需要同时处理来自温湿度传感…...
SPI接口技术解析与Keil开发实践指南
1. SPI接口技术解析与应用指南作为一名嵌入式开发工程师,我经常需要与各种外设进行通信,而SPI(Serial Peripheral Interface)无疑是最常用的串行通信协议之一。今天我想分享一些关于SPI接口的实用知识和资源,这些内容来…...
保姆级教程:用Python脚本搞定YOLO生活垃圾数据集的划分与文件校验
Python实战:YOLO数据集自动化处理全流程指南 当你第一次拿到标注好的目标检测数据集时,是否曾被这些繁琐的准备工作困扰过?图片和标签文件散落在各处,需要手动划分训练集、验证集和测试集;文件命名不规范导致模型训练…...
终极AEUX指南:如何快速实现Figma到After Effects的设计动画转换
终极AEUX指南:如何快速实现Figma到After Effects的设计动画转换 【免费下载链接】AEUX Editable After Effects layers from Sketch artboards 项目地址: https://gitcode.com/gh_mirrors/ae/AEUX 想要将精美的Figma设计稿快速转换为After Effects动画项目吗…...
别再只会复制代码了!STM32F103 HAL库驱动RC522 RFID模块的底层SPI通信原理解析
深入解析STM32F103 HAL库驱动RC522的SPI通信机制 当开发者第一次接触RFID模块时,往往会被各种现成的驱动库所吸引——复制粘贴几行代码,模块就能工作,这确实很诱人。但当你遇到通信不稳定、数据错误或者需要优化性能时,仅靠"…...
c#基础知识合集06 类 值类型和引用类型 方法定义和调用
类(Class) 定义与本质 类是一种用户自定义的数据类型,它是对现实世界中具有相同属性和行为的一组事物的抽象描述。例如,现实世界中有很多人,他们都有姓名、年龄等属性,都能进行说话、走路等行为,我们就可以创建一个 Person 类来描述 “人” 这一群体。从编程角度看,类就…...
