当前位置: 首页 > news >正文

【银河麒麟高级服务器操作系统实际案例分享】数据库资源重启现象分析及处理全过程

 更多银河麒麟操作系统产品及技术讨论,欢迎加入银河麒麟操作系统官方论坛

https://forum.kylinos.cn


了解更多银河麒麟操作系统全新产品,请点击访问

麒麟软件产品专区:https://product.kylinos.cn

开发者专区:https://developer.kylinos.cn

文档中心:https://document.kylinos.cn


服务器环境以及配置

处理器:

Hygon C86 7285 32-core Processor

整机类型/架构:

x86_64

【内核版本】

4.19.90-23.6

【OS镜像版本】

银河麒麟高级服务器操作系统 Kylin-Server-V10-SP3-General-Release-2303-x86_64

【HA版本】

银河麒麟高可用 Kylin-HA-10-SP2-Release-Build10-20211124-x86_64-2021-11-25

【第三方软件】

现象描述

集群中pgsql资源重新启动。

现象分析

心跳连接及vip资源monitor超时

     分析日志信息,在Nov 11 13:28:22时集群心跳发现无法连接的问题,之后立即恢复:

20秒之后,集群vip1_sims资源monitor超时:

vip1_sims的monitor超时时间设置是20秒,所以在心跳出现问题的时间vip1资源正好执行监控操作并无法按时返回数据,说明此时系统的网络或者负载可能会有问题,导致HA集群无法及时获取数据。

脚本监控函数分析

vip1_sims资源使用的是IPaddr2脚本实现,该脚本在执行monitor的时候,主要判断和执行方式如下:

  1. 判断函数执行所需要的系统命令ip是否存在
  2. 通过uname命令判断当前系统是否为Linux系统
  3. 识别当前配置的ip地址的family和scope,将给定的netmask转换成对应的数字
  4. 判断是否给定的了网卡参数,如果给定,则通过ip命令 ip -o -f inet route list match ip/netmask scope link |grep “dev nic”命令查找并确认网络信息;
  5. 判断是否能够正确找到nic和netmask;
  6. 使用命令ip -o -f inet addr show |grep ip,判断当前ip是否存在;
  7. 通过/usr/libexec/heartbeat/findif命令获取当前环境变量中的nic netmask brdcast等信息;
  8. 通过ip link show nic命令判断是否为infiniband
  9. 判断是否配置了nic参数
  10. 根据配置的ip和netmask,使用ip -o -f inet addr show命令判断ip和nic是否存在;

如果不存在则monitor返回错误信息;如果存在则monitor返回正常。

如果在设置的超时时间内monitor没有任何返回值,则会报超时time out错误。

组资源先后关系

下图是资源配置中组资源中资源先后关系:

HA组资源是有顺序和依赖要求的,即启动的时候从第一个资源到最后一个资源顺序启动,停止的时候从最后一个资源到第一个资源顺序停止。如果有资源出现问题,则此资源后面的资源是无法启动的。所以当vip1_sims资源监控出现问题要求资源restart的时候,该资源后面的所有资源也要求随之重启,所以导致数据库资源pg_sims资源重启。

小结

如上,由于问题时间的vip1_sims资源出现monitor超时故障,导致组内该资源之后的所有资源必须随之尝试重新启动,所以导致数据库资源pg_sims重启。

vip1_sims出现monitor超时故障的原因,由于日志方面无法获取相关内容,所以猜测可能与当时即时的网络条件或者负载有关系,暂时无法确定原因。进一步的分析可以部署更细粒度的监控脚本获取系统及网络情况。

后续建议方案

  1. 通过分析集群心跳配置发现, 心跳网络和业务网络共用。如果业务负载较高,会影响集群心跳,建议分开。同时建议将HA集群的token设置为6000,降低集群心跳的敏感度。
  2. 由于当前的日志无法判断超时原因,建议给需要监控的资源增加trace_ra配置,监控记录脚本执行过程,方便排查问题原因。由于每次执行会产生一个文件, 需要定期清理,防止占用过多的空间。
  3. 如果vip资源和数据库资源不存在强依赖关系,建议可以将vip资源放在组的最后面,以减少其对其他资源的影响。

相关文章:

【银河麒麟高级服务器操作系统实际案例分享】数据库资源重启现象分析及处理全过程

更多银河麒麟操作系统产品及技术讨论,欢迎加入银河麒麟操作系统官方论坛 https://forum.kylinos.cn 了解更多银河麒麟操作系统全新产品,请点击访问 麒麟软件产品专区:https://product.kylinos.cn 开发者专区:https://developer…...

C#中泛型的协变和逆变

协变: 在泛型接口中,使用out关键字可以声明协变。这意味着接口的泛型参数只能作为返回类型出现,而不能作为方法的参数类型。 示例:泛型接口中的协变 假设我们有一个基类Animal和一个派生类Dog: csharp复制 public…...

【JavaScript】《JavaScript高级程序设计 (第4版) 》笔记-附录B-严格模式

附录B、严格模式 严格模式 ECMAScript 5 首次引入严格模式的概念。严格模式用于选择以更严格的条件检查 JavaScript 代码错误,可以应用到全局,也可以应用到函数内部。严格模式的好处是可以提早发现错误,因此可以捕获某些 ECMAScript 问题导致…...

跨平台 C++ 程序崩溃调试与 Dump 文件分析

前言 C 程序在运行时可能会由于 空指针访问、数组越界、非法内存访问、栈溢出 等原因崩溃。为了分析崩溃原因,我们通常会生成 Dump 文件(Windows 的 .dmp,Linux 的 core,macOS 的 .crash),然后用调试工具分…...

缺陷VS质量:为何软件缺陷是质量属性的致命对立面?

为何说缺陷是质量的对立面? 核心逻辑:软件质量的定义是“满足用户需求的程度”,而缺陷会直接破坏这种满足关系。 对立性:缺陷的存在意味着软件偏离了预期行为(如功能错误、性能不足、安全性漏洞等)&#…...

伍[5],伺服电机,电流环,速度环,位置环

电流环、速度环和位置环是电机控制系统中常见的三个闭环控制环节,通常采用嵌套结构(内环→外环:电流环→速度环→位置环),各自负责不同层级的控制目标。以下是它们的详细说明及相互关系: 1. 电流环(最内环) 作用:控制电机的电流,间接控制输出转矩(τ=Kt⋅Iτ=Kt​⋅…...

RuntimeError: CUDA error: device-side assert triggered

RuntimeError: CUDA error: device-side assert triggered 欢迎来到英杰社区,这里是博主英杰https://bbs.csdn.net/topics/617804998 原因: cuda运行可能是异步的(asynchronously),因此报错信息中提示的位置可能不准确…...

清华大学Deepseek第六版AIGC发展研究3.0(共186页,附PDF下载)

人工智能生成内容(AIGC)正以前所未有的速度改变我们的生活。 2024年底,清华大学新闻与传播学院与人工智能学院联合发布了《AIGC发展研究3.0版》,这份报告系统梳理了AIGC技术的突破性进展、应用场景及社会影响,并展望了…...

SpringBoot生成唯一ID的方式

1.为什么要生成唯一ID? 数据唯一性:每个记录都需要有一个独一无二的标识符来确保数据的唯一性。这可以避免重复的数据行,并有助于准确地查询、更新或删除特定的记录。 数据完整性:通过使用唯一ID,可以保证数据库中的数…...

通俗易懂的分类算法之K近邻详解

通俗易懂的分类算法之K近邻详解 用最通俗的语言和例子,来彻底理解 K近邻(K-Nearest Neighbors,简称 KNN) 这个分类算法。不用担心复杂的数学公式,我会用生活中的例子来解释,保证你一听就懂! 1.…...

CSDN markdown 操作指令等

CSDN markdown 操作指令等 页内跳转 [内容](#1) <div id"1"> </div>...

【linux】文件与目录命令 - uniq

文章目录 1. 基本用法2. 常用参数3. 用法举例4. 注意事项 uniq 命令用于过滤文本文件中相邻的重复行&#xff0c;并支持统计重复次数或仅保留唯一行。它通常与 sort 命令配合使用&#xff0c;因为 uniq 只识别相邻的重复行。 1. 基本用法 语法&#xff1a; uniq [选项] [输入…...

零信任沙箱:为网络安全筑牢“隔离墙”

在数字化浪潮汹涌澎湃的今天&#xff0c;网络安全如同一艘船在波涛汹涌的大海中航行&#xff0c;面临着重重挑战。数据泄露、恶意软件攻击、网络钓鱼等安全威胁层出不穷&#xff0c;让企业和个人用户防不胜防。而零信任沙箱&#xff0c;就像是一座坚固的“隔离墙”&#xff0c;…...

【金融量化】Ptrade中交易环境支持的业务类型

1. 普通股票买卖 • 特点&#xff1a; 普通股票买卖是最基础的交易形式&#xff0c;投资者通过买入和卖出上市公司的股票来获取收益。 ◦ 流动性高&#xff1a;股票市场交易活跃&#xff0c;买卖方便。 ◦ 收益来源多样&#xff1a;包括股价上涨的资本利得和公司分红。 ◦ 风险…...

【Java---数据结构】链表 LinkedList

1. 链表的概念 链表用于存储一系列元素&#xff0c;由一系列节点组成&#xff0c;每个节点包含两部分&#xff1a;数据域和指针域。 数据域&#xff1a;用于存储数据元素 指针域&#xff1a;用于指向下一个节点的地址&#xff0c;通过指针将各个节点连接在一起&#xff0c;形…...

紧跟 Web3 热潮,RuleOS 如何成为行业新宠?

Web3 热潮正以汹涌之势席卷全球。从金融领域的创新应用到供应链管理的变革&#xff0c;从社交媒体的去中心化尝试到游戏产业的全新玩法探索&#xff0c;Web3 凭借其去中心化、安全性和用户赋权等特性&#xff0c;为各个行业带来了前所未有的机遇。在这股热潮中&#xff0c;Rule…...

CC++的内存管理

目录 1、C/C内存划分 C语言的动态内存管理 malloc calloc realloc free C的动态内存管理 new和delete operator new函数和operator delete函数 new和delete的原理 new T[N]原理 delete[]的原理 1、C/C内存划分 1、栈&#xff1a;存有非静态局部变量、函数参数、返回…...

Spark核心之02:RDD、算子分类、常用算子

spark内存计算框架 一、目标 深入理解RDD弹性分布式数据集底层原理掌握RDD弹性分布式数据集的常用算子操作 二、要点 ⭐️1. RDD是什么 RDD&#xff08;Resilient Distributed Dataset&#xff09;叫做**弹性分布式数据集&#xff0c;是Spark中最基本的数据抽象&#xff0c…...

【Resis实战分析】Redis问题导致页面timeout知识点分析

事故现象&#xff1a;前端页面返回timeout 事故回溯总结一句话&#xff1a; &#xff08;1&#xff09;因为大KEY调用量&#xff0c;随着白天自然流量趋势增长而增长&#xff0c;最终在业务高峰最高点期占满带宽使用100%。 &#xfeff; &#xfeff; &#xff08;2&#x…...

单一职责原则(设计模式)

目录 问题&#xff1a; 定义&#xff1a; 解决&#xff1a; 方式 1&#xff1a;使用策略模式 示例&#xff1a;用户管理 方式 2&#xff1a;使用装饰者模式 示例&#xff1a;用户操作 方式 3&#xff1a;使用责任链模式 示例&#xff1a;用户操作链 总结 推荐 问题&a…...

非支配排序蜣螂优化算法(NSDBO)——多目标优化问题的有效解决方法

非支配排序的蜣螂优化算法&#xff08;Non-dominated Sorting Dung Beetle Optimization, NSDBO&#xff09;是一种结合了非支配排序机制和蜣螂优化算法&#xff08;Dung Beetle Optimization, DBO&#xff09;的进化计算方法&#xff0c;专门用于解决多目标优化问题。 在多目标…...

uniapp安卓应用实现开机自启动的完整配置指南

1. 为什么需要开机自启动功能&#xff1f; 很多智能设备&#xff08;如工业平板、广告机、自助终端&#xff09;都需要在通电后立即运行指定应用。比如商场的导购系统、工厂的生产看板、医院的叫号终端&#xff0c;都需要保证设备重启后业务系统能自动恢复。传统方案需要人工点…...

Hain性能优化终极教程:10个技巧让你的启动器运行更快更稳定

Hain性能优化终极教程&#xff1a;10个技巧让你的启动器运行更快更稳定 【免费下载链接】hain An altspace launcher for Windows, built with Electron 项目地址: https://gitcode.com/gh_mirrors/ha/hain 想要让你的Hain启动器运行如飞吗&#xff1f;作为一款基于Elec…...

造相-Z-Image-Turbo亚洲美女LoRA应用场景:短视频封面/公众号配图/营销素材生成

造相-Z-Image-Turbo亚洲美女LoRA应用场景&#xff1a;短视频封面/公众号配图/营销素材生成 1. 引言&#xff1a;为什么你需要这个AI图片生成工具 如果你正在为这些事头疼&#xff1a; 每天要制作大量短视频封面&#xff0c;但设计耗时又费力公众号文章找不到合适的配图&…...

OpenClaw多模态探索:百川2-13B+OCR实现图片信息自动化处理

OpenClaw多模态探索&#xff1a;百川2-13BOCR实现图片信息自动化处理 1. 为什么需要图片信息自动化处理 上周我收到一份电子合同&#xff0c;需要从中提取关键条款进行汇总。手动翻查30多页PDF时&#xff0c;突然想到&#xff1a;既然OpenClaw能操控电脑&#xff0c;为什么不…...

如何构建可靠的HTML5解析测试框架:全面指南与最佳实践

如何构建可靠的HTML5解析测试框架&#xff1a;全面指南与最佳实践 【免费下载链接】gumbo-parser An HTML5 parsing library in pure C99 项目地址: https://gitcode.com/gh_mirrors/gum/gumbo-parser HTML5解析器是现代Web开发的核心组件&#xff0c;而构建一个可靠的测…...

3个让Mac窗口管理效率倍增的秘密武器:AltTab深度解析

3个让Mac窗口管理效率倍增的秘密武器&#xff1a;AltTab深度解析 【免费下载链接】alt-tab-macos Windows alt-tab on macOS 项目地址: https://gitcode.com/gh_mirrors/al/alt-tab-macos 作为一名从Windows转战macOS的开发者&#xff0c;你是否也曾为窗口切换效率低下…...

从数据清洗到游戏开发:C++ std::string替换函数的5个意想不到的妙用

从数据清洗到游戏开发&#xff1a;C std::string替换函数的5个意想不到的妙用 在C开发者的日常工作中&#xff0c;std::string的替换操作常被视为基础技能&#xff0c;但它的潜力远不止于简单的文本处理。当我们将视线投向更广阔的领域——从游戏开发到数据工程&#xff0c;从安…...

VSCode 高效开发:配置 Pixel Dream Workshop 模型调用的代码片段与插件

VSCode 高效开发&#xff1a;配置 Pixel Dream Workshop 模型调用的代码片段与插件 1. 为什么需要优化开发工作流 如果你经常使用Pixel Dream Workshop这类AI模型进行开发&#xff0c;可能会遇到一个共同痛点&#xff1a;每次调用API时都要重复编写相似的请求代码&#xff0c…...

IINA:macOS上最优雅的全能视频播放器终极指南

IINA&#xff1a;macOS上最优雅的全能视频播放器终极指南 【免费下载链接】iina 项目地址: https://gitcode.com/gh_mirrors/iin/iina 如果你在寻找一款既强大又美观的macOS视频播放器&#xff0c;IINA绝对是你的不二之选。这款基于mpv引擎的现代播放器&#xff0c;不仅…...