当前位置: 首页 > news >正文

大数据之LibrA数据库系统告警处理(ALM-12006 节点故障)

告警解释

Controller按30秒周期检测NodeAgent状态。当Controller连续三次未接收到某个NodeAgent的状态报告时,产生该告警。

当Controller可以正常接收时,告警恢复。

告警属性

告警ID

告警级别

可自动清除

12006

严重

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

对系统的影响

节点业务无法提供。

可能原因

网络断连、硬件故障或操作系统执行命令缓慢。

处理步骤

检查网络是否断连、硬件是否故障或者操作系统执行名称缓慢。

  1. 打开FusionInsight Manager页面,在告警列表中,优先处理在主机管理界面,健康状态为故障的节点故障告警。
  2. 在告警详情中,查看该告警的主机地址。
  3. 使用PuTTY工具,以root用户登录主管理节点。
  4. 执行ping 故障主机IP地址命令检查故障节点是否可达。

    • 是,执行步骤 13。
    • 否,执行步骤 5。

  5. 联系网络管理员查看是否为网络故障。

    • 是,执行步骤 6。
    • 否,执行步骤 7。

  6. 修复网络故障,查看告警列表中,该告警是否已清除。

    • 是,处理完毕。
    • 否,执行步骤 7。

  7. 联系系统管理员查看是否节点硬件故障(CPU或者内存等)。

    • 是,执行步骤 8。
    • 否,执行步骤 13。

  8. 维修或者更换故障部件,并重启节点。查看告警列表中,该告警是否已清除。

    说明:如果节点硬件故障,请参考产品文档中《故障管理》的“应急处理 > 常见紧急故障修复 > 更换故障节点”章节进行处理。

    • 是,处理完毕。
    • 否,执行步骤 9。

  9. 当集群中上报大量的节点故障时,可能是浮动ip资源异常导致controller无法检测agent心跳。

    登录任意故障节点,查看“/var/log/Bigdata/omm/oms/ha/scriptlog/floatip.log”,查看故障出现前后1-2分钟的日志是否完整。

    完整日志为如下格式:

     

    是,执行步骤 13。

    否,执行步骤 10。

  10. 查看检测完wsNetExport后是否打印omNetExport 的检测日志或两条日志打印间隔时间超过10s或更长。

    是,执行步骤 11。

    否,执行步骤 13。

  11. 查看操作系统的“/var/log/message”,查看故障出现时间段是否有sssd频繁重启或者nscd异常信息(Redhat操作系统确认sssd信息,SUSE操作系统确认nscd信息)。

    sssd重启样例

    Feb  7 11:38:16 10-132-190-105 sssd[pam]: Shutting down
    Feb  7 11:38:16 10-132-190-105 sssd[nss]: Shutting down
    Feb  7 11:38:16 10-132-190-105 sssd[nss]: Shutting down
    Feb  7 11:38:16 10-132-190-105 sssd[be[default]]: Shutting down
    Feb  7 11:38:16 10-132-190-105 sssd: Starting up
    Feb  7 11:38:16 10-132-190-105 sssd[be[default]]: Starting up
    Feb  7 11:38:16 10-132-190-105 sssd[nss]: Starting up
    Feb  7 11:38:16 10-132-190-105 sssd[pam]: Starting up

    nscd异常信息样例

    Feb 11 11:44:42 10-120-205-33 nscd: nss_ldap: failed to bind to LDAP server ldaps://10.120.205.55:21780: Can't contact LDAP server
    Feb 11 11:44:43 10-120-205-33 ntpq: nss_ldap: failed to bind to LDAP server ldaps://10.120.205.55:21780: Can't contact LDAP server
    Feb 11 11:44:44 10-120-205-33 ntpq: nss_ldap: failed to bind to LDAP server ldaps://10.120.205.92:21780: Can't contact LDAP server

    是,执行步骤 12。

    否,执行步骤 13。

  12. 排查ldapserver节点是否故障,例如业务IP不可达、网络延时过长等;若故障为阶段性,则需在故障时排查,并尝试执行top命令查看是否存在异常软件。

收集故障信息。

  1. 在FusionInsight Manager界面,单击“系统设置 > 日志下载”。
  2. 在“服务”下拉框中勾选如下节点信息,单击“确定”。

    • NodeAgent
    • Controller
    • OS

  3. 设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。

相关文章:

大数据之LibrA数据库系统告警处理(ALM-12006 节点故障)

告警解释 Controller按30秒周期检测NodeAgent状态。当Controller连续三次未接收到某个NodeAgent的状态报告时,产生该告警。 当Controller可以正常接收时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12006 严重 是 告警参数 参数名称 参…...

poi兴趣点推荐数据集介绍

介绍 foursquare数据集包含2153471个用户,1143092个场所,1021970个签到,27098490个社交关系以及用户分配给场所的2809581评级,我们常用的是根据NYC和TKY都是从该数据集中抽取出来的。 下载地址:https://sites.google.…...

把两个4点的结构相加

( A, B )---3*30*2---( 1, 0 )( 0, 1 ) 让网络的输入只有3个节点,训练集中只有5张图片,让A中有4个1,B全是0,排列组合,统计迭代次数并排序。 其中有3个结构 3差值结构 迭代次数 4差值结构 迭代次数 31 3-2 0 1 …...

windows内存取证-中等难度-下篇

上文我们对第一台Target机器进行内存取证,今天我们继续往下学习,内存镜像请从上篇获取,这里不再进行赘述​ Gideon 攻击者访问了“Gideon”,他们向AllSafeCyberSec域控制器窃取文件,他们使用的密码是什么? 攻击者执…...

代码随想录算法训练营第7天|454 四数相加II 383. 赎金信 15.三数之和 18 四数之和

JAVA代码编写 454. 四数相加 II 给你四个整数数组 nums1、nums2、nums3 和 nums4 &#xff0c;数组长度都是 n &#xff0c;请你计算有多少个元组 (i, j, k, l) 能满足&#xff1a; 0 < i, j, k, l < nnums1[i] nums2[j] nums3[k] nums4[l] 0 示例 1&#xff1a;…...

负载均衡深度解析:算法、策略与Nginx实践

引言 如今&#xff0c;网站和应用服务面临着巨大的访问流量&#xff0c;如何高效、稳定地处理这些流量成为了一个亟待解决的问题。负载均衡技术因此应运而生&#xff0c;它通过将流量合理分配到多个服务器上&#xff0c;不仅优化了资源的利用率&#xff0c;还大大提升了系统的…...

7. 一文快速学懂常用工具——Makefile

本章讲解知识点 引言MakefileMakefile 入门本专栏适合于软件开发刚入职的学生或人士,有一定的编程基础,帮助大家快速掌握工作中必会的工具和指令。本专栏针对面试题答案进行了优化,尽量做到好记、言简意赅。如专栏内容有错漏,欢迎在评论区指出或私聊我更改,一起学习,共同…...

[ACTF2023]复现

MDH 源题&#xff1a; from hashlib import sha256 from secret import flagr 128 c 96 p 308955606868885551120230861462612873078105583047156930179459717798715109629 Fp GF(p)def gen():a1 random_matrix(Fp, r, c)a2 random_matrix(Fp, r, c)A a1 * a2.Treturn…...

HNU-编译原理-讨论课1

讨论课安排&#xff1a;2次4学时&#xff0c;分别完成四大主题讨论 分组&#xff1a;每个班分为8组&#xff0c;每组4~5人&#xff0c;自选组长1人 要求和说明&#xff1a; 以小组为单位上台报告&#xff1b;每次每组汇报2个小主题&#xff0c;每组按要求在2个小主题中各选1…...

【Linux】关于Nginx的详细使用,部署项目

前言&#xff1a; 今天小编给大家带来的是关于Nginx的详细使用&#xff0c;部署项目&#xff0c;希望可以给正在学习&#xff0c;工作的你带来有效的帮助&#xff01; 一&#xff0c;Nginx简介 Nginx是一个高性能的开源Web服务器和反向代理服务器。它最初由Igor Sysoev在2004年…...

编写 navigation2 控制器插件

简介 本教程展示了如何创建自己的控制器插件。在本教程中&#xff0c;我们将基于这篇论文实现纯追踪路径跟踪算法。建议您阅读该论文。   注意&#xff1a;本教程基于 Nav2 堆栈中以前存在的简化版本的 Regulated Pure Pursuit 控制器。您可以在此处找到与本教程相匹配的源代…...

计算机网络 第六章应用层

文章目录 1 应用层功能概述2 网络应用模型&#xff1a;客户服务器(CS)3 网络应用模型&#xff1a;PeerToPeer(P2P)4 域名和域名系统5 常见域名解析服务器6 两种域名解析过程7 什么是FTP8 FTP的工作原理9 EMail的组成 1 应用层功能概述 2 网络应用模型&#xff1a;客户服务器(CS…...

人工智能领域CCF推荐国际学术刊物最新目录(全)

2021年1月&#xff0c;CCF决定启动新一轮中国计算机学会推荐国际学术会议和期刊目录调整工作并委托CCF学术工作委员会组织实施。 2023年3月8日, 中国计算机学会正式发布了2022版《中国计算机学会推荐国际学术会议和期刊目录》(以下简称《目录》) 。 相较于上一版目录&#xff0…...

实现基于 Azure DevOps 的数据库 CI/CD 最佳实践

数据库变更一直是整个应用发布过程中效率最低、流程最复杂、风险最高的环节&#xff0c;也是 DevOps 流程中最难以攻克的阵地。那我们是否能在具体的 CI/CD 流程中&#xff0c;像处理代码那样处理数据库变更呢&#xff1f; DORA 调研报告 DORA&#xff08;DevOps Research &am…...

上海实习小记

8月3日入职10月27日离职&#xff0c;原本还想做满3个月再走&#xff0c;可惜公司提早要迁到成都&#xff0c;就只好 离职了回学校了。在博客随便写写记录一下这几个月的生活吧&#xff0c;想到哪里写到哪里 实习的公司是一个小公司&#xff0c;开发一款类似于咸鱼之王的游戏&am…...

uniapp实现路线规划

UniApp是一个基于Vue.js框架开发的跨平台应用开发框架&#xff0c;可以同时构建iOS、Android、H5等多个平台的应用。它使用了基于前端技术栈的Web开发方式&#xff0c;通过编写一套代码&#xff0c;即可在不同平台上运行和发布应用。 UniApp具有以下特点&#xff1a; 跨平台开…...

飞利浦双串口51单片机485网关

主要功能将PC端的数据接收下来&#xff0c;分发到不同的设备&#xff0c;也是轮询设备数据读取回来&#xff0c;打包回传到PC端&#xff0c;数据包包头包尾识别&#xff0c;数据校验&#xff0c;接收超时处理&#xff0c;将协议结构化处理&#xff0c;协议的改动不需要改动程序…...

生态扩展:Flink Doris Connector

生态扩展&#xff1a;Flink Doris Connector 官网地址&#xff1a; https://doris.apache.org/zh-CN/docs/dev/ecosystem/flink-doris-connector flink的安装&#xff1a; tar -zxvf flink-1.16.0-bin-scala_2.12.tgz mv flink-1.16.0-bin-scala_2.12.tgz /opt/flinkflink环境…...

HarmonyOS(二)—— 初识ArkTS开发语言(上)之TypeScript入门

前言 Mozilla创造了JS&#xff0c;Microsoft创建了TS&#xff0c;而Huawei进一步推出了ArkTS。因此在学习使用ArkTS前&#xff0c;需要掌握基本的TS开发技能。 ArkTS介绍 ArkTS是HarmonyOS优选的主力应用开发语言。它在TypeScript&#xff08;简称TS&#xff09;的基础上&am…...

从零开始实现神经网络(一)_NN神经网络

参考文章&#xff1a;神经网络介绍 一、神经元 这一神经网络的基本单元&#xff0c;神经元接受输入&#xff0c;对它们进行一些数学运算&#xff0c;并产生一个输出。 这里有三步。 首先&#xff0c;将每个输入&#xff08;X1&#xff09;乘以一个权重&#xff1a; 接下来&…...

基于Vue的青年志愿者乡村服务管理系统[vue]-计算机毕业设计源码+LW文档

摘要&#xff1a;随着乡村振兴战略的深入实施&#xff0c;青年志愿者在乡村服务中的作用日益凸显。为了提高青年志愿者光明村乡村服务的管理效率和质量&#xff0c;本文设计并实现了一个基于Vue的青年志愿者乡村服务管理系统。本文详细阐述了系统的开发背景、相关技术、需求分析…...

Windows远程桌面防爆破实战:用PowerShell自动封禁恶意IP(附完整脚本)

Windows远程桌面安全加固&#xff1a;基于PowerShell的智能IP封禁系统 远程桌面服务&#xff08;RDP&#xff09;作为企业IT基础设施的核心组件&#xff0c;其安全性直接关系到整个系统的稳定运行。根据2023年全球网络安全报告显示&#xff0c;针对3389端口的暴力破解尝试占所有…...

3种核心能力解锁网页资源捕获:猫抓浏览器工具全解析

3种核心能力解锁网页资源捕获&#xff1a;猫抓浏览器工具全解析 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 猫抓(cat-catch)是一款专业的浏览器…...

实战指南:利用wandb高效管理机器学习实验日志

1. 为什么你需要wandb来管理机器学习实验 第一次训练神经网络时&#xff0c;我把所有超参数和结果都记在了一个txt文件里。三天后当我尝试复现某个"还不错"的结果时&#xff0c;面对20多个版本的文件&#xff0c;完全分不清哪个是哪个。这种混乱的经历让我意识到&…...

AI编程助手功能解锁:开源破解方案与开发工具权限绕过技术探索

AI编程助手功能解锁&#xff1a;开源破解方案与开发工具权限绕过技术探索 【免费下载链接】cursor-free-vip [Support 0.45]&#xff08;Multi Language 多语言&#xff09;自动注册 Cursor Ai &#xff0c;自动重置机器ID &#xff0c; 免费升级使用Pro 功能: Youve reached y…...

[Python3高阶编程] - 再论 WSGI、Web服务器和Python Web应用的关系

一、核心关系&#xff1a;WSGI 是“接口标准”&#xff0c;Web 服务器是“实现者”简单定义组件类型职责代表实现WSGI协议标准&#xff08;PEP 3333&#xff09;定义 Web 服务器与 Python 应用之间的通信接口规范&#xff1a;• 函数签名• 参数格式• 数据流向• 错误处理不是…...

Python结合Scripting Tracker实现SAP复杂元素精准定位与自动化操作

1. 为什么需要PythonSAP自动化组合 如果你每天都要在SAP里重复点击几十次相同的按钮&#xff0c;或者需要从几百行的表格中手动筛选数据&#xff0c;那你一定体会过这种机械性工作带来的痛苦。我去年接手的一个财务对账项目就是这样——每月要处理3000多张单据&#xff0c;团队…...

C++ 编译模型与工程机制全解析:从 include 到链接与 ABI

关键词&#xff1a;编译、链接、#include、本质、静态库、动态库、ABI 适合人群&#xff1a;有 Java / Android 背景&#xff0c;开始深入理解 C 工程机制的开发者一、为什么一定要理解“编译模型”&#xff1f;很多人写 C 会遇到这些问题&#xff1a;❓ 为什么 include 了还能…...

oicq 高级技巧:如何构建企业级 QQ 机器人应用架构

oicq 高级技巧&#xff1a;如何构建企业级 QQ 机器人应用架构 【免费下载链接】oicq Tencent QQ Bot Library for Node.js 项目地址: https://gitcode.com/gh_mirrors/oi/oicq oicq 是一个基于 Node.js 的 QQ 协议库&#xff0c;专为构建稳定、高效的 QQ 机器人应用而设…...

研途灵伴学习专项接口支撑与协议收口复盘

摘要 前面的计划、错题本、复习、状态这些后端模块其实都已经能各自工作了&#xff0c;聊天里的动作按钮也能执行。但是当桌面端真的开始接学习页和聊天动作时&#xff0c;问题就出来了&#xff1a; 数据来源太散&#xff0c;页面要自己拼。动作点完以后&#xff0c;前端只知道…...