当前位置: 首页 > news >正文

Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程

文章目录

  • 前言
  • 一、当前的状态是什么?
  • 二、集群启动异常怀疑对象
    • 1.排查心跳网络异常
      • ping自己私有IP延迟高
      • ping其它主机私有IP不通
    • 2.是否发生过重启
  • 三、日志信息收集
    • ocssd.trc
    • 集群crs日志
    • cell的griddisk状态及报错
  • 四、IB交换机的问题排查处理
  • 五、紧急恢复业务
    • 在IB完成正常重启后,重新启动所有cell服务
    • 拉起集群:
  • 六、收尾工作
    • check修复第二台IB交换机
    • 重新挂载nfs共享目录
    • 检查PDU,确实已掉电
  • 七、原因调查
    • PDU问题由于29日晚操作切电操作导致UPS路跳闸
    • 主机等log显示电源切换
    • 29日有检测到FAN0风扇数值是0
  • 总结


前言

客户突然联系说应用无法连接数据库,报错如下:

[ERROR]-[Thread: Druid-ConnectionPool-Create-26728049]-[com.alibaba.druid.pool.DruidDataSource$CreateConnectionThread.run()]: create connection error, url: jdbc:oracle:thin:@x.x.x.93:1521:empdb011, errorCode 17002, state 08006
java.sql.SQLRecoverableException: IO 错误: The Network Adapter could not establish the connectionat oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:774)at oracle.jdbc.driver.PhysicalConnection.connect(PhysicalConnection.java:688)at oracle.jdbc.driver.T4CDriverExtension.getConnection(T4CDriverExtension.java:39)at oracle.jdbc.driver.OracleDriver.connect(OracleDriver.java:691)at com.alibaba.druid.filter.FilterChainImpl.connection_connect(FilterChainImpl.java:148)at com.alibaba.druid.filter.stat.StatFilter.connection_connect(StatFilter.java:220)at com.alibaba.druid.filter.FilterChainImpl.connection_connect(FilterChainImpl.java:142)at com.alibaba.druid.filter.FilterAdapter.connection_connect(FilterAdapter.java:785)at com.alibaba.druid.filter.FilterChainImpl.connection_connect(FilterChainImpl.java:142)at com.alibaba.druid.pool.DruidAbstractDataSource.createPhysicalConnection(DruidAbstractDataSource.java:1463)at com.alibaba.druid.pool.DruidAbstractDataSource.createPhysicalConnection(DruidAbstractDataSource.java:1525)at com.alibaba.druid.pool.DruidDataSource$CreateConnectionThread.run(DruidDataSource.java:2100)
Caused by: oracle.net.ns.NetException: The Network Adapter could not establish the connectionat oracle.net.nt.ConnStrategy.execute(ConnStrategy.java:523)at oracle.net.resolver.AddrResolution.resolveAndExecute(AddrResolution.java:521)at oracle.net.ns.NSProtocol.establishConnection(NSProtocol.java:660)at oracle.net.ns.NSProtocol.connect(NSProtocol.java:286)at oracle.jdbc.driver.T4CConnection.connect(T4CConnection.java:1438)at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:518)... 11 more
Caused by: java.io.IOException: Connection timed out: connect, socket connect lapse 20998 ms. /x.x.x.93 1521 0 1 trueat ora

一、当前的状态是什么?

集群状态宕掉了,且无法正常启动!!!
在这里插入图片描述
在这里插入图片描述

二、集群启动异常怀疑对象

1.排查心跳网络异常

ping自己私有IP延迟高

在这里插入图片描述

ping其它主机私有IP不通

在这里插入图片描述
那么问题定位到私有IP不通导致的集群无法启动,一体机内部私有IP交互是通过自身的IB交换机完成的,很有可能是IB交换机问题,下面进行日志查询取证。

2.是否发生过重启

每台机器都发生过重启,明显掉电情况
在这里插入图片描述

三、日志信息收集

ocssd.trc

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

集群crs日志

在这里插入图片描述

cell的griddisk状态及报错

在这里插入图片描述
尝试启动:
在这里插入图片描述
那么排查到这里可以断定,是由于上层问题导致的griddisk不正常无法拉起集群,此处上层的IB交换机就成为重要排查对象。

四、IB交换机的问题排查处理

通过融合IP登入ilom管理网页失败,只能通过ssh
在这里插入图片描述
在这里插入图片描述
登入后看到明显的提示,尝试boot重启失败:
在这里插入图片描述
在这里插入图片描述
还发现掉了一个PDU,进行确认私有IP通信正常

五、紧急恢复业务

在IB完成正常重启后,重新启动所有cell服务

在这里插入图片描述
在这里插入图片描述

拉起集群:

在这里插入图片描述

六、收尾工作

check修复第二台IB交换机

重新挂载nfs共享目录

在这里插入图片描述

检查PDU,确实已掉电

在这里插入图片描述
在这里插入图片描述

七、原因调查

PDU问题由于29日晚操作切电操作导致UPS路跳闸

主机等log显示电源切换

在这里插入图片描述

29日有检测到FAN0风扇数值是0

在这里插入图片描述
但实际风扇只应该显示FAN1~3才对,出现FAN0也是奇怪,有知道朋友可以留言。


总结

通过整体问题梳理,应该是在用过进行切电作业时候导致UPS跳闸,且市电进行切换导致的整个一体机机柜出现了掉电情况,然后服务器重启后,IB交换机自检硬件有问题导致自检失败所有整体的私有IP和以下的集群服务无法正常启动。

相关文章:

Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程

文章目录 前言一、当前的状态是什么?二、集群启动异常怀疑对象1.排查心跳网络异常ping自己私有IP延迟高ping其它主机私有IP不通 2.是否发生过重启 三、日志信息收集ocssd.trc集群crs日志cell的griddisk状态及报错 四、IB交换机的问题排查处理五、紧急恢复业务在IB完…...

锐捷RG-EW1200G登录绕过漏洞复现

文章目录 锐捷RG-EW1200G登录绕过漏洞复现0x01 前言0x02 漏洞描述0x03 影响版本0x04 漏洞环境0x05 漏洞复现1.访问漏洞环境2.复现 0x06 修复建议 锐捷RG-EW1200G登录绕过漏洞复现 0x01 前言 免责声明:请勿利用文章内的相关技术从事非法测试,由于传播、…...

Python之循环语句

循环普遍存在于日常生活中,同样,在程序中,循环功能也是至关重要的基础功能。 循环在程序中同判断一样,也是广泛存在的,是非常多功能实现的基础 while循环的基础语法 生活中的循环 程序中的循环 只要条件满足 会无限循…...

python中使用websocket调用、获取、保存大模型API

笔者最近在测试星火大模型的时候,他们是使用websocket 来建立对话,而且星火大模型开放的测试代码,质量上不咋地(20231030记录),还需要对websocket有一定的了解,才适合自己微调。 安装&#xff…...

Linux的账号管理

本章的学习感觉如果不做系统管理员,作为简单了解就可以了 前面介绍了,用户,组,other三个角色, 每个用户创建都会有uid与之对应,创建的用户基本信息在一下两个文件中,也是我们要介绍的内容&…...

优优嗨聚集团:医保新政来袭,乙类OTC、保健品或将退出医保舞台,影响几何?

近日,国家医保局发布征求意见稿,拟将乙类OTC(非处方药)和保健品从医保目录中移除。这一政策一旦实施,无疑将对广大参保人员和相关企业产生深远影响。本文将为您详细解析这一政策可能带来的影响,以及如何应对…...

ubuntu安装pandora-gpt

因为pandora要3.7以上的版本,推荐MINICANDA, 1,在清华镜像网站上下载miniconda3安装的脚本文件 sudo wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py38_4.9.2-Linux-x86_64.sh2,给.sh文件添加x执…...

PHP校验身份证号是否正确

用PHP语言实现校验身份证号的算法,供参考 /*** 校验身份证号是否正确* param $idcard 身份证号* return bool true正确*/public static function validateIDCard($idcard) {if(empty($idcard)){return false;}if (!preg_match(/(^\d{15}$)|(^\d{17}([0-9]|X|x)$)/,$…...

[C++ ]:5.类和对象中(运算符重载补充)+ 类和对象下(初始化列表)

类和对象中(运算符重载补充) 类和对象下(初始化列表) 一.运算符重载补充:1.流插入运算符:1.考虑到隐含的参数指针:2.进行优化!2-1:解决办法:友元2-2&#xff…...

D. Doremy‘s Connecting Plan Codeforces Round 906 (Div. 2)

Problem - D - Codeforces 题目大意:有一个长度为n的数组a,同时有一个n个点的图,编号与数组的编号对应,初始没有边,如果当前连通块的中a[i]的和某一个点a[j]>连通块的一个点i*某一个点j*c,那么就可以连…...

Prometheus+Grafana

一、Prometheus 获取配置文件 docker run -d -p 9090:9090 --name prometheus prom/prometheusmkdir -p /app/prometheusdocker cp prometheus:/etc/prometheus/prometheus.yml /app/prometheus/prometheus.yml停止并删除旧的容器,重新启动 docker run -d --name…...

CoCa论文笔记

摘要 计算机视觉任务中,探索大规模预训练基础模型具有重要意义,因为这些模型可以可以极快地迁移到下游任务中。本文提出的CoCa(Contrastive Captioner),一个极简设计,结合对比损失和captioning损失预训练一…...

uniapp 微信小程ios端键盘弹起后导致页面无法滚动

项目业务逻辑和出现的问题整理 新增页面 用户可以主动添加输入文本框 添加多了就会导致当前页面出现滚动条,这就导致ios端滚动页面的时候去点击输入框键盘抬起再关闭的时候去滚动页面发现页面滚动不了(偶尔出现),经过多次测试发现是键盘抬起的时候 主动向上滑动 100%出现这种问…...

三维模型优势在哪里?如何提升产品自身商业价值?

不少企业、商家都开始使用VR全景展示来宣传推广自己的产品、活动等,虽说VR全景的沉浸式体验,相比于图片、视频而言有着无法取代的优势,但是也不能忘了VR全景另一个大优势,那就是丰富多样的互动性。3D模型展示让产品展示和体验不再…...

WheatA 轻量级生态数据软件

无论是在工作还是上学期间,大家想要做一个科研项目或者市场调查时,往往需要大量的数据用于分析总结,这时获得优质的数据就显得额外重要,数据的优劣往往决定了项目结果的好坏。数据来源的主要渠道主要有两种:无非是去数…...

2127. 参加会议的最多员工数 : 啥是内向/外向基环树(拓扑排序)

题目描述 这是 LeetCode 上的 「2127. 参加会议的最多员工数」 ,难度为 「困难」。 Tag : 「拓扑排序」、「内向基环树」、「图」 一个公司准备组织一场会议,邀请名单上有 n 位员工。 公司准备了一张圆形的桌子,可以坐下任意数目的员工。 员工…...

Qt入门日记1

目录 1.Qt简介和案例 2.第一个Qt程序 3.学会查看帮助文档 4.创建一个按钮 5.对象树简介 6.Qt的坐标系 7. 信号和槽 7.1自定义信号和槽 7.2信号连接信号 7.3拓展 7.4Qt4版本以前的connect 1.Qt简介和案例 Qt是一个跨平台的C图形用户界面应用程序框架(就是一个库吧…...

SpringBoot_第七章(读写分离)

这里列举了三种读写分离实现方案,分别是如下三种 1&#xff1a;MybatisPlus&#xff08;读写分离&#xff09; 1.1&#xff1a;首先创建三个数据库1主2从 表名是user表 1.2&#xff1a;代码实例 1&#xff1a;导入pom <!--MybatisPlus的jar 3.0基于jdk8--><depend…...

linux下mysql-8.2.0集群部署(python版本要在2.7以上)

目录 一、三台主机准备工作 1、mysql官方下载地址&#xff1a;https://dev.mysql.com/downloads/ 2、修改/etc/hosts 3、关闭防火墙 二、三台主机安装mysql-8.2.0 1、解压 2、下载相应配置 3、初始化mysql&#xff0c;启动myslq&#xff0c;设置开机自启 4、查看初始密…...

40 深度学习(四):卷积神经网络|深度可分离卷积|colab和kaggle的基础使用

文章目录 卷积神经网络为什么要卷积卷积的具体流程池化tensorflow代码 深度可分离卷积原理介绍计算量对比代码参数计算例子 colab 和 kagglecolabkaggle如何在colab上使用kaggle的数据 卷积神经网络 卷积神经网络的基本结构 1&#xff1a; (卷积层(可选)池化层) * N全连接层 *…...

IPD实战指南:FAN模型如何精准量化细分市场的财务潜力

1. FAN模型是什么&#xff1f;为什么企业需要它&#xff1f; 第一次接触FAN模型是在2015年&#xff0c;当时我参与的一个智能硬件项目组正在为产品线扩张方向争论不休。市场部主张进军高端医疗设备&#xff0c;研发部看好教育硬件赛道&#xff0c;而财务部则坚持只做消费级产品…...

嵌入式轻量级日志框架:零堆内存与编译期级别控制

1. Logger库深度解析&#xff1a;面向嵌入式系统的轻量级串口日志框架 1.1 设计定位与工程价值 Logger库虽以“Arduino library”为标签&#xff0c;但其本质是一个面向资源受限嵌入式平台的 轻量级串口日志框架 。在STM32、ESP32、nRF52等主流MCU平台上&#xff0c;日志输出…...

React + TypeScript 实战:安全高效集成 OpenAI API 的进阶指南

1. 为什么选择ReactTypeScript集成OpenAI API 在当今的前端开发领域&#xff0c;React和TypeScript已经成为构建现代化Web应用的首选技术栈。当我们需要集成像OpenAI API这样的AI服务时&#xff0c;这个组合能带来显著的优势。 TypeScript的静态类型检查可以在开发阶段就捕获许…...

OpenClaw多任务调度:千问3.5-9B并行处理多个自动化流程

OpenClaw多任务调度&#xff1a;千问3.5-9B并行处理多个自动化流程 1. 为什么需要多任务调度&#xff1f; 去年夏天&#xff0c;我同时接手了三个技术项目&#xff1a;一个爬虫数据清洗任务、一个Markdown文档自动化整理工具&#xff0c;还有一个需要定期检查服务器日志的监控…...

《算法题讲解指南:递归,搜索与回溯算法--穷举vs深搜vs回溯vs剪枝》--12.全排列,13.子集

&#x1f525;小叶-duck&#xff1a;个人主页 ❄️个人专栏&#xff1a;《Data-Structure-Learning》《C入门到进阶&自我学习过程记录》 《算法题讲解指南》--优选算法 《算法题讲解指南》--递归、搜索与回溯算法 《算法题讲解指南》--动态规划算法 ✨未择之路&#xff0…...

微信聊天记录如何实现本地永久备份?开源工具WeChatMsg守护你的数字资产

微信聊天记录如何实现本地永久备份&#xff1f;开源工具WeChatMsg守护你的数字资产 【免费下载链接】WeChatMsg 提取微信聊天记录&#xff0c;将其导出成HTML、Word、CSV文档永久保存&#xff0c;对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_T…...

macOS极简安装OpenClaw:5分钟对接Gemma-3-12b-it WebUI

macOS极简安装OpenClaw&#xff1a;5分钟对接Gemma-3-12b-it WebUI 1. 为什么选择OpenClawGemma组合&#xff1f; 去年第一次听说AI能直接操作我的电脑时&#xff0c;我本能地感到不安——让AI控制鼠标键盘&#xff1f;这听起来像科幻电影里的灾难开端。但当我真正尝试用Open…...

6个专业级步骤:yuzu开源模拟器配置优化从启动失败到稳定60帧

6个专业级步骤&#xff1a;yuzu开源模拟器配置优化从启动失败到稳定60帧 【免费下载链接】yuzu 任天堂 Switch 模拟器 项目地址: https://gitcode.com/GitHub_Trending/yu/yuzu yuzu作为领先的任天堂Switch开源模拟器&#xff0c;为玩家提供了在PC上体验《宝可梦剑盾》《…...

Go的runtime.ReadMemStats:获取内存分配统计

Go语言作为一门高效且现代化的编程语言&#xff0c;其内存管理机制一直是开发者关注的焦点。runtime.ReadMemStats函数是Go运行时提供的一个强大工具&#xff0c;能够帮助开发者获取详细的内存分配统计信息&#xff0c;从而优化程序性能。本文将深入探讨runtime.ReadMemStats的…...

Python flask django高校学生绩点成绩预警管理系统的设计与实现

目录同行可拿货,招校园代理 ,本人源头供货商功能模块分析预警规则设置数据可视化与报表系统安全与扩展技术实现参考项目技术支持源码获取详细视频演示 &#xff1a;文章底部获取博主联系方式&#xff01;同行可合作同行可拿货,招校园代理 ,本人源头供货商 功能模块分析 用户管…...