OAT 初始化时出错?问题可能出在 PAM 配置上|OceanBase 故障排查实践
本文作者:爱可生数据库工程师,任仲禹,擅长故障分析和性能优化。
背景
某客户在使用 OAT 初始化OceanBase 服务器的过程中,进行到 precheck 步骤时,遇到了如下报错信息:
ERROR - check current session hard limit of open_files (ulimit -H -n): 4096 != 655350 ... EXPECT 655350 ... FAIL
错误大意:OAT 需要服务器的 ulimit -H -n 命令返回值是 655350,实际得到的是 4096。
下图所示,虚拟机因磁盘和内存规格不足而触发了检查错误提示(此信息可以忽略)。
排查过程
① 检查当前服务器的 ulimit 值
使用 SSH 登录到目标服务器检查。
结果:【不符合预期】
使用 su
切换到服务器 admin 用户检查。
结果:【符合预期】
这里就有问题,OAT 在 prepare 之前,已经有步骤对服务器的内核参数完成了调整,如下图所示。
这里的 oceanbase_limits.conf
是 OAT 生成的,属于全局配置生效。
理论上不应该出现 SSH 到服务器与 SU 到服务器查出 ulimit 结果不一致的情况。
② 检查 OAT 对于 ulimit 的检查机制
OAT 检查该步骤是运行的程序是 init_server_with_tag.py
。
[2024-09-27T16:34:52.775+0800] INFO - Running: ['airflow', 'tasks', 'run', 'init_server_with_tag', 'precheck', 'manual__2024-09-27T08:34:21.675314+00:00', '--job-id', '39950', '--raw', '--subdir', 'DAGS_FOLDER/init_server_with_tag.py', '--cfg-path', '/tmp/tmp5ni__moh']
登录到 OAT 容器,查看程序最终的调用如下。
# 脚本 task_engine/dags/init_server_with_tag.pydef precheck():ctx = get_current_context()common.server_precheck(ctx, logger=logger)# 脚本 task_engine/plugins/common.py
def server_precheck(ctx, logger):init_tag = ctx['params']['init_tag']role = _get_server_role(init_tag)envs = _get_custom_user_env(ctx['params'])with ServerRemoteExecute(server_id=ctx['params']['server_id']) as client:precheck_sh = SHELL_PATH / 'precheck.sh'ret_code, _ = client.execute_script(precheck_sh, args=('-m', role), control_master=False, logger=logger,env={'LC_ALL': 'en_US.UTF-8', 'OB_IP': client.server['ip'], **envs})if ret_code != 0:raise RuntimeError('server precheck failed, please see the summary info above for details')# 脚本 task_engine/shells/precheck.sh
check_limit() {limit_type_list=(-H/hard -S/soft)for limit in "${EXPECT_LIMITS[@]}"dolimit_option=$(echo $limit | awk -F'/' '{print $1}')expect_limit=$(echo $limit | awk -F'/' '{print $2}')limit_description=$(echo $limit | awk -F'/' '{print $3}')limit_item=$(echo $limit | awk -F'/' '{print $4}')for limit_type in "${limit_type_list[@]}"dolimit_type_option=$(echo $limit_type | awk -F'/' '{print $1}')limit_type_description=$(echo $limit_type | awk -F'/' '{print $2}')get_limit_cmd="ulimit $limit_type_option $limit_option"# check new sessioncurrent_limit=$(runuser - "$EXPECT_USER" -c "$get_limit_cmd")if ! compare_ulimit "$current_limit" "$expect_limit"; thenecho_fail "check permanent $limit_type_description limit of $limit_description ($get_limit_cmd): $current_limit != $expect_limit ... EXPECT $expect_limit"echo_hint "modify /etc/security/limits.d/oceanbase_limits.conf\n echo \"* $limit_type_description $limit_item $expect_limit\" >> /etc/security/limits.d/oceanbase_limits.conf"elseecho_pass "check $limit_type_description limit of new session $limit_description ($get_limit_cmd): $current_limit"fi# check current sessioncurrent_limit=$($get_limit_cmd)if ! compare_ulimit "$current_limit" "$expect_limit"; thenecho_fail "check current session $limit_type_description limit of $limit_description ($get_limit_cmd): $current_limit != $expect_limit ... EXPECT $expect_limit"echo_hint "excute: ulimit $limit_type_option $limit_option $expect_limit"elseecho_pass "check $limit_type_description limit of $limit_description ($get_limit_cmd): $current_limit"fidonedone
}
这里 OAT 获取 ulimit 结果不符合预期的原因已清楚:
通过检查脚本,OAT 是通过 ServerRemoteExecute
模块(使用 SSH 方式)去目标服务器上执行 prepare.sh
脚本做 *ulimit 检查(与预期的 ulimit 值进行对比)。
但是,通过 SSH 连到服务器上执行 ulimit 命令的执行结果不符合预期,甩出报错。
③ 疑问:为何 SSH 连接时 ulimit 值不正确?
先使用 strace
命令查看下 su
时的系统调用。
strace -o /root/l1 su - admin
SU 的结果
SU 时,将调用 /usr/lib64/security/pam_limits.so
文件,继而获取到如下两个文件的 ulimit 配置:/etc/security/limits.conf
和 /etc/security/limits.d/oceanbase_limits.conf
。
所以,su - admin
命令执行的结果【符合预期】。
通过系统日志 /var/log/secure
可以看到,SU 操作加载了 pam 插件。
Oct 14 17:44:44 10-186-58-85 su: pam_unix(su-l:session): session opened for user admin by root(uid=0)
从结果反推下,为什么 SSH 不去读取 /usr/lib64/security/pam_limits.so
文件?
根据关键字,猜测跟 SSH 的 PAM 插件有关,继续检查 ssh_config
配置文件如下。
UsePAM no
- 目标服务器的 PAM 确实是关闭的。
- 通过系统日志
/var/log/secure
可以看到,SSH 操作没有加载 pam 插件。
Oct 14 17:50:40 10-186-58-85 sshd[25117]: Accepted publickey for root from 10.186.58.85 port 19118 ssh2: RSA SHA256:+TtbeuvInWm90vrJG7cHHm2G2a2FULFE0Uq+imx2m30
引申:PAM 的作用?
这里 ChatGPT 了一下,解释非常清楚如下图,总结一句就是:
关闭 PAM,用户 SSH 到服务器时,将不会读取 *limits.conf
的配置,继而导致获取到默认配置而使 OAT 报错。
解决方法
将配置文件 /etc/ssh/sshd_config
中的 UsePAM 修改为 yes ,重启 SSHD 服务即可。
启用 PAM 插件后,再次 SSH 可以看到系统日志如下多了加载 pam_unix(sshd:session)
的操作。
Oct 14 17:51:56 10-186-58-85 sshd[26147]: Accepted publickey for root from 10.186.58.85 port 19480 ssh2: RSA SHA256:+TtbeuvInWm90vrJG7cHHm2G2a2FULFE0Uq+imx2m30
Oct 14 17:51:56 10-186-58-85 sshd[26147]: pam_unix(sshd:session): session opened for user root by (uid=0)
原因分析总结
- OAT 在初始化服务器预检查过程中报告了 ulimit 值不符合预期的错误,这一问题的根源在于目标服务器的 sshd_config 配置不当。
- sshd_config 中 禁用了 PAM 插件,导致 OAT 无法读取到目标服务器上经过优化的 ULIMIT 配置文件。
相关文章:

OAT 初始化时出错?问题可能出在 PAM 配置上|OceanBase 故障排查实践
本文作者:爱可生数据库工程师,任仲禹,擅长故障分析和性能优化。 背景 某客户在使用 OAT 初始化OceanBase 服务器的过程中,进行到 precheck 步骤时,遇到了如下报错信息: ERROR - check current session ha…...

1-机器学习的基本概念
文章目录 一、机器学习的步骤Step1 - Function with unknownStep2 - Define Loss from Training DataStep3 - Optimization 二、机器学习的改进Q1 - 线性模型有一些缺点Q2 - 重新诠释机器学习的三步Q3 - 机器学习的扩展Q4 - 过拟合问题(Overfitting) 一、…...

Hass-Panel - 开源智能家居控制面板
文章目录 ▎项目介绍:预览图▎主要特性安装部署Docker方式 正式版Home Assistant Addon方式详细安装方式1. Home Assistant 插件安装(推荐)2. Docker 安装命令功能说明 :3. Docker Compose 安装升级说明Docker Compose 版本升级 功…...

Ubuntu搭建NFS服务器的方法
0 工具 Ubuntu 18.041 Ubuntu搭建NFS服务器的方法 在Ubuntu下搭建NFS(网络文件系统)服务器可以让我们像访问本地文件一样访问Ubuntu上的文件,例如可以把开发板的根文件系统放到NFS服务器目录下方便调试。 1.1 安装nfs-kernel-server&#…...

网感驱动下开源AI大模型AI智能名片S2B2C商城小程序源码的实践路径研究
摘要:在数字化浪潮中,网感已成为内容创作者与商业运营者必备的核心能力。本文以开源AI大模型、AI智能名片及S2B2C商城小程序源码为技术载体,通过解析网感培养与用户需求洞察的内在关联,提出"数据驱动-场景适配-价值重构"…...

COMPUTEX 2025 | 广和通5G AI MiFi解决方案助力移动宽带终端迈向AI新未来
随着5G与AI不断融合,稳定高速、智能的移动网络已成为商务、旅行、户外作业等场景的刚需。广和通5G AI MiFi方案凭借领先技术与创新设计,重新定义5G移动网络体验。 广和通5G AI MiFi 方案搭载高通 4nm制程QCM4490平台,融合手机级超低功耗技术…...

防范Java应用中的恶意文件上传:确保服务器的安全性
防范Java应用中的恶意文件上传:确保服务器的安全性 在当今数字化时代,Java 应用无处不在,而文件上传功能作为许多应用的核心组件,却潜藏着巨大的安全隐患。恶意文件上传可能导致服务器被入侵、数据泄露甚至服务瘫痪,因…...

STM32H7时钟树
时钟树分析 STM32H7共有6个外部时钟源,分别是: HSI(高速内部振荡器)时钟:~ 8 MHz、16 MHz、32 MHz 或 64 MHzHSE(高速外部振荡器)时钟:4 MHz 到 48 MHzLSE(低速外部振荡器ÿ…...
git 的 .gitignore 规则文件
# .gitignore 使用注意事项: # 1. 所有的注释只能是独占单行注释,不能在有效代码后注释!否者不生效!比如错误示范: # 实例: MDK/ #忽略MDK目录下所有内容 (跟在有效代码后注释,非法ÿ…...

【通用智能体】Serper API 详解:搜索引擎数据获取的核心工具
Serper API 详解:搜索引擎数据获取的核心工具 一、Serper API 的定义与核心功能二、技术架构与核心优势2.1 技术实现原理2.2 对比传统方案的突破性优势 三、典型应用场景与代码示例3.1 SEO 监控系统3.2 竞品广告分析 四、使用成本与配额策略五、开发者注意事项六、替…...
asp.net web form nlog的安装
一、安装NuGet包 核心包安装 NLog提供日志记录核心功能 NLog.Config自动生成默认配置文件模板 配置NLog文件 配置文件创建 项目根目录自动生成NLog.config文件(通过NuGet安装NLog.Config时创建) <?xml version"1.0" encoding&…...

【图像生成大模型】CogVideoX-5b:开启文本到视频生成的新纪元
CogVideoX-5b:开启文本到视频生成的新纪元 项目背景与目标模型架构与技术亮点项目运行方式与执行步骤环境准备模型加载与推理量化推理 执行报错与问题解决内存不足模型加载失败生成质量不佳 相关论文信息总结 在人工智能领域,文本到视频生成技术一直是研…...

剧本杀小程序:指尖上的沉浸式推理宇宙
在推理热潮席卷社交圈的当下,你是否渴望随时随地开启一场烧脑又刺激的冒险?我们的剧本杀小程序,就是你掌心的“推理魔法盒”,一键解锁无限精彩! 海量剧本库,满足多元口味:小程序汇聚了从古风权…...

2024正式版企业级在线客服系统源码+语音定位+快捷回复+图片视频传输+安装教程
2024正式版企业级在线客服系统源码语音定位快捷回复图片视频传输安装教程; 企业客服系统是一款全功能的客户服务解决方案,提供多渠道支持(如在线聊天、邮件、电话等),帮助企业建立与客户的实时互动。该系统具有智能分…...

深入解析 Oracle session_cached_cursors 参数及性能对比实验
在 Oracle 数据库管理中,session_cached_cursors参数扮演着至关重要的角色,它直接影响着数据库的性能和资源利用效率。本文将深入剖析该参数的原理、作用,并通过性能对比实验,直观展示不同参数设置下数据库的性能表现。 一、sessi…...

【RabbitMQ】整合 SpringBoot,实现工作队列、发布/订阅、路由和通配符模式
文章目录 工作队列模式引入依赖配置声明生产者代码消费者代码 发布/订阅模式引入依赖声明生产者代码发送消息 消费者代码运行程序 路由模式声明生产者代码消费者代码运行程序 通配符模式声明生产者代码消费者代码运行程序 工作队列模式 引入依赖 我们在创建 SpringBoot 项目的…...
k8s面试题-ingress
场景:我通过deployment更新pod,ingress是怎么把新的请求流量发送到我新的pod的?是怎么监控到我更新的pod的? 在 Kubernetes 中,Ingress 是一种 API 对象,用于管理外部访问到集群内服务的 HTTP 和 HTTPS 路…...

Node.js Express 项目现代化打包部署全指南
Node.js Express 项目现代化打包部署全指南 一、项目准备阶段 1.1 依赖管理优化 # 生产依赖安装(示例) npm install express mongoose dotenv compression helmet# 开发依赖安装 npm install nodemon eslint types/node --save-dev1.2 环境变量配置 /…...
分布式电源的配电网无功优化
分布式电源(Distributed Generation, DG)的大规模接入配电网,改变了传统单向潮流模式,导致电压波动、功率因数降低、网损增加等问题,无功优化成为保障配电网安全、经济、高效运行的关键技术。 1. 核心目标 电压稳定性:抑制DG并网点(PCC)及敏感节点的电压越限(如超过5%…...
【WebRTC】源码更改麦克风权限
WebRTC源码更改麦克风权限 仓库: https://webrtc.googlesource.com/src.git分支: guyl/m125节点: b09c2f83f85ec70614503d16e4c530484eb0ee4f...

upload-labs通关笔记-第15关 文件上传之getimagesize绕过(图片马)
目录 一、图片马 二、文件包含 三、文件包含与图片马 四、图片马制作方法 五、源码分析 六、制作图片马 1、创建脚本并命名为test.php 2、准备制作图片马的三类图片 3、 使用copy命令制作图片马 七、渗透实战 1、GIF图片马渗透 (1)上传gif图…...

idea无法识别Maven项目
把.mvn相关都删除了 导致Idea无法识别maven项目 或者 添加导入各个模块 最后把父模块也要导入...
前端三剑客之HTML
前端HTML 一、HTML简介 1.什么是html HTML的全称为超文本标记语言(HTML How To Make Love HyperText Markup Language ),是一种标记语言。它包括一系列标签,通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整…...

linux中cpu内存浮动占用,C++文件占用cpu内存、定时任务不运行报错(root) PAM ERROR (Permission denied)
文章目录 说明部署文件准备脚本准备部署g++和编译脚本使用说明和测试脚本批量部署脚本说明执行测试定时任务不运行报错(root) PAM ERROR (Permission denied)报错说明处理方案说明 我前面已经弄了几个版本的cpu和内存占用脚本了,但因为都是固定值,所以现在重新弄个用C++编写的…...
RabbitMQ的核心原理及应用
在分布式系统架构中,消息中间件是实现服务解耦、流量缓冲的关键组件。RabbitMQ 作为基于 AMQP 协议的开源消息代理,凭借高可靠性、灵活路由和跨平台特性,被广泛应用于企业级开发和微服务架构中。本文将系统梳理 RabbitMQ 的核心知识ÿ…...
实时监控服务器CPU、内存和磁盘使用率
实时监控服务器CPU、内存和磁盘使用率 监控内存使用率: free -g | awk NR2{printf "%.2f%%\t\t", $3*100/$2 }awk NR2{...} 取第二行(Mem 行)。 $3 为已用内存,$2 为总内存,$3*100/$2 即计算使用率。监控磁…...
linux国产机安装GCC
目录 1.包管理器安装 2.源码编译安装 linux安装GCC有两种方式,方法一,使用包管理器安装;方法二,源码安装。 1.包管理器安装 Ubuntu 基于 Debian 发行版,使用apt - get进行软件包管理;CentOS 基于 …...
python训练营打卡第30天
模块和库的导入 知识点回顾: 导入官方库的三种手段导入自定义库/模块的方式导入库/模块的核心逻辑:找到根目录(python解释器的目录和终端的目录不一致) 一、导入官方库 1.标准导入:导入整个库 import mathprint(&quo…...
时间序列预测实战:用 LSTM 预测股票价格
📈 时间序列预测实战:用 LSTM 预测股票价格(PyTorch 实现) 时间序列预测是深度学习在金融领域最常见的应用之一。本文将带你使用 PyTorch 搭建一个基于 LSTM 的模型,对股票收盘价进行预测,完整掌握从数据预处理到预测结果可视化的全流程。 🎯 一、项目目标 任务:基于…...

STM32 | FreeRTOS 消息队列
01 一、概述 队列又称消息队列,是一种常用于任务间通信的数据结构,队列可以在任务与任务间、中断和任务间传递信息,实现了任务接收来自其他任务或中断的不固定长度的消息,任务能够从队列里面读取消息,当队列中的消…...