当前位置: 首页 > article >正文

如何排查java程序的宕机和oom?如何解决宕机和oom?

排查oom

用jmap生成我们的堆空间的快照Heap Dump(堆转储文件),来分析我们的内存占用

用可视化工具,例如java中的jhat分析Heap Dump文件 ,它分析完会通过一个浏览器打开一个可视化页面展示分析结果

根据oom的类型来调整我们的内存配置

java.lang.OutOfMemoryError: Java heap space:堆内存不足。java.lang.OutOfMemoryError: Metaspace:元空间(类元数据)不足。java.lang.OutOfMemoryError: Direct buffer memory:直接内存(NIO)不足。java.lang.OutOfMemoryError: Unable to create new native thread:线程数超出限制。java.lang.OutOfMemoryError: GC overhead limit exceeded:GC 频繁且回收效率低

调整jvm参数

堆内存不足:

-Xms512m -Xmx4g  # 初始堆和最大堆大小
-XX:+UseG1GC      # 使用 G1 垃圾回收器(适合大堆)

metaspace元空间不足:

-XX:MaxMetaspaceSize=512m  # 限制元空间大小
-XX:+CMSClassUnloadingEnabled  # 启用类卸载(CMS GC)

直接内存不足:

-XX:MaxDirectMemorySize=256m  # 调整直接内存上限


排查宕机(JVM Crash)

1.查看崩溃日志

JVM 崩溃时会生成 hs_err_pid<pid>.log 文件,包含关键信息:

崩溃原因:如 SIGSEGV(非法内存访问)、EXCEPTION_ACCESS_VIOLATION。

堆栈信息:崩溃时的线程堆栈、本地库调用链

2.实时监控工具

jstat:查看 GC 统计信息

jstat -gcutil <pid> 1000  # 每秒打印 GC 情况

jstack:生成线程快照,分析死锁或线程阻塞

jstack <pid> > thread_dump.txt

Prometheus + Grafana:监控 JVM 内存、GC、线程等指标

启用 GC 日志

-Xloggc:/path/to/gc.log -XX:+PrintGCDetails -XX:+PrintGCDateStamps

JNI问题是什么?

JNI(Java Native Interface) 是 Java 提供的一种机制,允许 Java 代码与 C/C++ 等本地(Native)代码交互。例如,调用操作系统底层 API 或使用高性能计算库时,可能会用到 JNI。

为什么 JNI 容易出问题?

JNI 是 Java 和本地代码的“桥梁”,但需要手动管理内存和资源

常见问题包括:

内存泄漏:本地代码分配的内存未释放(如 malloc 后未 free)

越界访问:操作数组时越界(如 GetIntArrayElements 后越界写数据)

悬空指针:Java 对象被垃圾回收后,本地代码仍访问其指针

线程安全问题:本地代码未正确处理多线程(如未绑定 JNIEnv 到线程)

兼容性问题:编译的本地库与操作系统或 JVM 版本不兼容(如 32/64 位不匹配)

JNI 问题导致的典型现象

JVM 崩溃:日志中出现 SIGSEGV(段错误)、EXCEPTION_ACCESS_VIOLATION。

内存逐渐耗尽:本地代码内存泄漏,但 Java 堆内存正常。

应用行为异常:数据损坏、随机崩溃(如错误处理指针)。

如何排查 JNI 问题?

查看崩溃日志:JVM 崩溃时生成的 hs_err_pid<pid>.log 文件,定位崩溃的本地方法和线程

本地代码调试:

使用 GDB(Linux)或 WinDbg(Windows)调试本地库。

用 Valgrind(Linux)检查内存泄漏或越界访问。

代码审查:

确保本地代码正确释放资源(如 ReleaseArrayElements)。

避免跨线程使用 JNIEnv(每个线程需通过 AttachCurrentThread 获取)。

简化复现:隔离 JNI 调用部分,编写最小测试用例验证问题


GC日志

什么是GC日志?有什么用?

GC 日志(Garbage Collection Log) 是 JVM 垃圾回收过程的详细记录,用于分析内存管理和 GC 性能。

GC 日志的作用

诊断内存问题:

发现频繁 Full GC(可能内存泄漏)

观察对象晋升到老年代的速度(过早晋升导致 OOM)

优化 GC 性能:

分析 GC 暂停时间(Stop-The-World)是否影响应用响应

调整堆大小或选择更合适的 GC 算法(如 G1、ZGC)。

验证配置效果:

确认 JVM 参数(如 -Xmx、-XX:NewRatio)是否生效。

观察分代内存分配是否合理


GC 日志包含哪些信息?

时间戳:GC 发生的时间。

GC 类型:GC(Minor GC)、Full GC。

触发原因:如 Allocation Failure(分配失败)。

内存变化:各分代(YoungGen、OldGen)回收前后的内存大小。

耗时:user(CPU 用户态时间)、real(实际暂停时间)

GC 日志的典型分析场景

频繁 Young GC:

现象:每秒多次 Young GC。

可能原因:新生代太小或短生命周期对象过多。

解决:增大 -Xmn(新生代大小)。

长时间 Full GC:

现象:Full GC 耗时长(如超过 1 秒)。

可能原因:老年代内存不足或内存泄漏。

解决:分析堆转储(Heap Dump)检查大对象


JVM奔溃日志一般会记录什么信息?

1. 基本信息

时间戳:记录崩溃发生的具体时间,精确到毫秒甚至更细的粒度,有助于定位问题出现的时间点。

JVM 版本信息:包括 JVM 的供应商、版本号、构建号等,不同版本的 JVM 可能存在不同的特性和已知问题,这些信息对于分析问题很重要。

操作系统信息:如操作系统的名称、版本、架构(32 位或 64 位)等,因为 JVM 与操作系统的交互可能会影响其稳定性,某些问题可能与特定的操作系统环境相关

2. 崩溃原因信息

错误类型:明确指出 JVM 崩溃的错误类型,如 OutOfMemoryError(内存溢出错误)、StackOverflowError(栈溢出错误)等,这些错误类型为问题的初步定位提供了方向。

异常信息:如果是由异常导致的崩溃,会详细记录异常的类型、消息以及异常发生的调用栈信息。调用栈信息能够显示出异常是在哪些方法中被抛出的,帮助开发人员追踪代码执行路径,找到引发问题的具体代码位置

3. 内存信息

堆内存使用情况:记录 JVM 堆内存的大小、已使用的堆内存量、剩余的堆内存量等信息。通过这些数据可以判断是否存在内存泄漏或内存使用不合理的情况。

非堆内存使用情况:对于 JVM 中的非堆内存,如方法区、本地方法栈等,也会有相应的使用情况记录,有助于全面了解 JVM 的内存占用情况。

垃圾回收信息:包括垃圾回收的次数、不同代(新生代和老年代)的垃圾回收情况、垃圾回收所花费的时间等。垃圾回收如果出现异常,可能导致内存无法及时释放,进而引发 JVM 崩溃,这些信息可以帮助分析垃圾回收是否正常工作


我们一开始什么都不知道的时候,我怎么知道这个是oom还是宕机

一、观察现象:快速区分 OOM 和宕机

特征

OOM(内存溢出)

JVM 宕机(Crash)

进程是否存活

进程可能仍在运行(但无法处理请求)

进程直接退出(JVM 崩溃)

日志中的关键字

OutOfMemoryError

java.lang.OOM

hs_err_pid<pid>.log

(崩溃日志)

直接表现

抛出异常,可能部分功能不可用,但进程未退出

应用突然消失(如终端打印 Segmentation Fault

是否生成堆转储文件

如果配置了 -XX:+HeapDumpOnOutOfMemoryError

,会生成 .hprof

文件

不会生成堆转储文件,但会生成崩溃日志文件

二、实操步骤:快速定位问题类型
1. 第一步:检查进程是否存在

进程还在 → 可能是 OOM 或普通错误(如线程阻塞)。

进程消失 → 可能是 JVM 宕机


2. 第二步:查看应用日志

快速搜索日志中的关键字:

# 查看最近的应用日志(替换为实际路径)
tail -n 100 /path/to/application.log | grep -i "outofmemoryerror"

关键日志示例

OOM

java.lang.OutOfMemoryError: Java heap space

JVM 宕机

没有 OOM 错误,但进程消失。

可能在系统日志中看到 Segmentation fault(Linux)或 EXCEPTION_ACCESS_VIOLATION(Windows)


3.第三步:检查崩溃日志(仅宕机)

如果进程消失,JVM 会生成崩溃日志 hs_err_pid<pid>.log

存在 hs_err_pid.log → JVM 宕机(需分析崩溃原因)。

不存在该日志 → 可能是 OOM 或其他问题


4.第四步:验证 OOM 的堆转储文件

如果配置了 -XX:+HeapDumpOnOutOfMemoryError,OOM 时会生成 .hprof 文件

结论:

存在 .hprof 文件 → OOM。

不存在 → 可能是未配置参数,或非堆内存问题(如 Metaspace OOM)


快速总结

进程活着 + 日志有 OOM 错误 → OOM

进程消失 + 存在 hs_err_pid.log → JVM 宕机

进程消失 + 无崩溃日志 → 可能是系统杀死(如 OOM Killer)或其他原因


面试问答:如果我们的java程序出现了宕机或oom我们该怎么排查

我们一开始并不知道我们的程序出现错误是因为宕机了还是oom?

是因为服务器资源紧张还是java程序配置不合理的原因?

所以我们首先先用top命令去看看服务器整体的内存占用百分比,看看内存是否紧张,我们一般用top命令去查看,但一般都会有现成的监控工具和报警工具,例如普罗米修斯

如果服务器资源不紧张的话,那可能才是java程序本身出了问题

我们要查看java程序是否存活

进程活着 + 日志有 OOM 错误 → OOM

进程消失 + 存在 hs_err_pid.log → JVM 宕机

进程消失 + 无崩溃日志 → 可能是系统杀死(如 OOM Killer)或其他原因

启动Java应用时添加 JVM 参数:

-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/path/to/dump.hprof

OOM 发生时,JVM 会自动生成堆转储文件到指定路径

如果java程序仍然存活,说明出错是因为oom,我们内存oom的话我们会生成一个headdump转储文件

然后我们查看我们的oom的类型

java.lang.OutOfMemoryError: Java heap space:堆内存不足。java.lang.OutOfMemoryError: Metaspace:元空间(类元数据)不足。java.lang.OutOfMemoryError: Direct buffer memory:直接内存(NIO)不足。java.lang.OutOfMemoryError: Unable to create new native thread:线程数超出限制。java.lang.OutOfMemoryError: GC overhead limit exceeded:GC 频繁且回收效率低

Metaspace属于非堆内存,它的OOM可能和堆OOM表现类似,即JVM进程可能仍然存在,但无法继续加载类,导致应用无法正常运行

我们根据错误类型来调整我们的堆内存的空间配置

如果java程序没有存活,说明就是宕机或者崩溃了

我们的JVM崩溃的时候会生成崩溃日志 hs_err_pid<pid>.log,里面会记录着我们的jvm的崩溃原因信息,jvm信息,内存信息等,然后我们进行分析

这个都是出问题的时候我们根据文件排查的,但是有时候出了问题我们从文件排查不出来,我们就要用jvm工具来排查oom了

我们可以用jmap来手动生成当前堆内存的转储文件headdump,然后用jhat来打开我们的dump文件来分析结果

通过jconsole和普罗米修斯等可视化实时监控工具来查看堆内存,线程,类信息等

jstack分析线程,检查线程是否阻塞在某个对象分配上(例如等待锁导致内存无法释放)

启用gc日志:

-Xloggc:/path/to/gc.log -XX:+PrintGCDetails -XX:+PrintGCDateStamps

通过可视化gc日志GCViewer来查看gc回收相关信息

相关文章:

如何排查java程序的宕机和oom?如何解决宕机和oom?

排查oom 用jmap生成我们的堆空间的快照Heap Dump&#xff08;堆转储文件&#xff09;&#xff0c;来分析我们的内存占用 用可视化工具&#xff0c;例如java中的jhat分析Heap Dump文件 &#xff0c;它分析完会通过一个浏览器打开一个可视化页面展示分析结果 根据oom的类型来调…...

26_ajax

目录 了解 接口 前后端交互 一、安装服务器环境 nodejs ajax发起请求 渲染响应结果 get方式传递参数 post方式传递参数 封装ajax_上 封装ajax下 了解 清楚前后端交互就可以写一些后端代码了。小项目 现在写项目开发的时候都是前后端分离 之前都没有前端这个东西&a…...

代理模式(Proxy Pattern)实现与对比

代理模式&#xff08;Proxy Pattern&#xff09;实现与对比 1. 虚拟代理&#xff08;Virtual Proxy&#xff09; 定义&#xff1a;延迟加载对象&#xff0c;避免资源浪费。 适用场景&#xff1a;大文件或资源的加载&#xff08;如图片、数据库连接&#xff09;。 代码示例 /…...

MySQL - 数据库基础操作

SQL语句 结构化查询语言(Structured Query Language)&#xff0c;在关系型数据库上执行数据操作、数据检索以及数据维护的标准语言。 分类 DDL 数据定义语言(Data Definition Language)&#xff0c;定义对数据库对象(库、表、列、索引)的操作。 DML 数据操作语言(Data Manip…...

​​​​​​Spring Boot热部署插件

在实际开发中&#xff0c;我们修改某些代码或页面都需要重启应用后才能生效&#xff0c;如果每次都手动重启&#xff0c;会降低了开发效率&#xff1b;热部署是指当我们修改代码后&#xff0c;服务能自动重启加载新修改的内容&#xff0c;这样大大提高了我们开发的效率&#xf…...

pip install cryptacular卡住,卡在downloading阶段

笔者安装pip install cryptacular卡在downloading阶段&#xff0c;但不知道为何 Collecting cryptacularCreated temporary directory: /tmp/pip-unpack-qfbl8f08http://10.170.22.41:8082 "GET http://repo.huaweicloud.com/repository/pypi/packages/42/69/34d478310d6…...

AI大模型从0到1记录学习 day09

第 8 章 面向对象之类和对象 8.1 面向过程和面向对象 面向过程编程&#xff08;Procedural Programming&#xff09;和面向对象编程&#xff08;OOP&#xff09;是两种不同的编程范式&#xff0c;它们在软件开发中都有广泛的应用。 Python是一种混合型的语言&#xff0c;既支持…...

【FW】ADB指令分类速查清单

1. 设备管理 指令核心作用adb devices列出已连接设备adb reboot重启设备adb reboot bootloader进入Bootloader模式adb reboot recovery进入Recovery模式adb root获取Root权限&#xff08;需设备支持&#xff09;adb remount挂载系统分区为可读写 2. 应用管理 指令核心作用adb…...

Kafka中的消息是如何存储的?

大家好&#xff0c;我是锋哥。今天分享关于【Kafka中的消息是如何存储的&#xff1f;】面试题。希望对大家有帮助&#xff1b; 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 在 Kafka 中&#xff0c;消息是通过 日志&#xff08;Log&#xff09; 的方式进行存储的。…...

Altium Designer——同时更改多个元素的属性(名称、网络标签、字符串标识)

右键要更改的其中一个对象&#xff0c;选择查找相似… 进入到筛选界面&#xff0c;就是选择你要多选的对象的共同特点&#xff08;名字、大小等等&#xff09;&#xff0c;我这里要更改的是网络标签&#xff0c;所以我选择Text设置为一样。 点击应用就是应用该筛选调节&#…...

当模板方法模式遇上工厂模式:一道优雅的烹饪架构设计

当模板方法模式遇上工厂模式&#xff1a;一道优雅的烹饪架构设计 模式交响曲的实现模板方法模式搭建烹饪骨架&#xff08;抽象类&#xff09;具体菜品&#xff08;子类&#xff09; 工厂模式 模式协作的优势呈现扩展性演示运行时流程控制 完整代码 如果在学习 设计模式的过程中…...

c++位运算总结

在C中&#xff0c;位运算是对二进制位进行操作的运算&#xff0c;主要有以下几种&#xff1a; 1. 按位与&#xff08; & &#xff09;&#xff1a;两个操作数对应位都为1时&#xff0c;结果位才为1&#xff0c;否则为0。例如 3 & 5 &#xff0c; 3 二进制是 0000 0011…...

企业级知识库建设:自建与开源产品集成的全景解析 —— 产品经理、CTO 与 CDO 的深度对话

文章目录 一、引言二、主流产品与方案对比表三、自建方案 vs. 开源产品集成&#xff1a;技术路径对比3.1 自建方案3.2 开源产品集成方案 四、结论与个人观点 一、引言 在当今数据驱动的商业环境中&#xff0c;构建高质量的知识库已成为企业数字化转型的关键一环。本博客分别从…...

Python小练习系列 Vol.6:单词搜索(网格回溯)

&#x1f9e0; Python小练习系列 Vol.6&#xff1a;单词搜索&#xff08;网格回溯&#xff09; &#x1f50d; 本期我们来挑战一道 LeetCode 上经典的网格型回溯题 —— 单词搜索&#xff0c;考察对 DFS 状态恢复的掌握&#xff01; &#x1f9e9; 一、题目描述 给定一个 m x…...

shell脚本--MySQL简单调用

实现功能 增 数据库的创建&#xff0c;数据表的创建已经实现 创建用户 删 删除数据库&#xff0c; 删除库下的某个表&#xff0c; 删除某个用户 改 暂无 查 查看所有的数据库&#xff0c; 查看某个库下的所有数据表&#xff0c; 查看某个表的结构&#xff0c; 查…...

vue3项目配置别名

vue3项目配置别名 src别名的配置TypeScript 编译配置如果出现/别名引入报找不到的问题 src别名的配置 在开发项目的时候文件与文件关系可能很复杂&#xff0c;因此我们需要给src文件夹配置一个别名&#xff01;&#xff01;&#xff01; // vite.config.ts import {defineCon…...

Rust 面向对象

Rust 面向对象 引言 Rust 是一种系统编程语言,以其高性能、内存安全和并发支持而受到关注。Rust 的面向对象特性是其强大功能之一,它允许开发者以面向对象的方式构建复杂的应用程序。本文将深入探讨 Rust 的面向对象编程(OOP)特性,包括类的定义、继承、封装和多态等概念…...

[ C语言 ] | 从0到1?

目录 认识计算机语言 C语言 工欲善其事必先利其器 第一个C语言代码 这一些列 [ C语言 ] &#xff0c;就来分享一下 C语言 相关的知识点~ 认识计算机语言 我们说到计算机语言&#xff0c;语言&#xff0c;就是用来沟通的工具&#xff0c;计算机语言呢&#xff1f;就是我们…...

[Mac]利用Hexo+Github Pages搭建个人博客

由于我这台Mac基本没啥环境&#xff0c;因此需要从零开始配置&#xff0c;供各位参考。 注意⚠️&#xff1a;MacBook (M4)使用/bin/zsh作为默认Shell&#xff0c;其对应的配置文件为~/.zshrc 参考文档&#xff1a; HEXO系列教程 | 使用GitHub部署静态博客HEXO | 小白向教程 文…...

pycharm与python版本

python 3.6-3.9 pycharm 2021版本搭配最好 python 3.8 pycharm 2019版本搭配最好 pycharm各版本下载...

Qt在IMX6ULL嵌入式系统中图片加载问题排查与解决

Qt在IMX6ULL嵌入式系统中图片加载问题排查与解决&#xff08;保姆级教学&#xff01;&#xff09; 在使用Qt开发IMX6ULL嵌入式系统的过程中&#xff0c;我遇到了图片加载的常见问题。本文将分享问题排查的详细过程和解决方案&#xff0c;希望能帮助遇到类似困难的开发者。 问题…...

界面控件Telerik和Kendo UI 2025 Q1亮点——AI集成与数据可视化

Telerik DevCraft包含一个完整的产品栈来构建您下一个Web、移动和桌面应用程序。它使用HTML和每个.NET平台的UI库&#xff0c;加快开发速度。Telerik DevCraft提供完整的工具箱&#xff0c;用于构建现代和面向未来的业务应用程序&#xff0c;目前提供UI for ASP.NET MVC、Kendo…...

pycharm终端操作远程服务器

pycharm项目已经连接了远程服务器&#xff0c;但是打开终端&#xff0c;却依旧显示的是本地的那个环境&#xff0c;也就是说没有操作远程的那个环境。只能再使用Xshell去操作远程环境&#xff0c;很麻烦&#xff0c;找了下教程。 来源&#xff1a;https://blog.csdn.net/maolim…...

接口测试中数据库验证,怎么解决?

在接口测试中&#xff0c;通常需要在接口调用前后查询数据库&#xff0c;以验证接口操作是否正确影响了数据库状态。​这可以通过数据库断言来实现&#xff0c;PyMySQL库常用于连接和操作MySQL数据库。​通过该库&#xff0c;可以在测试中执行SQL语句&#xff0c;查询或修改数据…...

Playwright从入门到实战:比Selenium更快的数据爬取案例实战

摘要 Playwright 是微软开源的下一代浏览器自动化工具&#xff0c;凭借其高性能、跨浏览器支持和现代化设计&#xff0c;迅速成为 Web 自动化领域的热门选择。本文将从 安装配置 开始&#xff0c;通过 实战演练 展示其核心功能&#xff0c;并与 Selenium 深度对比&#xff0c;…...

defconfig配置宏的规则

defconfig配置宏的规则 CONFIG_INETnCONFIG_INETy defconfig里这样配置&#xff0c;CONFIG_INET宏有效吗 在 defconfig 文件中&#xff0c;如果出现了 相同的配置项被定义多次&#xff0c;最终生效的是最后一次出现的值。 &#x1f539; 你的配置 bash复制编辑CONFIG_INE…...

day1_Flink基础

文章目录 Flink基础今日课程内容目标为什么要学Flink技术更新迭代市场需求 流式计算批量计算概念特点 批量计算的优势和弊端流式计算生活中流场景流式计算的概念 Flink简介Flink历史Flink介绍 Flink架构体系已学过的框架技术Flink架构 Flink集群搭建Flink的集群模式Standalone模…...

ctf-web: 不统一的解析 + sql注入要求输入与输出相等 -- tpctf supersqli

# 从 django.shortcuts 模块导入 render 函数&#xff0c;用于渲染模板 from django.shortcuts import render # 从 django.db 模块导入 connection 对象&#xff0c;用于数据库连接 from django.db import connection# 此模块用于创建视图函数 # 从 django.http 模块导入 Http…...

基于Java与Go的下一代DDoS防御体系构建实战

引言:混合云时代的攻防对抗新格局 2024年某金融平台遭遇峰值2.3Tbps的IPv6混合攻击,传统WAF方案在新型AI驱动攻击面前全面失效。本文将以Java与Go为技术栈,揭示如何构建具备智能决策能力的防御系统。 一、攻击防御技术矩阵重构 1.1 混合攻击特征识别 攻击类型Java检测方案…...

使用FastExcel时的单个和批量插入的问题

在我们用excel表进行插入导出的时候&#xff0c;通常使用easyexcel或者FastExcel&#xff0c;而fastexcel是easy的升级版本&#xff0c;今天我们就对使用FastExcel时往数据库插入数据的业务场景做出一个详细的剖析 场景1 现在我们数据库有一张组织表&#xff0c;组织表的字段…...