当前位置: 首页 > news >正文

【jvm】记一次hive堆heap内存溢出的排查

先看下java的内存模型

监控jvm工具:visualVM 摘录一下内容:

由c++开发的jvm,它巧妙地设计了java的设计理念——即万物皆对象。并设计了这些对象应该如何存储,如何调用,并通过不断迭代设计让对象的存储和回收,执行更加合理,下图是jvm的发展历程。

也许开发者未必精通jvm,但对jvm的深入了解可以对开发,排错,调优有非常大的帮助。这里给出最基本的 jvm 入门知识,也是你监控 jvm并期待通过分析jvm来排错调优所必要的基础知识:
在这里插入图片描述

  • 堆(Heap):
    堆是用于存储对象实例的内存区域。在堆中分配的对象包括通过 new 关键字创建的对象以及数组。
    所有线程共享堆,但每个对象都有一个标识它的引用。
  • 栈(Stack):
    栈用于存储方法的局部变量、操作数栈、方法返回地址等。每个线程都有自己的栈。
    每个方法在执行时都会创建一个栈帧,栈帧包含了该方法的局部变量表、操作数栈、动态链接、方法返回地址等信息。
  • 程序计数器(Program Counter):
    程序计数器是每个线程私有的,用于存储当前线程执行的字节码指令的地址或索引。
    在多线程环境下,程序计数器用于记录每个线程执行的位置,确保线程切换后能够恢复到正确的执行位置。
  • 本地方法栈(Native Method Stack):
    本地方法栈类似于栈,但用于执行本地方法(非 Java 语言编写的方法)。
    本地方法栈的实现和栈类似,但用于执行本地代码。
  • 元空间(Metaspace):
    元空间是 JDK 8+ 版本中引入的(替代原来的方法区),使用本机内存存储类的元信息,包括类的结构信息、静态变量
    、方法信息等。

查看hive日志

日志:hive-server2.out,注意不是:hiveserver2.log

2024-09-10 20:21:35,765 HiveServer2-Background-Pool: Thread-13637 ERROR Unable to create Appender of type HushableMutableRandomAccess
java.lang.OutOfMemoryError: Java heap space
Dumping heap to /var/de_log/hive/java_pid36821.hprof ...
Heap dump file created [18346979563 bytes in 27.401 secs]
Terminating due to java.lang.OutOfMemoryError: Java heap space

可以看到发生了OOM的问题OutOfMemoryError,堆heap内存溢出了。

获取hive内存溢出时候的内存快照hprof

hiveserver2日志文件夹内执行:grep OutOfMemory ./hiveserver2-gc.log*
得到如下内容:

./hiveserver2-gc.log.0:CommandLine flags: -XX:+ExitOnOutOfMemoryError -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/xxx/hive/

参数具体意义参考:-XX:+HeapDumpOnOutOfMemoryError

根据/xxx/hive/和发生hiveserver2 terminate的时间,找到jvm导出的hprof文件,hprof文件大约有17GB。此文件就是发生OutOfMemoryError时刻的内存快照,很大也压缩不了。

ls -lh
-rw-------  1 hive hadoop  17G Sep  9 23:06 java_pid24619.hprof

使用工具分析hprof文件

工具一VisualVM:

此工具是jdk自带的,一般在JAVA_HOME/bin/jvisualvm.exe在win下直接运行就可以了。

载入hprof文件在在这里插入图片描述就会的都如下信息:

基本信息:生成的日期: Tue Sep 10 20:30:14 CST 2024文件: D:\java_pid123345.hprof\java_pid12345.hprof文件大小: 17,497 MB字节总数: 18,231,897,382类总数: 23,546实例总数: 11,253,335类加载器: 1,354垃圾回收根节点: 11,647等待结束的暂挂对象数: 0在出现 OutOfMemoryError 异常错误时进行了堆转储导致 OutOfMemoryError 异常错误的线程: HiveServer2-Background-Pool: Thread-12410

点击 HiveServer2-Background-Pool: Thread-12410超链接就是展示实际进程的调用栈:

 
"HiveServer2-Background-Pool: Thread-12410" prio=5 tid=12410 RUNNABLEat java.lang.OutOfMemoryError.<init>(OutOfMemoryError.java:48)at org.apache.thrift.protocol.TBinaryProtocol.readStringBody(TBinaryProtocol.java:379)at org.apache.thrift.protocol.TBinaryProtocol.readMessageBegin(TBinaryProtocol.java:230)at org.apache.thrift.TServiceClient.receiveBase(TServiceClient.java:77)at org.apache.hadoop.hive.metastore.api.ThriftHiveMetastore$Client.recv_get_database(ThriftHiveMetastore.java:770)Local Variable: org.apache.hadoop.hive.metastore.api.ThriftHiveMetastore$get_database_result#166at org.apache.hadoop.hive.metastore.api.ThriftHiveMetastore$Client.get_database(ThriftHiveMetastore.java:757)at org.apache.hadoop.hive.metastore.HiveMetaStoreClient.getDatabase(HiveMetaStoreClient.java:1523)

HiveMetaStoreClient.getDatabase可以发现是hms读取database信息造成的。

工具二mat:

内存溢出怎么排查?分析思路大概都是这样的吧

官网地址:
mat工具地址
注意下载时候选择版本,mat和jdk有一定搭配关系。

(1)可以在overview 在这里插入图片描述下,点击Leak Suspects即可执行可疑分析。

Problem Suspect项目下是分析的可疑项,

The thread org.apache.hive.service.server.ThreadWithGarbageCleanup @ 0x2d79ff8d8 HiveServer2-Background-Pool: Thread-13828 keeps local variables with total size 1,936,085,120 (10.77%) bytes.
The memory is accumulated in one instance of "byte[]" loaded by "<system class loader>".
The stacktrace of this Thread is available. See stacktrace.Keywords
byte[]Details »

可以看到是org.apache.hive.service.server.ThreadWithGarbageCleanup @ 0x2d79ff8d8 这个进程出现问题了。

(2)查看Histogram在这里插入图片描述列表项目:

Class Name| Objects |   Shallow Heap |     Retained Heap
---------------------------------------------------------
byte[]    | 130,780 | 17,442,187,032 | >= 17,442,187,032
---------------------------------------------------------

可以根据Retained Heap或者Shallow Heap看到排名第一的是byte[]大约有,17,442,187,032/1024/1024/1024=16.24GB。 17442187032/18346979563=95%,byte[]占到线程内存的比例很高。

(3)查看thread overview 在这里插入图片描述根据thread名称找到以0x2d79ff8d8结尾的thread。
先看最上边的内容,这和java日志调用栈展示的顺序是一致的,最后执行的在最上展示,可以看到java.io.BufferedInputStream.read读取进本地1,935,998,992/1024/1024/1024=1.8GB内容。

Object / Stack Frame                                                                                                                                                                                                                                                                                          |Name|  Shallow Heap | Retained Heap |Context Class Loader|Is Daemon
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
at java.io.BufferedInputStream.read([BII)I (BufferedInputStream.java:336)                                                                                                                                                                                                                                     |    |               |               |                    |
|- <local> java.io.BufferedInputStream @ 0x2c3ebe9b0 Busy Monitor                                                                                                                                                                                                                                             |    |            40 |            40 |                    |
|- <local> byte[1935998976] @ 0x697000000  ...................................................................................................................................................................................................................................................................|    | 1,935,998,992 | 1,935,998,992 |                    |
'- Total: 2 entries                                                                                                                                                                                                                                                                                           |    |               |               |                    |
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

再看更远的内容,可见ThriftHiveMetastore$Client.recv_get_database()可以知道读取此内容是由于hive metastore尝试获取database信息引发的。如果是自己写的程序,再往下找一般就能找到是自己的那个类的哪行代码触发的了。

Object / Stack Frame                                                                                                                                                   |Name                                     | Shallow Heap | Retained Heap |Context Class Loader                                       |Is Daemon
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
org.apache.hive.service.server.ThreadWithGarbageCleanup @ 0x2d79ff8d8                                                                                                  |HiveServer2-Background-Pool: Thread-13828|          128 | 1,936,085,120 |org.apache.hadoop.hive.ql.exec.UDFClassLoader @ 0x2d397cbc0|false
|- at java.io.BufferedInputStream.read([BII)I (BufferedInputStream.java:336)                                                                                           |                                         |              |               |                                                           |
|- at org.apache.thrift.transport.TIOStreamTransport.read([BII)I (TIOStreamTransport.java:127)                                                                         |                                         |              |               |                                                           |
|- at org.apache.thrift.transport.TTransport.readAll([BII)I (TTransport.java:86)                                                                                       |                                         |              |               |                                                           |
|- at org.apache.thrift.transport.TSaslTransport.readFrame()V (TSaslTransport.java:458)                                                                                |                                         |              |               |                                                           |
|- at org.apache.thrift.transport.TSaslTransport.read([BII)I (TSaslTransport.java:433)                                                                                 |                                         |              |               |                                                           |
|- at org.apache.thrift.transport.TSaslClientTransport.read([BII)I (TSaslClientTransport.java:37)                                                                      |                                         |              |               |                                                           |
|- at org.apache.thrift.transport.TTransport.readAll([BII)I (TTransport.java:86)                                                                                       |                                         |              |               |                                                           |
|- at org.apache.hadoop.hive.thrift.TFilterTransport.readAll([BII)I (TFilterTransport.java:62)                                                                         |                                         |              |               |                                                           |
|- at org.apache.thrift.protocol.TBinaryProtocol.readAll([BII)I (TBinaryProtocol.java:429)                                                                             |                                         |              |               |                                                           |
|- at org.apache.thrift.protocol.TBinaryProtocol.readI32()I (TBinaryProtocol.java:318)                                                                                 |                                         |              |               |                                                           |
|- at org.apache.thrift.protocol.TBinaryProtocol.readMessageBegin()Lorg/apache/thrift/protocol/TMessage; (TBinaryProtocol.java:219)                                    |                                         |              |               |                                                           |
|- at org.apache.thrift.TServiceClient.receiveBase(Lorg/apache/thrift/TBase;Ljava/lang/String;)V (TServiceClient.java:77)                                              |                                         |              |               |                                                           |
|- at org.apache.hadoop.hive.metastore.api.ThriftHiveMetastore$Client.recv_get_database()Lorg/apache/hadoop/hive/metastore/api/Database; (ThriftHiveMetastore.java:770)|                                         |              |               |                                                           |
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

问题根因

程序发生oom的问题找到了,自己hive插件程序(随hiveserver2的sql任务启动)尝试通过hms读取database信息,但这个信息非常大,每个hive sql任务都会触发自己hive插件从而造成多SQL同时执行的时候内存急剧膨胀,发生oom问题。

相关文章:

【jvm】记一次hive堆heap内存溢出的排查

先看下java的内存模型 监控jvm工具&#xff1a;visualVM 摘录一下内容&#xff1a; 由c开发的jvm&#xff0c;它巧妙地设计了java的设计理念——即万物皆对象。并设计了这些对象应该如何存储&#xff0c;如何调用&#xff0c;并通过不断迭代设计让对象的存储和回收&#xff0…...

编译运行 webAssembly(wasm)

环境准备&#xff1a; lunix下docker 参考https://hub.docker.com/r/emscripten/emsdk 拉编译环境 docker pull emscripten/emsdk 编译 随便找个目录&#xff0c;敲下面命令&#xff0c;编译一个webAssembly 程序 # create helloworld.cpp cat << EOF > hellowo…...

Linux bash 关联数组

目录 一. 关联数组定义二. 访问关联数组三. 元素的添加与删除四. 键值对的获取与遍历五. 实际应用5.1 读取封装配置文件内容5.2 收集系统信息 一. 关联数组定义 从 Bash 4.0 开始&#xff0c;Bash 支持关联数组。关联数组允许你将键和值配对&#xff0c;并通过键来访问值&…...

选择排序

一&#xff1a;基本思想 每一次从待排序的数据元素中选出最小&#xff08;或最大&#xff09;的一个元素&#xff0c;存放在序列的起始位置&#xff0c;直到全部待排序的数据元素排完 。 解释&#xff1a;就是不断的找到最小的放在最左面&#xff0c;然后缩短数组&#xff0c;…...

SQL数据库(MySQL)

一、在Ubuntu系统下安装MySQL数据库 1、更新软件源&#xff0c;在确保ubuntu系统能正常上网的情况下执行以下命令 sudo apt-get update 2、安装MySQL数据库及相关软件包 # 安装过程中设置root用户的密码 123456 sudo apt-get install mysql-server ​ # 安装访问数据库的客…...

在MindSearch中使用SiliconCloud:全面指南**

随着硅基流动&#xff08;SiliconFlow&#xff09;提供的InternLM2.5-7B-Chat服务的免费开放&#xff0c;我们迎来了MindSearch部署的全新篇章。这一服务的免费提供&#xff0c;不仅极大地降低了部署门槛&#xff0c;还为MindSearch的使用者带来了纯CPU版本的便利。本文将为您详…...

C++(2)之Linux多线程服务端编程总结

C之Linux多线程服务端编程读书笔记 Author: Once Day Date: 2023年1月31日/2024年8月23日 一位热衷于Linux学习和开发的菜鸟&#xff0c;试图谱写一场冒险之旅&#xff0c;也许终点只是一场白日梦… 漫漫长路&#xff0c;有人对你微笑过嘛… 全系列文章可参考专栏: Linux实践…...

【AI视频】复刻抖音爆款AI数字人作品初体验

博客主页&#xff1a; [小ᶻZ࿆] 本文专栏: AI视频 | AI数字人 文章目录 &#x1f4af;前言&#x1f4af;抖音上的爆火AI数字人视频&#x1f4af;注册HeyGen账号&#x1f4af;复刻抖音爆款AI数字人&#x1f4af;最终生成效果&#x1f4af;小结 对比原视频效果&#xff1a;…...

Mysql 面试题总结

1. Mysql 数据库&#xff0c;隔离级别有哪几个&#xff1f; 在 MySQL 数据库中&#xff0c;事务的隔离级别决定了一个事务在执行期间对其他事务可见的数据变化情况。MySQL 支持 SQL 标准定义的四种隔离级别&#xff0c;从低到高依次为&#xff1a; 读未提交&#xff08;READ U…...

stack - queue

1.容器适配器 (1) 什么是适配器&#xff1f; 适配器是一种设计模式(设计模式是一套被反复使用的、多数人知晓的、经过分类编目的、代码设计经验的总结)&#xff0c;该种模式是将一个类的接口转换成客户希望的另外一个接口 (2) STL标准库中stack和queue的底层结构 虽然stack和…...

微软九月补丁星期二发现了 79 个漏洞

微软将在2024 年 9 月补丁星期二修复 79 个漏洞。 微软有证据表明&#xff0c;发布的四个漏洞被野外利用和/或公开披露&#xff1b;所有四个漏洞均已在CISA KEV上列出。微软还在修补四个关键的远程代码执行 (RCE) 漏洞。 不同寻常的是&#xff0c;微软本月尚未修补任何浏览器…...

研1日记12

1. 改19->10 2. 学习数据不平衡问题 1. 欠采样 合并两个样本数据 两种方式 1. 按原分布比例划分。sklearn中train_test_split里&#xff0c;参数stratify含义解析_traintestsplit参数stratify-CSDN博客 3.刘二大人 卷积操作 待看论文&#xff1a; 刘老师指导&#xff1a…...

Rocky Linux 9安装mysqlclient库报错的解决方法

环境 VMware Rocky Linux 9.4 MySQL 8.0 安装mysqlclient报错 yum install python3-devel pip3 install mysqlclient报错&#xff1a; Downloading http://mirrors.aliyun.com/pypi/packages/37/fb/d9a8f763c84f1e789c027af0ffc7dbf94c9a38db961484f253f0552cbb47/mysqlcli…...

Spring Boot母婴商城:安全、便捷、高效

2 相关技术 2.1 SSM框架介绍 本课题程序开发使用到的框架技术&#xff0c;英文名称缩写是SSM&#xff0c;在JavaWeb开发中使用的流行框架有SSH、SSM、SpringMVC等&#xff0c;作为一个课题程序采用SSH框架也可以&#xff0c;SSM框架也可以&#xff0c;SpringMVC也可以。SSH框架…...

php实现kafka

kafka类&#xff1a; <?phpclass b2c_kafka {public $broker_list;public $topic;public $group_id;protected $producer null;protected $consumer null;protected $receive_wait_time;protected $receive_wait_num;/*** 构造方法* param object app*/public function …...

YOLOv10改进系列,YOLOv10损失函数更换为Powerful-IoU(2024年最新IOU),助力高效涨点

改进前训练结果: 改进后的结果: 摘要 边界框回归(BBR)是目标检测中的核心任务之一,BBR损失函数显著影响其性能。然而,观察到现有基于IoU的损失函数存在不合理的惩罚因子,导致回归过程中锚框扩展,并显著减缓收敛速度。为了解决这个问题,深入分析了锚框扩展的原因。针…...

工具知识 | Linux 常用命令参考手册

目录 文件 查看文件内容 headtailcatnlmore 创建 touchmkdirmktemp 删除 rmrmdir 查找文件 findlocate lspwdwcchattrpastestatgrepsedcdcpmvopensourcetreelnfilesortuniqsplitvim 系统管理 nohupwatchpingwhichshutdownrebootuptimecrontabatunameifconfigwhereischmodlsofc…...

mysql 常用知识点总结

MySQL 是一种广泛使用的关系型数据库管理系统&#xff08;RDBMS&#xff09;&#xff0c;它基于结构化查询语言&#xff08;SQL&#xff09;。了解 MySQL 的语法对数据库管理和操作非常重要。以下是 MySQL 语法的详细完整解释&#xff0c;涵盖基本概念、创建表、查询、修改数据…...

conda常用指令

1、查看conda版本 conda --version 2、更新conda conda update conda 3、查看conda环境信息 conda info 4、查看已有虚拟环境 conda info --envs conda info -e conda env list 5、创建新虚拟环境 conda create --name myenv python3.8 6、激活环境和退出环境 conda…...

前后端分离项目--下载功能

文章目录 不使用代理服务器blobblob构造函数通过FormData对象的getBlob方法创建Blob对象将Blob对象转换成UR 使用代理服务器 前后端分离项目中下载与其他接口的使用不同&#xff0c;一般下载不走node&#xff0c;不通过代理服务器&#xff0c;而是直接在前台发送请求&#xff0…...

2026届学术党必备的五大AI科研助手横评

Ai论文网站排名&#xff08;开题报告、文献综述、降aigc率、降重综合对比&#xff09; TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 为学术写作供给高效解决办法的是论文一键生成技术&#xff0c;此工具依据自然语言处理跟深度…...

51单片机入门难点解析与高效学习路径

1. 为什么51单片机入门难&#xff1f;问题出在哪里&#xff1f;很多初学者在接触51单片机时&#xff0c;都会遇到一个奇怪的现象&#xff1a;明明大家都说51单片机简单&#xff0c;但自己学起来却特别吃力。作为一个带过上百名单片机新手的工程师&#xff0c;我发现这个问题通常…...

告别纸上谈兵:用STM32和FreeRTOS动手复现NCRE嵌入式考试里的经典案例

告别纸上谈兵&#xff1a;用STM32和FreeRTOS动手复现NCRE嵌入式考试里的经典案例 当你在NCRE三级嵌入式考试的题库里反复刷到"任务调度优先级"或"I2C时序配置"这类概念时&#xff0c;是否觉得这些知识点就像漂浮在空中的理论碎片&#xff1f;作为经历过这个…...

你能不能站稳脚跟,从来不是你有多厉害,而是老板刚好需要什么

你能不能站稳脚跟,从来不是你有多厉害,而是老板刚好需要什么 目录 你能不能站稳脚跟,从来不是你有多厉害,而是老板刚好需要什么 为什么老板的需求,才是你职场的核心标尺? 打工人的破局法则:别再埋头干活,学会按需创造价值 第一步:先搞清楚3个核心问题,精准锚定需求 …...

文章标题:专业ASIC FPGA IP加密代码解密工具

专业 ASIC FPGA IP 加密代码解密工具 支持 Xilinx Vivado IP 解密&#xff0c;包括 ip、vp、iip、vip、dw、rtl、run 包等&#xff1b;还支持解密 Verilog、VHDL、SystemVerilog&#xff08;sv、svp、svh、svi&#xff09;等多种语言&#xff0c;能够解密所有加密文件 解密工具…...

智能工具助力论文答辩:精选10款AI应用(含爱毕业aibiye)与权威模板分析

工具对比速览表 工具名称 核心功能 适用场景 特色优势 Aibiye 智能成文、文献查找、数据分析 社科/金融/理工类论文 融合多模型架构&#xff0c;精准把握高校规范 Aicheck 初稿生成、大纲定制、图表插入 快速完成初稿需求 全学科覆盖&#xff0c;20-30分钟极速生成 …...

基于VSC控制的400kW光伏并网发电厂模型

基于VSC控制的400kW光伏并网发电厂模型simulink模型各模块清晰明白&#xff0c;非常适用于新手入门学习大家好&#xff01;今天我要和大家分享一个关于光伏并网发电厂模型的Simulink仿真项目。这个模型基于电压源式开关&#xff08;VSC&#xff09;控制&#xff0c;非常适合400…...

别再自己造轮子了!用InsightFace+FastAPI快速搭建一个高精度人脸识别Web服务

基于InsightFace的高精度人脸识别Web服务实战指南 1. 为什么选择InsightFace构建人脸识别服务 三年前我接手一个考勤系统项目时&#xff0c;曾花费两个月时间从零训练FaceNet模型&#xff0c;结果上线后遇到戴眼镜员工识别率骤降的问题。直到发现InsightFace这个开源项目&#…...

《Foundation 网格 - 大型设备》

《Foundation 网格 - 大型设备》 引言 在当今科技日新月异的时代,大型设备在各个领域都扮演着至关重要的角色。其中,Foundation 网格作为一项创新技术,正在逐渐改变着我们的生产方式和生活质量。本文将深入探讨Foundation 网格的特点、应用以及未来发展趋势。 一、Founda…...

SpringBoot-基础面试篇

什么是 Spring Boot&#xff1f;Spring Boot 是 Spring 开源组织下的子项目&#xff0c;是 Spring 组件一站式解决方案&#xff0c;主要是简化了使用 Spring 的难度&#xff0c;简省了繁重的配置&#xff0c;提供了各种启动器&#xff0c;使开发者能快速上手。为什么要用Spring…...