当前位置: 首页 > article >正文

运维必看:如何用Java Oshi监控Linux服务器性能并接入Prometheus+Grafana

Java Oshi与PrometheusGrafana构建Linux服务器监控体系实战在云原生时代服务器性能监控已成为运维工程师的日常必修课。想象这样一个场景凌晨三点服务器CPU突然飙升至95%而你的手机开始被告警短信轰炸。此时如果能快速定位是哪个Java进程占用了资源或是哪个磁盘分区即将写满就能在用户感知前解决问题。这正是OshiPrometheusGrafana组合的价值所在——它们能帮你把零散的服务器指标转化为直观的可视化仪表盘让性能问题无所遁形。1. 监控体系架构设计现代监控系统需要解决三个核心问题数据采集、存储分析和可视化展示。我们的技术栈选择如下数据采集层Oshi作为Java生态中最成熟的硬件信息库能获取包括CPU使用率与频率内存和Swap使用情况磁盘空间与IOPS网络流量统计指标暴露层Micrometer将Oshi的原始数据转换为Prometheus兼容格式通过HTTP端点暴露。关键指标示例// CPU使用率指标定义 Gauge.builder(system.cpu.usage, () - oshi.getProcessor().getSystemCpuLoad()) .description(System CPU usage) .register(meterRegistry);存储计算层Prometheus以固定间隔拉取指标并支持强大的PromQL查询语言可视化层Grafana提供丰富的仪表盘组件可实时展现性能趋势典型的数据流向如下图所示伪代码表示Oshi采集 - Micrometer转换 - Prometheus拉取 - Grafana展示2. Oshi深度集成实践2.1 核心指标采集优化原始Oshi采集需要特别注意几个性能关键点CPU采样间隔太短会增加系统负载太长会丢失峰值数据。建议2-5秒间隔// 优化的CPU采样方法 public double getCpuUsageWithInterval() throws InterruptedException { long[] prevTicks processor.getSystemCpuLoadTicks(); TimeUnit.SECONDS.sleep(3); // 3秒间隔 long[] ticks processor.getSystemCpuLoadTicks(); // ...计算逻辑... }磁盘IO统计直接读取/proc/diskstats(Linux)比API更准确采集方式优点缺点Oshi原生跨平台部分指标缺失解析/proc数据完整仅限Linux2.2 指标标签设计原则合理的标签(label)设计是Prometheus监控的核心。针对服务器监控推荐这些维度主机维度hostname、ip、region应用维度service、version、cluster资源维度device(磁盘)、interface(网卡)错误的标签设计会导致Prometheus存储膨胀。记住这两个黄金法则标签基数(cardinality)控制在1000以内避免将日志内容作为标签值3. Prometheus集成技巧3.1 暴露端点配置Spring Boot应用只需简单配置即可暴露metrics端点# application.yml management: endpoints: web: exposure: include: health,info,metrics,prometheus metrics: export: prometheus: enabled: true对于非Spring应用可以手动创建HTTP服务器// 简易Prometheus端点示例 HttpServer server HttpServer.create(new InetSocketAddress(8080), 0); server.createContext(/metrics, exchange - { String response TextFormat.write004(registry.scrape()); exchange.sendResponseHeaders(200, response.length()); try (OutputStream os exchange.getResponseBody()) { os.write(response.getBytes()); } });3.2 抓取配置优化Prometheus的scrape_config需要特别注意这些参数scrape_configs: - job_name: java_app scrape_interval: 15s # 抓取间隔 scrape_timeout: 10s # 超时时间 metrics_path: /actuator/prometheus # 端点路径 static_configs: - targets: [host1:8080, host2:8080]注意生产环境建议使用服务发现而非静态配置可与Consul、K8s等服务发现机制集成4. Grafana仪表盘设计4.1 核心监控面板一个专业的服务器监控仪表盘应包含这些核心组件CPU面板展示各核使用率、负载、上下文切换内存面板物理内存、Swap、JVM堆内存趋势磁盘面板空间使用率、IOPS、读写延迟网络面板带宽、TCP连接数、错误包统计推荐使用Stat、TimeSeries、BarGauge等面板类型组合展示[CPU使用率] Stat面板(当前值) TimeSeries(趋势图) [磁盘空间] BarGauge(使用百分比) TimeSeries(增长趋势)4.2 告警规则配置在Grafana中设置智能告警比简单的阈值报警更有价值。例如这个检测CPU异常的PromQL# 检测CPU持续高负载 100 - (avg by(instance)(irate(node_cpu_seconds_total{modeidle}[5m])) * 100) 80告警分级建议级别条件通知方式WarningCPU 80%持续5分钟企业微信CriticalCPU 90%持续10分钟电话呼叫5. 生产环境调优经验5.1 性能优化要点在大规模部署时会遇到这些典型问题Oshi采集开销单个采集周期控制在100ms以内Prometheus存储建议每核CPU处理不超过10万时间序列Grafana渲染单个仪表盘查询不超过5秒实测数据对比100节点环境配置项默认值优化值效果采集间隔1分钟2分钟存储减少60%历史保留15天7天查询速度提升40%样本分片无按小时分片压缩率提高35%5.2 高可用方案关键组件的容错设计Prometheus采用联邦集群Thanos方案Grafana多实例共享数据库Alertmanager多实例集群部署存储方案对比方案优点适用场景本地SSD延迟低中小规模(100节点)远程存储可扩展大规模集群对象存储成本低长期归档在实施这套监控系统两年后最深刻的体会是好的监控不在于收集多少指标而在于能否在问题发生时提供足够的上下文信息。曾经有一次线上故障正是因为磁盘IOPS面板中显示了异常的写入模式才让我们快速定位到某个批处理作业的配置错误。这也正是可视化监控的价值——它把冰冷的数字转化成了运维工程师的故事书。

相关文章:

运维必看:如何用Java Oshi监控Linux服务器性能并接入Prometheus+Grafana

Java Oshi与PrometheusGrafana构建Linux服务器监控体系实战 在云原生时代,服务器性能监控已成为运维工程师的日常必修课。想象这样一个场景:凌晨三点,服务器CPU突然飙升至95%,而你的手机开始被告警短信轰炸。此时如果能快速定位是…...

房产看房记录口碑推荐|经筛选优质实用选择整理分享

给大家整理了2026年实测过,适合房产看房记录整理的优质工具,都是筛完口碑留下的实操款,主打看完就能用,帮你解决看完房对着几小时录音不想整理的痛点,直接拿就能用。这次选工具我盯了四个核心维度,都是看房…...

从物理到代码:用Cesium Cartesian3向量,手把手教你理解三维空间中的‘力’与‘运动’

从物理到代码:用Cesium Cartesian3向量,手把手教你理解三维空间中的‘力’与‘运动’ 在三维图形编程中,向量运算就像物理世界中的"语言翻译器",将我们熟悉的力学概念转化为计算机能理解的数学表达。想象一下&#xff0…...

现在禁用不安全代码还来得及吗?C# 13三大Runtime安全增强(MemorySanitizer预览、Span<T>越界零容忍、Unsafe.AsRef泛型约束强化)倒计时解读

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;C# 13不安全代码安全管控的演进背景与战略意义 随着 .NET 生态向云原生、高性能系统编程加速演进&#xff0c;C# 对底层内存操作的需求显著提升——从 Span<T> 的泛化使用&#xff0c;到 NativeA…...

HC32F448串口+DMA高效处理4G模块数据,实战代码与AOS系统配置详解

HC32F448串口DMA高效处理4G模块数据实战指南 在物联网终端设备开发中&#xff0c;4G模块的数据传输稳定性直接决定了产品可靠性。传统串口中断方式处理高速数据流时&#xff0c;频繁的中断响应会导致CPU负载激增&#xff0c;甚至出现数据丢失。HC32F448芯片独特的DMA控制器配合…...

百度网盘提取码智能获取工具:5秒解锁海量资源的技术革命

百度网盘提取码智能获取工具&#xff1a;5秒解锁海量资源的技术革命 【免费下载链接】baidupankey 项目地址: https://gitcode.com/gh_mirrors/ba/baidupankey 还在为百度网盘的提取码而烦恼吗&#xff1f;当你找到宝贵的学习资料、工作文档或娱乐资源&#xff0c;却被…...

别再死记硬背了!用5个真实案例帮你彻底搞懂Yocto BitBake的变量赋值语法

别再死记硬背了&#xff01;用5个真实案例帮你彻底搞懂Yocto BitBake的变量赋值语法 第一次接触Yocto的BitBake语法时&#xff0c;很多人都会被各种变量赋值操作符搞得晕头转向。、?、、.、:append...这些看似简单的符号背后&#xff0c;隐藏着变量展开时机、覆盖规则等复杂逻…...

混合信号验证:SystemVerilog与Verilog-AMS协同架构实践

1. 混合信号验证的现状与挑战在当今SoC设计领域&#xff0c;混合信号电路已成为主流配置。我参与过多个包含复杂ADC/DAC模块的芯片验证项目&#xff0c;深刻体会到传统验证方法的局限性。随着工艺节点不断下探至7nm甚至更低&#xff0c;模拟与数字电路的交互复杂度呈指数级增长…...

ARM异常处理与SMC指令陷阱机制详解

1. ARM异常处理机制概述在ARMv8/v9架构中&#xff0c;异常处理是系统可靠性和安全性的基石。当处理器遇到意外事件&#xff08;如指令执行错误、外部中断、系统调用等&#xff09;时&#xff0c;会暂停当前程序流&#xff0c;转而去执行预先定义好的异常处理程序。这种机制不仅…...

Bootstrap4 折叠

Bootstrap4 折叠&#xff08;Collapse&#xff09;学习笔记 一、基本概念 折叠组件&#xff08;Collapse&#xff09;用于内容的显示/隐藏切换&#xff0c;常用于手风琴、FAQ 面板等场景。核心机制是通过 data-* 属性或 JavaScript 控制元素的展开与收起。 二、基本用法 1.…...

新手应该怎样选择第一把琴?尤克里里入门推荐攻略一次讲清

很多想尝试学习乐器的朋友都会把尤克里里当做入门之选&#xff0c;但在学琴前&#xff0c;大部份人都会被“如何选择第一把琴”难住。市面上太多五花八门的品牌和型号&#xff0c;各种尺寸、材质让人眼花缭乱&#xff0c;选贵了怕浪费&#xff0c;选便宜的怕踩雷。尤克里里入门…...

【含最新安装包】零基础部署|OpenClaw 2.6.6|Windows 可视化一键配置

零基础部署 OpenClaw 2.6.6&#x1f4cc;Windows 可视化一键配置 核心亮点&#xff1a;全程可视化&#xff5c;零代码门槛&#xff5c;无需手动配环境&#xff5c;内置所有依赖 下载地址&#xff1a;https://xiake.yun/api/download/package/6?promoCodeIVF12ADA450A 文件大…...

大模型 Agent 的“记忆”,到底应该怎么设计?

本文解读的是论文 《Memory in the LLM Era: Modular Architectures and Strategies in a Unified Framework》&#xff0c;这篇论文讨论的不是“让模型上下文窗口继续变长”这么简单的问题&#xff0c;而是试图回答一个更接近 Agent 落地的核心问题&#xff1a;当大模型需要跨…...

【VS Code Dev Containers 成本优化白皮书】:20年云原生架构师亲授5大可落地的资源节流策略

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;Dev Containers 成本优化的底层逻辑与价值认知 Dev Containers 并非仅是开发环境的“容器化封装”&#xff0c;其核心成本优化逻辑植根于资源隔离粒度、生命周期可控性与基础设施复用率三重机制。传统虚…...

泛微OA中如何实现,将选中的明细行数据内容,传送给其他系统或是单独存放

前言 近期有个需求:用户提出,他们需要在当前节点去勾选对应明细行的内容,然后将这个明细行里面的最新数据更新到SAP中,能做到一个实时更新的效果 这个需求也就相当于是用户想做到一个能实时更新的一个效果,但是因为泛微OA一些基础的数据更新要么靠jsp文件去更新,要么就…...

声定向系统改良设计——大功率集成化声频定向扬声器系统

声定向系统改良设计——大功率集成化声频定向扬声器系统 摘要 声频定向扬声器系统是一种利用超声波在空气中的非线性传播效应产生高指向性可听声的新型声学设备。针对原有系统在输出功率不足、模块分立程度高、系统集成度低等方面存在的问题,本文提出了一套完整的改良设计方…...

2026最新鲁大师 6.2最终绿化版,去除无用功能和广告

鲁大师 绿化版自用下载 链接: https://pan.xunlei.com/s/VOrMu1Sz2gRGgHFQ21z21-dOA1?pwdrnr3# 本次优化版本实现了多项改进&#xff1a;一是完整精简了功能区里的“工具市场”&#xff0c;点击该菜单不会出现错误提示或导致软件闪退&#xff1b;二是恢复了此前被精简的“驱…...

跟着 MDN 学 HTML day_1:(全套原生Input+表单结构拆解)

很多前端新手写表单只会瞎堆输入框&#xff0c;分不清标签作用、不会规范分组、不懂提交底层逻辑&#xff0c;写出来的表单杂乱无章&#xff0c;对接后端直接失效。 今天严格对标MDN 官方HTML表单入门全规范&#xff0c;结合实操源码&#xff0c;把完整表单拆成模块化区块&…...

005、位置、速度、加速度与加加速度

005 位置、速度、加速度与加加速度 从一次电机“鬼畜”说起 去年调试一台六轴协作机器人,末端执行器走一个简单的S形轨迹。上位机发的位置指令看着很平滑,但电机跑起来就像得了帕金森——高频抖动,偶尔还“咯噔”一下。示波器抓编码器反馈,位置曲线确实光滑,但速度曲线像…...

ADLINK Alder Lake-H COM模块技术解析与工业应用

1. ADLINK基于Alder Lake-H的COM模块技术解析在嵌入式系统领域&#xff0c;COM&#xff08;Computer-on-Module&#xff09;技术一直是实现高性能、标准化设计的关键方案。最近ADLINK推出的Express-ADP&#xff08;COM Express Type 6&#xff09;和COM-HPC-cADP&#xff08;CO…...

【C++27安全红线】:3类已被标记为deprecated的异常传播模式(含std::exception_ptr隐式转换),9月30日前必须迁移!

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;C27异常处理安全增强的演进背景与强制迁移动因 C27 将首次引入 noexcept 语义的静态可验证性强化机制&#xff0c;其核心动因源于现代系统软件对异常路径侧信道攻击&#xff08;如 stack-unwinding tim…...

SeqTrack模型专题全面调研

SeqTrack 目标跟踪算法的配置文件&#xff0c;命名规则&#xff1a;seqtrack&#xff1a;模型名称&#xff0c;指的是 SeqTrack&#xff08;Sequence Tracking&#xff09;&#xff0c;一种基于序列建模的目标跟踪算法。b / l&#xff1a;代表模型的 Backbone&#xff08;主干网…...

别再让多线程搞乱你的计数器!手把手教你用Linux内核atomic_t实现线程安全(附完整代码)

多线程计数器的救星&#xff1a;Linux内核atomic_t实战指南 在开发Linux内核模块或驱动时&#xff0c;你是否遇到过这样的场景&#xff1a;多个中断处理程序或内核线程需要同时访问同一个计数器变量&#xff0c;而简单的int类型变量会导致数据竞争&#xff1f;传统的解决方案可…...

从浪潮服务器到VMware虚拟机:一份通用的Ubuntu 20.04 Netplan静态IP配置避坑手册

从物理服务器到虚拟化平台&#xff1a;Ubuntu 20.04 Netplan静态IP配置全场景指南 当你需要在不同硬件环境中部署Ubuntu 20.04时&#xff0c;网络配置往往是第一个需要跨越的技术门槛。无论是浪潮、戴尔等品牌服务器&#xff0c;还是VMware、VirtualBox等虚拟化平台&#xff0c…...

vector 核心接口和模拟实现

std::vector 是 C STL 最常用的动态数组&#xff0c;底层是连续内存&#xff0c;支持动态扩容、随机访问。下面先梳理核心接口&#xff0c;再用 C 手写模拟实现&#xff08;底层原理 完整代码&#xff09;。一、vector 核心接口&#xff08;常用&#xff09;1. 构造与析构cpp运…...

全志D1s RISC-V开发板:十美元Linux方案解析

1. 开源硬件新选择&#xff1a;基于全志D1s RISC-V的十美元Linux开发板最近在开源硬件圈出现了一个有趣的新玩具——Xassette-Asterisk开发板。这块采用全志D1s RISC-V处理器的小板子最吸引人的地方在于其惊人的性价比&#xff1a;整套BOM成本可以控制在10美元以内。作为对比&a…...

白帽子为什么几乎都绕不开 httpx:一款 HTTP 资产探测工具的技术价值

1 安装与初始化 # 全局安装 OpenSpec npm install -g fission-ai/openspeclatest # 在项目目录下初始化 cd /path/to/your-project openspec init 初始化时&#xff0c;OpenSpec 会提示你选择使用的 AI 工具&#xff08;Claude Code、Cursor、Trae、Qoder 等&#xff09;。 3 O…...

【附Python源码】基于MLP的波士顿房价预测

【附Python源码】基于MLP的波士顿房价预测 房价预测作为机器学习领域的经典入门问题&#xff0c;其价值不仅在于算法本身&#xff0c;更在于完整建模流程的掌握。 本项目将基于Boston Housing数据集&#xff0c;详细介绍如何使用PyTorch构建一个多层神经网络回归模型&#xf…...

2026年网红开会语音转文字app多维度实测对比,全面PK后,差距竟然这么大

作为做了5年的互联网HR&#xff0c;上个月赶上校招集中面试加季度OKR面谈&#xff0c;手机里堆了快20小时的录音&#xff0c;原来手动整理天天加班到八九点&#xff0c;痛定思痛把市面上火的几款网红语音转文字app全测了一遍。对比了多款工具&#xff0c;听脑AI是综合体验最好的…...

从SATA到PCIe 4.0:一文看懂SSD速度进化史,你的老硬盘到底慢在哪?

从SATA到PCIe 4.0&#xff1a;存储技术的速度革命与底层逻辑 当你在2023年组装一台新电脑时&#xff0c;打开电商网站的SSD页面会看到令人眼花缭乱的参数&#xff1a;SATA III、M.2 NVMe、PCIe 3.04、PCIe 4.04...这些术语背后是存储技术近20年的进化史。理解这场速度革命的关键…...