当前位置：首页 > article >正文

Linux 性能优化工具

article 2026/5/8 16:25:01

1.概述Linux 的性能问题依赖于各类性能工具针对不同性能场景选择合适的工具可以大大提高整个性能优化的效率下图是性能问题和工具图谱受限本文篇幅和侧重结合征程系列 SoC 调优实践主要展开介绍下面的工具及使用。1.1. toptop 命令可以动态地持续监听系统及进程的运行状态为用户提供 CPU 使用率、内存使用情况、CPU 负载信息除此之外该命令还提供了一个交互界面用户可以根据需要进行调整。通过 top 命令分析内存使用状态比较简单清晰本文就不做赘述。由于智能驾驶的应用场景复杂CPU 处于较高水平的逻辑和运算占用导致系统的负载和使用率长期处于较高水平是性能优化的主要方向之一。注智能驾驶应用场景中系统负载是和使用率同步升高基本不存在 IO 或其他导致的负载提升所以本文提到的负载和使用率的描述均可理解为使用率。使用 top 命令监控系统及各进程的 CPU 使用率是分析 CPU 占用高问题的主要方法在使用前需要了解 top 的原理和限制从而正确的使用和提取有效信息进行有效分析。1.1.1. top 的原理top 命令的实现是通过采样 proc 下系统和进程的 stat 下的各类时间信息经过计算得出来的平均使用率等信息。CPU 时间信息单位为 jiffies:/proc/stat记录了 CPU 从系统启动开始累计到当前时刻各类事件信息。/proc/$PID/stat记录了进程从启动开始累计到当前时刻各类事件信息。使用率计算方法stat 节点记录了的是从开机/进程启动后累计的时间信息但这不能体现在当前时间段的实际负载情况实际 CPU 使用率的计算方法如下system、user、irq、softirq 等类似:采样的开始时间 T1结束时刻 T2:Total(T1-T2) (user2 nice2 system2 idle2 iowait2 irq2 softirq2) - ( user1 nice1 system1 idle1 iowait1 irq1 softirq1)Idle(T1-T2) (idle2 - idle1)CPU Usage (T1-T2) 1 - Idle / Total不难理解最终 CPU 使用率主要受到从 CPU 获取到的时间信息和采样周期时间的影响。1.1.2. top 的限制CPU 负载显示模式Linux 上 top 命令的 CPU 占用率显示有两种模式Irix 模式按单个 CPU 上的算力计算。Solaris 模式按所有 CPU 做平均计算。例如一个 8 核系统CPU0 上一个进程 CPU 占用率是 100%其它 CPU 是 idleIrix 模式CPU0 占用显示 100%进程的 CPU 也是 100%。Solaris 模式CPU0 占用显示 12.5%进程的 CPU 也是 12.5%。当前 Busybox 的 top 命令PER CPU 的显示默认是 Irix 模式进程显示是 Solaris 模式。top 周期的选定CPU 的使用率受到周期的影响在 CPU 繁忙时使用“top -d1”和“top -d5”的结果差异是非常大的周期越大越接近实际平均负载。考虑这样的一种极端场景在 1s 的时间内前 100ms 负载 100%后 900ms CPU 全部 idle以 1s 为周期负载就是 10%以 100ms 为周期负载就出现了 100% 的情况基于以上情况考虑我们一般建议以 5s 作为 top 的周期“top -d5”。另外需要特别注意的是top 命令适用于长时间的负载检测对于一次性负载检查”top -n1”top 实现中第一次 top 计算的周期是 200ms以 200ms 周期计算出来的 CPU 使用率非常不准会对整体分析产生误导。CPU 使用率中包含 iowait一般理解中 CPU 使用率是指 CPU 忙占 CPU 总时间的比值处于 iowait 的线程实际并不占用 CPU但是目前几乎所有的统计工具中都把 iowait 统计到 CPU 使用率中。1.1.3. top 的使用征程系列系统软件默认集成了 top 命令使用方法如下Usage: top [options] Options: -b, --batch-mode run in non-interactive batch mode -c, --cmdline-toggle reverse last remembered c state -d, --delay SECS [.TENTHS] iterative delay as SECS [.TENTHS] -E, --scale-summary-mem SCALE set mem as: k,m,g,t,p,e for SCALE -e, --scale-task-mem SCALE set mem with: k,m,g,t,p for SCALE -H, --threads-show show tasks plus all their threads1.2. df用于显示系统磁盘使用情况当磁盘/文件系统快满的时候文件系统及磁盘硬件性能都会受到影响。1.3. freeprocrankfree 用于显示系统级内存使用情况通过/proc/meminfo 可检查系统内存使用的细节。procrank 用于显示系统各进程的内存使用情况查找内存使用超载或泄漏进程。当内存紧张时系统性能表现将会受到较大影响iowait 的提升也会导致 CPU 使用率也会明显上升。1.4. PerfPerf 是内置于 Linux 内核源码树中的性能剖析profiling工具作为一款强大的综合性分析工具能够提供从硬件到软件、从应用到内核的全栈性能分析方法常用于性能瓶颈的查找与热点代码的定位。1.4.1. Perf 原理Perf 工具功能强大通过下面的软、硬件能力实现性能 profiling。Hardware Event 由 PMU 部件产生在特定的条件下探测性能事件是否发生以及发生的次数。比如 cache 命中。Software Event 是内核产生的事件分布在各个功能模块中统计和操作系统相关性能事件。比如进程切换tick 数等。Tracepoint Event 是内核中静态 tracepoint 所触发的事件ftrace这些 tracepoint 用来判断程序运行期间内核的行为细节perf 在这种应用场景下可理解为 ftrace 的一种前端工具。1.4.2. Perf 使用Perf 命令非常多每个命令下又有很多子命令所以本文只针对性介绍一些常用命令。1.4.2.1.perf list查看当前系统软、硬件支持的性能事件。1.4.2.2.perf stat统计 cache、branch、context-switches 等软硬件底层性能指标。使用 ctrlc 退出。perf stat -p 追踪指定进程的性能指标1.4.2.3.perf top实时查看当前系统中所有kernelapp函数占用率情况及 irq 统计。“perf top -U”U 统计 kernel 中符号占用率。“perf top -K”K 统计应用符号占用率。“perf top -p ”统计制定进程的符号占用情况。“perf top -g”记录占用率的同时保存函数调用栈情况。“perf top -s dso”以 libraryexecuted 进行占用排序。“perf top -s pid”以 pid 进行占用排序。1.4.2.4.perf schedperf sched 依赖开启 ftrace用于统计分析调度相关信息。perf sched record -p 可抓取指定进程调度信息。perf sched latency --sort max对 record 的数据进行 runtime、delay 等时间分析。perf sched timehist -wM对 record 的数据进行调度时延的分析。roothobot:~# perf sched record -- sleep 1 [ perf record: Woken up 1 times to write data ] [ perf record: Captured and wrote 1.066 MB perf.data (7233 samples) ] roothobot:~# roothobot:~# perf sched latency --sort max ------------------------------------------------------------------------------------------------------------------------------------------- Task | Runtime ms | Switches | Avg delay ms | Max delay ms | Max delay start | Max delay end | ------------------------------------------------------------------------------------------------------------------------------------------- sleep:2329 | 1.120 ms | 1 | avg: 0.000 ms | max: 0.000 ms | max start: 0.000000 s | max end: 0.000000 s rcuc/9:92 | 0.002 ms | 1 | avg: 0.000 ms | max: 0.000 ms | max start: 0.000000 s | max end: 0.000000 s1.4.2.5.火焰图火焰图是分析系统、进程热点的强大工具原理是通过 PMU 对 CPU 当前运行符号PC进行采样再通过火焰图工具还原整个调用栈。通过火焰图可以查看 kernelapp 的调用栈耗时状态查找性能瓶颈。perf record -g -p 记录系统/进程的堆栈采样数据默认 perf.data。perf script perf.unflod对 record 的调用栈等信息进行解析。将 perf.unflod 导入 PC 机使用火焰图工具出解析 perf.svg。FlameGraph/stackcollapse-perf.pl perf.unflod FlameGraph/flamegraph.pl perf.svg. FlameGraph 工具从 https://github.com/brendangregg/FlameGraph.git 获取。使用 chrome 浏览器打开。1.5. Ftrace 功能Ftrace 功能的作用是帮助开发人员了解 Linux 内核的运行时行为以便进行故障调试或性能分析。Ftrace 通过静态和动态插装实现对内核核心及热点函数的 profiling对于调度、io 等问题是最重要的分析手段。Ftrace 需要使能内核 CONFIG_FTRACE当前默认打开。Ftrace 使用 per-cpu 的 ring-buffer内容为二进制格式执行效率高。设置 CONFIG_DYNAMIC_FTRACE 后加入的 trace 功能在不使用时对运行时系统性能几乎没有影响初始化会对开机时间有一定影响动态使能 ftrace 后对运行时性能会有一定副作用。Ftrace 的调度 profiling 在内核中对热点函数大量埋点导致系统会在几秒内产生百兆以上的 log通过 log 直接分析性能难度较大所以一般会引入一些 ftrace 前端工具。perf、trace-cmd、systemtap、bcc、kernelshark 都是优秀的 ftrace 前端工具。可以通过这些工具去分析 ftrace 日志。

Linux 性能优化工具

相关文章：

Linux 性能优化工具

告别玄学调参：手把手教你配置AutoSar WDGM的CheckpointAlive与Deadline监控

QQ音乐sign vmp逆向

PLL设计中的‘幽灵’：深入拆解PFD与CP死区问题及其对相位噪声的影响

STC8H内置ADC的隐藏技巧：如何用1.19V基准源实现MCU供电电压监测？

ruoyi-qs-nvr —— 企业级全协议视频融合中台

3分钟掌握AsrTools：零配置语音转文字工具终极指南

通过 Taotoken CLI 工具一键配置团队开发环境中的多模型访问密钥

迷你主机能否胜任HTML开发_小体积设备工具适配建议【方法】

如何查询SQL中特定字段为空的记录_掌握IS NULL用法

揭秘奇点智能大会闭门报告：3个被低估的AI工程提效杠杆，今天不看明天就落后

【独家首发】AISMM模型中文增强版下载：集成工信部AI能力图谱+27项合规性检查项（非公开渠道流出）

如何高效处理大型JSON文件：专业工具使用完整指南

如何3步掌握FancyZones：终极窗口管理秘籍

云原生安全：零信任架构如何重塑远程办公时代的企业防护

Elasticvue节点版本监控：解决Elasticsearch集群滚动升级的视觉盲区

3个智能助手：如何让在线学习从被动听课变为主动掌控

3分钟掌握RePKG：Wallpaper Engine资源提取与转换终极指南

中兴光猫配置解密终极指南：ZET工具完整实战手册

警惕！AI智能体成企业新“成本黑洞”：隐性成本防坑指南

Linux下构建本地优先的语音编码助手：voice2agent项目实战

using创建的对象在块外不可用

MotionGPT3：基于大语言模型的文本与3D动作生成技术解析

基于T3 Stack构建Cursor AI规则库：提升开发者效率的实践指南

工程师如何打造专属灵感环境：从科学原理到实践指南

STM32CubeMX配置DAC的DMA传输，为什么你的波形总是不对？这5个坑我帮你踩过了

如何在电脑上玩Switch游戏？SysDVR免费串流方案终极指南

开发者生态建设：如何让你的平台成为开发者的首选？

YOLO11涨点优化：边界框回归 | 引入SIoU (Scylla-IoU)，加入角度惩罚项，让预测框“走捷径”快速贴合真实框

YOLO11涨点优化：Loss魔改 | 结合VariFocal Loss，不对等处理正负样本，大幅缓解密集目标检测的误检率