当前位置: 首页 > article >正文

Linux 性能优化工具

1.概述Linux 的性能问题依赖于各类性能工具针对不同性能场景选择合适的工具可以大大提高整个性能优化的效率下图是性能问题和工具图谱受限本文篇幅和侧重结合征程系列 SoC 调优实践主要展开介绍下面的工具及使用。1.1. toptop 命令可以动态地持续监听系统及进程的运行状态为用户提供 CPU 使用率、内存使用情况、CPU 负载信息除此之外该命令还提供了一个交互界面用户可以根据需要进行调整。通过 top 命令分析内存使用状态比较简单清晰本文就不做赘述。由于智能驾驶的应用场景复杂CPU 处于较高水平的逻辑和运算占用导致系统的负载和使用率长期处于较高水平是性能优化的主要方向之一。注智能驾驶应用场景中系统负载是和使用率同步升高基本不存在 ​​IO​ 或其他导致的负载提升所以本文提到的负载和使用率的描述均可理解为使用率。使用 top 命令监控系统及各进程的 CPU 使用率是分析 CPU 占用高问题的主要方法在使用前需要了解 top 的原理和限制从而正确的使用和提取有效信息进行有效分析。1.1.1. top 的原理top 命令的实现是通过采样 proc 下系统和进程的 stat 下的各类时间信息经过计算得出来的平均使用率等信息。CPU 时间信息单位为 jiffies:/proc/stat记录了 CPU 从系统启动开始累计到当前时刻各类事件信息。/proc/$PID/stat记录了进程从启动开始累计到当前时刻各类事件信息。使用率计算方法stat 节点记录了的是从开机/进程启动后累计的时间信息但这不能体现在当前时间段的实际负载情况实际 CPU 使用率的计算方法如下system、user、irq、softirq 等类似:采样的开始时间 T1结束时刻 T2:Total(T1-T2) (user2 nice2 system2 idle2 iowait2 irq2 softirq2) - ( user1 nice1 system1 idle1 iowait1 irq1 softirq1)Idle(T1-T2) (idle2 - idle1)CPU Usage (T1-T2) 1 - Idle / Total不难理解最终 CPU 使用率主要受到从 CPU 获取到的时间信息和采样周期时间的影响。1.1.2. top 的限制CPU 负载显示模式Linux 上 top 命令的 CPU 占用率显示有两种模式Irix 模式按单个 CPU 上的算力计算。Solaris 模式按所有 CPU 做平均计算。例如一个 8 核系统CPU0 上一个进程 CPU 占用率是 100%其它 CPU 是 idleIrix 模式CPU0 占用显示 100%进程的 CPU 也是 100%。Solaris 模式CPU0 占用显示 12.5%进程的 CPU 也是 12.5%。当前 Busybox 的 top 命令PER CPU 的显示默认是 Irix 模式进程显示是 Solaris 模式。top 周期的选定CPU 的使用率受到周期的影响在 CPU 繁忙时使用“top -d1”和“top -d5”的结果差异是非常大的周期越大越接近实际平均负载。 考虑这样的一种极端场景在 1s 的时间内前 100ms 负载 100%后 900ms CPU 全部 idle以 1s 为周期负载就是 10%以 100ms 为周期负载就出现了 100% 的情况基于以上情况考虑我们一般建议以 5s 作为 top 的周期“top -d5”。另外需要特别注意的是top 命令适用于长时间的负载检测对于一次性负载检查”top -n1”top 实现中第一次 top 计算的周期是 200ms以 200ms 周期计算出来的 CPU 使用率非常不准会对整体分析产生误导。CPU 使用率中包含 iowait一般理解中 CPU 使用率是指 CPU 忙占 CPU 总时间的比值处于 iowait 的线程实际并不占用 CPU但是目前几乎所有的统计工具中都把 iowait 统计到 CPU 使用率中。1.1.3. top 的使用征程系列系统软件默认集成了 top 命令使用方法如下Usage: top [options] Options: -b, --batch-mode run in non-interactive batch mode -c, --cmdline-toggle reverse last remembered c state -d, --delay SECS [.TENTHS] iterative delay as SECS [.TENTHS] -E, --scale-summary-mem SCALE set mem as: k,m,g,t,p,e for SCALE -e, --scale-task-mem SCALE set mem with: k,m,g,t,p for SCALE -H, --threads-show show tasks plus all their threads1.2. df用于显示系统磁盘使用情况当磁盘/文件系统快满的时候文件系统及磁盘硬件性能都会受到影响。1.3. freeprocrankfree 用于显示系统级内存使用情况通过/proc/meminfo 可检查系统内存使用的细节。procrank 用于显示系统各进程的内存使用情况查找内存使用超载或泄漏进程。当内存紧张时系统性能表现将会受到较大影响iowait 的提升也会导致 CPU 使用率也会明显上升。1.4. PerfPerf 是内置于 Linux 内核源码树中的性能剖析profiling工具作为一款强大的综合性分析工具能够提供从硬件到软件、从应用到内核的全栈性能分析方法常用于性能瓶颈的查找与热点代码的定位。1.4.1. Perf 原理Perf 工具功能强大通过下面的软、硬件能力实现性能 profiling。Hardware Event 由 PMU 部件产生在特定的条件下探测性能事件是否发生以及发生的次数。比如 cache 命中。Software Event 是内核产生的事件分布在各个功能模块中统计和操作系统相关性能事件。比如进程切换tick 数等。Tracepoint Event 是内核中静态 tracepoint 所触发的事件ftrace这些 tracepoint 用来判断程序运行期间内核的行为细节perf 在这种应用场景下可理解为 ftrace 的一种前端工具。1.4.2. Perf 使用Perf 命令非常多每个命令下又有很多子命令所以本文只针对性介绍一些常用命令。1.4.2.1.perf list查看当前系统软、硬件支持的性能事件。1.4.2.2.perf stat统计 cache、branch、context-switches 等软硬件底层性能指标。使用 ctrlc 退出。perf stat -p 追踪指定进程的性能指标1.4.2.3.perf top实时查看当前系统中所有kernelapp函数占用率情况及 irq 统计。“perf top -U”U 统计 kernel 中符号占用率。“perf top -K”K 统计应用符号占用率。“perf top -p ”统计制定进程的符号占用情况。“perf top -g”记录占用率的同时保存函数调用栈情况。“perf top -s dso”以 libraryexecuted 进行占用排序。“perf top -s pid”以 pid 进行占用排序。1.4.2.4.perf schedperf sched 依赖开启 ftrace用于统计分析调度相关信息。perf sched record -p 可抓取指定进程调度信息。perf sched latency --sort max对 record 的数据进行 runtime、delay 等时间分析。perf sched timehist -wM对 record 的数据进行调度时延的分析。roothobot:~# perf sched record -- sleep 1 [ perf record: Woken up 1 times to write data ] [ perf record: Captured and wrote 1.066 MB perf.data (7233 samples) ] roothobot:~# roothobot:~# perf sched latency --sort max ------------------------------------------------------------------------------------------------------------------------------------------- Task | Runtime ms | Switches | Avg delay ms | Max delay ms | Max delay start | Max delay end | ------------------------------------------------------------------------------------------------------------------------------------------- sleep:2329 | 1.120 ms | 1 | avg: 0.000 ms | max: 0.000 ms | max start: 0.000000 s | max end: 0.000000 s rcuc/9:92 | 0.002 ms | 1 | avg: 0.000 ms | max: 0.000 ms | max start: 0.000000 s | max end: 0.000000 s1.4.2.5.火焰图火焰图是分析系统、进程热点的强大工具原理是通过 PMU 对 CPU 当前运行符号PC进行采样再通过火焰图工具还原整个调用栈。通过火焰图可以查看 kernelapp 的调用栈耗时状态查找性能瓶颈。perf record -g -p 记录系统/进程的堆栈采样数据默认 perf.data。perf script perf.unflod对 record 的调用栈等信息进行解析。将 perf.unflod 导入 PC 机使用火焰图工具出解析 perf.svg。FlameGraph/stackcollapse-perf.pl perf.unflod FlameGraph/flamegraph.pl perf.svg. FlameGraph 工具从 https://github.com/brendangregg/FlameGraph.git 获取。使用 chrome 浏览器打开。1.5. Ftrace 功能Ftrace 功能的作用是帮助开发人员了解 Linux 内核的运行时行为以便进行故障调试或性能分析。Ftrace 通过静态和动态插装实现对内核核心及热点函数的 profiling对于调度、io 等问题是最重要的分析手段。Ftrace 需要使能内核 CONFIG_FTRACE当前默认打开。Ftrace 使用 per-cpu 的 ring-buffer内容为二进制格式执行效率高。设置 CONFIG_DYNAMIC_FTRACE 后加入的 trace 功能在不使用时对运行时系统性能几乎没有影响初始化会对开机时间有一定影响动态使能 ftrace 后对运行时性能会有一定副作用。Ftrace 的调度 profiling 在内核中对热点函数大量埋点导致系统会在几秒内产生百兆以上的 log通过 log 直接分析性能难度较大所以一般会引入一些 ftrace 前端工具。perf、trace-cmd、systemtap、bcc、kernelshark 都是优秀的 ftrace 前端工具。可以通过这些工具去分析 ftrace 日志。

相关文章:

Linux 性能优化工具

1.概述 Linux 的性能问题,依赖于各类性能工具,针对不同性能场景,选择合适的工具,可以大大提高整个性能优化的效率,下图是性能问题和工具图谱:受限本文篇幅和侧重,结合征程系列 SoC 调优实践&…...

告别玄学调参:手把手教你配置AutoSar WDGM的CheckpointAlive与Deadline监控

告别玄学调参:手把手教你配置AutoSar WDGM的CheckpointAlive与Deadline监控 在嵌入式系统开发中,看门狗管理模块(WDGM)是确保系统可靠性的关键组件。然而,许多工程师在面对WDGM配置时,常常陷入"玄学调…...

QQ音乐sign vmp逆向

定位 return u ie(r.data)跟进return u ie(r.data)发现是个vmp下日志断点然后分析log日志 分析 前缀 7CB69B11F03F540463B696AE679DF97A7ED34709 通过将log给ai,ai告诉我说这是sha1入参是啥? 搜索 finalize 发现一个数组 SHA-1 常量 [undefined, 17325…...

PLL设计中的‘幽灵’:深入拆解PFD与CP死区问题及其对相位噪声的影响

PLL设计中的‘幽灵’:深入拆解PFD与CP死区问题及其对相位噪声的影响 锁相环(PLL)作为现代通信系统和时钟电路的核心模块,其性能直接决定了整个系统的稳定性和信号质量。然而,在PLL设计中存在一个常被忽视却又影响深远的…...

STC8H内置ADC的隐藏技巧:如何用1.19V基准源实现MCU供电电压监测?

STC8H内置ADC的隐藏技巧:如何用1.19V基准源实现MCU供电电压监测? 在物联网设备和便携式电子产品的设计中,电源管理一直是工程师们需要重点考虑的环节。尤其是对于电池供电的设备,实时监测MCU的供电电压不仅能够预警低电量状态&…...

ruoyi-qs-nvr —— 企业级全协议视频融合中台

泉视互联 视界无界 | 基于 RuoYi-Cloud Alibaba 的下一代微服务监控架构 🌌 项目愿景 本项目不仅仅是一个 NVR 系统,而是一个视频物联网接入平台 。旨在打破品牌壁垒,通过微服务架构解决海量设备接入、低延迟传输与复杂业务管理的痛点&…...

3分钟掌握AsrTools:零配置语音转文字工具终极指南

3分钟掌握AsrTools:零配置语音转文字工具终极指南 【免费下载链接】AsrTools ✨ AsrTools: Smart Voice-to-Text Tool | Efficient Batch Processing | User-Friendly Interface | No GPU Required | Supports SRT/TXT Output | Turn your audio into accurate text…...

通过 Taotoken CLI 工具一键配置团队开发环境中的多模型访问密钥

通过 Taotoken CLI 工具一键配置团队开发环境中的多模型访问密钥 在团队协作开发中,统一管理大模型 API 访问密钥和端点配置是一项基础但繁琐的工作。新成员加入时,往往需要手动复制密钥、修改环境变量或配置文件,过程容易出错且效率低下。T…...

迷你主机能否胜任HTML开发_小体积设备工具适配建议【方法】

迷你主机可稳定支撑HTML开发,需满足i3-1215U/R5 7530U、16GB内存、PCIe 4.0 SSD等基础配置,并采用轻量工具链、容器化、多屏优化、内存压缩及远程编译等五类适配策略。如果您计划使用迷你主机进行HTML开发,但不确定其是否能稳定支撑代码编辑、…...

如何查询SQL中特定字段为空的记录_掌握IS NULL用法

...

揭秘奇点智能大会闭门报告:3个被低估的AI工程提效杠杆,今天不看明天就落后

更多请点击: https://intelliparadigm.com 第一章:AI研发效率提升方法:奇点智能大会 在2024年奇点智能大会上,多家头部AI工程团队联合发布了《AI研发效能白皮书》,聚焦模型迭代周期压缩、MLOps流水线标准化与开发者体…...

【独家首发】AISMM模型中文增强版下载:集成工信部AI能力图谱+27项合规性检查项(非公开渠道流出)

更多请点击: https://intelliparadigm.com 第一章:AI成熟度评估工具:AISMM模型下载 AISMM(Artificial Intelligence Software Maturity Model)是由IEEE标准协会支持的开源AI工程化评估框架,聚焦于组织在数…...

如何高效处理大型JSON文件:专业工具使用完整指南

如何高效处理大型JSON文件:专业工具使用完整指南 【免费下载链接】HugeJsonViewer Viewer for JSON files that can be GBs large. 项目地址: https://gitcode.com/gh_mirrors/hu/HugeJsonViewer 在处理数据分析和开发工作中,JSON文件已经成为数据…...

如何3步掌握FancyZones:终极窗口管理秘籍

如何3步掌握FancyZones:终极窗口管理秘籍 【免费下载链接】PowerToys Microsoft PowerToys is a collection of utilities that supercharge productivity and customization on Windows 项目地址: https://gitcode.com/GitHub_Trending/po/PowerToys 想要让…...

云原生安全:零信任架构如何重塑远程办公时代的企业防护

1. 远程办公常态下的云安全挑战与核心思路疫情之后,混合办公从“应急方案”变成了“新常态”。我们面对的早已不是简单的“把办公室电脑搬回家”,而是一个由分布式混合云、多云环境、五花八门的设备(公司配发的、员工个人的、移动端的&#x…...

Elasticvue节点版本监控:解决Elasticsearch集群滚动升级的视觉盲区

Elasticvue节点版本监控:解决Elasticsearch集群滚动升级的视觉盲区 【免费下载链接】elasticvue Elasticsearch gui - desktop app, browser extension, docker, self hosted 项目地址: https://gitcode.com/gh_mirrors/el/elasticvue 在Elasticsearch集群的…...

3个智能助手:如何让在线学习从被动听课变为主动掌控

3个智能助手:如何让在线学习从被动听课变为主动掌控 【免费下载链接】zhihuishu 智慧树刷课插件,自动播放下一集、1.5倍速度、无声 项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 想象一下这样的场景:深夜十一点&#xff0c…...

3分钟掌握RePKG:Wallpaper Engine资源提取与转换终极指南

3分钟掌握RePKG:Wallpaper Engine资源提取与转换终极指南 【免费下载链接】repkg Wallpaper engine PKG extractor/TEX to image converter 项目地址: https://gitcode.com/gh_mirrors/re/repkg 你是否曾对Wallpaper Engine中精美的动态壁纸感到好奇&#xf…...

中兴光猫配置解密终极指南:ZET工具完整实战手册

中兴光猫配置解密终极指南:ZET工具完整实战手册 【免费下载链接】ZET-Optical-Network-Terminal-Decoder 项目地址: https://gitcode.com/gh_mirrors/ze/ZET-Optical-Network-Terminal-Decoder 中兴光猫配置解密是网络运维中的常见需求,ZET-Opti…...

警惕!AI智能体成企业新“成本黑洞”:隐性成本防坑指南

很多老板谈起“上智能体”,第一反应是:现在大模型调用很便宜,平台也说“低代码、几天上线”,怎么可能是成本黑洞?问题就在这里——显性费用确实越来越低,但隐性消耗,正在悄悄吞掉预算、拖慢团队…...

Linux下构建本地优先的语音编码助手:voice2agent项目实战

1. 项目概述:解放双手的智能语音编码伴侣作为一名长期与代码和终端打交道的开发者,我深知在构思复杂逻辑或向AI编程助手(如Claude Code、Codex)描述需求时,反复敲击键盘的疲惫感。市面上的语音输入方案要么过于笨重&am…...

using创建的对象在块外不可用

核心问题:DBObject 与 IDisposable在 AutoCAD .NET API 中,DBObject 类实现了 IDisposable 接口。这意味着它拥有需要被管理的非托管资源(与 AutoCAD 数据库的内部连接)。当你使用 using 语句创建它时:using (Line myL…...

MotionGPT3:基于大语言模型的文本与3D动作生成技术解析

1. 项目概述:当大语言模型学会“看”动作最近在探索多模态大模型的应用边界时,我深度体验了一个名为“MotionGPT3”的开源项目。这个项目来自OpenMotionLab,它的核心目标非常明确:让大语言模型(LLM)不仅能理…...

基于T3 Stack构建Cursor AI规则库:提升开发者效率的实践指南

1. 项目概述:一个为开发者量身定制的Cursor规则库如果你和我一样,是一名日常与代码为伴的开发者,那么过去一年里,你一定无法忽视一个名字:Cursor。它不仅仅是一个编辑器,更像是一个坐在你身边的、不知疲倦的…...

工程师如何打造专属灵感环境:从科学原理到实践指南

1. 灵感之源:为何我们需要一个“专属空间”做我们这行,无论是画电路板、写代码,还是构思一个复杂的系统架构,最怕的就是脑子卡壳。屏幕上的光标闪得人心烦,文档一片空白,或者一个技术难题怎么绕都绕不过去。…...

STM32CubeMX配置DAC的DMA传输,为什么你的波形总是不对?这5个坑我帮你踩过了

STM32CubeMX配置DAC的DMA传输:5个波形异常的典型排查思路 第一次用STM32CubeMX配置DAC的DMA传输时,示波器上那些扭曲的波形让我差点怀疑人生。明明按照教程一步步操作,为什么输出的正弦波总是出现阶梯状畸变、频率偏差或断续现象?…...

如何在电脑上玩Switch游戏?SysDVR免费串流方案终极指南

如何在电脑上玩Switch游戏?SysDVR免费串流方案终极指南 【免费下载链接】SysDVR Stream switch games to your PC via USB or network 项目地址: https://gitcode.com/gh_mirrors/sy/SysDVR 你是否想过将Switch游戏画面实时传输到电脑上,享受大屏…...

开发者生态建设:如何让你的平台成为开发者的首选?

在软件测试领域,平台的选择早已不再只是功能清单的比拼。测试从业者每天面对的是复杂的技术栈、持续交付的压力、自动化用例的维护负担,以及团队协作中无数隐性的沟通成本。一个平台能否成为测试开发者的首选,本质上取决于它是否真正理解并融…...

YOLO11涨点优化:边界框回归 | 引入SIoU (Scylla-IoU),加入角度惩罚项,让预测框“走捷径”快速贴合真实框

你是否遇到过这样的场景:边界框回归明明已经大概率收敛,却在最后那一点“像素级精度”上反复徘徊、迟迟不肯贴合真实框?这不是你的训练策略有问题,而是传统IoU损失函数缺少方向感导致的本质缺陷。 SIoU(Scylla-IoU)通过引入角度惩罚项,彻底解决了这一痛点。 本文将完整展…...

YOLO11涨点优化:Loss魔改 | 结合VariFocal Loss,不对等处理正负样本,大幅缓解密集目标检测的误检率

〇、写在前面:密集场景下的误检之痛 做目标检测的朋友,想必都遇到过这样的场景——你信心满满地跑完模型推理,打开可视化结果一看,一张图上密密麻麻全是框,正样本、负样本、高置信度误检、低置信度正检搅在一起,像一团解不开的毛线球。这就是密集目标检测中最让人头疼的…...