当前位置：首页 > news >正文

优化模型训练过程中的显存使用率、GPU使用率

news 2026/2/8 23:26:20

参考：https://blog.51cto.com/u_16099172/7398948
问题：用小数据集训练显存使用率、GPU使用率正常，但是用大数据集训练GPU使用率一直是0.
小数据：
在这里插入图片描述
大数据：

1、我理解GPU内存占用率=显存使用率，由模型的大小以及batch size的大小，来影响这个指标。模型结构固定的情况下，尽量将batch size设置大，充分利用GPU的内存。但是代码中有val部分，val时会只使用gpu0，bs太大可能导致val时候out of memory。
2、gpu利用率。GPU在等待数据从CPU传输过来，当从总线传输到GPU之后，GPU逐渐起计算来，利用率会突然升高，但是GPU的算力很强大，0.5秒就基本能处理完数据。所以利用率接下来又会降下去，等待下一个batch的传入。因此，这个GPU利用率瓶颈在内存带宽和内存介质上以及CPU的性能上面。最好当然就是换更好的四代或者更强大的内存条，配合更好的CPU。硬件都固定的情况下，尝试调节参数优化gpu使用率。
在PyTorch这个框架里面，数据加载Dataloader上做更改和优化，包括num_workers（线程数），pin_memory，会提升速度。解决好数据传输的带宽瓶颈和GPU的运算效率低的问题。

torch.utils.data.DataLoader(image_datasets[x],batch_size=batch_size, shuffle=True,num_workers=8,pin_memory=True)

为了提高利用率，首先要将num_workers（线程数）设置得体，4,8,16是几个常选的几个参数。本人测试过，将num_workers设置的非常大，例如，24，32,等，其效率反而降低，因为模型需要将数据平均分配到几个子线程去进行预处理，分发等数据操作，设高了反而影响效率。当然，线程数设置为1，是单个CPU来进行数据的预处理和传输给GPU，效率也会低。其次，当你的服务器或者电脑的内存较大，性能较好的时候，建议打开pin_memory打开，就省掉了将数据从CPU传入到缓存RAM里面，再给传输到GPU上；为True时是直接映射到GPU的相关内存块上，省掉了一点数据传输时间。
3. CPU的利用率问题
很多人在模型训练过程中，不只是关注GPU的各种性能参数，往往还需要查看CPU处理的怎么样，利用的好不好。这一点至关重要。但是对于CPU，不能一味追求超高的占用率。如图所示，对于14339这个程序来说，其CPU占用率为2349%（我的服务器是32核的，所以最高为3200%）。这表明用了24核CPU来加载数据和做预处理和后处理等。其实主要的CPU花在加载传输数据上。此时，来测量数据加载的时间发现，即使CPU利用率如此之高，其实际数据加载时间是设置恰当的DataLoader的20倍以上，也就是说这种方法来加载数据慢20倍。当DataLoader的num_workers=0时，或者不设置这个参数，会出现这个情况。
在这里插入图片描述

优化模型训练过程中的显存使用率、GPU使用率

相关文章：

优化模型训练过程中的显存使用率、GPU使用率

RocketMQ学习笔记

Linux第三讲：环境基础开发工具使用

日本TikTok直播的未来：专线网络助力创作者突破极限

如何在家庭网络中设置静态IP地址：一份实用指南

qt QFile详解

ESP8266 自定义固件烧录-Tcpsocket固件

内网项目，maven本地仓库离线打包，解决Cannot access central in offline mode?

stack和queue ---＞容器适配器

ffmpeg视频解码

前端入门一之CSS知识详解

【JS学习】10. web API-BOM

C#实现递归获取所有父级的列表

【深度学习】梯度累加和直接用大的batchsize有什么区别

【Linux】网络相关的命令

leetcode哈希表（五）-四数相加II

Java学习路线：Maven（一）认识Maven

【深度学习】— 多输入多输出通道、多通道输入的卷积、多输出通道、1×1 卷积层、汇聚层、多通道汇聚层

java mapper 的 xml讲解

全面解析：区块链技术及其应用

内存分配函数malloc kmalloc vmalloc

Appium+python自动化（十六）- ADB命令

3403. 从盒子中找出字典序最大的字符串 I

（转）什么是DockerCompose?它有什么作用？

mysql已经安装，但是通过rpm -q 没有找mysql相关的已安装包

selenium学习实战【Python爬虫】

是否存在路径（FIFOBB算法）

.Net Framework 4/C# 关键字（非常用，持续更新...）

2023赣州旅游投资集团

HashMap中的put方法执行流程（流程图）