当前位置: 首页 > news >正文

DL中的GPU使用问题

写在前面
在使用GPU进行深度学习训练经常会遇到下面几个问题,这里做一个解决方法的汇总。

🐕Q1🐕:在一个多卡服务器上,指定了cuda:1,但是0号显卡显存还是会被占用一定量的显存。

这个问题很经典的出现场景就是0号卡已经几乎要被占满了,但是1号卡空的很。本想指定在1号卡上跑DL,结果因为一直会占用0号卡一定量的显存,但0号卡此时已经不够显存了,就会反复报:CUDA OUT OF MEMORY.

A1:这个问题是因为模型的部分初始化操作会默认在0号卡上进行,后续的cuda:1没法将这个初试化操作放到1号卡上,所以就占用了部分0号卡的情况。解决的方法可以直接在代码运行的时候指定模型的可见显卡环境。比如现在有一台双卡服务器,现在要将代码指定在1号卡进行,可通过下面代码运行:

CUDA_VISIBLE_DEVICES=1 python3 train.py

其中CUDA_VISIBLE_DEVICES=1的作用是将你的1号显卡暴露给这个代码,这个代码在运行过程中只看到了这张卡,这时候你代码中可以通过调用cuda:0就能够实现只占用这张卡的内存了。另外CUDA_VISIBLE_DEVICES这里指定的顺序也有讲究,如果是如下这样指定:

CUDA_VISIBLE_DEVICES=0,1 python3 train.py

那代码中如果是调用cuda:0的话对应调用的就是0号卡,但如果是按照下面这样指定的话:

CUDA_VISIBLE_DEVICES=1,0 python3 train.py

调用cuda:0的话对应调用的就是1号卡。

🐕Q2🐕:在一个多卡服务器上,想要同时利用多张卡同时训练。

这个一般就是用于模型需要较多显存,但是单卡的显存不够的情况了。

A2:使用如下代码即可:

    if torch.cuda.device_count() > 1:model = nn.DataParallel(model)

注意,在模型分布到多卡上之后,输入数据直接按照下面方式存入显存即可:

input = input.cuda()

数据会进行自适应分流到各个显卡上的。

To be continued…

相关文章:

DL中的GPU使用问题

写在前面 在使用GPU进行深度学习训练经常会遇到下面几个问题,这里做一个解决方法的汇总。 🐕Q1🐕:在一个多卡服务器上,指定了cuda:1,但是0号显卡显存还是会被占用一定量的显存。 这个问题很经典的出现场景就…...

Linux命令——watch

watch是周期性的执行下个程序,并全屏显示执行结果 用法: vmfedora:~$ watch --helpUsage:watch [options] commandOptions:-b, --beep beep if command has a non-zero exit-c, --color interpret ANSI color and style sequen…...

力扣题:字符的统计-12.2

力扣题-12.2 [力扣刷题攻略] Re:从零开始的力扣刷题生活 力扣题1:423. 从英文中重建数字 解题思想:有的单词通过一个字母就可以确定,依次确定即可 class Solution(object):def originalDigits(self, s):""":typ…...

Python----Pandas

目录 Series属性 DataFrame的属性 Pandas的CSV文件 Pandas数据处理 Pandas的主要数据结构是Series(一维数据)与DataFrame(二维数据) Series属性 Series的属性如下: 属性描述pandas.Series(data,index,dtype,nam…...

【UE】UEC++获取屏幕颜色GetPixelFromCursorPosition()

目录 【UE】UE C 获取屏幕颜色GetPixelFromCursorPosition() 一、函数声明与定义 二、函数的调用 三、运行结果 【UE】UE C 获取屏幕颜色GetPixelFromCursorPosition() 一、函数声明与定义 创建一个蓝图方法库方法 GetPixelFromCursorPosition(),并给他指定UF…...

数学建模-基于BL回归模型和决策树模型对早产危险因素的探究和预测

整体求解过程概述(摘要) 近年来,全球早产率总体呈上升趋势,在我国,早产儿以每年 20 万的数目逐年递增,目前早产已经成为重大的公共卫生问题之一。据研究,早产是威胁胎儿及新生儿健康的重要因素,可能会造成死亡或智力体…...

接口测试 —— 接口测试的意义

1、接口测试的意义(优势) (1)更早的发现问题: 不少的测试资料中强调,测试应该更早的介入到项目开发中,因为越早的发现bug,修复的成本越低。 然而功能测试必须要等到系统提供可测试…...

一些常见的爬虫库

一些常见的爬虫库,并按功能和用途进行分类: 通用爬虫库: Beautiful Soup:用于解析HTML和XML文档,方便地提取数据。Requests:用于HTTP请求,获取网页内容。Scrapy:一个强大的爬虫框架…...

2023.12.2 做一个后台管理网页(左侧边栏实现手风琴和隐藏/出现效果)

2023.12.2 做一个后台管理网页(左侧边栏实现手风琴和隐藏/出现效果) 网页源码见附件,比较简单,之前用很多种方法实现过该效果,这次的效果相对更好。 实现功能: (1)实现左侧边栏的手…...

【EMFace】《EMface: Detecting Hard Faces by Exploring Receptive Field Pyramids》

arXiv-2021 文章目录 1 Background and Motivation2 Related Work3 Advantages / Contributions4 Method5 Experiments5.1 Datasets and Metrics5.2 Ablation Study5.3 Comparison with State-of-the-Arts 6 Conclusion(own) 1 Background and Motivatio…...

详细学习Pyqt5的20种输入控件(Input Widgets)

Pyqt5相关文章: 快速掌握Pyqt5的三种主窗口 快速掌握Pyqt5的2种弹簧 快速掌握Pyqt5的5种布局 快速弄懂Pyqt5的5种项目视图(Item View) 快速弄懂Pyqt5的4种项目部件(Item Widget) 快速掌握Pyqt5的6种按钮 快速掌握Pyqt5的10种容器&…...

【JavaEE初阶】Thread 类及常见方法、线程的状态

目录 1、Thread 类及常见方法 1.1 Thread 的常见构造方法 1.2 Thread 的几个常见属性 1.3 启动⼀个线程 - start() 1.4 中断⼀个线程 1.5 等待⼀个线程 - join() 1.6 获取当前线程引用 1.7 休眠当前线程 2、线程的状态 2.1 观察线程的所有状态 2.2 线程状态和状…...

0 NLP: 数据获取与EDA

0数据准备与分析 二分类任务,正负样本共计6W; 数据集下载 https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip 样本的分布 正负样本中评论字段的长度 ,超过500的都…...

159.库存管理(TOPk问题!)

思路&#xff1a;也是tok的问题&#xff0c;与上篇博客思路一样&#xff0c;只不过是求前k个小的元素&#xff01; 基于快排分块思路的代码如下&#xff1a; class Solution { public:int getkey(vector<int>&nums,int left,int right){int rrand();return nums[r%…...

【开源】基于Vue+SpringBoot的康复中心管理系统

项目编号&#xff1a; S 056 &#xff0c;文末获取源码。 \color{red}{项目编号&#xff1a;S056&#xff0c;文末获取源码。} 项目编号&#xff1a;S056&#xff0c;文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 普通用户模块2.2 护工模块2.3 管理员…...

设计模式总览

一、设计模式 介绍 种一棵树最好的时间是十年前&#xff0c;其次是现在 《援助的死亡》-- 比萨莫约 The best time to plant a tree was 10 years ago。 The second best time is now。 《dead aid》-- Dambisa Moyo 1、创建型模式 1.1、单例模式 确保一个类最多只有一个实…...

数据链路层之VLAN基本概念和基本原理

学习的最大理由是想摆脱平庸&#xff0c;早一天就多一份人生的精彩&#xff1b;迟一天就多一天平庸的困扰。各位小伙伴&#xff0c;如果您&#xff1a; 想系统/深入学习某技术知识点… 一个人摸索学习很难坚持&#xff0c;想组团高效学习… 想写博客但无从下手&#xff0c;急需…...

UVA11729 Commando War

UVA11729 Commando War 题面翻译 突击战 你有n个部下&#xff0c;每个部下需要完成一项任务。第i个部下需要你花Bj分钟交代任务&#xff0c;然后他就会立刻独立地、无间断地执行Ji分钟后完成任务。你需要选择交代任务的顺序&#xff0c;使得所有任务尽早执行完毕&#xff08…...

【数据库】数据库基于封锁机制的调度器,使冲突可串行化,保障事务和调度一致性

封锁使可串行化 ​专栏内容&#xff1a; 手写数据库toadb 本专栏主要介绍如何从零开发&#xff0c;开发的步骤&#xff0c;以及开发过程中的涉及的原理&#xff0c;遇到的问题等&#xff0c;让大家能跟上并且可以一起开发&#xff0c;让每个需要的人成为参与者。 本专栏会定期更…...

大文件分片上传、分片进度以及整体进度、断点续传(一)

大文件分片上传 效果展示 前端 思路 前端的思路&#xff1a;将大文件切分成多个小文件&#xff0c;然后并发给后端。 页面构建 先在页面上写几个组件用来获取文件。 <body><input type"file" id"file" /><button id"uploadButton…...

从零构建团队技能仓库:结构化知识管理与VuePress实践

1. 项目概述&#xff1a;一个技能仓库的诞生与价值 最近在整理团队内部的技术资产时&#xff0c;我一直在思考一个问题&#xff1a;如何让那些散落在个人笔记、项目代码片段、会议纪要里的“隐性知识”和“最佳实践”沉淀下来&#xff0c;变成团队可复用、可传承的“显性资产”…...

虚实实景双向映射,升级高端楼宇精细化透明治理

虚实实景双向映射&#xff0c;升级高端楼宇精细化透明治理副标题&#xff1a;原生引擎驱动动态三维场景重构&#xff0c;结合无感化坐标解算、遮挡自适应跨镜接续、身体指纹无源身份匹配&#xff0c;构筑难以复刻、适配极强的楼宇透明化技术壁垒一、方案总览当下高端楼宇运营治…...

基于GitHub Pages与Jekyll的静态博客搭建与深度定制指南

1. 项目概述&#xff1a;一个静态博客的诞生与演进如果你对搭建个人博客感兴趣&#xff0c;或者正在寻找一个轻量、高效、完全可控的线上空间&#xff0c;那么“RyansGhost/RyansGhost.github.io”这个项目仓库&#xff0c;很可能就是你一直在寻找的答案。这不仅仅是一个托管在…...

Arm Neoverse CMN-700互连架构与寄存器编程详解

1. Arm Neoverse CMN-700架构概览在现代高性能计算系统中&#xff0c;处理器核心数量的快速增长对互连架构提出了严峻挑战。作为Arm Neoverse平台的核心组件&#xff0c;CMN-700一致性互连网络采用创新的Mesh拓扑结构&#xff0c;解决了多核处理器间的通信瓶颈问题。我在实际芯…...

安卓客户端架构解析:从MVVM到网络通信的完整实践

1. 项目概述&#xff1a;一个面向安卓设备的智能客户端最近在整理手头的开源项目时&#xff0c;发现了一个挺有意思的仓库&#xff0c;名字叫TOM88812/xiaozhi-android-client。光看这个标题&#xff0c;你可能会有点摸不着头脑&#xff0c;这“小智”到底是个啥&#xff1f;是…...

Sophia优化器:二阶曲率感知如何加速大模型训练与调参

1. 项目概述&#xff1a;当优化器遇上“二阶”智慧最近在复现一些前沿的论文实验时&#xff0c;我又一次被优化器的选择给卡住了。AdamW虽然稳&#xff0c;但在某些超大规模模型或特定任务上&#xff0c;总觉得收敛速度不够快&#xff0c;调参又是个玄学。就在我对着损失曲线发…...

KLOGG:专业开发者的海量日志分析利器

KLOGG&#xff1a;专业开发者的海量日志分析利器 【免费下载链接】klogg Really fast log explorer based on glogg project 项目地址: https://gitcode.com/gh_mirrors/kl/klogg 你是否曾为在数十GB的日志文件中寻找关键错误信息而头痛不已&#xff1f;面对海量日志数据…...

在Windows电脑上玩转酷安社区:这款免费UWP客户端让你告别手机小屏幕

在Windows电脑上玩转酷安社区&#xff1a;这款免费UWP客户端让你告别手机小屏幕 【免费下载链接】Coolapk-UWP 一个基于 UWP 平台的第三方酷安客户端 项目地址: https://gitcode.com/gh_mirrors/co/Coolapk-UWP 还在用手机刷酷安社区吗&#xff1f;是时候体验大屏幕带来…...

图像质量评估新视角:抛开PSNR和SSIM,聊聊如何用‘变异系数’量化局部细节清晰度

图像质量评估新视角&#xff1a;用变异系数量化局部细节清晰度的实战指南 在数字图像处理领域&#xff0c;评估图像质量一直是核心挑战。传统指标如PSNR&#xff08;峰值信噪比&#xff09;和SSIM&#xff08;结构相似性&#xff09;虽然广泛应用&#xff0c;但面对复杂场景时往…...

【YOLO目标检测全栈实战】33 模型部署的终极形态:ONNX Runtime + TensorRT EP 跨平台推理

还记得上周帮一家做边缘计算盒子的客户调优时,他们遇到一个典型问题:同一份ONNX模型,在Windows服务器上用TensorRT跑出了5ms的推理延迟,可部署到客户的ARM工控机上,却只能用CPU硬扛,延迟直接飙到80ms。 客户老板当场拍桌子:“你们这模型是不是分三六九等?”我拆开部署…...