RuntimeError: CUDA out of memory.【多种场景下的解决方案】
RuntimeError: CUDA out of memory.【多种场景下的解决方案】

🌈 个人主页:高斯小哥
🔥 高质量专栏:【Matplotlib之旅:零基础精通数据可视化】
🏆🏆关注博主,随时获取更多关于深度学习、PyTorch、Python领域的优质内容!🏆🏆
🌵文章目录🌵
- 🚀 一、引言
- 🎯 二、多种场景下的解决方案
- 💡 1. 【首次运行完整项目时(如GitHub项目)报错】场景下的解决方案
- 💡 2. 【前几次都顺利执行,突然报错】场景下的解决方案
- 📚 三、参考文档
- 🌳 四、结尾
🚀 一、引言
随着深度学习的繁荣发展,GPU已成为推动这一浪潮的核心动力。🚀 然而,正如任何强大的工具一样,GPU也有其局限性。😅 其中最常见且令人头疼的问题之一就是CUDA内存溢出,或称为“RuntimeError: CUDA out of memory”。😖 这一错误不仅可能中断您宝贵的训练过程,🛑 还可能导致资源浪费和时间损失。💸🕰️ 但别担心,本文将带您深入了解CUDA内存溢出的多种场景,🔍 并提供实用的解决方案,💡 助您轻松驾驭GPU内存管理,🎯 让深度学习之路更加顺畅无阻!🚀💪
🎯 二、多种场景下的解决方案
💡 1. 【首次运行完整项目时(如GitHub项目)报错】场景下的解决方案
🔥 当您在尝试运行GitHub上的完整项目时,若遇到RuntimeError: CUDA out of memory错误,通常意味着GPU内存不足以处理当前的计算需求。以下是一系列针对此问题的实用解决方案。 💡
🔍【方案一】:调整批量大小
-
如果您👀当前的批量大小(Batch Size)大于1,建议逐步减小它。选择一个较小的批量大小,如从256减少到128、64或更低,通常能有效降低GPU内存的使用。同时,请确保🔄训练、测试和验证数据集都使用相同的批量大小。
-
即使当🔍批量大小已经设置为1时,如果仍然遇到内存溢出错误,您还有以下两种选择(但🔍首先,请确保已检查并处理【方案二和方案三】提到的情况):
- 💻 使用更高显存的GPU:考虑升级您的硬件设备或租赁具有更高显存的云服务器来进行训练。
- 🛠️ 优化模型结构:通过减少模型层数、降低特征图维度或采用其他内存优化技术,使模型更轻量化。
🔍【方案二】:检查并避免不必要的GPU张量累积
🚫 在训练过程中,确保不要累积GPU上的张量,因为这会导致显存占用逐渐增加。例如,在记录每个batch的损失时,不要简单地将loss张量相加,而是应该提取其值并存储在CPU内存中。
报错代码关键片段示例:
total_loss = 0.0 # 初始化为浮点数,而不是GPU张量
for i in range(100):optimizer.zero_grad()output = model(data_input)loss = criterion(output)loss.backward()optimizer.step()total_loss += loss # 累积GPU上的张量
修正后的代码示例:
total_loss = 0.0 # 初始化为浮点数,而不是GPU张量
for i in range(100):optimizer.zero_grad()output = model(data_input)loss = criterion(output)loss.backward()optimizer.step()# 使用.item()提取loss的值,并将其添加到total_loss中total_loss += loss.item()
通过这样修改,您可以避免不必要的GPU显存占用,从而减少内存溢出的风险。 🔒
🔍【方案三】:释放未使用的缓存
🗑️ 在每个epoch或迭代结束后,使用torch.cuda.empty_cache()来释放未使用的CUDA缓存。这有助于回收不再需要的内存,为接下来的计算任务腾出空间。 🚀
希望这些解决方案能帮助您顺利运行GitHub项目!加油!💪
💡 2. 【前几次都顺利执行,突然报错】场景下的解决方案
🚨 当你遇到前几次执行都顺利,但突然报错的情况,首先要怀疑的是GPU显存溢出。🚨
🔍 为了诊断问题,你可以使用nvidia-smi命令来查看显存的占用情况,就像下图所展示的。

😵 从上图中我们可以看到,编号为7的GPU显存占用较高,这可能导致新任务无法分配足够的显存而报错。😵
🛠️ 针对这种情况,你可以尝试以下解决方案:
-
检查服务器使用情况:
- 多人共用服务器:👥 如果服务器由多人共用,可能存在其他用户占用大量显存的情况。你可以尝试切换到其他显存较充足的GPU上运行你的任务,通过设置环境变量
CUDA_VISIBLE_DEVICES来实现,例如os.environ['CUDA_VISIBLE_DEVICES'] = "1"。 - 单人使用服务器:👤 若服务器仅由你一人使用,检查是否有其他程序或任务正在同一GPU上运行。🤔 如果有,考虑停止或暂停这些任务,释放显存给当前需要的任务。
- 多人共用服务器:👥 如果服务器由多人共用,可能存在其他用户占用大量显存的情况。你可以尝试切换到其他显存较充足的GPU上运行你的任务,通过设置环境变量
希望这些解决方案能够帮助你快速定位和解决问题!💪💪
未完待续。。。
如果有其它使用场景下出现报错RuntimeError: CUDA out of memory,欢迎在评论区留言沟通~
📚 三、参考文档
- pytorch: 四种方法解决RuntimeError: CUDA out of memory. Tried to allocate … MiB
- CUDA out of memory.
🌳 四、结尾
亲爱的读者,感谢您每一次停留和阅读,这是对我们最大的支持和鼓励!🙏在茫茫网海中,您的关注让我们深感荣幸。您的独到见解和建议,如明灯照亮我们前行的道路。🌟若在阅读中有所收获,一个赞或收藏,对我们意义重大。
我们承诺,会不断自我挑战,为您呈现更精彩的内容。📚有任何疑问或建议,欢迎在评论区畅所欲言,我们时刻倾听。💬让我们携手在知识的海洋中航行,共同成长,共创辉煌!🌱🌳感谢您的厚爱与支持,期待与您共同书写精彩篇章!
您的点赞👍、收藏🌟、评论💬和关注💖,是我们前行的最大动力!
相关文章:
RuntimeError: CUDA out of memory.【多种场景下的解决方案】
RuntimeError: CUDA out of memory.【多种场景下的解决方案】 🌈 个人主页:高斯小哥 🔥 高质量专栏:【Matplotlib之旅:零基础精通数据可视化】 🏆🏆关注博主,随时获取更多关于深度学…...
LeetCode刷题| Leetcode 45. 跳跃游戏,1190. 反转每对括号间的子串,781. 森林中的兔子,739. 每日温度
45. 跳跃游戏 题目链接: 45. 跳跃游戏 II - 力扣(LeetCode) 思路:这道题思路不难记,遍历数组每个位置,更新下一次的范围,当当前位置已经在当前范围之外时,步数一定得加一ÿ…...
Redis(03)——发布订阅
基础命令 基于频道 publish channel message:将信号发送到指定的频道pubsub subcommand [argument [argyment]]:查看订阅或发布系统状态subscribe channel [channel]:订阅一个或多个频道的信息unsubscribe [channel [channel]]:退…...
⭐北邮复试刷题LCR 034. 验证外星语词典__哈希思想 (力扣119经典题变种挑战)
LCR 034. 验证外星语词典 某种外星语也使用英文小写字母,但可能顺序 order 不同。字母表的顺序(order)是一些小写字母的排列。 给定一组用外星语书写的单词 words,以及其字母表的顺序 order,只有当给定的单词在这种外…...
ECMAScript 6+ 新特性 ( 二 )
2.12. class类 ES6 提供了更接近传统语言的写法,引入了 Class(类)这个概念,作为对象的模板。通过 class 关键字,可以定义类。 ES6 的 class 可以看作只是一个语法糖,它的绝大部分功能ES5 都可以做到&…...
JS游戏项目合集【附源码】
文章目录 一:迷宫小游戏二:俄罗斯方块三:压扁小鸟 一:迷宫小游戏 【迷宫游戏】是一款基于HTML5技术开发的游戏,玩法简单。玩家需要在一个迷宫中找到出口并成功逃脱,本项目还有自动寻路(Track&a…...
React中hooks使用限制及保存函数组件状态
React Hooks 的限制主要有两条: 不要在循环、条件或嵌套函数中调用 Hook; 在 React 的函数组件中调用 Hook。 首先,Hooks是一个对象,大致结构如下: const hook: Hook {memoizedState: null,baseState: null,baseQ…...
用git命令来上传项目到GitHub我自己的仓库
目录 在GitHub上创建仓库并使用git命令上传到仓库的步骤如下: 其他操作 怎么退出git/COMMIT_EDITMSG [unix] 相关报错 error: src refspec main does not match any error: failed to push some refs to https://github.com/Liu22Jun16Liang/MyQt error: fail…...
.NET有哪些微服务框架
1.概述 想要对.net的微服务方案进行一下调查,看有什么可选的方案和框架,与spring clound相比.net 创建微服务是相对较麻烦的。 ID名称说明1Service FabricSteeltoe是帮助.NET开发的服务接入Spring Cloud技术栈的官方支持工具。也就是说,微服…...
uniapp中打开蓝牙需要哪些权限
在uniApp中进行蓝牙连接,需要获取以下权限: 蓝牙权限:用于扫描和连接蓝牙设备。定位权限:用于获取设备的位置信息,以便确定设备与蓝牙设备之间的距离。存储权限:用于读取和写入与蓝牙设备相关的数据。 获…...
virtualbox虚拟机运行中断,启动报错“获取 VirtualBox COM 对象失败”
文章目录 问题现象排查解决总结 问题现象 2月7日下午四点多,我已经休假了,某县的客户运维方打来电话,说平台挂了,无法访问客户是提供的一台Windows server机器部署平台,是使用virtualbox工具安装的CentOS7.9虚拟机和运…...
【JVM篇】什么是运行时数据区
文章目录 🍔什么是运行时数据区⭐程序计数器⭐栈🔎Java虚拟机栈🎈栈帧的内容 🔎本地方法栈 ⭐堆⭐方法区 🍔什么是运行时数据区 运行时数据区指的是jvm所管理的内存区域,其中分为两大类 线程共享…...
Jetpack 之Glance+Compose实现一个小组件
Glance,官方对其解释是使用 Jetpack Compose 样式的 API 构建远程 Surface 的布局,通俗的讲就是使用Compose风格的API来搭建小插件布局,其最新版本是2022年2月23日更新的1.0.0-alpha03。众所周知,Compose样式的API与原生差别不小&…...
实时矢量搜索如何彻底改变各行各业?
实时分析技术已经巩固了其作为众多行业的基石这一地位。另外,生成式AI具有的魅力吸引了广泛的关注,创新的解决方案有望为从娱乐到医疗保健的各个行业领域提供前所未有的洞察力。使用生成式AI方法与众多实时分析技术的融合带来了显著的协同效应。它使组织…...
【Linux】指令 【scp】
scp 是一条用于安全复制文件的命令。 scp hadoop.tar.gz datanode:/software这条命令的含义是将本地的hadoop.tar.gz文件复制到远程主机datanode的/software目录下。 scp:这是Secure Copy的缩写,用于在主机之间安全地复制文件。hadoop.tar.gzÿ…...
文件IO,目录IO的学习
一,头文件的添加 #ifndef _HEAD_H_ //防止重新定义宏 #define _HEAD_H_#include<stdio.h> #include<sys/stat.h> #include<sys/types.h> #include<fcntl.h> #include<unistd.h> #include<string.h>#endif…...
leetcode(动态规划)53.最大子数组和(C++详细解释)DAY12
文章目录 1.题目示例提示 2.解答思路3.实现代码结果 4.总结 1.题目 给你一个整数数组 nums ,请你找出一个具有最大和的连续子数组(子数组最少包含一个元素),返回其最大和。 子数组 是数组中的一个连续部分。 示例 提示 2.解答思…...
BUGKU-WEB bp
题目描述 题目截图如下: 进入场景看看: 解题思路 提示说:弱密码top1000?z???(爆破?)先看看源码有没有提示 相关工具 Burp Suit 爆破top1000字典,点击下载 解题步骤 随便测试账号密码admin、admin 得到提…...
代码的复用——Mixin使用例子
Mixin(混入)是一种在Sass和Vue.js等框架中常用的技术,用于分发和重用代码。以下是Sass和Vue.js中Mixin的使用举例。 在Sass中,Mixin允许你定义可以在整个样式表中重复使用的样式。以下是一个Sass中Mixin的使用例子: …...
easyx 枪声模拟器
作品介绍:枪声模拟器 简介: “枪声模拟器”是一个基于Windows平台的简单程序,它使用C++编写,主要目的是通过模拟枪声来增强用户的体验。程序使用了图形库来展示一个蓝色的背景屏幕,并提示用户等待片刻后按空格键模拟开枪。当用户按下空格键时,程序会播放预先设定的枪声音…...
智慧工地云平台源码,基于微服务架构+Java+Spring Cloud +UniApp +MySql
智慧工地管理云平台系统,智慧工地全套源码,java版智慧工地源码,支持PC端、大屏端、移动端。 智慧工地聚焦建筑行业的市场需求,提供“平台网络终端”的整体解决方案,提供劳务管理、视频管理、智能监测、绿色施工、安全管…...
【SpringBoot】100、SpringBoot中使用自定义注解+AOP实现参数自动解密
在实际项目中,用户注册、登录、修改密码等操作,都涉及到参数传输安全问题。所以我们需要在前端对账户、密码等敏感信息加密传输,在后端接收到数据后能自动解密。 1、引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId...
srs linux
下载编译运行 git clone https:///ossrs/srs.git ./configure --h265on make 编译完成后即可启动SRS # 启动 ./objs/srs -c conf/srs.conf # 查看日志 tail -n 30 -f ./objs/srs.log 开放端口 默认RTMP接收推流端口是1935,SRS管理页面端口是8080,可…...
新能源汽车智慧充电桩管理方案:新能源充电桩散热问题及消防安全监管方案
随着新能源汽车的快速普及,充电桩作为核心配套设施,其安全性与可靠性备受关注。然而,在高温、高负荷运行环境下,充电桩的散热问题与消防安全隐患日益凸显,成为制约行业发展的关键瓶颈。 如何通过智慧化管理手段优化散…...
Spring Boot面试题精选汇总
🤟致敬读者 🟩感谢阅读🟦笑口常开🟪生日快乐⬛早点睡觉 📘博主相关 🟧博主信息🟨博客首页🟫专栏推荐🟥活动信息 文章目录 Spring Boot面试题精选汇总⚙️ **一、核心概…...
MySQL用户和授权
开放MySQL白名单 可以通过iptables-save命令确认对应客户端ip是否可以访问MySQL服务: test: # iptables-save | grep 3306 -A mp_srv_whitelist -s 172.16.14.102/32 -p tcp -m tcp --dport 3306 -j ACCEPT -A mp_srv_whitelist -s 172.16.4.16/32 -p tcp -m tcp -…...
Element Plus 表单(el-form)中关于正整数输入的校验规则
目录 1 单个正整数输入1.1 模板1.2 校验规则 2 两个正整数输入(联动)2.1 模板2.2 校验规则2.3 CSS 1 单个正整数输入 1.1 模板 <el-formref"formRef":model"formData":rules"formRules"label-width"150px"…...
面向无人机海岸带生态系统监测的语义分割基准数据集
描述:海岸带生态系统的监测是维护生态平衡和可持续发展的重要任务。语义分割技术在遥感影像中的应用为海岸带生态系统的精准监测提供了有效手段。然而,目前该领域仍面临一个挑战,即缺乏公开的专门面向海岸带生态系统的语义分割基准数据集。受…...
嵌入式常见 CPU 架构
架构类型架构厂商芯片厂商典型芯片特点与应用场景PICRISC (8/16 位)MicrochipMicrochipPIC16F877A、PIC18F4550简化指令集,单周期执行;低功耗、CIP 独立外设;用于家电、小电机控制、安防面板等嵌入式场景8051CISC (8 位)Intel(原始…...
Python 训练营打卡 Day 47
注意力热力图可视化 在day 46代码的基础上,对比不同卷积层热力图可视化的结果 import torch import torch.nn as nn import torch.optim as optim from torchvision import datasets, transforms from torch.utils.data import DataLoader import matplotlib.pypl…...
