当前位置：首页 > news >正文

pytorch内存泄漏

news 2026/5/13 15:59:26

问题描述：

内存泄漏积累过多最终会导致内存溢出，当内存占用过大，进程会被killed掉。

解决过程：

在代码的运行阶段输出内存占用量，观察在哪一块存在内存剧烈增加或者显存异常变化的情况。但是在这个过程中要分级确认问题点，也即如果存在三个文件main.py、train.py、model.py。
在此种思路下，应该先在main.py中确定问题点，然后，从main.py中进入到train.py中，再次输出显存占用量，确定问题点在哪。随后，再从train.py中的问题点，进入到model.py中，再次确认。如果还有更深层次的调用，可以继续追溯下去。

import psutil
process = psutil.Process()
current_memory = process.memory_info().rss
print(f"0--------------Current memory usage: {current_memory / (1024 ** 3):.4f} GB")

具体使用的代码

for epoch in range(start_epoch+1, args.epochs+1):process = psutil.Process()current_memory = process.memory_info().rssprint(f"0--------------Current memory usage: {current_memory / (1024 ** 3):.4f} GB")count_step = (epoch-1)*len(train_loader)  print(f"1--------------Current memory usage: {current_memory / (1024 ** 3):.4f} GB")mean_loss, lr = train_one_epoch(model, optimizer, train_loader, device, epoch, count_step,writer,lr_scheduler,print_freq=args.print_freq)print(f"2--------------Current memory usage: {current_memory / (1024 ** 3):.4f} GB")val_info = evaluate_vgg(model, epoch, val_loader, device, writer, num_classes=num_classes)print(f"3--------------Current memory usage: {current_memory / (1024 ** 3):.4f} GB")with open(results_file, "a") as f:# 记录每个epoch对应的train_loss、lr以及验证集各指标       train_info = f"[epoch: {epoch}]\n" \f"train_loss: {mean_loss:.4f}\n" \f"lr: {lr:.6f}\n"f.write(train_info + val_info + "\n\n")save_vgg_file = {"model": model.state_dict(),"optimizer": optimizer.state_dict(),#  "lr_scheduler": lr_scheduler.state_dict(),"epoch": epoch,"args": args}torch.save(save_vgg_file, 'checkpoints/fcn_model_Adam-StepLR_1e-2.pth')print(f"update checkpoints/fcn_model_Adam-StepLR_1e-2.pth")print(f"4--------------Current memory usage: {current_memory / (1024 ** 3):.4f} GB")

在这里插入图片描述
每个epoch训练完之后所占内存会不断增加，也就是说，每轮跑完之后会有冗余的数据一直在消耗内存。于是criterion、train_one_epoch、evaluate三个部分

criterion部分
Mem usage：5310 MiB 在这里插入图片描述 train_one_epoch部分
Mem usage：4439 MiB

evaluate部分
Mem usage：10644

在evaluate部分可以看到，所占用内存突然增大，并且之后的代码也占用了大量内存，继续监控得知在下一个epoch中criterion部分占用内存也是16064MiB，由此推测出内存消耗在evaluate部分。

解决办法：

删除变量数据在for循环外，把暂时不用的可视化代码注释掉，发现占用内存变化很小
在这里插入图片描述

解决pytorch训练时的显存占用递增的问题
Pytorch训练过程中，显存（内存）爆炸解决方法
Python代码优化工具——memory_profiler

pytorch内存泄漏

问题描述：

解决过程：

解决办法：

相关文章：

pytorch内存泄漏

20230821-字符串相乘-给树命名(unordered_map)

[Go版]算法通关村第十二关黄金——字符串冲刺题

neovim为工作区添加本地clangd配置

信号处理--基于EEG脑电信号的眼睛状态的分析

Redis高可用：主从复制详解

[Flutter]有的时候调用setState(() {})报错？

利用屏幕水印学习英语单词，无打扰英语单词学习

开学必备物品清单！这几款优先考虑！

聊聊调制解调器

Go语言入门指南：基础语法和常用特性(下)

【MFC常用问题记录】

ThreadLocal内存泄漏问题

微服务基础概念【内含图解】

Dockerfile创建 LNMP 服务+Wordpress 网站平台

消息中间件篇

基本定时器

MySQL 中文全文检索

Redis——list类型详解

npm 安装 git 仓库包

终极指南：5分钟免费解锁Cursor Pro全部功能的完整解决方案

Ninja构建系统实战：手写BUILD.ninja为你的Python/Go小工具加速

AI Agent配置安全实践：用Config-Guard为自动化变更加锁

Win11精简版系统缺失画图工具？三步教你从微软商店找回（附快速启动技巧）

插入排序，选择排序，希尔排序

learn claude code S11 自主 Agent 详解笔记

分形超材料实现电磁波绕障传输：原理、实验与射频应用

如何在Windows上快速安装iPhone网络共享驱动：3分钟终极解决方案

构建高效AI学习伙伴：从系统提示词到结构化交互设计

小米Agent岗二面：你们 RAG 知识库上线之后，文档更新了怎么办？