当前位置：首页 > news >正文

Pytorch单机多卡分布式训练

news 2025/10/31 0:00:52

Pytorch单机多卡分布式训练

数据并行：

DP和DDP

这两个都是pytorch下实现多GPU训练的库，DP是pytorch以前实现的库，现在官方更推荐使用DDP，即使是单机训练也比DP快。

DataParallel（DP）
- 只支持单进程多线程，单一机器上进行训练。
- 模型训练开始的时候，先把模型复制到四个GPU上面，然后把数据分配给四个GPU进行前向传播，前向传播之后再汇总到卡0上面，然后在卡0上进行反向传播，参数更新，再将更新好的模型复制到其他几张卡上。
DistributedDataParallel（DDP）
- 支持多线程多进程，单一或者多个机器上进行训练。通常DDP比DP要快。
- 先把模型载入到四张卡上，每个GPU上都分配一些小批量的数据，再进行前向传播，反向传播，计算完梯度之后再把所有卡上的梯度汇聚到卡0上面，卡0算完梯度的平均值之后广播给所有的卡，所有的卡更新自己的模型，这样传输的数据量会少很多。

DDP代码写法

初始化

import torch.distributed as dist
import torch.utils.data.distributed# 进行初始化，backend表示通信方式，可选择的有nccl（英伟达的GPU2GPU的通信库，适用于具有英伟达GPU的分布式训练）、gloo（基于tcp/ip的后端，可在不同机器之间进行通信，通常适用于不具备英伟达GPU的环境）、mpi（适用于支持mpi集群的环境）
# init_method: 告知每个进程如何发现彼此，默认使用env://
dist.init_process_group(backend='nccl', init_method="env://")

设置device

device = torch.device(f'cuda:{args.local_rank}')	# 设置device，local_rank表示当前机器的进程号，该方式为每个显卡一个进程
torch.cuda.set_device(device)	# 设定device

创建dataloader之前要加一个sampler

trans = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (1.0,))])
data_set = torchvision.datasets.MNIST("./", train=True, transform=trans, target_transform=None, download=True)
train_sampler = torch.utils.data.distributed.DistributedSampler(data_set)	# 加一个sampler
data_loader_train = torch.utils.data.DataLoader(dataset=data_set, batch_size=256, sampler=train_sampler)

torch.nn.parallel.DistributedDataParallel包裹模型（先to(device)再包裹模型）

net = torchvision.models.resnet101(num_classes=10)
net.conv1 = torch.nn.Conv2d(1, 64, (7, 7), (2, 2), (3, 3), bias=False)
net = net.to(device)
net = torch.nn.parallel.DistributedDataParallel(net, device_ids=[device], output_device=[device])	# 包裹模型

真正训练之前要set_epoch()，否则将不会shuffer数据

for epoch in range(10):train_sampler.set_epoch(epoch)		# set_epochfor step, data in enumerate(data_loader_train):images, labels = dataimages, labels = images.to(device), labels.to(device)opt.zero_grad()outputs = net(images)loss = criterion(outputs, labels)loss.backward()opt.step()if step % 10 == 0:print("loss: {}".format(loss.item()))

模型保存

if args.local_rank == 0:		# local_rank为0表示master进程torch.save(net, "my_net.pth")

运行

if __name__ == "__main__":parser = argparse.ArgumentParser()# local_rank参数是必须的，运行的时候不必自己指定，DDP会自行提供parser.add_argument("--local_rank", type=int, default=0)args = parser.parse_args()main(args)

运行命令

python -m torch.distributed.launch --nproc_per_node=2 多卡训练.py	# --nproc_per_node=2表示当前机器上有两个GPU可以使用

完整代码

import os
import argparse
import torch
import torchvision
import torch.distributed as dist
import torch.utils.data.distributedfrom torchvision import transforms
from torch.multiprocessing import Processdef main(args):# nccl: 后端基于NVIDIA的GPU-to-GPU通信库，适用于具有NVIDIA GPU的分布式训练# gloo: 后端是一个基于TCP/IP的后端，可在不同机器之间进行通信，通常适用于不具备NVIDIA GPU的环境。# mpi： 后端使用MPI实现，适用于具备MPI支持的集群环境。# init_method: 告知每个进程如何发现彼此，如何使用通信后端初始化和验证进程组。 默认情况下，如果未指定 init_method，PyTorch 将使用环境变量初始化方法 (env://)。dist.init_process_group(backend='nccl', init_method="env://") # nccl比较推荐device = torch.device(f'cuda:{args.local_rank}')torch.cuda.set_device(device)trans = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (1.0,))])data_set = torchvision.datasets.MNIST("./", train=True, transform=trans, target_transform=None, download=True)train_sampler = torch.utils.data.distributed.DistributedSampler(data_set)data_loader_train = torch.utils.data.DataLoader(dataset=data_set, batch_size=256, sampler=train_sampler)net = torchvision.models.resnet101(num_classes=10)net.conv1 = torch.nn.Conv2d(1, 64, (7, 7), (2, 2), (3, 3), bias=False)net = net.to(device)net = torch.nn.parallel.DistributedDataParallel(net, device_ids=[device], output_device=[device])criterion = torch.nn.CrossEntropyLoss()opt = torch.optim.Adam(params=net.parameters(), lr=0.001)for epoch in range(10):train_sampler.set_epoch(epoch)for step, data in enumerate(data_loader_train):images, labels = dataimages, labels = images.to(device), labels.to(device)opt.zero_grad()outputs = net(images)loss = criterion(outputs, labels)loss.backward()opt.step()if step % 10 == 0:print("loss: {}".format(loss.item()))if args.local_rank == 0:torch.save(net, "my_net.pth")if __name__ == "__main__":parser = argparse.ArgumentParser()# must parse the command-line argument: ``--local_rank=LOCAL_PROCESS_RANK``, which will be provided by DDPparser.add_argument("--local_rank", type=int, default=0)args = parser.parse_args()main(args)

参考：

https://zhuanlan.zhihu.com/p/594046884
https://zhuanlan.zhihu.com/p/358974461

Pytorch单机多卡分布式训练

Pytorch单机多卡分布式训练数据并行： DP和DDP 这两个都是pytorch下实现多GPU训练的库，DP是pytorch以前实现的库，现在官方更推荐使用DDP，即使是单机训练也比DP快。 DataParallel（DP） 只支持单进程多线程…...

编程日记 2023/10/2 19:44:53

asp.net coremvc+efcore增删改查

下面是一个使用 EF Core 在 ASP.NET Core MVC 中完成增删改查的示例： 创建一个新的 ASP.NET Core MVC 项目。安装 EF Core 相关的 NuGet 包。在项目文件 (.csproj) 中添加以下依赖项： <ItemGroup><PackageReference Include"Microsoft…...

编程日记 2023/10/2 19:43:52

Java基础面试,什么是面向对象，谈谈你对面向对象的理解

前言马上就要找工作了，从今天开始一天准备1~2道面试题，来打基础，就从Java基础开始吧。什么是面向对象，谈谈你对面向对象的理解？ 谈到面向对象，那就不得不谈到面向过程。面向过程更加注重的是完成一个任…...

编程日记 2023/10/2 19:42:51

Ubuntu系统初始设置

更换国内源安装截图工具安装中文输入法安装QQ 参考： 安装双系统win10Ubuntu20.04LTS（详细到我自己都害怕） 引导方式磁盘分区方法UEFIGPTLegancyMBR 安装网络助手 sudo apt install net-tools 安装VS Code 使用从官网下载.deb安装包…...

编程日记 2023/10/2 19:39:48

焕新古文化传承之路，AI为古彝文识别赋能

目录 1 古彝文与古典保护 2 古文识别的挑战 2.1 西文与汉文OCR 2.2 古彝文识别难点 3 合合信息：古彝文保护新思路 3.1 图像矫正 3.2 图像增强 3.3 语义理解 3.4 工程技巧 4 总结 1 古彝文与古典保护彝文指的是云南、贵州、四川等地的彝族人使用的文字&am…...

编程日记 2023/10/2 19:37:47

毛玻璃动画交互效果

效果展示页面结构组成从上述的效果展示页面结构来看，页面布局都是比较简单的，只是元素的动画交互比较麻烦。第一个动画交互是两个圆相互交错来回运动。第二个动画交互是三角绕着圆进行 360 度旋转。 CSS 知识点 animationanimation-delay绝对定位…...

编程日记 2023/10/2 19:36:45

Audio2Face的工作原理

预加载一个3D数字人物模型(Digital Mark),该模型可以通过音频驱动进行面部动画。用户上传音频文件作为输入。将音频输入馈送到预训练的深度神经网络中。 Audio2Face加载预制的3d人头mesh 3D数字人物面部模型由大量顶点组成,每个顶点都有xyz坐标。深度神经网络输入音频特征,…...

编程日记 2023/10/2 19:35:44

【面试题】2023前端面试真题之JS篇

前端面试题库 （面试必备） 推荐：★★★★★ 地址：前端面试题库表妹一键制作自己的五星红旗国庆头像，超好看世界上只有一种真正的英雄主义，那就是看清生活的真相之后，依然热爱生活。…...

编程日记 2023/10/2 19:34:44

Mysql 分布式序列算法

接上文 Mysql分库分表 1.分布式序列简介在分布式系统下，怎么保证ID的生成满足以上需求？ ShardingJDBC支持以上两种算法自动生成ID。这里，使用ShardingJDBC让主键ID以雪花算法进行生成，首先配置数据库，因为默认的注…...

编程日记 2023/10/2 19:31:40

Windows/Linux双系统卸载Ubuntu

参考：双系统下完全卸载ubuntu...

编程日记 2023/10/2 19:30:40

asp.net core mvc 视图组件viewComponents

ASP.NET Core MVC 视图组件（View Components）是一种可重用的 UI 组件，用于在视图中呈现某些特定的功能块，例如导航菜单、侧边栏、用户信息等。视图组件提供了一种将视图逻辑与控制器解耦的方式，使视图能够更加灵活、可…...

编程日记 2023/10/2 19:26:36

如何保持终身学习

文章目录 2.1. 了解你的大脑2.2 学习是对神经元网络的塑造2.3 大脑的一生 3.学习的心里基础3.1 固定思维与成长思维3.2 我们为什么要学习 4. 学习路径4.1 构建知识模块4.2 大脑是如何使用注意力的4.3 提高专注力4.4 放松一下，学的更好4.5 巩固你的学习痕迹4.6 被动学…...

编程日记 2023/10/2 19:25:35

【RV1103】RTL8723bs (SD卡形状模块)驱动开发

文章目录前言硬件分析Luckfox Pico的SD卡接口硬件原理图LicheePi zero WiFiBT模块总结正文Kernel WiFi驱动支持Kernel 设备树支持修改一：修改二： SDK全局配置支持 wifi全局编译脚本支持编译逻辑拷贝rtl8723bs的固件到文件系统的固定目录里面去上电后手…...

编程日记 2023/10/2 19:24:33

LeetCode 周赛上分之旅 #49 再探内向基环树

⭐️ 本文已收录到 AndroidFamily，技术和职场问题，请关注公众号 [彭旭锐] 和 BaguTree Pro 知识星球提问。学习数据结构与算法的关键在于掌握问题背后的算法思维框架，你的思考越抽象，它能覆盖的问题域就越广，理解难度…...

编程日记 2023/10/2 19:23:32

kubernetes-v1.23.3 部署 kafka_2.12-2.3.0

文章目录 [toc]构建 debian 基础镜像部署 zookeeper配置 namespace配置 gfs 的 endpoints配置 pv 和 pvc配置 configmap配置 service配置 statefulset 部署 kafka配置 configmap配置 service配置 statefulset 这里采用的部署方式如下： 使用自定义的 debian 镜像作为…...

编程日记 2023/10/2 19:22:31

位置编码器

目录 1、位置编码器的作用 2、代码演示 （1）、使用unsqueeze扩展维度 （2）、使用squeeze降维 （3）、显示张量维度 （4）、随机失活张量中的数值 3、定义位置编码器类，我…...

编程日记 2023/10/2 19:20:29

Lua多脚本执行

--全局变量 a 1 b "123"for i 1,2 doc "Holens" endprint(c) print("*************************************1")--本地变量（局部变量） for i 1,2 dolocal d "Holens2"print(d) end print(d)function F1( ..…...

编程日记 2023/10/2 19:19:28

Spirng Cloud Alibaba Nacos注册中心的使用 (环境隔离、服务分级存储模型、权重配置、临时实例与持久实例)

文章目录一、环境隔离1. Namespace（命名空间）：2. Group（分组）：3. Services（服务）：4. DataId（数据ID）：5. 实战演示：5.1 默…...

编程日记 2023/10/2 19:18:27

26663-2011 大型液压安全联轴器课堂随笔

声明本文是学习GB-T 26663-2011 大型液压安全联轴器. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 1 范围本标准规定了大型液压安全联轴器的分类、技术要求、试验方法及检验规则等。本标准适用于联接两同轴线的传动轴系，可起到限制…...

编程日记 2023/10/2 19:16:25

ChatGPT架构师：语言大模型的多模态能力、幻觉与研究经验

来源 | The Robot Brains Podcast OneFlow编译翻译｜宛子琳、杨婷 9月26日，OpenAI宣布ChatGPT新增了图片识别和语音能力，使得ChatGPT不仅可以进行文字交流，还可以给它展示图片并进行互动，这是一次ChatGPT向多模态进化的…...

编程日记 2023/10/2 19:15:24

华为云AI开发平台ModelArts

华为云ModelArts：重塑AI开发流程的“智能引擎”与“创新加速器”！ 在人工智能浪潮席卷全球的2025年，企业拥抱AI的意愿空前高涨，但技术门槛高、流程复杂、资源投入巨大的现实，却让许多创新构想止步于实验室。数据科学家…...

编程新知 2025/10/30 10:46:29

C++_核心编程_多态案例二-制作饮品

#include <iostream> #include <string> using namespace std;/*制作饮品的大致流程为：煮水 - 冲泡 - 倒入杯中 - 加入辅料利用多态技术实现本案例，提供抽象制作饮品基类，提供子类制作咖啡和茶叶*//*基类*/ class AbstractDr…...

编程新知 2025/10/28 17:51:39

华硕a豆14 Air香氛版，美学与科技的馨香融合

在快节奏的现代生活中，我们渴望一个能激发创想、愉悦感官的工作与生活伙伴，它不仅是冰冷的科技工具，更能触动我们内心深处的细腻情感。正是在这样的期许下，华硕a豆14 Air香氛版翩然而至，它以一种前所未有的方式&#x…...

编程新知 2025/10/24 11:54:49

springboot整合VUE之在线教育管理系统简介

可以学习到的技能学会常用技术栈的使用独立开发项目学会前端的开发流程学会后端的开发流程学会数据库的设计学会前后端接口调用方式学会多模块之间的关联学会数据的处理适用人群在校学生，小白用户，想学习知识的有点基础，想要通过项…...

编程新知 2025/10/26 17:42:47

js 设置3秒后执行

如何在JavaScript中延迟3秒执行操作在JavaScript中，要设置一个操作在指定延迟后（例如3秒）执行，可以使用 setTimeout 函数。setTimeout 是JavaScript的核心计时器方法，它接受两个参数： 要执行的函数&…...

编程新知 2025/10/1 20:54:35

LUA+Reids实现库存秒杀预扣减记录流水以及自己的思考

目录 lua脚本记录流水记录流水的作用流水什么时候删除我们在做库存扣减的时候，显示基于Lua脚本和Redis实现的预扣减这样可以在秒杀扣减的时候保证操作的原子性和高效性 lua脚本 // ... 已有代码 ...Overridepublic InventoryResponse decrease(Inventor…...

编程新知 2025/9/24 10:06:05

Axure零基础跟我学：展开与收回

亲爱的小伙伴，如有帮助请订阅专栏！跟着老师每课一练，系统学习Axure交互设计课程！ Axure产品经理精品视频课https://edu.csdn.net/course/detail/40420 课程主题：Axure菜单展开与收回课程视频：...

编程新知 2025/10/25 12:37:27

uniapp获取当前位置和经纬度信息

1.1. 获取当前位置和经纬度信息（需要配置高的SDK） 调用uni-app官方API中的uni.chooseLocation()，即打开地图选择位置。 <button click"getAddress">获取定位</button> const getAddress () > {uni.chooseLocatio…...

编程新知 2025/10/20 6:38:16

在MobaXterm 打开图形工具firefox

目录 1.安装 X 服务器软件 2.服务器端配置 3.客户端配置 4.安装并打开 Firefox 1.安装 X 服务器软件 Centos系统 # CentOS/RHEL 7 及之前（YUM） sudo yum install xorg-x11-server-Xorg xorg-x11-xinit xorg-x11-utils mesa-libEGL mesa-libGL mesa-…...

编程新知 2025/10/25 20:24:37

【QT】qtdesigner中将控件提升为自定义控件后，css设置样式不生效（已解决，图文详情）

目录 0.背景 1.解决思路 2.详细代码 0.背景实际项目中遇到的问题，描述如下： 我在qtdesigner用界面拖了一个QTableView控件，object name为【tableView_electrode】，然后【提升为】了自定义的类【Steer_Electrode_Table】&…...

编程新知 2025/10/23 3:36:45

Pytorch单机多卡分布式训练

数据并行：

DP和DDP

DDP代码写法

完整代码

参考：

相关文章：