当前位置：首页 > news >正文

Pytorch使用教程(12)-如何进行并行训练？

news 2026/6/4 12:44:34

在使用GPU训练大模型时，往往会面临单卡显存不足的情况。这时，通过多卡并行的形式来扩大显存是一个有效的解决方案。PyTorch主要提供了两个类来实现多卡并行：数据并行torch.nn.DataParallel（DP）和模型并行torch.nn.DistributedDataParallel（DDP）。本文将详细介绍这两种方法。

一、数据并行（torch.nn.DataParallel）

基本原理
数据并行是一种简单的多GPU并行训练方式。它通过多线程的方式，将输入数据分割成多个部分，每个部分在不同的GPU上并行处理，最后将所有GPU的输出结果汇总，计算损失和梯度，更新模型参数。
使用方法
使用torch.nn.DataParallel非常简单，只需要一行代码就可以实现。以下是一个示例：

import torch
import torch.nn as nn# 检查是否有多个GPU可用
if torch.cuda.device_count() > 1:print("Let's use", torch.cuda.device_count(), "GPUs!")# 将模型转换为DataParallel对象model = nn.DataParallel(model, device_ids=range(torch.cuda.device_count()))

优缺点
‌优点‌：代码简单，易于使用，对小白比较友好。
‌缺点‌：GPU会出现负载不均衡的问题，一个GPU可能占用了大部分负载，而其他GPU却负载较轻，导致显存使用不平衡。

二、模型并行（torch.nn.DistributedDataParallel）

基本原理
torch.nn.DistributedDataParallel（DDP）是一种真正的多进程并行训练方式。每个进程对应一个独立的训练过程，且只对梯度等少量数据进行信息交换。每个进程包含独立的解释器和GIL（全局解释器锁），因此可以充分利用多GPU的优势，实现更高效的并行训练。
使用方法

使用torch.nn.DistributedDataParallel需要进行一些额外的配置，包括初始化GPU通信方式、设置随机种子点、使用DistributedSampler分配数据等。以下是一个详细的示例：

初始化环境

import torch
import torch.distributed as dist
import argparsedef parse():parser = argparse.ArgumentParser()parser.add_argument('--local_rank', type=int, default=0)args = parser.parse_args()return argsdef main():args = parse()torch.cuda.set_device(args.local_rank)dist.init_process_group('nccl', init_method='env://')device = torch.device(f'cuda:{args.local_rank}')

设置随机种子点

import numpy as np# 固定随机种子点
seed = np.random.randint(1, 10000)
np.random.seed(seed)
torch.manual_seed(seed)
torch.cuda.manual_seed_all(seed)使用DistributedSampler分配数据
python
Copy Code
from torch.utils.data.distributed import DistributedSamplertrain_dataset = ...  # 你的数据集
train_sampler = DistributedSampler(train_dataset, shuffle=True)
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=opts.batch_size, sampler=train_sampler
)

初始化模型

model = mymodel().to(device)
model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[args.local_rank])训练循环
python
Copy Code
optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9)
criterion = nn.CrossEntropyLoss()for ep in range(total_epoch):train_sampler.set_epoch(ep)for inputs, labels in train_loader:inputs, labels = inputs.to(device), labels.to(device)optimizer.zero_grad()outputs = model(inputs)loss = criterion(outputs, labels)loss.backward()optimizer.step()

优缺点

优点‌：每个进程对应一个独立的训练过程，显存使用更均衡，性能更优。
缺点‌：代码相对复杂，需要进行一些额外的配置。

三、对比与选择

对比

特点	torch.nn.DataParallel	torch.nn.DistributedDataParallel
并行方式	多线程	多进程
显存使用	可能不均衡	更均衡
性能	一般	更优
代码复杂度	简单	复杂

选择建议

对于初学者或快速实验，可以选择torch.nn.DataParallel，因为它代码简单，易于使用。
对于需要高效并行训练的场景，建议选择torch.nn.DistributedDataParallel，因为它可以充分利用多GPU的优势，实现更高效的训练。

四、小结

通过本文的介绍，相信读者已经对PyTorch的多GPU并行训练有了更深入的了解。在实际应用中，可以根据模型的复杂性和数据的大小选择合适的并行训练方式，并调整batch size和学习率等参数以优化模型的性能。希望这篇文章能帮助你掌握PyTorch的多GPU并行训练技术。

Pytorch使用教程(12)-如何进行并行训练？

一、数据并行（torch.nn.DataParallel）

二、模型并行（torch.nn.DistributedDataParallel）

三、对比与选择

四、小结

相关文章：

Pytorch使用教程(12)-如何进行并行训练？

指针之旅：从基础到进阶的全面讲解

FPGA与ASIC：深度解析与职业选择

PostgreSQL 中进行数据导入和导出

SDL2基本的绘制流程与步骤

面试-业务逻辑2

HTML之拜年/跨年APP（改进版）

嵌入式硬件篇---ADC模拟-数字转换

每打开一个chrome页面都会【自动打开F12开发者模式】，原因是使用HBuilderX会影响谷歌浏览器的浏览模式

Access数据库教案（Excel+VBA+Access数据库SQL Server编程）

09、PT工具用法

华为OD机试E卷 --矩形相交的面积--24年OD统一考试（Java JS Python C C++）

C++ 内存分配和管理（八股总结）

如何使用 JSONP 实现跨域请求？

【机器学习实战入门】基于深度学习的乳腺癌分类

Flowable 管理各业务流程：流程设计器 (获取流程模型 XML)、流程部署、启动流程、流程审批、流程挂起和激活、任务分配

Kafka 日志存储 — 日志索引

【大模型】ChatGPT 高效处理图片技巧使用详解

OceanBase 社区年度之星专访：北控水务纪晓东，社区铁杆开发者

Docker 实现MySQL 主从复制

Claude in Excel：原生集成的AI表格协作者

用数字逻辑门复刻柏林钟：从二进制编码到硬件实现

我靠这个测试设计方法，把漏测率降低了80%

Gofile批量下载自动化工具：5步实现高效文件管理解决方案

Sangfor文件夹可以删除吗？【图文讲解】深信服文件夹残留清理？如何彻底删除深信服？Sangfor文件夹是什么？

Postgresql基础实践教程（九）

简单学习 --＞ SSE

别再手动测模型了！用Simulink Test Manager实现自动化测试（附Excel表格配置详解）

深度解析：UI-TARS视觉语言模型驱动的自动化操作框架核心技术架构

模式分层预测驱动推断：处理复杂缺失数据的统计新框架