当前位置：首页 > news >正文

pytorch基于ray和accelerate实现多GPU数据并行的模型加速训练

news 2025/9/8 4:48:50

在pytorch的DDP原生代码使用的基础上，ray和accelerate两个库对于pytorch并行训练的代码使用做了更加友好的封装。

以下为极简的代码示例。

ray

ray.py

#coding=utf-8
import os
import sys
import time
import numpy as np
import torch
from torch import nn
import torch.utils.data as Data
import ray
from ray.train.torch import TorchTrainer
from ray.air.config import ScalingConfig
import onnxruntime# bellow code use AI model to simulate linear regression, formula is: y = x1 * w1 + x2 * w2 + b
# --- DDP RAY --- # # model structure
class LinearNet(nn.Module):def __init__(self, n_feature):super(LinearNet, self).__init__()self.linear = nn.Linear(n_feature, 1)def forward(self, x):y = self.linear(x)return y# whole train task
def train_task():print("--- train_task, pid: ", os.getpid())# device settingdevice = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")print("device:", device)device_ids = torch._utils._get_all_device_indices()print("device_ids:", device_ids)if len(device_ids) <= 0:print("invalid device_ids, exit")return# prepare datanum_inputs = 2num_examples = 1000true_w = [2, -3.5]true_b = 3.7features = torch.tensor(np.random.normal(0, 1, (num_examples, num_inputs)), dtype=torch.float)labels = true_w[0] * features[:, 0] + true_w[1] * features[:, 1] + true_b + torch.tensor(np.random.normal(0, 0.01, size=num_examples), dtype=torch.float)# load databatch_size = 10dataset = Data.TensorDataset(features, labels)data_iter = Data.DataLoader(dataset, batch_size, shuffle=True)for X, y in data_iter:print(X, y)breakdata_iter = ray.train.torch.prepare_data_loader(data_iter)# model define and initmodel = LinearNet(num_inputs)ddp_model = ray.train.torch.prepare_model(model)print(ddp_model)# cost functionloss = nn.MSELoss()# optimizeroptimizer = torch.optim.SGD(ddp_model.parameters(), lr=0.03)# trainnum_epochs = 6for epoch in range(1, num_epochs + 1):batch_count = 0sum_loss = 0.0for X, y in data_iter:output = ddp_model(X)l = loss(output, y.view(-1, 1))optimizer.zero_grad()l.backward()optimizer.step()batch_count += 1sum_loss += l.item()print('epoch %d, avg_loss: %f' % (epoch, sum_loss / batch_count))# save modelprint("save model, pid: ", os.getpid())torch.save(ddp_model.module.state_dict(), "ddp_ray_model.pt")def ray_launch_task():num_workers = 2scaling_config = ScalingConfig(num_workers=num_workers, use_gpu=True)trainer = TorchTrainer(train_loop_per_worker=train_task, scaling_config=scaling_config)results = trainer.fit()def predict_task():print("--- predict_task")# prepare datanum_inputs = 2num_examples = 20true_w = [2, -3.5]true_b = 3.7features = torch.tensor(np.random.normal(0, 1, (num_examples, num_inputs)), dtype=torch.float)labels = true_w[0] * features[:, 0] + true_w[1] * features[:, 1] + true_b + torch.tensor(np.random.normal(0, 0.01, size=num_examples), dtype=torch.float)model = LinearNet(num_inputs)model.load_state_dict(torch.load("ddp_ray_model.pt"))model.eval()x, y = features[6], labels[6]pred_y = model(x)print("x:", x)print("y:", y)print("pred_y:", y)if __name__ == "__main__":print("==== task begin ====")print("python version:", sys.version)print("torch version:", torch.__version__)print("model name:", LinearNet.__name__)ray_launch_task()# predict_task()print("==== task end ====")

accelerate

acc.py

#coding=utf-8
import os
import sys
import time
import numpy as np
from accelerate import Accelerator
import torch
from torch import nn
import torch.utils.data as Data
import onnxruntime# bellow code use AI model to simulate linear regression, formula is: y = x1 * w1 + x2 * w2 + b
# --- accelerate --- # # model structure
class LinearNet(nn.Module):def __init__(self, n_feature):super(LinearNet, self).__init__()self.linear = nn.Linear(n_feature, 1)def forward(self, x):y = self.linear(x)return y# whole train task
def train_task():print("--- train_task, pid: ", os.getpid())# device settingdevice = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")print("device:", device)device_ids = torch._utils._get_all_device_indices()print("device_ids:", device_ids)if len(device_ids) <= 0:print("invalid device_ids, exit")return# prepare datanum_inputs = 2num_examples = 1000true_w = [2, -3.5]true_b = 3.7features = torch.tensor(np.random.normal(0, 1, (num_examples, num_inputs)), dtype=torch.float)labels = true_w[0] * features[:, 0] + true_w[1] * features[:, 1] + true_b + torch.tensor(np.random.normal(0, 0.01, size=num_examples), dtype=torch.float)# load databatch_size = 10dataset = Data.TensorDataset(features, labels)data_iter = Data.DataLoader(dataset, batch_size, shuffle=True)for X, y in data_iter:print(X, y)break# model define and initmodel = LinearNet(num_inputs)# cost functionloss = nn.MSELoss()# optimizeroptimizer = torch.optim.SGD(model.parameters(), lr=0.03)accelerator = Accelerator()model, optimizer, data_iter = accelerator.prepare(model, optimizer, data_iter) # automatically move model and data to gpu as config# trainnum_epochs = 3for epoch in range(1, num_epochs + 1):batch_count = 0sum_loss = 0.0for X, y in data_iter:output = model(X)l = loss(output, y.view(-1, 1))optimizer.zero_grad()accelerator.backward(l)optimizer.step()batch_count += 1sum_loss += l.item()print('epoch %d, avg_loss: %f' % (epoch, sum_loss / batch_count))# save modeltorch.save(model, "acc_model.pt")def predict_task():print("--- predict_task")# prepare datanum_inputs = 2num_examples = 20true_w = [2, -3.5]true_b = 3.7features = torch.tensor(np.random.normal(0, 1, (num_examples, num_inputs)), dtype=torch.float)labels = true_w[0] * features[:, 0] + true_w[1] * features[:, 1] + true_b + torch.tensor(np.random.normal(0, 0.01, size=num_examples), dtype=torch.float)model = torch.load("acc_model.pt")model.eval()x, y = features[6], labels[6]pred_y = model(x)print("x:", x)print("y:", y)print("pred_y:", y)if __name__ == "__main__":# launch method: use command line# for example# accelerate launch ACC.py print("python version:", sys.version)print("torch version:", torch.__version__)print("model name:", LinearNet.__name__)train_task()predict_task()print("==== task end ====")

pytorch基于ray和accelerate实现多GPU数据并行的模型加速训练

在pytorch的DDP原生代码使用的基础上，ray和accelerate两个库对于pytorch并行训练的代码使用做了更加友好的封装。以下为极简的代码示例。 ray ray.py #codingutf-8 import os import sys import time import numpy as np import torch from torch import nn im…...

编程日记 2023/8/25 0:02:55

[蓝帽杯 2022 初赛]domainhacker

打开流量包，追踪TCP流，看到一串url编码放到瑞士军刀里面解密最下面这一串会觉得像base64编码删掉前面两个字符就可以base64解码依次类推，提取到第13个流，得到一串编码其中里面有密码导出http对象发现最后有个1.rar文件不出…...

编程日记 2023/8/25 0:01:53

在 Pytorch 中使用 TensorBoard

机器学习的训练过程中会产生各类数据，包括 “标量scalar”、“图像image”、“统计图diagram”、“视频video”、“音频audio”、“文本text”、“嵌入Embedding” 等等。为了更好地追踪和分析这些数据，许多可视化工具应运而生，比如之前介绍的…...

编程日记 2023/8/25 0:00:52

Grafana Dashboard 备份方案

文章目录 Grafana Dashboard 备份方案引言工具简介支持的组件要求配置备份安装使用 pypi 安装grafana备份工具配置环境变量使用Grafana Backup Tool 进行备份恢复备份 Grafana Dashboard恢复 Grafana Dashboard结论Grafana Dashboard 备份方案引言每个使用 Grafana 的同学都…...

编程日记 2023/8/24 23:59:51

#导入工具包 from scipy.spatial import distance as dist from collections import OrderedDict import numpy as np import argparse import time import dlib import cv2FACIAL_LANDMARKS_68_IDXS OrderedDict([("mouth", (48, 68)),("right_eyebrow",…...

编程日记 2023/8/24 23:58:50

2023-08-24力扣每日一题

链接： 1267. 统计参与通信的服务器题意： 同行同列可以发生通信，求能发生通信的机器数量解： 标记每行/每列的机器个数即可实际代码： #include<bits/stdc.h> using namespace std; class Solution { pub…...

编程日记 2023/8/24 23:57:48

蚂蚁数科持续发力PaaS领域，SOFAStack布局全栈软件供应链安全产品

8月18日，记者了解到，蚂蚁数科再度加码云原生PaaS领域，SOFAStack率先完成全栈软件供应链安全产品及解决方案的布局，包括静态代码扫描Pinpoint、软件成分分析SCA、交互式安全测试IAST、运行时防护RASP、安全洞察Appinsight等&#x…...

编程日记 2023/8/24 23:56:47

Java后端开发面试题——消息中间篇

RabbitMQ-如何保证消息不丢失交换机持久化： Bean public DirectExchange simpleExchange(){// 三个参数：交换机名称、是否持久化、当没有queue与其绑定时是否自动删除 return new DirectExchange("simple.direct", true, false); }队列持久化…...

编程日记 2023/8/24 23:55:41

C++ Windows API IsDebuggerPresent的作用

IsDebuggerPresent 是 Windows API 中的一个函数，它用于检测当前运行的程序是否正在被调试。当程序被如 Visual Studio 这样的调试器附加时，此函数会返回 TRUE；否则，它会返回 FALSE。这个函数经常被用在一些安全相关的场景或是防…...

编程日记 2023/8/24 23:54:39

【JVM 内存结构 | 程序计数器】

内存结构前言简介程序计数器定义作用特点示例应用场景主页传送门：📀 传送前言 Java 虚拟机的内存空间由堆、栈、方法区、程序计数器和本地方法栈五部分组成。简介 JVM（Java Virtual Machine）内存结构包括以下几个部分&#…...

编程日记 2023/8/24 23:53:38

华为云Stack的学习（一）

一、华为云Stack架构 1.HCS 物理分散、逻辑统一、业务驱动、运管协同、业务感知 2.华为云Stack的特点可靠性包括整体可靠性、数据可靠性和单一设备可靠性。通过云平台的分布式架构，从整体系统上提高可靠性，降低系统对单设备可靠性的要求。可用性…...

编程日记 2023/8/24 23:52:38

人类反馈强化学习RLHF；微软应用商店推出AI摘要功能

🦉 AI新闻 🚀 微软应用商店推出AI摘要功能，快速总结用户对App的评价摘要：微软应用商店正式推出了AI摘要功能，该功能能够将数千条在线评论总结成一段精练的文字，为用户选择和下载新应用和游戏提供参考。该…...

编程日记 2023/8/24 23:51:35

day1:前端缓存问题

❝ 「目标」: 持续输出！每日分享关于web前端常见知识、面试题、性能优化、新技术等方面的内容。篇幅不会过长，方便理解和记忆。 ❞ ❝ 「主要面向群体：」前端开发工程师（初、中、高级）、应届、转行、培训等同学 ❞ Day…...

编程日记 2023/8/24 23:50:33

学习网络编程No.4【socket编程实战】

引言北京时间：2023/8/19/23:01，耍了好几天，主要归咎于《我欲封天》这本小说，听了几个晚上之后逐渐入门，在闲暇时间又看了一下，小高潮直接来临，最终在三个昼夜下追完了，哈哈哈&…...

编程日记 2023/8/24 23:49:31

HarmonyOS学习路之方舟开发框架—学习ArkTS语言（状态管理四）

Observed装饰器和ObjectLink装饰器：嵌套类对象属性变化上文所述的装饰器仅能观察到第一层的变化，但是在实际应用开发中，应用会根据开发需要，封装自己的数据模型。对于多层嵌套的情况，比如二维数组，或者数…...

编程日记 2023/8/24 23:48:29

arcgis--坐标系

1、arcgis中，投影坐标系的y坐标一定是7位数，X坐标有两种：6位和8位。 6位：省略带号，这是中央经线形式的投影坐标，一般投影坐标中会带CM字样；8位：包括带号，一般投影坐标中…...

编程日记 2023/8/24 23:47:27

LFS学习系列第5章. 编译交叉工具链（1）

5.1 介绍本章介绍如何构建交叉编译器及其相关工具。尽管这里的交叉编译是“伪造”、“假装”的，但其原理与真正的交叉工具链相同。本章中编译的程序将安装在$LFS/tools目录下，以使它们与以下章节中安装的文件分离。而另一方面，库被安装到…...

编程日记 2023/8/24 23:46:26

网络互联与互联网 - TCP 协议详解

文章目录 1 概述2 TCP 传输控制协议2.1 报文格式2.2 三次握手，建立连接2.3 四次挥手，释放连接 3 扩展3.1 实验演示3.2 网工软考 1 概述在 TCP/IP 协议簇中有两个传输协议 TCP：Transmission Control Protocol，传输控制协议&…...

编程日记 2023/8/24 23:45:25

开源在线图片设计器，支持PSD解析、AI抠图等，基于Puppeteer生成图片

Github 开源地址: palxiao/poster-design 项目速览 git clone https://github.com/palxiao/poster-design.git cd poster-design npm run prepared # 快捷安装依赖指令 npm run serve # 本地运行将同时运行前端界面与图片生成服务(3000与7001端口)，合成图片时…...

编程日记 2023/8/24 23:44:23

在Linux系统上安装和配置Redis数据库，无需公网IP即可实现远程连接的详细解析

文章目录 1. Linux(centos8)安装redis数据库2. 配置redis数据库3. 内网穿透3.1 安装cpolar内网穿透3.2 创建隧道映射本地端口 4. 配置固定TCP端口地址4.1 保留一个固定tcp地址4.2 配置固定TCP地址4.3 使用固定的tcp地址连接 Redis作为一款高速缓存的key value键值对的数据库,在…...

编程日记 2023/8/24 23:43:22

YSYX学习记录（八）

C语言，练习0： 先创建一个文件夹，我用的是物理机： 安装build-essential 练习1： 我注释掉了 #include <stdio.h> 出现下面错误在你的文本编辑器中打开ex1文件，随机修改或删除一部分，之后…...

编程新知 2025/8/22 4:16:32

蓝桥杯 2024 15届国赛 A组儿童节快乐

P10576 [蓝桥杯 2024 国 A] 儿童节快乐题目描述五彩斑斓的气球在蓝天下悠然飘荡，轻快的音乐在耳边持续回荡，小朋友们手牵着手一同畅快欢笑。在这样一片安乐祥和的氛围下，六一来了。今天是六一儿童节，小蓝老师为了让大家在节…...

编程新知 2025/8/8 10:09:48

1.3 VSCode安装与环境配置

进入网址Visual Studio Code - Code Editing. Redefined下载.deb文件，然后打开终端，进入下载文件夹，键入命令 sudo dpkg -i code_1.100.3-1748872405_amd64.deb 在终端键入命令code即启动vscode 需要安装插件列表 1.Chinese简化 2.ros …...

编程新知 2025/8/25 22:27:27