当前位置: 首页 > article >正文

【知识】torchrun 与 torch.multiprocessing.spawn 的对比

转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn]

如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~

来自ChatGPT、DeepSeek

有点干,可仅做了解。

torchruntorch.multiprocessing.spawn 都是在 PyTorch 中用于并行化和分布式训练的工具,但它们在使用场景和实现方式上有所不同。

1. 用途和功能

  • torchrun:

    • 主要用于分布式训练,特别是在多机或多卡训练时。
    • torchrun 是 PyTorch 提供的一个命令行工具,它自动启动分布式训练环境并启动多个进程。通常用于在多个节点(例如,多个GPU或多个机器)上启动并行训练。
    • 它是 torch.distributed.launch 的替代品,提供更简洁的配置和更好的支持。
  • torch.multiprocessing.spawn:

    • 是一个 Python API,用于在单个机器(或单个进程)上启动多个子进程。这些子进程通常是用于在每个进程上运行不同的模型副本或进行数据并行。
    • spawn 是在单机多卡(multi-GPU)环境下进行训练时常用的工具,特别适用于分布式数据并行(torch.nn.DataParalleltorch.nn.parallel.DistributedDataParallel)。
    • 它允许你控制每个进程的启动,并且能确保每个进程有独立的 GPU 资源。

2. 实现方式

torchrun:

  • 它基于 torch.distributed,通常通过传递命令行参数来配置分布式环境。你只需指定 GPU 数量、节点数量、主节点等配置。
  • 它会自动配置并启动各个训练进程,并且处理进程间的通信
  • 命令行调用的示例:
# script.py
import torch
import torch.distributed as distdef main():dist.init_process_group(backend="nccl")rank = dist.get_rank()# 训练逻辑if __name__ == "__main__":main()
torchrun --nnodes=1 --nproc_per_node=8 --rdzv_id=1234 --rdzv_backend=c10d --master_addr="localhost" --master_port=29500 script.py

torch.multiprocessing.spawn:

  • 通过 Python 代码调用,每个进程都是通过 multiprocessing.spawn API 启动的。每个子进程可以执行不同的任务。
  • 它通常用来启动多个进程,并在每个进程上执行模型训练代码,能够在单机环境下利用多个 GPU。
  • 代码示例:
import torch
import torch.distributed as dist
from torch.multiprocessing import spawndef train_fn(rank, world_size, args):dist.init_process_group(backend="nccl",init_method="env://",world_size=world_size,rank=rank)# 训练逻辑if __name__ == "__main__":world_size = 4spawn(train_fn, args=(world_size, {}), nprocs=world_size)

3. 进程间通信

  • torchrun:

    • 自动设置进程间的通信和同步。它是基于 NCCL(NVIDIA Collective Communications Library)或 Gloo 进行通信,适合大规模分布式训练。
  • torch.multiprocessing.spawn:

    • 你需要手动设置通信(如使用 torch.nn.parallel.DistributedDataParalleltorch.distributed 来进行多进程间的数据同步和梯度更新)。
    • 更加灵活,但也需要开发者更细致的配置。

4. 跨节点支持

  • torchrun:

    • 支持跨节点训练,可以设置多个机器上的进程,适合大规模多机训练
  • torch.multiprocessing.spawn:

    • 通常用于单机多卡训练,不直接支持跨节点训练,更多的是集中在本地多个 GPU 上。

5. 效率影响

在 PyTorch 分布式训练中,torchrun 和 torch.multiprocessing.spawn 的底层通信机制(如 NCCL、Gloo)是相同的,因此两者的训练效率(如单步迭代速度)在理想配置下通常不会有显著差异。然而,它们的设计差异可能间接影响实际训练效率,尤其是在环境配置、资源管理和容错机制上。

1. 效率核心因素:无本质差异

  • 通信后端相同:无论是 torchrun 还是 spawn,底层均依赖 PyTorch 的分布式通信库(如 NCCL、Gloo),数据传输效率由后端实现决定,与启动工具无关。

  • 计算逻辑一致:模型前向传播、反向传播的计算逻辑完全由用户代码控制,与启动工具无关。

2. 间接影响效率的场景

场景 1:环境初始化效率

  • torch.multiprocessing.spawn

    • 需要手动初始化分布式环境(如 init_process_group),若配置错误(如端口冲突、IP 错误)可能导致进程启动延迟或失败。

    • 单机多卡场景下简单直接,但多机场景需手动同步 MASTER_ADDR 和 MASTER_PORT,易出错且耗时。

  • torchrun

    • 自动设置环境变量(如 RANKWORLD_SIZEMASTER_ADDR 等),减少配置错误风险。

    • 在多机训练中,通过参数(如 --nnodes--node_rank)快速配置,显著降低初始化时间。

结论torchrun 在复杂环境(多机)下初始化更高效,减少人为错误导致的延迟。


场景 2:资源管理与进程调度

  • torch.multiprocessing.spawn

    • 父进程直接管理子进程,若某个子进程崩溃,整个训练任务会直接终止(无容错)。

    • 资源分配完全由用户代码控制,缺乏动态调整能力。

  • torchrun

    • 支持弹性训练(需结合 torch.distributed.elastic),进程崩溃后可自动重启并恢复训练(需用户实现检查点逻辑)。

    • 提供更精细的进程监控和资源分配策略(如动态调整 WORLD_SIZE),减少资源闲置。

结论torchrun 在容错和资源利用率上更优,尤其在长时训练或不稳定环境中,能减少因故障导致的总时间浪费。


场景 3:日志与调试效率

  • torch.multiprocessing.spawn

    • 各进程日志独立输出,需手动聚合分析(如使用 torch.distributed 的日志工具)。

    • 错误堆栈可能分散,调试复杂。

  • `torchrun``

    • 提供统一的日志输出格式,自动聚合错误信息。

    • 支持通过 --redirect 参数重定向日志,便于定位问题。

结论torchrun 的日志管理更友好,减少调试时间,间接提升开发效率。

6. 选择建议

        如果是单机多卡训练,可以考虑使用 torch.multiprocessing.spawn。如果是分布式训练(尤其是跨节点),则推荐使用 torchrun,它能够简化配置和进程管理。

相关文章:

【知识】torchrun 与 torch.multiprocessing.spawn 的对比

转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~ 来自ChatGPT、DeepSeek 有点干,可仅做了解。 torchrun 和 torch.multiprocessing.spawn 都是在 PyTorch 中用于并行化和分布式训练的工具&a…...

利用 LangChain 和一个大语言模型(LLM)构建一个链条,自动从用户输入的问题中提取相关的 SQL 表信息,再生成对应的 SQL 查询

示例代码: from langchain_core.runnables import RunnablePassthrough from langchain.chains import create_sql_query_chain from operator import itemgetter from langchain.chains.openai_tools import create_extraction_chain_pydantic# 系统消息&#xff…...

力扣hot 100之矩阵四题解法总结

本期总结hot100 中二维矩阵的题,时空复杂度就不分析了 1.矩阵置零 原地标记,用第一行和第一列作为当前行列是否为0的标记,同时用两个标签分别记录0行、0列的标记空间中原本是否有0 class Solution:def setZeroes(self, matrix: List[List[…...

使用python运行网格世界环境下 TD算法

一、概述 本代码实现了在网格世界环境中使用 TD (0)(Temporal Difference (0))算法进行策略评估,并对评估结果进行可视化展示。通过模拟智能体在网格世界中的移动,不断更新状态值函数,最终得到每个状态的价值估计。 二…...

在Linux上使用APT安装Sniffnet的详细步骤

一、引言 Sniffnet 是一款开源的网络流量监控工具,适用于多种Linux发行版。如果你的Linux系统使用APT(Advanced Package Tool)作为包管理器,以下是如何通过APT安装Sniffnet的详细步骤。 二、系统要求 在开始安装之前&#xff0…...

zookeeper-docker版

Zookeeper-docker版 1 zookeeper概述 1.1 什么是zookeeper Zookeeper是一个分布式的、高性能的、开源的分布式系统的协调(Coordination)服务,它是一个为分布式应用提供一致性服务的软件。 1.2 zookeeper应用场景 zookeeper是一个经典的分…...

StableDiffusion本地部署 3 整合包猜想

本地部署和整合包制作猜测 文章目录 本地部署和整合包制作猜测官方部署第一种第二种 StabilityMatrix下载整合包制作流程猜测 写了这么多python打包和本地部署的文章,目的是向做一个小整合包出来,不要求有图形界面,只是希望一键就能运行。 但…...

数据结构(初阶)(七)----树和二叉树(前中后序遍历)

实现链式结构的二叉树 实现链式结构的二叉树遍历前序遍历中序遍历后序遍历 节点个数叶子节点个数⼆叉树第k层结点个数⼆叉树的深度/⾼度查找值为X的节点二叉树的销毁 层序遍历判断二叉树是否为完全二叉树 ⽤链表来表⽰⼀棵⼆叉树,即⽤链来指⽰元素的逻辑关系。 通常…...

SOME/IP 教程知识点总结

总结关于SOME/IP的教程,首先通读整个文件,理解各个部分的内容。看起来这个教程从介绍开始,讲到了为什么在车辆中使用以太网,然后详细讲解了SOME/IP的概念、序列化、消息传递、服务发现(SOME/IP-SD)、发布/订阅机制以及支持情况。 首先,我需要确认每个章节的主要知识点。…...

安装 Windows Docker Desktop - WSL问题

一、关联文章: 1、Docker Desktop 安装使用教程 2、家庭版 Windows 安装 Docker 没有 Hyper-V 问题 3、打开 Windows Docker Desktop 出现 Docker Engine Stopped 问题 二、问题解析 打开 Docker Desktop 出现问题,如下: Docker Desktop - WSL update failed An error o…...

科技赋能筑未来 中建海龙MiC建筑技术打造保障房建设新标杆

近日,深圳梅林路6号保障房项目顺利封顶,标志着国内装配式建筑领域又一里程碑式突破。中建海龙科技有限公司(以下简称“中建海龙”)以模块化集成建筑(MiC)技术为核心,通过科技创新与工业化建造深…...

json介绍、python数据和json数据的相互转换

目录 一 json介绍 json是什么? 用处 Json 和 XML 对比 各语言对Json的支持情况 Json规范详解 二 python数据和json数据的相互转换 dumps() : 转换成json loads(): 转换成python数据 总结 一 json介绍 json是什么? 实质上是一条字符串 是一种…...

关于学习一门新的编程语言的策略

实践 实践 实践 那么如何实践呢 ,very easy,测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测验 测…...

Rust 是什么

Rust 是什么 Rust 是一种由 Mozilla 开发的系统级编程语言,它于 2010 年首次亮相,在 2015 年发布 1.0 版本,此后迅速发展并受到广泛关注。 内存安全:Rust 最大的亮点之一是它在编译阶段就能够避免常见的内存错误,如空指针引用、数据竞争和内存泄漏等。它通过所有权(Owne…...

C#开发——时间间隔类TimSpan

TimeSpan 是 C# 中的一个结构( struct ),用于表示时间间隔或持续时间。它位于 System 命名空间中,是处理时间相关操作时非常重要的工具,尤其是在计算两个日期或时间之间的差值、表示时间段或执行时间相关的运算…...

计算机毕设JAVA——某高校宿舍管理系统(基于SpringBoot+Vue前后端分离的项目)

文章目录 概要项目演示图片系统架构技术运行环境系统功能简介 概要 网络上许多计算机毕设项目开发前端界面设计复杂、不美观,而且功能结构十分单一,存在很多雷同的项目:不同的项目基本上就是套用固定模板,换个颜色、改个文字&…...

[随手笔记]C#保留小数防止四舍五入有效解决办法

private decimal 截断小数(decimal 原小数值, int 保留小数个数) { string 原小数转字符串值 原小数值.ToString(); try { if (原小数转字符串值.Contains(".")) { int 原小数总长度 原小数转字符串值.Length; …...

C++ 二叉树代码

二叉树代码&#xff0c;见下 #include <iostream> using namespace std;template<typename T> struct TreeNode{T val;TreeNode *left;TreeNode *right;TreeNode():val(0), left(NULL), right(NULL)TreeNode(T x):val(x), left(NULL), right(NULL){} };template&l…...

Spring Boot 测试:单元、集成与契约测试全解析

一、Spring Boot 分层测试策略 Spring Boot 应用采用经典的分层架构&#xff0c;不同层级的功能模块对应不同的测试策略&#xff0c;以确保代码质量和系统稳定性。 Spring Boot 分层架构&#xff1a; Spring Boot分层架构 A[客户端] -->|HTTP 请求| B[Controller 层] …...

Oracle 数据库基础入门(四):分组与联表查询的深度探索(上)

在 Oracle 数据库的学习进程中&#xff0c;分组查询与联表查询是进阶阶段的重要知识点&#xff0c;它们如同数据库操作的魔法棒&#xff0c;能够从复杂的数据中挖掘出有价值的信息。对于 Java 全栈开发者而言&#xff0c;掌握这些技能不仅有助于高效地处理数据库数据&#xff0…...

机器学习的起点:线性回归Linear Regression

机器学习的起点&#xff1a;线性回归Linear Regression 作为机器学习的起点&#xff0c;线性回归是理解算法逻辑的绝佳入口。我们从定义、评估方法、应用场景到局限性&#xff0c;用生活化的案例和数学直觉为你构建知识框架。 回归算法 一、线性回归的定义与核心原理 定义&a…...

2024贵州大学计算机考研复试上机真题

历年贵州大学计算机考研复试上机真题 2024贵州大学计算机考研复试上机真题 2023贵州大学计算机考研复试上机真题 贵州大学计算机考研复试上机真题 在线 oj 测评&#xff1a;https://app2098.acapp.acwing.com.cn/problem/list/ 字符串翻转 题目描述 给定一个字符串&#xf…...

17、什么是智能指针,C++有哪几种智能指针【高频】

智能指针其实不是指针&#xff0c;而是一个&#xff08;模板&#xff09;类&#xff0c;用来存储指向某块资源的指针&#xff0c;并自动释放这块资源&#xff0c;从而解决内存泄漏问题。主要有以下四种&#xff1a; auto_ptr 它的思想就是当当一个指针对象赋值给另一个指针对…...

PyCharm接入本地部署DeepSeek 实现AI编程!【支持windows与linux】

今天尝试在pycharm上接入了本地部署的deepseek&#xff0c;实现了AI编程&#xff0c;体验还是很棒的。下面详细叙述整个安装过程。 本次搭建的框架组合是 DeepSeek-r1:1.5b/7b Pycharm专业版或者社区版 Proxy AI&#xff08;CodeGPT&#xff09; 首先了解不同版本的deepsee…...

深入解析SQL Server高级SQL技巧

SQL Server 是一种功能强大的关系型数据库管理系统&#xff0c;广泛应用于各种数据驱动的应用程序中。在开发过程中&#xff0c;掌握一些高级SQL技巧&#xff0c;不仅能提高查询性能&#xff0c;还能优化开发效率。这篇文章将全面深入地探讨SQL Server中的一些高级技巧&#xf…...

PyCharm怎么集成DeepSeek

PyCharm怎么集成DeepSeek 在PyCharm中集成DeepSeek等大语言模型(LLM)可以借助一些插件或通过代码调用API的方式实现,以下为你详细介绍两种方法: 方法一:使用JetBrains AI插件(若支持DeepSeek) JetBrains推出了AI插件来集成大语言模型,不过截至2024年7月,官方插件主要…...

Hive之正则表达式RLIKE详解及示例

目录 一、RLIKE 语法及核心特性 1. 基本语法 2. 核心特性 二、常见业务场景及示例 场景1&#xff1a;过滤包含特定模式的日志&#xff08;如错误日志&#xff09; 场景2&#xff1a;验证字段格式&#xff08;如邮箱、手机号&#xff09; 场景3&#xff1a;提取复杂文本中…...

fluent-ffmpeg 依赖详解

fluent-ffmpeg 是一个用于在 Node.js 环境中与 FFmpeg 进行交互的强大库&#xff0c;它提供了流畅的 API 来执行各种音视频处理任务&#xff0c;如转码、剪辑、合并等。 一、安装 npm install fluent-ffmpeg二、基本使用 要使用 fluent-ffmpeg&#xff0c;首先需要确保系统中…...

【定昌Linux系统】部署了java程序,设置开启启动

将代码上传到相应的目录&#xff0c;并且配置了一个.sh的启动脚本文件 文件内容&#xff1a; #!/bin/bash# 指定JAR文件的路径&#xff08;如果JAR文件在当前目录&#xff0c;可以直接使用文件名&#xff09; JAR_FILE"/usr/local/java/xs_luruan_client/lib/xs_luruan_…...

Java零基础入门笔记:(7)异常

前言 本笔记是学习狂神的java教程&#xff0c;建议配合视频&#xff0c;学习体验更佳。 【狂神说Java】Java零基础学习视频通俗易懂_哔哩哔哩_bilibili 第1-2章&#xff1a;Java零基础入门笔记&#xff1a;(1-2)入门&#xff08;简介、基础知识&#xff09;-CSDN博客 第3章…...