当前位置：首页 > news >正文

分布式训练基础入门

news 2026/2/7 21:48:20

1.单节点训练

在这里插入图片描述

单节点训练也会转换为等价的并行训练，如在GPU内同一wrap内的32个Thread执行同一指令，但处理不同的数据。
训练程序往往实现了一个多层神经网络的执行过程。该神经网络的执行由一个计算图（Computational Graph）表示。这个图有多个相互连接的算子（Operator），每个算子会拥有计算参数。每个算子往往会实现一个神经网络层（Neural Network Layer），而参数则代表了这个层在训练中所更新的的权重（Weights）。
为了更新参数，计算图的执行分为前向计算和反向计算两个阶段。前向计算的第一步会将数据读入第一个算子，该算子会根据当前的参数，计算出给下一个算子的数据。反向计算中，每个算子依次计算出梯度，并利用梯度更新本地的参数。反向计算的结束也标志本次数据小批次的结束，系统随之读取下一个数据小批次，继续更新模型。

2.分布式训练

2.1 数据并行DP

解决单卡算力不足
在这里插入图片描述

数据进行分区，共享训练程序，反向计算时不同设备根据各自的训练样本生成局部梯度Gi，之后不同设备对应的局部梯度进行聚合得到平均梯度，用平均梯度修正模型参数，完成小批次的训练。这个聚合的过程往往由集合通信的AllReduce操作完成。

2.2 模型并行MP

解决单卡内存不足

2.2.1 算子内并行、张量并行TP

场景：假设某个算子具有𝑃个参数，而系统拥有𝑁个设备，那么可以将𝑃个参数平均分配给𝑁个设备（每个设备分配𝑃/𝑁个参数），从而让每个设备负责更少的计算量，能够在内存容量的限制下完成前向计算和反向计算。也被称为算子内并行（Intra-operator Parallelism）。
在这里插入图片描述

将算子1的参数平均分区，设备1和设备2各负责其中部分算子1的参数。

2.2.2 算子间并行

场景：模型的总内存需求超过了单设备的内存容量。在这种场景下，假设总共有𝑁个算子和𝑀个设备，可以将算子平摊给这𝑀个设备，让每个设备仅需负责𝑁/𝑀个算子的前向和反向计算，降低设备的内存开销。这种并行方式是模型并行的另一种应用，被称为算子间并行（Inter-operator Parallelism）
在这里插入图片描述

将算子进行分开，设备1和设备2各负责一个算子。

2.3 流水线并行PP

2.3.1 并行气泡

大型模型并行采用算子内并行+算子间并行解决单设备内存不足，这种情况下，计算中的下游设备（Downstream Device）需要长期持续处于空闲状态，等待上游设备（Upstream Device）的计算完成，才可以开始计算，这极大降低了设备的平均使用率。这种现象称为模型并行气泡。因此采用流水线并行减少气泡（可以类比CPU设计中的指令流水线，提升设备使用率）。

2.3.2 微批次

在这里插入图片描述

将训练数据中的每一个小批次划分为多个微批次（Micro-Batch）。假设一个小批次有𝐷个训练样本，将其划分为𝑀个微批次，那么一个微批次就有𝐷/𝑀个数据样本。每个微批次依次进入训练系统，完成前向计算和反向计算，计算出梯度。每个微批次对应的梯度将会缓存，等到全部微批次完成，缓存的梯度会被加和，算出平均梯度（等同于整个小批次的梯度），完成模型参数的更新。

2.3.3流水线并行优化-1F1B模式

1F1B（One Forward pass followed by One Backward pass）模式，一种前向计算和反向计算交叉进行的方式。

如上图为字节万卡集群论文中的1F1B模式
在流水线并行中，MegaScale使用交错1F1B调度方法，以实现通信的重叠。在热身阶段，前向传递仅依赖于其先前的接收。我们解耦了通常一起实现的发送和接收，通过打破这种依赖关系，使得发送操作能够与计算重叠。在张量/序列并行中，介绍了融合通信和计算等优化策略，以及将GEMM内核分成小块并与通信进行流水线执行。

2.3.4 流水线并行性能

在使用流水线训练系统中，时常需要调试微批次的大小，从而达到最优的系统性能。当设备完成前向计算后，必须等到全部反向计算开始，在此期间设备会处于空闲状态。在图11.3.1中，可以看到设备1在完成两个前向计算任务后，要等很长时间才能开始两个反向计算任务。这其中的等待时间即被称为流水线气泡（Pipeline Bubble）。为了减少设备的等待时间，一种常见的做法是尽可能地增加微批次的数量，从而让反向计算尽可能早开始。然而，使用非常小的微批次，可能会造成微批次中的训练样本不足，从而无法充分的利用起来硬件加速器中的海量计算核心。因此最优的微批次数量由多种因素（如流水线深度、微批次大小和加速器计算核心数量等）共同决定。

2.4 混合并行

2.4.1 数据并行+算子间并行

在这里插入图片描述

2.4.2 3D并行DP+PP+TP

在这里插入图片描述

一般业界将数据并行+模型张量并行+流水线并行混合成为3D并行。由于每个维度至少需要 2 个 GPU，因此在这里你至少需要 8 个 GPU 才能实现完整的 3D 并行。
如英伟达开源的Megatron-LM与字节的MegaScale都是3D并行

参考：
https://openmlsys.github.io/chapter_distributed_training/index.html
https://juejin.cn/post/7277799192966578176

分布式训练基础入门

1.单节点训练单节点训练也会转换为等价的并行训练，如在GPU内同一wrap内的32个Thread执行同一指令，但处理不同的数据。训练程序往往实现了一个多层神经网络的执行过程。该神经网络的执行由一个计算图（Computational Graph）表示。…...

编程日记 2024/6/11 10:11:02

AWS S3存储桶中如何下载文件

AWS S3存储桶中如何下载文件 1.单个下载 AWS S3 控制台提供了下载单个文件的功能，但是不支持直接在控制台中进行批量下载文件。您可以通过以下步骤在 AWS S3 控制台上下载单个文件： 　　1.1登录 AWS 管理控制台。　　1.2转到 S3 服务页面。　　1.3单击…...

编程日记 2024/6/11 10:10:01

「网络原理」三次握手四次挥手

🎇个人主页：Ice_Sugar_7 🎇所属专栏：计网 🎇欢迎点赞收藏加关注哦！ 三次握手&四次挥手 🍉连接管理🍌三次握手🍌意义🍌四次挥手🍌TCP 状态转换…...

编程日记 2024/6/11 10:09:00

第二十四章 SOAP 错误处理 - 发生故障时添加 WS-Addressing 标头元素

文章目录第二十四章 SOAP 错误处理 - 发生故障时添加 WS-Addressing 标头元素%SOAP.Fault12.Code 属性SubcodeValue %SOAP.Fault12.Text 属性Textlang 发生故障时添加 WS-Addressing 标头元素第二十四章 SOAP 错误处理 - 发生故障时添加 WS-Addressing 标头元素 %SOAP.Fault…...

编程日记 2024/6/11 10:07:58

CSS真题合集（一）

CSS真题合集（一） 1. 盒子模型1.1 盒子模型的基本组成1.2 盒子模型的实际大小1.3 盒子模型的两种类型1.4 设置盒子模型1.5 弹性盒子模型 2. BFC2.1 主要用途2.2 触发BFC的方法2.2 解决外边距的塌陷问题（垂直塌陷） 3. 响应式布局3.1…...

编程日记 2024/6/11 10:06:57

Golang | Leetcode Golang题解之第144题二叉树的前序遍历

题目： 题解： func preorderTraversal(root *TreeNode) (vals []int) {var p1, p2 *TreeNode root, nilfor p1 ! nil {p2 p1.Leftif p2 ! nil {for p2.Right ! nil && p2.Right ! p1 {p2 p2.Right}if p2.Right nil {vals append(vals, p1.V…...

编程日记 2024/6/11 10:05:56

离奇问题：java通过poi读取excel单元格的小数时会出错

问题 java通过poi读取excel单元格的小数时会出错，分析后发现是因为会损失精度。处理的代码 /*** DataFormatter 直接new就行：DataFormatter df new DataFormatter();*/ private String getNumericCellValue(Cell cell, DataFormatter df) {String val…...

编程日记 2024/6/11 10:02:51

前端框架是什么

前端框架是预先编写好的JavaScript代码集合，旨在帮助开发者快速搭建Web应用程序的界面和交互逻辑。以下是一些常见的前端框架，按照字母顺序排列，并简要介绍其特点： Angular 由Google开发，原名AngularJS，后…...

编程日记 2024/6/11 10:01:50

Feign的动态代理如何配置

Feign 本身已经内置了动态代理的功能，它允许你声明一个接口，并通过这个接口来发送 HTTP 请求，而不需要你手动编写发送 HTTP 请求的代码。Feign 会为你创建这个接口的代理实现，并在运行时拦截对这些方法的调用，将它们转…...

编程日记 2024/6/11 9:59:48

ReactRouter——路由配置、路由跳转、带参跳转、新route配置项

目录写在前面 (一)初步使用router 1.安装react-router-dom 2.创建router结构 3.嵌套路由 4.配置not found页面 (1)确切路由报错页面 (2)未配置路由报错页面 5.重定向 (二)路由跳转 1.组件跳转 2.NavLink 3.js跳转 (三)传递参数 1.searchParams(query)参数 2…...

编程日记 2024/6/11 9:55:43

异步处理耗时逻辑

在 Spring Boot 中实现 RESTful 接口的快速响应，同时在后台继续处理耗时逻辑，可以使用异步处理技术。以下是一个详细的示例，展示如何使用 Async 注解和 CompletableFuture 来实现这一需求。使用 Async 注解步骤 1：启用异步支持…...

编程日记 2024/6/11 9:54:41

Switch 之配置SNMP

Description SNMP（Simple Network Management Protocol，简单网络管理协议）是一种用于网络管理的协议，它用于在网络中对设备进行监控和管理。 SNMP定义了一种管理框架，其中包括管理站、代理和管理信息库（M…...

编程日记 2024/6/11 9:53:40

微软如何打造数字零售力航母系列科普13 - Prime Focus Technologies在NAB 2024上推出CLEAR®对话人工智能联合试点

Prime Focus Technologies在NAB 2024上推出CLEAR对话人工智能联合试点彻底改变您与内容的互动方式，从内容的创建到分发洛杉矶，2024年4月9日/PRNewswire/-媒体和娱乐（M&E）行业人工智能技术解决方案的先驱Prime Focus Techn…...

编程日记 2024/6/11 9:51:38

Nginx之正向代理配置示例和说明

一、NGINX正向代理功能简介 Nginx的正向代理功能允许局域网中的客户端通过代理服务器访问Internet资源。具体来说，Nginx作为一种流行的Web服务器和反向代理服务器，在正向代理方面的应用也相当实用。以下是其正向代理功能的几个关键点： 访问外…...

编程日记 2024/6/11 9:49:35

Linux文件与目录管理

#Linux系统基础文件与目录管理一、常用命令文件、目录操作命令说明cd(cd …/ cd ~/ cd/ cd path)切换目录 cd ~等于 cd /rootls显示目录文件ls -l 或者 ll以详细信息的方式显示目录文件pwd查看当前工作目录cp （-i -r）复制文件或目录mkdir创建目录,…...

编程日记 2024/6/11 9:46:31

08.组件间通信-插槽

1.默认插槽父组件 <template><div class"father"><h3>父组件</h3><div class"content"><Category title"热门游戏列表">//默认插槽内容<ul><li v-for"g in games" :key"g.id&quo…...

编程日记 2024/6/11 9:45:29

在AWS上运行的EKS Elastic Kubernetes Service 创建集群Cluster，Node group, Nodes

1. 前提条件 AWS Account: https://aws.amazon.com/free/Installing KubeCtl CLI https://docs.aws.amazon.com/eks/latest/userguide/getting-started-eksctl.htmlEKS Cluster RoleIAM Role for Node GroupVPCEC2 Key Pair which can be used to SSH to the worker nodesAWS …...

编程日记 2024/6/11 9:44:28

1.单节点训练

2.分布式训练

2.1 数据并行DP

2.2 模型并行MP

2.2.1 算子内并行 、张量并行TP

2.2.2 算子间并行

2.3 流水线并行PP

2.3.1 并行气泡

2.3.2 微批次

2.3.3流水线并行优化-1F1B模式

2.3.4 流水线并行性能

2.4 混合并行

2.4.1 数据并行+算子间并行

2.4.2 3D并行DP+PP+TP

相关文章：

2.2.1 算子内并行、张量并行TP