当前位置：首页 > news >正文

【深度学习】DeepSpeed，ZeRO 数据并行的三个阶段是什么？

news 2026/2/9 11:20:23

文章目录

ZeRO
实验
- - 实验设置
  - DeepSpeed ZeRO Stage-2 实验
  - 性能比较
  - 进一步优化
  - DeepSpeed ZeRO Stage-3 和 CPU 卸载
  - 结论

在这里插入图片描述

ZeRO

ZeRO（Zero Redundancy Optimizer）是一种用于分布式训练的大规模深度学习模型的优化技术。它通过分片模型状态（参数、梯度和优化器状态）来消除数据并行训练中的内存冗余，从而显著提高内存效率。ZeRO 分为三个阶段，每个阶段逐步增加内存优化程度。分别对应优化器状态、梯度和参数的划分。

优化器状态分区（P os）——内存减少 4 倍，通信量与数据并行相同
阶段 1：跨数据并行工作器/GPU 的分片优化器状态
- 描述：在 ZeRO 的第一个阶段，优化器状态被分片到不同的数据并行工作器或 GPU 上，而不是在每个 GPU 上重复。比如，Adam 优化器的状态包括权重、动量和方差等，这些状态信息会被均匀分布到各个 GPU 上。
- 内存节省：这种方法可以实现大约 4 倍的内存节省，同时保持与传统数据并行相同的通信量。
- 应用场景：适用于训练参数在亿级别的模型，比如 GPT-2，能有效降低单个 GPU 的内存使用.
添加梯度分区（P os+g）——内存减少 8 倍，通信量与数据并行相同
阶段 2：分片优化器状态和梯度
- 描述

【深度学习】DeepSpeed，ZeRO 数据并行的三个阶段是什么？

文章目录 ZeRO实验实验设置DeepSpeed ZeRO Stage-2 实验性能比较进一步优化DeepSpeed ZeRO Stage-3 和 CPU 卸载结论ZeRO ZeRO（Zero Redundancy Optimizer）是一种用于分布式训练的大规模深度学习模型的优化技术。它通过分片模型状态（参数、梯度和优化器状态）来消除数据并行…...

编程日记 2024/8/5 22:48:11

代码随想录算法训练营第三十六天 | 1049. 最后一块石头的重量 II、494. 目标和、474.一和零

一、1049. 最后一块石头的重量 II 题目链接：1049. 最后一块石头的重量 II - 力扣（LeetCode） 文章讲解：代码随想录 (programmercarl.com)——1049. 最后一块石头的重量 II 视频讲解：动态规划之背包问题，这个…...

编程日记 2024/8/5 22:46:08

Pandas行列变换指南：数据重塑的艺术

数据分析中，数据的形态至关重要。pandas库提供了一系列工具，让我们能够轻松地重塑数据。以下是一些常见的pandas行列变换方法，每种方法都配有完整的代码示例。环境准备首先，确保你的环境中安装了pandas和numpy库： …...

编程日记 2024/8/5 22:43:05

1.MySQL面试题之innodb如何解决幻读

1. 写在前面在数据库系统中，幻读（Phantom Read）是指在一个事务中，两次读取同一范围的数据集时，由于其他事务的插入操作，导致第二次读取结果集发生变化的问题。InnoDB 作为 MySQL 的一个存储引擎&#xff…...

编程日记 2024/8/5 22:42:05

Nginx中$http_host、$host、$proxy_host的区别

知识巩固！ 网上看到这篇文章，这里转载记录一下。简介变量是否显示端口值是否存在 host 浏览器请求的ip，不显示端口否 "Host:value"显示值为a:b的时候，只显示a http_host 浏览器请求的ip和端口号是"Host:v…...

编程日记 2024/8/5 22:41:03

C# Unity 面向对象补全计划七大原则之里氏替换(LSP) 难度：☆☆☆ 总结：子类可以当父类用，牛马是马，骡马也是马

本文仅作学习笔记与交流，不作任何商业用途，作者能力有限，如有不足还请斧正本系列作为七大原则和设计模式的进阶知识，看不懂没关系请看专栏：http://t.csdnimg.cn/mIitr，尤其是关于继承的两篇文章&#xff…...

编程日记 2024/8/5 22:39:01

PXE批量安装操作系统

PXE批量安装操作系统系统环境rhedhat7.9关闭vmware内的dhcp服务 kickstart自动安装脚本的制作在rhel7系统中提供图形的kickstart制作方式在rhel8中已经把图形的工具取消，并添加到rhn网络中在rhel8中如果无法通过rhn网络制作kickstart，可以使用模板…...

编程日记 2024/8/5 22:37:59

float32转float16、snorm/sunorm8/16 学习及实现

1、基础彻底搞懂float16与float32的计算方式-CSDN博客例1：float32 0x3fd00000 32b0 011_1111 _1 101_0000_0000_0000_0000_0000 sign0 exp8b0111_1111 h7f d127 >0ffset 127-127 0 mantissa b101_0000_0000_0000_0000_0000(补1，1.1010…...

编程日记 2024/8/5 22:36:58

小型养猫空气净化器怎么选？小型养猫空气净化器产品评测

家养四只猫猫，对于各个角落的猫毛，感觉家里已经被猫毛占领了。感受一下40度高温的养猫人，给掉毛怪疏毛浮毛飘飘，逃不过的饮水机，各个角落，多猫拉臭传来的异味。一、养猫带来的麻烦掉毛：每到换…...

编程日记 2024/8/5 22:34:57

数学建模--二分法

目录二分法的基本原理应用实例求解方程根查找有序数组中的元素注意事项 Python代码示例编辑延伸二分法在数学建模中的具体应用案例有哪些？ 如何选择二分法的初始区间以确保收敛速度和精度？ 在使用二分法求解方程时，如何…...

编程日记 2024/8/5 22:33:55

如何使用 Puppeteer 绕过 Akamai

摘要： 本文深入探讨了在面对Akamai强大防护下的网页抓取挑战时，如何运用Puppeteer这一强大的Node.js库，通过模拟真实用户行为、动态请求处理等策略，高效且隐蔽地收集数据。我们将一步步揭开Puppeteer绕过Akamai的神秘面纱&#x…...

编程日记 2024/8/5 22:32:55

【硬件知识】车规级开发等级——AEQ-100和ISO26262标准

文章目录一、定义二、区别1.应用场景2.使用方法总结一、定义 AEQ-100（Automotive Electronics Council Q100）是一个由汽车电子委员会（AEC）制定的标准，主要用于保证汽车电子元件的可靠性。它是一个关于汽车级半导体…...

编程日记 2024/8/5 22:31:53

Qt | QStackedBarSeries(堆叠条形图)+QPercentBarSeries（堆叠百分比条形图）

点击上方"蓝字"关注我们 01、QBarSet 1. 首先，需要创建一个名为QBarSet的类。 2. 在QBarSet类中，定义所需的属性和方法。 3. 属性可能包括条形的名称、颜色、值等。 4. 方法可能包括添加条形、删除条形、计算总和等。 5. 确保QBarSet类能够与QBar类协同工作，…...

编程日记 2024/8/5 22:30:51

C++——多态经典案例（一）组装电脑

案例：小明打算买两台组装电脑，假设电脑零部件包括CPU、GPU和内存组成。一台电脑使用intel的CPU、GPU和内存条一台电脑使用Huawei的CPU、GPU和Intel的内存条分析：使用多态进行实现将CPU、GPU和内存条定义为抽象类，内部分别定义…...

编程日记 2024/8/5 22:29:50

从传统监控到智能化升级：EasyCVR视频汇聚平台的一站式解决方案

随着科技的飞速发展和社会的不断进步，视频监控已经成为现代社会治安防控、企业管理等场景安全管理中不可或缺的一部分。而在视频监控领域，EasyCVR视频汇聚平台凭借其强大的多协议接入能力，在复杂多变的网络环境中展现出了卓越的性能和广泛的应…...

编程日记 2024/8/5 22:27:48

Windows下，已知程序PID，取得其窗口句柄HWND

我需要实现这么一个功能：在知道某个程序的PID的情况下，最大化并且置顶显示这个程序的窗口。经过一番资料的查找，并且借助了一些科技的力量，找到了解决办法： struct FindWindowData {DWORD processId;HWND hWnd; };BOO…...

编程日记 2024/8/5 22:25:46

Java获取exe文件详细信息：产品名称，产品版本等

使用Maven项目，在pom.xml文件中注入： <dependency><groupId>com.kichik.pecoff4j</groupId><artifactId>pecoff4j</artifactId><version>0.4.1</version></dependency> 程序代码： import …...

编程日记 2024/8/5 22:24:44

ORB-SLAM2运行环境搭建

操作系统：Ubuntu20.04 1.安装Eigen3 推荐大家安装版本 3.2.10 链接：https://eigen.tuxfamily.org/index.php?titleMain_Page mkdir build cd build cmake .. sudo make install2.安装Pangolin 推荐安装0.5版本链接：https://github.com…...

编程日记 2024/8/5 22:23:42

Nginx高频核心面试题2

目录高级问题1. **Nginx中如何实现URL重写？**2. **如何在Nginx中设置基本的HTTP身份验证？**3. **如何限制Nginx中的请求速率？**4. **如何在Nginx中设置自定义错误页面？**5. **Nginx的worker_processes和worker_connections参数有…...

编程日记 2024/8/5 22:22:41

全面提升PDF编辑效率，2024年五大顶级PDF编辑器推荐！

在这个数字化飞速发展的时代，PDF文件已经成为我们日常工作和学习中不可或缺的一部分。然而，面对PDF文件的编辑和管理，许多人仍然感到困惑和无助。今天，就让我们一起探索几款高效、易用的PDF编辑器，它们将彻底改变你的工…...

编程日记 2024/8/5 22:21:40

装饰模式（Decorator Pattern）重构java邮件发奖系统实战

前言现在我们有个如下的需求，设计一个邮件发奖的小系统， 需求 1.数据验证 → 2. 敏感信息加密 → 3. 日志记录 → 4. 实际发送邮件装饰器模式（Decorator Pattern）允许向一个现有的对象添加新的功能，同时又不改变其…...

编程新知 2026/2/8 4:37:00

应用升级/灾备测试时使用guarantee 闪回点迅速回退

1.场景应用要升级,当升级失败时,数据库回退到升级前. 要测试系统,测试完成后,数据库要回退到测试前。相对于RMAN恢复需要很长时间， 数据库闪回只需要几分钟。 2.技术实现数据库设置 2个db_recovery参数创建guarantee闪回点，不需要开启数据库闪回。…...

编程新知 2026/1/14 22:12:47

【CSS position 属性】static、relative、fixed、absolute 、sticky详细介绍，多层嵌套定位示例

文章目录 ★ position 的五种类型及基本用法 ★ 一、position 属性概述二、position 的五种类型详解（初学者版） 1. static（默认值） 2. relative（相对定位） 3. absolute（绝对定位） 4. fixed（固定定位） 5. sticky（粘性定位）三、定位元素的层级关系（z-i…...

编程新知 2026/2/9 1:38:05

C++八股 —— 单例模式

文章目录 1. 基本概念2. 设计要点3. 实现方式4. 详解懒汉模式 1. 基本概念线程安全（Thread Safety） 线程安全是指在多线程环境下，某个函数、类或代码片段能够被多个线程同时调用时，仍能保证数据的一致性和逻辑的正确性&#xf…...

编程新知 2025/12/2 3:35:50

GC1808高性能24位立体声音频ADC芯片解析

1. 芯片概述 GC1808是一款24位立体声音频模数转换器（ADC），支持8kHz~96kHz采样率，集成Δ-Σ调制器、数字抗混叠滤波器和高通滤波器，适用于高保真音频采集场景。 2. 核心特性高精度：24位分辨率&#xff0c…...

编程新知 2026/1/27 4:58:14

OPENCV形态学基础之二腐蚀

一.腐蚀的原理 (图1) 数学表达式：dst(x,y) erode(src(x,y)) min(x,y)src(xx,yy) 腐蚀也是图像形态学的基本功能之一，腐蚀跟膨胀属于反向操作，膨胀是把图像图像变大，而腐蚀就是把图像变小。腐蚀后的图像变小变暗淡。腐蚀…...

编程新知 2026/2/8 22:00:17

【C++特殊工具与技术】优化内存分配(一)：C++中的内存分配

目录一、C 内存的基本概念 1.1 内存的物理与逻辑结构 1.2 C 程序的内存区域划分二、栈内存分配 2.1 栈内存的特点 2.2 栈内存分配示例三、堆内存分配 3.1 new和delete操作符 4.2 内存泄漏与悬空指针问题 4.3 new和delete的重载四、智能指针…...

编程新知 2026/1/31 6:12:22

如何更改默认 Crontab 编辑器？

在 Linux 领域中，crontab 是您可能经常遇到的一个术语。这个实用程序在类 unix 操作系统上可用，用于调度在预定义时间和间隔自动执行的任务。这对管理员和高级用户非常有益，允许他们自动执行各种系统任务。编辑 Crontab 文件通常使用文本编…...

编程新知 2026/1/30 3:27:35

在鸿蒙HarmonyOS 5中使用DevEco Studio实现企业微信功能

1. 开发环境准备安装DevEco Studio 3.1： 从华为开发者官网下载最新版DevEco Studio安装HarmonyOS 5.0 SDK 项目配置： // module.json5 {"module": {"requestPermissions": [{"name": "ohos.permis…...

编程新知 2025/12/29 15:43:26

HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力：训练时既扩散也回归，但推理时则扩散

前言如上一篇文章《dexcap升级版之DexWild》中的前言部分所说，在叠衣服的过程中，我会带着团队对比各种模型、方法、策略，毕竟针对各个场景始终寻找更优的解决方案，是我个人和我司「七月在线」的职责之一且个人认为&#xff0c…...

编程新知 2026/1/19 6:41:37

文章目录

ZeRO

相关文章：