当前位置：首页 > news >正文

大模型训练框架DeepSpeed使用入门(1): 训练设置

news 2025/7/12 15:33:46

文章目录

一、安装
二、训练设置
- Step1 第一步参数解析
- Step2 初始化后端
- Step3 训练初始化
三、训练代码展示

官方文档直接抄过来，留个笔记。
https://deepspeed.readthedocs.io/en/latest/initialize.html

使用案例来自：
https://github.com/OvJat/DeepSpeedTutorial

大模型训练的痛点是模型参数过大，动辄上百亿，如果单靠单个GPU来完成训练基本不可能。所以需要多卡或者分布式训练来完成这项工作。

DeepSpeed是由Microsoft提供的分布式训练工具，旨在支持更大规模的模型和提供更多的优化策略和工具。对于更大模型的训练来说，DeepSpeed提供了更多策略，例如：Zero、Offload等。

本文简单介绍下如何使用DeepSpeed。

一、安装

pip install deepspeed

二、训练设置

Step1 第一步参数解析

DeepSpeed 使用 argparse 来应用控制台的设置，使用

deepspeed.add_config_arguments()

可以将DeepSpeed内置的参数增加到我们自己的应用参数解析中。

parser = argparse.ArgumentParser(description='My training script.')
parser.add_argument('--local_rank', type=int, default=-1,help='local rank passed from distributed launcher')
# Include DeepSpeed configuration arguments
parser = deepspeed.add_config_arguments(parser)
cmd_args = parser.parse_args()

Step2 初始化后端

与Step3中的 deepspeed.initialize() 不同，
直接调用即可。
一般发生在以下场景

when using model parallelism, pipeline parallelism, or certain data loader scenarios.

在Step3的initialize前，进行调用

deepspeed.init_distributed()

Step3 训练初始化

首先调用 deepspeed.initialize() 进行初始化，是整个调用DeepSpeed训练的入口。
调用后，如果分布式后端没有被初始化后，此时会初始化分布式后端。
使用案例：

model_engine, optimizer, _, _ = deepspeed.initialize(args=cmd_args,model=net,model_parameters=net.parameters(),training_data=ds)

API如下：

def initialize(args=None,model: torch.nn.Module = None,optimizer: Optional[Union[Optimizer, DeepSpeedOptimizerCallable]] = None,model_parameters: Optional[torch.nn.Module] = None,training_data: Optional[torch.utils.data.Dataset] = None,lr_scheduler: Optional[Union[_LRScheduler, DeepSpeedSchedulerCallable]] = None,distributed_port: int = TORCH_DISTRIBUTED_DEFAULT_PORT,mpu=None,dist_init_required: Optional[bool] = None,collate_fn=None,config=None,config_params=None):"""Initialize the DeepSpeed Engine.Arguments:args: an object containing local_rank and deepspeed_config fields.This is optional if `config` is passed.model: Required: nn.module class before apply any wrappersoptimizer: Optional: a user defined Optimizer or Callable that returns an Optimizer object.This overrides any optimizer definition in the DeepSpeed json config.model_parameters: Optional: An iterable of torch.Tensors or dicts.Specifies what Tensors should be optimized.training_data: Optional: Dataset of type torch.utils.data.Datasetlr_scheduler: Optional: Learning Rate Scheduler Object or a Callable that takes an Optimizer and returns a Scheduler object.The scheduler object should define a get_lr(), step(), state_dict(), and load_state_dict() methodsdistributed_port: Optional: Master node (rank 0)'s free port that needs to be used for communication during distributed trainingmpu: Optional: A model parallelism unit object that implementsget_{model,data}_parallel_{rank,group,world_size}()dist_init_required: Optional: None will auto-initialize torch distributed if needed,otherwise the user can force it to be initialized or not via boolean.collate_fn: Optional: Merges a list of samples to form amini-batch of Tensor(s).  Used when using batched loading from amap-style dataset.config: Optional: Instead of requiring args.deepspeed_config you can pass your deepspeed configas an argument instead, as a path or a dictionary.config_params: Optional: Same as `config`, kept for backwards compatibility.Returns:A tuple of ``engine``, ``optimizer``, ``training_dataloader``, ``lr_scheduler``* ``engine``: DeepSpeed runtime engine which wraps the client model for distributed training.* ``optimizer``: Wrapped optimizer if a user defined ``optimizer`` is supplied, or ifoptimizer is specified in json config else ``None``.* ``training_dataloader``: DeepSpeed dataloader if ``training_data`` was supplied,otherwise ``None``.* ``lr_scheduler``: Wrapped lr scheduler if user ``lr_scheduler`` is passed, orif ``lr_scheduler`` specified in JSON configuration. Otherwise ``None``."""

三、训练代码展示

def parse_arguments():import argparseparser = argparse.ArgumentParser(description='deepspeed training script.')parser.add_argument('--local_rank', type=int, default=-1,help='local rank passed from distributed launcher')# Include DeepSpeed configuration argumentsparser = deepspeed.add_config_arguments(parser)args = parser.parse_args()return argsdef train():args = parse_arguments()# init distributeddeepspeed.init_distributed()# init modelmodel = MyClassifier(3, 100, ch_multi=128)# init datasetds = MyDataset((3, 512, 512), 100, sample_count=int(1e6))# init engineengine, optimizer, training_dataloader, lr_scheduler = deepspeed.initialize(args=args,model=model,model_parameters=model.parameters(),training_data=ds,# config=deepspeed_config,)# load checkpointengine.load_checkpoint("./data/checkpoints/MyClassifier/")# trainlast_time = time.time()loss_list = []echo_interval = 10engine.train()for step, (xx, yy) in enumerate(training_dataloader):step += 1xx = xx.to(device=engine.device, dtype=torch.float16)yy = yy.to(device=engine.device, dtype=torch.long).reshape(-1)outputs = engine(xx)loss = tnf.cross_entropy(outputs, yy)engine.backward(loss)engine.step()loss_list.append(loss.detach().cpu().numpy())if step % echo_interval == 0:loss_avg = np.mean(loss_list[-echo_interval:])used_time = time.time() - last_timetime_p_step = used_time / echo_intervalif args.local_rank == 0:logging.info("[Train Step] Step:{:10d}  Loss:{:8.4f} | Time/Batch: {:6.4f}s",step, loss_avg, time_p_step,)last_time = time.time()# save checkpointengine.save_checkpoint("./data/checkpoints/MyClassifier/")

最后~

码字不易~~

独乐不如众乐~~

如有帮助，欢迎点赞+收藏~~

大模型训练框架DeepSpeed使用入门(1): 训练设置

文章目录一、安装二、训练设置Step1 第一步参数解析Step2 初始化后端Step3 训练初始化三、训练代码展示官方文档直接抄过来，留个笔记。 https://deepspeed.readthedocs.io/en/latest/initialize.html 使用案例来自： https://github.com/OvJat/DeepSp…...

编程日记 2024/5/14 1:29:51

自定义类型——结构体、枚举和联合

自定义类型——结构体、枚举和联合结构体结构体的声明匿名结构体结构体的自引用结构体的初始化结构体的内存对齐修改默认对齐数结构体传参位段枚举联合结构体结构是一些值的集合，这些值被称为成员变量，结构的每个成员可以是不同类型的变量。数组是…...

编程日记 2024/5/14 1:28:50

Windows11系统安装Mysql8之后，启动服务net start mysql报错“服务没有响应控制功能”的解决办法

问题系统环境：Windows11 数据库版本：Mysql8 双击安装，一路下一步，完成，很顺利，但是开启服务后 net start mysql 报错： 服务没有响应控制功能。请键入 NET HELPMSG 2186 以获得更多的帮助不…...

编程日记 2024/5/14 1:27:49

WIFI模块的AT指令联网数据交互--第十天

1.1.蓝牙，ESP-01s，Zigbee, NB-Iot等通信模块都是基于AT指令的设计初始配置和验证 ESP-01s出厂波特率正常是115200, 注意：AT指令，控制类都要加回车，数据传输时不加回车 1.2.上电后，通过串口输出一串系统…...

编程日记 2024/5/14 1:26:48

设计模式Java实现-迭代器模式

✨这里是第七人格的博客✨小七，欢迎您的到来~✨ 🍅系列专栏：设计模式🍅 ✈️本篇内容: 迭代器模式✈️ 🍱 本篇收录完整代码地址：https://gitee.com/diqirenge/design-pattern 🍱 楔子很久…...

编程日记 2024/5/14 1:25:46

单页源码加密屋zip文件加密API源码

简介： 单页源码加密屋zip文件加密API源码 api源码里面的参数已改好，往服务器或主机一丢就行，出现不能加密了就是加密次数达到上限了，告诉我在到后台修改加密次数点击下载...

编程日记 2024/5/14 1:21:41

47.全排列

1.题目 47. 全排列 II - 力扣（LeetCode）https://leetcode.cn/problems/permutations-ii/description/ 2.思路注意剪枝的条件 3.代码 class Solution {vector<int> path;vector<vector<int>> ret;bool check[9]; public:vector<…...

编程日记 2024/5/14 1:18:38

呼叫中心系统选pscc好还是okcc好

选择PSCC（商业软件呼叫中心）还是OKCC（开源呼叫中心），应基于以下几个关键因素来决定： 技术能力：如果企业拥有或愿意投入资源培养内部技术团队，开源解决方案可能更合适，因为…...

编程日记 2024/5/14 1:17:36

【SRC实战】前端脱敏信息泄露

挖个洞先 https://mp.weixin.qq.com/s/xnCQQCAneT21vYH8Q3OCpw “ 以下漏洞均为实验靶场，如有雷同，纯属巧合 ” 01 — 漏洞证明一、前端脱敏，请求包泄露明文 “ 前端脱敏处理，请求包是否存在泄露？ ” 1、获取验…...

编程日记 2024/5/14 1:15:34

区块链 | NFT 水印：Review on Watermarking Techniques（三）

🍍原文：Review on Watermarking Techniques Aiming Authentication of Digital Image Artistic Works Minted as NFTs into Blockchains 一个 NFT 的水印认证协议可以引入第三方实体来实现对交易的认证，即通过使用 R S A \mathsf{RSA} RSA…...

编程日记 2024/5/14 1:13:32

初识C语言——第十九天

for循环 1.简单概述 2.执行流程 3.建议事项：...

编程日记 2024/5/14 1:12:30

软件需求工程习题

1.（面谈）是需求获取活动中发生的需求工程师和用户间面对面的会见。 2.使用原型法进行需求获取，（演化式）原型必须具有健壮性，代码质量要从一开始就能达到最终系统的要求 3.利用面谈进行需求获取时&#xf…...

编程日记 2024/5/14 1:11:28

Win10弹出这个：https://logincdn.msauth.ne

问题描述： Win10脚本错误 Windows10家庭版操作系统开机后弹出这个 https://logincdn.msauth.net/shared/1.0/content/js/ConvergedLogin_PCore_vi321_9jVworKN8EONYo0A2.js 解决方法： 重启计算机后手动关闭第三方安全优化软件，然后在任务管理…...

编程日记 2024/5/14 1:09:25

VUE CLI 项目 router.js import Vue from "vue"; import Router from "vue-router"; import base from "/view/404/404.vue";const originalPush Router.prototype.push Router.prototype.push function push (location) {return originalPu…...

编程日记 2024/5/14 1:08:23

LeetCode746：使用最小花费爬楼梯

题目描述给你一个整数数组 cost ，其中 cost[i] 是从楼梯第 i 个台阶向上爬需要支付的费用。一旦你支付此费用，即可选择向上爬一个或者两个台阶。你可以选择从下标为 0 或下标为 1 的台阶开始爬楼梯。请你计算并返回达到楼梯顶部的最低花费。代码 …...

编程日记 2024/5/14 1:07:22

DockerFile介绍与使用

一、DockerFile介绍大家好，今天给大家分享一下关于 DockerFile 的介绍与使用，DockerFile 是一个用于定义如何构建 Docker 镜像的文本文件，具体来说，具有以下重要作用： 标准化构建：提供了一种统一、可重复…...

编程日记 2024/5/14 1:05:20

Java基础知识（六）字符串

六字符串 6.1 String字符串 1、String类对象创建定义String类对象格式：** 1）String 字符串变量名“字符串常量”； 2）String 字符串变量名new String(字符串常量); 3）String 字符串变量名; 字符串变量名“字符串常…...

编程日记 2024/5/14 1:04:19

为什么跨境电商大佬都在自养号测评？看完你就懂了！

在跨境电商的激烈竞争中，各大平台如亚马逊、拼多多Temu、shopee、Lazada、wish、速卖通、煤炉、敦煌、独立站、雅虎、eBay、TikTok、Newegg、Allegro、乐天、美客多、阿里国际、沃尔玛、Nike、OZON、Target以及Joom等，纷纷成为商家们竞相角逐市场份额的焦…...

编程日记 2024/5/14 0:59:13

AtCoder Beginner Contest 353

A 题意：检查是否有比第一个数大的数 #include<bits/stdc.h>using namespace std;int main() {int n;cin>>n;int a;cin>>a;int f0;for(int i2;i<n;i){int k;cin>>k;if(k>a){cout<<i<<endl;f1;break;}}if(f0){cout<&l…...

编程日记 2024/5/14 0:57:11

深度解读《深度探索C++对象模型》之虚继承的实现分析和效率评测（一）

目录前言具有虚基类的对象的构造过程通过子类的对象存取虚基类成员的实现分析接下来我将持续更新“深度解读《深度探索C对象模型》”系列，敬请期待，欢迎左下角点击关注！也可以关注公众号：iShare爱分享，或文章末…...

编程日记 2024/5/14 0:56:09

vscode里如何用git

打开vs终端执行如下： 1 初始化 Git 仓库（如果尚未初始化） git init 2 添加文件到 Git 仓库 git add . 3 使用 git commit 命令来提交你的更改。确保在提交时加上一个有用的消息。 git commit -m "备注信息" 4 …...

编程新知 2025/6/21 12:50:31

基于大模型的 UI 自动化系统

基于大模型的 UI 自动化系统下面是一个完整的 Python 系统，利用大模型实现智能 UI 自动化，结合计算机视觉和自然语言处理技术，实现"看屏操作"的能力。系统架构设计 #mermaid-svg-2gn2GRvh5WCP2ktF {font-family:"trebuchet ms",verdana,arial,sans-…...

编程新知 2025/6/21 5:42:11

微信小程序之bind和catch

这两个呢，都是绑定事件用的，具体使用有些小区别。官方文档： 事件冒泡处理不同 bind：绑定的事件会向上冒泡，即触发当前组件的事件后，还会继续触发父组件的相同事件。例如，有一个子视图绑定了b…...

编程新知 2025/7/10 2:31:05

【Oracle APEX开发小技巧12】

有如下需求： 有一个问题反馈页面，要实现在apex页面展示能直观看到反馈时间超过7天未处理的数据，方便管理员及时处理反馈。我的方法：直接将逻辑写在SQL中，这样可以直接在页面展示完整代码： SELECTSF.FE…...

编程新知 2025/7/11 20:36:51

【入坑系列】TiDB 强制索引在不同库下不生效问题

文章目录背景SQL 优化情况线上SQL运行情况分析怀疑1：执行计划绑定问题？尝试：SHOW WARNINGS 查看警告探索 TiDB 的 USE_INDEX 写法Hint 不生效问题排查解决参考背景项目中使用 TiDB 数据库，并对 SQL 进行优化了，添加了强制索引。 UAT 环境已经生效，但 PROD 环境强制索…...

编程新知 2025/7/12 15:09:09

为什么需要建设工程项目管理？工程项目管理有哪些亮点功能？

在建筑行业，项目管理的重要性不言而喻。随着工程规模的扩大、技术复杂度的提升，传统的管理模式已经难以满足现代工程的需求。过去，许多企业依赖手工记录、口头沟通和分散的信息管理，导致效率低下、成本失控、风险频发。例如&#…...

编程新知 2025/7/12 7:59:26

Nginx server_name 配置说明

Nginx 是一个高性能的反向代理和负载均衡服务器，其核心配置之一是 server 块中的 server_name 指令。server_name 决定了 Nginx 如何根据客户端请求的 Host 头匹配对应的虚拟主机（Virtual Host）。 1. 简介 Nginx 使用 server_name 指令来确定…...

编程新知 2025/6/17 10:29:06

腾讯云V3签名

想要接入腾讯云的Api，必然先按其文档计算出所要求的签名。之前也调用过腾讯云的接口，但总是卡在签名这一步，最后放弃选择SDK，这次终于自己代码实现。可能腾讯云翻新了接口文档，现在阅读起来，清晰了很多&…...

编程新知 2025/7/5 14:21:20

Redis：现代应用开发的高效内存数据存储利器

一、Redis的起源与发展 Redis最初由意大利程序员Salvatore Sanfilippo在2009年开发，其初衷是为了满足他自己的一个项目需求，即需要一个高性能的键值存储系统来解决传统数据库在高并发场景下的性能瓶颈。随着项目的开源，Redis凭借其简单易用、…...

编程新知 2025/6/20 11:13:34

MySQL 索引底层结构揭秘：B-Tree 与 B+Tree 的区别与应用

文章目录一、背景知识：什么是 B-Tree 和 BTree？ B-Tree（平衡多路查找树） BTree（B-Tree 的变种） 二、结构对比：一张图看懂三、为什么 MySQL InnoDB 选择 BTree？ 1. 范围查询更快 2…...

编程新知 2025/7/12 4:03:36

大模型训练框架DeepSpeed使用入门(1): 训练设置

文章目录

一、安装

二、训练设置

Step1 第一步参数解析

Step2 初始化后端

Step3 训练初始化

三、训练代码展示

相关文章：

大模型训练框架DeepSpeed使用入门(1): 训练设置

自定义类型——结构体、枚举和联合

Windows11系统安装Mysql8之后，启动服务net start mysql报错“服务没有响应控制功能”的解决办法

WIFI模块的AT指令联网数据交互--第十天

设计模式Java实现-迭代器模式

单页源码加密屋zip文件加密API源码

47.全排列

呼叫中心系统选pscc好还是okcc好

【SRC实战】前端脱敏信息泄露

区块链 | NFT 水印：Review on Watermarking Techniques（三）

初识C语言——第十九天

软件需求工程习题

Win10弹出这个：https://logincdn.msauth.ne

Vue2 动态路由

LeetCode746：使用最小花费爬楼梯

DockerFile介绍与使用

Java基础知识（六）字符串

为什么跨境电商大佬都在自养号测评？看完你就懂了！

AtCoder Beginner Contest 353

深度解读《深度探索C++对象模型》之虚继承的实现分析和效率评测（一）

vscode里如何用git

基于大模型的 UI 自动化系统

微信小程序之bind和catch

【Oracle APEX开发小技巧12】

【入坑系列】TiDB 强制索引在不同库下不生效问题

为什么需要建设工程项目管理？工程项目管理有哪些亮点功能？

Nginx server_name 配置说明

腾讯云V3签名

Redis：现代应用开发的高效内存数据存储利器

MySQL 索引底层结构揭秘：B-Tree 与 B+Tree 的区别与应用