当前位置：首页 > news >正文

分布式训练最小化部署docker swarm + docker-compose落地方案

news 2026/2/10 7:54:50

背景：

前提条件：

一、docker环境初始化配置

1. 安装nvidia-docker2

2. 安装docker-compose工具

3. 获取GPU UUID

4. 修改docker runtime为nvidia，指定机器的UUID

二、docker-swarm 环境安装

1. 初始化swarm管理节点

2. 加入工作节点

3. 查看集群节点

三、拷贝基础镜像及部署文件

1. Docker 镜像

2. docker-compose.yml

四、部署应用

1. 部署服务

2. ssh免密验证

背景：

实现不同宿主机上的容器可以互通，并且可以免密ssh登陆

前提条件：

机器具备docker、NVIDIA显卡、NVIDIA驱动等相关安装包和硬件设施，nvidia-smi 可以正常显示出机器的GPU显卡

Docker 版本必须 > 1.12

一、docker环境初始化配置

1. 安装nvidia-docker2

# 执行如下命令
apt install nvidia-docker2 -y

2. 安装docker-compose工具

将安装包拷贝到环境，只需要在docker swarm leader节点安装

# 下载docker-compose
sudo curl -L "https://github.com/docker/compose/releases/download/1.29.2/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-composemv docker-compose-linux-x86_64 docker-compose 
chmod +x docker-compose 
mv docker-compose /usr/bin/docker-compose

3. 获取GPU UUID

nvidia-smi -a  | grep UUID

4. 修改docker runtime为nvidia，指定机器的UUID

修改文件成如下内容，注意其中的GPU UUID需要根据实际的uuid来填写,同时注意格式。

(base) root@nm-zhipu-a100-develop01:~# cat /etc/docker/daemon.json                                                                                                                      
{                                                                                                                                                                                       "runtimes": {                                                                                                                                                                       "nvidia": {                                                                                                                                                                     "path": "nvidia-container-runtime",                                                                                                                                         "runtimeArgs": []                                                                                                                                                           }                                                                                                                                                                               },                                                                                                                                                                                  "default-runtime": "nvidia",                                                                                                                                                        "node-generic-resources": [                                                                                                                                                         "NVIDIA-GPU=GPU-528afedf-02cf-7380-e22b-e2c05c1be4ec",                                                                                                                              "NVIDIA-GPU=GPU-5c46d5eb-0996-a5ac-cb7a-29f274d046a4",                                                                                                                              "NVIDIA-GPU=GPU-f57f6d1b-ea13-1480-6321-7a26181b838d",                                                                                                                              "NVIDIA-GPU=GPU-75acc759-bb26-da0b-21c5-a31dca12e93f",                                                                                                                              "NVIDIA-GPU=GPU-7e4da326-2d9e-3530-9f46-673474746e0b",                                                                                                                              "NVIDIA-GPU=GPU-76f183b8-b750-73bc-b438-404a16ae7b78",                                                                                                                              "NVIDIA-GPU=GPU-34823444-9a29-0776-f483-c802c6057039",                                                                                                                              "NVIDIA-GPU=GPU-a474810c-7356-b242-d0d8-5e83714655de"                                                                                                                               ],                                                                                                                                                                                  "default-shm-size": "10G"                                                                                                                                                                                    
}

# 将如下文件中的swarm-resource 这行注释打开
/etc/nvidia-container-runtime/config.toml 
swarm-resource = "DOCKER_RESOURCE_GPU"
# 重启docker
systemctl  restart docker

二、docker-swarm 环境安装

1. 初始化swarm管理节点

# docker swarm leader角色执行 
# 初始化一个新的swarm，并且当前的机器变为swarm manager，执行命令后会返回join相关的指令
docker swarm init --advertise-addr 192.168.249.11   #根据实际机器IP填写

类似下图的一条的命令

2. 加入工作节点

# worker节点执行，如果有多个worker节点则都需要执行
docker swarm join --token SWMTKN-1-51nvltfqyxlfo0m5f5unzufhs03gmtcs8uoues6zgln0vzhy2c-5agl9x8f9nwrwagy7ud8k6oti 192.168.249.11:2377

3. 查看集群节点

# 查看swarm节点信息
docker node ls

三、拷贝基础镜像及部署文件

1. Docker 镜像

如果要在客户方build，需要拷贝Dockerfile文件，并且保证客户环境可以下载依赖的基础镜像和相关的依赖包

Dockerfile

FROM nvcr.io/nvidia/pytorch:23.07-py3                                                                                                                                                   # ADD /data0/nfs/share/pangguoqing/glm66b/data/ /workspace/data                                                                                                                         
COPY . /workspace                                                                                                                                                                       
COPY ssh /root/.ssh/                                                                                                                                                                    RUN apt-get update && apt-get install -y --no-install-recommends ssh && \                                                                                                               apt-get install -y net-tools && \                                                                                                                                                   wget https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/pdsh/pdsh-2.29.tar.bz2 && \                                                                    tar jxvf pdsh-2.29.tar.bz2 && \                                                                                                                                                     cd pdsh-2.29 && \                                                                                                                                                                   ./configure --with-ssh --with-rsh --with-mrsh--with-mqshell --with-qshell --with-dshgroups--with-machines=/etc/pdsh/machines --without-pam && \                                     make && \                                                                                                                                                                           make install                                                                                                                                                                        RUN pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple && \                                                                                                       pip install deepspeed && \                                                                                                                                                          pip install sentencepiece                                                                                                                                                           EXPOSE 22                                                                                                                                                                               
ENV CUDA_DEVICE_MAX_CONNECTIONS="1"                                                                                                                                                     
WORKDIR /workspace                                                                                                                                                                      
ENTRYPOINT service ssh restart && bash

2. docker-compose.yml

如果有多个worker节点，则需要在文件中增加对应的配置，从0开始往下顺延
挂载点修改

version: '3.7'                                                                                                                                                                          services:                                                                                                                                                                               main:                                                                                                                                                                                 image: wind/glm66b-train:base-v2                                                                                                                                                    hostname: main                                                                                                                                                                      init: true                                                                                                                                                                          tty: true                                                                                                                                                                           deploy:                                                                                                                                                                             replicas: 1 # 定 义 在  Swarm 中 运 行 的 副 本 数                                                                                                                                          restart_policy:                                                                                                                                                                   condition: on-failure                                                                                                                                                           environment:                                                                                                                                                                        - NVIDIA_VISIBLE_DEVICES=all                                                                                                                                                      volumes:                                                                                                                                                                            - /data0/nfs/share/pangguoqing/glm66b/data/:/workspace/data/                                                                                                                      networks:                                                                                                                                                                           - my_overlay_network                                                                                                                                                              worker01:                                                                                                                                                                             image: wind/glm66b-train:base-v2                                                                                                                                                    hostname: worker-0                                                                                                                                                                  init: true                                                                                                                                                                          tty: true                                                                                                                                                                           deploy:                                                                                                                                                                             replicas: 1                                                                                                                                                                       restart_policy:                                                                                                                                                                   condition: on-failure                                                                                                                                                           environment:                                                                                                                                                                        - NVIDIA_VISIBLE_DEVICES=all                                                                                                                                                      volumes:                                                                                                                                                                            - /data0/nfs/share/pangguoqing/glm66b/data/:/workspace/data/                                                                                                                      networks:                                                                                                                                                                           - my_overlay_network                                                                                                                                                              networks:                                                                                                                                                                               my_overlay_network:                                                                                                                                                                   driver: overlay

四、部署应用

1. 部署服务

# 部署
docker stack deploy -c docker-compose.yml wande。#根据实际名称修改
# 显示部署的服务
docker stack services wande

# 查看服务容器状态
docker stack ps wande

2. ssh免密验证

登陆任意一个容器，通过ssh root@主机名即可登陆

ssh root@worker01

参考文档：

docker service create | Docker Docs

https://www.reddit.com/r/docker/comments/mh36w1/using_nvidia_gpu_with_docker_swarm_started_by/

分布式训练最小化部署docker swarm + docker-compose落地方案

目录背景： 前提条件： 一、docker环境初始化配置 1. 安装nvidia-docker2 2. 安装docker-compose工具 3. 获取GPU UUID 4. 修改docker runtime为nvidia，指定机器的UUID 二、docker-swarm 环境安装 1. 初始化swarm管理节点 2. 加入工…...

编程日记 2023/8/28 5:31:54

QT学习笔记-开发环境编译Qt MySql数据库驱动与交叉编译Qt MySql数据库驱动

QT学习笔记-开发环境编译Qt MySql数据库驱动与交叉编译Qt MySql数据库驱动 0、背景1、基本环境2、开发环境编译Qt MySql数据库驱动2.1 依赖说明2.2 MySQL驱动编译过程 3、交叉编译Qt MySql数据库驱动3.1 依赖说明3.3.1 如何在交叉编译服务器上找到mysql.h及相关头文件3.3.2 如果…...

编程日记 2023/8/28 5:30:53

QT使用QXlsx实现数据验证与Excel公式操作 QT基础入门【Excel的操作】

准备环境:QT中使用QtXlsx库的三种方法 1、公式操作写单行公式 //右值初始化Format rAlign;rAlign.setHorizontalAlignment(Format::AlignRight);//左值初始化Format lAlign;lAlign.setHorizontalAlignment(Format::AlignLeft);xlsx.write("B3", 40, lAlign);xlsx.wr…...

编程日记 2023/8/28 5:29:51

renrenfast Vue2 打包发布

1、修改 static/config/index-prod.js 文件 // api接口请求地址 window.SITE_CONFIG[baseUrl] http://192.168.1.86:8080/renren-fast; /*** 生产环境*/ ;(function () {window.SITE_CONFIG {};// api接口请求地址window.SITE_CONFIG[baseUrl] http://192.16…...

编程日记 2023/8/28 5:28:49

NoSQL数据库介绍+Redis部署

目录一、NoSQL概述 1、数据的高并发读写 2、海量数据的高效率存储和访问 3、数据库的高扩展和高可用二、NoSQL的类别 1、键值存储数据库 2、列存储数据库 3、文档型数据库 4、图形化数据库三、分布式数据库中的CAP原理 1、传统的ACID 1）、A--原子性 …...

编程日记 2023/8/28 5:27:48

【mindspore学习】环境配置

本次实验搭配的环境是 CUDA 11.6 CUDNN v8.9.4 TensorRT-8.4.1.5 mindspore 2.1.0。 1、配置 Nvidia 显卡驱动如果原来的主机已经安装了 nvidia 驱动，为避免版本的冲突，建议先清除掉旧的 nvidia驱动 sudo apt-get --purge remove nvidia* sudo apt…...

编程日记 2023/8/28 5:26:46

基于shell脚本对aliyun npm仓库（https://packages.aliyun.com）登录认证

文章目录基于shell脚本对阿里云npm仓库（https://packages.aliyun.com）登录认证食用人群食用方式基于shell脚本对阿里云npm仓库（https://packages.aliyun.com）登录认证食用人群由于一些安全的原因，某些企业可能会…...

编程日记 2023/8/28 5:25:44

K8s Pod 安全认知：从openshift SCC 到 PSP 弃用以及现在的 PSA

写在前面简单整理，博文内容涉及： PSP 的由来PSA 的发展PSA 使用认知不涉及使用，用于了解 Pod 安全 API 资源理解不足小伙伴帮忙指正对每个人而言，真正的职责只有一个：找到自我。然后在心中坚守其一生，全心全意，永不停息。所有其它的路都是不完整的，是人的逃避方式，是…...

编程日记 2023/8/28 5:24:43

提高企业会计效率，选择Manager for Mac(企业会计软件)

作为一家企业，良好的财务管理是保持业务运转的关键。而选择一款适合自己企业的会计软件，能够帮助提高会计效率、减少错误和节约时间。在众多的选择中，Manager for Mac(企业会计软件)是一款值得考虑的优秀软件。首先，Manager for…...

编程日记 2023/8/28 5:23:40

软考：中级软件设计师:信息系统的安全属性，对称加密和非对称加密，信息摘要，数字签名技术，数字信封与PGP

软考：中级软件设计师:信息系统的安全属性提示：系列被面试官问的问题，我自己当时不会，所以下来自己复盘一下，认真学习和总结，以应对未来更多的可能性关于互联网大厂的笔试面试，都是需要细心准…...

编程日记 2023/8/28 5:22:39

Vue3中reactive响应式失效的问题

情景阐述弹窗内部有一个挑选框，要通过请求接口获取挑选框下面可供选择的数据。这是一个很简单的情境，我立刻有了自己的思路。如果实现搜索，数据较少可以直接用elementplus自带的filter。如果数据较多，就需要传val，…...

编程日记 2023/8/28 5:21:38

lamp

LAMP 环境指的是在 Linux 操作系统中分别安装 Apache 网页服务器、MySQL 数据库服务器和 PHP 开发服务器，以及一些对应的扩展软件。AMP也支持win操作系统 （sccm 域升级版） LAMP架构是目前成熟的企业网站应用模式之一，指的是协同…...

编程日记 2023/8/28 5:20:37

LeetCode 周赛上分之旅 #42 当 LeetCode 考树上倍增，出题的趋势在变化吗

⭐️ 本文已收录到 AndroidFamily，技术和职场问题，请关注公众号 [彭旭锐] 和 BaguTree Pro 知识星球提问。学习数据结构与算法的关键在于掌握问题背后的算法思维框架，你的思考越抽象，它能覆盖的问题域就越广，理解难度…...

编程日记 2023/8/28 5:19:37

Qt 自定义菜单托盘菜单

托盘菜单实现：通过QSystemTrayIconQMenuQAction即可完美实现！ 实现方式：createActions用于创建菜单、菜单项,translateActions用于设置文本、实现多语化，translateAccount用于设置用户空间配额。 void TrayMenu::createActions(…...

编程日记 2023/8/28 5:18:36

channel并发编程

不要通过共享内存通信，要通过通信共享内存。 channel是golang并发编程中一种重要的数据结构，用于多个goroutine之间进行通信。我们通常可以把channel想象成一个传送带，将goroutine想象成传送带周边的人，一个传送带的上游放上物品…...

编程日记 2023/8/28 5:17:34

苹果新健康专利：利用 iPhone、Apple Watch 来分析佩戴者的呼吸情况

根据美国商标和专利局（USPTO）公示的清单，苹果获得了一项健康相关的技术专利，可以利用 iPhone、Apple Watch 来分析佩戴者的呼吸系统。苹果在专利中概述了一种测量用户呼吸功能的系统，通过 iPhone 上的光学感测单元&am…...

编程日记 2023/8/28 5:16:33

数据分析基础-数据可视化02-不同数据类型的可视化概念及原则

将数据空间映射到颜色空间。数据空间：连续或分类数据可以被划分为两个主要的数据空间：连续数据和分类数据。这两种数据空间有不同的特点和适用的分析方法。连续数据（Continuous Data）： 连续数据是指可以在某个范…...

编程日记 2023/8/28 5:15:32

QT项目使用Qss的总结

什么是QSS QSS称为Qt Style Sheets也就是Qt样式表，它是Qt提供的一种用来自定义控件外观的机制。QSS大量参考了CSS的内容，只不过QSS的功能比CSS要弱很多，体现在选择器要少，可以使用的QSS属性也要少很多，并且并不是所有…...

编程日记 2023/8/28 5:14:30

suricata初体验+wireshark流量分析

目录一、suricata介绍 1.下载安装 2.如何使用-攻击模拟二、wireshark流量分析 1.wireshark过滤器使用 2.wireshark其他使用一、suricata介绍 1.下载安装通过官网下载suricata，根据官网步骤进行安装。官网地址： https://documentation.wazuh.…...

编程日记 2023/8/28 5:13:29

机器学习：异常检测实战

文章目录 Anomaly Detection目录任务介绍数据集方法评估Baseline报告报告评价标准 Anomaly Detection 目录任务介绍无监督的异常检测数据集方法 autoencode 是否能够还原出原始类型图片，基于重构loss来判断是否正常重构误差当作异常分数评估采用ROC和AUC…...

编程日记 2023/8/28 5:11:26

浅谈 React Hooks

React Hooks 是 React 16.8 引入的一组 API，用于在函数组件中使用 state 和其他 React 特性（例如生命周期方法、context 等）。Hooks 通过简洁的函数接口，解决了状态与 UI 的高度解耦，通过函数式编程范式实现更灵活 Rea…...

编程新知 2025/9/23 15:13:40

uni-app学习笔记二十二---使用vite.config.js全局导入常用依赖

在前面的练习中，每个页面需要使用ref，onShow等生命周期钩子函数时都需要像下面这样导入 import {onMounted, ref} from "vue" 如果不想每个页面都导入，需要使用node.js命令npm安装unplugin-auto-import npm install unplugin-au…...

编程新知 2025/9/14 18:41:15

FastAPI 教程：从入门到实践

FastAPI 是一个现代、快速（高性能）的 Web 框架，用于构建 API，支持 Python 3.6。它基于标准 Python 类型提示，易于学习且功能强大。以下是一个完整的 FastAPI 入门教程，涵盖从环境搭建到创建并运行一个简单的…...

编程新知 2025/10/16 7:51:26

对WWDC 2025 Keynote 内容的预测

借助我们以往对苹果公司发展路径的深入研究经验，以及大语言模型的分析能力，我们系统梳理了多年来苹果 WWDC 主题演讲的规律。在 WWDC 2025 即将揭幕之际，我们让 ChatGPT 对今年的 Keynote 内容进行了一个初步预测，聊作存档。等到明…...

编程新知 2026/2/6 23:56:39

BCS 2025｜百度副总裁陈洋：智能体在安全领域的应用实践

6月5日，2025全球数字经济大会数字安全主论坛暨北京网络安全大会在国家会议中心隆重开幕。百度副总裁陈洋受邀出席，并作《智能体在安全领域的应用实践》主题演讲，分享了在智能体在安全领域的突破性实践。他指出，百度通过将安全能力…...

编程新知 2026/2/1 11:33:19

Unity UGUI Button事件流程

场景结构测试代码 public class TestBtn : MonoBehaviour {void Start(){var btn GetComponent<Button>();btn.onClick.AddListener(OnClick);}private void OnClick(){Debug.Log("666");}}当添加事件时 // 实例化一个ButtonClickedEvent的事件 [Formerl…...

编程新知 2026/2/9 18:50:34