当前位置: 首页 > news >正文

【基于docker的深度学习训练环境】关键步骤记录

最近给公司搭建了一个小型的深度学习环境,实现了多人通过SSH对GPU资源的利用,下面对一些关键架构和易用性部分进行记录。

一、整体软硬件框架
1、硬件配置,采用的双GPU的方案,两块消费级显卡。
整体框架
2、应用层架构
宿主机系统为ubuntu22 采用ssh+docker+路径映射的形式,docker的容器主要提供训练相关环境,实际的代码保存在训练服务器的硬盘上,通过服务器本身的网络与Gitlab同步,数据部分也挂载到训练服务硬盘上。数据和代码路径一同映射到容器中。
数据服务器是只读的,做存档之用,需要copy到训练服务器上,进行处理和训练加载。

二、GPU框架
这里套用Nvidia的图
nvidia图
在宿主机中安装gpu的driver,nvidia-container-toolkit。在容器中安装cuda-toolkit。

三、docker的几个易用性
1、初始环境获取。
我使用的是阿里云提供的初始镜像。https://cr.console.aliyun.com/cn-hangzhou/instances/artifact 按需选择即可,我这里选用了ubuntu22+py310+pytorch23+cu12的镜像
2、镜像的保存与导入。

#1、导出
docker export container_id > /path/to/save/container.tar
#2、导入
docker import - newImage <  /path/to/save/container.tar

3、完成初始环境后有几个易用性可进行配置
1)、ssh开机启动
2)、宿主机与容器之间的路径映射
3)、ssh的端口映射
4)、容器中的时间配置成和宿主机一样(非实时同步)

其中1)需要在容器内配置完再保存成镜像后,重新载入。
2)和3)需要在创建容器时执行。
4)可以在容器运行时执行。
2)3)4)相关指令如下:

docker run -p 2024:22 -it --gpus all -v /home/user/workspace:/home/workspace imageName /bin/bash
# 将ssh的端口映射到2024
# 在该容器中使用全部的gpu资源
# 将宿主机user的workspace映射到容器中的workspace
docker cp /usr/share/zoneinfo/Asia/Shanghai ContainerID:/usr/share/zoneinfo/Asia/Shanghai
docker cp /etc/localtime ContainerID:/etc/localtime
# 将宿主机的时区信息copy到容器中
# 将宿主机的当前时间信息copy到容器中

三、总结
硬件虚拟化的基本步骤是一样的,一层是基本硬件驱动,一层是虚拟化管理。
对于深度学习环境而言,有两大部分需要完成上述管理,简单划分为CPU和GPU,其中CPU又包含了内存和硬盘等。
两者都有其对应的工具,简单画图示意下:
硬件虚拟化

相关文章:

【基于docker的深度学习训练环境】关键步骤记录

最近给公司搭建了一个小型的深度学习环境&#xff0c;实现了多人通过SSH对GPU资源的利用&#xff0c;下面对一些关键架构和易用性部分进行记录。 一、整体软硬件框架 1、硬件配置&#xff0c;采用的双GPU的方案&#xff0c;两块消费级显卡。 2、应用层架构 宿主机系统为ubunt…...

管理、情商、格局-冯唐讲资质通鉴-笔记

一、CEO职责 制定制度、维护制度&#xff0c;制度即礼&#xff0c;礼崩乐坏&#xff0c;万万不能制定战略找钱、找人 二、汇报线 不能向上越级汇报不能向上越级管理 三、领导 领导出错的情况&#xff0c;依然要服从领导的安排&#xff0c;领导的错轮不到我们来处理干预&am…...

摇人摇人, JD内推岗位(社招+校招)

摇人摇人, 有找工作的家人们看过来啊~ 虚位以待, 快到碗里来 算法开发工程师岗 京东云 北京|T7, 5-10年 岗位职责&#xff1a; 参与基于RAG知识库平台和ChatBI产品打造和商业化落地&#xff0c;进行相关技术&#xff1a;包括OCR、文档拆分、意图理解、多轮对话、NL2SQL、Embed…...

振弦式传感器在高边坡监测中发挥哪些优势?

振弦式传感器在高边坡监测中发挥哪些优势?在工程建设与地质灾害防治领域&#xff0c;高边坡监测至关重要。高边坡的稳定性直接关系到工程的安全以及周边环境和人员的生命财产安全。为了实现对高边坡的有效监测&#xff0c;各种先进的传感器技术被广泛应用&#xff0c;其中振弦…...

计算机网络基础进阶

三次握手四次挥手 三次握手 1------建立连接----------------------2 ACK1&#xff0c;seq0 2------传输数据&#xff0c;建立连接---------1 1------传输数据&#xff0c;建立连接---------2 三次握手用于建立TCP连接&#xff0c;确保通信双方都准备好进行数据传输。整个…...

什么是“钻石继承问题”

钻石继承问题&#xff08;Diamond Inheritance Problem&#xff09; 主要是指在多重继承中&#xff0c;由于继承关系的复杂性&#xff0c;子类可能通过多个路径继承到相同的基类&#xff0c;从而导致成员的多份副本或者方法调用的二义性。 C 通过 虚拟继承 来解决这个问题&…...

iOS 回到主线程刷新UI

在iOS 里面,项目打开就会运行一个主线程,所有的UI都在主线程里进行.其他网络请求或者耗时操作理论上也可以在主线程运行,但是如果太耗时,那么就会影响主线程其他UI.所以需要开字线程来进行耗时操作,子线程进行完耗时操作之后,如果项目需求有需要刷新UI,或者改变UI,一定得回到主…...

Spring Data 技术详解与最佳实践

引言 Spring Data 是 Spring 框架的一个模块&#xff0c;旨在简化数据访问层的开发。它提供了一种通用的方法来访问各种数据存储&#xff0c;包括关系型数据库、NoSQL 数据库、搜索引擎等。Spring Data 不仅简化了数据访问代码的编写&#xff0c;还提供了一系列强大的特性&…...

ubuntu下安装图片编辑工具shutter

ubuntu自带的截屏工具能够截图指定区域的图片&#xff0c;但是通常情况下&#xff0c;我们还需要对图片做一些编辑例如&#xff0c;下划线&#xff0c;方框标识&#xff0c;添加文本描述等&#xff0c;这时就需要强大的shutter软件了。 有人说直接在终端直接执行命令安装即可&…...

代码随想录算法训练营Day38 | 62. 不同路径、63. 不同路径 II

目录 62. 不同路径 63. 不同路径 II 62. 不同路径 题目 62. 不同路径 - 力扣&#xff08;LeetCode&#xff09; 一个机器人位于一个 m x n 网格的左上角 &#xff08;起始点在下图中标记为 “Start” &#xff09;。 机器人每次只能向下或者向右移动一步。机器人试图达到…...

TrickMo 安卓银行木马新变种利用虚假锁屏窃取密码

近期&#xff0c;研究人员在野外发现了 TrickMo Android 银行木马的 40 个新变种&#xff0c;它们与 16 个下载器和 22 个不同的命令和控制&#xff08;C2&#xff09;基础设施相关联&#xff0c;具有旨在窃取 Android 密码的新功能。 Zimperium 和 Cleafy 均报道了此消息。 …...

Java | Leetcode Java题解之第493题翻转对

题目&#xff1a; 题解&#xff1a; class Solution {public int reversePairs(int[] nums) {Set<Long> allNumbers new TreeSet<Long>();for (int x : nums) {allNumbers.add((long) x);allNumbers.add((long) x * 2);}// 利用哈希表进行离散化Map<Long, Int…...

uniapp scroll-view翻转90度后,无法滚动问题,并设置滚动条到最底部(手写横屏样式)

uniapp scroll-view翻转90度后&#xff0c;无法滚动问题&#xff0c;并设置滚动条到最底部 <template><view class"main"><view style"height: 200px;"></view><view class"btn-main"><view class"send-…...

腾讯PAG 动画库Android版本的一个问题与排查记录

1 背景与环境 Android project中有加载动画的需求&#xff0c;设计师推荐使用腾讯的pag动画。项目中使用到的pag android库的版本是&#xff1a;com.tencent.tav:libpag:4.3.50。 2 故事经过 项目中pag的动画资源是有固定尺寸的&#xff0c;由于资源中的内容过于偏左&#x…...

计算机的算术运算之浮点数

3.5 浮点运算 科学计数法&#xff1a;小数点左边只有一位数字的表示数的方法。 规格化&#xff1a;没有前导0的浮点表示法。 二进制小数格式&#xff1a; 1.xxxxxxxxx X 2^yyyyy 浮点&#xff1a;二进制小数点不固定的数的计算机表示。 3.5.1 浮点表示 尾数&#xff1a;…...

Sqlite3 操作笔记

一、 数据格式 支持数据格式 一般数据采用的固定的静态数据类型&#xff0c;而SQLite采用的是动态数据类型&#xff0c;会根据存入值自动判断。SQLite具有以下五种数据类型&#xff1a; 1.NULL&#xff1a;空值。 2.INTEGER&#xff1a;带符号的整型&#xff0c;具体取决有存…...

mysqlRouter读写分离

数据库优化项目 使用中间件ProxySQL实现读写分离降低服务器压力&#xff0c;查看慢查询日志&#xff0c;反馈慢查询优化查询速度&#xff0c;清除无用数据&#xff0c;添加zabbix对mysql的监控。 ProxySql读写分离&#xff1a; 环境&#xff1a;mysql集群134、133 Mysql toute…...

【修订中】ffmpeg 知识点

一、两种安装方式 static FFmpeg binaries for macOS 64-bit Intel brew install ffmpeg 时间有点长 需要挂上代理 二、ffmpeg 使用这个工具去除水印以后原来水印的那个点就模糊了如何解决这个问题呢 使用 FFmpeg 的delogo过滤器去除水印时&#xff0c;通常会导致水印所…...

Rust初踩坑

一、下载 到官网https://www.rust-lang.org/zh-CN/tools/install下载你需要的版本 二、安装 执行rustup-init 文件&#xff0c;选择1 按提示直到安装完成 可以通过以下命令测试&#xff1a; rustc -V # 注意的大写的 V cargo -V # 注意的大写的 V三、在VScode中…...

element-ui 的el-calendar日历组件样式修改

<div style"width:100%;height:calc(100% - 35px);margin-top: 5px;"><el-calendar v-model"calendar" style"height: 100%;"></el-calendar></div> css部分 <style>/* 去除底色 */ /deep/ .el-calendar {backg…...

基于uniapp+WebSocket实现聊天对话、消息监听、消息推送、聊天室等功能,多端兼容

基于 ​UniApp + WebSocket​实现多端兼容的实时通讯系统,涵盖WebSocket连接建立、消息收发机制、多端兼容性配置、消息实时监听等功能,适配​微信小程序、H5、Android、iOS等终端 目录 技术选型分析WebSocket协议优势UniApp跨平台特性WebSocket 基础实现连接管理消息收发连接…...

1688商品列表API与其他数据源的对接思路

将1688商品列表API与其他数据源对接时&#xff0c;需结合业务场景设计数据流转链路&#xff0c;重点关注数据格式兼容性、接口调用频率控制及数据一致性维护。以下是具体对接思路及关键技术点&#xff1a; 一、核心对接场景与目标 商品数据同步 场景&#xff1a;将1688商品信息…...

质量体系的重要

质量体系是为确保产品、服务或过程质量满足规定要求&#xff0c;由相互关联的要素构成的有机整体。其核心内容可归纳为以下五个方面&#xff1a; &#x1f3db;️ 一、组织架构与职责 质量体系明确组织内各部门、岗位的职责与权限&#xff0c;形成层级清晰的管理网络&#xf…...

江苏艾立泰跨国资源接力:废料变黄金的绿色供应链革命

在华东塑料包装行业面临限塑令深度调整的背景下&#xff0c;江苏艾立泰以一场跨国资源接力的创新实践&#xff0c;重新定义了绿色供应链的边界。 跨国回收网络&#xff1a;废料变黄金的全球棋局 艾立泰在欧洲、东南亚建立再生塑料回收点&#xff0c;将海外废弃包装箱通过标准…...

DIY|Mac 搭建 ESP-IDF 开发环境及编译小智 AI

前一阵子在百度 AI 开发者大会上&#xff0c;看到基于小智 AI DIY 玩具的演示&#xff0c;感觉有点意思&#xff0c;想着自己也来试试。 如果只是想烧录现成的固件&#xff0c;乐鑫官方除了提供了 Windows 版本的 Flash 下载工具 之外&#xff0c;还提供了基于网页版的 ESP LA…...

拉力测试cuda pytorch 把 4070显卡拉满

import torch import timedef stress_test_gpu(matrix_size16384, duration300):"""对GPU进行压力测试&#xff0c;通过持续的矩阵乘法来最大化GPU利用率参数:matrix_size: 矩阵维度大小&#xff0c;增大可提高计算复杂度duration: 测试持续时间&#xff08;秒&…...

智能仓储的未来:自动化、AI与数据分析如何重塑物流中心

当仓库学会“思考”&#xff0c;物流的终极形态正在诞生 想象这样的场景&#xff1a; 凌晨3点&#xff0c;某物流中心灯火通明却空无一人。AGV机器人集群根据实时订单动态规划路径&#xff1b;AI视觉系统在0.1秒内扫描包裹信息&#xff1b;数字孪生平台正模拟次日峰值流量压力…...

c++第七天 继承与派生2

这一篇文章主要内容是 派生类构造函数与析构函数 在派生类中重写基类成员 以及多继承 第一部分&#xff1a;派生类构造函数与析构函数 当创建一个派生类对象时&#xff0c;基类成员是如何初始化的&#xff1f; 1.当派生类对象创建的时候&#xff0c;基类成员的初始化顺序 …...

wpf在image控件上快速显示内存图像

wpf在image控件上快速显示内存图像https://www.cnblogs.com/haodafeng/p/10431387.html 如果你在寻找能够快速在image控件刷新大图像&#xff08;比如分辨率3000*3000的图像&#xff09;的办法&#xff0c;尤其是想把内存中的裸数据&#xff08;只有图像的数据&#xff0c;不包…...

嵌入式常见 CPU 架构

架构类型架构厂商芯片厂商典型芯片特点与应用场景PICRISC (8/16 位)MicrochipMicrochipPIC16F877A、PIC18F4550简化指令集&#xff0c;单周期执行&#xff1b;低功耗、CIP 独立外设&#xff1b;用于家电、小电机控制、安防面板等嵌入式场景8051CISC (8 位)Intel&#xff08;原始…...