当前位置: 首页 > article >正文

保姆级教程:手把手教你用nvidia-smi命令玩转A100的MIG分区(附完整配置流程)

保姆级教程手把手教你用nvidia-smi命令玩转A100的MIG分区附完整配置流程在AI计算领域NVIDIA A100显卡的MIGMulti-Instance GPU技术正逐渐成为资源优化的利器。这项技术允许将一块物理GPU划分为多个独立的计算单元每个单元都能独立运行不同的任务就像把一台服务器虚拟化成多台虚拟机一样。对于运维工程师和AI平台管理员来说掌握MIG配置技能意味着能够更灵活地分配GPU资源提升硬件利用率同时保证不同任务之间的隔离性。本文将带你从零开始逐步掌握A100显卡MIG分区的完整操作流程。不同于简单的命令罗列我们会深入每个步骤背后的原理解释关键参数的含义并分享实际配置中的经验技巧。无论你是初次接触MIG的新手还是希望系统化掌握这项技术的工程师这篇教程都能为你提供实用的指导。1. 环境准备与MIG模式启用在开始配置MIG之前首先需要确认你的硬件和软件环境是否符合要求。你需要准备搭载NVIDIA A100显卡的服务器已安装最新版本的NVIDIA驱动建议450.80.02或更高具备sudo权限的用户账户检查GPU状态是第一步运行以下命令查看当前GPU信息nvidia-smi -i 0典型输出如下----------------------------------------------------------------------------- | NVIDIA-SMI 450.80.02 Driver Version: 450.80.02 CUDA Version: 11.0 | |--------------------------------------------------------------------------- | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | || | 0 A100-SXM4-40GB Off | 00000000:36:00.0 Off | 0 | | N/A 29C P0 62W / 400W | 0MiB / 40537MiB | 6% Default | | | | Disabled | ---------------------------------------------------------------------------注意输出中的MIG M.状态显示为Disabled表示MIG模式尚未启用。启用MIG模式需要使用以下命令sudo nvidia-smi -i 0 -mig 1成功执行后会显示Enabled MIG Mode for GPU 00000000:36:00.0 All done.注意启用MIG模式会导致GPU短暂重置正在运行的任务会被中断建议在业务低峰期操作。启用后可以再次运行nvidia-smi -i 0确认状态此时MIG M.应显示为Enabled。如果遇到启用失败的情况可能是由于驱动版本不兼容GPU正在运行计算任务硬件不支持MIG功能2. 理解MIG Profile与实例类型MIG技术的核心在于Profile概念它定义了GPU资源的划分方式。A100显卡支持多种Profile每种Profile对应不同的计算资源和内存配置。理解这些Profile对于合理规划资源分配至关重要。查看可用Profile的命令是nvidia-smi mig -lgip输出结果类似----------------------------------------------------------------------------- | GPU instance profiles: | | GPU Name ID Instances Memory P2P SM DEC ENC | | Free/Total GiB CE JPEG OFA | || | 0 MIG 1g.5gb 19 7/7 4.75 No 14 0 0 | | 1 0 0 | ----------------------------------------------------------------------------- | 0 MIG 1g.5gbme 20 1/1 4.75 No 14 1 0 | | 1 1 1 | ----------------------------------------------------------------------------- | 0 MIG 1g.10gb 15 4/4 9.62 No 14 1 0 | | 1 0 0 | ----------------------------------------------------------------------------- | 0 MIG 2g.10gb 14 3/3 9.62 No 28 1 0 | | 2 0 0 | ----------------------------------------------------------------------------- | 0 MIG 3g.20gb 9 2/2 19.50 No 42 2 0 | | 3 0 0 | ----------------------------------------------------------------------------- | 0 MIG 4g.20gb 5 1/1 19.50 No 56 2 0 | | 4 0 0 | ----------------------------------------------------------------------------- | 0 MIG 7g.40gb 0 1/1 39.25 No 98 5 0 | | 7 1 1 | -----------------------------------------------------------------------------Profile名称的格式通常为slice_countg.memory_sizegb例如1g.5gb1个GPU切片配备5GB内存3g.20gb3个GPU切片配备20GB内存关键参数解析Instances可创建的实例数量当前空闲/总量Memory每个实例分配的内存大小SM流处理器数量决定计算能力DEC/ENC解码/编码引擎数量CE复制引擎数量选择Profile时需要考虑应用的计算需求需要多少SM资源内存需求模型大小和数据量需要的实例数量是否需要专用编解码引擎例如如果运行多个小型推理服务1g.5gb可能是不错的选择而训练中等规模模型则可能需要3g.20gb。3. 创建GPU实例与计算实例理解了Profile后就可以开始创建GPU实例(GI)和计算实例(CI)了。这两个概念的区别在于GPU实例(GI)定义了物理资源的划分计算实例(CI)在GI基础上创建的逻辑计算单元创建GPU实例的基本命令格式sudo nvidia-smi mig -cgi profile_spec -C其中profile_spec可以是Profile ID如9短名称如3g.20gb全名如MIG 3g.20gb例如要创建两个3g.20gb实例sudo nvidia-smi mig -cgi 9,3g.20gb -C成功执行后输出Successfully created GPU instance ID 2 on GPU 0 using profile MIG 3g.20gb (ID 9) Successfully created compute instance ID 0 on GPU 0 GPU instance ID 2 using profile MIG 3g.20gb (ID 2) Successfully created GPU instance ID 1 on GPU 0 using profile MIG 3g.20gb (ID 9) Successfully created compute instance ID 0 on GPU 0 GPU instance ID 1 using profile MIG 3g.20gb (ID 2)验证实例创建sudo nvidia-smi mig -lgi输出显示已创建的GI---------------------------------------------------- | GPU instances: | | GPU Name Profile Instance Placement | | ID ID Start:Size | || | 0 MIG 3g.20gb 9 1 4:4 | ---------------------------------------------------- | 0 MIG 3g.20gb 9 2 0:4 | ----------------------------------------------------查看详细资源分配nvidia-smi输出中包含MIG设备信息----------------------------------------------------------------------------- | MIG devices: | -------------------------------------------------------------------------- | GPU GI CI MIG | Memory-Usage | Vol| Shared | | ID ID Dev | | SM Unc| CE ENC DEC OFA JPG | || | 0 1 0 0 | 11MiB / 20224MiB | 42 0 | 3 0 2 0 0 | -------------------------------------------------------------------------- | 0 2 0 1 | 11MiB / 20096MiB | 42 0 | 3 0 2 0 0 | --------------------------------------------------------------------------在实际操作中可能会遇到以下常见问题资源不足尝试创建的实例超过可用资源Profile冲突某些Profile不能共存权限问题需要sudo权限执行创建命令4. 实例管理与销毁MIG实例的动态管理是其强大之处可以根据需求随时调整资源配置。当某些实例不再需要时应该及时销毁以释放资源。销毁全部计算实例和GPU实例sudo nvidia-smi mig -dci sudo nvidia-smi mig -dgi这会按顺序销毁所有CI和GI输出类似Successfully destroyed compute instance ID 0 from GPU 0 GPU instance ID 1 Successfully destroyed compute instance ID 1 from GPU 0 GPU instance ID 1 Successfully destroyed compute instance ID 2 from GPU 0 GPU instance ID 1 Successfully destroyed GPU instance ID 1 from GPU 0 Successfully destroyed GPU instance ID 2 from GPU 0选择性销毁特定GI下的CIsudo nvidia-smi mig -dci -gi 1 -ci 0,1,2这在需要保留其他实例时特别有用。仅销毁GPU实例会自动销毁关联的CIsudo nvidia-smi mig -dgi提示销毁操作是不可逆的确保没有重要任务在实例上运行后再执行。验证销毁结果nvidia-smi输出中MIG设备部分应显示----------------------------------------------------------------------------- | MIG devices: | -------------------------------------------------------------------------- | No MIG devices found | -----------------------------------------------------------------------------在实际运维中建议建立实例生命周期管理流程记录创建的实例及其用途设置监控告警及时发现闲置实例定期审查实例配置优化资源分配建立销毁审批流程避免误操作5. 高级配置与最佳实践掌握了基本操作后下面介绍一些高级配置技巧和最佳实践帮助你更高效地使用MIG功能。多Profile混合配置 A100支持同时创建不同Profile的实例例如sudo nvidia-smi mig -cgi 9,14 -C这会创建一个3g.20gb实例和一个2g.10gb实例。但需要注意确保总资源不超过物理GPU容量某些Profile组合可能不被支持持久化配置 默认情况下MIG配置在重启后会丢失。要实现配置持久化可以创建启动脚本/etc/rc.local添加MIG启用和实例创建命令确保脚本有执行权限资源监控 使用以下命令监控MIG实例的资源使用情况nvidia-smi mig -i 0 -lgiop输出显示每个实例的资源利用率---------------------------------------------------- | GPU instance profiles: | | GPU Name Profile Instance Utilization | | ID ID SM Memory Enc Dec | || | 0 MIG 3g.20gb 9 1 25% 30% | ---------------------------------------------------- | 0 MIG 3g.20gb 9 2 15% 20% | ----------------------------------------------------最佳实践建议预留资源不要将GPU资源100%分配保留少量余量应对突发需求标签管理为每个实例添加描述标签方便后续管理性能测试不同Profile对特定应用的性能影响差异很大建议实际测试安全隔离虽然MIG提供资源隔离但仍需注意数据安全常见问题排查无法启用MIG检查驱动版本和GPU型号是否支持创建实例失败确认资源是否足够尝试重启GPU服务性能不符合预期检查Profile选择是否合适监控实际资源使用6. 自动化部署与工具集成对于需要频繁配置MIG的环境手动操作效率低下。下面介绍如何将MIG配置自动化集成到你的工作流程中。使用mig-parted工具 NVIDIA提供的mig-parted工具可以简化MIG配置# 安装 pip install nvidia-mig-parted # 查看可用配置 mig-parted info # 应用配置 mig-parted apply -f config.yml编写配置脚本 下面是一个自动创建MIG实例的bash脚本示例#!/bin/bash # 启用MIG模式 sudo nvidia-smi -i 0 -mig 1 # 等待GPU重置完成 sleep 30 # 创建GPU实例 sudo nvidia-smi mig -cgi 9,14 -C # 验证创建结果 nvidia-smi mig -lgi与容器平台集成 在Kubernetes环境中可以通过NVIDIA K8s Device Plugin实现MIG资源调度配置节点标签部署Device Plugin在Pod定义中请求MIG资源示例Pod定义片段resources: limits: nvidia.com/gpu: 1 requests: nvidia.com/mig-1g.5gb: 1监控告警配置 建议配置以下监控指标每个MIG实例的GPU利用率内存使用情况温度和其他健康指标可以使用Prometheus和Grafana搭建监控面板设置合理的告警阈值。配置管理建议将MIG配置纳入版本控制系统实现配置的幂等性可重复执行记录每次配置变更的详细日志建立回滚机制在实际生产环境中我们通常会遇到需要动态调整MIG配置的情况。例如白天可能需要更多小型实例处理推理请求而夜间则可以合并资源进行训练任务。针对这种场景可以编写定时任务脚本根据预设时间表自动调整MIG配置。

相关文章:

保姆级教程:手把手教你用nvidia-smi命令玩转A100的MIG分区(附完整配置流程)

保姆级教程:手把手教你用nvidia-smi命令玩转A100的MIG分区(附完整配置流程) 在AI计算领域,NVIDIA A100显卡的MIG(Multi-Instance GPU)技术正逐渐成为资源优化的利器。这项技术允许将一块物理GPU划分为多个独…...

别再硬编码UI尺寸了!用Unity的Layout Element实现背包信息框的完美自适应(附完整配置流程)

别再硬编码UI尺寸了!用Unity的Layout Element实现背包信息框的完美自适应(附完整配置流程) 在开发RPG或模拟经营类游戏时,背包系统往往是玩家交互最频繁的界面之一。一个常见的需求是:当鼠标悬停在物品上时&#xff0c…...

Pyside6实战指南——从零构建一个久坐提醒桌面应用

1. 为什么我们需要一个久坐提醒工具? 作为一个长期伏案工作的程序员,我深刻理解久坐带来的危害。腰酸背痛、颈椎不适、视力下降这些问题都曾困扰过我。医学研究表明,连续坐姿超过1小时就会对血液循环造成影响,增加心血管疾病风险。…...

Halcon仿射变换的“魔法”与“陷阱”:从vector_angle_to_rigid到hom_mat2d_rotate的旋转中心到底在哪?

Halcon仿射变换的“魔法”与“陷阱”:从vector_angle_to_rigid到hom_mat2d_rotate的旋转中心到底在哪? 在工业视觉开发中,仿射变换就像一把瑞士军刀,能解决图像对齐、坐标转换、物体定位等核心问题。但当你自信满满地写下hom_mat2…...

别再用老方法了!用Python的sympy库和Miller-Rabin算法快速判断大数是不是素数

别再用老方法了!用Python的sympy库和Miller-Rabin算法快速判断大数是不是素数 素数判断在密码学、竞赛编程和数学研究中都是基础但关键的操作。传统的手写算法虽然直观,但在处理大数时效率低下,甚至可能成为性能瓶颈。本文将带你探索Python生…...

猫抓浏览器插件:三步快速搞定网页视频音频下载的完整指南

猫抓浏览器插件:三步快速搞定网页视频音频下载的完整指南 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 你是否经常遇到在线视频无法保…...

终极Visual C++运行库解决方案:一键修复Windows依赖问题

终极Visual C运行库解决方案:一键修复Windows依赖问题 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否曾经在安装或运行某些软件时遇到"缺…...

抖音批量下载终极指南:告别手动保存,5分钟掌握高效下载技巧

抖音批量下载终极指南:告别手动保存,5分钟掌握高效下载技巧 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browse…...

如何用WinUtil一键优化Windows系统?3步实现专业级系统维护

如何用WinUtil一键优化Windows系统?3步实现专业级系统维护 【免费下载链接】winutil Chris Titus Techs Windows Utility - Install Programs, Tweaks, Fixes, and Updates 项目地址: https://gitcode.com/GitHub_Trending/wi/winutil 你是否曾经为Windows系…...

MySQL 5.7和8.0大不同:手把手教你用两种方法给查询结果加序号(附避坑点)

MySQL 5.7与8.0查询结果序号生成实战指南 在数据库查询结果中为每行添加序号是数据分析、报表生成和前端展示的常见需求。MySQL作为最流行的开源关系型数据库,其5.7和8.0版本在实现这一功能时存在显著差异。本文将深入探讨两种主流方法的技术实现、性能对比和实际应…...

Phi-3.5-mini-instruct JDK1.8环境配置与Java项目迁移指南

Phi-3.5-mini-instruct JDK1.8环境配置与Java项目迁移指南 1. 为什么JDK1.8仍然重要 尽管Java已经发布了多个新版本,但JDK1.8在企业环境中仍然占据重要地位。许多大型系统、金融应用和政府项目都基于这个长期支持版本构建。它的稳定性、成熟度和广泛兼容性使其成为…...

韭菜盒子:开发者专属的VSCode投资信息中心,如何实现编码与投资的完美融合?

韭菜盒子:开发者专属的VSCode投资信息中心,如何实现编码与投资的完美融合? 【免费下载链接】leek-fund :chart_with_upwards_trend: 韭菜盒子VSCode插件,可以看股票、基金、期货等实时数据。 LeekFund turns your VS Code and Cur…...

保姆级教程:用Python脚本调用迅投QMT极简版,实现自动化下单(附完整代码)

Python量化实战:从零构建QMT极简版自动化交易系统 在金融科技快速发展的今天,个人投资者也能通过量化工具实现机构级的交易自动化。迅投QMT极简版作为国内主流量化交易平台之一,以其轻量级架构和Python友好性受到开发者青睐。本文将带您从环境…...

OpenCore Configurator终极指南:高效构建稳定黑苹果系统的专业工具

OpenCore Configurator终极指南:高效构建稳定黑苹果系统的专业工具 【免费下载链接】OpenCore-Configurator A configurator for the OpenCore Bootloader 项目地址: https://gitcode.com/gh_mirrors/op/OpenCore-Configurator OpenCore Configurator&#x…...

告别串口转换器:在OpenWrt上纯软件模拟SDI-12主设备,对接水文气象传感器实战

纯软件实现SDI-12协议:在OpenWrt网关直接接入水文传感器的工程实践 当需要在偏远地区部署水文气象监测系统时,传统方案往往需要携带多种信号转换器。我曾在一个湿地监测项目中,因为忘记带SDI-12转RS485模块而差点延误整个部署计划。这次经历让…...

PlatformIO隐藏技巧:用Python脚本自动生成HEX文件(附STM32实测)

PlatformIO高阶技巧:Python脚本自动化生成HEX文件的深度实践 如果你已经习惯了Keil中一键生成HEX文件的便捷,却在PlatformIO中苦苦寻找这个功能,那么这篇文章正是为你准备的。PlatformIO作为现代嵌入式开发的利器,虽然默认不直接生…...

【收藏级】2026年AI零基础学习路线图|小白程序员必看,轻松入门大模型

本文专为2026年AI初学者、自学者及程序员量身打造,系统梳理人工智能与大模型核心学习框架,涵盖基础概念拆解、必备工具资源、阶梯式学习步骤与实战项目推荐,补充小白避坑技巧与程序员进阶要点,帮你避开学习误区,从零平…...

别再为OOM发愁了:手把手教你用FlashAttention-2优化你的LLM训练流程

别再为OOM发愁了:手把手教你用FlashAttention-2优化你的LLM训练流程 当你在深夜盯着屏幕,看着PyTorch又一次抛出"CUDA out of memory"的错误提示时,那种挫败感每个AI工程师都深有体会。显存溢出(OOM)就像悬在大模型训练头上的达摩克…...

麒麟KYLINOS软件安装全攻略:从新手到高手的五种进阶路径

1. 初识麒麟KYLINOS:从Windows/macOS迁移者的第一课 第一次打开麒麟KYLINOS的桌面环境,那种既熟悉又陌生的感觉让我想起十年前第一次用Linux的场景。作为从Windows转战过来的用户,最迫切的问题就是:软件怎么装?在Windo…...

从零到一:CLIP多模态模型核心原理与工业级应用实战

1. CLIP模型的核心设计思想 CLIP(Contrastive Language-Image Pre-training)是OpenAI在2021年推出的多模态模型,它的设计理念可以用一个简单的比喻来理解:就像教小孩认识世界时,我们会指着图片说"这是猫"&am…...

从ICC到Innovus:一个后端工程师的十年工具变迁史与实战避坑心得

从ICC到Innovus:一个后端工程师的十年工具变迁史与实战避坑心得 十年前,当我第一次接触ICC时,FinFET工艺还只是实验室里的概念。如今站在Innovus的界面前,回顾这段工具演进史,恍如隔世。这篇文章不是枯燥的技术对比&am…...

【C++高吞吐MCP网关实战白皮书】:20年架构师亲授企业级落地的7大避坑法则与性能压测基准数据

更多请点击: https://intelliparadigm.com 第一章:MCP网关在企业级高吞吐场景中的核心定位与演进脉络 MCP(Microservice Communication Protocol)网关并非传统API网关的简单复刻,而是面向服务网格边缘、多云混合部署及…...

【2026 C内存安全编码白皮书】:20年一线专家亲授——绕过UB、杜绝Use-After-Free、拦截缓冲区溢出的7大工业级防御模式

https://intelliparadigm.com 第一章:C内存安全编码的范式演进与2026白皮书核心原则 C语言长期面临内存安全挑战,从早期手动管理到现代静态分析、运行时防护与语言级增强,范式已发生根本性迁移。2026年发布的《C内存安全编码白皮书》确立了以…...

VSCode农业物联网插件开发实战(2026.1稳定版深度适配北斗RTK+边缘AI推理引擎)

https://intelliparadigm.com 第一章:VSCode 2026农业物联网插件开发概览 VSCode 2026 版本针对垂直行业深度优化,其扩展生态系统新增对农业物联网(Agri-IoT)场景的原生支持,包括低功耗传感器模拟、边缘协议调试器、田…...

2025届学术党必备的十大降AI率方案推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 当下,各种各样的AI内容检测工具越发普遍,致使AI生成的文本遭遇到较高…...

MMsegmentation 2.0.0 实战安装指南:从环境准备到成功验证的完整流程

1. 环境准备:打好MMsegmentation安装基础 第一次接触MMsegmentation的朋友可能会被各种依赖项搞晕,其实只要按部就班来,安装过程并不复杂。我去年在团队内部部署MMsegmentation时,发现90%的安装问题都出在环境准备阶段。下面我就…...

技术深度解析:IDR - Delphi二进制逆向工程的静态分析架构

技术深度解析:IDR - Delphi二进制逆向工程的静态分析架构 【免费下载链接】IDR Interactive Delphi Reconstructor 项目地址: https://gitcode.com/gh_mirrors/id/IDR IDR(Interactive Delphi Reconstructor)作为一款专注于Delphi编译…...

高维量子态路径编码与多模相位稳定技术解析

1. 量子纠缠分发技术背景解析量子纠缠是量子力学最奇特的现象之一,两个或多个量子系统即使相隔遥远,其量子态仍保持关联性。这种非经典的关联特性已成为量子通信、量子计算等领域的核心资源。在传统量子通信系统中,我们通常使用二维量子比特&…...

手把手教你用STM32F103的GPIO口驱动DAC8552(附完整HAL库代码)

STM32F103 GPIO模拟SPI驱动DAC8552实战指南 在嵌入式系统开发中,高精度模拟信号输出是许多工业控制、测试测量设备的核心需求。虽然STM32F103系列内置了12位DAC模块,但对于需要16位分辨率的应用场景,外接专业数模转换芯片成为必选项。DAC8552…...

告别微信压缩!用群晖Synology Photos和cpolar,手机5G流量无损传照片回家

手机摄影师的私有云方案:用Synology Photos实现5G时代无损备份与分享 清晨的阳光透过咖啡馆的玻璃窗洒在桌面上,摄影爱好者小李刚用手机拍摄了一组街景照片。像许多追求画质的用户一样,他面临三个困扰:手机存储即将告急、微信分享…...