当前位置: 首页 > article >正文

KCD Beijing 2026 分享回顾:从 Device Plugin 到 DRA——GPU 调度范式升级与 HAMi-DRA 实践

KCD Beijing 2026 是近年来规模最大的 Kubernetes 社区大会之一超过 1000 人报名参与刷新了历届 KCD 北京的记录。HAMi 社区不仅受邀进行了技术分享也在现场设立了展台与来自云原生与 AI 基础设施领域的开发者和企业用户进行了深入交流。本次分享由两位 HAMi 社区核心贡献者完成•王纪飞「Dynamia 密瓜智能」HAMi ApproverHAMi-DRA 主要贡献者•James Deng第四范式HAMi Reviewer分享主题为从 Device Plugin 到 DRAGPU 调度范式升级与 HAMi-DRA 实践。本文结合现场分享内容与幻灯片做一次更完整的技术回顾。附幻灯片下载https://github.com/Project-HAMi/community/blob/main/talks/01-kcd-beijing-20260323/KCD-Beijing-2026-GPU-Scheduling-DRA-HAMi-Wang-Jifei-James-Deng.pdf。现场回顾大会主会场观众注册中HAMi 展台前参会者前来交流打卡志愿者在为观众盖章王纪飞正在分享中James Deng 正在分享GPU 调度范式正在发生变化这次分享的核心其实不只是 DRA 本身而是一个更大的转变GPU 正在从设备变成资源对象。这个转变背后是 AI workload 对 GPU 使用方式的根本性改变——GPU 不再适合以整卡独占的方式被简单分配而是需要被共享、切分、调度和治理。Device Plugin 的天花板传统 Device Plugin 模型的问题本质上在于表达能力不足• 只能描述数量nvidia.com/gpu: 1• 无法表达多维资源显存 / 核数 / 切片• 无法表达多卡组合• 无法表达拓扑关系NUMA / NVLink这些限制直接导致• 调度逻辑外溢extender / sidecar• 系统复杂度上升• 并发调度能力受限当 AI workload 进入推理服务、多租户混合场景后这些问题的严重性被迅速放大。DRA资源建模能力的跃迁DRADynamic Resource Allocation是 Kubernetes 社区在资源模型层面的一次重要升级其核心优势包括•多维资源建模能力——不再局限于数量可以表达显存、算力等细粒度维度•完整设备生命周期管理——从资源发现、分配到回收的完整闭环•细粒度资源分配——支持更灵活的资源组合方式关键的结构性变化在于资源申请从 Pod 内嵌字段变成独立的 ResourceClaim 对象。这意味着 GPU 资源获得了与 Pod、PVC 同等的一等公民地位调度器可以像管理存储卷一样管理 GPU 资源。现实问题DRA 太复杂了DRA 的能力毋庸置疑但有一个经常被忽视的现实问题UX 明显退化。Device Plugin 的写法resources: limits: nvidia.com/gpu: 1DRA 的写法spec: devices: requests: - exactly: allocationMode: ExactCount capacity: requests: memory: 4194304k count: 1同时还需要编写 CEL selectordevice.attributes[gpu.hami.io].type hami-gpu对比之下结论非常明确DRA 是能力升级但用户体验明显退化。对于已经在使用 Device Plugin 的企业来说迁移成本不只是改写 YAML 这么简单而是整个团队需要学习一套全新的资源声明范式。HAMi-DRA 的关键突破自动化迁移这是这次分享最有价值的部分之一。HAMi 的做法不是让用户直接用 DRA而是采用了一个更务实的策略让用户继续使用 Device Plugin 的写法由系统自动转换成 DRA。工作机制通过Mutating WebhookHAMi-DRA 在 Pod 创建阶段自动完成转换输入用户侧保持 Device Plugin 语法nvidia.com/gpu: 1 nvidia.com/gpumemory: 4000Webhook 自动转换• 生成 ResourceClaim 对象• 构造 CEL selector• 注入设备约束UUID / GPU 类型输出系统内部• 标准的 DRA 资源对象• 可被调度器识别的资源表达这个设计的核心价值在于将 DRA 从专家接口变成了普通用户接口。用户不需要理解 ResourceClaim、CEL selector 这些新概念只需要像以前一样写nvidia.com/gpu系统会自动处理底层复杂性。DRA Driver不只是注册资源DRA Driver 的实现复杂度远超想象。它不只是把资源注册到调度器而是承担了完整的设备生命周期管理三个核心接口•Publish Resources——向调度器发布可用资源•Prepare Resources——Pod 创建前的资源准备注入 libvgpu.so、配置 ld.so.preload、管理环境变量和临时目录•Unprepare Resources——Pod 删除后的资源回收这意味着GPU 调度已经进入运行时编排层不再只是简单的资源分配。从用户角度看Pod 创建的时间线被拉长了——调度器匹配资源后Driver 还需要完成设备初始化、运行时注入等一系列操作才能让 Pod 正常运行。性能提升不只是更优雅HAMi-DRA 不只是架构更优雅在性能方面也有实质性的提升。Pod 创建时间对比• HAMi传统模式峰值约 42,000• HAMi-DRA显著降低提升约 30%这一提升来自 DRA 的资源预绑定机制在调度阶段就已经确定了资源分配减少了调度冲突和重试次数。对于大规模 AI 集群来说Pod 创建速度直接影响任务启动延迟和集群吞吐量30% 的提升在生产环境中意义重大。可观测性范式的转变一个容易被低估但非常重要的变化是可观测性。传统模型• 资源信息来自 Node• 使用情况来自 Pod• 需要聚合和推断才能获得完整的资源视图DRA 模型• ResourceSlice 描述设备清单• ResourceClaim 描述资源分配•资源视角是一等公民这意味着可观测性从推断变成了直接建模。运维团队可以直接通过 ResourceClaim 了解每张 GPU 被谁占用、分配了多少显存、还有多少余量而不需要从 Node 状态和 Pod 配置中反推。统一建模异构设备的未来方向如果设备属性可以被标准化那么一个与厂商无关的调度模型就成为可能。例如通过标准化的属性字段描述• PCIe root complex• PCI bus ID• GPU 核心属性这指向了一个更大的叙事DRA 是异构算力抽象的起点。当华为昇腾、寒武纪、AMD 等不同厂商的加速器都通过统一的属性模型接入 Kubernetes调度器就能真正实现跨厂商的资源管理而不再需要为每个硬件厂商维护独立的调度逻辑。更大的趋势Kubernetes 正在成为 AI 控制平面将这些变化串联起来可以看到一个清晰的趋势•从调度机器到调度资源对象——Node 不再是最小调度单元•从设备到虚拟资源——GPU 不再是一张物理卡而是可切分、可组合的资源•从命令式到声明式——调度逻辑被资源声明所替代本质上Kubernetes 正在演进为 AI 基础设施的控制平面。HAMi 的定位在这一趋势下HAMi 的定位正在变得越来越清晰面向 Kubernetes 的 GPU 资源层。•向下适配异构 GPUNVIDIA / 华为昇腾 / 寒武纪等•向上支持 AI workload训练 / 推理 / Agent•中间调度 虚拟化 资源抽象而 HAMi-DRA正是将这层资源能力与 Kubernetes 原生模型对齐的关键一步。结语这次 KCD Beijing 2026 分享的真正价值不只是介绍了 DRA而是回答了一个更实际的问题如何把一个正确但难用的模型变成一个今天就能用的系统HAMi-DRA 的答案是•不改变用户习惯——继续使用 Device Plugin 语法•吸收 DRA 能力——底层自动转换为 DRA 资源模型•内部消化复杂性——Webhook、Driver、生命周期管理全部由系统处理这也是 HAMi 社区一直坚持的方式通过社区协作推动 AI 基础设施进步而不是封闭系统。来自不同公司的贡献者在真实生产环境中验证方案通过社区共享经验让更多人受益。如果你对 HAMi-DRA 或 GPU 调度感兴趣欢迎加入 HAMi 社区与我们一起推动 Kubernetes 上的 AI 算力资源管理。关于密瓜智能「上海密瓜智能科技有限公司」专注 GPU 虚拟化与异构算力调度提升 AI 场景下的算力利用率公司发起并主导了 CNCF 开源项目 HAMi这是业界唯一实现灵活、按需、弹性、可靠 GPU 虚拟化的开源项目已支持主流 AI 芯片生态。了解更多信息欢迎访问官网dynamia.ai联系邮箱infodynamia.ai。

相关文章:

KCD Beijing 2026 分享回顾:从 Device Plugin 到 DRA——GPU 调度范式升级与 HAMi-DRA 实践

KCD Beijing 2026 是近年来规模最大的 Kubernetes 社区大会之一,超过 1000 人报名参与,刷新了历届 KCD 北京的记录。HAMi 社区不仅受邀进行了技术分享,也在现场设立了展台,与来自云原生与 AI 基础设施领域的开发者和企业用户进行了…...

Amazon Q 从入门到实战,AWS 专属 AI 助手超全指南

目录 一、Amazon Q 到底是什么 二、Amazon Q 有两个版本 1、Amazon Q Developer(给开发者/运维) 2、Amazon Q Bussiness(给企业/业务人员) 三、Amazon Q能解决什么实际问题 四、Amazon Q 和 Chat GPT 同类助手的有什么区别 …...

Token 成本暴跌 280 倍,为什么用 AI 替代初级开发,依然算不拢账?

从董事会的 PPT 翻车,看 AI 降本神话背后的全成本真相上周我旁听了一场 C-suite 高管会议,亲眼看着一位副总裁被自己的 PPT 逼入绝境。会议的主题是 AI 项目的成本收益,他准备了一套无懈可击的逻辑:大模型 Token 价格 3 年暴跌 28…...

别再死记硬背了!用PyTorch代码逐行拆解Transformer中的QKV矩阵计算

用PyTorch代码逐行拆解Transformer中的QKV矩阵计算 在自然语言处理领域,Transformer架构已经成为事实上的标准。但很多开发者发现,仅通过理论图示理解其核心的注意力机制仍然存在困难。本文将带你用PyTorch代码从零开始实现QKV矩阵的计算过程&#xff0c…...

忍者像素绘卷:天界画坊Python入门实战:零基础AI绘画环境搭建

忍者像素绘卷:天界画坊Python入门实战:零基础AI绘画环境搭建 1. 前言:为什么选择像素风格AI绘画 像素艺术近年来在独立游戏、数字艺术领域持续升温。这种复古又充满创意的表现形式,让许多开发者跃跃欲试。但传统像素画需要扎实的…...

房屋建筑学-门窗

一、门窗概述门窗的作用——采光、通风、通行(按照国家相应的规范要求,一般居住建筑的起居室、卧室的窗户面积不应小于地板面积的1/7;公建建筑方面,学校为1/5,医院手术室为1/2~1/3,辅助房间为1/12&#xff…...

openclaw v2026.4.1 发布!16 大核心功能升级 + 28 项关键修复,AI 智能体网关全面进化,稳定性与安全性再攀高峰

一、前言:开源AI智能体标杆再升级,v2026.4.1引领本地自动化新潮流 2026年4月2日,开源AI智能体执行网关领域的标杆项目OpenClaw正式推出v2026.4.1最新版本。作为一款主打本地优先、自托管、全开源的AI智能体框架,OpenClaw自诞生以来…...

javaee-网络原理2

⽹络原理-TCP/IP ①应用层:规则 → 格式 → 实际用途讲解↓ (1)定义应用之间怎么通信比如:浏览器怎么请求网页、APP 怎么跟服务器发数据。 谁先说话什么时候发请求什么时候回响应出现错误怎么办一次会话怎么开始、怎么结束 比如 HTTP 协议就明确规定&…...

工业控制C++安全生命周期管理缺失的5个致命断点(某汽车电池BMS项目因第4点导致ASIL-B降级,完整V模型追溯报告首次公开)

第一章:工业控制C安全生命周期管理缺失的5个致命断点(某汽车电池BMS项目因第4点导致ASIL-B降级,完整V模型追溯报告首次公开) 在高完整性工业控制系统中,C代码的安全生命周期管理远非“编译通过即交付”。某头部车企BMS…...

Qwen-Image-2512像素艺术生成实操:Gradio界面各参数作用与推荐值

Qwen-Image-2512像素艺术生成实操:Gradio界面各参数作用与推荐值 1. 快速上手像素艺术生成 想创作复古游戏风格的像素画?Qwen-Image-2512结合Pixel Art LoRA的解决方案让你轻松实现。这个服务特别适合游戏开发者、独立艺术家和怀旧风格爱好者&#xff…...

网站的页面加载速度和SEO有什么关系

网站的页面加载速度和SEO有什么关系 在当今互联网时代,网站的页面加载速度和SEO(搜索引擎优化)之间的关系是一个不可忽视的重要问题。在用户体验和搜索引擎排名方面,页面加载速度起着至关重要的作用。本文将从问题分析、原因说明…...

从Eclipse转IntelliJ IDEA的老司机踩坑记:20个必改设置让你的迁移过程更顺滑

从Eclipse转IntelliJ IDEA的老司机踩坑记:20个必改设置让你的迁移过程更顺滑 第一次打开IntelliJ IDEA时,那种既熟悉又陌生的感觉会让任何Eclipse老手感到不安。菜单栏去哪了?我的项目视图怎么变了?为什么快捷键全都不对&#xff…...

intv_ai_mk11开源镜像深度解析:为何选择Llama架构+7B规模+Q4量化黄金组合

intv_ai_mk11开源镜像深度解析:为何选择Llama架构7B规模Q4量化黄金组合 1. 为什么选择Llama架构7B规模Q4量化组合 在构建AI对话机器人时,模型架构、参数规模和量化方式的选择直接影响最终效果和部署成本。intv_ai_mk11采用的Llama架构7B参数Q4量化组合…...

网站纠错页面对 SEO 有什么作用_网站图片和视频优化对 SEO 有什么技巧

网站纠错页面对 SEO 有什么作用 在网站管理和搜索引擎优化(SEO)方面,纠错页面的作用常常被忽视。网站纠错页面实际上对 SEO 有着重要的影响。当用户访问一个网站时,如果遇到 404 错误(页面未找到)或其他错…...

Open-AutoGLM场景实战:电商购物、出行旅游、内容浏览一键完成

Open-AutoGLM场景实战:电商购物、出行旅游、内容浏览一键完成 1. 引言:手机AI助手的革命性突破 想象一下这样的场景:早上醒来,你对手机说"帮我订一杯星巴克拿铁和一份三明治",手机自动完成打开外卖应用、选…...

Jimeng LoRA效果对比:不同GPU型号(3090/4090/A10/A100)显存占用实测

Jimeng LoRA效果对比:不同GPU型号(3090/4090/A10/A100)显存占用实测 1. 项目简介 今天给大家带来一个特别实用的技术评测——Jimeng(即梦)LoRA模型在不同GPU上的显存占用实测。如果你正在纠结该用哪款显卡来跑AI绘画…...

Qwen3-VL-2B-Instruct保姆级教程:视觉对话机器人部署

Qwen3-VL-2B-Instruct保姆级教程:视觉对话机器人部署 1. 环境准备与快速部署 想要体验AI视觉对话的神奇能力吗?Qwen3-VL-2B-Instruct让你不用昂贵的显卡也能拥有一个能"看懂"图片的智能助手。这个教程将手把手带你完成整个部署过程&#xff…...

PDF-Extract-Kit-1.0效果展示:高精度表格识别与公式还原真实案例集

PDF-Extract-Kit-1.0效果展示:高精度表格识别与公式还原真实案例集 想象一下,你手头有一份满是复杂表格和数学公式的PDF学术论文,或者一份财务报告。你需要把里面的数据提取出来,做成Excel表格进行分析,或者把那些复杂…...

文脉定序保姆级教程:3步完成BGE-Reranker-v2-m3镜像免配置部署

文脉定序保姆级教程:3步完成BGE-Reranker-v2-m3镜像免配置部署 你是否遇到过这样的烦恼?用自己搭建的知识库或者搜索引擎提问,系统确实返回了一大堆结果,但最相关、最准确的答案却淹没在列表的中间甚至末尾。传统的检索方法&…...

Llama-3.2V-11B-cot效果展示:模型对‘正常但可疑’图像模式的异常检测能力

Llama-3.2V-11B-cot效果展示:模型对正常但可疑图像模式的异常检测能力 1. 模型能力概览 Llama-3.2V-11B-cot是基于Meta Llama-3.2V-11B-cot多模态大模型开发的高性能视觉推理工具,专门针对双卡4090环境进行了深度优化。该模型具备以下核心能力&#xf…...

开源轻量模型新星:Qwen1.5-0.5B-Chat部署趋势分析

开源轻量模型新星:Qwen1.5-0.5B-Chat部署趋势分析 1. 项目概述 Qwen1.5-0.5B-Chat是阿里通义千问开源系列中的轻量级智能对话模型,基于ModelScope(魔塔社区)生态构建。这个仅有5亿参数的模型在保持良好对话能力的同时&#xff0…...

Pixel Couplet Gen效果展示:基于用户画像(年龄/地域)的像素春联风格个性化推荐

Pixel Couplet Gen效果展示:基于用户画像(年龄/地域)的像素春联风格个性化推荐 1. 项目概览 Pixel Couplet Gen是一款融合传统春节文化与现代像素艺术风格的AI春联生成器。通过ModelScope大模型的强大生成能力,结合精心设计的8-…...

低成本GPU算力玩转大模型编剧:Pixel Script Temple双卡并行部署实操手册

低成本GPU算力玩转大模型编剧:Pixel Script Temple双卡并行部署实操手册 1. 项目概述 Pixel Script Temple是一款专为剧本创作设计的AI工具,基于Qwen2.5-14B-Instruct大模型深度微调而成。它最大的特点是能够在消费级GPU硬件上实现高效运行&#xff0c…...

数仓分层设计避坑指南:从ODS到ADS,我的团队踩过的5个典型雷区与优化方案

数仓分层设计避坑指南:从ODS到ADS,我的团队踩过的5个典型雷区与优化方案 三年前接手公司数据中台重构项目时,我们团队曾天真地认为数仓分层不过是教科书式的流程化操作。直到某次大促期间,凌晨三点被警报吵醒——ADS层报表查询超时…...

OpenClaw v2026.4.1 深度剖析报告:任务系统、协作生态与安全范式的全面跃迁

摘要本报告旨在对 OpenClaw 于 2026 年 4 月 2 日发布的 v2026.4.1 版本进行一次全面、深入、颗粒度至极的技术与战略解构。该版本由 30 余位社区贡献者共同完成,标志着 OpenClaw 在经历了 3 月份“架构重塑”与“安全加固”的底层革命后,正式迈入“体验…...

Phi-4-mini-reasoning从零开始:学生自学AI推理工具搭建全过程

Phi-4-mini-reasoning从零开始:学生自学AI推理工具搭建全过程 1. 为什么选择Phi-4-mini-reasoning 作为一名对AI技术充满好奇的学生,我一直在寻找一个适合自学的推理模型。Phi-4-mini-reasoning以其专注推理任务的特点吸引了我。与通用聊天模型不同&am…...

Git【企业级开发模型】

一、为什么需要企业级开发模型? 一个软件从零开始到最终交付,大致需要经历:规划 → 编码 → 构建 → 测试 → 发布 → 部署 → 维护。在个人项目中,你一个人可以完成所有环节。但在企业中,角色分工明确: 开…...

支持RTX 30/40系显卡:PyTorch-2.x-Universal-Dev-v1.0镜像GPU验证指南

支持RTX 30/40系显卡:PyTorch-2.x-Universal-Dev-v1.0镜像GPU验证指南 1. 引言:为什么需要验证GPU环境 在深度学习项目开发中,GPU加速是提升模型训练效率的关键因素。特别是对于RTX 30/40系列显卡用户,正确配置CUDA环境与PyTorc…...

OpenClaw移动端适配:通过飞书调用Kimi-VL-A3B-Thinking多模态服务

OpenClaw移动端适配:通过飞书调用Kimi-VL-A3B-Thinking多模态服务 1. 为什么需要移动端适配 作为一个长期依赖OpenClaw进行本地自动化任务的用户,我最近遇到了一个痛点:当我在户外或出差时,无法方便地使用OpenClaw的强大功能。虽…...

Qwen3-1.7B能做什么?实测写邮件、生成故事、智能聊天

Qwen3-1.7B能做什么?实测写邮件、生成故事、智能聊天 1. 认识Qwen3-1.7B Qwen3(千问3)是阿里巴巴集团开源的新一代通义千问大语言模型系列中的一员,1.7B版本虽然参数量不大,但在日常应用中表现出色。这个17亿参数的模…...