当前位置: 首页 > article >正文

Kubernetes和机器学习工作负载:硬核实践指南

Kubernetes和机器学习工作负载硬核实践指南 硬核开场各位技术老铁们今天咱们来聊聊Kubernetes和机器学习的那些事儿。别跟我说你还在本地跑模型训练那都2023年了现在玩机器学习容器化部署、分布式训练才是王道。Kubernetes作为容器编排的王者简直就是为机器学习工作负载量身定做的。今天susu就带你们一步步把ML workload跑在K8s上从单机到分布式从训练到推理全给你整明白 核心内容1. 为什么在Kubernetes上运行机器学习工作负载资源弹性根据训练需求自动扩缩容不用再为了一次性训练任务买高配机器环境一致性容器化确保训练和推理环境一致避免本地能跑线上崩了的尴尬多租户隔离团队共享集群资源按项目隔离资源利用最大化统一管理训练、推理、监控全在K8s里搞定运维成本直线下降2. 基础部署单机机器学习工作负载先从简单的开始咱们部署一个单机的TensorFlow训练任务。2.1 创建训练任务的Pod配置apiVersion: v1 kind: Pod metadata: name: tf-training labels: app: tf-training spec: containers: - name: tf-training image: tensorflow/tensorflow:2.10.0-gpu command: [python3] args: [-c, import tensorflow as tf; mnist tf.keras.datasets.mnist; (x_train, y_train), (x_test, y_test) mnist.load_data(); model tf.keras.models.Sequential([tf.keras.layers.Flatten(input_shape(28, 28)), tf.keras.layers.Dense(128, activationrelu), tf.keras.layers.Dropout(0.2), tf.keras.layers.Dense(10)]); model.compile(optimizeradam, losssparse_categorical_crossentropy, metrics[accuracy]); model.fit(x_train, y_train, epochs5); test_loss, test_acc model.evaluate(x_test, y_test, verbose2); print(\nTest accuracy:, test_acc)] resources: limits: nvidia.com/gpu: 1 volumeMounts: - name: data mountPath: /data volumes: - name: data emptyDir: {}2.2 部署并查看训练状态# 部署训练任务 kubectl apply -f tf-training.yaml # 查看训练日志 kubectl logs -f tf-training # 查看Pod状态 kubectl get pods tf-training3. 进阶分布式机器学习训练单机训练太慢安排咱们用Kubernetes部署分布式TensorFlow训练。3.1 创建分布式训练配置apiVersion: apps/v1 kind: Job metadata: name: tf-distributed-training spec: parallelism: 3 completions: 3 template: metadata: labels: app: tf-distributed spec: containers: - name: tf-worker image: tensorflow/tensorflow:2.10.0-gpu command: [bash, -c] args: - | if [ $POD_NAME tf-distributed-training-0 ]; then # 主节点 python3 -c import tensorflow as tf import os tf_config { cluster: { worker: [tf-distributed-training-0:2222, tf-distributed-training-1:2222, tf-distributed-training-2:2222] }, task: {type: worker, index: 0} } os.environ[TF_CONFIG] str(tf_config) strategy tf.distribute.MultiWorkerMirroredStrategy() with strategy.scope(): mnist tf.keras.datasets.mnist (x_train, y_train), (x_test, y_test) mnist.load_data() model tf.keras.models.Sequential([ tf.keras.layers.Flatten(input_shape(28, 28)), tf.keras.layers.Dense(128, activationrelu), tf.keras.layers.Dropout(0.2), tf.keras.layers.Dense(10) ]) model.compile(optimizeradam, losssparse_categorical_crossentropy, metrics[accuracy]) model.fit(x_train, y_train, epochs5, batch_size64) print(Training completed!) else # 工作节点 python3 -c import tensorflow as tf import os import time worker_index int(os.environ[POD_NAME].split(-)[-1]) tf_config { cluster: { worker: [tf-distributed-training-0:2222, tf-distributed-training-1:2222, tf-distributed-training-2:2222] }, task: {type: worker, index: worker_index} } os.environ[TF_CONFIG] str(tf_config) strategy tf.distribute.MultiWorkerMirroredStrategy() with strategy.scope(): mnist tf.keras.datasets.mnist (x_train, y_train), (x_test, y_test) mnist.load_data() model tf.keras.models.Sequential([ tf.keras.layers.Flatten(input_shape(28, 28)), tf.keras.layers.Dense(128, activationrelu), tf.keras.layers.Dropout(0.2), tf.keras.layers.Dense(10) ]) model.compile(optimizeradam, losssparse_categorical_crossentropy, metrics[accuracy]) model.fit(x_train, y_train, epochs5, batch_size64) print(fWorker {worker_index} completed!) fi env: - name: POD_NAME valueFrom: fieldRef: fieldPath: metadata.name resources: limits: nvidia.com/gpu: 1 restartPolicy: OnFailure3.2 部署分布式训练# 部署分布式训练任务 kubectl apply -f tf-distributed-training.yaml # 查看所有训练Pod kubectl get pods -l apptf-distributed # 查看主节点日志 kubectl logs -f tf-distributed-training-04. 模型服务部署TensorFlow Serving训练完模型总得部署服务吧安排用TensorFlow Serving在Kubernetes上部署模型推理服务。4.1 准备模型先把训练好的模型保存到存储卷里这里咱们用PVC。apiVersion: v1 kind: PersistentVolumeClaim metadata: name: model-pvc spec: accessModes: - ReadWriteOnce resources: requests: storage: 10Gi4.2 部署TensorFlow ServingapiVersion: apps/v1 kind: Deployment metadata: name: tf-serving labels: app: tf-serving spec: replicas: 2 selector: matchLabels: app: tf-serving template: metadata: labels: app: tf-serving spec: containers: - name: tf-serving image: tensorflow/serving:2.10.0 ports: - containerPort: 8501 volumeMounts: - name: model-volume mountPath: /models args: - --model_namemnist - --model_base_path/models/mnist resources: requests: cpu: 1 memory: 2Gi limits: cpu: 2 memory: 4Gi volumes: - name: model-volume persistentVolumeClaim: claimName: model-pvc --- apiVersion: v1 kind: Service metadata: name: tf-serving-service spec: selector: app: tf-serving ports: - port: 8501 targetPort: 8501 type: LoadBalancer4.3 测试模型服务# 部署服务 kubectl apply -f tf-serving.yaml # 查看服务状态 kubectl get svc tf-serving-service # 测试推理 MODEL_SERVICE_IP$(kubectl get svc tf-serving-service -o jsonpath{.status.loadBalancer.ingress[0].ip}) curl -X POST http://$MODEL_SERVICE_IP:8501/v1/models/mnist:predict -d {instances: [[[0.0, 0.0, 0.0, ..., 0.0]]]}5. 高级玩法使用Kubeflow管理机器学习工作流Kubernetes原生的配置玩腻了试试Kubeflow专为机器学习打造的K8s扩展。5.1 安装Kubeflow# 安装Kubeflow export KF_NAMEkubeflow export BASE_DIR/home/user/kubeflow export KF_DIR${BASE_DIR}/${KF_NAME} mkdir -p ${KF_DIR} cd ${KF_DIR} # 使用kfctl安装 wget -O kfctl.tar.gz https://github.com/kubeflow/kfctl/releases/download/v1.2.0/kfctl_v1.2.0-0-gbc038f9_linux.tar.gz tar -xvf kfctl.tar.gz # 部署Kubeflow ./kfctl apply -f https://raw.githubusercontent.com/kubeflow/manifests/v1.2-branch/kfdef/kfctl_k8s_istio.v1.2.0.yaml # 查看部署状态 kubectl get pods -n kubeflow5.2 使用Kubeflow Pipeline创建机器学习工作流# pipeline.py import kfp from kfp import dsl dsl.pipeline( nameMNIST Training Pipeline, descriptionA pipeline to train MNIST model on Kubernetes ) def mnist_training_pipeline(): # 数据准备 data_prep dsl.ContainerOp( nameData Preparation, imagetensorflow/tensorflow:2.10.0, command[python3, -c], arguments[import tensorflow as tf; mnist tf.keras.datasets.mnist; (x_train, y_train), (x_test, y_test) mnist.load_data(); import numpy as np; np.savez(\/data/mnist.npz\, x_trainx_train, y_trainy_train, x_testx_test, y_testy_test)] ) # 模型训练 training dsl.ContainerOp( nameModel Training, imagetensorflow/tensorflow:2.10.0-gpu, command[python3, -c], arguments[import numpy as np; data np.load(\/data/mnist.npz\); x_train, y_train, x_test, y_test data[x_train], data[y_train], data[x_test], data[y_test]; import tensorflow as tf; model tf.keras.models.Sequential([tf.keras.layers.Flatten(input_shape(28, 28)), tf.keras.layers.Dense(128, activation\relu\), tf.keras.layers.Dropout(0.2), tf.keras.layers.Dense(10)]); model.compile(optimizer\adam\, loss\sparse_categorical_crossentropy\, metrics[\accuracy\]); model.fit(x_train, y_train, epochs5); model.save(\/model/mnist_model\)] ) training.after(data_prep) # 模型评估 evaluation dsl.ContainerOp( nameModel Evaluation, imagetensorflow/tensorflow:2.10.0, command[python3, -c], arguments[import numpy as np; data np.load(\/data/mnist.npz\); x_test, y_test data[x_test], data[y_test]; import tensorflow as tf; model tf.keras.models.load_model(\/model/mnist_model\); test_loss, test_acc model.evaluate(x_test, y_test, verbose2); print(f\Test accuracy: {test_acc}\)] ) evaluation.after(training) if __name__ __main__: kfp.compiler.Compiler().compile(mnist_training_pipeline, mnist_pipeline.yaml)️ 最佳实践资源管理为训练任务设置合理的资源请求和限制使用节点亲和性将训练任务调度到GPU节点利用Kubernetes的自动扩缩容功能根据负载调整资源存储策略训练数据使用ReadWriteMany的存储类模型文件使用持久化存储确保训练结果不丢失考虑使用对象存储如S3、GCS存储大规模训练数据监控与日志部署Prometheus和Grafana监控GPU使用率和训练指标使用ELK栈收集和分析训练日志设置训练任务的健康检查和告警机制安全与隔离为不同的机器学习项目创建独立的命名空间使用RBAC控制对集群资源的访问对敏感数据进行加密存储和传输CI/CD集成建立模型训练和部署的CI/CD流水线自动测试模型性能并生成评估报告实现模型版本管理和回滚机制 总结Kubernetes不仅是容器编排的利器更是机器学习工作负载的理想运行环境。通过本文的实践你应该已经掌握了在Kubernetes上部署单机和分布式机器学习训练任务使用TensorFlow Serving部署模型推理服务利用Kubeflow管理端到端的机器学习工作流实施资源管理、存储策略、监控和安全的最佳实践记住技术的核心在于实践。别光看动手试试把你的机器学习模型部署到Kubernetes上体验一下云原生时代的机器学习工作流。有问题随时留言susu会第一时间回复你susu碎碎念分布式训练时节点间网络带宽很重要建议使用高速网络GPU资源珍贵训练完成后记得清理资源模型服务要考虑并发性能适当调整副本数Kubeflow虽然强大但部署复杂小团队可以从基础K8s开始觉得有用点个赞再走咱们下期见

相关文章:

Kubernetes和机器学习工作负载:硬核实践指南

Kubernetes和机器学习工作负载:硬核实践指南 🔥 硬核开场 各位技术老铁们,今天咱们来聊聊Kubernetes和机器学习的那些事儿。别跟我说你还在本地跑模型训练,那都2023年了!现在玩机器学习,容器化部署、分布式…...

LeetCode(移动零)

题目链接: https://leetcode.cn/problems/move-zeroes/ 题目描述: 给定一个数组 nums,编写一个函数将所有 0 移动到数组的末尾,同时保持非零元素的相对顺序。 请注意 ,必须在不复制数组的情况下原地对数组进行操作…...

从0到1构建企业级AI代码审查中枢(含Kubernetes Operator+策略DSL+审计溯源链):2026奇点大会开源项目DeepAudit v2.0全栈解析

第一章:2026奇点智能技术大会:AI代码审查工具 2026奇点智能技术大会(https://ml-summit.org) 在2026奇点智能技术大会上,多家头部AI工程团队联合发布了新一代开源AI代码审查工具链——Sentinel-Copilot,该工具聚焦于静态语义理解…...

JavaEE|多线程(一)

并发编程多进程和多线程是实现并发编程的两种技术手段。例如,每一个客户端请求发送到服务器上,服务器提供一个进程,给这个客户端进行服务线程和进程通过对操作系统的初步认识,我们可以知道操作系统是多任务操作系统,同…...

揭秘律所AI审查系统真实准确率:2026奇点大会披露的92.7%→99.1%跃迁路径及5个落地卡点

第一章:2026奇点智能技术大会:AI合同审查 2026奇点智能技术大会(https://ml-summit.org) 核心能力演进 本届大会首次公开展示了支持多法域语义对齐的合同审查模型ContractNet-4.2,其在中文《民法典》、美国UCC及欧盟GDPR条款交叉推理任务中…...

如何通过d2s-editor实现暗黑破坏神2存档的全面自定义配置

如何通过d2s-editor实现暗黑破坏神2存档的全面自定义配置 【免费下载链接】d2s-editor 项目地址: https://gitcode.com/gh_mirrors/d2/d2s-editor d2s-editor是一款专为《暗黑破坏神2》玩家设计的开源存档编辑器,支持原版及重制版(D2R)存档文件的深度编辑。…...

SITS2026邮件生成工具即将关闭免费API配额?倒计时47天——现在掌握这6个Prompt工程黄金指令,永久提效

第一章:SITS2026邮件生成工具即将关闭免费API配额?倒计时47天——现在掌握这6个Prompt工程黄金指令,永久提效 2026奇点智能技术大会(https://ml-summit.org) SITS2026邮件生成服务将于2026年9月30日正式终止免费API调用额度,当前…...

2025届最火的五大降重复率网站实际效果

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 知网AIGC检测系统是依靠深度学习以及语义分析这种技术的,它能够精确地识别出论文…...

专业的高效过滤器厂家推荐

专业的高效过滤器厂家推荐在当今对空气质量要求日益提高的时代,高效过滤器的重要性愈发凸显。选择一家专业的高效过滤器厂家至关重要,而广州灵洁空气净化设备制造有限公司就是值得推荐的优质之选。强大的研发实力广州灵洁空气净化设备制造有限公司拥有一…...

郭老师-前途无量者的特质:强心力与极致专注

前途无量者的特质:强心力与极致专注🌟 强心力与专注力:平庸与卓越的分水岭 什么样的人一眼看上去前途无量? 答案简单而深刻:那些极度珍视自己心力和时间的人。 对于任何人,尤其是从零开始的人来说&#xff…...

标杆案例解读:七年千亿投入,百度的背水一战!

2026年2月26日,百度发布2025年全年财报。 这是百度历史上首次在财报中详细披露AI业务的收入构成——AI业务全年营收400亿元,占总营收的31%。这意味着,布局AI十余年的百度,终于用自己的商业语言,给出了一个阶段性答案。…...

ANSYS ICEM CFD 非结构网格实战:手把手教你搞定带圆孔的周期性流动区域(附完整配置文件)

ANSYS ICEM CFD非结构网格实战:周期性流动区域建模与网格划分全解析 在计算流体动力学(CFD)模拟中,周期性流动区域的建模与网格划分一直是工程师面临的典型挑战。这类问题常见于散热器翅片阵列、涡轮机械叶片通道等场景&#xff0…...

别再凭感觉选三极管了!手把手教你计算MOS管驱动电流(附分立器件选型指南)

从数据手册到实战选型:MOS管驱动电流的精确计算与分立器件搭配指南 在硬件设计领域,MOS管的驱动问题就像电路板上的"暗礁"——表面看不见,却能让整个系统搁浅。我曾亲眼见过一个资深工程师花费三天调试的电源模块,最终发…...

idea结合git和Gitee的初步使用

一.什么是git? git是一个分布式版本控制工具,核心作用是管理代码的版本,方便多人协作开发。“分布式”指每个人的电脑上都有一个完整的仓库,无需依赖网络即可进行本地版本管理;而版本控制不仅能实现对Gitee(云端远程仓…...

IndexTTS2终极指南:如何用一句话生成带情绪的AI语音

IndexTTS2终极指南:如何用一句话生成带情绪的AI语音 【免费下载链接】index-tts An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System 项目地址: https://gitcode.com/gh_mirrors/in/index-tts 你是否曾经遇到过这样的场景&…...

从零构建专业级电磁仿真工作流:gprMax实战进阶指南

从零构建专业级电磁仿真工作流:gprMax实战进阶指南 【免费下载链接】gprMax gprMax is open source software that simulates electromagnetic wave propagation using the Finite-Difference Time-Domain (FDTD) method for numerical modelling of Ground Penetra…...

DeepMosaics实战手册:5分钟掌握AI智能马赛克处理技术

DeepMosaics实战手册:5分钟掌握AI智能马赛克处理技术 【免费下载链接】DeepMosaics Automatically remove the mosaics in images and videos, or add mosaics to them. 项目地址: https://gitcode.com/gh_mirrors/de/DeepMosaics 还在为图片中的马赛克烦恼吗…...

LLaVA-v1.6-7b美赛实战:数学建模可视化分析

LLaVA-v1.6-7b美赛实战:数学建模可视化分析 1. 引言 数学建模竞赛中,数据可视化往往是决定成败的关键环节。传统的建模流程需要选手在数据处理、图表生成和报告撰写之间反复切换,耗费大量时间。而LLaVA-v1.6-7b的出现,为数学建模…...

从零到一:5个简单技巧打造你的专属游戏库界面

从零到一:5个简单技巧打造你的专属游戏库界面 【免费下载链接】Playnite Video game library manager with support for wide range of 3rd party libraries and game emulation support, providing one unified interface for your games. 项目地址: https://git…...

深入解析MAA自动化框架:构建高效任务调度系统的3大核心模块

深入解析MAA自动化框架:构建高效任务调度系统的3大核心模块 【免费下载链接】MaaAssistantArknights 《明日方舟》小助手,全日常一键长草!| A one-click tool for the daily tasks of Arknights, supporting all clients. 项目地址: https:…...

告别手动字幕!清音刻墨Qwen3智能对齐系统保姆级部署指南

告别手动字幕!清音刻墨Qwen3智能对齐系统保姆级部署指南 1. 为什么需要智能字幕对齐系统? 在视频制作领域,字幕制作往往是后期工作中最耗时费力的环节之一。传统字幕制作流程通常需要: 人工听写音频内容逐句输入文字手动调整时…...

传统摄影师如何考取AI影像生成师认证?路径解析

传统摄影师的核心能力——构图、用光、色彩、瞬间捕捉——在AI时代正在被重新定义。Midjourney、Stable Diffusion、Runway等工具的爆发,让“输入文字生成高质量影像”成为现实。但这也带来了新的职业方向:AI影像生成师。它不是要取代摄影师,…...

ADS 2023 Update2 实战:手把手教你搭建2.4GHz零中频接收机(附完整仿真文件)

ADS 2023 Update2实战:2.4GHz零中频接收机从设计到问题排查全指南 在射频集成电路领域,零中频架构因其省去片外中频滤波器的优势,正成为高度集成化芯片设计的首选方案。不同于需要镜像抑制滤波器的超外差结构,零中频接收机通过IQ…...

保姆级教程:在Ubuntu 22.04上为ROS2 Humble编译并部署OpenCV 4.10.0(含动态库拷贝避坑)

深度解析:Ubuntu 22.04下ROS2 Humble与OpenCV 4.10.0的高效集成方案 在机器人视觉开发领域,OpenCV与ROS2的版本兼容性问题一直是开发者面临的典型挑战。当项目需要使用特定版本的OpenCV功能(如DNN模块对ONNX模型的支持)时&#xf…...

精选Java开源项目速览:涵盖后台框架、ERP系统与数据大屏解决方案

精选Java开源项目速览:涵盖后台框架、ERP系统与数据大屏解决方案 以下是一份聚焦Java生态的高质量开源项目清单,涵盖通用后台开发框架、企业级ERP系统及现代化数据可视化平台。所有推荐项目均保持活跃维护状态,具备清晰的开源协议与完善的技…...

从零到一:基于kkFileView快速搭建企业级文件在线预览服务

1. 为什么企业需要文件在线预览服务? 想象一下这个场景:你的团队正在协作编辑一份重要合同,销售同事在微信上发了个docx文件,产品经理用企业微信回了份xlsx数据,而设计部门丢过来一堆psd和ai源文件。这时候你需要逐个下…...

Hive Beeline连接报错User not allowed to impersonate?手把手教你修改core-site.xml搞定

Hive Beeline连接报错User not allowed to impersonate?深度解析与精准修复指南 当你在深夜加班调试Hive连接时,突然跳出的User is not allowed to impersonate红色报错信息,是否曾让你抓狂?这个看似简单的权限问题背后&#xff0…...

Aria2 RPC接口任意文件写入漏洞实战剖析

1. Aria2 RPC接口安全风险全景扫描 Aria2作为一款轻量级多协议下载工具,凭借其高效的下载性能和灵活的RPC接口设计,在开发者群体中广受欢迎。但很多运维人员可能不知道,默认配置下的Aria2 RPC服务就像敞开着大门的保险库,我曾在企…...

地平线DiffusionDrive v1和v2的细节对比解读

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近30个方向学习路线作者 | 三两声知乎编辑 | 自动驾驶之心原文链接:https://zhuanlan.zhihu.com/p/2023721669739430016本文只做学术分享,如有侵权,联系删文>&g…...

Python数据分析教程笔记

Python数据分析教程笔记 【免费下载链接】mx-bili-plugin 项目地址: https://gitcode.com/gh_mirrors/mx/mx-bili-plugin 视频:Python数据分析入门 重点内容 [00:15:30] 数据清洗的基本步骤 处理缺失值处理异常值数据标准化 [00:28:45] Pandas数据处理技巧…...