当前位置: 首页 > article >正文

CANN-昇腾NPU-推理服务高可用-怎么做到99.99%可用性

99% 可用性意味着一年宕机时间 53 分钟。推理服务要做到这个指标需要解决NPU 故障、OOM、网络中断、版本回滚失败。这篇讲在昇腾NPU上的具体做法。可用性计算99.9% 8.76 小时/年 99.99% 52.6 分钟/年 99.999% 5.26 分钟/年99% 是多数在线服务的目标。99.999%金融级需要多机房容灾。故障域隔离隔离级别 1进程级# 每个推理请求在独立进程处理frommultiprocessingimportProcess,Queuedefworker(queue_in,queue_out,device_id):modelLLM(model_id,devicefnpu:{device_id})whileTrue:reqqueue_in.get()resultmodel.generate(req.prompt)queue_out.put(result)# 主进程负责调度worker 崩溃不影响其他 worker某个请求导致 NPU 崩溃如 OOM只影响当前 worker主进程重启它即可。隔离级别 2容器级# 每个 NPU 一个容器 FROM cann:8.5 # 只暴露推理端口 EXPOSE 8000 # 健康检查 HEALTHCHECK --interval10s --timeout5s \ CMD curl -f http://localhost:8000/health || exit 1Kubernetes 的 Pod 健康检查失败 → 自动重启容器 → 30 秒内恢复。隔离级别 3机器级Load Balancer (SLB) ├── 机器 A8 卡→ 容器 1-8 ├── 机器 B8 卡→ 容器 9-16 └── 机器 C8 卡→ 容器 17-24某台机器宕机LB 把流量切到另外两台。需要 3 台机器才能达到 99.99%1 台宕机不影响服务。健康检查检查项 1NPU 是否正常fromfastapiimportFastAPI,HTTPException appFastAPI()app.get(/health)defhealth_check():try:# 检查 NPU 是否可访问torch.randn(1,devicenpu:0)return{status:ok}exceptExceptionase:raiseHTTPException(status_code503,detailstr(e))检查项 2模型是否加载完成modelNoneapp.on_event(startup)defload_model():globalmodel modelLLM(model_id,devicenpu:0)app.get(/health)defhealth_check():ifmodelisNone:raiseHTTPException(status_code503,detailModel not loaded)# ... 检查 NPUreturn{status:ok}检查项 3推理是否正常app.get(/health)defhealth_check():# ... 前面的检查try:# 用简短 prompt 测试推理resultmodel.generate(Hi,max_new_tokens5)iflen(result)0:raiseException(Empty output)exceptExceptionase:raiseHTTPException(status_code503,detailstr(e))return{status:ok}优雅降级NPU 故障时降级到 CPU 推理慢但可用classFallbackLLM:def__init__(self,model_id):try:self.model_npuLLM(model_id,devicenpu:0)self.npu_availableTrueexcept:self.npu_availableFalsedefgenerate(self,prompt,**kwargs):ifself.npu_available:try:returnself.model_npu.generate(prompt,**kwargs)except:self.npu_availableFalse# 降级到 CPUifnothasattr(self,model_cpu):self.model_cpuLLM(model_id,devicecpu)returnself.model_cpu.generate(prompt,**kwargs)CPU 推理速度是 NPU 的 1/50但总比返回 503 好。滚动更新新版本上线时先启动新版本容器健康检查通过后再下线旧版本# Kubernetes DeploymentapiVersion:apps/v1kind:Deploymentspec:replicas:8strategy:type:RollingUpdaterollingUpdate:maxSurge:2# 最多多 2 个 PodmaxUnavailable:0# 更新期间不允许不可用template:spec:containers:-name:inferenceimage:inference:v2.0readinessProbe:# 健康检查通过后才接收流量httpGet:path:/healthport:8000initialDelaySeconds:60# 模型加载需要时间periodSeconds:10更新期间始终有 8 个可用 Pod零宕机。监控和告警关键指标和告警阈值# Prometheus 告警规则groups:-name:inference_alertsrules:-alert:InferenceHighLatencyexpr:histogram_quantile(0.99,inference_latency_seconds)1for:5mannotations:summary:推理 P99 延迟 1s-alert:InferenceHighErrorRateexpr:rate(inference_requests_total{statuserror}[5m]) / rate(inference_requests_total[5m])0.01for:2mannotations:summary:推理错误率 1%-alert:NPUUnavailableexpr:up{jobnpu_health} 0for:1mannotations:summary:NPU 不可用实测可用性配置3 台机器 × 8 卡K8s 滚动更新NPU 健康检查。场景恢复时间对可用性影响单个 NPU 故障30s容器重启可忽略单台机器宕机0LB 切流量0版本回滚2 分钟滚动0机房断电5 分钟切换到备用机房5 分钟全年宕机时间约 30 分钟 → 可用性 99.994%达到目标。推理服务高可用的关键是故障域隔离进程/容器/机器、健康检查NPU/模型/推理、优雅降级NPU → CPU、滚动更新零宕机。三台机器 K8s 可以做到 99.99%。仓库在这里https://atomgit.com/cann/ATB

相关文章:

CANN-昇腾NPU-推理服务高可用-怎么做到99.99%可用性

99% 可用性意味着一年宕机时间 < 53 分钟。推理服务要做到这个指标&#xff0c;需要解决&#xff1a;NPU 故障、OOM、网络中断、版本回滚失败。这篇讲在昇腾NPU上的具体做法。 可用性计算 99.9% 8.76 小时/年 99.99% 52.6 分钟/年 99.999% 5.26 分钟/年99% 是多数在…...

Linux内核安全模块深入剖析【2.6】

第 11 章 Yama11.1 简介Yama 是一个源自古印度语的英文单词&#xff0c;翻译成汉语就是“阎罗”&#xff0c;阎罗是印度神话中掌管地狱的神。Yama 可以称为半个安全模块&#xff0c;说它是“半个”&#xff0c;原因是&#xff1a;&#xff08;1&#xff09;它是目前&#xff08…...

告别野指针和内存泄漏:用Cppcheck给你的C/C++项目做个免费‘体检’(附VS项目集成教程)

用Cppcheck为C/C项目构建自动化代码质量防护网 在软件开发领域&#xff0c;代码质量直接影响着产品的稳定性和安全性。对于C/C这类系统级语言来说&#xff0c;内存泄漏、野指针等问题往往潜伏在代码深处&#xff0c;直到运行时才突然爆发。而静态代码分析工具就像一位经验丰富的…...

STM32F103驱动TFT-LCD屏避坑指南:FSMC时序配置与ILI9341初始化那些事儿

STM32F103驱动TFT-LCD屏的实战技巧&#xff1a;时序优化与初始化陷阱全解析 1. 硬件连接与FSMC基础配置 对于STM32F103开发者而言&#xff0c;驱动TFT-LCD屏最常见的硬件方案是通过FSMC&#xff08;灵活的静态存储控制器&#xff09;接口模拟8080并行时序。这种设计巧妙利用了S…...

从仿真曲线到实际性能:手把手教你用IPKISS分析MZI Lattice Filter的插损与带宽

从仿真曲线到实际性能&#xff1a;手把手教你用IPKISS分析MZI Lattice Filter的插损与带宽 在光子集成电路设计中&#xff0c;仿真结果往往只是第一步。真正考验工程师功力的&#xff0c;是如何从这些曲线中提取出有工程价值的性能指标。本文将带您深入解读MZI Lattice Filter的…...

如何高效管理macOS安装文件?这款跨平台工具给你答案

如何高效管理macOS安装文件&#xff1f;这款跨平台工具给你答案 【免费下载链接】gibMacOS Py2/py3 script that can download macOS components direct from Apple 项目地址: https://gitcode.com/gh_mirrors/gi/gibMacOS 在技术爱好者和系统管理员的世界里&#xff0c…...

Display Driver Uninstaller架构解析:深度驱动清理技术原理与最佳实践

Display Driver Uninstaller架构解析&#xff1a;深度驱动清理技术原理与最佳实践 【免费下载链接】display-drivers-uninstaller Display Driver Uninstaller (DDU) a driver removal utility / cleaner utility 项目地址: https://gitcode.com/gh_mirrors/di/display-drive…...

【Android】针灸大师-穴位解剖精准经络系统-医学生必备-会员版

【Android】针灸大师-穴位解剖精准经络系统-医学生必备-会员版 链接&#xff1a;https://pan.xunlei.com/s/VOtJd241jF6B-cTY3Gs64aacA1?pwdeynm# 针灸大师&#xff08;Acupuncture master&#xff09;将经络穴位与人体精细解剖相结合,是交互式学习十二经脉,奇经八脉,经络系统…...

大模型赋能金融行业:应用场景、现实挑战与应对策略

大模型技术在金融领域的应用日益深入&#xff0c;成为行业变革的重要驱动力&#xff0c;有助于降本增效、提升客户体验、赋能风险管理、促进业务创新和助力数字化转型。然而&#xff0c;金融行业应用大模型仍面临高质量数据不足、算力紧缺、技术缺陷、人才短缺及隐私安全等挑战…...

AI大神吴恩达力荐,轻松入门大语言模型实战(附中文PDF+代码)

这本书由AI科普大神Jay Alammar与BERTopic算法作者Maarten Grootendorst联合撰写&#xff0c;是O’Reilly出版的LLM入门标杆指南&#xff0c;获吴恩达推荐。全书以图解方式讲解LLM原理、提示工程、文本分类生成、多模态应用及优化技术&#xff0c;分为理解原理、应用及优化三部…...

RAG大模型落地必杀技:解决幻觉、私有数据三大痛点,提升回答可信度!

本文深入解析了检索增强生成&#xff08;RAG&#xff09;技术&#xff0c;旨在解决大模型应用中的知识过时、幻觉和私有数据使用难题。文章详细阐述了RAG的三大核心模块——知识库、检索和生成&#xff0c;并系统讲解了索引、检索、生成的具体实施流程和优化策略。此外&#xf…...

SD-PPP:如何在5分钟内为Photoshop安装免费AI插件并掌握专业绘图工作流

SD-PPP&#xff1a;如何在5分钟内为Photoshop安装免费AI插件并掌握专业绘图工作流 【免费下载链接】sd-ppp A Photoshop AI plugin 项目地址: https://gitcode.com/gh_mirrors/sd/sd-ppp SD-PPP是一款免费开源的Photoshop AI插件&#xff0c;将先进的AI绘图能力直接集成…...

taotoken的按token计费模式如何帮助个人开发者控制实验成本

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 Taotoken的按Token计费模式如何帮助个人开发者控制实验成本 对于个人开发者、学生或独立研究者而言&#xff0c;在探索AI应用或进行…...

井下无信号密闭空间:UWB基站断联失效,无感定位纯视觉独立解算

井下无信号密闭空间&#xff1a;UWB基站断联失效&#xff0c;无感定位纯视觉独立解算矿山井下巷道、采掘工作面、密闭峒室等区域&#xff0c;属于典型无外源通信、信号隔绝的密闭作业空间。数字孪生与视频孪生技术逐步下沉矿山安全生产领域&#xff0c;镜像视界浙江科技有限公司…...

危险源空间风控,无感定位替代UWB成为新标准路径

在化工重大危险源管控领域&#xff0c;数字孪生与视频孪生技术正重塑安全风控底层逻辑。镜像视界浙江科技有限公司深耕空间智能感知与风险防控赛道&#xff0c;依托全栈自主技术体系&#xff0c;构建起适配化工高危场景的无感定位风控方案&#xff0c;其技术原创性、场景适配深…...

OpCore Simplify:一键生成OpenCore EFI的终极解决方案

OpCore Simplify&#xff1a;一键生成OpenCore EFI的终极解决方案 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 还在为黑苹果配置的复杂流程头疼吗&…...

数据结构太难了?用画图的方式理解链表和栈和树和图

别怕&#xff0c;把它们画出来&#xff0c;你会发现数据结构就是一堆积木。&#x1f44b; 你好&#xff0c;我是 Evan&#xff0c;一名计算机专业的学长&#xff0c;也是《大一突围》专栏的作者。还记得大一第一次见到“链表”时&#xff0c;我被指针绕晕了。后来我试着一个节点…...

new一个指针再被智能指针接管和直接调用make_unique有什么区别? (接上篇的未完待续)

上篇代码有错误&#xff0c;在本篇幅更正#include <iostream> #include <memory> #include <vector> #include <utility> #include <cstddef> #include <type_traits> //std::enable_if_t<!std::is_array<T>::value, int&…...

Ryujinx模拟器完整指南:在PC上免费畅玩Switch游戏的终极解决方案

Ryujinx模拟器完整指南&#xff1a;在PC上免费畅玩Switch游戏的终极解决方案 【免费下载链接】Ryujinx 用 C# 编写的实验性 Nintendo Switch 模拟器 项目地址: https://gitcode.com/GitHub_Trending/ry/Ryujinx 你是否曾经梦想在电脑上体验《塞尔达传说&#xff1a;王国…...

为ClaudeCode配置Taotoken作为稳定后备API服务避免中断

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 为ClaudeCode配置Taotoken作为稳定后备API服务避免中断 基础教程类&#xff0c;针对担心Claude Code服务不稳定或配额不足的用户&a…...

Play Integrity API Checker:你的Android设备安全检测终极指南

Play Integrity API Checker&#xff1a;你的Android设备安全检测终极指南 【免费下载链接】play-integrity-checker-app Get info about your Device Integrity through the Play Intergrity API 项目地址: https://gitcode.com/gh_mirrors/pl/play-integrity-checker-app …...

windows VS工具判断动态库是32位还是64位

dumpbin /headers yourfile.dll | findstr "machine"...

如何在Windows任务栏实时监控硬件性能?TrafficMonitor硬件监控插件完整指南

如何在Windows任务栏实时监控硬件性能&#xff1f;TrafficMonitor硬件监控插件完整指南 【免费下载链接】TrafficMonitorPlugins 用于TrafficMonitor的插件 项目地址: https://gitcode.com/gh_mirrors/tr/TrafficMonitorPlugins 还在为复杂的系统监控软件烦恼吗&#xf…...

HS2-HF Patch终极指南:一键解锁完整汉化与去码体验

HS2-HF Patch终极指南&#xff1a;一键解锁完整汉化与去码体验 【免费下载链接】HS2-HF_Patch Automatically translate, uncensor and update HoneySelect2! 项目地址: https://gitcode.com/gh_mirrors/hs/HS2-HF_Patch 还在为《Honey Select 2》的语言障碍和功能限制而…...

跨境电商标题焦虑?QA揭秘“批量更新标题“如何拯救你的运营效率

Q1&#xff1a;什么是"批量更新标题"&#xff1f;这玩意儿真的存在吗&#xff1f;Q&#xff1a;小彭&#xff0c;我听说有个功能叫"批量更新标题"&#xff0c;能批量改产品标题&#xff0c;是真的吗&#xff1f;还是又是那种"画大饼"的工具&…...

体验 Taotoken 官方价折扣与活动价带来的实际成本优势

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 体验 Taotoken 官方价折扣与活动价带来的实际成本优势 对于需要频繁调用大模型 API 的开发者和团队而言&#xff0c;成本控制是一个…...

五轴龙门机床厂家推荐,五轴龙门机床哪家好?

五轴龙门机床厂家推荐&#xff0c;五轴龙门机床哪家好&#xff1f;五轴龙门机床性能参数与场景适配分析。五轴龙门机床是高端装备制造的核心加工设备&#xff0c;广泛应用于航空航天、新能源、重工装备等领域。本文基于海天精工、纽威数控、环球工业机械、济南二机床四款主流国…...

centos7启动yum 安装失败原因(个人观点如有错误请指正)

第一步&#xff1a;修复 DNS&#xff08;最关键&#xff09; bash 运行 echo "nameserver 8.8.8.8" >> /etc/resolv.conf echo "nameserver 114.114.114.114" >> /etc/resolv.conf第二步&#xff1a;下载阿里云 CentOS7 国内源 bash 运行 curl…...

【软件架构师-综合题(3)】软件工程知识点

软件工程这一章围绕一个核心问题展开&#xff1a;软件不是靠灵感写出来的&#xff0c;而是要经过需求、设计、实现、验证、演化这一整条工程链路&#xff0c;被稳定地组织起来。 顺着这条链路去整理&#xff0c;第三章更适合分成六个层次来看&#xff1a;先看开发方法和开发模型…...

2026年,探寻靠谱体育器材的终极指南

在追求健康与活力的时代&#xff0c;体育器材成为了我们运动生活中的重要伙伴。但面对市场上琳琅满目的品牌和产品&#xff0c;如何选择靠谱的体育器材成为了许多人的难题。今天&#xff0c;让我们一同探寻 2026 年靠谱体育器材的终极指南。一、品质与口碑沧州九牌体育用品制造…...