当前位置: 首页 > article >正文

华为AI产品和技术由浅入深巅峰解析

华为人工智能数据中心技术介绍系列 之一Ascend昇腾芯片品牌Ascend的主要指标Ascend的命名逻辑昇腾发展历史1. 第一代昇腾2018-20202. 第二代昇腾2021-20233. 第三代昇腾2024-20254. 未来规划2026Atlas服务器品牌Atlas主要关心的Atlas的命名逻辑加速卡产品整机产品集群产品生态组件服务器操作npu-smi info返回结果的具体解释NPU之间的拓扑连接信息硬切分Ascend昇腾芯片品牌华为自研的 AI 处理器 / NPU 架构与芯片系列的品牌Ascend的主要指标算力(TOPS/TFLOPS)精度(FP16/BF16/INT8)内存带宽功耗芯片互联(HCCS)可以理解为“这块硅到底能算多快”Ascend的命名逻辑按芯片代际 能力定位芯片代际定位310低功耗推理910高端训练920高端训练目前产量少后缀含义后缀定位典型型号A初代量产 / 标准基线910A, 910ProA, 910PreminumAB主流量产优化910B, 910B2/B3/B4CChiplet 双芯合封910C1/C2/C3/C4昇腾发展历史1. 第一代昇腾2018-2020昇腾310面向边缘推理场景采用12nm工艺INT8算力16 TOPS功耗8W主打低延迟推理如摄像头、车载设备。昇腾910首款数据中心级训练芯片7nm工艺FP16算力256 TFLOPS功耗310W支持华为全栈AI生态MindSpore、ModelArts。2. 第二代昇腾2021-2023昇腾910B7nm EUV工艺优化FP16算力提升至376 TFLOPS支持更高效的大模型训练适配华为云昇腾AI云服务。昇腾310B边缘端升级版支持多模态推理视觉、语音集成轻量级MindSpore Lite框架。3. 第三代昇腾2024-2025昇腾910C用于CloudMatrix 384超节点集群单节点集成384颗芯片支持万亿参数大模型训练显存带宽优化至3TB/s以上。昇腾320面向边缘计算的下一代芯片5nm工艺能效比提升50%支持端-边-云协同推理。4. 未来规划2026昇腾920预计采用3nm工艺FP16算力目标突破1 PFLOPS支持FP8精度和动态稀疏计算适配MoE架构大模型。Atlas服务器品牌使用 Ascend 芯片封装出来的具体产品模块、加速卡、服务器、集群的品牌它是工程产品线基于Ascend芯片做成的工程化交付它包括模块PCIe设备边缘盒子服务器超级节点/集群Atlas主要关心的怎么放进机房怎么上架、供电、散热怎么部署业务怎么规模化交付可以理解为“怎么把算力真正用起来”Atlas的命名逻辑按产品形态 场景加速卡产品产品类型做什么用什么芯片Atlas 200I DK A2学校教学课程、算法验证Ascend 310B3Atlas 200I A2加速模块集成于边端智能设备、机器人、无人机中提供AI算力昇腾 310/ 910Atlas 300I A2 推理卡小规模推理昇腾 310BAtlas 300I Duo 推理卡小规模推理两颗昇腾 310P3Atlas 300V Pro 视频解析卡推理视频解析昇腾 310P3Atlas 300I Pro 推理卡小规模推理昇腾 310P3Atlas 300V 视频解析卡推理视频解析整机产品产品类型做什么用什么芯片Atlas 500 A2 智能小站面向边缘应用的产品,形似机顶盒可室外部署Atlas 800T A3 超节点服务器预训练/后训练服务器单机8 * 昇腾910, 多机可组成384卡超节点Atlas 800I A3 超节点服务器推理服务器单机8 * 昇腾910多机可组成最大384卡超节点Atlas 800T A2 训练服务器训练8 * 昇腾910Atlas 800I A2 推理服务器推理8 * 昇腾910Atlas 800 推理服务器 (型号3000)实时推理视频分析最大可支持8个Atlas 300I/V ProAtlas 500 Pro 智能边缘服务器 (型号3000)实时推理视频分析,面向边缘应用的产品具有高环境适应性最大支持3个Atlas 300I/V Pro集群产品产品类型做什么用什么芯片Atlas 900 A3 SuperPoD384张NPU像一台计算机一样工作384 * 昇腾910Atlas 900 A2 PoD极致算力密度、极高AI能效、极简交付部署64 * 昇腾910Atlas 900 SuperCluster AI 集群支撑单集群最大12.8w卡规模384* 昇腾910生态组件MindSpore MindIE CANN(Compute Architecture for Neural Networks)华为HDK(Hardware Develop Kit)服务器操作每个芯片里有24个AI core。可以看到每个NPU都配有一块MCU。MCU(Micro Controller Unit)是MCU 是一个独立的、低功耗的微处理器它主要负责以下带外管理Out-of-Band Management任务环境监控Health Monitoring️实时监测芯片的温度、电压和电流。如果温度过高MCU 会触发保护机制如降频或关机防止硬件烧毁。功耗管理Power Management⚡统计整片的功耗数据。控制电源轨的开启和关闭序列。上报与通信 通过特定的总线如 I2C 或串口与服务器的主板管理控制器BMC通信。这就是为什么即使 NPU 还没加载驱动你有时也能通过主板查看到 NPU 的基本健康状态。固件管理 负责 NPU 启动时的引导安全校验管理加载芯片内部的微码。查看MCU 采集的各项指标npu-smi info -t health -i 0 npu-smi info -t power -i 0npu-smi info返回结果的具体解释AICORE (AI Core)是昇腾AI处理器的核心计算单元专门负责执行神经网络中的密集型计算任务。它内部集成了Cube单元负责矩阵运算、Vector单元负责向量运算以及Scalar单元负责标量运算和程序控制。DMA负责Global Memory和Local Memory之间的数据搬运以及不同层级Local Memory之间的数据搬运。AICPU (AI CPU)是AI处理器内部负责非矩阵类复杂计算的通用处理器单元。它通常用于处理AI Core不擅长的控制逻辑、复杂的非并行运算或作为整个系统的任务调度补充数字视觉预处理 DVPP(Digital Video Pre-Processing)这是专门负责“原材料加工”的。在处理视觉任务时它能快速进行视频解码、图片缩放和色域转换确保送入 AI Core 的数据格式是标准的。虽然 AI Core 的矩阵运算能力极强但让它处理图像预处理如 JPEG 解码、缩放效率其实并不高。AI Core 运行速度极快如果它还要分心去搬运原始数据、处理不规则的图像格式会频繁导致流水线停顿。为了让 AI Core 全神贯注于神经网络推理DVPP 内部集成了一系列**硬核Hardwired**加速单元专门负责图像和视频的全流程处理单元名称全称核心职责VDEC ️Video Decoder视频解码支持 H.264/H.265 等格式硬件解码将视频流转为 YUV 格式原始图像。常用于实时视频流分析场景。VENC Video Encoder视频编码将处理好的结果重新编码为视频流格式如H.264或H.265。JPEGD ️JPEG Decoder图片解码将常见的 JPEG/JPG 图片解码为 YUV 或 RGB 格式。JPEGE ✉️JPEG Encoder图片编码将结果编码保存为JPEG图片。VPC ✂️Video Pre-Processing图像处理核心负责缩放Resize、裁剪Crop、色域转换如 YUV 转 RGB。PNGD PNG DecoderPNG 解码专门负责将PNG格式图像数据解码为原始像素数据的硬解码单元。解决的是“从文件到张量”的硬核转换如从 MP4/JPG 到 YUV 图像。这些模块共同构成了昇腾处理器的数字视觉预处理(DVPP)系统通过专用硬件加速极大减轻了AI Core和CPU在处理多媒体数据时的负担。总结来说DVPP 负责重体力活编解码、大跨度缩放AIPP 负责精细调校归一化、色域转换而 AI Core 负责终极推理。这种分工明确的异构架构正是昇腾芯片能高效处理海量视频流的关键。为了把 DVPP 处理好的图像高效的送给 AI Core 进行深度学习推理昇腾 NPU 采用了一套高效的内存管理机制统一寻址空间DVPP、AI Core 和 AI CPU 虽然功能不同但它们可以访问同一片连续的物理内存。内存池管理开发者通过 hi_mpi_dvpp_malloc 申请的内存其物理地址对于所有硬件单元都是透明且可达的。指令链衔接当你调用完 DVPP 的缩放接口后DVPP 会把结果写回内存并发送一个信号通知 Task Scheduler。随后Task Scheduler 直接把这个内存地址指针发给 AI Core 启动计算。至此为止整个数据处理流程形成了一个完美数据漏斗:总结一下“四驾马车”:单元角色比喻AI Core算力核心生产线工人AI CPU逻辑/任务管理车间主任DVPP图像预处理原料加工间MCU芯片监控管理安保电工NPU之间的拓扑连接信息硬切分硬切分Hardware Partitioning 通常指通过 Virtual NPU (vNPU) 技术将一颗物理 NPU 划分为多个相互隔离的逻辑资源实例。这种切分是在硬件资源AI Core、存储带宽等层面进行的物理隔离能够确保不同任务之间的性能互不干扰。910B支持硬切分查询当前型号支持的切分模板。$ npu-smi info -t template-info结果显示这张NPU支持两个硬切分模板vir12_3c_32g (一张910B2 NPU最多可以划分成2个这个规格的实例)vir06_1c_16g (一张910B2 NPU最多可以划分成4个这个规格的实例)查询0号NPU的0号chip的vNPU信息目前0号NPU在未做切分之前的算力和存储情况可以看到910B2 NPU是没有VENC和PNGD的。vNPU算力切分有两种模式0: 容器模式算力切分1: 虚拟机模式算力切分# 设置为容器算力切分模式 npu-smi set -t vnpu-mode -d 0为第8个npu设置vir12_3c_32g的切分$ npu-smi set -t create-vnpu -i 7 -c 0 -f vir12_3c_32g查询一下刚刚设置的NPU切分$ npu-smi info -t info-vnpu -i 7 -c 0删除这个切分华为的910C暂不支持vNPU功能参考文档https://support.huawei.com/enterprise/zh/doc/EDOC1100493501/ca7ef970更多精彩内容关注微信公众号小明的IT世界

相关文章:

华为AI产品和技术由浅入深巅峰解析

华为人工智能数据中心技术介绍系列 之一Ascend(昇腾):芯片品牌Ascend的主要指标Ascend的命名逻辑昇腾发展历史1. 第一代昇腾(2018-2020)2. 第二代昇腾(2021-2023)3. 第三代昇腾(2024…...

贪心算法集

去重数组#include <stdio.h>int main() {int n;scanf("%d", &n);int a[55];for (int i 0; i < n; i) {scanf("%d", &a[i]);}int seen[1005] {0}; // 标记是否已经选择保留&#xff08;从右往左第一次遇到&#xff09;int keep[55], k …...

C++代码质量与规范:编写优雅且可维护的代码

C代码质量与规范&#xff1a;编写优雅且可维护的代码一、学习目标与重点 本章将深入探讨C代码质量与规范的核心知识&#xff0c;帮助你编写优雅且可维护的代码。通过学习&#xff0c;你将能够&#xff1a; 理解代码质量的重要性&#xff0c;掌握代码质量的评估标准学会编写符合…...

C语言Web开发:CGI、FastCGI、Nginx深度解析

C语言Web开发&#xff1a;CGI、FastCGI、Nginx深度解析一、前言&#xff1a;为什么Web开发是C语言开发的重要技能&#xff1f; 学习目标 理解Web开发的本质&#xff1a;编写程序实现Web应用、服务器端逻辑和客户端交互明确Web开发的重要性&#xff1a;支撑互联网、电子商务、社…...

如果用户使用了未经授权的第三方API导致侵权,OpenClaw作为平台方是否应该承担连带责任?

关于平台是否要为用户的侵权行为承担连带责任&#xff0c;这其实是个老生常谈但又常谈常新的话题。每次技术浪潮涌来&#xff0c;类似的争论就会换一身行头重新登场。从早期的P2P下载&#xff0c;到后来的短视频搬运&#xff0c;再到如今大模型API的滥用&#xff0c;底层的法律…...

卡尔曼滤波SOC算法模型

扩展卡尔曼滤波(EKF)与自适应卡尔曼滤波(AEKF) SOC估算实现文档 目录 1. [理论基础](#理论基础) 2. [电池等效电路模型](#电池等效电路模型) 3. [EKF算法实现](#ekf算法实现) 4. [AEKF算法实现](#aekf算法实现) 5. [系统集成方案](#系统集成方案) 6. [代码实现](#代码实现…...

基于 Flutter × HarmonyOS 6.0 的跨端打车平台— 服务类型选择模块实战解析

文章目录基于 Flutter HarmonyOS 6.0 的跨端打车平台—— 服务类型选择模块实战解析应用名称前言背景Flutter HarmonyOS 6.0 跨端开发介绍架构示意服务类型模块功能目标开发核心代码&#xff08;完整 分段 逐行解析&#xff09;1️⃣ 主结构&#xff1a;服务类型区域2️⃣ …...

JS---进阶

作用域 作用域(scope)规定了变量能够被访问的“范围”&#xff0c;离开了这个“范围”变量便不能被访问&#xff0c; 作用域分为&#xff1a; 局部作用域 全局作用域 局部作用域 局部作用域分为函数作用域和块作用域。 1.函数作用域&#xff1a; 在函数内部声明的变量只能在函数…...

DAZ 人物变形 morph

有几个关键步骤&#xff1a;DAZ的单位是厘米max的单位统一为厘米daz输出的网格分辨率改为 base再输出 objmax的单位改为 厘米后&#xff0c;导入obj再导出obj的时候&#xff0c;记住&#xff0c;不要优化点到daz &#xff0c;选变形器&#xff0c;导入obj文件&#xff0c;即可。…...

java+vue基于springboot框架的骑行俱乐部交流论坛活动组织系统的设计与开发

目录摘要开发技术源码文档获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;摘要 该系统基于SpringBoot后端框架与Vue.js前端框架&#xff0c;设计并实现了一个面向骑行爱好者的交流论坛与活动组织平台。系统整合了用户管理、活动发布、论坛讨论、…...

Operaton入门到精通22-Operaton 2.0 升级指南:Spring Boot 4 核心变更详解

摘要:Operaton 2.0升级摘要&#xff1a;基于SpringBoot4的重大更新&#xff0c;强制要求升级Spring依赖至SpringBoot4/SpringFramework71&#xff0c;兼容JakartaEE11。开发环境需Java17/JUnit6&#xff0c;改用GraalVM引擎。仅REST/DB集成用户无需操作。1.x版本维护至2026年&a…...

[GTCRN 48 kHz] Causal-Stream Model 的演进思路

GTCRN 演进路径 记录 v1 → v2 → v3 → v3.1/v3.2 → v4 → v4.1 的改动和原因。 版本概览版本改动点参数量质量指标内存实时v1 baseline基线139KDNSMOS 3.15—v2 transient换损失函数139KDNSMOS 3.15—v3 causal因果化改造145KDNSMOS 2.98—√v3.1 precisionKD QAT 压缩41.6…...

笔记之总结变量及简单数据类型 (书籍:学习python编程从入门到实践)

变量 变量的命名和使用 1.变量名只能包含字母、数字和下划线。 变量名开头:以字母或下划线开头,不能以数字开头。 比如:message_1(√) 1_message() 2.变量名不能包含空格,但是能使用下划线来分隔其中的单词 比如:greeting_message(√) greeting messag…...

KASLR 本质原理

KASLR&#xff08;Kernel Address Space Layout Randomization&#xff0c;内核地址空间布局随机化&#xff09;的本质是&#xff1a;在系统启动阶段&#xff0c;对内核镜像、关键内存区域的虚拟 / 物理基址施加随机偏移&#xff0c;让每次启动的内核地址布局都不同&#xff0c…...

【深度学习笔记】深度学习概述

机器学习&#xff1a;基于数学和统计学&#xff0c;具有可解释性knn最近邻居算法&#xff0c;一种监督学习算法深度学习是实践科学-目的是找一个函数输入&#xff1a;向量&#xff0c;矩阵&#xff0c;序列输出&#xff1a;回归任务&#xff08;填空题&#xff09;&#xff0c;…...

Anaconda向另外一台电脑打包虚拟环境

将 Anaconda 虚拟环境打包并移植到另一台电脑&#xff0c;主要有两种常用方法。你可以根据实际情况&#xff08;比如两台电脑是否能联网、操作系统是否一致&#xff09;来选择。 为了方便对比&#xff0c;这里先给出两种方法的概览&#xff1a;特点方法一&#xff1a;导出 envi…...

XrPro版解码工具|厂内核驱动,纯C++无痕伪装

温馨提示&#xff1a;文末有联系方式快速&#xff5c;XrPro解码工具上线 XrPro解码工具由俄罗斯资深安全工程师团队自主研发&#xff0c;属内部流通版解码套件&#xff0c;非市面上流通的Xr-Spoofer公开版本。 采用全栈C编写内核&#xff0c;具备批量化开卡能力&#xff0c;驱动…...

计算机毕业设计源码:Python贝壳租房数据可视化分析平台 Django框架 Requests爬虫 可视化 房子 房源 大数据 大模型(建议收藏)✅

博主介绍&#xff1a;✌全网粉丝10W,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业项目实战6年之久&#xff0c;选择我们就是选择放心、选择安心毕业✌ > &#x1f345;想要获取完整文章或者源码&#xff0c;或者代做&#xff0c;拉到文章底部即可与…...

Python 全国城市租房洞察系统 Django框架 Requests爬虫 可视化 房子 房源 大数据 大模型 计算机毕业设计源码(建议收藏)✅

博主介绍&#xff1a;✌全网粉丝10W,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业项目实战6年之久&#xff0c;选择我们就是选择放心、选择安心毕业✌ > &#x1f345;想要获取完整文章或者源码&#xff0c;或者代做&#xff0c;拉到文章底部即可与…...

让FCT/ICT/ATE/BMS测试更简单高效

在锂电池板研发、生产检测环节&#xff0c;FCT&#xff08;功能测试&#xff09;、ICT&#xff08;在线电路测试&#xff09;、ATE&#xff08;自动测试设备&#xff09;、BMS&#xff08;电池管理系统&#xff09;测试是保障产品质量的核心环节&#xff0c;但传统测试方式往往…...

机试搜索----dfs

图的存储&#xff1a;链式前向星法&#xff1a;背下这个模板很重要&#xff1b; 重点&#xff1a;dfs模板add()函数加边的方法&#xff08;无向图则要加两次&#xff09; ///利用的链表法的思想 主要理解&#xff1a; 1.函数 add() 作用加边&#xff08;链式前向星法&#x…...

如何在VirtualBox中安装银河麒麟桌面操作系统V10

版本列表 当前版本&#xff1a;0.1.0 作者&#xff1a;沈传越 技术验证&#xff1a;沈传越 版式设计&#xff1a;沈传越 所属机构&#xff1a;明德融创工作室&#xff08;Minter Fusion Studio, MFS&#xff09; 完成时间&#xff1a;2026-2-27 发布时间&#xff1a;202…...

【小程序模板】uniapp扫码点餐微信小程序模板、在线下单小程序模板

此项目为小程序点餐源码模板&#xff0c;用户可自定义商户信息发布到自己的小程序上&#xff0c;支持二次修改使用。 此套源码已接入微信支付&#xff0c;开启支付功能需要填写对应的商户信息&#xff0c;若无商户也可在后台关闭支付&#xff0c;正常下单。 后台演示地址&…...

深入剖析NE555的内部工作原理

本文会为大家详细讲解NE555芯片的内部电路结构、工作原理及其核心模块的功能。NE555是一款经典的8引脚时基集成电路&#xff0c;自1971年发布以来&#xff0c;因其结构简单、稳定可靠、价格低廉而广泛应用于定时、脉冲生成和振荡器等领域。一、NE555的内部核心结构NE555的内部电…...

接口类型管理实战:从 any 到规范 api.d.ts|Vue TS 落地篇

【TypeScript Axios】【前端接口开发】&#xff1a;从【any 兜底】到【规范的 api.d.ts 类型管理】&#xff0c;彻底搞懂前端接口类型定义的最佳写法&#xff0c;避开类型混乱/响应脱节/维护成本高高频坑&#xff01; &#x1f4d1; 文章目录 一、开篇&#xff1a;为什么要关…...

Kafka 副本机制深度解析:从原理到实践,彻底搞懂数据可靠性保障

Kafka 副本机制深度解析&#xff1a;从原理到实践&#xff0c;彻底搞懂数据可靠性保障前言什么是副本机制&#xff1f;副本机制的核心价值副本的角色与架构Leader 和 Follower核心设计原则ISR&#xff1a;动态维护的同步副本集合什么是 ISR&#xff1f;ISR 的核心作用副本同步的…...

Kafka Consumer Group 详解:原理、机制与应用实践

Kafka Consumer Group 详解&#xff1a;原理、机制与应用实践前言什么是 Consumer Group&#xff1f;核心特征Consumer Group 的核心作用1. 实现发布-订阅模式2. 实现消息队列模式3. 消费能力的水平扩展4. 故障自动转移Consumer Group 的工作原理核心组件工作流程分区分配策略1…...

【C++编程】类和对象(一)---(类的初识引入以及定义 | 类的访问限定符及封装特性 | 类的作用域 | 类的实例化以及类对象模型 | this指针)

目录 前言 一、面向过程和面向对象初步认识 二、类的引入 三、类的定义 四、类的访问限定符及封装 4.1 访问限定符 4.2 封装 五、类的作用域 六、类的实例化 七、类对象模型 7.1 如何计算类对象的大小 7.2 类对象的存储方式 7.3 结构体内存对齐规则 八、this指针…...

EgoScale:利用多样化的自我为中心人类数据来扩展灵巧操作

26年2月来自NV、UC Berkeley和U Maryland的论文“EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data”。 人类行为是学习物理智能最具可扩展性的数据来​​源之一&#xff0c;但如何有效地利用这些数据进行灵巧操作训练仍不明确。虽然以往的研究已…...

FreeRTOS的队列介绍以及怎么实现互斥访问,休眠唤醒以及保存数据(环形缓冲区)

前言前面介绍完了FreeRTOS的一些核心功能&#xff0c;如任务切换&#xff0c;创建任务等等&#xff0c;并将煮包从ARM内核以及内存的视角的相关思考进行了分享&#xff0c;从这里开始介绍FreeRTOS的另外一个板块&#xff0c;就是任务间通信机制&#xff0c;如队列、信号量、互斥…...