当前位置: 首页 > article >正文

面向新一代硬件,CANN技术架构的变与不变

当前人工智能正以前所未有的速度渗透千行百业推动 AI 算力需求呈指数级增长算力已成为人工智能产业发展的核心竞争力。在此背景下昇腾推出新一代 AI 芯片 Ascend 950PR 与 Ascend 950 DT。两款芯片在继承上一代优秀能力的基础上围绕计算、通信等关键维度实现多项技术突破涵盖 NDDMA、CV 融合、SIMT、UB、CCU 等创新特性大幅提升了大模型训练与推理、推荐、多模态等核心业务场景的性能与竞争力。本次直播将从芯片架构、计算与通信规格、关键新特性等维度对 Ascend 950PR 和 Ascend 950 DT 进行全面、深入、细致的解析。一、新一代硬件架构和总体规格Ascend 950 PR和Ascend 950 DT都是基于Ascend 950系列的芯片架构它们共用了Ascend 950 Die。与前一代昇腾芯片相比Ascend 950 在以下几个方面实现了根本性提升。新增支持业界标准FP8/MXFP8/MXFP4等低数值精度数据格式并特别支持华为自研的HiF8提升训练效率和推理吞吐。大幅度提升了Vector算力。1) 提升Vector算力占比2) 采用创新的SIMD/SIMT新同构设计3) 把内存访问颗粒度从512字节减少到128字节内存访问更精细从而更好地支持了离散且不连续的内存访问。基于不同业务对于算力、内存、访存带宽的不同需求搭配了自研的HiBL 1.0和HiZQ 2.0。Ascend 950 Die通过合封HiBL 1.0和HiZQ 2.0分别构成面向Prefill和推荐场景的芯片Ascend 950PR以及面向Decode和训练场景的Ascend 950DT。互联带宽相比上一代芯片大幅提升最大可支持2TB/s的带宽且同时支持UB、PCIE、UBOE多种通信模式二、核的微架构改进提升极致性能和开发易用性在人工智能技术飞速发展的今天大型语言模型LLM、多模态AI等复杂任务对计算硬件提出了前所未有的挑战。昇腾AI芯片最新发布的第三代DaVinciCore架构凭借革命性的硬件创新与软件协同优化不仅将AI计算性能推向新高度更在开发者体验和能效比上实现质的飞跃。1、算力革命低精度计算混合架构性能提升4倍传统的AI芯片往往受限于计算精度与数据搬运效率而第三代DaVinciCore通过全栈数值格式创新彻底释放低精度计算的潜力● HiF8/FP8/MXFP8/MXFP4全新设计的动态位宽浮点格式在保证精度的同时大幅降低存储与带宽需求。以HiF8为例其采用变长前缀编码原码阶码优化动态范围接近FP16-22~15但计算效率提升2~4倍尤其适合LLM训练与推理。HiF8阶码分布图锥形精度图● 张量-向量协同计算Cube核张量计算峰值算力达上一代倍Vector核向量计算FP16/FP32性能翻倍二者通过高速直连通道实现数据无缝流转彻底解决传统AI芯片在混合计算如FA任务中的瓶颈问题。增加核内CV直连高速通路示意图2、开发体验革新第三代DaVinciCore引入多项“黑科技”级编程优化● SIMD/SIMT混合编程开发者可自由选择并行模式——规则计算用SIMD双发指令榨干硬件性能复杂逻辑如多条件分支/小包搬运等场景切至SIMT线程级并行代码可读性与执行效率兼得。SIMT离散访问示意图● NDDMA指令传统数据搬移需硬件地址计算访存合并如今只需一行NDDMA指令(transpose,stride,broadcast,slice)硬件自动完成格式转换、对齐、分块效率提升50%以上。NDDMA指令能力示意图● 极简同步机制BufferID模型取代繁琐的set/wait配对消除分支逻辑让多核协作代码更直观、更健壮。新同步机制代码示例3、算子模板数量大幅减少访存能力持续优化● L2 Cache支持128B Sector访存颗粒度相比上一代的512B-128B小包场景4x带宽效率数据访问GM支持多种L2 Control Hint。non-allocate(L2 hint)典型使能场景示意图● ND2NZ支持Advance模式对Stride在不大于256B的场景都支持并包处理。基于灵衢总线构建大规模超节点集群Ascend 950提供比前代芯片更高的连算比搭载先进的灵衢总线技术构建Ascend 950超节点集群能够大幅降低通信时延、提升算力效率有效破解大规模 AI 集群的通信瓶颈。灵衢总线UBUnifiedBus简称UB是面向新一代智算集群打造的新型互联协议是华为破解算力瓶颈、共建开放生态的重要布局。灵衢总线以“协议归一、平等协同、全局池化”为核心打破了传统互联的层级壁垒让CPU、NPU、存储等异构组件实现无主从直接通信并大幅降低通信时延、提升带宽利用率。华为已开放灵衢2.0完整技术规范推动产业协同创新。未来灵衢将持续演进突破更大规模组网能力携手产业伙伴构建自主可控、高效可靠的算力底座。灵衢总线提供分层的协议栈结构从下到上由物理层、数据链路层、网络层、传输层、事务层、功能层以及UMMU、UBFMUB Fabric Manager组成如下图所示。其中Entity为功能实体是全局通信的基本单元URMAUnified Remote Memory Access为统一远程内存访问。灵衢协议栈Ascend 950围绕超节点架构持续创新将多台物理机器深度互联重新定义了高效、稳定、可扩展的大规模有效算力新范式并打造全系列超节点产品。Ascend 950以灵衢总线为基础构建的超节点架构在面向人工智能计算的多个核心业务场景如大模型预训练、中心推理、后训练与强化学习、多模态内容等业务领域均可提供领先的系统能力带来计算业务性能和资源利用率提升。基于灵衢的超节点参考架构B站/微信视频号搜索【昇腾CANN】观看直播期待你的观看~点击预约直播https://www.bilibili.com/opus/1179251767286693911?spm_id_from333.1387.0.0

相关文章:

面向新一代硬件,CANN技术架构的变与不变

当前,人工智能正以前所未有的速度渗透千行百业,推动 AI 算力需求呈指数级增长,算力已成为人工智能产业发展的核心竞争力。 在此背景下,昇腾推出新一代 AI 芯片 Ascend 950PR 与 Ascend 950 DT。两款芯片在继承上一代优秀能力的基础…...

构建以观测为先的 Redis 容错体系:当缓存失效时如何不被业务拖垮

构建以观测为先的 Redis 容错体系:当缓存失效时如何不被业务拖垮摘要:很多关于 Redis 的文章聚焦于单点技巧(布隆过滤器、分布式锁等),但真正能在生产环境救命的是“体系”和“观测”。本文把关注点从单个坑位移到系统…...

导师说“不像能做完的”?百考通AI开题报告,专治目标虚、方法空、进度假

开题报告是毕业论文或学位研究的“第一张施工图”,它不仅要阐明研究价值,更要清晰界定问题、设计方法、规划路径。然而,许多学生在撰写时常常陷入“有想法却写不出”“懂方向但不会表达”的困境:选题宽泛、文献堆砌、方法模糊、结…...

别让模糊想法拖垮你的研究——百考通帮你把选题变成可执行的科研计划

开题报告是毕业论文或学位研究的“第一道门槛”,它不仅需要清晰界定研究问题,还要论证其学术价值、设计可行路径,并展现扎实的研究基础。然而,许多学生在撰写时常常感到力不从心:选题太大无焦点、文献综述堆砌无主线、…...

开题卡在“怎么写”?百考通AI 10分钟生成逻辑闭环、导师认可的专业初稿

开题报告是学术研究的“第一块基石”,它不仅决定你的选题能否通过,更直接影响后续论文的逻辑结构、研究深度与完成质量。然而,许多学生在撰写时常常感到无从下手:问题意识模糊、文献综述堆砌无主线、研究方法描述空泛、整体框架松…...

告别文献综述的痛苦:百考通AI如何帮你高效梳理学术脉络

面对海量文献无从下手?智能工具正在让学术写作的门槛悄然降低。 本科阶段的学术写作,往往始于一道令人望而生却的“坎”——文献综述。你需要从浩如烟海的数据库中找出关键文献,理解不同研究间的承继与争论,再用严谨的学术语言将其…...

动态Inception混合器改进YOLOv26自适应卷积核选择与特征提取能力双重突破

动态Inception混合器改进YOLOv26自适应卷积核选择与特征提取能力双重突破 1. 引言 在目标检测领域,特征提取的质量直接决定了模型的检测性能。传统的卷积神经网络通常采用固定尺寸的卷积核,这在处理不同尺度和形状的目标时存在明显局限性。为了解决这一…...

Java高频面试题:RabbitMQ中有哪几种交换机类型?

大家好,我是锋哥。今天分享关于【Java高频面试题:RabbitMQ中有哪几种交换机类型?】面试题。希望对大家有帮助;Java高频面试题:RabbitMQ中有哪几种交换机类型?在 RabbitMQ 中,交换机(…...

基于LangChain的RAG与Agent智能体开发 - 阿里云百炼大模型平台接入

大家好,我是小锋老师,最近更新《2027版 基于LangChain的RAG与Agent智能体 开发视频教程》专辑,感谢大家支持。本课程主要介绍和讲解RAG,LangChain简介,接入通义千万大模型,Ollama简介以及安装和使用&#x…...

《创业之路》-907- 企业长青的五维密码:从流程到灵魂的深度解码

流程很重要,没有规矩不成方圆,它是正确做事的方法,是行业化内成功和效率保障的最佳实践,是协同规模化不同想法的人的行为的框架,是防范和杜绝很多不必要的问题的依据,是大组织稳定有序运转的保障。架构很重…...

为什么加了微信就“死机”?深度Debug你的社交形象API接口

聊天协议握手成功,却在微信端口连接超时?本文带你定位Bug前言作为一个程序员,你可能经历过这样的场景:在交友软件上,你们通过算法匹配成功,TCP三次握手建立连接。数据传输正常,心跳包稳定&#…...

Java全栈开发工程师的面试实战:从基础到高阶的全面解析

Java全栈开发工程师的面试实战:从基础到高阶的全面解析 在互联网大厂中,Java全栈开发工程师是核心岗位之一。他们不仅需要掌握后端技术,还必须熟悉前端框架和工具链。今天,我们模拟一位真实面试场景,一位28岁的硕士毕…...

Explosion公司2019年NLP技术盘点与突破

一月 1月15日:联合创始人接受了NLP Highlights播客采访,讨论了Prodigy工具、训练语料来源以及NLP系统数据标注面临的挑战,并分享了简化这一流程的思路。1月16日:联合创始人出现在德国巴伐利亚广播公司的纪录片《问问你的冰箱》中…...

AgentAi视频模型开发对接部署使用

一、整体方案设计思路 要制作一个基于 ComfyUI Dify Python Web LangChain 的视频生成网站并部署到服务器,核心逻辑是: LangChain:处理用户文本输入,进行意图解析、文案生成、关键词提取(如视频主题/风格/时长&am…...

2026.3.14总结

今日天气很好,和同事一起去了科技馆,在科技馆看到了物理上上的很多原理,模型,以及一些实验器材。逛完科技馆后,一起去附近的台球室打球,2h花了32元,虽然不是很喜欢打台球,但这种娱乐…...

快递成本对比程序,输入重量目的地,对比多家快递价格,选最省钱,时效合适的

快递成本对比程序一、实际应用场景描述在电商蓬勃发展的今天,无论是个人寄件还是商家发货,都面临着快递选择的难题。同一件包裹,不同快递公司的价格可能相差数倍,而时效和服务质量也各有差异。比如,寄一个3公斤的包裹从…...

喷水织机卷取机构设计(SolidWorks+CAD)

喷水织机卷取机构作为织造系统的核心模块,承担着控制织物下机张力、调节卷取密度及维持织物平整度的重要功能。其设计精度直接影响织物质量与设备运行稳定性,需通过机械结构与运动逻辑的协同优化实现高效传动。卷取机构通过齿轮组、卷取辊及张力调节装置…...

通达信【反弹低吸寻机】副图与反弹低吸寻机指标公式CJM99分享源码

通达信【反弹低吸寻机】副图与反弹低吸寻机指标公式CJM99分享源码 【反弹低吸寻机副图】 G1:CLOSE; G2:LOW; G3:OPEN; G4:HIGH; CJM01:(G4G2G1)/3; CJM02:VOL/IF(G4G2,4,G4-G2); CJM03:IF(CAPITAL0,CJM02*(CJM01-MIN(G1,G3)),CJM02*IF(G4G2,1,MIN(G3,G1)-G2)); CJM04:IF(CAPITA…...

盘式电机:电动车驱动的未来之星

车用轴向磁通双转子电机设计(盘式电机) 为了满足车用驱动电机 AFDRSRM 设计要求,引入了 AFDRSRM “重合度”的概念,以 12/8 极与 8/6 极 AFDRSRM 为例,进行了重合度比较。 推导了 AFDRSRM 输出功率和平均转矩表达式。 …...

XlsxWriter,一款强大的Python Excel处理库

我用Python处理Excel使用最多的库是XlsxWriter和Pandas,Pandas不用多说,很适合将Excel转为DataFrame格式来处理数据。这里重点讲讲XlsxWriter,非常擅长写入Excel。它在github上有近4K的star,在众多Excel库中可能也是最好用最容易上…...

收藏!使用Python读写Excel大数据文件的3种有效方式

有人问Python怎么处理大数据的Excel文件?Python处理Excel大数据有很多方式,不过Excel撑死才104万行,能有多大的数据,一般用pandas读取就可以,pandas有专门的分块读取模式,比如说每次只读取1万行用于处理&am…...

高并发40问学习笔记

1.缓存穿透缓存穿透是指大量访问不能在缓存中命中,需要去数据库访问,但数据库能支持的访问量是有限的,如果缓存命中率可能下降1%都会影响数据库的可用性。解决缓存穿透最简单的方式是限制请求的数量,然后对于一个具体的问题&#…...

基于时间约束的CAN网络管理一致性测试方法复现与实现

基于时间约束的CAN网络管理一致性测试方法复现与实现 摘要 随着智能网联汽车的快速发展,车载电子控制单元(ECU)数量激增,对车载网络系统的安全性和稳定性提出了更高要求。AUTOSAR CAN网络管理作为汽车网络的基础功能,其一致性测试是保障系统可靠性的关键。本文复现了张建…...

windows用户有哪些必备的小工具软件能大幅提高效率而且占用资源低?

Windows用户,你是否也遇到过这些痛点?软件占用大、效率不高、甚至广告多?本文整理13款经过网友高口碑的工具,涵盖截图标注、文件管理、系统优化等场景,全部免费无广告且占用资源极低,助你打造丝滑流畅的办公…...

百考通精准贴合不同学历层次的学术需求,实现了从选题到成文的全流程赋能

开题报告,作为学术研究的“蓝图”,是决定论文成败的关键一步。它不仅需要清晰阐述研究背景、意义与方法,更要精准锚定创新方向,让导师与评审专家一眼看到研究的价值与可行性。然而,从选题构思到框架搭建,从…...

百考通AI:让文献综述从繁琐的体力劳动,转变为高效的学术洞察过程

在学术研究的起步阶段,文献综述是每一位研究者都必须跨越的门槛。它不仅是对已有研究的系统梳理,更是确立研究价值、搭建理论框架的基石。然而,从海量文献中筛选核心观点、梳理研究脉络、提炼学术洞见,往往需要耗费大量时间与精力…...

守住学术原创底线!百考通AIGC检测,筑牢学术原创防线,为论文合规性保驾护航

随着AIGC技术融入学术写作场景,便捷高效的辅助创作模式,让无数学子在毕业论文撰写中事半功倍。但与此同时,学术领域对AI生成内容的审核愈发严格,隐性的AI痕迹若未及时排查,极易引发学术合规性质疑,成为毕业…...

告别学术焦虑:百考通AI,覆盖从“降AI痕迹”到“降重复率”的全场景需求

在学术写作的最后一公里,每一位学子都曾面临过相似的困境:呕心沥血完成的论文,却因重复率过高卡在查重关口;借助AI辅助创作的内容,又因AI生成痕迹明显而面临学术不端的质疑。在毕业与学位的压力之下,如何高…...

百考通精准贴合学生写作痛点,打造“一站式”毕业论文服务体系

在高等教育普及化的今天,毕业论文早已成为每一位学子学术生涯中绕不开的关键节点。从专科到本科,从选题构思到终稿定稿,无数学生在文献检索、框架搭建、内容撰写中耗费大量精力,却仍面临思路卡顿、格式混乱、查重率高等难题。而百…...

阅读进度管理程序,设定目标自动计算每日页数,提醒打卡,提高读完率,不半途而废。

阅读进度管理程序一、实际应用场景描述在知识爆炸的时代,很多人都有阅读计划,比如"今年读50本书"、"每月精读2本专业书"。然而,现实往往是:买书如山倒,读书如抽丝。读者常常因为工作忙碌、缺乏明确…...