当前位置: 首页 > news >正文

阿里云引领智算集群网络架构的新一轮变革

阿里云引领智算集群网络架构的新一轮变革

云布道师

11 月 8 日~ 10 日在江苏张家港召开的 CCF ChinaNet(即中国网络大会)上,众多院士、教授和业界技术领袖齐聚一堂,畅谈网络未来的发展方向,聚焦智算集群网络的创新变革。其中,阿里云研发副总裁,基础设施网络负责人蔡德忠先生发表题为《规模 x10 驱动 AI 智算集群网络架构新一轮变革》的主题演讲,展望智算技术发展趋势,尤其是 Scale up 网络的发展方向,提出智算网络未来的技术架构变革的新思路,发布了高通量以太网协议和智算超节点系统ENode+ 的路标规划,引起广泛关注。

过去一年,阿里云 HPN7.0 引领智算以太网生态蓬勃发展

模型的持续 scaling ,以及数据集的扩充,对于模型训练的总计算量要求一直在增长,业界总结发现,算力需求量每年增长 4-6 倍,而单颗芯片的算力增长、显存增长、网络带宽增长仍然遵循摩尔定律,每 2 年才一倍,无法满足算力增长的需求,所以算力来自于将更多的 GPU 进行集群化互联,网络在算力scaling 中扮演关键的角色。

在 2023 年初的时候,智算集群的网络方案选择还是百花齐放的状态,Google 有基于私有协议的 TPU 集群,微软使用了 NV 提供的一整套 IB 方案,而阿里云、 AWS 等公司坚持使用开放的以太网来构建集群。**一时间,以太网还是 IB ,成为智算集群架构选择的关键话题。**阿里云坚定以太网的路线,并且针对智算集群的特点创新设计了 HPN7.0 架构,采用业界首发的全自研 51.2T 交换机,利用多轨、双上联、双平面,结合自研通信库、协议、流控组成高性能系统。阿里云在大规模部署 HPN7.0 智算集群的同时,其论文被顶会 SIGCOMM 录取,成为网络顶会历史上首篇 AI 智算网络架构论文。

一年多时间过去了,阿里云 HPN7.0 已经成为业界标杆,引领了以太网智算集群的技术方向,目前国内外各大公司都在朝着这个方向演进,北美几大公司都已经或者即将基于以太网来部署十万卡级别的算力集群,关于智算集群以太网和 IB 的争议已经落幕,以太网正在成为超大规模智算集群的行业主流。

未来几年, X10 规模将给网络带来新的重要问题

虽然以太网和 IB 的选择已经画上句号,但是新的挑战还在继续。在智算集群的规模化方向上,各大公司你追我赶,国内公司的智算集群也将很快向 X10 规模迈进,尤其是在算力受到限制的情况下,通过网络互联扩展规模更有必要。GPU 规模的扩展并不是想象中这么简单:不可避免的硬件故障将导致任务中断会更加频繁;受限于电力、空间, GPU 资源可能会分布在不同园区,距离带来的时延和带宽限制会对整个训练集群的性能产生影响;尤其是 GPU Scale up 范围也将更大,智算集群的网络架构也会因此产生深远的变革。

通过更大带宽的网络互联是算力扩展的必经之路,这是从整体系统架构层面突破摩尔定律限制的主要路径。在这个方向上,无论 Scale up 、 Scale out 都需要更加激进的规划。

GPU Scale up 协议路线之争, Ethernet 优势明显

到底什么是 Scale up ?简单来讲, Scale up 就是在一定范围内、在成本和互联技术约束下实现的超高带宽互联。这个超高带宽互联的范围固定并且带宽是 Scale out 的数倍以上,可以在协议层面优化来支持内存语义。
**不少人以为 Scale up 是机内互联,这是一种误解。**在 8 卡系统的时代,因为 8 卡在一个 OS 内部所以确实是机内互联,然而,当 NVL36 、 72 这种AI rack 的形态出现后, GPU Scale up 就不是“机内互联”,而是一种新型的节点间网络互联。以 NVL72 为例,实际上是 18 台服务器通过9台Scale up交换机连在一起的网络域,只不过是在这个域内的带宽 10 倍于 Scale out 的大的带宽( 7.2Tbps vs 800Gbps ),此外还支持了内存操作语义,为了区分,我们继续称其为 GPU Scale up 。
在这里插入图片描述

GPU Scale up 是 AI 系统发展的一个热门话题,备受关注。Scale up 网络大体上可以分成 2 个技术方向。

  • 以 NV 、 Google 为代表的私有协议、封闭系统方案( NVLink 和 TPU 互联)
  • 以各大互联网和云计算公司自研 GPU (微软、 Meta 、 Tesla 等),以及 AMD 、 Intel 为代表的基于Ethernet 的网络传输方案

Ethernet 有超大带宽技术和强大的生态支撑,尤其是 UEC 、高通量以太网等开放组织针对 Scale up 进行协议的升级后, Ethernet 支持超大带宽的同时实现了超低时延、在网计算等核心功能,所以我们可以看到新晋 Scale up 系统都选择了 Ethernet ,可以说 Ethernet 这些特质已经成为 GPU Scale up 网络快速落地的首选技术方案。

计算和网络的新变革,Scale up 融合架构优势明显

Scale up 与 Scale out 如何协同工作是决定集群网络性能的关键。在今天的单机 8 卡系统中,通过多轨互联、并行排布、通信库协同,阿里云的 HPN7.0 架构已经将万卡级别的通信性能发挥到极致。那将来 Scale up 扩展到多机系统,尤其是成百上千卡之后, Scale up 与 Scale out 应该如何协同做到全局效率最高呢 ?机尾 backend 会继续沿着 Scale up + Scale out 两张网络各自发展,还是会融合兼顾 ?
当 Ethernet 成为 Scale up 的主流方案之后,这个选择方向呼之欲出,融合架构将是效率更高、成本更低的架构。融合架构将使带宽得到充分共享, Scale up 范围内进行大带宽的 TP 、 EP 、 CP 等通信,多个 Scale up 域通过 Scale out 互联,进行 DP 、 PP 等通信,跨 Scale up 实现合理的带宽收敛即可。同时,独立Scale out网卡+网络的成本也不容小觑,如果将 Scale up 和 Scale out 的以太网融合为一张网,通过将不同的 Scale up 域进行Scale out 互联组网,不但少了一张网络和网卡的投入,在运维、扩展上也将更加统一高效。
在这里插入图片描述

未来可期,高通量以太网发布关键路标和超节点 ENode+ 计划

在大会上,阿里云代表联盟发布了高通量以太网的协议路线图,规划了年度大版本,半年小版本的演进方式,为国内智算生态的快速发展迭代打好网络基础。同时发布了基于高通量以太网的 ENode+ 超节点路线,为高通量以太网的系统化落地构筑蓝图。
在这里插入图片描述

相关文章:

阿里云引领智算集群网络架构的新一轮变革

阿里云引领智算集群网络架构的新一轮变革 云布道师 11 月 8 日~ 10 日在江苏张家港召开的 CCF ChinaNet(即中国网络大会)上,众多院士、教授和业界技术领袖齐聚一堂,畅谈网络未来的发展方向,聚焦智算集群网络的创新变…...

几何合理的分片段感知的3D分子生成 FragGen - 评测

FragGen 来源于 2024 年 3 月 25 日 预印本的文章,文章题目是 Deep Geometry Handling and Fragment-wise Molecular 3D Graph Generation, 作者是 Odin Zhang,侯廷军,浙江大学药学院。FragGen 是一个基于分子片段的 3D 分子生成模…...

Python爬虫下载新闻,Flask展现新闻(2)

上篇讲了用Python从新闻网站上下载新闻,本篇讲用Flask展现新闻。关于Flask安装网上好多教程,不赘述。下面主要讲 HTML-Flask-数据 的关系。 简洁版 如图,页面简单,主要显示新闻标题。 分页,使用最简单的分页技术&…...

监控易监测对象及指标之:全面监控华为FusionInsight服务

随着大数据技术的广泛应用,华为FusionInsight以其卓越的性能和稳定性,成为了众多企业处理和分析海量数据的首选平台。然而,为了确保FusionInsight服务的持续稳定运行,对其进行全面监控至关重要。本文基于监控易工具,对…...

SQL面试题——蚂蚁SQL面试题 会话分组问题

会话分组问题 这里的分组不是简单的分组,而是会话的分组。 比如说,进入一个网站以后,可以连续的点击很多个页面,后台会记录用户的行为日志; 如果T日上午连续点击几个页面后退出了网站,直到第二天的下午才再次进入网站,单单从时间线上来看,昨天退出的那条日志跟今天进…...

nfs服务器--RHCE

一,简介 NFS(Network File System,网络文件系统)是FreeBSD支持的文件系统中的一种,它允许网络中的计 算机(不同的计算机、不同的操作系统)之间通过TCP/IP网络共享资源,主要在unix系…...

React--》如何高效管理前端环境变量:开发与生产环境配置详解

在前端开发中,如何让项目在不同环境下表现得更为灵活与高效,是每个开发者必须面对的挑战,从开发阶段的调试到生产环境的优化,环境变量配置无疑是其中的关键。 env配置文件:通常用于管理项目的环境变量,环境…...

Javascript高级—函数柯西化

函数柯西化(经典面试题) // 实现一个add方法,使计算结果能够满足如下预期: add(1)(2)(3) 6; add(1, 2, 3)(4) 10; add(1)(2)(3)(4)(5) 15;function add() {// 第一次执行时,定义一个数组专门用来存储所有的参数var…...

Sql进阶:字段中包含CSV,如何通过Sql解析CSV成多行多列?

Sql进阶 一、问题描述二、解决思路<一>、拆成多行<二>、拆成多列 三、代码实现 一、问题描述 Oracle数据库中某个字段value是CLOB类型,存的是csv格式的数据,如下所示 classnovalue1name,age,sex,… ‘李世民’,20,‘M’,…’ ‘李治’,18,‘M’,… ‘武则天’,16…...

linux之调度管理(5)-实时调度器

一、概述 在Linux内核中&#xff0c;实时进程总是比普通进程的优先级要高&#xff0c;实时进程的调度是由Real Time Scheduler(RT调度器)来管理&#xff0c;而普通进程由CFS调度器来管理。 实时进程支持的调度策略为&#xff1a;SCHED_FIFO和SCHED_RR。 SCHED_FIFO&#xff…...

mybatis-plus: mapper-locations: “classpath*:/mapper/**/*.xml“配置!!!解释

和mybatis一样的道理&#xff01;&#xff01;&#xff01;&#xff01;如果不指定这个配置&#xff0c;通常要求 XML 映射文件和 Mapper 接口的包名和结构相同&#xff01;&#xff01;&#xff01;&#xff01; 如果没有配置 mapper-locations&#xff0c;通常文件结构应遵循…...

nacos-operator在k8s集群上部署nacos-server2.4.3版本踩坑实录

文章目录 操作步骤1. 拉取仓库代码2. 安装nacos-operator3. 安装nacos-server 坑点一坑点二nacos-ui页面访问同一集群环境下微服务连接nacos地址配置待办参考文档 操作步骤 1. 拉取仓库代码 &#xff08;这一步主要用到代码中的相关yml文件&#xff0c;稍加修改用于部署容器&…...

面试篇-项目管理

⼀、构建管理 项目为什么选择Maven构建? 选择Maven进行项目构建有以下几个主要原因&#xff1a; 1. 依赖管理&#xff1a;Maven 提供了强大的依赖管理功能&#xff0c;可以自动下载项目所需的第三方库和依赖&#xff0c;并且可以管理这些依赖的版本、范围等信息。这简化了项…...

数仓建设之Oracle常见语法学习

1. 字符串截取 select substr(AAA-BBB, 1, instr(AAA-BBB, -, -1) - 1) 值 from dual; --AAA select substr(AAA-BBB, instr(AAA-BBB, -, -1) 1) 值 from dual; --BBB2. 帆软报表有参数SQL select a.agency_code, a.agency_name, a.agency_typefrom dw.dim_ta_subred_agency…...

物联网智能技术的深入探讨与案例分析

✅作者简介&#xff1a;2022年博客新星 第八。热爱国学的Java后端开发者&#xff0c;修心和技术同步精进。 &#x1f34e;个人主页&#xff1a;Java Fans的博客 &#x1f34a;个人信条&#xff1a;不迁怒&#xff0c;不贰过。小知识&#xff0c;大智慧。 &#x1f49e;当前专栏…...

python语言基础-5 进阶语法-5.2 装饰器-5.2.2 简单装饰器

声明&#xff1a;本内容非盈利性质&#xff0c;也不支持任何组织或个人将其用作盈利用途。本内容来源于参考书或网站&#xff0c;会尽量附上原文链接&#xff0c;并鼓励大家看原文。侵删。 5.2.2 简单装饰器 装饰器的形式就是一个闭包&#xff0c;下面是一个简单的定义并使用…...

TransFormer--解码器:带掩码的多头注意力层

TransFormer--解码器&#xff1a;带掩码的多头注意力层 以英法翻译任务为例&#xff0c;假设训练数据集样本如下表所示。 原句目标翻译I am goodJe vais bienGood morningBonjourThank you very muchMerci beaucoup 上表所示的数据集由两部分组成&#xff1a;原句和目标句。在…...

【ArcGIS微课1000例】0130:图层组详解与使用

文章目录 一、图层组概述二、创建图层组三、在图层组中管理图层四、对话框中图层组的列表一、图层组概述 图层组包含其他图层。图层组有助于对地图中相关类型的图层进行组织,并且可用于定义高级绘制选项。例如,假设在地图上有两个图层分别用于表示铁路和高速公路。您可将这些…...

Linux中配置ntp服务

NTP&#xff1a;是Network Time Protocol的缩写又 称网络时间协议&#xff0c;是用来使计算机时间同步化的一种协议&#xff0c;用来同步网络中各主机的时 间&#xff0c;在linux系统中早期使用ntp来实现&#xff0c;后来使用chrony来实现。Chrony 应用本身已经有 几年了&#…...

微服务day10-Redis面试篇

Redis主从 搭建主从集群 建立集群时主节点会生成同一的replicationID,交给各个从节点。 集群中的缓冲区是一个环型数组&#xff0c;即若从节点宕机时间过长&#xff0c;可能导致命令被覆盖。 主从集群优化 哨兵原理 哨兵是一个集群来确保哨兵不出现问题。 服务状态监控 选举…...

微信网页版访问技术方案:wechat-need-web扩展的智能实现

微信网页版访问技术方案&#xff1a;wechat-need-web扩展的智能实现 【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 在当今数字化办公环境中&#xff…...

对抗AI焦虑的最好方式是搞懂大模型的底层原理

文章指出&#xff0c;尽管AI技术如RAG、MCP、Skill、Agent、Harness等迭代迅速&#xff0c;但程序员应专注于掌握大模型的底层原理&#xff0c;如记忆、信息获取、操作能力等&#xff0c;这些原理不会因技术变迁而失效。通过理解这些基础认知&#xff0c;程序员能更好地应对技术…...

别再只会轮询了!STM32CubeMX配置USART中断,从原理到调试一条龙指南

STM32串口中断实战&#xff1a;从轮询到事件驱动的效率跃迁 在嵌入式开发中&#xff0c;串口通信就像系统的神经末梢&#xff0c;负责与外界交换关键信息。传统轮询方式如同不断拨打电话确认消息&#xff0c;而中断机制则像设置来电提醒——只有当数据真正到达时才会唤醒CPU。这…...

S参数去嵌与DK/DF拟合:从实测数据反演PCB板材真实性能

1. 项目概述&#xff1a;从S参数中“挖”出板材的真实性能在高速PCB设计里&#xff0c;我们经常听到两个关键的板材参数&#xff1a;介电常数&#xff08;DK&#xff0c; Dk&#xff09;和损耗角正切&#xff08;DF&#xff0c; Df&#xff09;。供应商手册上会给出一个标称值&…...

手把手教你用C语言写一个Linux文件监控工具:基于fanotify的实战教程

从零构建Linux文件监控工具&#xff1a;fanotify深度实践指南 1. 为什么选择fanotify而非inotify&#xff1f; 在Linux系统监控领域&#xff0c;inotify曾是文件监控的事实标准&#xff0c;但它在现代安全需求面前逐渐显露出局限性。fanotify作为内核2.6.36引入的增强机制&…...

【QT开发笔记-基础篇】| 第一章 QT入门 | 1.3 从零到一:详解Qt Creator项目创建全流程

1. 初识Qt Creator&#xff1a;开发环境初体验 第一次打开Qt Creator时&#xff0c;这个界面可能会让你有点懵。别担心&#xff0c;我刚开始用的时候也这样。左上角是菜单栏&#xff0c;包含了所有功能入口。中间区域是欢迎页面&#xff0c;这里可以快速新建项目或打开最近的项…...

从rockyou.txt字典说起:聊聊Kali Linux里那些你不知道的‘安全工具’冷知识

从rockyou.txt字典说起&#xff1a;Kali Linux安全工具的隐秘往事与技术哲学 2009年12月&#xff0c;社交游戏公司RockYou遭遇数据泄露&#xff0c;超过3200万用户的明文密码被公之于众。这份意外流出的密码清单&#xff0c;后来成为了安全测试领域的"黄金标准"——r…...

如何快速入门Three.js:10个基础案例带你上手三维开发 [特殊字符]

如何快速入门Three.js&#xff1a;10个基础案例带你上手三维开发 &#x1f680; 【免费下载链接】three-cesium-examples WebGL Three.js Cesium.js Examples And Demo - WebGL 的 Three.js 和 Cesium.js 案例 --- Star ---点星星 项目地址: https://gitcode.com/gh_mirrors/…...

为什么说Poe the Poet是Poetry和UV的最佳搭档?完整指南解析

为什么说Poe the Poet是Poetry和UV的最佳搭档&#xff1f;完整指南解析 【免费下载链接】poethepoet A task runner that works well with poetry or uv. 项目地址: https://gitcode.com/gh_mirrors/po/poethepoet Poe the Poet是一个功能强大的Python任务运行器&#x…...

2篇最新Anthropic论文,揭开LLM对齐新范式

Anthropic在5月连发两篇研究&#xff0c;揭开了LLM对齐训练的新范式。核心结论极其反直觉&#xff1a;单纯让模型模仿正确行为&#xff08;SFT/RLHF&#xff09;不足以保证安全&#xff1b;必须在预训练与对齐微调之间插入一个教原理的阶段&#xff0c;让模型先理解价值观的 wh…...