当前位置: 首页 > article >正文

OpenAI发布MRC超算协议,重塑10万GPU集群通信,AMD等合作推进

每周有9亿人在使用ChatGPT支撑其运转的系统正在成为核心基础设施。要让AI变得更聪明企业必须把成千上万块芯片连接在一起协同工作。而芯片之间的数据传输速度直接决定了整个系统的计算效率。OpenAI联合AMD、博通、英特尔、微软和英伟达通过开放计算项目正式发布了多路径可靠连接网络协议Multipath Reliable ConnectionMRC。MRC技术打破了传统网络设计的局限通过多平面网络、数据包喷射和静态源路由技术彻底解决了超大规模计算集群中的网络拥堵和设备故障停机难题大幅降低了建设成本与能耗。拆解超大单行道训练前沿AI模型时一个简单的计算步骤会产生数百万次的数据传输。哪怕只有一个数据包迟到整个训练任务都会受到波及导致昂贵的计算芯片只能停下来原地等待。集群规模越大网络拥堵、线路老化和设备故障引发的延迟就越频繁。在以往的架构下哪怕只是一根网线接触不良都有可能导致整个训练任务彻底崩溃。工程师必须让系统从上一个保存点重新启动或者让整个网络停顿数十秒去重新计算数据传输路线。大规模同步预训练要求所有芯片步调一致工作负载就成了一个巨大的故障放大器一点微小的波动都会带来极高的算力周期和时间成本。为了应对Stargate星际之门级别超级计算机的建设需求工程师必须从底层架构重新思考网络设计。OpenAI的扩展团队与业界伙伴耗时两年开发出了MRCMultipath Reliable Connection多路径可靠连接协议。这项技术建立在RoCERDMA over Converged Ethernet基于融合以太网的远程直接内存访问标准的基础之上。RoCE是一项由IBTAInfiniBand Trade AssociationInfiniBand贸易协会制定的标准专门用于加速图形处理器和中央处理器之间的直接内存读取。MRC吸收了UECUltra Ethernet Consortium超级以太网联盟开发的相关技术并将其扩展到支持大规模计算网络。构建高弹性的网络需要足够的物理冗余保证部分线路断开时数据依然有路可走。传统思路是将每个网络接口视作一条800Gb/s每秒800吉比特的超宽单行道。MRC选择将这条单行道拆分。一个接口可以连接到8个不同的交换机上由此构建出8个独立的、平行运行的100Gb/s网络平面。这种设计让计算集群的形态发生了巨大改变。一台原本只能连接64个800Gb/s端口的交换机现在可以连接512个100Gb/s的端口。在连接约13万块GPU时新架构只需要两层交换机就能完成全互联配置传统架构往往需要堆叠三到四层交换机。MRC对多平面网络的支持意味着我们可以用两层交换机连接超过10万个GPU。与传统方法相比这降低了所需的功率、可能发生故障的组件数量和网络的总成本。层级的减少大幅削减了建设成本降低了系统整体能耗减少了潜在的硬件故障点。更多的数据流量可以留在底层交换机内部进行本地处理传输效率得到了实质性的提升。把数据当水洒出去多平面网络提供了极其丰富的路径选择想要充分利用这些路径并非易事。传统的AI训练网络协议要求单次数据传输必须沿着固定的一条路径前进以确保数据包能够按照原本的顺序到达终点。在拥有众多平面的大型网络中死板的单路径规则会引发严重的后果。不同的数据流很容易在同一条线路上发生碰撞造成局部拥堵其他空闲的平行网络平面却无事可做。单纯增加物理路径而不改变传输规则系统的整体表现依然会非常糟糕。MRC彻底改变了数据传输的派发模式。系统不再给数据分配单一的固定通道而是将一次传输任务拆散像喷水壶一样将海量的数据包均匀地喷射到网络中的数百条路径和所有平面上。这些数据包到达终点的顺序是完全错乱的。每一个MRC数据包内部都携带了最终的内存地址坐标。目的地接收端会在数据到达的瞬间直接将它们安放到对应的内存位置上完成拼图般的重组。把流量摊薄到无数条路径上网络内部的局部拥堵热点就不复存在了。所有的数据交互任务都能保持相近的处理时间消除了拖慢同步训练的木桶短板。每一个MRC连接都会在系统里保留一点状态记录。一旦协议察觉到某条路径的流速变慢就会迅速将其替换为另一条畅通的路径让整个网络的负载保持绝对的均衡。遇到数据包丢失的情况系统会采取最保守的安全策略假定该路径上的某些硬件已经损坏立即停止向该路径发送数据并重新发送丢失的内容。被弃用的路径也不会被彻底遗忘系统会定期发送探测包去检查故障是否已经修复一旦确认恢复正常就会将其重新纳入传输队伍。网络发生拥堵时接收端来不及处理数据同样会造成丢包。MRC引入了数据包修剪机制来应对这种状况。面临拥堵时交换机会切掉数据包的核心有效载荷只把表头信息发送给目的地接收端看到表头后会直接发起明确的重传请求。这种修剪动作有效避免了系统产生误判防止协议把单纯的拥堵错误地当成物理硬件损坏。让交换机停止思考有了多平面拓扑、数据喷射、负载均衡和数据包修剪这些特性的配合MRC连接能够在微秒级别内察觉并绕过网络故障。传统网络往往需要耗费几秒甚至几十秒的时间才能稳定下来并重新规划路线。MRC在简化网络控制层面走得更远。传统的交换机通常需要运行BGPBorder Gateway Protocol边界网关协议等动态路由协议。这类协议的作用是让交换机自己去计算可用的路径并绕开故障。交换机本身是非常复杂的设备里面运行着复杂的控制软件。当它们出现一些难以察觉的隐蔽故障时工程师很难排查原因网络连接也会随之频繁中断。动态路由在MRC架构下失去了存在的必要。MRC采取了非常激进的做法直接禁用了动态路由转而使用SRv6IPv6 Segment Routing基于IPv6的段路由技术。利用SRv6发送端可以直接决定每一个数据包在网络中应该走的具体路径。发送端把沿途每一台交换机的识别码按顺序嵌入到数据包的目的地址里。交换机在转发数据时只需要核对数据包上有没有自己的识别码。核对无误后交换机把自己的识别码抹掉让下一台交换机的识别码显露出来。接着交换机去查看一张静态路由表把数据包扔向下一个目的地。这张静态路由表在交换机初次开机部署时就已经配置完毕此后再也不会发生变动。交换机不需要再耗费算力去重新计算路线只需要像一个毫无思想的流水线工人一样机械地遵循静态规则进行转发。如果某条路径真的断了发送端不再往这条路上喷射数据包即可。这样的设计在实际生产环境中展现出了惊人的稳定性。在拥有数百万条网线的训练网络里底层和上层交换机之间每分钟都会发生多次链路抖动。MRC确保了这些抖动对同步预训练任务没有产生任何可测量的负面影响工程师甚至不需要优先去维修那些不稳定的网线。在近期一次前沿模型的训练过程中运维团队重启了四台上层交换机。按照以往的经验运维人员必须极其谨慎地协调时间生怕打断训练任务。有了MRC的庇护运维团队无需跟负责训练的团队打任何招呼直接在系统全速运转时完成了设备重启。线路维修也是如此损坏的网线可以带电直接热修复。能用的线MRC自然会用不能用的线它会自行绕开。在训练运行期间捕获的真实数据显示MRC对T1开关完全丢失的反应。训练工作暂时放缓但很快恢复。以往只要GPU网卡和底层交换机之间的连接断开整个训练任务就会宣告失败。现在哪怕一张拥有8个端口的网卡坏掉了一个端口系统最高传输速率仅仅下降八分之一。MRC会瞬间察觉到端口丢失立刻重新计算路径绕开损坏的平面同时通知网络里的其他节点不要再往这个损坏的平面发送数据。多数掉线故障在一分钟内就能物理恢复随后该平面会被无缝接纳回传输队伍中。系统速度的实际损耗往往比物理硬件容量的损失要小得多。开放标准与硬件落地没有任何一家企业能独自解决AI领域的硬件挑战。MRC协议目前已经部署在OpenAI最大的英伟达GB200超级计算机上包括位于德克萨斯州阿比林市的OCIOracle Cloud Infrastructure甲骨文云基础设施站点以及微软的Fairwater超级计算机中。这项技术已经利用英伟达和博通的硬件成功训练了OpenAI多个模型。AMD不仅联合主导了MRC规范的编写还贡献了应对真实世界复杂环境的高级拥塞控制技术。AMD已经在其实验集群中大规模部署并验证了这项技术。凭借Pensando Pollara 400 AI NICNetwork Interface Card网络接口卡的软硬件全可编程能力AMD在MRC标准正式确立之前就已经实现了改进版RoCEv2传输协议的早期验证。目前AMD正将这项成熟的技术平滑过渡到下一代Vulcano 800G AI NIC网卡上。AMD近期股价也翻了一番。通过开放计算项目MRC规范的细节已经向全世界公开。全行业建立统一的关键基础设施标准能够让计算系统跨越不同合作伙伴的生态壁垒。网络正在成为消化硬件故障的减震器保持计算资源的持续高产出让通向通用AI的道路变得更加平稳。参考资料https://openai.com/index/mrc-supercomputer-networking/https://www.amd.com/en/blogs/2026/amd-advances-ai-networking-at-scale-with-mrc.htmlhttps://www.opencompute.org/documents/ocp-mrc-1-0-pdf

相关文章:

OpenAI发布MRC超算协议,重塑10万GPU集群通信,AMD等合作推进

每周有9亿人在使用ChatGPT,支撑其运转的系统正在成为核心基础设施。要让AI变得更聪明,企业必须把成千上万块芯片连接在一起协同工作。而芯片之间的数据传输速度直接决定了整个系统的计算效率。OpenAI联合AMD、博通、英特尔、微软和英伟达,通过…...

CANN ops-math Fill算子

Fill 【免费下载链接】ops-math 本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-math 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产品√A…...

别再让Langchain卡住你的前端!一个FastAPI + SSE的保姆级流式输出教程(附完整可运行代码)

FastAPI SSE实战:打破Langchain流式输出到前端的最后屏障 当ChatGLM3生成的文字在前端页面逐字跳动时,会议室突然安静了。团队花了三周时间尝试解决的"伪流式"问题,此刻被20行Python代码彻底终结。这不是魔法,而是Serv…...

ARGO:本地部署AI智能体,打造私有化多智能体协作平台

1. 项目概述:ARGO,你的本地超级AI智能体如果你和我一样,对AI智能体(Agent)的潜力感到兴奋,但又对数据隐私、高昂的API成本以及云端服务的不可控性心存疑虑,那么ARGO的出现,可能正是我…...

CANN ATC模型转换指南

ATC模型转换指南 【免费下载链接】cann-recipes-harmony-infer 本项目为鸿蒙开发者提供基于CANN平台的业务实践案例,方便开发者参考实现端云能力迁移及端侧推理部署。 项目地址: https://gitcode.com/cann/cann-recipes-harmony-infer ATC是异构计算架构CANN…...

基于AI的自动化代理框架:用自然语言驱动网页操作实践

1. 项目概述与核心价值最近在折腾一些自动化流程,发现很多重复性的网页操作和表单填写工作特别耗时。比如,每天要登录好几个后台系统查看数据、手动下载报表,或者需要定期在某个网站上提交固定的信息。这些操作本身不复杂,但架不住…...

CANN/pypto的expand_clone函数

# pypto.expand_clone 【免费下载链接】pypto PyPTO(发音: pai p-t-o):Parallel Tensor/Tile Operation编程范式。 项目地址: https://gitcode.com/cann/pypto 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atl…...

对比自行维护多个 API 密钥使用 Taotoken 的管理效率提升

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 对比自行维护多个 API 密钥使用 Taotoken 的管理效率提升 在开发基于大模型的应用时,团队或个人开发者常常需要接入多个…...

告别官方镜像站卡顿:国内镜像源加速下载树莓派系统(Raspberry Pi OS)与常用软件包

告别官方镜像站卡顿:国内镜像源加速下载树莓派系统与常用软件包 对于国内树莓派用户来说,最头疼的莫过于从官方源下载系统镜像和更新软件包时的漫长等待。想象一下,你兴冲冲地买来树莓派准备大展身手,却在第一步——下载系统镜像时…...

CANN/ops-cv算子跨平台迁移指导

算子跨平台迁移指导 【免费下载链接】ops-cv 本项目是CANN提供的图像处理、目标检测相关的算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-cv 本指南介绍算子在多平台间迁移的适配要点与方案。以算子从Atlas A2系列迁移至Ascend …...

基于TwoAI框架构建多智能体对话系统:原理、配置与实战

1. 项目概述:当两个AI开始对话最近在折腾AI应用开发的朋友,可能都遇到过类似的场景:你想测试一个智能客服的对话流,或者想模拟用户与AI助手的多轮交互,但总是一个人扮演两个角色,在同一个聊天窗口里自问自答…...

CANN/ops-transformer FlashAttentionScore算子

FlashAttentionScore 【免费下载链接】ops-transformer 本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-transformer 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练…...

数据科学实战:从零构建高质量数据集资源库与预处理指南

1. 项目概述:为什么你需要一个专属的“数据弹药库”在数据科学、机器学习乃至更广阔的AI领域摸爬滚打这些年,我最大的体会是:想法不值钱,数据才是硬通货。你可能有绝妙的算法构思,有清晰的业务逻辑,但如果没…...

【AI原生应用安全红宝书】:SITS2026框架下7大高危攻击面与零信任加固路径

更多请点击: https://intelliparadigm.com 第一章:SITS2026框架演进与AI原生安全范式跃迁 SITS2026(Secure Intelligence Trust Stack 2026)标志着安全架构从“防御叠加”向“智能内生”的根本性转变。其核心不再依赖边界检测与规…...

5大核心技术揭秘:Seraphine如何通过LCU API重塑英雄联盟游戏体验

5大核心技术揭秘:Seraphine如何通过LCU API重塑英雄联盟游戏体验 【免费下载链接】Seraphine 英雄联盟战绩查询工具 项目地址: https://gitcode.com/gh_mirrors/se/Seraphine 在竞技游戏的激烈对抗中,信息差往往是决定胜负的关键因素。Seraphine作…...

别再只盯着告警了:从Pikachu靶场搭建看SRE可观测性的实战落地(含日志与调用链配置)

从Pikachu靶场搭建看SRE可观测性的实战落地 当我们在本地搭建一个Web漏洞练习平台时,往往只关注漏洞利用本身,却忽略了服务运行时的状态感知。最近在配置Pikachu靶场时,我尝试将SRE的可观测性理念应用到这个微型PHP服务中,意外发现…...

SAP ABAP开发避坑:WS_DELIVERY_UPDATE函数调用时,COMMIT和NO_MESSAGES_UPDATE参数到底怎么设?

SAP ABAP开发实战:WS_DELIVERY_UPDATE函数参数组合的黄金法则 在SAP物流模块开发中,WS_DELIVERY_UPDATE函数就像一把瑞士军刀——功能强大但参数复杂。许多ABAP开发者第一次接触这个函数时,往往会被其十余个控制参数弄得晕头转向。更棘手的是…...

6G+AI重塑医疗影像:云边端协同架构与智能诊断实践

1. 项目概述:当6G遇见AI,磁共振影像的“超进化”最近和几位三甲医院影像科的朋友聊天,他们都在为一个问题头疼:磁共振(MRI)检查量越来越大,一个病人动辄几十个序列、上百GB的原始数据&#xff0…...

基于AgentScope与ReMe构建开源AI助手工作站CoPaw实战指南

1. 项目概述:一个开源的个人AI助手工作站最近在折腾AI智能体,发现了一个挺有意思的开源项目,叫CoPaw。简单来说,你可以把它理解成一个“个人AI助手工作站”。它不是某个单一的聊天机器人,而是一个能让你在本地或云端部…...

CANN可变长FlashAttentionV2

aclnnFlashAttentionVarLenScoreV2 【免费下载链接】ops-transformer 本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。 项目地址: https://gitcode.com/cann/ops-transformer 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√…...

AI for Science中的分布外泛化:从理论到实践的挑战与应对

1. 项目概述:当AI遇见科学,泛化能力成为“卡脖子”难题最近几年,AI for Science(科学智能)火得一塌糊涂,从预测蛋白质结构的AlphaFold,到加速新材料发现的生成模型,AI正在成为继理论…...

WeChatExporter终极指南:5步解锁你的微信聊天记录备份神器

WeChatExporter终极指南:5步解锁你的微信聊天记录备份神器 【免费下载链接】WeChatExporter 一个可以快速导出、查看你的微信聊天记录的工具 项目地址: https://gitcode.com/gh_mirrors/wec/WeChatExporter 你是否曾担心重要聊天记录丢失?或是需要…...

基于语义搜索的代码索引工具:从原理到部署实战

1. 项目概述:一个为代码库建立智能索引的利器最近在折腾个人项目和团队协作时,我遇到了一个挺普遍但很头疼的问题:随着代码库规模越来越大,文件越来越多,想要快速找到一个特定的函数定义、某个类的引用,或者…...

联邦学习与Transformer融合:破解数据孤岛下的视觉与安全AI落地难题

1. 引言:当AI前沿技术遇见现实世界的“硬骨头”如果你和我一样,长期混迹在AI研究和工业落地的交叉地带,就会发现一个有趣的现象:每年都有大量炫酷的新模型、新范式在顶会上涌现,但真正能走出论文,在计算机视…...

CANN驱动LLC性能参数查询

dcmi_get_device_llc_perf_para 【免费下载链接】driver 本项目是CANN提供的驱动模块,实现基础驱动和资源管理及调度等功能,使能昇腾芯片。 项目地址: https://gitcode.com/cann/driver 函数原型 int dcmi_get_device_llc_perf_para(int card_id…...

Kubernetes Job与CronJob深度解析与实践

Kubernetes Job与CronJob深度解析与实践 Job与CronJob概述 在Kubernetes中,Job用于运行一次性任务,而CronJob则用于运行定时任务。本文将深入探讨Job和CronJob的核心概念、配置方法和最佳实践。 Job核心概念 1. 基本Job配置 apiVersion: batch/v1 kind: …...

苹果神经引擎(ANE)上的LLM全栈解决方案Orion解析

1. Orion系统概述:苹果神经引擎上的LLM全栈解决方案Orion是一个突破性的开源系统,它首次实现了在苹果神经引擎(Apple Neural Engine, ANE)上完整的LLM训练和推理流程。作为苹果设备内置的专用神经网络处理器,ANE自A11 Bionic芯片开始就存在于…...

CANN/pypto设置主机选项API文档

pypto.set_host_options 【免费下载链接】pypto PyPTO(发音: pai p-t-o):Parallel Tensor/Tile Operation编程范式。 项目地址: https://gitcode.com/cann/pypto 产品支持情况 产品是否支持Atlas A3 训练系列产品/Atlas A3 推理系列产…...

认知科学四维智能:构建下一代AGI评估框架与虚拟社区测试实践

1. 项目概述:为什么我们需要一个全新的AGI评估框架?在过去的几年里,我们见证了以GPT系列为代表的大语言模型(LLMs)在文本生成、代码编写乃至多模态理解上取得的惊人突破。作为一名长期关注AI技术发展的从业者&#xff…...

对比自行维护多个API密钥使用Taotoken聚合服务在稳定性上的体验差异

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 对比自行维护多个API密钥与使用Taotoken聚合服务在稳定性上的体验差异 1. 引言:从分散管理到统一接入的转变 在开发过…...