当前位置: 首页 > article >正文

利用 PCI-Express 交换机实现面向未来的推理服务器

在数据中心系统的历史上,没有比被 Nvidia 选为其 AI 系统的组件供应商更高的赞誉了。

这就是为什么新兴的互连芯片制造商 Astera Labs 感到十分高兴,因为该公司正在 PCI-Express 交换机、PCI-Express 重定时器和 CXL 内存控制器方面与 Broadcom 和 Marvell 等公司展开竞争。当 Nvidia 批准即将推出的服务器节点使用“Blackwell”GPU 加速器时,该公司感到十分高兴,该加速器使用 PCI-Express 6.0 交换机和重定时器将 X86 GPU 连接到其 Blackwell GPU,在某些情况下还包括网络接口卡和存储。

MGX 是一套服务器参考设计,包括 Nvidia 自己的 AI 野兽的基本构建块以及 OEM 和 ODM 创建的克隆,以便他们能够分得一杯羹。

在上周举行的 2025 年 GPU 技术大会上,Astera Labs 做了两件事。首先,它展示了其“Scorpio”P 系列 PCI-Express 6.0 结构交换机和“Aries”PCI-Express 6.0 重定时器与 Nvidia 的“Hopper”H100 和 H200 GPU 以及 HGX 设置中使用的各种 Blackwell B100 和 B200 GPU 的互操作性(熟悉的 2 CPU 乘以 8 GPU 设计,现在称为 Hoppers 的 HGX NVL8 和 Blackwells 的 DGX NVL16)。其次,Astera 展示了由 ODM 服务器制造商 Wistron 设计的基于 Hopper GPU 的推理服务器,并使用其交换机和重定时器将组件连接在一起。

目前还不清楚 Nvidia 本身在其系统中使用 Astera 芯片的情况,我们只是利用这次公告作为研究 Astera 提供的产品的机会,但 Nvidia 硬件工程副总裁 Andrew Bell 在一份声明中表示,Scorpio 交换机与“基于 Blackwell 的 MGX 平台”集成,所以你明白了。基于 DSP 的 Aries 重定时器没有被提及,但如果您需要扩展 PCI-Express 5.0 或 6.0 链路以将组件空间稍微拉远一些,您也需要这些东西。

从概念上来说,一切看起来是这样的:

在上图的中间,结构可以是任何 PCI-Express 交换机,但 Astera 无疑更希望它是自己的 Scorpio 交换机,它也显示了这一点。使用来自两个不同供应商的交换机和重定时器可能会带来麻烦。

如您所见,您可以使用重定时器将 GPU 链接到网络或存储结构,以及用于将 GPU 直接绑定在一起的不同 PCI-Express 结构,就像 Nvidia 使用 NVLink 端口和 NVSwitch 交换机所做的那样。目前,GPU 加速器还没有跨此 PCI-Express 结构的内存寻址,但这正是由 AMD、Broadcom、思科系统、谷歌、惠普企业、英特尔、Meta Platforms 和微软牵头的超级加速器链接 (UALink) 工作的目的所在。

虽然 Scorpio P 系列交换机用于将 CPU 连接到 GPU、网络接口和存储,但 Scorpio 交换机还有另一种变体,称为 X 系列,用于创建 GPU 网格,就像 Nvidia 的 NVSwitch 一样 - 显然带宽要少得多。这款 X 系列芯片需要定制参与,正如您所预料的那样,Astera 在 GTC 2025 上肯定没有谈论这款芯片。

P 系列和 X 系列交换机均向后兼容 PCI-Express 1.0 之前的设备。

以下是 Astera 就 PCI-Express 6.0 与 Nvidia 配合使用所进行的测试:

在这种情况下,它是一个 PCI-Express 6.0 x16 链路,它将 Aries 重定时器连接到 Blackwell GPU,以扩展 PCI-Express 链路的范围。盒子中的 Scorpio P 系列交换机链接到 Intel Xeon 5.0 处理器和 Nvidia ConnectX-7 网络接口,降级到 PCI-Express 5.0。Micron Technology 闪存驱动器使用以 PCI-Express 6.0 速度运行的单个 x1 通道进行存储。Scorpio 交换机有 64 个 PCI-Express 6.0 信号通道,此设置使用其中的 49 个通道,其中 32 个以 PCI-Express 5.0 半速运行。

Scorpio P 系列交换机于 2024 年 9 月开始提供样品,目前正在加速生产。

Astera 与 ODM 合作伙伴 Wistron 展示的机器是 Nvidia MGX H100/H200 NVL 推理服务器的实现。MGX模块化机器系列于 2023 年 5 月推出,其理念是将 GPU 加速应用于具有适合用途的外形尺寸的不同类型的工作负载。

从概念上讲,MGX 推理服务器如下所示:

这是一个 4U 机架式机箱,后面有一台双插槽 X86 服务器作为系统主机,配有 PCI-Express 交换机,用于连接到两个 BlueField 3 DPU(前面右侧)和八个 H100 或 H200 PCI-Express 5.0 GPU(前面占用了大部分空间)。没有 NVSwitch 内存互连,但每个 GPU 卡上都有 NVLink 内存端口,可以使用桥接器将两个或四个相邻的 GPU 连接起来,形成共享内存配置,以共享内存并利用更大的内存进行计算。

该 MGX 参考架构的配置为每对 GPU 配备一个 BlueField 3 DPU 和四个 ConnectX-7 SmartNIC。

以下是每个 Scorpio 交换机有两个 GPU 和一个 NIC 的 MGX 推理系统的示意图:

每对 GPU 都通过 NVLink 桥连接,它们都拥有一个 ConnectX-7 NIC,它们与外界共享并通过 Scorpio P 系列交换机进行通信。我们推测,这对 GPU 还可以通过 Scorpio 交换机以 PCI-Express 6.0 速度进行通信,如果 GPU 可以使用 6.0,则 x16 通道的速度为 256 GB/秒,如果 GPU 只能使用 5.0,则速度仅为 128 GB/秒。

主机 CPU 和 GPU 之间需要多少带宽,以及 NVLink NUMA 的级别(NVL2 或 NVL4)取决于您正在进行的 AI 类型。

关于这款 MGX 推理服务器设计的一个重要特点是它是模块化的。(因此 MGX 名称中带有模块化 GPU——我们不确定 X 代表什么,但它可能不是一个吻,也不是足球队的防守队员......)

后面的主机计算和内存板可以独立于前面的 GPU/NIC/DPU 板进行升级。因此,例如,如果您在 GPU 计算板中使用 Scorpio P 系列 PCI-Express 6.0 交换机,那么您现在可以在 PCI-Express 5.0 模式下运行它,并立即链接到任何 X86 或 Arm 服务器节点,并在此类处理器上市时将其换成带有 PCI-Express 6.0 插槽的新服务器卡。如果您现在有带有 PCI-Express 5.0 x16 插槽的旧款 Hopper GPU,您可以在今天的 MGX 设计中使用它们,并在将来的某个时间换上新的 Blackwell PCI-Express 6.0 GPU。

以下是纬创公司实际的 xWing 推理服务器 GPU 系统板:

该设计每个 Scorpio 交换机有两个 GPU,并且在主板左侧有一个 NIC 插槽。

任何 MGX 推理服务器设计都无法对具有数万亿个参数的 GenAI 模型进行推理。但它们的大小适合大量 AI 推理工作负载。

相关文章:

利用 PCI-Express 交换机实现面向未来的推理服务器

在数据中心系统的历史上,没有比被 Nvidia 选为其 AI 系统的组件供应商更高的赞誉了。 这就是为什么新兴的互连芯片制造商 Astera Labs 感到十分高兴,因为该公司正在 PCI-Express 交换机、PCI-Express 重定时器和 CXL 内存控制器方面与 Broadcom 和 Marv…...

Python调用手机摄像头检测火焰烟雾的三种方法

方法1:使用IP摄像头应用 OpenCV 1. 在手机上安装IP摄像头应用(如IP Webcam for Android) 2. 配置应用并启动服务器 3. 在Python中使用OpenCV连接 import cv2 import numpy as np # 手机IP摄像头URL(替换为你的手机IP和端口…...

Python if else while for 学习笔记

一.if,else if语句用于根据条件执行代码块 else语句可与if语句结合,当if判断为假时执行else语句 x10 if x>5:print("x大于5") y3 if y>5:print("y大于5") else:print("y小于等于5")结果: 二.while循环…...

正则化是什么?

正则化(Regularization)是机器学习中用于防止模型过拟合(Overfitting)的一种技术,通过在模型训练过程中引入额外的约束或惩罚项,降低模型的复杂度,从而提高其泛化能力(即在未见数据上…...

搜索-BFS

马上蓝桥杯了,最近刷了广搜,感觉挺有意思的,广搜题类型都差不多,模板也一样,大家写的时候可以直接套模板 这里给大家讲一个比较经典的广搜题-迷宫 题目问问能否走到 (n,m) 位置,假设最后一个点是我们的&…...

《边缘计算风云录:FPGA与MCU的算力之争》

点击下面图片带您领略全新的嵌入式学习路线 🔥爆款热榜 88万阅读 1.6万收藏 文章目录 **第一章:边城烽烟——数据洪流压境****第二章:寒铁剑匣——FPGA的千机变****第三章:枯木禅杖——MCU的至简道****第四章:双生契…...

R-GCN-Modeling Relational Data with GraphConvolutional Networks(论文笔记)

CCF等级:B 发布时间:2018年6月 25年3月31日交 目录 一、简介 二、原理 1.整体 2.信息交换与更新 2.1基分解 2.2块对角矩阵 3.实体分类或链接预测 3.1实体分类 3.2链接预测 三、结论和未来工作 一、简介 RGCN通过允许不同关系类型之间的信息…...

蓝桥杯第十六届模拟赛——基础细节考频分析

文章目录 前言一、STL函数二、日期问题三、质数与约数四、基本常识总结 前言 一、STL函数 #include< cmath > 详解floor函数、ceil函数和round函数 1.floor() 功能&#xff1a;把一个小数向下取整如果数是2.2 &#xff0c;那向下取整的结果就为2.000000如果数是-2.2 &…...

【C++初阶】----模板初阶

1.泛型函数 泛型编程&#xff1a;编写与类型无关的通用代码&#xff0c;是代码复用的一种手段。模板是泛型编程的基础。 2.函数模板 2.1函数模板的概念 函数模板代表了一个函数家族&#xff0c;该函数模板与类型无关&#xff0c;在使用时被参数化&#xff0c;根据实参类型…...

PyCharm操作基础指南

一、安装与配置 1. 版本选择 专业版&#xff1a;支持 Web 开发&#xff08;Django/Flask&#xff09;、数据库工具、科学计算等&#xff08;需付费&#xff09;。 社区版&#xff1a;免费&#xff0c;适合纯 Python 开发。 2. 安装步骤 访问 JetBrains 官网 下载对应版本。…...

Pycharm(七):几个简单案例

一.剪刀石头布 需求&#xff1a;和电脑玩剪刀石头布游戏 考察点&#xff1a;1.随机数&#xff1b;2.判断语句 import random # numrandom.randint(1,3) # print(num) # print(**30) #1.录入玩家手势 playerint(input(请输入手势&#xff1a;&#xff08;1.剪刀 2.石头 3&…...

Android并发编程:线程池与协程的核心区别与最佳实践指南

1. 基本概念对比 特性 线程池 (ThreadPool) 协程 (Coroutine) 本质 Java线程管理机制 Kotlin轻量级并发框架 最小执行单元 线程(Thread) 协程(Coroutine) 创建开销 较高(需分配系统线程资源) 极低(用户态调度) 并发模型 基于线程的抢占式调度 基于协程的协作式调度 2. 核心差异…...

MySQL内存使用率高问题排查与解决方案:

目录标题 **一、问题现象****二、核心排查步骤****1. 参数检查****2. 内存使用分析****3. 存储过程/函数/视图检查****4. 操作系统级检查** **三、解决方案****1. 调整MySQL配置****2. 关闭透明大页&#xff08;THP&#xff09;****3. 优化查询与存储过程****4. 硬件与环境优化…...

gnvm切换node版本号

1. gnvm下载官网 GNVM - Node.js version manager on Windows by Go 2. 安装 2.1 不存在 Node.js 环境 下载并解压缩 gnvm.exe 保存到任意文件夹&#xff0c;并将此文件夹加入到环境变量 Path。 2.2 存在 Node.js 环境 下载并解压缩 gnvm.exe 保存到 Node.js 所在的文件夹。 2.…...

PyTorch 深度学习实战(29):目标检测与 YOLOv12 实战

在上一篇文章中&#xff0c;我们探讨了对比学习与自监督表示学习。本文将深入计算机视觉的核心任务之一——目标检测&#xff0c;重点介绍最新的 YOLOv12 (You Only Look Once v12) 算法。我们将使用 PyTorch 实现 YOLOv12 模型&#xff0c;并在 COCO 数据集上进行训练和评估。…...

Python爬虫:开启数据抓取的奇幻之旅(一)

目录 一、爬虫初印象&#xff1a;揭开神秘面纱​ 二、工欲善其事&#xff1a;前期准备​ &#xff08;一&#xff09;Python 环境搭建​ 1.下载 Python 安装包&#xff1a;​ 2.运行安装程序&#xff1a;​ 3.配置环境变量&#xff08;若自动添加失败&#xff09;&#x…...

python下载m3u8格式视频

一、安装 m3u8库 pip install requests pip install requests m3u8 二、编码实现 import os import re import requests import subprocess# 下载ts文件 def down_ts_file(base_url, m3u8_url, download_dir):# 从m3u8文件中获取所有ts的分片名称信息response requests.get…...

【区块链安全 | 第五篇】DeFi概念详解

文章目录 DeFi1. DeFi 生态概览2. 去中心化交易所&#xff08;DEX&#xff09;2.1 AMM&#xff08;自动做市商&#xff09;模型2.2 订单簿模式&#xff08;现货交易&#xff09; 3. 借贷协议3.1 Aave3.2 使用闪电贷&#xff08;Flash Loan&#xff09; 4. 稳定币&#xff08;St…...

【初探数据结构】归并排序与计数排序的序曲

&#x1f4ac; 欢迎讨论&#xff1a;在阅读过程中有任何疑问&#xff0c;欢迎在评论区留言&#xff0c;我们一起交流学习&#xff01; &#x1f44d; 点赞、收藏与分享&#xff1a;如果你觉得这篇文章对你有帮助&#xff0c;记得点赞、收藏&#xff0c;并分享给更多对数据结构感…...

基于ruoyi快速开发平台搭建----超市仓库管理(修改记录1)

一、数据库的设计一定注意不要用关键字 数据库是同学设计的&#xff0c;但是在实践过程中&#xff0c;发现&#xff0c;生成的代码一直报错&#xff0c;结果发现数据库里面商品表里面的商品类别竟然设置成class, 注意&#xff1a;&#xff1a; class 是 Java 中的关键字&…...

《AI加持,SQL Server预测性维护全攻略》

在数字化时代&#xff0c;数据就是企业的生命线&#xff0c;而SQL Server作为一款应用广泛的关系型数据库管理系统&#xff0c;承载着企业海量的数据资产。但数据库运行过程中&#xff0c;故障就像隐藏在暗处的“定时炸弹”&#xff0c;随时可能引发数据丢失、业务中断等严重后…...

Java基础——面向对象

1.抽象Abstract&#xff1a;抽象类和抽象方法&#xff1b; 抽象类&#xff1a;不完整的类&#xff0c;就是抽象类&#xff1a;abstract class 类名&#xff1b; 抽象方法:只有声明&#xff0c;没有实现的方法&#xff1b; abstract 返回值类型 方法名&#xff08;参数&#…...

Springboot学习笔记3.20

目录 1.实战篇第一课 我们将会在本次实战中学习到哪些知识点&#xff1f; 开发模式和环境搭建&#xff1a; 注册接口 1.Lombok 2.开发流程 1.controller层&#xff0c;这个层会指明访问路径和要执行的逻辑&#xff1a; 2.我们把返回结果根据接口文档包装成一个类result&a…...

Ubuntu和Windows实现文件互传

1.开启Ubuntu下的FTP服务&#xff1a; &#xff08;1&#xff09;终端输入&#xff1a; sudo apt-get install vsftpd&#xff08;2&#xff09;安装完成后&#xff1a; 终端输入&#xff1a; /etc 是 Linux 系统的全局配置文件目录&#xff0c;存储系统和应用程序的配置信息…...

java面向对象从入门到入土

面向对象进阶 (写程序的套路) 面向:拿,找 对象:能干活的东西 面向对象编程:拿东西过来做对应的事情 (写程序的套路) 面向:拿,找 对象:能干活的东西 面向对象编程:拿东西过来做对应的事情 重点学习:学习已有对象并使用,学习如何自己设计对象并使用 设计对…...

linux ACL权限控制之用户权限控制程序设计

linux中的ACL&#xff08;Access Control List&#xff0c;访问控制列表&#xff09;是一种比传统UNIX权限更细粒度的权限控制机制&#xff0c;允许为文件和目录设置更为具体的用户和组权限。本文介绍使用acl命令和程序api对文件进行更精细的用户权限控制。 1. 命令行示例 使…...

Java多线程与JConsole实践:从线程状态到性能优化!!!

目录 一、前言二、JConsole 使用教程二、线程的基本状态2.1新建状态&#xff08;New&#xff09;2.2就绪状态&#xff08;Ready&#xff09;2.3运行状态&#xff08;Running&#xff09;2.4 阻塞状态&#xff08;Blocked&#xff09;2.5. 等待状态&#xff08;Waiting&#xff…...

从入门到精通:SQL注入防御与攻防实战——红队如何突破,蓝队如何应对!

引言&#xff1a;为什么SQL注入攻击依然如此强大&#xff1f; SQL注入&#xff08;SQL Injection&#xff09;是最古老且最常见的Web应用漏洞之一。尽管很多公司和组织都已经采取了WAF、防火墙、数据库隔离等防护措施&#xff0c;但SQL注入依然在许多情况下能够突破防线&#…...

Stable Diffusion vue本地api接口对接,模型切换, ai功能集成开源项目 ollama-chat-ui-vue

1.开启Stable Diffusion的api服务 编辑webui-user.bat 添加 –api 开启api服务&#xff0c;然后保存启动就可以了 2.api 文档地址 http://127.0.0.1:7860/docs3. 文生图 接口 地址 /sdapi/v1/txt2img //post 请求入参 {enable_hr: false, // 开启高清hrdenoising_stre…...

缓存使用纪要

一、本地缓存&#xff1a;Caffeine 1、简介 Caffeine是一种高性能、高命中率、内存占用低的本地缓存库&#xff0c;简单来说它是 Guava Cache 的优化加强版&#xff0c;是当下最流行、最佳&#xff08;最优&#xff09;缓存框架。 Spring5 即将放弃掉 Guava Cache 作为缓存机…...