一文读懂:AI时代到底需要什么样的网络?
各位小伙伴们大家好哈,我是老猫。
今天跟大家来聊聊数据中心网络。
提到网络,通常把网络比作高速公路,网卡相当于上下高速公路的闸口,数据包就相当于运送数据的汽车,交通法规就是“传输协议”。
如高速公路也会堵车一样,网络这条数据的高速公路也会遇到拥堵问题,尤其是在人工智能快速发展的今天,这对数据中心网络提出了更高的要求。
今天我们就来聊聊,到底什么样的网络才能满足AI时代的需求?
▉ 为什么现在的网络不行了?
网络发展了这么多年,为什么最近频频被拿出来说,为什么传统的网络成为了现代数据中心的瓶颈?
毫无疑问,这与AI、机器学习等密集型计算场景脱不了关系。这些场景对算力需求越来越大,据IDC统计,全球算力的需求每3.5个月就会翻一倍,远远超过了当前算力的增长速度。要满足越来越高的算力需求,在算力增加的同时,也需要充分提高算力的利用效率和通信性能,那么作为数据中心三大核心组件之一的数据中心网络就将面临挑战。
这是因为,在传统的在冯·诺依曼架构体系中,网络一般只是起到数据传输的作用,计算都是以CPU或GPU为中心,而当ChatGPT和BERT等大型复杂模型将其工作负载分配到数量众多的GPU进行并行计算时,将产生大量的突发梯度数据传输,从而容易导致网络拥塞。
这是传统冯·诺依曼架构的一个天然弊端,在算力提升的AI时代,无论是提升带宽还是降低延迟都无法解决网络这一问题。
那么如何继续提升数据中心网络的性能呢?
▉ 有没有提升网络性能的新方式?
要想提升网络性能,传统的方式一般有两种,提升带宽和降低延迟。这两种方式很好理解,就像在高速路上运送货物一样,要么提升道路的宽度,要么提升道路的限速,从而解决网络拥堵的问题。
我们日常生活中遇到网络过慢也会采用这两种方式,要么加钱升级更高的宽带,要么购买性能更好的网络设备。
但这两种方式对网络的提升是有限度的,当带宽升级到一定宽度,当设备达到一定的级别,网络实际性能就很难再往上提升了,这也是当前AI时代网络出现瓶颈的主要原因。
那目前有没有提升网络更好的解决方案呢?
答案当然是肯定的。为了加速模型训练和处理大量数据集,作为全球AI算力霸主,英伟达也早就发现了传统网络的瓶颈。为此,英伟达选择了新的道路:让计算围绕数据来部署。简单来说就是数据在哪儿,计算就在哪儿:当数据在GPU上,计算就在GPU上;当数据在网络中传输时,计算就在网络中。
简而言之,就是让网络不仅保障数据传输的性能,还要承担一些数据处理的计算。
通过这种新的架构方式可以让CPU或GPU专心做自己擅长的计算任务,将一些基础设施操作工作负载分配到网络连接的节点上,从而解决网络传输中多打一的瓶颈问题或丢包问题。据了解,通过这种方式可以使网络延时降低10倍以上。
所以,也让基础设施计算成为我们现在以数据为中心这种核心计算架构的关键技术之一。
▉ 为什么DPU能带来网络的提升?
提到基础设施计算,就不得不提DPU这个概念,DPU的全称为Data Processing Unit,是数据中心第三颗主力芯片,它的出现主要是为了分担CPU在数据中心中除了通用计算以外的基础设施工作负载的。
NVIDIA是DPU领域的全球先行者。2020 年上半年,NVIDIA以69 亿美元的对价收购以色列网络芯片公司Mellanox Technologies,并于同年推出BlueField-2 DPU,将其定义为继CPU和GPU之后“第三颗主力芯片”,正式拉开DPU大发展的序幕。
那么有人就要问了,这个DPU到底在网络中能起到什么作用呢?
我举个例子来说明一下。
就像经营餐馆一样,以前人手比较少,老板一个人承担采买、洗切、配菜、烹调、传菜和收银等全部工作,就像CPU一样,不仅要进行数学和逻辑运算,还要管理外部设备,在不同的时间执行不同的任务,并进行任务的切换,从而满足业务应用程序执行的需要。
但是随着要服务的就餐客户数量的增多,就需要将不同的任务由不同的人员分担,有多个店员负责采买、洗切、配菜,保障厨师的烹调备料;有多位厨师并行进行烹调,提升菜品制作效率;有多位服务员提供服务和传菜,保证多桌客户的服务质量;而老板就只负责收银和管理。
如此一来,店员和服务员团队像是DPU,对数据进行处理和移动;厨师团队像是GPU,对数据进行并行计算,而老板像是CPU,获取业务应用需求并交付结果。
CPU、GPU和DPU各司其职,通力配合,将擅长处理的工作负载发挥到极致,大幅提升数据中心性能和能效,并获得更好的投资回报。
▉ NVIDIA推出了哪些DPU产品?
在2020年推出BlueField-2 DPU后。为了解决AI工作负载的独特需求,NVIDIA马不停蹄,在2021年4月份对外发布了新一代数据处理器-NVIDIA BlueField-3 DPU。
BlueField-3是首款为AI和加速计算而设计的DPU。据了解,BlueField-3 DPU可以很好的实现数据中心基础设施工作负载的卸载、加速和隔离,从而释放宝贵的CPU资源来运行关键业务应用。
现代超大规模云技术推动数据中心从基础上走向了新的架构, 利用一种专门针对数据中心基础架构软件而设计的新型处理器, 来卸载和加速由虚拟化、网络、存储、安全和其它云原生AI服务产生的巨大计算负荷。BlueField DPU正是为此而生。
作为业内首款400G以太网和NDR InfiniBand DPU,BlueField-3具有出色的网络性能。可为要求苛刻的工作负载提供软件定义、硬件加速的数据中心基础设施解决方案,加速AI到混合云和高性能计算,再到5G无线网络,BlueField-3 DPU重新定义了各种可能性。
发布了BlueField-3 DPU后,NVIDIA仍然没有停下探索的脚步。NVIDIA发现,随着大模型的出现和流行,如何提升GPU集群的分布式计算性能和效率、提高GPU集群的横向扩展能力、实现在生成式AI云上的业务性能隔离,成为了所有大模型厂商和AI服务供应商共同关注的问题。
为此,在2023年底,NVIDIA推出BlueField-3 SuperNIC,从而面向东西向流量进行性能优化,它源于BlueField DPU,用了DPU相同的架构,但是有别于DPU。DPU专注于对于基础设施操作的卸载,是对南北向流量进行加速和优化。BlueField SuperNIC则借鉴了InfiniBand网络上的动态路由、拥塞控制和性能隔离等技术,又兼容了以太网标准在云上的便利性,从而满足了生成式AI云对于性能、扩展性和多租户的需求。
总结来说,目前NVIDIA BlueField-3网络平台包含两款产品,分别为实现限速处理软件定义、网络、存储和网络安全任务的BlueField-3 DPU和专为强力支持超大规模AI云而设计的BlueField SuperNIC。
▉ DOCA对DPU有啥用?
聊到DPU的时候,往往就会聊到DOCA。那么DOCA是什么?它对DPU有啥价值?
通过上文,我们了解到,NVIDIA有了BlueField-3 DPU和BlueField-3 SuperNIC两款产品,能够对当前AI算力激增起到很好的加速作用。
但目前,单纯的靠硬件产品很难满足当前不同的应用场景,那就需要借助软件的力量。
CUDA是GPU在算力市场上无人不知的软件平台,而针对网络平台的需求,英伟达采用了同样的软硬件一体化的加速方式,在3年前也推出了专为DPU量身定制的软件开发平台DOCA,如今也适用于BlueField -3 SuperNIC。
NVIDIA DOCA拥有丰富的库、驱动程序和API,可为DOCA开发者提供 “一站式服务”,同时也是加速云基础设施服务的关键。
而且作为全栈的组成部分,DOCA是解开AI谜题的关键部分,可将计算、网络、存储和安全联系在一起。借助DOCA, 开发者可以通过创建软件定义、云原生、DPU和SuperNIC 加速的服务,并支持零信任保护,从而满足现代数据中心的性能和安全需求。
目前,经过三年的迭代升级,DOCA 2.7不仅扩展了BlueField DPU在数据中心内卸载、加速和隔离网络、存储、安全和管理基础设施方面所发挥的作用。该版本还进一步增强了 AI 云数据中心,并加速了NVIDIA Spectrum-X网络平台,为 AI 工作负载提供了卓越的性能。
下面我们来看下DOCA对于包含GPU和NVIDIA BlueField-3DPU或 BlueField–3 SuperNIC的关键作用:
总结来说,适用于DPU和SuperNIC的NVIDIA DOCA就像适用于GPU的CUDA一样。DOCA汇集了各种强大的 API、库和驱动,可用于编程和加速现代数据中心基础设施。
▉ DOCA开发将成为下一个蓝海赛道?
毫无疑问,随着AI、深度学习、元宇宙等技术场景的出现,越来越多的企业需要有更多的DOCA开发者加入进来让更多的创新和想法落地。大家耳熟能详的云服务提供商对DPU的需求越来越多,需要借助DOCA硬件加速技术来优化数据中心的性能。
而且随着企业对高效、安全的数据处理需求的增加,DOCA开发也成为云基础设施工程师、云架构师、网络工程师等岗位获得竞争优势的一项技能。另外,DOCA开发者还能够创建软件定义、云原生和DPU加速的服务,参与DOCA开发不仅可以提升个人技能,还能增强在技术社区中的影响力。
目前来看,DOCA的开发者数量还远远不能够满足市场需求。据官方资料显示,全球共有14000多名DOCA开发者,其中近一半来自中国。虽然看起来人不少,但是相比CUDA在全球有500万开发者来看,DOCA开发者还有很大的增长空间。
但毕竟DOCA才发布仅仅三年多的时间,CUDA已经有将近30年的历史。当然,这也从侧面说明了DOCA还处在发展的初期,潜力还很大。
为了吸引更多的开发者加入到DOCA开发中,NVIDIA这几年也一直积极通过各种活动为开发者提供更多帮助,包括筹备并落地DOCA中国开发者社区,举办DOCA开发者线上线下训练营,举办了DOCA开发者黑客松比赛等等。
不仅如此,在2024年6月份,NVIDIA DPU编程入门课程在澳门科技大学正式开课,公开的课程大纲显示,内容包含了NVIDIA BlueField网络平台和NVIDIA DOCA件框架如何加速AI计算的全面介绍,助力高校学生在AI时代获得竞争优势。
对于想转型的开发者和即将毕业的大学生来说,DOCA开发是一个被很多人看好的方向。
在年初结束的NVIDIA DOCA应用代码分享活动中,就有众多开发者脱颖而出获得奖项,这其中就包括不少在校大学生。在本次活动中获得一等奖的陈勤,是一名计算机科学与技术专业在读硕士研究生,他表示:“通过DOCA的开发,不仅提升了我的能力,还为我带来了潜在的工作机会。我在社区也获得了很多前辈的肯定,让我对自己更有信心。”
如今,NVIDIA DOCA中国开发者社区还在不断壮大,各种丰富的活动与内容也将持续呈现,对于想进入DOCA开发的小伙伴无疑是一个好时机。最近我也在试用DOCA软件开发套件,如果有感兴趣的小伙伴儿,可以一起研究下,通过这个链接通过这个链接(
https://developer.nvidia.cn/doca-downloads)就可以免费下载DOCA,有问题可以留言一起讨论。
相关文章:

一文读懂:AI时代到底需要什么样的网络?
各位小伙伴们大家好哈,我是老猫。 今天跟大家来聊聊数据中心网络。 提到网络,通常把网络比作高速公路,网卡相当于上下高速公路的闸口,数据包就相当于运送数据的汽车,交通法规就是“传输协议”。 如高速公路也会堵车一…...

基于HarmonyOS的宠物收养系统的设计与实现(一)
基于HarmonyOS的宠物收养系统的设计与实现(一) 本系统是简易的宠物收养系统,为了更加熟练地掌握HarmonyOS相关技术的使用。 项目创建 创建一个空项目取名为PetApp 首页实现(组件导航使用) 官方文档:组…...
严格模式报错
部分参考: Android内存泄露分析之StrictMode - 星辰之力 - 博客园 (cnblogs.com)...
nginx: [emerg] the “ssl“ parameter requires ngx_http_ssl_module in nginx.conf
nginx: [emerg] the "ssl" parameter requires ngx_http_ssl_module in /usr/local/nginx/conf/nginx.conf:42 查看/usr/local/nginx/conf/nginx.conf文件第42行数据: listen 443 ssl; # server中的配置 原因是:nginx缺少 http_ssl_modul…...

Docker 部署loki日志 用于微服务
因为每次去查看日志都去登录服务器去查询相关日志文件,还有不同的微服务,不同日期的文件夹,超级麻烦,因为之前用过ELK,原本打算用ELK,在做技术调研的时候发现了一个轻量级的日志系统Loki,果断采…...
[Day 57] 區塊鏈與人工智能的聯動應用:理論、技術與實踐
區塊鏈的零知識證明技術 一、引言 隨著區塊鏈技術的不斷發展,如何在保護用戶隱私的同時確保數據的完整性和可信度成為了研究的焦點。零知識證明(Zero-Knowledge Proof,ZKP)技術就是其中的一項關鍵技術,它允許一方在不…...

06结构型设计模式——代理模式
一、代理模式简介 代理模式(Proxy Pattern)是一种结构型设计模式(GoF书中解释结构型设计模式:一种用来处理类或对象、模块的组合关系的模式),代理模式是其中的一种,它可以为其他对象提供一种代…...

《深入浅出多模态》(九)多模态经典模型:MiniGPT-v2、MiniGPT5
🎉AI学习星球推荐: GoAI的学习社区 知识星球是一个致力于提供《机器学习 | 深度学习 | CV | NLP | 大模型 | 多模态 | AIGC 》各个最新AI方向综述、论文等成体系的学习资料,配有全面而有深度的专栏内容,包括不限于 前沿论文解读、资料共享、行业最新动态以、实践教程、求职…...
调试和优化大型深度学习模型 - 0 技术介绍
调试和优化大型深度学习模型 - 0 技术介绍 flyfish LLaMA Factory LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上…...
华为S3700交换机配置VLAN的方法
1.VLAN的详细介绍 VLAN(Virtual Local Area Network)即虚拟局域网,是一种将一个物理的局域网在逻辑上划分成多个广播域的技术。 1.1基本概念 1)作用: 隔离广播域:通过将网络划分为不同的 VLAN,广播帧只会在同一 VLAN 内传播,而不会扩散到其他 VLAN 中,从而有效…...
学懂C++(三十八):深入详解C++网络编程:套接字(Socket)开发技术
目录 一、概述与基础概念 1.1 套接字(Socket)概念 1.2 底层原理与网络协议 1.2.1 网络协议 1.2.2 套接字工作原理 二、C套接字编程核心技术 2.1 套接字编程的基本步骤 2.2 套接字编程详细实现 2.2.1 创建套接字 2.2.2 绑定地址 2.2.3 监听和接…...

SpringBoot-配置加载顺序
目录 前言 样例 内部配置加载顺序 样例 小结 前言 我之前写的配置文件,都是放在resources文件夹,根据当前目录下,优先级的高低,判断谁先被加载。但实际开发中,我们写的配置文件并不是,都放…...

第八周:机器学习笔记
第八周机器学习笔记 摘要Abstract机器学习1. 鱼和熊掌和可兼得的机器学习1.1 Deep network v.s. Fat network 2. 为什么用来验证集结果还是不好? Pytorch学习1. 卷积层代码实战2. 最大池化层代码实战3. 非线性激活层代码实战 总结 摘要 本周学习对李宏毅机器学习视…...

音乐怎么剪切掉一部分?5个方法,轻松学会音频分割!(2024全新)
音乐怎么剪切掉一部分?音频文件是娱乐和创作的重要基础。音频在我们日常生活中发挥着重要作用,从音乐播放列表到有趣的视频,它无处不在。无论是音乐爱好者还是内容创作者,我们常常需要对音频文件进行剪切和编辑。想象一下…...

洛谷 CF295D Greg and Caves
题目来源于:洛谷 题目本质:动态规划dp,枚举 解题思路:将整个洞分成两半,一半递增,一半递减。我们分别 DP 求值,最后合并。状态转移方程为:dpi,jk2∑j(j−k1)dpi−1,k1。枚举极…...
【图像处理】在图像处理算法开发中,有哪些常见的主观评价指标和客观评价指标?
主观评价指标 在图像处理算法开发中,主观评价指标依赖于观察者的个人感受和判断,通常用于评估图像的视觉质量。以下是一些常见的主观评价指标: 平均意见分数 (Mean Opinion Score, MOS):通过收集多个评价者的评分并计算平均值来评…...

从零开始学cv-6:图像的灰度变换
文章目录 一,简介:二、图像的线性变换三、分段线性变换四,非线性变换4.1 对数变换4.2 Gamma变换 五,效果: 一,简介: 图像灰度变换涉及对图像中每个像素的灰度值执行数学运算,进而调整图像的视觉…...

使用Apache POI和POI-OOXML实现word模板文档自动填充功能
最近接到一个新的需求,用户创建好模板文件保存到模板库,然后使用在线文档编辑器打开模板时,将系统数据填充到模板文件并生成新的word文件,然后在线编辑,研究使用Apache POI和POI-OOXML实现了这个功能。 Maven依赖 <…...

【HarmonyOS NEXT星河版开发学习】综合测试案例-各平台评论部分
目录 前言 功能展示 整体页面布局 最新和最热 写评论 点赞功能 界面构建 初始数据的准备 列表项部分的渲染 底部区域 index部分 知识点概述 List组件 List组件简介 ListItem组件详解 ListItemGroup组件介绍 ForEach循环渲染 列表分割线设置 列表排列方向设…...

垂直行业数字化表现抢眼 亚信科技全年利润展望乐观
大数据产业创新服务媒体 ——聚焦数据 改变商业 2024年8月14日,亚信科技控股有限公司(股票代码:01675.HK)公布了公司截至2024年6月30日的中期业绩。 财报数据显示,2024年上半年,亚信科技的营业收入为人民币…...
五年级数学知识边界总结思考-下册
目录 一、背景二、过程1.观察物体小学五年级下册“观察物体”知识点详解:由来、作用与意义**一、知识点核心内容****二、知识点的由来:从生活实践到数学抽象****三、知识的作用:解决实际问题的工具****四、学习的意义:培养核心素养…...
unix/linux,sudo,其发展历程详细时间线、由来、历史背景
sudo 的诞生和演化,本身就是一部 Unix/Linux 系统管理哲学变迁的微缩史。来,让我们拨开时间的迷雾,一同探寻 sudo 那波澜壮阔(也颇为实用主义)的发展历程。 历史背景:su的时代与困境 ( 20 世纪 70 年代 - 80 年代初) 在 sudo 出现之前,Unix 系统管理员和需要特权操作的…...
【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分
一、项目背景回顾 前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。 本弹重点聚焦于服务端的模块划分与架构设计,提升代码结构的可维护性与扩展性。 二、服务端模块设计目标 高内聚低耦合:各模块职责清晰,便于独立开发…...
JAVA后端开发——多租户
数据隔离是多租户系统中的核心概念,确保一个租户(在这个系统中可能是一个公司或一个独立的客户)的数据对其他租户是不可见的。在 RuoYi 框架(您当前项目所使用的基础框架)中,这通常是通过在数据表中增加一个…...
高效线程安全的单例模式:Python 中的懒加载与自定义初始化参数
高效线程安全的单例模式:Python 中的懒加载与自定义初始化参数 在软件开发中,单例模式(Singleton Pattern)是一种常见的设计模式,确保一个类仅有一个实例,并提供一个全局访问点。在多线程环境下,实现单例模式时需要注意线程安全问题,以防止多个线程同时创建实例,导致…...

如何更改默认 Crontab 编辑器 ?
在 Linux 领域中,crontab 是您可能经常遇到的一个术语。这个实用程序在类 unix 操作系统上可用,用于调度在预定义时间和间隔自动执行的任务。这对管理员和高级用户非常有益,允许他们自动执行各种系统任务。 编辑 Crontab 文件通常使用文本编…...

Python 实现 Web 静态服务器(HTTP 协议)
目录 一、在本地启动 HTTP 服务器1. Windows 下安装 node.js1)下载安装包2)配置环境变量3)安装镜像4)node.js 的常用命令 2. 安装 http-server 服务3. 使用 http-server 开启服务1)使用 http-server2)详解 …...
人工智能--安全大模型训练计划:基于Fine-tuning + LLM Agent
安全大模型训练计划:基于Fine-tuning LLM Agent 1. 构建高质量安全数据集 目标:为安全大模型创建高质量、去偏、符合伦理的训练数据集,涵盖安全相关任务(如有害内容检测、隐私保护、道德推理等)。 1.1 数据收集 描…...
华为OD最新机试真题-数组组成的最小数字-OD统一考试(B卷)
题目描述 给定一个整型数组,请从该数组中选择3个元素 组成最小数字并输出 (如果数组长度小于3,则选择数组中所有元素来组成最小数字)。 输入描述 行用半角逗号分割的字符串记录的整型数组,0<数组长度<= 100,0<整数的取值范围<= 10000。 输出描述 由3个元素组成…...

路由基础-路由表
本篇将会向读者介绍路由的基本概念。 前言 在一个典型的数据通信网络中,往往存在多个不同的IP网段,数据在不同的IP网段之间交互是需要借助三层设备的,这些设备具备路由能力,能够实现数据的跨网段转发。 路由是数据通信网络中最基…...