当前位置: 首页 > news >正文

你的GPT跟ChatGPT可能只差了一个DPU

        “人类永远不会嫌网络太快,就像永远不会嫌高铁太快,你只会嫌它慢,希望它更快些。”

        一个月内,百度、阿里、腾讯、商汤、讯飞、360等国内大厂扎堆发布“中国版 GPT ”,这家的名字还没记清楚,另一家的又蹦了出来,一时间 AI 大模型“诸神混战”。可实话实说,和 ChatGPT 相比,国内的 GPT 还存在一定差距,但大家对于 AI 的狂热渴求已经被点燃,越来越多的企业意识到, AI 这班车,再不上,就来不及了。


01 | 大语言模型的成功与挑战

        以 GPT 系列模型为代表的大语言模型成为近来最受关注的技术之一。

图 | OpenAI-ChatGPT

ChatGPT 凭什么落别人那么远?

        模型越大, AI 回馈的效果越好。 OpenAI 的 GPT-1 模型有50亿个参数, GPT-3.5 有1750亿个参数,到现在的 GPT-4 预计将有超过一个T的参数。可以看出参数是成倍甚至成指数级增长。这种增长模型的变化,首先对内存性能有着极高要求,因为训练它需要海量数据,同时需要处理海量数据集;此外,是数据中心的计算能力,还有 GPU 与 CPU 之间的通信;更重要的是网络的带宽,这些因素将决定大语言模型的整体性能。

        整体性能决定了大模型运行、训练所需的时长,也决定了对大模型后续调优再训练的周期。比如你的大语言模型训练需要6个月,一年可能最多训练2次,而别人训练只需要2或3个月,一年就可以训练多次,那么最后 AI 的迭代效果是完全不一样的。

图 | NVIDIA

        如今,不只是提出大语言模型的公司,越来越多的企业已经意识到 AI 可能会优化工作流程或是给客户提供相应的服务,大家纷纷开始尝试做自己的产品。但一旦大家都在这个模型的基础上去做,就会遇到吞吐量和性能的瓶颈。要支撑这么一个大模型做训练,投入成本是非常高的。

图 | NVIDIA

        此外还有电力的限制,能做大模型训练的数据中心的功耗和电力需求是非常大的,且增长趋势明显。数据显示,数据中心一年消耗电力200 T瓦时,也就是2000亿度电,占全球电力使用量的2%。2000亿度电是什么概念?2021年我国三峡水电站发电量为1036亿度,也就是三峡水电站两年发的电量才够全球数据中心用一年。而随着 AI 数据中心的部署和持续增长,到2030年,全球电力使用的预测份额将达到5%,这将为全球能源、环保、碳排放等带来巨大挑战。


02 | 你跟ChatGPT可能只差了一个DPU

        在 AI 的竞赛中,有两种方式:第一种是用资源去堆,就像造车一样,后造车的永远要比先造车的人烧更多的钱去打市场;第二种是在同等资源下,比谁快,快就需要效率,而提高效率就需要 DPU 。

        微软此前发布的博客透露了 OpenAI 的 ChatGPT 采用的硬件是基于 NVIDIA 智能网卡和 InfiniBand 200G 网络所做的产品,未来也有意部署 DPU 。

图 | 微软官博

        而为了应对 AI 模型训练、推理带来的需求和挑战, NVIDIA 近日发布了其最新一代数据处理器 BlueField-3 DPU ,并宣布全面量产。

图 | NVIDIA

        NVIDIA 创始人兼首席执行官黄仁勋先生表示, AI 时代需要云数据中心基础设施来支持非凡的计算需求。“ NVIDIA BlueField-3 DPU 实现了这一进步,将传统的云计算环境转变为加速、节能和安全的基础设施,以处理生成 AI 的苛刻工作负载。”

        据 NVIDIA 介绍, BlueField-3 DPU 是一款专为数据中心设计的、软件定义、硬件加速的云服务计算平台。它集成了高达16个计算核心,可提供高达400Gbp/s的网络带宽,并且支持多种协议和功能,包括网络虚拟化、弹性负载均衡、数据中心互连等。 BlueField-3 DPU 还拥有世界领先的存储加速功能,可提供高达1.6Tbp/s的存储带宽,并支持 NVMe-over-Fabric 和 RDMA 等高性能存储协议。

        大语言模型背后的硬件构成是怎样的?各家都不同。以 NVIDA DGX 为参照,支持大语言模型的服务器由8颗 NVIDIA 高性能 GPU 、4个 NVIDIA NVSWITCHES 、2颗x86 ?CPU、9块 NVIDIA BlueField-3 DPU 、2T DDR5内存、PCIe Gen5.0,以及服务器间的 NVIDIA Quantum-2 InfiniBand 网络构成。

        其中 NVIDIA BlueField-3 DPU 发挥了怎样的作用?首先是加速性能:NVIDIA BlueField-3 DPU 具有丰富的硬件加速器,可以满足大语言模型严格的性能要求,并运行苛刻的工作负载;其次,云规模效率:NVIDIA BlueField-3 DPU 可以释放 CPU 核心,使大语言模型应用具有更好的性能和可扩展性,提升服务器的效率和能效,降本增效;第三是强大的零信任安全:安全的基础设施都可以运行在 NVIDIA BlueField-3 DPU 之上,并基于此构建零信任安全模型,在不影响性能的情况下,确保数据中心安全;第四是完全可编程的基础设施:NVIDIA DOCA 2.0 体现了 NVIDIA BlueField-3 DPU 的软件可编程性,借助 NVIDIA BlueField-3 DPU 可以获得完全可编程的加速数据中心平台。

图 | NVIDIA

        简单地说,NVIDIA BlueField-3 DPU 可以提升整个网络性能,配合高算力 GPU ,可以支撑更大规模的大语言模型训练,从而缩短训练时间。根据模型需求动态调整部署以共享算力资源,并应对不同规模的模型训练;提升服务器能效、释放算力资源,用更少的服务器完成更多的任务,从而帮助企业实现节能环保、降本增效。

        据 NVIDIA 介绍,大语言模型和生成式AI主要会构建在云基础设施之上,以云服务的方式服务于市场,因此,DPU 会主要应用于云服务提供商、AI 技术公司以及采用 AI 技术的企业。据悉,NVIDIA BlueField-3 DPU 已经在部分国内公有云服务提供商进行测试,后续会逐步开始采用。

        在不久前的 GTC 2023 大会上,NVIDIA 创始人兼首席执行官黄仁勋先生坚定表示“ AI 迎来了‘ iPhone 时刻’”,回想当年苹果手机刚问世,当时的用户还都想着手机不就是用来打电话、发短信的?而今天,我们几乎已经遗忘了当时的想法和其他手机。同样,你会发现生活将慢慢被 AI 改变。

相关文章:

你的GPT跟ChatGPT可能只差了一个DPU

“人类永远不会嫌网络太快,就像永远不会嫌高铁太快,你只会嫌它慢,希望它更快些。” 一个月内,百度、阿里、腾讯、商汤、讯飞、360等国内大厂扎堆发布“中国版 GPT ”,这家的名字还没记清楚,另一家的又蹦了出…...

springboot服务端接口外网远程调试,并实现HTTP服务监听 - 内网穿透

文章目录 前言1. 本地环境搭建1.1 环境参数1.2 搭建springboot服务项目 2. 内网穿透2.1 安装配置cpolar内网穿透2.1.1 windows系统2.1.2 linux系统 2.2 创建隧道映射本地端口2.3 测试公网地址 3. 固定公网地址3.1 保留一个二级子域名3.2 配置二级子域名3.2 测试使用固定公网地址…...

NumPy的应用-1

准备工作 在Python中使用NumPy时,需要先安装NumPy。可以使用以下命令来安装NumPy: pip install numpy安装完成后,在Python中引入NumPy: import numpy as np安装完成并引入NumPy后,我们可以开始使用NumPy进行数据分析…...

k8s的yaml文件中kind类型详解

在Kubernetes(k8s)的YAML语法中,kind是一种重要的关键字,它用于指定Kubernetes资源的类型。根据Kubernetes官方文档,以下是kind可能的取值: Deployment:用于定义应用程序的声明式更新。Statefu…...

第三天:C语言控制结构

目录 1. 条件语句 2. 循环语句 3. 实例:计算阶乘 在前两天的学习中,您已经掌握了C语言的基本知识。今天,我们将学习C语言的控制结构,包括条件语句和循环语句。通过控制结构,您可以实现程序的分支和循环,…...

访问若依vue版后端api接口

访问若依vue版后端api接口 如何使用Talend API Tester进行访问若依vue-前后端分离版的后端api接口? 方法一: 写好一个后台api接口,启动项目 直接使用Talend API Tester进行访问后台api出现如下错误,原因是因为若依系统有jwt认证…...

另一种迁移xxl-job任务的方法,适合不满足数据迁移条件

以为多个项目组同时使用一个xxl-job,同时涉及到版本提升,由此不太满足数据库数据迁移,所以这里提供另一种解决办法 使用工具:postman,json转excel,excel 核心:excel拼接: 1.使用f12抓取xxl任务访…...

Redis缓存穿透、击穿、雪崩面试题详解

缓存穿透 问题: 指的是客户端请求的数据在缓存中找不到,数据库中也没有存储,客户端还不断的发起请求。这样每次都无法在数据库查询到,缓存中永远没有这个数据。 ​ 这样的话,客户端一直去访问,会给后端数据…...

【网络安全】本地提权漏洞分析

0. 前言 CVE-2023-21752 是 2023 年开年微软第一个有 exploit 的漏洞,原本以为有利用代码会很好分析,但是结果花费了很长时间,难点主要了两个:漏洞点定位和漏洞利用代码分析,欢迎指正。 1. 漏洞简介 根据官方信息&a…...

电脑端(PC)按键精灵——3.其他命令

电脑端(PC)按键精灵——3.其他命令 前两节说了安装、键盘和鼠标命令,这一章说下其他命令 按键精灵小白入门详细教程: 电脑端(PC)按键精灵—小白入门 详细教程 命令介绍 1. Delay 延时 简介 //1秒=1000毫秒, 1分钟=60000毫秒,…...

Hudi集成Flink-写入方式

文章目录 一、CDC 入湖1.1、[开启binlog](https://blog.csdn.net/wuxintdrh/article/details/130142601)1.2、创建测试表1.2.1、创建mysql表1.2.2、将 binlog 日志 写入 kafka1、使用 mysql-cdc 监听 binlog2、kafka 作为 sink表3、写入sink 表 1.2.3、将 kakfa 数据写入hudi1、…...

深度探索list

1.list的基本组成 list是一个双向链表,它的基本组成就是 成员作用prev指针指向上一个元素next指针指向下一个元素data用来保存数据 2.list的迭代器 由于人们一般习惯于:迭代器是找到下一个元素,迭代器–是找到上一个元素。在双向链表list中…...

QQuick-自绘

QQuick提供了丰富的控件,搭配qml很容易就可以搭配出一套丝滑的UI界面。但是在有些场景下无论是出于效率还是现有控件的局限都需要进行自绘才能实现自身的需求。QQuick支持多种自绘: 可以使用的方案: 1. 继承QQuickPaintedItem ,重写 paint …...

【算法】【算法杂谈】已知[1,m]的等概率函数,求[1,n]的等概率函数

目录 前言问题介绍解决方案代码编写java语言版本c语言版本c语言版本 思考感悟写在最后 前言 当前所有算法都使用测试用例运行过,但是不保证100%的测试用例,如果存在问题务必联系批评指正~ 在此感谢左大神让我对算法有了新的感悟认识! 问题介…...

【Python】Python中的列表,元组,字典

文章目录 列表创建列表获取元素修改元素添加元素查找元素删除元素列表拼接遍历列表切片操作 元组创建元组元组中的操作 字典创建字典添加/修改元素删除元素查找字典的遍历合法的key类型 列表 列表是一种批量保存数据的方式,列表使用[]表示 创建列表 创建两个空列…...

分布式系统概念和设计-分布式对象和远程调用

分布式系统概念和设计 分布式对象和远程调用 能够接收远程方法调用的对象称为远程对象,远程对象实现一个远程接口。 调用者和被调用对象分别存在不同的失败可能性,RMI和本地调用有不同的语义。 中间件 在进程和消息传递等基本构造模块之上提供编程模型的…...

11-FastDFS

一 为什么要使用分布式文件系统 单机时代 初创时期由于时间紧迫,在各种资源有限的情况下,通常就直接在项目目录下建立静态文件夹,用于用户存放项目中的文件资源。如果按不同类型再细分,可以在项目目录下再建立不同的子目录来区分…...

Word这样用,提高效率不加班

Word这样用,提高效率不加班 今天给大家分享23条Word文档的应用小技巧。对于大家来说,掌握些技巧能够效率百倍,何乐不为? 这些技巧是本人通过整理一直在用并且使用频率较高的,也希望能帮到大家。有兴趣的小伙伴可以自己…...

【Linux】调试器---gdb的使用

文章目录 一.背景知识二.安装gdb三.gdb的用法使用须知gdb的常用指令1.进入调试2.退出调试操作3.显示源代码4.设置断点breakPoint5.查看断点信息/禁用断点/开启断点/删除断点6.运行程序,开始调试run7.查看变量8.其它重要命令 一.背景知识 程序的发布方式有两种&…...

MySQL数据库之表的增删改查(进阶)

目录 1. 数据库约束1.1 约束类型1.2 NULL约束1.3 UNIQUE:唯一约束1.4 DEFAULT:默认值约束1.5 PRIMARY KEY:主键约束1.6 FOREIGN KEY:外键约束1.7 CHECK约束 2 表之间的关系2.1 一对一2.2 一对多2.3 多对多 3 新增4 查询4.1 聚合查…...

C++初阶-list的底层

目录 1.std::list实现的所有代码 2.list的简单介绍 2.1实现list的类 2.2_list_iterator的实现 2.2.1_list_iterator实现的原因和好处 2.2.2_list_iterator实现 2.3_list_node的实现 2.3.1. 避免递归的模板依赖 2.3.2. 内存布局一致性 2.3.3. 类型安全的替代方案 2.3.…...

51c自动驾驶~合集58

我自己的原文哦~ https://blog.51cto.com/whaosoft/13967107 #CCA-Attention 全局池化局部保留,CCA-Attention为LLM长文本建模带来突破性进展 琶洲实验室、华南理工大学联合推出关键上下文感知注意力机制(CCA-Attention),…...

【Java学习笔记】Arrays类

Arrays 类 1. 导入包:import java.util.Arrays 2. 常用方法一览表 方法描述Arrays.toString()返回数组的字符串形式Arrays.sort()排序(自然排序和定制排序)Arrays.binarySearch()通过二分搜索法进行查找(前提:数组是…...

【项目实战】通过多模态+LangGraph实现PPT生成助手

PPT自动生成系统 基于LangGraph的PPT自动生成系统,可以将Markdown文档自动转换为PPT演示文稿。 功能特点 Markdown解析:自动解析Markdown文档结构PPT模板分析:分析PPT模板的布局和风格智能布局决策:匹配内容与合适的PPT布局自动…...

【Go】3、Go语言进阶与依赖管理

前言 本系列文章参考自稀土掘金上的 【字节内部课】公开课,做自我学习总结整理。 Go语言并发编程 Go语言原生支持并发编程,它的核心机制是 Goroutine 协程、Channel 通道,并基于CSP(Communicating Sequential Processes&#xff0…...

Mac软件卸载指南,简单易懂!

刚和Adobe分手,它却总在Library里给你写"回忆录"?卸载的Final Cut Pro像电子幽灵般阴魂不散?总是会有残留文件,别慌!这份Mac软件卸载指南,将用最硬核的方式教你"数字分手术"&#xff0…...

04-初识css

一、css样式引入 1.1.内部样式 <div style"width: 100px;"></div>1.2.外部样式 1.2.1.外部样式1 <style>.aa {width: 100px;} </style> <div class"aa"></div>1.2.2.外部样式2 <!-- rel内表面引入的是style样…...

聊一聊接口测试的意义有哪些?

目录 一、隔离性 & 早期测试 二、保障系统集成质量 三、验证业务逻辑的核心层 四、提升测试效率与覆盖度 五、系统稳定性的守护者 六、驱动团队协作与契约管理 七、性能与扩展性的前置评估 八、持续交付的核心支撑 接口测试的意义可以从四个维度展开&#xff0c;首…...

3-11单元格区域边界定位(End属性)学习笔记

返回一个Range 对象&#xff0c;只读。该对象代表包含源区域的区域上端下端左端右端的最后一个单元格。等同于按键 End 向上键(End(xlUp))、End向下键(End(xlDown))、End向左键(End(xlToLeft)End向右键(End(xlToRight)) 注意&#xff1a;它移动的位置必须是相连的有内容的单元格…...

从面试角度回答Android中ContentProvider启动原理

Android中ContentProvider原理的面试角度解析&#xff0c;分为​​已启动​​和​​未启动​​两种场景&#xff1a; 一、ContentProvider已启动的情况 1. ​​核心流程​​ ​​触发条件​​&#xff1a;当其他组件&#xff08;如Activity、Service&#xff09;通过ContentR…...