当前位置: 首页 > news >正文

科技云报道:算力之战,英伟达再度释放AI“炸弹”

科技云报道原创。

近日,在计算机图形学顶会SIGGRAPH 2023现场,英伟达再度释放深夜“炸弹”,大模型专用芯片迎来升级版本。

英伟达在会上发布了新一代GH200 Grace Hopper平台,该平台依托于搭载全球首款搭载HBM3e处理器的新型Grace Hopper超级芯片——GH200,专为处理大语言模型、推荐系统、矢量数据库等全球最复杂的生成式AI工作负载而构建。

据悉,GH200芯片将成为世界上第一个配备HBM3e(High Bandwidth Memory 3e)内存的GPU芯片。

与当前一代产品相比,最新版本的GH200超级芯片内存容量增加了3.5倍,带宽增加了3倍;相比最热门的H100芯片,其内存增加1.7倍,传输频宽增加1.5倍。

在当前生成式AI不断激增的需求下,GH200超级芯片的推出,进一步吹响了AI算力之战的号角。

性能更高的GH200芯片

据介绍,GH200 Grace Hopper平台的HBM3e内存比当前HBM3快50%,可提供总计10TB/s的带宽。这使得新平台能够运行比上一版本大3.5倍的模型,同时凭借快3倍的内存带宽提升性能。

同时,该平台采用双配置,包括一个拥有144个Arm Neoverse内核、8 petaflops的AI性能和282GB最新HBM3e内存技术的单个服务器。

英伟达创始人兼首席执行官黄仁勋表示:“为了满足对生成式 AI不断激增的需求,数据中心需要能够满足特定需求的加速计算平台。全新GH200 Grace Hopper超级芯片平台以出色的内存技术和带宽,提高了吞吐量,在不影响性能的情况下可连接多GPU以整合性能,并且具有可以轻松部署到整个数据中心的服务器设计。”

据英伟达公布信息,新平台可以通过 NVIDIA NVLink™ 与其他超级芯片连接,使它们能够协同工作,从而部署当下大型生成式AI模型。这种高速、一致性技术使GPU可以完全访问CPU 内存,在双配置中可提供总计1.2TB的快速内存。
在这里插入图片描述

值得注意的是,新平台采用的新款超级芯片GH200与此前发布的H100相比,二者使用同样的GPU,但GH200将同时配备高达141G的内存和72核ARM中央处理器,每秒5TB带宽,内存增加了1.7倍,带宽增加了1.5倍。

新平台和芯片的加持,也让大模型训练的成本得到有效降低。黄仁勋表示,一台服务器可以同时装载两个GH200超级芯片,大型语言模型的推理成本将会大幅降低。

据介绍,投资800万美元Grace Hopper,就相当于8800个价值1亿美元的x86 GPU,意味着成本降低12倍,能耗降低20倍。

英伟达称,GH200已于5月全面投产,基于GH200 Grace Hopper平台的新系统将于2024年第二季度交付。

不过一个关键的问题是,英伟达没有透露超级芯片GH200的价格,这对计算成本高昂的大模型来说尤为重要,H100系列目前售价约为4万美元。

为什么内存对大模型重要?

事实上,GH200超级芯片本身并不是一个新产品,而是今年5月在中国台北Computex展上发布的GH200芯片的更新版。

英伟达超大规模和高性能计算副总裁兼总经理伊恩·巴克(Ian Buck)表示:“我们对这款新的GH200感到非常兴奋。HBM3e不仅增加了GPU的容量和内存量,而且速度也更快。”

但为什么GPU内存这么重要?

这是因为随着支撑生成式人工智能应用程序的基础AI模型尺寸的增加,为了能够在不连接独立芯片和系统的情况下运行,大模型需要更大的内存量,以避免性能下降。

拥有更大的内存允许模型保留在单个GPU上,并且不需要多个系统或多个GPU来运行,而额外的内存只会提高 GPU的性能。

目前即使使用英伟达最顶级的H100芯片,有些模型也必须在其他GPU中“分解”模型才能运行。

据英伟达介绍,最新版本GH200配备141GB的HBM3e内存,旨在处理“世界上最复杂的生成式人工智能工作负载,涵盖大型语言模型、推荐系统和矢量数据库”。

对AI领域的影响

英伟达的GH200超级芯片和DGX GH200超级计算机是AI领域的重大突破,它们为大规模生成式AI工作负载提供了前所未有的性能和内存空间,使得训练千亿甚至万亿参数的巨型模型成为可能。

这些模型可以在自然语言处理、计算机视觉、推荐系统、图形分析等领域实现更高的精度和效率,为人类解决更复杂的问题提供了强大的工具。

在多位AI从业者看来,当前大模型的训练需求过于迫切,对性能的要求也很高,而GPU的适配和生态转移都需要很长时间,因此目前大家都优先选择英伟达,和其他厂商的测试验证也在进行中。

一场新的算力之战已经拉开帷幕,如果说算力是一个江湖,那么此刻英伟达就是一名绝世高手。

它身怀加速计算的绝技,尤其在AI战场上一骑绝尘,似乎每一次都能精准地踏在浪潮的节奏上。从游戏PC市场、到深度学习的崛起、到云计算的普及、再到生成式AI的降临,英伟达的技术所向披靡。

回头看,英伟达早已超越了GPU本身的概念,AI成为最大的标签,算力的绝世武功撑起了新的万亿帝国。

2022年,英伟达推出了多款重磅产品,分别是基于全新Hopper架构的H100 GPU、CPU和GPU的合体Grace Hopper、两个CPU组合的Grace CPU Superchip,CPU的产品在2023年上市。

其中,设计GPU新架构Hopper时,英伟达增添了一个Transformer引擎,专门为Transformer算法做了硬件优化,加快AI计算的效率。

一位国内芯片从业者直言:“H100出来,其实就是一个新时代了,Grace-Hopper再一个组合,加上高配的互联,完全不给活路,英伟达赢家通吃,AMD、Intel继续苦追。”

同时他也表示:“目前国内一些企业还是在盯着CNN做优化,英伟达已经有Transformer引擎,然后AIGC火热,恰好能做支持。这个眼光,只能佩服他们的科学家们对这个领域深刻的认识。”

一位学术界人士也分析道:“从H100上,包括专用的Transformer引擎以及对FP8格式的支持,可以看到计算硬件在向应用定制的方向前进。Grace CPU说明了整合异构计算系统的重要性。单纯的加速器优化和设计已经不能够满足现在对于计算系统的算力和能效比的要求,需要各个部分的协同优化和设计。”

他还表示,Grace CPU通过提高通信带宽和在CPU和GPU之间建立一致(coherent)的内存模型来解决运算中的瓶颈,这也和学界(近存计算,存内计算)与业界(CXL,CCI等等系统互联协议)一直在关注的方向是一致的。

总而言之,在GPU和CPU的各种排列组合中,英伟达又将算力提升到了新高度。正如黄仁勋所言:“我们正在重新发明计算机,加速计算和人工智能标志着计算正在被重新定义。”

黄仁勋在采访中还提到,数据中心需要用的CPU越来越少,不再是传统上购买数百万个CPU,而是转而购买数百万个GPU。换言之,在他看来,AI算力江湖已经是GPU的主场。

英伟达的野心

事实上,随着ChatGPT引发AI大模型需求热潮,作为加速计算领导者,英伟达今年以来股价累计涨幅已超过210%,近三个月内涨幅就达56%,过去7年股价增长超40倍,目前市值冲破1.1万亿美元。

公开数据显示,英伟达占据全球80%以上的GPU服务器市场份额,同时拥有全球91.4%的企业GPU市场份额。

据投资者服务公司穆迪今年5月份发布的一份研究报告,英伟达在未来几个季度将实现“无与伦比”的收入增长,其数据中心业务的收入将超过竞争对手英特尔和AMD的总和。

但摩根士丹利策略分析师斯坦利(Edward Stanley)在最新报告中称,根据历史背景,英伟达的股价飙升处于“后期”阶段,摩根士丹利认为这标志着 AI 行业的“泡沫”。

GPU持续紧缺下,如今英伟达产品价格已同比上涨超30%,英伟达A800单卡现货近13万元一颗,eBay上H100售价高达4.5万美元。

同时,OpenAI的GPT-4大模型需要至少2.5万张英伟达A100 GPU芯片,而该公司目前至少已拥有1000万颗GPU芯片。

正如黄仁勋常说的,“你GPU买得越多,你越省钱”。主要原因是新的GPU产品能显著提升加速计算,比CPU性能更强、算力更大、功耗更低。

但英伟达的布局还不止于此。

一个现实问题是,高性能的算力也意味着高昂的价格。大模型训练成本动辄成千上百万美元,并不是所有公司都能承受。

而英伟达同时提出了云服务的解决方案NVIDIA AI foundations,黄仁勋表示要做“AI界的台积电”。台积电大大降低了芯片设计公司生产门槛,英伟达也要做代工厂的角色,通过和大模型厂商、云厂商合作提供高性价比的云服务。

在帮助下游企业降低大模型训练成本的同时,英伟达还在逐步参与到上游的产业链升级中。今年,英伟达牵手台积电、ASML、新思,发布了计算光刻库cuLitho。

计算光刻是在芯片设计和制造领域的关键步骤,也是最大的计算负载之一。计算光刻库的技术突破就在于,可以通过部署有大量GPU的DGX AI计算系统对计算光刻进行加速,使其达到原有的基于CPU的计算速度的几十倍,同时降低计算过程的总能耗。

这将有助于晶圆厂缩短原型周期时间、提高产量、减少碳排放,为2nm及更先进的工艺奠定基础,并为曲线掩模、高数值孔径极紫外、亚原子级光刻胶模型等新技术节点所需的新型解决方案和创新技术提供更多可能性。

在多位产业界人士看来,虽然短期内不会影响到下游的应用方面,但是这些上游的研发和升级将长期影响产业的发展,累积形成代际差。

“英伟达在GPU架构的迭代上,一直都有属于自己的发展路径,这几年的发展,也让英伟达跃居AI算力芯片领域的领导者,也因为领先,所以英伟达会思考如何做更多元的布局与行业内的深度合作,这样更能了解行业的需求,比方和台积电等合作便是很好的例子”,某芯片行业专家表示。

当然,英特尔和AMD都已经吹响反攻的号角。

7月,英特尔面向中国市场推出了AI芯片Habana Gaudi 2;6月,AMD推出AI芯片Instinct MI 300X,两者都直接对标英伟达100系列。

目前,在数据中心市场,英伟达和Intel、AMD形成三足鼎立之势。但随着GH200的正式发布,Grace CPU正式登台争角,最应该感到如芒在背的应该是Intel、AMD。虽说大家都知道GH200迟早发布,但等真正发布了,还是有所触动。

围绕着算力的权力游戏还将继续。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

相关文章:

科技云报道:算力之战,英伟达再度释放AI“炸弹”

科技云报道原创。 近日,在计算机图形学顶会SIGGRAPH 2023现场,英伟达再度释放深夜“炸弹”,大模型专用芯片迎来升级版本。 英伟达在会上发布了新一代GH200 Grace Hopper平台,该平台依托于搭载全球首款搭载HBM3e处理器的新型Grac…...

油电同价、标配8155,奇瑞猛攻10-15万中型SUV市场

8月8日,奇瑞瑞虎8冠军家族在北京国家奥林匹克体育中心正式上市,推出了瑞虎8 PRO冠军版、瑞虎8新能源冠军版两款新车,燃油混动双线同步发力。 其中,瑞虎8 PRO冠军版共推7款车型,官方指导价12.69万元-16.39万元&#xf…...

【leetcode】【图解】617. 合并二叉树

题目 难度:简单 给你两棵二叉树: root1 和 root2 。 想象一下,当你将其中一棵覆盖到另一棵之上时,两棵树上的一些节点将会重叠(而另一些不会)。你需要将这两棵树合并成一棵新二叉树。合并的规则是&#xf…...

基于java的汽车改装方案网站设计与实现

摘要 本文主要讲述了基于SpringBootMySql开发技术开发的汽车改装方案网站的设计与实现。这里的汽车改装方案网站是通过一个平台使所有的汽车爱好者们可以不用出门就可以体验到专业的汽车改装方案设计服务。现实生活中如果需要进行汽车改装的方案设计,往往要跑很多次…...

DC电源模块减小输入电源与输出负载之间的能量损失

BOSHIDA DC电源模块减小输入电源与输出负载之间的能量损失 随着电子产品的普及,DC电源模块已成为现代电子设备中不可或缺的组成部分。DC电源模块可以将交流电转化为直流电,并根据需要,以适当的电压和电流提供给输出负载。然而,在输…...

Python自动化小技巧16——分类汇总写入excel不同sheet表

案例背景 上了两个月班的社畜博主最近终于有空来总结一下最近写的代码了。 因为上班都是文职工作,天天不是word就是excel就是PPT和pdf....这和什么机器学习还有数据科学不一样,任务更多的是处理实在的文字和表格等格式,按照领导要求来完成&…...

FlexRay汽车总线静电防护,如何设计保护方案图?

FlexRay是一种高速、实时、可靠、具备故障容错能力的总线技术,是继CAN和LIN总线之后的最新研发成果。FlexRay为线控应用(即线控驱动、线控转向、线控制动等)提供了容错和时间确定性性能要求。虽然FlexRay将解决当前高端和未来主流车载网络的挑…...

jpg图片太大怎么压缩?这样做轻松压缩图片

图片太大会给存储、分享带来麻烦,但其实现在压缩图片大小也不是什么难事,下面就给大家分享几个一直用的图片压缩方法,包含批量压缩、在线压缩、免费压缩等多种方式,大家按需自取哈~ 方法一:嗨格式压缩大师 这是一个可…...

B057-spring增强 依赖注入 AOP 代理模式 创建Bean

目录 AOP概念代理模式引出AOP实现方式xml方式实现注解方式实现 AOP 概念 事务管理:比如可以抽取try catch的重复代码 日志监控:比如业务逻辑前后打印关于当前订单数量的日志,了解业务做了什么 性能监控:比如业务前后打印时间&…...

小程序多图片组合

目录 子组件 index.js 子组件 index.wxml 子组件 index.wxss 父组件引用: 子组件:preview-image 子组件 index.js Component({properties: {previewData: {type: Array,default: [],observer: function (newVal, oldVal) {console.log(newVal, ol…...

YOLO v8目标跟踪详细解读(二)

上一篇,结合代码,我们详细的介绍了YOLOV8目标跟踪的Pipeline。大家应该对跟踪的流程有了大致的了解,下面我们将对跟踪中出现的卡尔曼滤波进行解读。 1.卡尔曼滤波器介绍 卡尔曼滤波(kalman Filtering)是一种利用线性…...

【广州华锐视点】AR电力职业技能培训系统让技能学习更“智慧”

随着科技的发展,教育方式也在不断地进步和创新。其中,增强现实(AR)技术的出现,为教育领域带来了全新的可能。AR电力职业技能培训系统就是这种创新教学方法的完美实践,它将虚拟与现实相结合,为学生提供了一个沉浸式的学…...

C#学习,反射

目录 C#学习 .NET的体系结构 二次编译 反射 什么是反射? 什么是Type? 什么是程序集? 反射API: 一,程序集 1, Load 2,LoadFrom 3,LoadFile 二,类型实例 1&a…...

代理模式概述

1.代理模式概述 学习内容 1)概述 为什么要有 “代理” ? 生活中就有很多例子,比如委托业务,黄牛(票贩子)等等代理就是被代理者没有能力或者不愿意去完成某件事情,需要找个人代替自己去完成这…...

最新AI系统ChatGPT网站程序源码+搭建教程/公众号/H5端/安装配置教程/完整知识库

1、前言 SparkAi系统是基于国外很火的ChatGPT进行开发的Ai智能问答系统。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。 那么如何搭建部署AI创作ChatGPT?小编这里写一个详细图文教程吧!…...

前端Flex布局

day06-Flex布局 目标:熟练使用 Flex 完成结构化布局 01-标准流 标准流也叫文档流,指的是标签在页面中默认的排布规则,例如:块元素独占一行,行内元素可以一行显示多个。 [外链图片转存失败,源站可能有防盗链机制,建议…...

文盘Rust -- Mutex解决并发写文件乱序问题 | 京东云技术团队

在实际开发过程中,我们可能会遇到并发写文件的场景,如果处理不当很可能出现文件内容乱序问题。下面我们通过一个示例程序描述这一过程并给出解决该问题的方法。 use std::{fs::{self, File, OpenOptions},io::{Write},sync::Arc,time::{SystemTime, UNI…...

数据结构算法--2 冒泡排序,选择排序,插入排序

基础排序算法 冒泡排序 思想就是将相邻元素两两比较,当一个元素大于右侧相邻元素时,交换他们的位置,小于右侧元素时,位置不变,最终序列中的最大元素,像气泡一样,到了最右侧。 这时冒泡排序第一…...

秋招面经——快手

Mysql mysql事务 共享锁与排他锁 共享锁:允许一个事务去读一行,阻止其他事务获得相同数据集的排他锁。(读都允许读,但我在读不允许你去改) 排他锁:允许一个事务去读一行,阻止其他事务获得相同…...

【STM32RT-Thread零基础入门】 2. 新建RT-Thread项目

硬件:STM32F103ZET6、ST-LINK、usb转串口工具 文章目录 前言一、新建RT-Thread项目二、项目结构三、构建项目四、下载程序(调试器下载)五、终端交互总结 前言 RT-Thread的全称是Real Time Thread,顾名思义,它是一个嵌…...

华为云AI开发平台ModelArts

华为云ModelArts:重塑AI开发流程的“智能引擎”与“创新加速器”! 在人工智能浪潮席卷全球的2025年,企业拥抱AI的意愿空前高涨,但技术门槛高、流程复杂、资源投入巨大的现实,却让许多创新构想止步于实验室。数据科学家…...

【HarmonyOS 5.0】DevEco Testing:鸿蒙应用质量保障的终极武器

——全方位测试解决方案与代码实战 一、工具定位与核心能力 DevEco Testing是HarmonyOS官方推出的​​一体化测试平台​​,覆盖应用全生命周期测试需求,主要提供五大核心能力: ​​测试类型​​​​检测目标​​​​关键指标​​功能体验基…...

WordPress插件:AI多语言写作与智能配图、免费AI模型、SEO文章生成

厌倦手动写WordPress文章?AI自动生成,效率提升10倍! 支持多语言、自动配图、定时发布,让内容创作更轻松! AI内容生成 → 不想每天写文章?AI一键生成高质量内容!多语言支持 → 跨境电商必备&am…...

自然语言处理——Transformer

自然语言处理——Transformer 自注意力机制多头注意力机制Transformer 虽然循环神经网络可以对具有序列特性的数据非常有效,它能挖掘数据中的时序信息以及语义信息,但是它有一个很大的缺陷——很难并行化。 我们可以考虑用CNN来替代RNN,但是…...

IT供电系统绝缘监测及故障定位解决方案

随着新能源的快速发展,光伏电站、储能系统及充电设备已广泛应用于现代能源网络。在光伏领域,IT供电系统凭借其持续供电性好、安全性高等优势成为光伏首选,但在长期运行中,例如老化、潮湿、隐裂、机械损伤等问题会影响光伏板绝缘层…...

【7色560页】职场可视化逻辑图高级数据分析PPT模版

7种色调职场工作汇报PPT,橙蓝、黑红、红蓝、蓝橙灰、浅蓝、浅绿、深蓝七种色调模版 【7色560页】职场可视化逻辑图高级数据分析PPT模版:职场可视化逻辑图分析PPT模版https://pan.quark.cn/s/78aeabbd92d1...

《C++ 模板》

目录 函数模板 类模板 非类型模板参数 模板特化 函数模板特化 类模板的特化 模板,就像一个模具,里面可以将不同类型的材料做成一个形状,其分为函数模板和类模板。 函数模板 函数模板可以简化函数重载的代码。格式:templa…...

代码随想录刷题day30

1、零钱兑换II 给你一个整数数组 coins 表示不同面额的硬币,另给一个整数 amount 表示总金额。 请你计算并返回可以凑成总金额的硬币组合数。如果任何硬币组合都无法凑出总金额,返回 0 。 假设每一种面额的硬币有无限个。 题目数据保证结果符合 32 位带…...

【VLNs篇】07:NavRL—在动态环境中学习安全飞行

项目内容论文标题NavRL: 在动态环境中学习安全飞行 (NavRL: Learning Safe Flight in Dynamic Environments)核心问题解决无人机在包含静态和动态障碍物的复杂环境中进行安全、高效自主导航的挑战,克服传统方法和现有强化学习方法的局限性。核心算法基于近端策略优化…...

GruntJS-前端自动化任务运行器从入门到实战

Grunt 完全指南:从入门到实战 一、Grunt 是什么? Grunt是一个基于 Node.js 的前端自动化任务运行器,主要用于自动化执行项目开发中重复性高的任务,例如文件压缩、代码编译、语法检查、单元测试、文件合并等。通过配置简洁的任务…...