当前位置: 首页 > news >正文

科技云报道:黑马Groq单挑英伟达,AI芯片要变天?

科技云报道原创。

近一周来,大模型领域重磅产品接连推出:OpenAI发布“文字生视频”大模型Sora;Meta发布视频预测大模型 V-JEPA;谷歌发布大模型 Gemini 1.5 Pro,更毫无预兆地发布了开源模型Gemma…

难怪网友们感叹:“一开年AI发展的节奏已经如此炸裂了么!”

但更令人意想不到的是,AI芯片领域处于绝对霸主地位的英伟达,竟然也遇到了挑战,而且挑战者还是一家初创公司。

在这家名叫Groq的初创芯片及模型公司官网上,它号称是世界最快大模型,比GPT-4快18倍,测试中最快达到破纪录的每秒吞吐500 tokens。

这闪电般的速度,来源于Groq自研的LPU(语言处理单元),是一种名为张量流处理器(TSP)的新型处理单元,自然语言处理速度是英伟达GPU 10倍,做到了推理的最低延迟。

“快”字当头,Groq可谓赚足眼球。Groq还喊话各大公司,扬言在三年内超越英伟达。

事实上,在这一波AI热潮中,“天下苦英伟达久矣”。英伟达GPU芯片价格一再被炒高,而Groq的LPU架构能“弯道超车”,显然是众望所归。

因此,不少舆论惊呼Groq要颠覆英伟达,也有业内人士认为Groq想要“平替”英伟达还有很长的路要走。

但无论持哪种观点,Groq的出现不仅是对现有芯片架构和市场格局的挑战,也预示着AI芯片及其支撑的大模型发展方向正在发生变化——聚焦AI推理。
在这里插入图片描述
Groq LPU:快字当头

据介绍,Groq的芯片采用14nm制程,搭载了230MB大静态随机存储器(SRAM)以保证内存带宽,片上内存带宽达80TB/s。在算力方面,该芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度为188TFLOPs。

Anyscale的LLMPerf排行显示,在Groq LPU推理引擎上运行的Llama 2 70B,输出tokens吞吐量快了18倍,优于其他所有云推理供应商。

据网友测试,面对300多个单词的“巨型”prompt(AI模型提示词),Groq在不到一秒钟的时间里,就为一篇期刊论文创建了初步大纲和写作计划。此外,Groq还完全实现了远程实时的AI对话。

电子邮件初创企业Otherside AI的首席执行官兼联合创始人马特·舒默(Matt Shumer)在体验Groq后称赞其快如闪电,能够在不到一秒钟的时间内生成数百个单词的事实性、引用性答案。

更令人惊讶的是,其超过3/4的时间用于搜索信息,而生成答案的时间却短到只有几分之一秒。

Groq之所以“快如闪电”,其创新的核心在于LPU。

据官方信息显示,LPU推理引擎是一种新型的端到端处理单元系统,它为计算密集型应用提供最快的推理能力,这些应用具有序列组件,例如AI语言应用程序(LLM)。

LPU旨在克服LLM的两个瓶颈:计算密度和内存带宽。

就LLM而言,LPU比GPU和CPU具有更大的计算能力。这减少了每个单词的计算时间,从而可以更快地生成文本序列。

同时,与利用高带宽内存(HBM)的GPU不同,Groq的LPU利用SRAM进行数据处理,比HBM快约20倍,从而显著降低能耗并提高效率。

GroqChip的独特架构与其时间指令集相结合,可实现自然语言和其他顺序数据的理想顺序处理。

消除外部内存瓶颈,不仅使LPU推理引擎能够在LLM上提供比GPU高几个数量级的性能。

而且由于LPU只进行推理计算,需要的数据量远小于模型训练,从外部内存读取的数据更少,消耗的电量也低于GPU。

此外,LPU芯片设计实现了多个TSP的无缝连接,避免了GPU集群中的瓶颈问题,显著地提高了可扩展性。

因此,Groq公司宣称,其LPU所带来的AI推理计算是革命性的。

在AI推理领域挑战GPU

尽管Groq高调喊话,但想要“平替”英伟达GPU并不容易。从各方观点来看,Groq的芯片还无法与之分庭抗礼。

原Facebook人工智能科学家、原阿里技术副总裁贾扬清算了一笔账,因为Groq小得可怜的内存容量,在运行Llama 2 70B模型时,需要305张Groq卡才足够,而用英伟达的H100则只需要8张卡。

从目前的价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。

但跳出单纯的价格对比,Groq LPU的解决方案依然展现出了不小的应用潜力。

根据机器学习算法步骤,AI芯片可以划分为训练AI芯片和推理AI芯片。

训练芯片是用于构建神经网络模型,需要高算力和通用性,追求的是高计算性能(高吞吐率)、低功耗。

推理芯片是对训练好的神经网络模型进行运算,利用输入的新数据来一次性获得正确结论。

因此完成推理过程的时间要尽可能短、低功耗,更关注用户体验方面的优化。

虽然现阶段GPU利用并行计算的优势在AI领域大获全胜,但由于英伟达GPU的独有架构,英伟达H100等芯片在推理领域算力要求远不及训练端,这也就给Groq等竞争对手留下了机会。

因此,专注于AI推理的Groq LPU,得以在推理这个特定领域挑战英伟达GPU的地位。从测试结果上看,Groq能够达到令人满意的“秒回”效果。

这也在一定程度上显示了通用芯片与专用芯片的路径分歧。

随着AI和深度学习的不断发展,对专用芯片的需求也在增长。

各种专用加速器如FPGA、ASIC以及其他初创公司的AI芯片已经不断涌现,它们在各自擅长的领域内展现出了挑战GPU的可能性。

相比于英伟达通用型AI芯片,自研AI芯片也被称作ASIC,往往更适合科技公司本身的AI工作负载需求且成本较低。

比如,云巨头AWS就推出了为生成式AI和机器学习训练而设计全新自研AI芯片AWS Trainium2,性能比上一代芯片提高到4倍,可提供65ExaFlops超算性能。

微软也推出第一款定制的自研CPU系列Azure Cobalt和AI加速芯片Azure Maia,后者是微软首款AI芯片,主要针对大语言模型训练,预计将于明年初开始在微软Azure数据中心推出。

谷歌云也推出了新版本的TPU芯片TPU v5p,旨在大幅缩减训练大语言模型时间投入。

无论是大厂自研的AI芯片,还是像Groq LPU这样的专用芯片,都是为了优化特定AI计算任务的性能和成本效率,同时减少对英伟达等外部供应商的依赖。

作为GPU的一个重要补充,专用芯片让面对紧缺昂贵的GPU芯片的企业有了一个新的选择。

AI芯片聚焦推理

随着AI大模型的快速发展,尤其是Sora以及即将推出的GPT-5,都需要更强大高效的算力。但GPU在推理方面的不够高效,已经影响到了大模型业务的发展。

从产业发展趋势来看,AI算力负载大概率将逐步从训练全面向推理端迁移。

华尔街大行摩根士丹利在2024年十大投资策略主题中指出,随着消费类边缘设备在数据处理、存储端和电池续航方面的大幅改进,2024年将有更多催化剂促使边缘AI这一细分领域迎头赶上,AI行业的发展重点也将从“训练”全面转向“推理”。

高通CEO Amon也指出,芯片制造商们的主要战场不久后将由“训练”转向“推理”。

Amon在采访时表示:“随着AI大模型变得更精简、能够在设备上运行并专注于推理任务,芯片制造商的主要市场将转向‘推理’,即模型应用。预计数据中心也将对专门用于已训练模型推理任务的处理器产生兴趣,一切都将助力推理市场规模超越训练市场。”

在最新的财报电话会上,英伟达CFO Colette Kress表示,大模型的推理场景已经占据英伟达数据中心40%的营收比例。这也是判断大模型行业落地前景的重要信号。

事实上,巨头们的一举一动也在印证这一趋势的到来。

据路透社报道,Meta将推新款自研AI推理芯片Artemis。预计Meta可于年内完成该芯片在自有数据中心的部署,与英伟达GPU协同提供算力。

而英伟达也通过强化推理能力,巩固自身通用GPU市占率。

在下一代芯片H200中,英伟达在H100的基础上将存储器HBM进行了一次升级,为的也是提升芯片在推理环节中的效率。

不仅如此,随着各大科技巨头、芯片设计独角兽企业都在研发更具效率、部分替代GPU的芯片,英伟达也意识到这一点,建立起了定制芯片的业务部门。

总的来说,以现在AI芯片供不应求的现状,GPU的增长暂时还不会放缓。但随着AI发展趋势的快速变化,英伟达不可能是永远的王者,而Groq也绝对不是唯一的挑战者。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

相关文章:

科技云报道:黑马Groq单挑英伟达,AI芯片要变天?

科技云报道原创。 近一周来,大模型领域重磅产品接连推出:OpenAI发布“文字生视频”大模型Sora;Meta发布视频预测大模型 V-JEPA;谷歌发布大模型 Gemini 1.5 Pro,更毫无预兆地发布了开源模型Gemma… 难怪网友们感叹&am…...

解决i18n国际化可读性问题,傻瓜式webpack中文支持国际化插件开发

先来看最后的效果 问题 用过国际化i18n的朋友都知道,天下苦国际化久矣,尤其是中文为母语的开发者,在面对代码中一堆的$t(abc.def)这种一点也不直观毫无可读性的代码,根本不知道自己写了啥 (如上图,你看得出…...

【Django】执行查询—F()表达式

F() F()可以实现将模型字段值与同一模型中的另一字段做比较。举个例子看一下: class Entry(models.Model):...number_of_comments models.IntegerField(default0)number_of_pingbacks models.IntegerField(default0)...找到所有 number_of_pingbacks 大于 numbe…...

202112CSPT4磁盘文件操作

题意:有n个id号,m段空间,k个操作: 0 0 0:从L开始到R或遇到第一个其他非空id号为止,写入 i d id id号以及值 v a l val val;如果成功写入则输出写入成功的最右位置,否则输出-1 1 1 1:若 [ L , …...

5GC SBA架构

协议标准:Directory Listing /ftp/Specs/archive/23_series/23.501/ (3gpp.org) NF描述说明NSSFNetwork Slice Selection Function网络切片选择,根据UE的切片选择辅助信息、签约信息等确定UE允许接入的网络切片实例。NEF Network Exposure Function网络开…...

《求生之路2》服务器如何选择合适的内存和CPU核心数,以避免丢包和延迟高?

根据求生之路2服务器的实际案例分析选择合适的内存和CPU核心数以避免丢包和延迟高的问题,首先需要考虑游戏的类型和对服务器配置的具体要求。《求生之路2》作为一款多人在线射击游戏,其服务器和网络优化对于玩家体验至关重要。 首先,考虑到游…...

精读服务器默认rsyslog的配置文件

rsyslog的配置文件 rsyslog.conf #### MODULES ####$ModLoad imuxsock # provides support for local system logging (e.g. via logger command) $ModLoad imjournal # provides access to the systemd journal #$ModLoad imklog # reads kernel messages (the same are read…...

Vue2:用node+express部署Vue项目

一、编译项目 命令 npm run build执行命令后,我们会在项目文件夹中看到如下生成的文件 二、部署Vue项目 接上一篇,nodeexpress编写轻量级服务 1、在demo中创建static文件夹 2、将dist目录中的文件放入static中 3、修改server.js文件 关键配置&…...

前端开发人员如何做好SEO

前端开发人员如何做好SEO SEO工作不仅限于专业人员。前端开发者也可以在日常开发中实施一些代码层面的SEO优化。 以下是一些前端常用的SEO方法: 设置合理的title、keywords、description title、keywords、description对SEO至关重要,需贴合页面内容编…...

推荐收藏!分享 PyTorch 中一些高级的索引和选择操作技巧

关于 Pytorch ,我之前分享过很多篇,喜欢的可以收藏、关注、点赞。 这一次,我准备了 20节 PyTorch 中文课程小白学 PyTorch 系列:54个超强 pytorch 操作9个技巧让你的 PyTorch 模型训练飞快!Keras 3.0发布:…...

Apache Calcite 快速入门指南

Apache Calcite 快速入门指南 参考地址:Apache Calcite 快速入门指南 - 知乎 Apache Calcite 是一个动态数据管理框架,提供了:SQL 解析、SQL 校验、SQL 查询优化、SQL 生成以及数据连接查询等典型数据库管理功能。Calcite 的目标是 One Size …...

基于MUSIC算法的六阵元圆阵DOA估计matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 基于MUSIC算法的六阵元圆阵DOA估计matlab仿真. 2.测试软件版本以及运行结果展示 MATLAB2022a版本运行 3.核心程序 ........................................…...

Mysql索引学习

mysql索引-自学版 1 索引语法2 索引类别3 索引原理磁盘IO与预读索引数据结构 B树B树的前生今世B 树代码(进阶) 4 索引使用策略及优化优化索引的几种方法 索引常见面试题面经实战 1 索引语法 索引的语法:创建、修改、增加、删除等操作&#x…...

【MySQL】:高效利用MySQL函数实用指南

🎥 屿小夏 : 个人主页 🔥个人专栏 : MySQL从入门到进阶 🌄 莫道桑榆晚,为霞尚满天! 文章目录 📑前言一. MySQL函数概论二. 字符串函数三. 数值函数四. 日期函数五. 流程函数&#x1…...

vue3+electron开发桌面应用,静态资源处理方式及路径问题总结

目录 1、静态资源放到src/assets/目录下 2、静态路径和动态路径的写法 3、编译时vite.config.js的配置...

2024全国水科技大会暨高氨氮废水厌氧氨氧化处理技术论坛(四)

一、会议背景 为积极应对“十四五”期间我国生态环境治理面临的挑战,加快生态环境科技创新,构建绿色技术创新体系,全面落实科学技术部、生态环境部等部委编制的《“十四五”生态环境领域科技创新专项规划》,积极落实省校合作&…...

基于springboot+vue的美食推荐商城

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…...

AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.02.05-2024.02.10

论文目录~ 1.ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling2.CLIP-Loc: Multi-modal Landmark Association for Global Localization in Object-based Maps3.Exploring Visual Culture Awareness in GPT-4V: A Compre…...

华为笔记本自带windows11如何改为win10

目录 一、前言 二、遇到问题 三、问题解决 一、前言 新购买的华为笔记本电脑自带windows11系统,虽然是正版系统,但还是希望能重新装Windows10版本。一是我已经习惯此系统,二是该系统上运行的开发工具比较稳定。 二、遇到问题 说干就干&…...

Axios 面试题

Axios 面试题 问题描述: 什么是 Axios?它的主要特点是什么? 答案: Axios 是一个基于 Promise 的 HTTP 客户端库,用于在浏览器和 Node.js 中发送 HTTP 请求。它具有以下主要特点: 支持浏览器和 Node.js 环境…...

【Java_EE】Spring MVC

目录 Spring Web MVC ​编辑注解 RestController RequestMapping RequestParam RequestParam RequestBody PathVariable RequestPart 参数传递 注意事项 ​编辑参数重命名 RequestParam ​编辑​编辑传递集合 RequestParam 传递JSON数据 ​编辑RequestBody ​…...

【碎碎念】宝可梦 Mesh GO : 基于MESH网络的口袋妖怪 宝可梦GO游戏自组网系统

目录 游戏说明《宝可梦 Mesh GO》 —— 局域宝可梦探索Pokmon GO 类游戏核心理念应用场景Mesh 特性 宝可梦玩法融合设计游戏构想要素1. 地图探索(基于物理空间 广播范围)2. 野生宝可梦生成与广播3. 对战系统4. 道具与通信5. 延伸玩法 安全性设计 技术选…...

嵌入式学习笔记DAY33(网络编程——TCP)

一、网络架构 C/S (client/server 客户端/服务器):由客户端和服务器端两个部分组成。客户端通常是用户使用的应用程序,负责提供用户界面和交互逻辑 ,接收用户输入,向服务器发送请求,并展示服务…...

推荐 github 项目:GeminiImageApp(图片生成方向,可以做一定的素材)

推荐 github 项目:GeminiImageApp(图片生成方向,可以做一定的素材) 这个项目能干嘛? 使用 gemini 2.0 的 api 和 google 其他的 api 来做衍生处理 简化和优化了文生图和图生图的行为(我的最主要) 并且有一些目标检测和切割(我用不到) 视频和 imagefx 因为没 a…...

OCR MLLM Evaluation

为什么需要评测体系?——背景与矛盾 ​​ 能干的事:​​ 看清楚发票、身份证上的字(准确率>90%),速度飞快(眨眼间完成)。​​干不了的事:​​ 碰到复杂表格(合并单元…...

react菜单,动态绑定点击事件,菜单分离出去单独的js文件,Ant框架

1、菜单文件treeTop.js // 顶部菜单 import { AppstoreOutlined, SettingOutlined } from ant-design/icons; // 定义菜单项数据 const treeTop [{label: Docker管理,key: 1,icon: <AppstoreOutlined />,url:"/docker/index"},{label: 权限管理,key: 2,icon:…...

ffmpeg(三):处理原始数据命令

FFmpeg 可以直接处理原始音频和视频数据&#xff08;Raw PCM、YUV 等&#xff09;&#xff0c;常见场景包括&#xff1a; 将原始 YUV 图像编码为 H.264 视频将 PCM 音频编码为 AAC 或 MP3对原始音视频数据进行封装&#xff08;如封装为 MP4、TS&#xff09; 处理原始 YUV 视频…...

八、【ESP32开发全栈指南:UDP客户端】

1. 环境准备 安装ESP-IDF v4.4 (官方指南)确保Python 3.7 和Git已安装 2. 创建项目 idf.py create-project udp_client cd udp_client3. 完整优化代码 (main/main.c) #include <string.h> #include "freertos/FreeRTOS.h" #include "freertos/task.h&…...

dvwa11——XSS(Reflected)

LOW 分析源码&#xff1a;无过滤 和上一关一样&#xff0c;这一关在输入框内输入&#xff0c;成功回显 <script>alert(relee);</script> MEDIUM 分析源码&#xff0c;是把<script>替换成了空格&#xff0c;但没有禁用大写 改大写即可&#xff0c;注意函数…...

Ubuntu 安装 Mysql 数据库

首先更新apt-get工具&#xff0c;执行命令如下&#xff1a; apt-get upgrade安装Mysql&#xff0c;执行如下命令&#xff1a; apt-get install mysql-server 开启Mysql 服务&#xff0c;执行命令如下&#xff1a; service mysql start并确认是否成功开启mysql,执行命令如下&am…...