当前位置: 首页 > news >正文

科技云报道:黑马Groq单挑英伟达,AI芯片要变天?

科技云报道原创。

近一周来,大模型领域重磅产品接连推出:OpenAI发布“文字生视频”大模型Sora;Meta发布视频预测大模型 V-JEPA;谷歌发布大模型 Gemini 1.5 Pro,更毫无预兆地发布了开源模型Gemma…

难怪网友们感叹:“一开年AI发展的节奏已经如此炸裂了么!”

但更令人意想不到的是,AI芯片领域处于绝对霸主地位的英伟达,竟然也遇到了挑战,而且挑战者还是一家初创公司。

在这家名叫Groq的初创芯片及模型公司官网上,它号称是世界最快大模型,比GPT-4快18倍,测试中最快达到破纪录的每秒吞吐500 tokens。

这闪电般的速度,来源于Groq自研的LPU(语言处理单元),是一种名为张量流处理器(TSP)的新型处理单元,自然语言处理速度是英伟达GPU 10倍,做到了推理的最低延迟。

“快”字当头,Groq可谓赚足眼球。Groq还喊话各大公司,扬言在三年内超越英伟达。

事实上,在这一波AI热潮中,“天下苦英伟达久矣”。英伟达GPU芯片价格一再被炒高,而Groq的LPU架构能“弯道超车”,显然是众望所归。

因此,不少舆论惊呼Groq要颠覆英伟达,也有业内人士认为Groq想要“平替”英伟达还有很长的路要走。

但无论持哪种观点,Groq的出现不仅是对现有芯片架构和市场格局的挑战,也预示着AI芯片及其支撑的大模型发展方向正在发生变化——聚焦AI推理。
在这里插入图片描述
Groq LPU:快字当头

据介绍,Groq的芯片采用14nm制程,搭载了230MB大静态随机存储器(SRAM)以保证内存带宽,片上内存带宽达80TB/s。在算力方面,该芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度为188TFLOPs。

Anyscale的LLMPerf排行显示,在Groq LPU推理引擎上运行的Llama 2 70B,输出tokens吞吐量快了18倍,优于其他所有云推理供应商。

据网友测试,面对300多个单词的“巨型”prompt(AI模型提示词),Groq在不到一秒钟的时间里,就为一篇期刊论文创建了初步大纲和写作计划。此外,Groq还完全实现了远程实时的AI对话。

电子邮件初创企业Otherside AI的首席执行官兼联合创始人马特·舒默(Matt Shumer)在体验Groq后称赞其快如闪电,能够在不到一秒钟的时间内生成数百个单词的事实性、引用性答案。

更令人惊讶的是,其超过3/4的时间用于搜索信息,而生成答案的时间却短到只有几分之一秒。

Groq之所以“快如闪电”,其创新的核心在于LPU。

据官方信息显示,LPU推理引擎是一种新型的端到端处理单元系统,它为计算密集型应用提供最快的推理能力,这些应用具有序列组件,例如AI语言应用程序(LLM)。

LPU旨在克服LLM的两个瓶颈:计算密度和内存带宽。

就LLM而言,LPU比GPU和CPU具有更大的计算能力。这减少了每个单词的计算时间,从而可以更快地生成文本序列。

同时,与利用高带宽内存(HBM)的GPU不同,Groq的LPU利用SRAM进行数据处理,比HBM快约20倍,从而显著降低能耗并提高效率。

GroqChip的独特架构与其时间指令集相结合,可实现自然语言和其他顺序数据的理想顺序处理。

消除外部内存瓶颈,不仅使LPU推理引擎能够在LLM上提供比GPU高几个数量级的性能。

而且由于LPU只进行推理计算,需要的数据量远小于模型训练,从外部内存读取的数据更少,消耗的电量也低于GPU。

此外,LPU芯片设计实现了多个TSP的无缝连接,避免了GPU集群中的瓶颈问题,显著地提高了可扩展性。

因此,Groq公司宣称,其LPU所带来的AI推理计算是革命性的。

在AI推理领域挑战GPU

尽管Groq高调喊话,但想要“平替”英伟达GPU并不容易。从各方观点来看,Groq的芯片还无法与之分庭抗礼。

原Facebook人工智能科学家、原阿里技术副总裁贾扬清算了一笔账,因为Groq小得可怜的内存容量,在运行Llama 2 70B模型时,需要305张Groq卡才足够,而用英伟达的H100则只需要8张卡。

从目前的价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。

但跳出单纯的价格对比,Groq LPU的解决方案依然展现出了不小的应用潜力。

根据机器学习算法步骤,AI芯片可以划分为训练AI芯片和推理AI芯片。

训练芯片是用于构建神经网络模型,需要高算力和通用性,追求的是高计算性能(高吞吐率)、低功耗。

推理芯片是对训练好的神经网络模型进行运算,利用输入的新数据来一次性获得正确结论。

因此完成推理过程的时间要尽可能短、低功耗,更关注用户体验方面的优化。

虽然现阶段GPU利用并行计算的优势在AI领域大获全胜,但由于英伟达GPU的独有架构,英伟达H100等芯片在推理领域算力要求远不及训练端,这也就给Groq等竞争对手留下了机会。

因此,专注于AI推理的Groq LPU,得以在推理这个特定领域挑战英伟达GPU的地位。从测试结果上看,Groq能够达到令人满意的“秒回”效果。

这也在一定程度上显示了通用芯片与专用芯片的路径分歧。

随着AI和深度学习的不断发展,对专用芯片的需求也在增长。

各种专用加速器如FPGA、ASIC以及其他初创公司的AI芯片已经不断涌现,它们在各自擅长的领域内展现出了挑战GPU的可能性。

相比于英伟达通用型AI芯片,自研AI芯片也被称作ASIC,往往更适合科技公司本身的AI工作负载需求且成本较低。

比如,云巨头AWS就推出了为生成式AI和机器学习训练而设计全新自研AI芯片AWS Trainium2,性能比上一代芯片提高到4倍,可提供65ExaFlops超算性能。

微软也推出第一款定制的自研CPU系列Azure Cobalt和AI加速芯片Azure Maia,后者是微软首款AI芯片,主要针对大语言模型训练,预计将于明年初开始在微软Azure数据中心推出。

谷歌云也推出了新版本的TPU芯片TPU v5p,旨在大幅缩减训练大语言模型时间投入。

无论是大厂自研的AI芯片,还是像Groq LPU这样的专用芯片,都是为了优化特定AI计算任务的性能和成本效率,同时减少对英伟达等外部供应商的依赖。

作为GPU的一个重要补充,专用芯片让面对紧缺昂贵的GPU芯片的企业有了一个新的选择。

AI芯片聚焦推理

随着AI大模型的快速发展,尤其是Sora以及即将推出的GPT-5,都需要更强大高效的算力。但GPU在推理方面的不够高效,已经影响到了大模型业务的发展。

从产业发展趋势来看,AI算力负载大概率将逐步从训练全面向推理端迁移。

华尔街大行摩根士丹利在2024年十大投资策略主题中指出,随着消费类边缘设备在数据处理、存储端和电池续航方面的大幅改进,2024年将有更多催化剂促使边缘AI这一细分领域迎头赶上,AI行业的发展重点也将从“训练”全面转向“推理”。

高通CEO Amon也指出,芯片制造商们的主要战场不久后将由“训练”转向“推理”。

Amon在采访时表示:“随着AI大模型变得更精简、能够在设备上运行并专注于推理任务,芯片制造商的主要市场将转向‘推理’,即模型应用。预计数据中心也将对专门用于已训练模型推理任务的处理器产生兴趣,一切都将助力推理市场规模超越训练市场。”

在最新的财报电话会上,英伟达CFO Colette Kress表示,大模型的推理场景已经占据英伟达数据中心40%的营收比例。这也是判断大模型行业落地前景的重要信号。

事实上,巨头们的一举一动也在印证这一趋势的到来。

据路透社报道,Meta将推新款自研AI推理芯片Artemis。预计Meta可于年内完成该芯片在自有数据中心的部署,与英伟达GPU协同提供算力。

而英伟达也通过强化推理能力,巩固自身通用GPU市占率。

在下一代芯片H200中,英伟达在H100的基础上将存储器HBM进行了一次升级,为的也是提升芯片在推理环节中的效率。

不仅如此,随着各大科技巨头、芯片设计独角兽企业都在研发更具效率、部分替代GPU的芯片,英伟达也意识到这一点,建立起了定制芯片的业务部门。

总的来说,以现在AI芯片供不应求的现状,GPU的增长暂时还不会放缓。但随着AI发展趋势的快速变化,英伟达不可能是永远的王者,而Groq也绝对不是唯一的挑战者。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

相关文章:

科技云报道:黑马Groq单挑英伟达,AI芯片要变天?

科技云报道原创。 近一周来,大模型领域重磅产品接连推出:OpenAI发布“文字生视频”大模型Sora;Meta发布视频预测大模型 V-JEPA;谷歌发布大模型 Gemini 1.5 Pro,更毫无预兆地发布了开源模型Gemma… 难怪网友们感叹&am…...

解决i18n国际化可读性问题,傻瓜式webpack中文支持国际化插件开发

先来看最后的效果 问题 用过国际化i18n的朋友都知道,天下苦国际化久矣,尤其是中文为母语的开发者,在面对代码中一堆的$t(abc.def)这种一点也不直观毫无可读性的代码,根本不知道自己写了啥 (如上图,你看得出…...

【Django】执行查询—F()表达式

F() F()可以实现将模型字段值与同一模型中的另一字段做比较。举个例子看一下: class Entry(models.Model):...number_of_comments models.IntegerField(default0)number_of_pingbacks models.IntegerField(default0)...找到所有 number_of_pingbacks 大于 numbe…...

202112CSPT4磁盘文件操作

题意:有n个id号,m段空间,k个操作: 0 0 0:从L开始到R或遇到第一个其他非空id号为止,写入 i d id id号以及值 v a l val val;如果成功写入则输出写入成功的最右位置,否则输出-1 1 1 1:若 [ L , …...

5GC SBA架构

协议标准:Directory Listing /ftp/Specs/archive/23_series/23.501/ (3gpp.org) NF描述说明NSSFNetwork Slice Selection Function网络切片选择,根据UE的切片选择辅助信息、签约信息等确定UE允许接入的网络切片实例。NEF Network Exposure Function网络开…...

《求生之路2》服务器如何选择合适的内存和CPU核心数,以避免丢包和延迟高?

根据求生之路2服务器的实际案例分析选择合适的内存和CPU核心数以避免丢包和延迟高的问题,首先需要考虑游戏的类型和对服务器配置的具体要求。《求生之路2》作为一款多人在线射击游戏,其服务器和网络优化对于玩家体验至关重要。 首先,考虑到游…...

精读服务器默认rsyslog的配置文件

rsyslog的配置文件 rsyslog.conf #### MODULES ####$ModLoad imuxsock # provides support for local system logging (e.g. via logger command) $ModLoad imjournal # provides access to the systemd journal #$ModLoad imklog # reads kernel messages (the same are read…...

Vue2:用node+express部署Vue项目

一、编译项目 命令 npm run build执行命令后,我们会在项目文件夹中看到如下生成的文件 二、部署Vue项目 接上一篇,nodeexpress编写轻量级服务 1、在demo中创建static文件夹 2、将dist目录中的文件放入static中 3、修改server.js文件 关键配置&…...

前端开发人员如何做好SEO

前端开发人员如何做好SEO SEO工作不仅限于专业人员。前端开发者也可以在日常开发中实施一些代码层面的SEO优化。 以下是一些前端常用的SEO方法: 设置合理的title、keywords、description title、keywords、description对SEO至关重要,需贴合页面内容编…...

推荐收藏!分享 PyTorch 中一些高级的索引和选择操作技巧

关于 Pytorch ,我之前分享过很多篇,喜欢的可以收藏、关注、点赞。 这一次,我准备了 20节 PyTorch 中文课程小白学 PyTorch 系列:54个超强 pytorch 操作9个技巧让你的 PyTorch 模型训练飞快!Keras 3.0发布:…...

Apache Calcite 快速入门指南

Apache Calcite 快速入门指南 参考地址:Apache Calcite 快速入门指南 - 知乎 Apache Calcite 是一个动态数据管理框架,提供了:SQL 解析、SQL 校验、SQL 查询优化、SQL 生成以及数据连接查询等典型数据库管理功能。Calcite 的目标是 One Size …...

基于MUSIC算法的六阵元圆阵DOA估计matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 基于MUSIC算法的六阵元圆阵DOA估计matlab仿真. 2.测试软件版本以及运行结果展示 MATLAB2022a版本运行 3.核心程序 ........................................…...

Mysql索引学习

mysql索引-自学版 1 索引语法2 索引类别3 索引原理磁盘IO与预读索引数据结构 B树B树的前生今世B 树代码(进阶) 4 索引使用策略及优化优化索引的几种方法 索引常见面试题面经实战 1 索引语法 索引的语法:创建、修改、增加、删除等操作&#x…...

【MySQL】:高效利用MySQL函数实用指南

🎥 屿小夏 : 个人主页 🔥个人专栏 : MySQL从入门到进阶 🌄 莫道桑榆晚,为霞尚满天! 文章目录 📑前言一. MySQL函数概论二. 字符串函数三. 数值函数四. 日期函数五. 流程函数&#x1…...

vue3+electron开发桌面应用,静态资源处理方式及路径问题总结

目录 1、静态资源放到src/assets/目录下 2、静态路径和动态路径的写法 3、编译时vite.config.js的配置...

2024全国水科技大会暨高氨氮废水厌氧氨氧化处理技术论坛(四)

一、会议背景 为积极应对“十四五”期间我国生态环境治理面临的挑战,加快生态环境科技创新,构建绿色技术创新体系,全面落实科学技术部、生态环境部等部委编制的《“十四五”生态环境领域科技创新专项规划》,积极落实省校合作&…...

基于springboot+vue的美食推荐商城

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…...

AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.02.05-2024.02.10

论文目录~ 1.ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling2.CLIP-Loc: Multi-modal Landmark Association for Global Localization in Object-based Maps3.Exploring Visual Culture Awareness in GPT-4V: A Compre…...

华为笔记本自带windows11如何改为win10

目录 一、前言 二、遇到问题 三、问题解决 一、前言 新购买的华为笔记本电脑自带windows11系统,虽然是正版系统,但还是希望能重新装Windows10版本。一是我已经习惯此系统,二是该系统上运行的开发工具比较稳定。 二、遇到问题 说干就干&…...

Axios 面试题

Axios 面试题 问题描述: 什么是 Axios?它的主要特点是什么? 答案: Axios 是一个基于 Promise 的 HTTP 客户端库,用于在浏览器和 Node.js 中发送 HTTP 请求。它具有以下主要特点: 支持浏览器和 Node.js 环境…...

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …...

Android Wi-Fi 连接失败日志分析

1. Android wifi 关键日志总结 (1) Wi-Fi 断开 (CTRL-EVENT-DISCONNECTED reason3) 日志相关部分&#xff1a; 06-05 10:48:40.987 943 943 I wpa_supplicant: wlan0: CTRL-EVENT-DISCONNECTED bssid44:9b:c1:57:a8:90 reason3 locally_generated1解析&#xff1a; CTR…...

AI Agent与Agentic AI:原理、应用、挑战与未来展望

文章目录 一、引言二、AI Agent与Agentic AI的兴起2.1 技术契机与生态成熟2.2 Agent的定义与特征2.3 Agent的发展历程 三、AI Agent的核心技术栈解密3.1 感知模块代码示例&#xff1a;使用Python和OpenCV进行图像识别 3.2 认知与决策模块代码示例&#xff1a;使用OpenAI GPT-3进…...

如何将联系人从 iPhone 转移到 Android

从 iPhone 换到 Android 手机时&#xff0c;你可能需要保留重要的数据&#xff0c;例如通讯录。好在&#xff0c;将通讯录从 iPhone 转移到 Android 手机非常简单&#xff0c;你可以从本文中学习 6 种可靠的方法&#xff0c;确保随时保持连接&#xff0c;不错过任何信息。 第 1…...

零基础设计模式——行为型模式 - 责任链模式

第四部分&#xff1a;行为型模式 - 责任链模式 (Chain of Responsibility Pattern) 欢迎来到行为型模式的学习&#xff01;行为型模式关注对象之间的职责分配、算法封装和对象间的交互。我们将学习的第一个行为型模式是责任链模式。 核心思想&#xff1a;使多个对象都有机会处…...

如何在网页里填写 PDF 表格?

有时候&#xff0c;你可能希望用户能在你的网站上填写 PDF 表单。然而&#xff0c;这件事并不简单&#xff0c;因为 PDF 并不是一种原生的网页格式。虽然浏览器可以显示 PDF 文件&#xff0c;但原生并不支持编辑或填写它们。更糟的是&#xff0c;如果你想收集表单数据&#xff…...

C++课设:简易日历程序(支持传统节假日 + 二十四节气 + 个人纪念日管理)

名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 专栏介绍:《编程项目实战》 目录 一、为什么要开发一个日历程序?1. 深入理解时间算法2. 练习面向对象设计3. 学习数据结构应用二、核心算法深度解析…...

python爬虫——气象数据爬取

一、导入库与全局配置 python 运行 import json import datetime import time import requests from sqlalchemy import create_engine import csv import pandas as pd作用&#xff1a; 引入数据解析、网络请求、时间处理、数据库操作等所需库。requests&#xff1a;发送 …...

Python竞赛环境搭建全攻略

Python环境搭建竞赛技术文章大纲 竞赛背景与意义 竞赛的目的与价值Python在竞赛中的应用场景环境搭建对竞赛效率的影响 竞赛环境需求分析 常见竞赛类型&#xff08;算法、数据分析、机器学习等&#xff09;不同竞赛对Python版本及库的要求硬件与操作系统的兼容性问题 Pyth…...

ubuntu系统文件误删(/lib/x86_64-linux-gnu/libc.so.6)修复方案 [成功解决]

报错信息&#xff1a;libc.so.6: cannot open shared object file: No such file or directory&#xff1a; #ls, ln, sudo...命令都不能用 error while loading shared libraries: libc.so.6: cannot open shared object file: No such file or directory重启后报错信息&…...