当前位置: 首页 > news >正文

xAI巨无霸超级计算机上线:10万张H100 GPU,计划翻倍至20万张

在短短四个多月的时间里,埃隆·马斯克的X公司(前身为Twitter)推出了世界上最强劲的人工智能训练系统。名为Colossus的超级计算机使用了多达10万张NVIDIA H100 GPU进行训练,并计划在未来几个月内再增加5万张H100和H200 GPU。

“本周末,xAI团队启动了我们的Colossus 10万张H100训练集群,”埃隆·马斯克在X平台上写道,“从头到尾只用了122天。Colossus是世界上最强大的AI训练系统。而且,它将在几个月内规模翻倍,达到20万张(其中5万张为H200)。”

根据高科技巨头戴尔公司的负责人迈克尔·戴尔的说法,戴尔迅速开发并组装了Colossus系统。这表明服务器制造商在近几年的人工智能热潮中积累了相当丰富的部署AI服务器的经验。

埃隆·马斯克及其公司的超级计算机布局

近期,埃隆·马斯克和他的公司一直在频繁发布有关超级计算机的消息。8月底,特斯拉宣布推出其Cortex AI集群,其中包括5万张NVIDIA H100 GPU和2万片特斯拉自家的Dojo AI晶圆级芯片。在此之前,7月末,X公司启动了名为Memphis的超级集群用于AI训练,该集群包含10万张液冷H100 GPU。据估计,这一超级计算机至少需要消耗150兆瓦的电力,因为10万张H100 GPU大约需要70兆瓦的电力。

尽管所有这些集群在形式上已经投入运营并开始训练AI模型,但实际上有多少集群真正上线却并不清楚。首先,调试和优化这些超级集群的设置需要一定的时间。其次,X公司需要确保它们有足够的电力供应,尽管埃隆·马斯克的公司已经在使用14台柴油发电机为Memphis超级计算机供电,但仍然不足以满足所有10万张H100 GPU的电力需求。

xAI的LLM训练与资源需求

xAI正在训练Grok版本2大型语言模型(LLM),这需要多达2万张NVIDIA H100 GPU。马斯克预测,未来的版本,如Grok 3,将需要更多的资源,可能需要大约10万张NVIDIA H100处理器来进行训练。为此,xAI需要其庞大的数据中心来训练Grok 3,并在此模型上运行推理。

技术与规模挑战
  • 调试与优化:即使是顶级的超级计算机集群,也需要经历调试和优化的过程。这不仅仅是为了确保硬件能够正常工作,也是为了优化软件和硬件之间的协同工作,从而实现最佳性能。
  • 能源供应:对于如此大规模的计算需求,能源供应是一个巨大的挑战。现有的电力基础设施可能无法完全满足如此大规模的集群,这也促使公司探索新的供电方案,比如使用备用电源或者寻找可再生能源解决方案。
  • 冷却技术:随着GPU数量的增加,散热问题变得越来越严重。液冷技术的应用不仅提高了冷却效率,还降低了噪音污染,这对于大规模数据中心的可持续发展至关重要。
  • 未来展望:随着AI模型复杂度的不断提高,所需的计算资源也随之增加。未来的超级计算机不仅要解决硬件和能源的问题,还需要在软件层面做出改进,以更好地支持大规模的分布式计算任务。

总之,埃隆·马斯克及其团队通过推出Colossus超级计算机,展示了他们在人工智能领域的雄心壮志。随着技术的进步和需求的增长,未来的超级计算机将面临更多的挑战,同时也将迎来更多的发展机遇。

相关文章:

xAI巨无霸超级计算机上线:10万张H100 GPU,计划翻倍至20万张

在短短四个多月的时间里,埃隆马斯克的X公司(前身为Twitter)推出了世界上最强劲的人工智能训练系统。名为Colossus的超级计算机使用了多达10万张NVIDIA H100 GPU进行训练,并计划在未来几个月内再增加5万张H100和H200 GPU。 “本周末…...

python集合

1. 请解释Python中的集合(set)是什么? Python中的集合(set)是一个无序的、不重复的元素序列。它的主要用途是进行成员关系测试和消除重复元素。集合对象还支持数学运算,如并集、交集、差集和对称差分。 以…...

算法打卡 Day29(回溯算法)-复原 IP 地址 + 子集 + 子集 Ⅱ

文章目录 Leetcode 93-复原 IP 地址题目描述解题思路 Leetcode 78-子集题目描述解题思路 Leetcode 90-子集 Ⅱ题目描述解题思路 Leetcode 93-复原 IP 地址 题目描述 https://leetcode.cn/problems/restore-ip-addresses/description/ 解题思路 这是一道切割问题,…...

LeetCode 热题100-17 缺失的第一个正数

缺失的第一个正数 给你一个未排序的整数数组 nums ,请你找出其中没有出现的最小的正整数。 请你实现时间复杂度为 O(n) 并且只使用常数级别额外空间的解决方案。 示例 1: 输入:nums [1,2,0] 输出:3 解释:范围 [1,…...

基于CloudflareSpeedTest项目实现git clone加速

1.网络测速 「自选优选 IP」测试 Cloudflare CDN 延迟和速度,获取最快 IP 更多内容参考项目:https://github.com/XIU2/CloudflareSpeedTest 国外很多网站都在使用 Cloudflare CDN,但分配给中国内地访客的 IP 并不友好(延迟高、丢…...

对与单纯post方法写项目的修改成baseservlet方法

解决的问题: 1.用baseservlet方法来写: 我之前没听明白gsa讲的那些,然后自己写了注册,用的post方法,就是那个叫我们最好不要用有点low的方法,后面与别人交流后发现是要用baseservlet来写,叫他…...

北京地铁换乘站人流量监控与图像识别技术优化

关于“北京地铁换乘站人流量监控与图像识别技术优化”,可以从以下几个方面进行详细阐述: 一、北京地铁换乘站人流量监控现状 北京地铁作为全国最繁忙的城市轨道交通系统之一,其换乘站的人流量监控是保障运营安全、提高运营效率的关键环节。…...

Day16_0.1基础学习MATLAB学习小技巧总结(16)——元胞数组

利用空闲时间把碎片化的MATLAB知识重新系统的学习一遍,为了在这个过程中加深印象,也为了能够有所足迹,我会把自己的学习总结发在专栏中,以便学习交流。 素材来源“数学建模清风” 特此说明:本博客的内容只在于总结在…...

C#自定义控件的放置与拖动

1、自定义控件 using System; using System.Collections.Generic; using System.ComponentModel; using System.Drawing; using System.Drawing.Drawing2D; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Windows.Forms;namespace PartA…...

python circular import python循环导入问题

遇到的问题是因为模块之间存在循环导入(circular import),导致了ImportError。循环导入是指两个或多个模块相互导入对方,如模块A导入了模块B的方法,模块B又导入了模块A的方法,从而导致其中一个模块在完全初…...

kafka集群安装

kafka集群安装 文档 kafka单机安装 下载地址 官网:https://kafka.apache.org/最新版本下载页面:https://kafka.apache.org/downloads 说明 版本选择:3.0.0,kafka_2.12-3.0.0.tgz下载地址:https://archive.apache…...

SQL通用语法、SQL分类以及DDL

1.SQL 1.1SQL通用语法 1.SQL语句可以单行或多行书写,以分号结尾2.SQL语句可以使用空格/缩进来增强语句的可读性。3.MySQL数据库的SQL语句不区分大小写,关键字建议使用大写。4.注释: 单行注释:–空格 注释内容或#注释内容&#…...

静态链接和动态链接

静态链接和动态链接是两种将可执行文件与库进行链接的方式。它们的主要区别体现在链接时机、可执行文件的大小以及运行时的灵活性上。 1.静态链接 在静态链接中,所有需要的库(例如 C 标准库 libc)都会在编译时被复制并嵌入到最终的可执行文…...

构建智能门禁安防系统:树莓派 4B、OpenCV、SQLite 和 MQTT 的应用(代码示例)

一、项目概述 1.1 项目目标和用途 本项目旨在开发一个智能门禁安防系统,该系统利用摄像头和人脸识别技术,结合本地人脸库,实现对进出人员的自动识别和管理。系统能够实时记录进出人员的信息,并对未注册人员进行警报提示。通过与…...

基于 Konva 实现Web PPT 编辑器(二)

动画系统 为了实现演示中复杂的动画效果,使用 Animation 类统一管理;切换动画通过 css animation 实现,并且是应用在 konvajs-content 上,动画则通过 gsap 实现,应用在 Konva.Node 上,实现思路如下&#xf…...

【开源免费】基于SpringBoot+Vue.JS在线竞拍系统(JAVA毕业设计)

本文项目编号 T 013 ,文末自助获取源码 \color{red}{T013,文末自助获取源码} T013,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 查…...

Qt TabWidget添加多个窗口,实现分页窗体布局

Qt TabWidget添加多个窗口窗体,可关闭与打开 点击按钮可判断是否打开,避免重复打开 使用Qt中的TabWidget组件创建一个简单的分页窗体布局。点击按钮时,会新增一个窗体并添加到TabWidget中。每个子窗体能动态获取父窗体指针以进行操作 分别…...

HarmonyOS开发实战( Beta5版)合理使用动画丢帧规范实践

本文列举了部分用于优化动画时延的正反案例,帮助开发者在遇到相似场景时进行优化,解决构建页面动画时遇到动画时延较长的问题。 减少动画丢帧 在播放动画或者生成动画时,画面产生停滞而导致帧率过低的现象,称为动画丢帧。 播放…...

基于BiLSTM-CRF的医学命名实体识别研究(下)模型构建

一.生成映射字典 接下来需要将每个汉字、边界、拼音、偏旁部首等映射成向量。所以,我们首先需要来构造字典,统计多少个不同的字、边界、拼音、偏旁部首等,然后再构建模型将不同的汉字、拼音等映射成不同的向量。 在prepare_data.py中自定义…...

5.sklearn-朴素贝叶斯算法、决策树、随机森林

文章目录 环境配置(必看)头文件引用1.朴素贝叶斯算法代码运行结果优缺点 2.决策树代码运行结果决策树可视化图片优缺点 3.随机森林代码RandomForestClassifier()运行结果总结 本章学习资源 环境配置(必看) Anaconda-创建虚拟环境…...

秒杀系统设计:十万QPS下的技术架构演进

在电商大促场景中,秒杀系统是典型的高并发、低库存业务模型,其核心挑战在于瞬时十万级QPS(每秒查询率)下的系统稳定性与数据一致性。对于软件测试从业者而言,这不仅涉及性能压测的极限挑战,更需关注架构演进…...

三个角度分析AI自动写文+自动发布自媒体矩阵提效实测

搞自媒体干久了,有谁没动过心思琢磨能不能让机器来帮忙写、帮忙发?尤其是你手头上攥着五六个账号,天天瞅着不同平台的规则、排版、发布时间的安排,脑袋都快给弄炸。最近我试了这么一个流程:用人工智能自动去写文章然后…...

lvgl-micropython、lv_micropython和lv_binding_micropython到底啥关系?一文读懂汕

一、背景与问题缘起 MySQL 5.6.51 版本下 2000 万行核心业务表开展新增字段操作,需求为新增BIGINT(19) NOT NULL DEFAULT 0 COMMENT 注释(因业务实际需要存储大数值关联字段)。 表的核心特性为Java 多线程密集读写,业务请求持续高…...

OpenClaw备份方案:Qwen3.5-9B驱动的自动化文件同步

OpenClaw备份方案:Qwen3.5-9B驱动的自动化文件同步 1. 为什么需要AI驱动的文件备份方案 上周我的移动硬盘突然罢工,导致三个月的项目文档全部丢失。这次惨痛经历让我意识到:传统备份方案存在两个致命缺陷。首先,手动备份依赖记忆…...

别再吹牛了,% Vibe Coding 存在无法自洽的逻辑漏洞!蕾

简介 langchain中提供的chain链组件,能够帮助我门快速的实现各个组件的流水线式的调用,和模型的问答 Chain链的组成 根据查阅的资料,langchain的chain链结构如下: $$Input \rightarrow Prompt \rightarrow Model \rightarrow Outp…...

终极指南:如何用PoeCharm中文版轻松规划你的《流放之路》角色构建

终极指南:如何用PoeCharm中文版轻松规划你的《流放之路》角色构建 【免费下载链接】PoeCharm Path of Building Chinese version 项目地址: https://gitcode.com/gh_mirrors/po/PoeCharm 还在为《流放之路》复杂的角色构建系统感到头疼吗?面对海量…...

番茄小说下载器高效使用全攻略:轻松获取并管理你喜爱的小说

番茄小说下载器高效使用全攻略:轻松获取并管理你喜爱的小说 【免费下载链接】fanqienovel-downloader 下载番茄小说 项目地址: https://gitcode.com/gh_mirrors/fa/fanqienovel-downloader 在数字阅读时代,拥有一款可靠的小说下载工具能极大提升阅…...

用Qwen3-Embedding-0.6B做文本分类:实战教程与代码分享

用Qwen3-Embedding-0.6B做文本分类:实战教程与代码分享 1. 引言 文本分类是自然语言处理中最基础也最实用的任务之一。无论是新闻分类、情感分析,还是垃圾邮件识别,都需要将文本准确地归入预定义的类别。传统的文本分类方法依赖人工特征工程…...

OpenClaw技能开发入门:为千问3.5-35B-A3B-FP8定制多模态处理模块

OpenClaw技能开发入门:为千问3.5-35B-A3B-FP8定制多模态处理模块 1. 为什么需要自定义OpenClaw技能? 去年夏天,我负责一个数据分析项目时,每天要手动从上百张图表中提取关键数据点。当我发现OpenClaw可以通过技能扩展实现自动化…...

直面胶粘行业痛点,0111矢量可移技术如何助力企业降本增效!

一、行业困境:传统胶粘制品的四大结构性矛盾在胶粘制品的应用场景中,一个长期存在却被忽视的行业痛点正在被越来越多的制造商、工程方和终端用户所正视——传统胶粘产品在"粘"与"净"之间,始终面临难以调和的两难困境。传…...