AI时代,服务器厂商能否打破薄利的命运?
文|刘俊宏
编|王一粟
AI大模型正在引发新一轮的“算力焦渴”。
近日,OpenAI刚发布的o1大模型再次刷新了大模型能力的上限。对比上一次迭代的版本,o1的推理能力全方位“吊打”了GPT-4o。更优秀的能力,来自与o1将思维链引入进了推理过程。在o1对问题“一边拆解一边回答”的过程中,“环环相扣”的思维链让答案也变得更加“靠谱”。
思考模式的升级,也意味着更大的算力需求。由于模型原理是在LLM训练额外添加了RL(强化学习)的Post-Training(后训练),这意味着一次推理和训练所需的算力将再次增加。
“AI研究中遇到的最大困难就是缺少算力——AI本质就是暴力计算。”华为副董事长、轮值董事长徐直军此前总结道。
于是,近几年科技大厂对AI基础设不断加大投入,除了英伟达股价不断升高,卖“AI铲子”的AI服务器厂商们也在本季度迎来了翻倍的业绩增长。
并且,随着AI算力下一步的需求增长和基础设施下放,服务器厂商们有望凭借AI赚得越来越多。
厂商们业绩的“高歌猛进”,是服务器与AI深度结合的结果。
其中在AI训练环节,服务器大厂们纷纷采用不同方式加速整个AI训练过程,让异构计算的AI服务器,成为一台高效的AI训练任务“分发机”。另一边,在解决算力硬件紧缺的问题中,AI服务器厂商也结合大型服务器集群的运营经验,落地了各种让英伟达、AMD、华为昇腾、Intel等厂商GPU混训大模型的平台。
伴随着对AI从训练到硬件优化的深入理解,越来越了解AI的服务器厂商也在从原本卖硬件组装的身份,提升着在AI产业链的价值。
其中,聚焦到智算中心建设层面,不少服务器厂商已经根据AI需求调整了AI服务器集群的硬件基础设施。并且,随着对国产算力芯片的深度结合,基于AI服务器厂商自己定制的解决方案正在广泛落地。
另一边在软件层面,更懂AI的服务器厂商也在开始挖掘AI在基础设施中的生产力属性。伴随着服务器厂商推出的AI大模型、Agent,服务器厂商与AI应用客户业务的结合也愈发紧密,从而进一步获得更多软件层面的解决方案收入。
毫无疑问,AI时代的变革也改变了整个算力载体的行业逻辑。
AI服务器厂商们正在以各种方式为用户带来更密集、更高效的算力供应。在当下的“算力焦渴”时代,AI服务器厂商正在成为愈发重要的“卖水人”。
AI行业,“卖铲子”的先赚钱了
AI大厂们的加速投入,让“卖铲子”的AI服务器厂商开始赚钱了。
根据IT桔子数据显示,截止到9月1日,AI相关上市公司整体还是亏损居多。其中,15家盈利的AI上市公司累计净利润为27.8亿元,亏损的19家累计净额为62.4亿元。
AI尚不能让行业实现整体盈利,一个原因是AI巨头们仍处于加速投入阶段。
据统计,今年上半年,国内三家AI巨头(BAT)在AI基础设施上的资本支出总额高达500亿元人民币,比去年同期的230亿元人民币,增长了一倍多。全球范围,随着亚马逊在上季度增长了18%的固定资本开支,再次进入了资本扩张周期。微软、亚马逊、谷歌、Meta等美股“Mag7”们,也达成了继续加码AI的共识。
“对AI投资不足的风险,远超投资过度风险。”谷歌母公司Alphabet首席执行官Sundar Pichai显然非常激进,并不认为目前是投资泡沫。
而借着加大投入的风口,提供AI基础设施的AI服务器玩家们“大赚特赚”。
其中,全球老牌服务器厂商惠普和戴尔在AI时代迎来了“第二春”。根据惠普最新披露的业绩(2024三季度)显示,其服务器业务同比增长35.1%。戴尔上季度财报显示(对应2024年5月—2024年7月),其服务器和网络业务营收同比增长80%。
同样在国内厂商中,联想在最新一季财报中提到,受AI需求增长,其基础设施方案业务集团季度收入首次突破30亿美元,同比增长65%。浪潮的中报数据显示,公司实现归属于上市公司股东的净利润为5.97亿元,较去年同期增长90.56%。神州数码这边,其归属于上市公司股东的净利润为5.1亿元,同比增长17.5%,旗下神州鲲泰AI服务器实现收入5.6亿元,同比增长273.3%。
业绩超过50%以上的增长,是AI服务器大规模落地的结果。
除了云厂商,运营商是AI服务器的主要需求方。自2023年开始,运营商们加大了对AI算力的布局。其中,电信和移动对AI服务器的需求增长了一倍以上。
同时,基于智算中心的需求也在快速推动AI服务器落地。根据Intel旗下AI芯片公司Habana中国区负责人于明扬在2024全球AI芯片峰会上的分享,近三年来大约有50多个政府主导的智算中心陆续建成,目前还有60多个智算中心项目正在规划和建设。
旺盛的AI服务器需求,改写了整个服务器行业的增长结构。
根据TrendForce集邦咨询近期发布的一份报告显示,在今年大型CSPs(云端服务供应商)对AI服务器的采购下,以产值估算,预计2024年AI服务器产值将达1870亿美元,成长率达69%。作为对比,一般服务器的预计年出货量增长仅为1.9%。
未来,随着CSP逐步完成智算中心的建设,AI服务器还将会随着更广泛的边缘计算需求,进一步加速增长。AI服务器的销售环节,也将随着CSP大批量集中采购切换至企业边缘计算的小批量购买。
换句话说,AI服务器厂商的议价权和盈利能力,将随着采购模式的变化进一步提升。
服务器厂商接下来还会靠AI赚的越来越多。如此趋势,跟AI服务器客户漫长的回本周期拉开了巨大差距。
以算力租赁的商业模式作为参考,行业内早就合计出了一笔账。算上智算中心配套的设备(存储、网络),在不考虑算力价格每年下降的前提下,采用英伟达H100作为算力卡的投资回报周期长达5年,采用性价比最高的英伟达4090显卡,回报周期也在两年以上。
如此一来,如何帮客户用好AI服务器,成了整个服务器行业最核心的竞争方向。
加速、稳定,AI服务器厂商各显神通
“大模型落地过程复杂,涉及分布式并行计算、算力调度、存储分配、大规模组网等多种先进技术和流程支持。”对于AI服务器落地应用中需要解决的问题,新华三集团智慧计算产品线高级产品经理冯良磊曾总结道。
上述难题,对应着AI服务器落地的两大类问题——算力优化和大规模使用。
一位销售人员对光锥智能也介绍到,“常见的客户需求,其一是硬件指标,第二是AI训练的支持能力,最后还有大规模集群的能力。”
其中,算力优化部分主要对应着AI服务器的异构计算问题。目前,行业提供的解决方案主要分为优化算力分配和异构芯片协作的两个大方向。
由于AI服务器的运作模式不再是CPU独立处理任务,而是CPU与算力硬件(GPU、NPU、TPU等)的协作。当前行业的主流解决模型,是用CPU把计算任务拆解到专用算力硬件。
这种算力分配模式,与英伟达CUDA的基本原理相同。CPU同时“带动”的算力硬件越多,整体算力就越大。
异构计算算力分配原理
对应到服务器硬件层面的改变,是AI服务器成了可以堆叠算力硬件的“积木”。AI服务器的体积开始“加大加粗”,从通用服务器的1U(服务器高度基本单位)升级至目前常见的4U、7U。
针对算力进一步优化,不少服务器厂商提出了自己的方案。例如新华三的傲飞算力平台支持对算力和显存按1%和MB的细粒度切分,并按需调度。联想的万全异构智算平台则是以知识库的形式,自动识别AI场景、算法和算力集群。客户只需输入场景和数据,即可自动加载最优算法,并调度最佳集群配置。
在另一边的异构芯片协作上,主要解决的是不同算力硬件服务器之间的协同问题。
由于英伟达GPU长时间将处于供不应求的状态,不少智算中心会选择将搭载了英伟达、AMD、华为昇腾、Intel等厂商GPU混用,或多种GPU混训一个AI大模型。如此一来,整个AI训练环节就会出现通信效率、互联互通、协同调度等一系列问题。
AI服务器搭载不同厂商AI芯片占比 来源:TrendForce
“服务器集群训练AI的过程,可以简单理解成‘一轮一轮’的进行。一个任务先被拆解到所有算力硬件,结果汇总后再更新至下一轮计算。如果过程配合不好,比如有的GPU算的慢,或者通信不畅,相当于其他算力硬件要‘一起等’。轮数多了,整个AI训练时长就被极大拖延。”对于异构算力硬件协作解决的实际问题,一位技术人员对光锥智能举了一个形象的例子来解释。
目前,解决该问题的主流方案是利用云管系统(包括调度、PaaS和MaaS平台)对整个AI训练(和神经网络)进行精细拆分。
例如,新华三的方案是建设一套异构资源管理平台,通过开发统一的集合通信库实现对不同厂商GPU的纳管,从而屏蔽不同厂商之间的差异。百度百舸异构计算平台的多芯混合训练方案,是将各类芯片融合成一个大集群,再支持整个训练任务。
大同小异的解决方案,其目标正如无问芯穹联合创始人兼CEO夏立雪总结,“打开水龙头前,我们不需要知道水是从哪条河里来的。”
异构计算问题解决后,意味着智算集群可选择的硬件种类得以彻底解放。服务器、算力芯片、AI Infra等厂商之间的配合,也有了协同效应,共同维护着AI服务器组建大规模算力集群的稳定性。
参考Meta公司使用算力集群的经验,AI大模型训练并非“一帆风顺”。据统计,Meta 16K H100集群的同步训练中,曾在54天内出现了466次作业异常。如何让服务器集群在出现问题后快速回到运行状态,主流的解决方案是在训练过程中加一道“防火墙”。
例如,联想的解决方案是“用魔法打败魔法”。通过使用AI模型预测AI训练故障的方式,联想的解决方案能在断点前优化备份。超聚变和华为昇腾则采用了简单直接的对策。当检测到节点故障时,自动隔离故障节点后,从最近的Checkpoint点恢复训练。
整体来看,AI服务器厂商在了解AI,实现算力优化和稳定性升级的过程中,提升自己的附加值。
借助AI对行业的改造,AI服务器的玩家们正在以垂直一体化的姿态,让服务器这个经典ToB行业焕发出新的价值。
AI让服务器厂商更有价值?
复盘历史,服务器厂商们一直被“困在”微笑曲线的中间地带。
第三次工业革命之后,随着服务器市场空间越来越大,一批又一批的服务器厂商诞生。
在PC时代,Wintel联盟的X86架构,催生了戴尔和惠普两家国际服务器巨头。在云计算时代,大量的数字化需求催生了浪潮、工业富联等一系列OEM厂商。
然而,就在服务器厂商在每年几百、几千亿营收的华袍下,净利润率却常年为个位数。在浪潮开创的JDM(联合设计制造)模式下,极致的生产制造带来的是净利率仅为1-2个点。
“微笑曲线形成的原因,并不是因为制造环节本身的问题。是不能掌握产业链核心技术和专利,只能标准化生产,无法具备不可替代性的结果。”对于服务器厂商的困境,一位国泰君安电子分析师对光锥智能如此解释道。
在AI时代,服务器厂商的价值正在随着AI重新定义算力应用而改变。对AI的垂直整合能力,成了当下服务器厂商角逐的中心。
聚焦到硬件层面,不少服务器厂商已经深入到了智算中心的建设环节。
例如针对PUE(电源使用效率),新华三、浪潮、超聚变、联想等厂商纷纷推出了液冷整机柜的解决方案。其中,新华三除了推出了硅光交换机(CPO)来降低整个机房的能耗外,还对整个网络产品线都进行了AI优化。另一边,在突破英伟达算力芯片限制层面,神州数码、联想等厂商在积极推进国产算力芯片的落地,共同实现中国芯片产业弯道超车。
在软件层面,服务器厂商还在积极挖掘AI的生产力属性,让业务不局限于卖硬件。
最常见的,是服务器厂商推出的AI赋能平台。其中,神州数码在神州问学平台上就整合了模型算力管理、企业私域知识和AI应用工程模块。神州数码通过原生AI平台的方式,将Agent能力融入到服务器的使用环节,让用户的使用过程“越用越好用”。
神州数码副总裁李刚对此评价称,“我们需要有这样一个平台,用于内嵌企业被环境验证过的Agent知识框架,同时还可以不断地去积淀新的Agent框架,这个就是神州问学AI应用工程平台的价值所在。”
新华三则是充分结合网络产品已有的优势,利用AIGC实现了通信领域的异常检测、趋势预测、故障诊断和智能调优。除了运维环节,新华三还发布了百业灵犀AI大模型,试图用通用大模型“带动”行业大模型的方式,进入到不同行业客户的业务环节,进而扩张原本ToB硬件的业务范围。
“通过不断的科技创新和持续的产品打磨,寻求AI潮流中的新突破,释放AI基础设施的新动能。”
正如联想集团副总裁、中国基础设施业务群总经理陈振宽总结,服务器厂商正是在不断加深AI垂直一体化的进程中,收获了如今利润率大涨的成果。
跳出制造的服务器厂商们,正在迎来属于自己的AI大时代。
相关文章:

AI时代,服务器厂商能否打破薄利的命运?
文|刘俊宏 编|王一粟 AI大模型正在引发新一轮的“算力焦渴”。 近日,OpenAI刚发布的o1大模型再次刷新了大模型能力的上限。对比上一次迭代的版本,o1的推理能力全方位“吊打”了GPT-4o。更优秀的能力,来自与o1将思维…...

2024年9月python二级易错题和难题大全(附详细解析)(二)
2024年9月python二级易错题和难题大全(附详细解析)(二) 第1题第2题第3题第4题第5题第6题第7题第8题第9题第10题第11题第12题第13题第14题第15题第16题第17题第18题第19题第20题第1题 1、以下代码的输出结果是() x = 12 + 3 * ((5 * 8) - 14) // 6 print(x) A、25.0 B、6…...

4.结构型设计模式 - 第1回:引言与适配器模式 (Adapter Pattern) ——设计模式入门系列
一、引言 在现代软件开发中,设计模式是帮助我们解决复杂问题的工具,它们提供了在常见场景下重用已验证解决方案的途径。而结构型设计模式主要关注类与对象之间的组合方式,旨在通过增强灵活性和降低耦合度来改进代码的结构。 本次讨论的是结…...

解决mybatis plus 中 FastjsonTypeHandler无法正确反序列化List类型的问题
由于是根据自动映射类型,我们设置的字段类型是List 也就是反序列化的时候也只是用 FastjsonTypeHandler中的 Override protected Object parse(String json) { return JSON.parseObject(json, type); } 反序列化方法,这是type为List 反序列后我们并没…...

MacOS安装homebrew,jEnv,多版本JDK
1 安装homebrew homebrew官网 根据官网提示,运行安装命令 /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"安装后,bash会提示执行两条命令 (echo; echo eval "$(/opt/homebrew/b…...

【HTTP】认识 URL 和 URL encode
文章目录 认识 URLURL 基本格式**带层次的文件路径****查询字符串****片段标识符** URL encode 认识 URL 计算机中非常重要的概念,并不仅仅是在 HTTP 中使用。用来描述一个网络资源所处的位置,全称“唯一资源定位符” URI 是“唯一资源标识符“严格的说…...

【AI学习笔记】初学机器学习西瓜书概要记录(二)常用的机器学习方法篇
初学机器学习西瓜书的概要记录(一)机器学习基础知识篇(已完结) 初学机器学习西瓜书的概要记录(二)常用的机器学习方法篇(持续更新) 初学机器学习西瓜书的概要记录(三)进阶知识篇(待更) 文字公式撰写不易&am…...

[SDX35+WCN6856]SDX35 + WCN6856 默认增加打包wifi配置hostapd_24g.conf和hostapd_5g.conf操作方法
SDX35 SDX35介绍 SDX35设备是一种多模调制解调器芯片,支持 4G/5G sub-6 技术。它是一个4nm芯片专为实现卓越的性能和能效而设计。它包括一个 1.9 GHz Cortex-A7 应用处理器。 SDX35主要特性 ■ 3GPP Rel. 17 with 5G Reduced Capability (RedCap) support. Backward compati…...

【iOS】OC高级编程 iOS多线程与内存管理阅读笔记——自动引用计数
文章目录 什么是自动引用计数 内存管理/引用计数 概要 内存管理的思考方式 自己生成的对象,自己所持有 非自己生成的对象,自己也能持有 不再需要自己持有的对象时释放 无法释放非自己持有的对象 什么是自动引用计数 自动引用计数(AR…...

网络安全-LD_PRELOAD,请求劫持
目录 一、环境 二、开始做题 三、总结原理 四、如何防护 一、环境 我们这里用蚁剑自带的靶场第一关来解释 docker制作一下即可 二、开始做题 首先环境内很明显给我们已经写好了webshell 同样我们也可以访问到 我们使用这个蚁剑把这个webshell连上 我们发现命令不能执行&am…...

GO入门之值传递于引用(指针、内存地址)传递扫盲
GO入门之值传递于引用(指针、内存地址)传递扫盲 Go 语言中,值传递和引用(指针)传递是两个关键的概念。通过案例可以很好地展示两者的区别。 值传递与引用传递的区别: 值传递:传递的是变量的副…...

【渗透测试】-vulnhub源码框架漏洞-Os-hackNos-1
vulnhub源码框架漏洞中的CVE-2018-7600-Drupal 7.57 文章目录 前言 1.靶场搭建: 2.信息搜集: 主机探测: 端口扫描: 目录扫描: 3.分析: 4.步骤: 1.下载CVE-2018-7600的exp 2.执行exp: 3.写入木…...

sqli-lab靶场学习(三)——Less8-10(盲注、时间盲注)
Less8 第八关依然是先看一般状态 http://localhost/sqli-labs/Less-8/?id1 然后用单引号闭合: http://localhost/sqli-labs/Less-8/?id1 这关的问题在于报错是不显示,那没办法通过上篇文章的updatexml大法处理。对于这种情况,需要用“盲…...

Pybullet 安装过程
Pybullet 安装过程(windows) 1. 安装C编译工具2. 安装Pybullet 1. 安装C编译工具 pybullet 需要C编译套件,直接装之前检查下,要不会报缺少某版本MVSC的error,最好的方式是直接下载visual studio,直接按默认…...

Error when custom data is added to Azure OpenAI Service Deployment
题意:在向 Azure OpenAI 服务部署添加自定义数据时出现错误。 问题背景: I receive the following error when adding my custom data which is a .txt file (it doesnt matter whether I add it via Azure Cognitive Search, Azure Blob Storage, or F…...

libreoffice word转pdf
一、准备一个word文件 运行: cd /root libreoffice --headless --convert-to pdf --outdir /root/output doc1.docx 发现中文乱码: 此时我们需要给linux 上添加中文字体: centos7 添加中文字体 再次运行正常: libreoffice --h…...

java -----泛型
泛型的理解和好处 泛型是在JDK5之后引入的一个新特性,可以在编译阶段约束操作的数据类型,并进行检查。 泛型的格式为 <数据类型> import java.util.ArrayList;SuppressWarnings({"all"}) public class Generic02 {public static void…...

Springboot 文件上传下载相关问题
文章目录 关于Springboot 文件上传下载问题解决方案注意事项文件上传文件下载文件删除文件在线打开在写练习的时候,发现了一些小小的问题,已经在 上述代码中体现。① 代码路径碰到中文的时候,会有乱码,需要转换(内容中…...

【Kotlin 与 Java 互操作】Java中调用带有默认值的Kotlin函数(十四)
导读大纲 1.0.1 Java 没有默认参数值的概念1.0.2 使用 JvmOverloads 来简化调用 1.0.1 Java 没有默认参数值的概念 因此当从 Java 调用带有默认参数值的 Kotlin 函数时 1. 必须明确指定所有参数值 fun <T> joinToString(collection: Collection<T>,separator: St…...

点赞系统实现
点赞功能是社交、电商等几乎所有的互联网项目中都广泛使用。虽然看起来简单,不过蕴含的技术方案和手段还是比较多的。 下面将分享之前做的判题OJ系统的点赞系统的思路。 1.需求分析 点赞功能与其它功能不同,没有复杂的原型和需求,仅仅是一…...

c++进阶学习-----继承
1.继承的概念及定义 1.1继承的概念 继承(inheritance)机制是面向对象程序设计使代码可以复用的最重要的手段,它允许程序员在保持原有类特性的基础上进行扩展,增加功能,这样产生新的类,称派生类。 继承呈现了面向对象 程序设计的…...

C++学习笔记(37)
302、makefile 在实际开发中,项目的源代码文件比较多,按类型、功能、模块分别存放在不同的目录和文件中,哪 些文件需要先编译,那些文件后编译,那些文件需要重新编译,还有更多更复杂的操作。 make 是一个强大…...

Redis发布和订阅
Redis 发布订阅 (pub/sub) 是一种消息通信模式:发送者 (pub) 发送消息,订阅者(sub) 接收消息 可以实现进程间的消息传递。这种模式非常适用于实时消息传递、事件通知和消息分发等场景 Redis可以实现消息中间件MQ的功能,通过发布订阅实现消息…...

计算机毕设设计推荐-基于python+Djanog大数据的电影数据可视化分析
精彩专栏推荐订阅:在下方主页👇🏻👇🏻👇🏻👇🏻 💖🔥作者主页:计算机毕设木哥🔥 💖 文章目录 一、电影数据可视…...

dhtmlxGantt 甘特图 一行展示多条任务类型
效果如图: 后台拿到数据 处理之后如图: 含义: 如上图所示, 如果一行需要展示多个 需要给父数据的那条添加render:split属性, 子数据的parent为父数据的Id即可 切记 父数据的id 别为0 为0 时 会出现错乱 因为有些小伙伴提出分段展示的数据结构还是有点问题,下面展示一个完整…...

COLORmap
在这段MATLAB代码中,surf(peaks)、map的定义以及colormap(map)的调用共同完成了以下任务: 1. **绘制曲面图**: - surf(peaks):这个函数调用了MATLAB内置的peaks函数来生成数据,并使用surf函数将这些数据绘制成一个…...

手机在网状态查询接口如何用Java进行调用?
一、什么是手机在网状态查询接口? 手机在网状态查询接口,又叫运营商在网状态查询,手机号在网状态查询,传入手机号码,查询该手机号的在网状态,返回内容有正常使用、停机、在网但不可用、不在网(…...

mysql性能优化- 数据库配置优化
MySQL 性能优化 - 数据库配置优化 MySQL 是一个广泛使用的关系型数据库管理系统,但随着数据量的增长和访问频率的提高,其性能可能会成为瓶颈。为了保持高效的性能,除了应用层的查询优化和索引优化之外,数据库配置优化 也是非常重…...

(算法)大数的进制转换
题目描述 将一个长度最多为30位数字的十进制非负整数转换为二进制数输出输入描述: 多组数据,每行为一个长度不超过30位的十进制非负整数。 (注意是10进制数字的个数可能有30个,而非30bits的整数)解析 例子 :123&…...

演示jvm锁存在的问题
文章目录 1、AlbumInfoApiController --》testLock()2、redis添加键值对3、AlbumInfoServiceImpl --》testLock() 没有加锁4、使用ab工具测试4.1、安装 ab 工具4.2、查看 redis 中的值 5、添加本地锁 synchronized6、集群情况下问题演示 jvm锁:synchronized lock 只…...