AI时代,服务器厂商能否打破薄利的命运?

文|刘俊宏
编|王一粟
AI大模型正在引发新一轮的“算力焦渴”。
近日,OpenAI刚发布的o1大模型再次刷新了大模型能力的上限。对比上一次迭代的版本,o1的推理能力全方位“吊打”了GPT-4o。更优秀的能力,来自与o1将思维链引入进了推理过程。在o1对问题“一边拆解一边回答”的过程中,“环环相扣”的思维链让答案也变得更加“靠谱”。
思考模式的升级,也意味着更大的算力需求。由于模型原理是在LLM训练额外添加了RL(强化学习)的Post-Training(后训练),这意味着一次推理和训练所需的算力将再次增加。
“AI研究中遇到的最大困难就是缺少算力——AI本质就是暴力计算。”华为副董事长、轮值董事长徐直军此前总结道。
于是,近几年科技大厂对AI基础设不断加大投入,除了英伟达股价不断升高,卖“AI铲子”的AI服务器厂商们也在本季度迎来了翻倍的业绩增长。
并且,随着AI算力下一步的需求增长和基础设施下放,服务器厂商们有望凭借AI赚得越来越多。
厂商们业绩的“高歌猛进”,是服务器与AI深度结合的结果。
其中在AI训练环节,服务器大厂们纷纷采用不同方式加速整个AI训练过程,让异构计算的AI服务器,成为一台高效的AI训练任务“分发机”。另一边,在解决算力硬件紧缺的问题中,AI服务器厂商也结合大型服务器集群的运营经验,落地了各种让英伟达、AMD、华为昇腾、Intel等厂商GPU混训大模型的平台。
伴随着对AI从训练到硬件优化的深入理解,越来越了解AI的服务器厂商也在从原本卖硬件组装的身份,提升着在AI产业链的价值。
其中,聚焦到智算中心建设层面,不少服务器厂商已经根据AI需求调整了AI服务器集群的硬件基础设施。并且,随着对国产算力芯片的深度结合,基于AI服务器厂商自己定制的解决方案正在广泛落地。
另一边在软件层面,更懂AI的服务器厂商也在开始挖掘AI在基础设施中的生产力属性。伴随着服务器厂商推出的AI大模型、Agent,服务器厂商与AI应用客户业务的结合也愈发紧密,从而进一步获得更多软件层面的解决方案收入。
毫无疑问,AI时代的变革也改变了整个算力载体的行业逻辑。
AI服务器厂商们正在以各种方式为用户带来更密集、更高效的算力供应。在当下的“算力焦渴”时代,AI服务器厂商正在成为愈发重要的“卖水人”。
AI行业,“卖铲子”的先赚钱了
AI大厂们的加速投入,让“卖铲子”的AI服务器厂商开始赚钱了。
根据IT桔子数据显示,截止到9月1日,AI相关上市公司整体还是亏损居多。其中,15家盈利的AI上市公司累计净利润为27.8亿元,亏损的19家累计净额为62.4亿元。

AI尚不能让行业实现整体盈利,一个原因是AI巨头们仍处于加速投入阶段。
据统计,今年上半年,国内三家AI巨头(BAT)在AI基础设施上的资本支出总额高达500亿元人民币,比去年同期的230亿元人民币,增长了一倍多。全球范围,随着亚马逊在上季度增长了18%的固定资本开支,再次进入了资本扩张周期。微软、亚马逊、谷歌、Meta等美股“Mag7”们,也达成了继续加码AI的共识。
“对AI投资不足的风险,远超投资过度风险。”谷歌母公司Alphabet首席执行官Sundar Pichai显然非常激进,并不认为目前是投资泡沫。
而借着加大投入的风口,提供AI基础设施的AI服务器玩家们“大赚特赚”。
其中,全球老牌服务器厂商惠普和戴尔在AI时代迎来了“第二春”。根据惠普最新披露的业绩(2024三季度)显示,其服务器业务同比增长35.1%。戴尔上季度财报显示(对应2024年5月—2024年7月),其服务器和网络业务营收同比增长80%。
同样在国内厂商中,联想在最新一季财报中提到,受AI需求增长,其基础设施方案业务集团季度收入首次突破30亿美元,同比增长65%。浪潮的中报数据显示,公司实现归属于上市公司股东的净利润为5.97亿元,较去年同期增长90.56%。神州数码这边,其归属于上市公司股东的净利润为5.1亿元,同比增长17.5%,旗下神州鲲泰AI服务器实现收入5.6亿元,同比增长273.3%。
业绩超过50%以上的增长,是AI服务器大规模落地的结果。
除了云厂商,运营商是AI服务器的主要需求方。自2023年开始,运营商们加大了对AI算力的布局。其中,电信和移动对AI服务器的需求增长了一倍以上。

同时,基于智算中心的需求也在快速推动AI服务器落地。根据Intel旗下AI芯片公司Habana中国区负责人于明扬在2024全球AI芯片峰会上的分享,近三年来大约有50多个政府主导的智算中心陆续建成,目前还有60多个智算中心项目正在规划和建设。
旺盛的AI服务器需求,改写了整个服务器行业的增长结构。
根据TrendForce集邦咨询近期发布的一份报告显示,在今年大型CSPs(云端服务供应商)对AI服务器的采购下,以产值估算,预计2024年AI服务器产值将达1870亿美元,成长率达69%。作为对比,一般服务器的预计年出货量增长仅为1.9%。
未来,随着CSP逐步完成智算中心的建设,AI服务器还将会随着更广泛的边缘计算需求,进一步加速增长。AI服务器的销售环节,也将随着CSP大批量集中采购切换至企业边缘计算的小批量购买。
换句话说,AI服务器厂商的议价权和盈利能力,将随着采购模式的变化进一步提升。
服务器厂商接下来还会靠AI赚的越来越多。如此趋势,跟AI服务器客户漫长的回本周期拉开了巨大差距。
以算力租赁的商业模式作为参考,行业内早就合计出了一笔账。算上智算中心配套的设备(存储、网络),在不考虑算力价格每年下降的前提下,采用英伟达H100作为算力卡的投资回报周期长达5年,采用性价比最高的英伟达4090显卡,回报周期也在两年以上。
如此一来,如何帮客户用好AI服务器,成了整个服务器行业最核心的竞争方向。
加速、稳定,AI服务器厂商各显神通
“大模型落地过程复杂,涉及分布式并行计算、算力调度、存储分配、大规模组网等多种先进技术和流程支持。”对于AI服务器落地应用中需要解决的问题,新华三集团智慧计算产品线高级产品经理冯良磊曾总结道。
上述难题,对应着AI服务器落地的两大类问题——算力优化和大规模使用。
一位销售人员对光锥智能也介绍到,“常见的客户需求,其一是硬件指标,第二是AI训练的支持能力,最后还有大规模集群的能力。”
其中,算力优化部分主要对应着AI服务器的异构计算问题。目前,行业提供的解决方案主要分为优化算力分配和异构芯片协作的两个大方向。
由于AI服务器的运作模式不再是CPU独立处理任务,而是CPU与算力硬件(GPU、NPU、TPU等)的协作。当前行业的主流解决模型,是用CPU把计算任务拆解到专用算力硬件。
这种算力分配模式,与英伟达CUDA的基本原理相同。CPU同时“带动”的算力硬件越多,整体算力就越大。

异构计算算力分配原理
对应到服务器硬件层面的改变,是AI服务器成了可以堆叠算力硬件的“积木”。AI服务器的体积开始“加大加粗”,从通用服务器的1U(服务器高度基本单位)升级至目前常见的4U、7U。
针对算力进一步优化,不少服务器厂商提出了自己的方案。例如新华三的傲飞算力平台支持对算力和显存按1%和MB的细粒度切分,并按需调度。联想的万全异构智算平台则是以知识库的形式,自动识别AI场景、算法和算力集群。客户只需输入场景和数据,即可自动加载最优算法,并调度最佳集群配置。
在另一边的异构芯片协作上,主要解决的是不同算力硬件服务器之间的协同问题。
由于英伟达GPU长时间将处于供不应求的状态,不少智算中心会选择将搭载了英伟达、AMD、华为昇腾、Intel等厂商GPU混用,或多种GPU混训一个AI大模型。如此一来,整个AI训练环节就会出现通信效率、互联互通、协同调度等一系列问题。

AI服务器搭载不同厂商AI芯片占比 来源:TrendForce
“服务器集群训练AI的过程,可以简单理解成‘一轮一轮’的进行。一个任务先被拆解到所有算力硬件,结果汇总后再更新至下一轮计算。如果过程配合不好,比如有的GPU算的慢,或者通信不畅,相当于其他算力硬件要‘一起等’。轮数多了,整个AI训练时长就被极大拖延。”对于异构算力硬件协作解决的实际问题,一位技术人员对光锥智能举了一个形象的例子来解释。
目前,解决该问题的主流方案是利用云管系统(包括调度、PaaS和MaaS平台)对整个AI训练(和神经网络)进行精细拆分。
例如,新华三的方案是建设一套异构资源管理平台,通过开发统一的集合通信库实现对不同厂商GPU的纳管,从而屏蔽不同厂商之间的差异。百度百舸异构计算平台的多芯混合训练方案,是将各类芯片融合成一个大集群,再支持整个训练任务。
大同小异的解决方案,其目标正如无问芯穹联合创始人兼CEO夏立雪总结,“打开水龙头前,我们不需要知道水是从哪条河里来的。”
异构计算问题解决后,意味着智算集群可选择的硬件种类得以彻底解放。服务器、算力芯片、AI Infra等厂商之间的配合,也有了协同效应,共同维护着AI服务器组建大规模算力集群的稳定性。
参考Meta公司使用算力集群的经验,AI大模型训练并非“一帆风顺”。据统计,Meta 16K H100集群的同步训练中,曾在54天内出现了466次作业异常。如何让服务器集群在出现问题后快速回到运行状态,主流的解决方案是在训练过程中加一道“防火墙”。
例如,联想的解决方案是“用魔法打败魔法”。通过使用AI模型预测AI训练故障的方式,联想的解决方案能在断点前优化备份。超聚变和华为昇腾则采用了简单直接的对策。当检测到节点故障时,自动隔离故障节点后,从最近的Checkpoint点恢复训练。
整体来看,AI服务器厂商在了解AI,实现算力优化和稳定性升级的过程中,提升自己的附加值。
借助AI对行业的改造,AI服务器的玩家们正在以垂直一体化的姿态,让服务器这个经典ToB行业焕发出新的价值。
AI让服务器厂商更有价值?
复盘历史,服务器厂商们一直被“困在”微笑曲线的中间地带。
第三次工业革命之后,随着服务器市场空间越来越大,一批又一批的服务器厂商诞生。
在PC时代,Wintel联盟的X86架构,催生了戴尔和惠普两家国际服务器巨头。在云计算时代,大量的数字化需求催生了浪潮、工业富联等一系列OEM厂商。
然而,就在服务器厂商在每年几百、几千亿营收的华袍下,净利润率却常年为个位数。在浪潮开创的JDM(联合设计制造)模式下,极致的生产制造带来的是净利率仅为1-2个点。
“微笑曲线形成的原因,并不是因为制造环节本身的问题。是不能掌握产业链核心技术和专利,只能标准化生产,无法具备不可替代性的结果。”对于服务器厂商的困境,一位国泰君安电子分析师对光锥智能如此解释道。
在AI时代,服务器厂商的价值正在随着AI重新定义算力应用而改变。对AI的垂直整合能力,成了当下服务器厂商角逐的中心。
聚焦到硬件层面,不少服务器厂商已经深入到了智算中心的建设环节。
例如针对PUE(电源使用效率),新华三、浪潮、超聚变、联想等厂商纷纷推出了液冷整机柜的解决方案。其中,新华三除了推出了硅光交换机(CPO)来降低整个机房的能耗外,还对整个网络产品线都进行了AI优化。另一边,在突破英伟达算力芯片限制层面,神州数码、联想等厂商在积极推进国产算力芯片的落地,共同实现中国芯片产业弯道超车。
在软件层面,服务器厂商还在积极挖掘AI的生产力属性,让业务不局限于卖硬件。
最常见的,是服务器厂商推出的AI赋能平台。其中,神州数码在神州问学平台上就整合了模型算力管理、企业私域知识和AI应用工程模块。神州数码通过原生AI平台的方式,将Agent能力融入到服务器的使用环节,让用户的使用过程“越用越好用”。
神州数码副总裁李刚对此评价称,“我们需要有这样一个平台,用于内嵌企业被环境验证过的Agent知识框架,同时还可以不断地去积淀新的Agent框架,这个就是神州问学AI应用工程平台的价值所在。”
新华三则是充分结合网络产品已有的优势,利用AIGC实现了通信领域的异常检测、趋势预测、故障诊断和智能调优。除了运维环节,新华三还发布了百业灵犀AI大模型,试图用通用大模型“带动”行业大模型的方式,进入到不同行业客户的业务环节,进而扩张原本ToB硬件的业务范围。
“通过不断的科技创新和持续的产品打磨,寻求AI潮流中的新突破,释放AI基础设施的新动能。”
正如联想集团副总裁、中国基础设施业务群总经理陈振宽总结,服务器厂商正是在不断加深AI垂直一体化的进程中,收获了如今利润率大涨的成果。
跳出制造的服务器厂商们,正在迎来属于自己的AI大时代。
相关文章:
AI时代,服务器厂商能否打破薄利的命运?
文|刘俊宏 编|王一粟 AI大模型正在引发新一轮的“算力焦渴”。 近日,OpenAI刚发布的o1大模型再次刷新了大模型能力的上限。对比上一次迭代的版本,o1的推理能力全方位“吊打”了GPT-4o。更优秀的能力,来自与o1将思维…...
2024年9月python二级易错题和难题大全(附详细解析)(二)
2024年9月python二级易错题和难题大全(附详细解析)(二) 第1题第2题第3题第4题第5题第6题第7题第8题第9题第10题第11题第12题第13题第14题第15题第16题第17题第18题第19题第20题第1题 1、以下代码的输出结果是() x = 12 + 3 * ((5 * 8) - 14) // 6 print(x) A、25.0 B、6…...
4.结构型设计模式 - 第1回:引言与适配器模式 (Adapter Pattern) ——设计模式入门系列
一、引言 在现代软件开发中,设计模式是帮助我们解决复杂问题的工具,它们提供了在常见场景下重用已验证解决方案的途径。而结构型设计模式主要关注类与对象之间的组合方式,旨在通过增强灵活性和降低耦合度来改进代码的结构。 本次讨论的是结…...
解决mybatis plus 中 FastjsonTypeHandler无法正确反序列化List类型的问题
由于是根据自动映射类型,我们设置的字段类型是List 也就是反序列化的时候也只是用 FastjsonTypeHandler中的 Override protected Object parse(String json) { return JSON.parseObject(json, type); } 反序列化方法,这是type为List 反序列后我们并没…...
MacOS安装homebrew,jEnv,多版本JDK
1 安装homebrew homebrew官网 根据官网提示,运行安装命令 /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"安装后,bash会提示执行两条命令 (echo; echo eval "$(/opt/homebrew/b…...
【HTTP】认识 URL 和 URL encode
文章目录 认识 URLURL 基本格式**带层次的文件路径****查询字符串****片段标识符** URL encode 认识 URL 计算机中非常重要的概念,并不仅仅是在 HTTP 中使用。用来描述一个网络资源所处的位置,全称“唯一资源定位符” URI 是“唯一资源标识符“严格的说…...
【AI学习笔记】初学机器学习西瓜书概要记录(二)常用的机器学习方法篇
初学机器学习西瓜书的概要记录(一)机器学习基础知识篇(已完结) 初学机器学习西瓜书的概要记录(二)常用的机器学习方法篇(持续更新) 初学机器学习西瓜书的概要记录(三)进阶知识篇(待更) 文字公式撰写不易&am…...
[SDX35+WCN6856]SDX35 + WCN6856 默认增加打包wifi配置hostapd_24g.conf和hostapd_5g.conf操作方法
SDX35 SDX35介绍 SDX35设备是一种多模调制解调器芯片,支持 4G/5G sub-6 技术。它是一个4nm芯片专为实现卓越的性能和能效而设计。它包括一个 1.9 GHz Cortex-A7 应用处理器。 SDX35主要特性 ■ 3GPP Rel. 17 with 5G Reduced Capability (RedCap) support. Backward compati…...
【iOS】OC高级编程 iOS多线程与内存管理阅读笔记——自动引用计数
文章目录 什么是自动引用计数 内存管理/引用计数 概要 内存管理的思考方式 自己生成的对象,自己所持有 非自己生成的对象,自己也能持有 不再需要自己持有的对象时释放 无法释放非自己持有的对象 什么是自动引用计数 自动引用计数(AR…...
网络安全-LD_PRELOAD,请求劫持
目录 一、环境 二、开始做题 三、总结原理 四、如何防护 一、环境 我们这里用蚁剑自带的靶场第一关来解释 docker制作一下即可 二、开始做题 首先环境内很明显给我们已经写好了webshell 同样我们也可以访问到 我们使用这个蚁剑把这个webshell连上 我们发现命令不能执行&am…...
GO入门之值传递于引用(指针、内存地址)传递扫盲
GO入门之值传递于引用(指针、内存地址)传递扫盲 Go 语言中,值传递和引用(指针)传递是两个关键的概念。通过案例可以很好地展示两者的区别。 值传递与引用传递的区别: 值传递:传递的是变量的副…...
【渗透测试】-vulnhub源码框架漏洞-Os-hackNos-1
vulnhub源码框架漏洞中的CVE-2018-7600-Drupal 7.57 文章目录 前言 1.靶场搭建: 2.信息搜集: 主机探测: 端口扫描: 目录扫描: 3.分析: 4.步骤: 1.下载CVE-2018-7600的exp 2.执行exp: 3.写入木…...
sqli-lab靶场学习(三)——Less8-10(盲注、时间盲注)
Less8 第八关依然是先看一般状态 http://localhost/sqli-labs/Less-8/?id1 然后用单引号闭合: http://localhost/sqli-labs/Less-8/?id1 这关的问题在于报错是不显示,那没办法通过上篇文章的updatexml大法处理。对于这种情况,需要用“盲…...
Pybullet 安装过程
Pybullet 安装过程(windows) 1. 安装C编译工具2. 安装Pybullet 1. 安装C编译工具 pybullet 需要C编译套件,直接装之前检查下,要不会报缺少某版本MVSC的error,最好的方式是直接下载visual studio,直接按默认…...
Error when custom data is added to Azure OpenAI Service Deployment
题意:在向 Azure OpenAI 服务部署添加自定义数据时出现错误。 问题背景: I receive the following error when adding my custom data which is a .txt file (it doesnt matter whether I add it via Azure Cognitive Search, Azure Blob Storage, or F…...
libreoffice word转pdf
一、准备一个word文件 运行: cd /root libreoffice --headless --convert-to pdf --outdir /root/output doc1.docx 发现中文乱码: 此时我们需要给linux 上添加中文字体: centos7 添加中文字体 再次运行正常: libreoffice --h…...
java -----泛型
泛型的理解和好处 泛型是在JDK5之后引入的一个新特性,可以在编译阶段约束操作的数据类型,并进行检查。 泛型的格式为 <数据类型> import java.util.ArrayList;SuppressWarnings({"all"}) public class Generic02 {public static void…...
Springboot 文件上传下载相关问题
文章目录 关于Springboot 文件上传下载问题解决方案注意事项文件上传文件下载文件删除文件在线打开在写练习的时候,发现了一些小小的问题,已经在 上述代码中体现。① 代码路径碰到中文的时候,会有乱码,需要转换(内容中…...
【Kotlin 与 Java 互操作】Java中调用带有默认值的Kotlin函数(十四)
导读大纲 1.0.1 Java 没有默认参数值的概念1.0.2 使用 JvmOverloads 来简化调用 1.0.1 Java 没有默认参数值的概念 因此当从 Java 调用带有默认参数值的 Kotlin 函数时 1. 必须明确指定所有参数值 fun <T> joinToString(collection: Collection<T>,separator: St…...
点赞系统实现
点赞功能是社交、电商等几乎所有的互联网项目中都广泛使用。虽然看起来简单,不过蕴含的技术方案和手段还是比较多的。 下面将分享之前做的判题OJ系统的点赞系统的思路。 1.需求分析 点赞功能与其它功能不同,没有复杂的原型和需求,仅仅是一…...
力扣热门100题之最大子数组和
最优解法:Kadane 算法(一遍遍历)核心思想遍历数组时,维护当前最大和如果前面的和是负数,只会拖累当前数,直接抛弃前面否则,把当前数加进去全程记录最大值完整代码实现:class Solutio…...
Wireshark网络协议分析与故障排查实战指南
1. Wireshark网络分析入门指南作为一名网络工程师,我使用Wireshark进行网络故障排查已有8年时间。这款开源网络协议分析器确实改变了我的工作方式,让我能够直观地"看到"网络流量。记得第一次使用Wireshark分析一个棘手的TCP连接问题时…...
嵌入式JPEG解码库JPEGDecoder深度解析
1. JPEGDecoder 库深度技术解析:面向嵌入式显示系统的轻量级 JPEG 解码实践1.1 库定位与工程价值JPEGDecoder 是一个专为资源受限嵌入式平台设计的轻量级 JPEG 解码库,其核心目标并非替代 PC 级全功能解码器,而是在 MCU 级别实现“够用、可控…...
2026届必备的十大降重复率工具实际效果
Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 当前,人工智能生成内容于各类文本里的广泛运用引发了对于原创性以及真实性的关注…...
2025届毕业生推荐的六大AI学术工具推荐榜单
Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 智能写作工具DeepSeek,于论文写作里有着显著辅助价值,用户能够输入研…...
【技术干货】Qwen 3.6 Plus 实战:用百万上下文打造“代理式”AI 编码工作流
摘要 本文从工程视角拆解 Qwen 3.6 Plus:百万 token 上下文、面向“代理式编码”的能力,以及闭源旗舰开源工具的组合策略。结合实际项目需求,给出如何通过 OpenAI 兼容 API接入该类模型,并构建仓库级代码助手的完整 Python 示例和…...
02_Neo4j知识体系之Cypher核心语法与CRUD实战
02_Neo4j知识体系之Cypher查询语言深度解析 体系 查询语言层:Cypher核心语法、CRUD操作、高级查询、路径模式、聚合分析、条件过滤、Quantified Path Patterns(QPP)关联能力:与属性图模型、索引设计、执行计划分析、图应用建模和…...
基于Matlab的分布式电源选址定容软件:优化接入点与容量,降低网损与电压越限风险
分布式电源选址定容 软件:Matlab 介绍:在改进的IEEE33节点系统中分布式电源选择最佳接入点和接入容量,以网损和电压越限惩罚为目标进行粒子群优化,能得出最佳接入点和接入容量,接入前后电压变化,基础程…...
AI Agent 时代工程范式革命全解(非常详细),Harness Engineering 从入门到精通,收藏这一篇就够了!
如果你最近在关注 AI 编程领域,一定刷到过这个词:Harness Engineering。 这个新概念正在以惊人的速度取代 Prompt Engineering 和 Context Engineering,成为 AI Agent 工程优化的正解。 今天这篇文章,我用自己的理解帮你理清楚。…...
5步解锁AMD显卡AI潜能:ollama-for-amd本地化部署全指南
5步解锁AMD显卡AI潜能:ollama-for-amd本地化部署全指南 【免费下载链接】ollama-for-amd Get up and running with Llama 3, Mistral, Gemma, and other large language models.by adding more amd gpu support. 项目地址: https://gitcode.com/gh_mirrors/ol/oll…...
