当前位置: 首页 > news >正文

AI服务器散热黑科技:让芯片“冷静”提速

AI 服务器为何需要散热黑科技

在人工智能飞速发展的当下,AI 服务器作为核心支撑,作用重大。从互联网智能推荐,到医疗疾病诊断辅助,从金融风险预测,到教育个性化学习,AI 服务器广泛应用,为各类复杂人工智能应用提供强大算力。

然而,AI 服务器在运行时面临着严峻的散热挑战。随着人工智能技术的不断发展,对 AI 服务器的计算能力要求越来越高,这使得服务器的功率密度急剧增加 。以 GPT-4 的训练为例,它需要大量的 GPU 芯片协同工作,而这些芯片在运行过程中会产生巨大的热量。据相关数据显示,一块英伟达 A100 GPU 功耗为 400 瓦,GPT-3 训练用到了 1024 块 A100 芯片,而 GPT-4 更攀升至 25000 块 ,如此庞大的芯片数量和高功耗,使得散热问题成为了 AI 服务器运行的关键难题。

传统散热方式难以满足 AI 服务器高散热需求,以风冷散热为例,靠风扇吹冷空气散热,随着 AI 服务器功率密度提升,其效率不足,还存在噪音大、散热不均等问题。此时,散热黑科技至关重要,成为保障 AI 服务器稳定运行与提升性能的关键。

风冷技术的局限

在了解 AI 服务器的散热黑科技前,先看传统散热方式及其困境。风冷是常见散热方式,广泛用于电子设备。其系统由散热器、风扇、散热风道和温度传感器等组成。设备运行产热传导到散热器,风扇引入外界空气,空气流经散热器吸热后排出,实现设备冷却。

AI 服务器发展早期,风冷因结构简单、成本低、维护方便,能满足一定散热需求。但随着 AI 技术发展,AI 服务器功率密度剧增,风冷局限性凸显。如主流 AI 服务器内 GPU 芯片多,单颗芯片功耗攀升,像英伟达 H100 芯片热设计功耗达 700W,高功率密度产热多,风冷散热能力有限。

风冷散热能耗也高,风扇高速运转耗电,传统风冷散热数据中心中,冷却系统电力能耗占比达 40%,仅次于 IT 设备能耗,且风机转速超 4000 转时,转速增加对散热改善不明显,还会增能耗和噪音。

此外,风冷散热易在服务器机架和内部产生局部热点。因缺乏合适空气流量控制系统,空气流动不均,导致部分区域热量难散发,形成局部高温,影响服务器硬件性能,加速硬件老化损坏,降低可靠性和稳定性。

对 AI 服务器性能的制约

过热对 AI 服务器性能有多方面制约。硬件性能会下降,芯片过热自动降频,像深度学习训练时 GPU 芯片过热降频,会使计算速度大降,拖慢工作效率和项目进度;还会影响硬件寿命,高温加速芯片内电子元件老化,内存、硬盘等硬件性能和寿命也受影响,有数据读写错误、数据丢失风险;甚至可能引发硬件故障导致数据丢失,给依赖 AI 服务器运营关键业务的企业造成巨大经济损失和客户信任危机。

液冷技术:散热新宠

面对 AI 服务器散热挑战,液冷技术成为散热新宠。它用液体替代空气作冷媒为发热部件换热散热。与传统风冷比,液冷有散热效率高、控温精准、温度均匀、噪音低、兼容性强等优势。目前主要有冷板式、浸没式、喷淋式三种液冷类型,各有独特工作原理和应用场景。

冷板式液冷:兼容性与维护性的优势

冷板式液冷是常见液冷技术,工作原理是将液冷冷板固定在 CPU、GPU 等主要发热器件上,液体流经冷板带走热量,冷板由铜、铝等高导热金属构成,冷却液在封闭管路循环,将热量散发到外部环境。

冷板式液冷在兼容性和维护性上优势明显。兼容性方面,改造成本低,无需大规模改造机房及机柜,适用服务器部件与风冷一致,运维模式、机房承重也和风冷场景基本一致,能快速应用于 AI 服务器散热。维护性方面,易开展维护设计,可在线维护,冷却液不与设备直接接触,降低液体泄漏损坏设备风险,风机转速降低,噪声约 70dB,比传统风冷噪音明显降低。

在标准高密度数据中心,冷板式液冷应用广泛,解决了服务器散热问题,提高运行效率和可靠性。2021 - 2022 年,冷板式液冷数据中心市场占液冷数据中心市场比例超 90%,预计 2027 年占比约 89% ,未来五年仍将是行业主流。

浸没式液冷:超高密度数据中心的首选

浸没式液冷将服务器发热元器件浸没在冷却液中,借冷却液对流或相变带走热量,按冷却介质是否相变分为单相和双相。单相常用高沸点液体,如碳氢化合物、硅基油,吸热后保持液态,无需气密封装。双相冷却液受热会相变,能利用相变潜热高效散热,常用氟化液。

浸没式液冷散热效率高,能满足超高密度数据中心需求,像英伟达 DGX A100 服务器,传统风冷难散热,浸没式液冷成 “必选”,可全方位散热,提升服务器性能和可靠性。

不过,它也有潜在风险,冷却液质量不佳或泄漏会损坏电子元件,维护维修较复杂。但随着技术发展,问题正逐步解决,如研发优质冷却液,优化系统设计提升可维护性。

喷淋式液冷:特定场景下的应用前景

喷淋式液冷是将冷却液通过喷淋的方式淋在服务器的散热元件上,带走服务器产生的热量 。它的原理类似于人工降雨,在发热元件上方储液、开孔,通过动力设备对发热元件全体喷淋,有些沸点低的液体甚至会 “自我牺牲”(蒸发)带走热量,没有被蒸发的液体则顺流回到外部冷却系统降温后准备再次施招 。

喷淋式液冷在特定场景下具有一定的应用前景。它能够实现对服务器所有元件的全面散热,散热效果明显提升,具有 “AOE 伤害(范围散热)” 的特点,所有元件都能 “雨露均沾” 。在一些对散热要求较高且空间相对较大的场景中,喷淋式液冷可以发挥其优势,有效地降低服务器的温度。然而,喷淋式液冷也面临着一些挑战。目前,喷淋式液冷技术的成本相对较高,需要投入较大的资金用于设备购置和维护。而且,要实现均匀喷淋,对设备的设计和调试要求较高,需要考验各家的技术功力 。此外,喷淋式液冷还可能会出现冷却液飘溢问题,影响机房及设备环境,需要采取相应的措施加以解决。

数据中心的节能与性能提升

散热黑科技对数据中心节能与性能提升效果显著。该图是我们自主研发的服务器,就采用了液冷技术,搭载了英伟达4090 24G 显卡和一颗英特尔至强 8352V  CPU,以及定制的全塔式液冷机箱,能耗上,传统风冷散热的数据中心冷却系统电力能耗占比达 40%,采用这款液冷服务器的数据中心冷却系统能耗大幅降低,价格也不贵,实现了绿色节能。算力密度上,液冷技术使数据中心能容纳更高功率密度服务器,超算中心采用液冷技术后,单机柜功率密度从 20KW 提升至 40KW 以上,满足更多复杂计算任务需求,为相关领域发展提供强大算力支持。经济效益上,液冷技术等初期投入高,但长期运营成本低,可减少冷却能耗和服务器硬件损坏率,降低维修成本,采用液冷技术的数据中心在服务器使用寿命周期内可节省约 30% 运营成本 ,提升企业竞争力。

相关文章:

AI服务器散热黑科技:让芯片“冷静”提速

AI 服务器为何需要散热黑科技 在人工智能飞速发展的当下,AI 服务器作为核心支撑,作用重大。从互联网智能推荐,到医疗疾病诊断辅助,从金融风险预测,到教育个性化学习,AI 服务器广泛应用,为各类复…...

数据结构-栈、队列、哈希表

1栈 1.栈的概念 1.1栈:在表尾插入和删除操作受限的线性表 1.2栈逻辑结构: 线性结构(一对一) 1.3栈的存储结构:顺序存储(顺序栈)、链表存储(链栈) 1.4栈的特点: 先进后出(fisrt in last out FILO表),后进先出 //创建栈 Stacklist create_stack() {Stacklist lis…...

安装海康威视相机SDK后,catkin_make其他项目时,出现“libusb_set_option”错误的解决方法

硬件:雷神MIX G139H047LD 工控机 系统:ubuntu20.04 之前运行某项目时,处于正常状态。后来由于要使用海康威视工业相机(型号:MV-CA013-21UC),便下载了并安装了该相机的SDK,之后运行…...

【鸿蒙】ArkUI-X跨平台问题集锦

系列文章目录 【鸿蒙】ArkUI-X跨平台问题集锦 文章目录 系列文章目录前言问题集锦1、HSP,HAR模块中 无法引入import bridge from arkui-x.bridge;2、CustomDialog 自定义弹窗中的点击事件在Android 中无任何响应;3、调用 buildRouterMode() 路由跳转页面前&#xf…...

大模型驱动的业务自动化

大模型输出token的速度太低且为统计输出,所以目前大模型主要应用在toP(人)的相关领域;但其智能方面的优势又是如此的强大,自然就需要尝试如何将其应用到更加广泛的toM(物理系统、生产系统)领域中…...

ocr智能票据识别系统|自动化票据识别集成方案

在企业日常运营中,对大量票据实现数字化管理是一项耗时且容易出错的任务。随着技术的进步,OCR(光学字符识别)智能票据识别系统的出现为企业提供了一个高效、准确的解决方案,不仅简化了财务流程,还大幅提升了…...

[数据结构]红黑树,详细图解插入

目录 一、红黑树的概念 二、红黑树的性质 三、红黑树节点的定义 四、红黑树的插入(步骤) 1.为什么新插入的节点必须给红色? 2、插入红色节点后,判定红黑树性质是否被破坏 五、插入出现连续红节点情况分析图解(看…...

【机器学习】超参数调优指南:交叉验证,网格搜索,混淆矩阵——基于鸢尾花与数字识别案例的深度解析

一、前言:为何要学交叉验证与网格搜索? 大家好!在机器学习的道路上,我们经常面临一个难题:模型调参。比如在 KNN 算法中,选择多少个邻居(n_neighbors)直接影响预测效果。 • 蛮力猜…...

Burp Suite基本使用(web安全)

工具介绍 在网络安全的领域,你是否听说过抓包,挖掘漏洞等一系列的词汇,这篇文章将带你了解漏洞挖掘的热门工具——Burp Suite的使用。 Burp Suite是一款由PortSwigger Web Security公司开发的集成化Web应用安全检测工具,它主要用于…...

React实现自定义图表(线状+柱状)

要使用 React 绘制一个结合线状图和柱状图的图表,你可以使用 react-chartjs-2 库,它是基于 Chart.js 的 React 封装。以下是一个示例代码,展示如何实现这个需求: 1. 安装依赖 首先,你需要安装 react-chartjs-2 和 ch…...

从低清到4K的魔法:FlashVideo突破高分辨率视频生成计算瓶颈(港大港中文字节)

论文链接:https://arxiv.org/pdf/2502.05179 项目链接:https://github.com/FoundationVision/FlashVideo 亮点直击 提出了 FlashVideo,一种将视频生成解耦为两个目标的方法:提示匹配度和视觉质量。通过在两个阶段分别调整模型规模…...

Qt的QTabWidget的使用

在PyQt5中,QTabWidget 是一个用于管理多个选项卡页面的容器控件。以下是其使用方法的详细说明和示例: 1. 基本用法 import sys from PyQt5.QtWidgets import QApplication, QMainWindow, QTabWidget, QWidget, QLabel, QVBoxLayoutclass MainWindow(QMa…...

Next.js【详解】获取数据(访问接口)

Next.js 中分为 服务端组件 和 客户端组件&#xff0c;内置的获取数据各不相同 服务端组件 方式1 – 使用 fetch export default async function Page() {const data await fetch(https://api.vercel.app/blog)const posts await data.json()return (<ul>{posts.map((…...

反向代理模块kd

1 概念 1.1 反向代理概念 反向代理是指以代理服务器来接收客户端的请求&#xff0c;然后将请求转发给内部网络上的服务器&#xff0c;将从服务器上得到的结果返回给客户端&#xff0c;此时代理服务器对外表现为一个反向代理服务器。 对于客户端来说&#xff0c;反向代理就相当于…...

leaflet前端初始化项目

1、通过npm安装leaflet包&#xff0c;或者直接在项目中引入leaflet.js库文件。 npm 安装&#xff1a;npm i leaflet 如果在index.html中引入leaflet.js,在项目中可以直接使用变量L. 注意:尽量要么使用npm包&#xff0c;要么使用leaflet.js库&#xff0c;两者一起使用容易发生…...

CMS DTcms 靶场(弱口令、文件上传、tasklist提权、开启远程桌面3389、gotohttp远程登录控制)

环境说明 攻击机kali:192.168.111.128 信息收集 主机发现 ┌──(root㉿kali-plus)-[~/Desktop] └─# nmap -sP 192.168.111.0/24 Starting Nmap 7.94SVN ( https://nmap.org ) at 2024-11-23 14:57 CST Nmap scan report for 192.168.111.1 Host is up (0.00039s latenc…...

Docker 入门与实战:从安装到容器管理的完整指南

&#x1f680; Docker 入门与实战&#xff1a;从安装到容器管理的完整指南 &#x1f31f; &#x1f4d6; 简介 在现代软件开发中&#xff0c;容器化技术已经成为不可或缺的一部分。而 Docker 作为容器化领域的领头羊&#xff0c;以其轻量级、高效和跨平台的特性&#xff0c;深…...

git删除本地分支

一、命令方式 1、查看本地分支 git branch 2、切换到一个不删除的分支 git checkout branch_name 3、强制删除分支 git branch -D local_branch_name 二、工具方式 1、选择"Browse references"&#xff0c;右键"Delete branch"...

spring cloud gateway限流常见算法

目录 一、网关限流 1、限流的作用 1. 保护后端服务 2. 保证服务质量 (QoS) 3. 避免滥用和恶意攻击 4. 减少资源浪费 5. 提高系统可扩展性和稳定性 6. 控制不同用户的访问频率 7. 提升用户体验 8. 避免API滥用和负载过高 9. 监控与分析 10. 避免系统崩溃 2、网关限…...

本地使用docker部署DeepSeek大模型

1、相关技术介绍 1.1、RAG RAG&#xff08;Retrieval Augmented Generation&#xff09;&#xff0c;即“检索&#xff0c;增强&#xff0c;生成”&#xff0c;用于提升自然语言处理任务的性能。其核心思想是通过检索相关信息来增强生成模型的能力&#xff0c;具体步骤如下&am…...

可靠性+灵活性:电力载波技术在楼宇自控中的核心价值

可靠性灵活性&#xff1a;电力载波技术在楼宇自控中的核心价值 在智能楼宇的自动化控制中&#xff0c;电力载波技术&#xff08;PLC&#xff09;凭借其独特的优势&#xff0c;正成为构建高效、稳定、灵活系统的核心解决方案。它利用现有电力线路传输数据&#xff0c;无需额外布…...

WordPress插件:AI多语言写作与智能配图、免费AI模型、SEO文章生成

厌倦手动写WordPress文章&#xff1f;AI自动生成&#xff0c;效率提升10倍&#xff01; 支持多语言、自动配图、定时发布&#xff0c;让内容创作更轻松&#xff01; AI内容生成 → 不想每天写文章&#xff1f;AI一键生成高质量内容&#xff01;多语言支持 → 跨境电商必备&am…...

全志A40i android7.1 调试信息打印串口由uart0改为uart3

一&#xff0c;概述 1. 目的 将调试信息打印串口由uart0改为uart3。 2. 版本信息 Uboot版本&#xff1a;2014.07&#xff1b; Kernel版本&#xff1a;Linux-3.10&#xff1b; 二&#xff0c;Uboot 1. sys_config.fex改动 使能uart3(TX:PH00 RX:PH01)&#xff0c;并让boo…...

Map相关知识

数据结构 二叉树 二叉树&#xff0c;顾名思义&#xff0c;每个节点最多有两个“叉”&#xff0c;也就是两个子节点&#xff0c;分别是左子 节点和右子节点。不过&#xff0c;二叉树并不要求每个节点都有两个子节点&#xff0c;有的节点只 有左子节点&#xff0c;有的节点只有…...

Go 并发编程基础:通道(Channel)的使用

在 Go 中&#xff0c;Channel 是 Goroutine 之间通信的核心机制。它提供了一个线程安全的通信方式&#xff0c;用于在多个 Goroutine 之间传递数据&#xff0c;从而实现高效的并发编程。 本章将介绍 Channel 的基本概念、用法、缓冲、关闭机制以及 select 的使用。 一、Channel…...

【C++】纯虚函数类外可以写实现吗?

1. 答案 先说答案&#xff0c;可以。 2.代码测试 .h头文件 #include <iostream> #include <string>// 抽象基类 class AbstractBase { public:AbstractBase() default;virtual ~AbstractBase() default; // 默认析构函数public:virtual int PureVirtualFunct…...

32单片机——基本定时器

STM32F103有众多的定时器&#xff0c;其中包括2个基本定时器&#xff08;TIM6和TIM7&#xff09;、4个通用定时器&#xff08;TIM2~TIM5&#xff09;、2个高级控制定时器&#xff08;TIM1和TIM8&#xff09;&#xff0c;这些定时器彼此完全独立&#xff0c;不共享任何资源 1、定…...

机器学习的数学基础:线性模型

线性模型 线性模型的基本形式为&#xff1a; f ( x ) ω T x b f\left(\boldsymbol{x}\right)\boldsymbol{\omega}^\text{T}\boldsymbol{x}b f(x)ωTxb 回归问题 利用最小二乘法&#xff0c;得到 ω \boldsymbol{\omega} ω和 b b b的参数估计$ \boldsymbol{\hat{\omega}}…...

leetcode_69.x的平方根

题目如下 &#xff1a; 看到题 &#xff0c;我们最原始的想法就是暴力解决: for(long long i 0;i<INT_MAX;i){if(i*ix){return i;}else if((i*i>x)&&((i-1)*(i-1)<x)){return i-1;}}我们直接开始遍历&#xff0c;我们是整数的平方根&#xff0c;所以我们分两…...

如何做好一份技术文档?从规划到实践的完整指南

如何做好一份技术文档&#xff1f;从规划到实践的完整指南 &#x1f31f; 嗨&#xff0c;我是IRpickstars&#xff01; &#x1f30c; 总有一行代码&#xff0c;能点亮万千星辰。 &#x1f50d; 在技术的宇宙中&#xff0c;我愿做永不停歇的探索者。 ✨ 用代码丈量世界&…...