现在有一个问题:在美国东北地区,签订一份为期四年、功率为10兆瓦的电力合同,与获取1,665个英伟达“Blackwell”B200 GPU计算引擎,哪个更难?毫无疑问,答案是前者。两者的成本都在6,600万美元左右。
有趣的是,这些GPU在GB200 NVL72机架规模系统配置中实际运行时可能需要13.4兆瓦的电力,这意味着它们在四年内将消耗约88.5兆瓦的电力。如果你不需要为GPU构建一个机架规模的连贯内存域(例如,将GPU用于AI训练而非推理,后者需要数万个GPU的规模),那么你可以用两倍的空间和一半的功率密度完成相同的任务。
现代AI数据中心的另一个有趣现象是:如果你无法证明自己拥有足够的电力配额,或者你的数据中心无法支持系统的功率密度,英伟达将不会向你出售GPU。
上周在纽约纳斯达克交易所举行的金融服务业AI会议上,业内人士透露,电力公司正在努力分配其千兆瓦级的发电能力,并且在分配电力之前,越来越关注AI数据中心的电力分配和冷却方式。换句话说,如果你无法证明自己高效利用电力,你可能无法获得所需的配额,或者只能获得部分配额。
此外,运行“思维链”模型的AI系统需要GPU之间通过超低延迟的连贯内存链接进行通信,因此计算密度至关重要。在这种情况下,直接液体冷却(DLC)不仅是未来的趋势,更是当前的必要选择。然而,许多数据中心对此并不熟悉——尽管在五六十年前的IBM System/360和System/370大型机时代,液体冷却曾一度流行,但此后很长一段时间里,数据中心并未采用这种技术。
这也正是像超微(Supermicro)这样的公司必须在其GPU加速系统中大力推动直接液体冷却技术的原因。超微营销和网络安全高级副总裁Michael McNerney表示:“我们接触的所有客户都在思考,每兆瓦电力能够支持多少GPU的供电和冷却。
他们告诉我们可用的兆瓦数,并希望在此基础上最大化GPU数量。讨论的核心是GPU密度和每兆瓦电力支持的GPU数量,而不是如何节省电力成本,而是如何将更多GPU投入到AI工作负载中。”
2023年秋季,超微基于英伟达“Hopper” H100 GPU开发了第一代直接液体冷却系统(DLC-1),采用冷板技术为CPU和GPU降温。当时,人们意识到高性能计算(HPC)系统中使用多年的冷却技术需要进入AI领域的主流。
超微设计并制造了整个DLC系统,包括冷板、机架内的冷却液分配单元(CDU)以及为机架设备提供冷却水的制冷机。值得注意的是,xAI位于孟菲斯数据中心的“Colossus”系统(总计10万个H100 GPU)中,有一半(5万个H100)采用了超微的DLC-1技术,而另一半(另外5万个H100)由戴尔提供,仅采用风冷。
Colossus系统中的每个节点配备了两颗CPU和八个H100 GPU,以及八个ConnectX-7网络接口卡(每个GPU一个)、两颗低速以太网接口卡(用于系统管理)、连接GPU复合体与CPU的PCIe交换机以及其他组件。DLC-1系统使用30摄氏度的水,能够去除系统中70%以上的热量,显著提升了效率和节能效果。DLC-1的CDU额定功率为100千瓦。
然而,由于全球电力资源紧张且成本高昂,超微在本周推出了更先进的DLC-2液体冷却系统,并首次应用于Blackwell B200 GPU节点。这种新型4U节点的型号为SYS-422GS-NBRT-LCC。
DLC-2的CDU效率更高,可提供250千瓦的冷却流量,并且能够在45摄氏度的液体温度下运行,这意味着可以使用外部冷却塔而非制冷机进行冷却,从而进一步降低整体电力需求。
在B200 HGX SuperServer中,DLC-2系统不仅为两颗英特尔至强6 CPU和八个Blackwell B200 GPU配备了冷板,还为内存DIMM、PCIe交换机、电源和电压调节器提供了冷板,直接去除这些组件的热量。
而在今年晚些时候推出的HGX B300系统中,ConnectX-7及后续网络接口卡也将采用液体冷却,届时系统98%的热量将通过液体而非空气排出。事实上,B300节点仅配备了两个小型风扇,噪音极低。
采用DLC-2冷却的GPU系统比两年前完全风冷的HGX H100系统节省了40%的冷却电力。同时,使用DLC-2的机架能效比(PUE)也将大幅降低。传统企业数据中心的机架PUE通常在1.6至2.0之间,这意味着机架消耗的电力是计算单元的1.6至2倍,额外的电力用于冷却。
而DLC-1将PUE降至1.2,DLC-2的目标是极低的1.02。此外,DLC-2机架的噪音水平从DLC-1的75分贝降至50分贝左右(正常对话约为60分贝,繁忙交通噪音约为85分贝,摇滚音乐会约为120分贝,飞机起飞时的噪音约为140分贝)。
要想进一步提升AI系统的冷却效率,唯一的方法是将其浸入矿物油或其他不损坏计算机组件的冷却液中——但这是一种非常“沉重”的解决方案。
原文链接:https://www.nextplatform.com/2025/05/15/pushing-ai-system-cooling-to-the-limits-without-immersion/