服务器 频道

数据中心液冷技术发展趋势与分析

  近日,在由CDCC主办的第11届数据中心标准大会上,CDCC数据中心液冷技术研究员高山渊先生发表了主题为《数据中心液冷技术发展趋势与分析》的演讲,根据演讲内容整理下文,供数据中心行业内的广大读者参考。

  本次分享内容主要包括四个部分:一是讲数据中心为什么需要液冷?二是为什么现在液冷会成为一个趋势?三是现状与挑战。最后是关于未来的展望。

  01 数据中心为什么需要液冷?

  数据中心作为基础设施越来越重要,什么样的基础设施能够保证社会经济高速发展,实际是今天我们做数据中心基础设施的人面临的一个最大挑战。如果把数据中心需要的散热能力和人做一个类比,人作为万物之灵长能从自然界脱颖而出,成为主宰这个地球的生物,有很多的因素造成。包括有聪明的大脑、直立行走的形态,还有不被关注到的能力,就是我们拥有地球上所有生物里面最强大的散热能力。这个散热能力体现在哪些方面呢?我们做一个类比,奔跑最快的动物一般说是猎豹,时速达到110-120公里的速度。但是,猎豹这个速度只能维持几十秒时间,之后它会因为整个身体热量累积就会降速,人的爆发力没有这么好,但是持续巡航能力非常强。  

  刚过去的季节正好是全国很多地方举办马拉松大赛的黄金季节,为什么选择在秋季呢?其中一个很大的因素是,自然环境气温比较舒适,人在奔跑过程中产生很多的热量可以及时散发掉。一般经过专业训练的运动员他们追求两个小时跑完马拉松,大众跑者需要三个、四个、五个小时,可以拥有这么长时间的持续巡航能力,保持稳定的功率输出,这对于人体长期的身体健康非常重要。

  再比如,我们在思考的时候,经常觉得会头脑发热,头脑一热就直流汗,脑袋作为人体最重要的思考器官,它的功率密度最高,虽然只有区区24W,但人体配备了非常多的相关散热手段,比如有发达的汗腺、颈部有很多血管,这些起到很重要的散热作用,是保证大脑稳定工作的基础环境。

  对应数据中心来说,具有类似的道理。我们选择数据中心建设的时候,肯定希望找一个气候适宜的地方去建数据中心,让PUE更优一些。散热技术选择自然风冷,今天功率的增大考虑用液冷技术来高效散热。人如果在很热环境里会吹空调、扇扇子,如果还不行可能去冲个澡,有人喜欢喷淋冷水澡,有人喜欢泡澡,这些都是很好的散热方式,这和数据中心的散热很类似。  

  人体很重要散热的配套循环,核心是满足大脑散热要求。大脑工作的范围要求非常窄,人正常体温36度多,37多就头晕脑胀,思考迟钝了,小孩发烧超过38度,39度,如果不及时降温处理就会落下终身残疾。人的大脑适应范围非常窄,数据中心同样,适应范围也是非常窄。我们平常风冷环境,20多度进风到28度就是高温服务器了,怎么样保证IT设备,特别是高功率芯片合适的工作温度,让它像大脑一样高速运转,又不因为过热导致性能下降。

  所以,讨论数据中心液冷的时候更多的是我们怎么把同样优秀的散热能力给到核心部件,也就是高功率的CPU、GPU这些部件,是以IT设备为主的。这个图上所谓的内循环的部分是核心,是要解决的难点。

  为什么需要液冷?传统上大家觉得风冷挺好,特别是数据中心行业的人做风冷相关技术,不管是做冷源还是做IT间的散热技术,做设计模拟各方面都非常熟悉,但是到了今天为什么从服务器的角度一定需要液冷,从三个方面来阐述。  

  一是服务的客户需要。IT技术发展的需要已经触达了风冷相关散热技术的瓶颈。今天的风冷可以解决一定功率的单机散热能力,对A100、H100几百瓦GPU也可以去满足散热要求,再高就应该用到液冷,为什么?CPU相对来讲到了350W的节点,用风冷还是可以解决的。对于GPU很多场景,明显已经知道风冷举步维艰,比如说最新的H100 GPU、AMD的MI300功耗都达到700W,虽然是可以用风冷搞定的,但是会带来很多其他问题:风冷解决散热的时候会付出很多努力,很大一部分会转化成散热上的功耗,这个散热功耗会占多大呢?一般来讲在传统CPU服务器里大概占10%,在GPU服务器里面散热功耗大概占到30%。也就是说,数据中心好不容易把PUE从1.5降到1.3、1.2、1.1,但是对不起,GPU上来了,一下子占了30%,省的能耗全被它的散热消耗掉了,工作成效就大打折扣。

  可以看看英伟达得出的结论,A100、H100用液冷能耗降低30%,整个机构里面散热部分把30%能耗省掉了。反过来讲,如果有了多30%的能耗,是不是可以提供多30%的算力出来呢?这是一个很有意思的话题。

  二是数据中心节能需要。首先对于企业来讲,低PUE意味着更低的运维成本,同时低的PUE在符合国家要求的基础上意味着整个在能耗指标获取,电力资源获取,被充分利用方面有非常大的优势。简单的例子,如果在很多南方的地方,电费加上整个PUE,比如说今天优化得很好,1.3或1.2多,非常优秀,努力做到了这样一个值。但是这意味着去做数据中心的时候就要有30%的电力用到散热上,对IT来讲就是有30%用不到,如果我们能够把PUE降到1.1,意味着可以的多出20%电力或者能耗指标,给到IT去用。不管是对终端客户自建自用,还是数据中心行业服务商,都意味着更高的产出比,这是非常大的提升。

  三是国家政策要求。这里不详述。技术是核心驱动力,节能对企业意味着更低运维成本,更高资源利用率,对国家要求也能满足,项目可以去开展。

  02 为什么现在液冷成为趋势?  

  为什么现在正是需要液冷的时候?现在这个时间节点大家觉得液冷特别热,今年最热的是ChatGPT大模型,很多企业推出大模型,每家企业最后都预测一件事,AI会成为未来创新的平台。NV说今天处于AI的Iphone时刻,就是手机智能化前沿的那么一个时间点,今天的AI时间点和Iphone诞生的时间点一样,我们所有的应用和场景可能都会因为AI的出现被重构。华为说AI for All,第四范式说以数据密集型计算探知未来,阿里云说AI大模型将成为云计算的第三次浪潮。

  今天很多人或多或少用到了AI,今天整个产业还是在探索AI未来会在哪些场景有应用。对于未来大家有一个判断,如果今天去训练用一倍的算力,未来AI产业成熟需要推理要用6倍算力完成整个AI产业的重构,这样就导致今天大家已经看到了大模型带来的GPU热,只是这个浪潮第一波小浪,后面还有大浪会到来。

  我个人的判断,AI今天正在从大模型研发热到大模型大规模应用的前沿时刻。为什么需要液冷,大家会讲既然GPU 700W或者750W用风冷可以搞定,那么浪费点能源也可以。我们把芯片用起来需要什么样的过程?第一步肯定要解决芯片散热的问题。  

  可以看到左边是H100的照片,中间是AMD的MI300图片。散热片的厚度,大家有没有人去关注过,散热片配套带来对整个管理运维复杂度的挑战。H100的8卡机器是非常重的,可能有60%重量就在散热片上,这都是一些挑战。所以,今天700W能搞定,下一代做1000W的芯片能不能搞定,怎么去搞定,都是大家需要去讨论的问题。

  从芯片到整机,10.2kW服务器,整个机架散热能力又是一个挑战,30kW搞定之后,整个密度就会受到比较大的影响,一个机架今天搞定10.2kW,加上交换机,整机柜2-45kW。单机8U左右,整个机柜空间占得满满,这样的条件下整个空间利用率是不经济的。用液冷可以减重去噪音,很多时候机房人员最忍受不了的,最直观可见的一个污染源就是噪音。有些服务器设计不好,单机噪音达到90分贝以上,这是什么概念?和人站在飞机后面听到飞机起飞的声音一样,如果不戴防护措施可能会损伤听力。

  到了整机就要把它放到数据中心里面去,我们看到单机柜40kW需要这样的能力。另外一个问题,有些人说数据中心没有办法做到那么高的功率密度,只能一个柜子做10kW最多了,当然也可以。但带来另一个挑战是整个面积占了很多,并且大大增加了连接成本。我们知道今天去做高性能算力全部用IB的网络,后面缆线长度非常宝贵,多长1米要付出非常多的成本,选择液冷可以大规模降低互联的长度,包括把互联用光转化成用铜缆,可以大幅度降低支出。

  03 现状与挑战

  到了今天的场景,液冷有很多的流派,很多的厂商提供所谓的解决方案,但是每家提供的层次是不一样的,有的人能够提供系统的解决方案,包括从DC开始到冷却液,到IT设备一整套方案。有些只能提供IT解决方案,对于冷板技术天生就应该由服务器厂商提供一个系统解决方案,但是把DC的解决方案交给DC厂商去做就好了。对于浸没式或者喷淋,天生需要完整的解决方案,才能让产业落地。  

  企业要想真的去大规模部署液冷,实际它有一些动力,总结下来就是成本、发展的机会、合规。它要承担的风险更高一些,比如说稳定性风险,冷板会不会漏液,浸没会不会腐蚀芯片,芯片可比数据中心贵多了。成本风险,以前投的数据中心能不能继续利用。迁移成本也非常高,CDCC正在努力制定液冷标准,包括浸没式还有冷板,整个标准出台需要一定时间,需要大家共同参与。另外,包括可运维性、生态和技术支持等都是挑战。因为时间关系,在此不进行赘述。

  04 未来展望  

  关于未来展望,前面我讲到了下一代的芯片,这一代是700W,下一代很可能会突破1000W,对1000W的散热到底用什么技术,这是各家厂商都要重点突破的一点。

  可以看到,有很多人号称提供了比如说对1000W的TDP支持的解决方案,包括单柜可以做到100kW的解决方案,还有冷板是不是能够尽量多去覆盖整个的散热需求。传统上大家觉得冷板处理掉60%、70%的散热已经非常好了,今天你还是要尽可能多用同一套技术去解决散热需求,所以冷板的覆盖面也是非常重要的。

  再有,资源换性能。特别是在买不到先进的计算芯片时候,怎么去解决同样算力需求增长的客观存在,可能需要我们用资源去换。包括两个方面,一是更强大的散热能力,通过增大功耗,增大散热能力提高更大单芯片的能力。二是通过更多芯片堆叠解决整个集群算力的要求,资源换性能,或者散热换性能。

  这半年产业成熟度大幅度提升了,短期冷板肯定会迎来较快发展,中期我更看好浸没式液冷。今天对数据中心来讲,短期大家都会去考虑风液混合的解决方案,未来可能会以液冷为主。

  最后是规模。大家肯定会关注什么时候能像我说的那样去长大,规模取决于你的应用什么时候长大,今天只是训练热,未来会是推理更热。如果所有应用最后都AI化之后,整个AI对于液冷的路径就是从AI训练到AI推理,到最后所有的应用可能都需要液冷。

  电信运营商三年愿景,是非常好的一个行业标杆,也给行业释放了非常好的信号。互联网大厂都在各条路上积极探索。液冷已经落地了很多场景,包括边缘数据中心、5G通信基站已经有非常多的成熟应用,也会让这个产业因为这些场景应用快速成熟。

0
相关文章