服务器 频道

揭秘液冷技术在气象超算中心的应用实践

  01 气象超算发展

  气象部门是较早且主应用超算的行业之一。从上图可以看出,90年代初气象部门已经开始将超算用于天气预报进行数据处理和分析。从最初CDC的赛博系列992到1994年左右引进962这套超算。后续将近30年时间,大概已经陆续建设了30多台套超算系统。2000年以前基本上都是小型的模式和程序,从2004年开始用大的集约化超算运行。

  超算的稳定运行主要得益于供电和制冷。除了高压直流供电,其他技术发展相对较慢,主要以UPS供电为主。核心制冷技术是保障超算运行的关键因素。

  02 主要制冷技术  

  2003年以前国家气象信息中心所有超算都采用氟利昂空调风冷方式提供制冷,无论多大规模都使用这种方式,基本没有变化。2009年后开始逐渐引入冷凝水空调。2013年引进一套超算系统,采用水冷背板技术,大约用了10年时间,2013年到去年4月份刚刚停机10年时间。从2017年开始到现在为止建了五六台套超算,基本使用的冷板式液冷技术。

  03 液冷应用情况

  在制冷方式上,2013年以前基本都使用氟利昂空调的制冷方式。当时氟利昂空调的保障给我们带来很大压力。2004年IBM的1600一套超算系统,单机柜的额定功耗54kW,实际功耗达到27kW。我们硬生生用氟利昂空调保障它用了8年时间,其间没有出现任何故障,过程非常痛苦。从2013年开始,一套IBM P460超算系统已经开始用水冷背板技术,这套设备去年4月份刚刚停机,应用过程中优点很明显。

  2017年至去年,我们建立了三套超算系统,全部应用冷板技术。从实际使用中可以看出,最初的氟利昂空调PUE最理想的水平是在1.6-1.7之间,这是最极限的情况。2014年开始使用冷板后PUE降至1.4以下,目前基本可以达到1.2的水平。随着超算制冷技术的不断发展,未来节能趋势越来越明显,主要体现在液冷技术上。

  04 气象信息中心超算制冷案例  

  2013年建立的IBM P460超算系统采用水冷背板技术,虽然当时技术较为先进,但是液冷技术概念尚未成熟。其次,它解决了高密度机柜的运行稳定性问题。图中北边是9台CDU,采用一次测分离方式对外一次测量,用风冷冷水机组提供7℃冷水,对内提供15℃冷水,为超算水冷背板提供冷却水。图片右侧水冷背板图片显示,水管密布,水温为15℃,这是我们设定的标准温度。关闭水冷背板后,进出风能够维持在20℃,无需冷通道封闭,回风直接到前方,每个机位实现自我循环,制冷效率较高。

  打开机柜之后右侧的图片进风20℃,打开机柜去掉水冷背板出风25℃。水冷背板可以将45℃的热空气直接降到20℃回到前部,形成一个独立的小循环。这个系统运行起来确实非常稳定,主要表现在以下特点。

  1、运行稳定,进出风温度相同,制冷效果较高。年均测量基本在1.4以下或者是左右。

  2、机柜采用标准42U机柜,只是将后背门更换为水冷背板,适应性非常广泛,几乎所有风冷服务器都能满足水冷背板的使用需求。相对冷板式和浸没式液冷技术,虽然不需要对服务器端做出改善,但是可以有效提升制冷效率。1.4仍然采用风冷式冷水机组,没有采用自然冷却方式的情况下,将其换成冷却塔的方式,加上采用自然冷却的方式,做到1.3以下比较现实。

  该系统具有非常独到的有点,但当时无论是CDU还是水冷背板均是英国原装进口产品,同时结合的管件造价成本比较高,缺点也非常明显。  

  第一次使用冷板式液冷技术是2017年,当时建立了一套派超算系统,建成后8P的超算,计算能力为8000万英次。单机柜额定功耗为50kW,实际功耗测量为22kW,这是标准运行功耗,总功耗为2200kW。总共有4P、4P两套,第一套是风冷,北边四排使用风冷,使用氟利昂空调,由于时间限制液冷无法实现,因此二期南边采用冷板式液冷技术。从实际运行到现在已经用了7年多时间,在这7年多的时间里确实有几次出现过小问题,环境温度达到40℃,整体冷板式液冷系统运行非常平稳。冷板液冷的图片结构非常简单,高温水系统包括冷却塔+水泵+ CEDM,以及机柜整个服务器垂直水平的板等内容,整个部件非常少,耐用度非常高。从运行到现在为止,高温水系统几乎没有出现过大故障,甚至个别硬件损坏都很少,水泵和冷却塔的运行可靠性都是最高的。因此从运行到现在7年、8年时间,无论从节能效果上,还是从运维投入上,甚至包括运维人力投入上,我认为相对于其他制冷技术可以非常低,体现出它经济性的优势。

  也有相应的缺点,主要是以下两点:

  1、这需要高温水和低温水两套水系统交错在一起,前期需要通过BIM建模合理规划水管管路,否则实施难度大。

  2、建设成本较高,无论大小高温水还是低温水都需要建设两套系统,即8组管路和相关阀门。我认为这与运行稳定性、后期运维经济性相比具有较大优势。  

  2023年我们依托大型项目在北京建立了26P的超算系统,这个超算系统的所有机柜采用冷板式液冷技术。冷板式液冷系统绝大多数在水管分配和冷量计算上进行两项工作。这两项工作是用户方在建设过程中投入最多的,实际情况是投入精力后取得的效益最明显。这两部分相对而言在设计建设时完成,后续运维确实能够提供很好的便利性。

  2023年系统从去年4月份开始运行至今已经1年多时间,期间我们发现一些问题。尤其是气象部门应用超算有较大特点,目前主要服务对象是数值预报模式,即天气预报通过数值模拟方式计算每天的天气情况。在此过程中大部分使用计算能力即CPU,对于GPU等其他类型的异构架构使用较少。CPU架构建成之后与2017年的派超算对比,我们发现经过六七年时间,尤其CPU侧,整个计算节点设备单位功耗性能提升有限。同样计算能力,2017年的功耗和去年建的功耗基本相同。之前行业内经常提到摩尔定律基本失效,几年翻倍,CPU计算到了瓶颈,很难提高制程,几纳米或者提高架构设计来提升能效比。这代表CPU超算建的规模和功耗几乎成正比,未来一段时间发展很难有更好的提升,制约CPU建成之后运行的功率会很大。对于现有机房空间,电力供应上,包括室外需求上,造成较大影响。  

  室外设施情况,从上图右下角的楼可以看到,这栋楼是业务楼和办公楼结合在一起。当时为了建立超算系统,已经占用了很多预留的管道,再建超算系统后,发现无法放下任何东西,管路都走到室外,对大楼施工和安全性的影响都比较大。  

  2023年,我们在和林格尔建立了一套20P超算系统,与26P相同,只是前面提到的楼无法放下,经过多方调研后放到和林格尔。这栋楼从管道、规模等比例进行了调整。该项目从6月开始挖第一锹土,到12月超算开机运行,共计183天时间。该项目从一片平地到超算投入运行,被当地和林格尔新区政府评为基建最快速度。

  我们通过各方面的努力,用6个月时间将超算中心从无到有建成并且开始运行,1月份开始支撑所有数值预报模式的运行,目前取得了较好的效果  

  我们在西安建立了一套小型超算2 P,作为异地备份中心。格林贝尔和北京两个都是高级的超算系统。为了实现灾备,我们选择在西安建立一个灾备系统,这套系统的主要特点是之前我们使用的超算芯片,例如IBM最初使用的P,power系列芯片,到了国产超算之后使用的基本都是X86架构intel芯片。这套系统是我们第一次大规模建设甚至尝试的国产芯片超算系统,大概2P规模,用于业务模式开发和测试。

  建成之后发现国产芯片应用大势所趋,包括之后的内部评估也是如此。未来大规模应用Intel芯片的概率几乎为0,后续是国产芯片到国产超算全部国产化的过程。在此过程中发现与以前相比,现在的能效比较差,同样规模比进口芯片性能差一些,功耗和制冷量需求大一些。我认为这是短时间必须克服的问题,后续设计时可以适当关注。  

  通过去年一年的超算系统建设,中国气象局的超算能力在主要气象机构中排名前列。这是随时变化和不断更新的过程,我们气象局也在推进下一代迭代发展。我认为冷板式液冷在其中发挥了不可或缺的作用。

  05 经验及思考  

  我们多年来从规划、设计、建设到运维都是一个团队,其中的优点都能充分体现。

  第一,建设方式之前全部采用委托超算单位统一建设相关暖通设施,这里有几个因素。首先,我们迫不得已采购下一代超算,之前会进行全方面调研。调研后发现不同厂商使用的制冷架构、技术和模式存在较大差异。甲方在招标采购时不能过多约束,每次采购风冷、冷板液冷、浸没液冷都可以,只是需要从技术指标上进行区分。如果有排他性条款被质疑,一个质疑一个准,会影响整个项目的建设。前期采购时将所有暖通设施留给超算企业,由他们投标联通的设计方案、建设方案,后续实施一起采购。

  第二,设计重点是我们与各个厂商讨论的关键。超算包括额定功率、测试功率,在跑测试程序时有测试功率,实际运行有实际运行模式的功率。这几个之间的比例是什么?这是前期我们与各个厂商讨论最关键的因素。普通服务器设计单位设计时可能按照同时使用系数选择0.67、0.7,我们在超算中测试过,最低实际运行功率只有额定功率的40%多,不到50%。如果还按照整个额定功率取0.7,会造成整个机房基础设施资源建完有较大浪费。因为我们每次都比较紧张,所以需要压实数据,确定实际功耗。在有条件的情况下要求厂商建立小规模系统,实测告诉我们数值,投标文件里明确要求。

  第三,冷板技术,许多厂商都在研究,不同的冷板技术存在较大差别。尤其液冷和风冷比例是关键值。从之前建立的几套超算系统分析,高的能达到80%-85%,液冷全部带走,剩余15%用风冷补充。而低的只有60%多,不到70%,这样风冷压力会非常大。

  第四,随着液冷技术的普及,在设计、架构和运维方面与传统数据中心存在较大区别。之前未考虑的问题可能成为风险和隐患,具体内容不再赘述。实际运营过程中有很多小问题确实影响整个系统安全可靠的运行,并且之前设计阶段很难想到或者通过运维才能发现。

  最后是三点思考:

  首先,水冷背板技术在十几年前火爆,引起了各种交流,最近已经被液冷技术取代。水冷背板技术有独到的优缺点,我认为在一些场合它具有较好的适用环境,能够适应各方面的设备,不需要服务器厂商、超算厂商改造就可以提供制冷需求。水冷背板技术是否属于淘汰技术,是否还有应用场所值得商榷。

  第二,冷板液冷技术存在哪方面的制约和安全隐患?在实际运行过程中,我们已经陆续发现几条隐患,且影响较大。我认为在后续建设和讨论以及制定液冷标准时,我们需要进一步斟酌。

  第三,冷板式液冷技术何时取得突破性发展?刚才提到从2017年开始就想使用浸没,每次调研都是重点调研浸没。目前无论技术、商业等方面因素,到现在为止国家气象信息中心一直没有使用浸没,这既是遗憾也是目标。正好是液冷大会,希望所有厂商能对液冷技术有很好的研发和突破,希望后续有更好、更大的应用场景。

0
相关文章