服务器 频道

基于数据中心部署的冷板液位计运行可靠性研究

  第一部分 介绍

  第四次工业革命又称智能革命,是新一轮的技术产业变革,围绕互联网、物联网、大数据、机器学习(ML)、人工智能(AI)等核心技术展开。随着这些技术的快速进步,对算力的要求不断提高,导致CPU、GPU等芯片的热设计功率(TDP)、机架功率密度、数据中心能耗和建设规模不断提升。据悉,2019年全球超大规模数据中心数量为504个,预计未来5年每年将增长12%~14% 。研究表明,2020年全球约10%的能源消耗在数据中心,预计到2030年这一比例将增长到20% 。以中国为例,2017年大数据产业规模达到4700亿元,同比增长30%;云计算整体市场规模达到946.1亿元,增长率为32.4%;同时,数据中心整体能耗达到1200~1300亿千瓦时,约占中国全社会用电量的2% 。

  现代数据中心中,90%的总能耗来自于两个主要部件:冷却管理,包括不同级别的组件和系统冷却,以及信息技术设备(ITE),包括服务器、网络交换机、不间断电源(UPS)等。研究表明,随着更多的能耗消耗在冷却管理上,热管理消耗的电量约占典型风冷数据中心总电量的三分之一 。因此,冷却优化对于数据中心的能源效率至关重要。云服务提供商通常采用风冷解决方案来冷却数据中心中的ITE。然而,近年来,随着晶体管数量和热流密度的快速增长,先进的集成电路的散热要求已几乎超过了风冷的最大能力。此外,在风冷解决方案下,芯片在更高的结温下工作会导致更多的漏电功率,进而对能源效率和电源使用效率(PUE)产生负面影响,PUE定义为总能耗与实际计算能耗之比。

  考虑到风冷能力的极限和对PUE的追求,数据中心运营商一直在探索更有效、更高效的冷却解决方案。在各种先进的冷却解决方案中,冷板液冷方案凭借高冷却能力、较少的技术挑战和对行业现有系统机箱设计的适应性等优势,已经受到欢迎并实现商业化。它还能够将芯片温度保持在比风冷方案更低、更窄的范围内,降低泄漏功率,最终改善数据中心的PUE。研究表明,与传统的基于制冷的服务器相比,冷板液冷方案可以降低90%以上的冷却功耗。

  冷板液冷通常与风冷结合在数据中心使用,又称混合冷却。在这种混合冷却系统中,主要的大功率散热部件采用液冷冷却,而其他辅助部件采用风冷。该方法的优点是可以直接引入到传统的风冷数据中心,只需对服务器和相关基础设施进行少量改动。事实上,一些公司已经开始在其数据中心部署冷板液冷解决方案,例如:Google 使用冷板为其张量处理单元(TPU)冷却、;字节跳动和快手采用冷板为 CPU 冷却。

  虽然冷板液冷方案已在生态圈中流行,相关研究也层出不穷,但目前对于该方案在机房的长期可靠性研究尚不充分。为了弥补这一空白,为大规模部署打下基础,字节跳动在部署数万台采用冷板冷却的服务器的同时,刻意密切监测其 Volcano Engine(字节跳动公有云服务)机房的长期可靠性状况。定期收集关键数据,包括 CPU 数字温度传感器 (DTS) 读数变化、液体含量分析和材料兼容性报告。还对软管、冷板、快速断开器 (QD) 堵塞和泄漏等关键成分的可靠性进行了研究。这些实际运行数据和基于量产部署的分析对于了解该方案的长期可靠性至关重要,对增强业界对冷板冷却的信心具有很好的参考作用。 

图 1 直流大型冷板服务器的正面/背面视图  

图 2 定制的 CDU 和内部架构

  第二部分 直流冷板液冷环境

  A 冷板服务器的批量部署

  Volcano Engine 已在其超大规模数据中心构建并部署了定制的冷板冷却解决方案,如图1所示。液体冷却服务器的正面视图显示了网络电缆连接和冷却分配单元 (CDU),而从背面视图可以看到由聚四氟乙烯 (PTFE) 和与冷板相同的材料制成的软管通过 QD 连接到歧管,用于流体循环和热交换。

  B 液冷机架和 CDU

  火山引擎同样设计研发了集成歧管的液冷机架,其包含60U空间,由27台2U冷板液冷服务器和1台用于安装部署模块的网络交换机组成,如图1所示。

  定制的CDU与DC液冷机架一起部署。如图2所示,它包括板式热交换器、液体循环泵、过滤装置和监测温度和压力的传感器。CDU负责文献[15]中描述的一次回路和二次回路之间的热交换。CDU的制冷能力为300kW。 

图 3 2U 液冷服务器(带冷却套件)  

图 4 带漏电线传感器和 QD 的液体冷却套件

  C 液冷服务器及硬件配置

  基于Intel Whitley平台的2U服务器2路采用冷板液冷方案进行散热,每台服务器仅CPU采用串联冷板液冷,其他部件仍采用风冷,简化散热套件设计,追求性价比。

  图 3展示了安装了冷却套件的 2U 液冷服务器的高级架构[15]。该系统由 2 个英特尔 Ice Lake 处理器(TDP 为 230W)、32 个 DDR4 DIMM、固态硬盘 (SSD)、附加卡、风扇模块等组成。液冷套件由两个串联的冷板、软管、QD 和液体泄漏线传感器组成,如图4所示。凭借上一节介绍的 300kW 冷却能力的 CDU,在最坏的情况下,24 个装有此类服务器的机架可以得到冷却,其中机架中的所有 CPU 都以 TDP 级别运行。

  D 流体和抑制剂的采用

  该溶液采用添加抑制剂的去离子水。根据从先前的概念验证[15]中吸取的经验教训,去离子水是一种可靠且经济高效的冷板液冷流体。同时,必须定期向流体中添加某些抑制剂以维持流体的 pH 值,防止细菌生长并防止金属材料(包括冷板、QD 和 CDU)腐蚀。细菌生长和腐蚀会严重影响液冷溶液的冷却性能和长期运行可靠性。

  第三部分 长期运行可靠性的经验教训

  冷板液冷服务器已在火山引擎机房量产并投入业务应用,同时密切监测并定期收集QD、冷板、液冷等关键温度数据、健康状态、成分品质等,以长期分析方案的可靠性。

  A 冷却套件出厂前采取的措施

  液体冷却套件在将 CPU 温度保持在所需范围内方面起着至关重要的作用,以便 CPU 能够发挥其更优性能,而不会在运行频率降低方面发生节流以防止过热。因此,在发货和组装到系统之前必须采取一些措施。

  首先,冷却套件必须满足至少 300 秒的 0.6/0.8/1.0MPa 氮气高压密封要求,且密封前后压力下降标准为 3% 以下。其次,冷却套件还需满足至少 1 小时的 0.6Mpa 和 0.8MPa 液体压力测试。第三,必须采取吹干等措施,确保冷却套件中没有液体残留,避免腐蚀和微生物生长。最后,需要向套件中加入高压氮气,并对 QD 盖上盖子,以防止在运输过程中可能造成的任何损坏和污染,即灰尘和颗粒。  

图 5 液冷套件验证及组装流程

  图5详细展示了液冷套件的检查、验证和组装流程。最后一步是将液冷服务器包装并运送到DC进行在线试运行。

  B 关键部件的热性能

  在液体冷却服务器中,只有 CPU 由冷板冷却,其他组件仍由空气冷却。因此,定期监测 CPU 的温度很有帮助,因为它可以直接反映冷板的质量。冷却性能下降可能意味着冷板的切削翅片严重腐蚀或堵塞,以及液体在 pH 值、颗粒和细菌群落方面的质量异常。由于运行温度对性能和可靠性有重大影响,因此还需要监测其他组件以确认混合冷却服务器的健康状况。

  本研究选取两台服务器,在时间0(T0)至时间4(T4)的时间段内定期跟踪和监测关键部件的温度。  

图 6 服务器 #1 上的定期温度监测  

图 7 2号服务器定期温度监测

  如图6和图7所示,服务器#1和#2上的CPU和其他组件(例如 CPU 电压调节器 (VR)、DDR4 DIMM 和 DIMM VR)的温度由于在 1 升/分钟 (LPM) 的流量下在线负载波动而出现轻微且预期的抖动。图中显示的温度值来自 T4,波形表明冷板的冷却性能和系统性能尚未受到明显影响。然而,仅凭温度读数并不能得出长期运行可靠性没有风险的结论。还对成分的材料兼容性和流体含量分析进行了进一步研究。

  C 从QD和宝塔连接器的失败中吸取教训

  QD 和宝塔连接器都是连接液体再循环回路的重要组成部分。其中一个令人担忧的问题是运行和公连接器与母连接器对接期间的液体泄漏。图 8显示了 QD 中的液滴,这是在运行过程中和实际运行中的目视检查中观察到的。故障部件已送回工厂进行根本原因分析。结果发现,除了 QD 的尺寸外,所有密封测试均能满足高压液体和氮气下的要求。如表一所示,在 6.0bar/8.0bar/10.0bar 下 10 分钟内的压降均低于 3.0%。所有测试均在水中进行,过程中未产生和观察到气泡。  

图 8 操作过程中观察到 QD 上的液滴  

图 9 无色攻丝油用于QD润滑  

图 10 宝塔连接器的腐蚀和残留物堆积

  在原因分析中还了解到,在安装快拧螺母时使用了自攻油,自攻油可以在螺纹拧紧过程中起到润滑作用,减少阻力,避免螺母卡死,如图9所示。自攻油为无色液体,受热后流动性增强,导致QD接头处出现滴油现象。由于油液品质不良,宝塔接头处还会出现腐蚀、残渣堆积等现象,如图10所示,增加流动阻力,降低长期运行可靠性。

  表一: 高压氮气下 QD 密封测试  

  

图 11 冷板锯齿翅片的腐蚀与堵塞  

图 12 运行过程中流体变色为绿色

  D 冷板可靠性研究

  冷板内部结构包含数百个切削鳍片,在从 CPU 到液体的热量传递中起着关键作用。如果鳍片之间的间隙被堵塞,热冷却性能将下降并导致可能过热的风险。为了解冷板长期运行后的可靠性,随机选择一些冷板并送往实验室进行分析。从图 11可以看出,切削鳍片上可能出现铜锈和腐蚀,这是由于液体质量差造成的,例如由于微生物生长导致 pH 值较低。根据现场测量,pH 值为 6.85,表明液体呈弱酸性,因此不适合使用铜冷板。为了防止发生此问题,必须按照规定保持良好的液体质量。

  E 流体变色研究

  目视检查是监控操作液质量的第一步,因为操作液会因微生物生长和颗粒污染而变色。图12展示了操作液在操作过程中如何变绿。根据实验室对绿色液体的分析,液体蒸发后底部有颗粒状黄绿色杂质。能谱分析结果表明存在铜和铁元素,可能是由于金属腐蚀产生的。碳元素含量也很高,可能是有机残留物。  

图 13 蒸发残渣的能谱分析  

图 14 运行过程中流体变色为黄色

  图13为绿液蒸发后残留物的能谱分析结果,表2为三个样品的金属含量百分比分析结果。在使用过程中,还发现油液变黄,软管内侧附着一些黄色残留物,如图14所示。这应该是微生物生长造成的,因为在根本原因分析中检测到了大量的菌落含量。

  F 颗粒和残留物的累积

  在拆卸组件时,还发现由于环路的突然膨胀和收缩,在相对静止的水区连接区域堆积了深色颗粒和残留物,如图15所示。深色残留物可能是来自液冷系统中微生物的生长或金属腐蚀产物,这可能导致QD的功能丧失,回弹密封力不足并可能导致液体泄漏。

  表 2 残留物元素含量百分比  

  

图 15 连接处有黑色颗粒和残留物

  G 定期进行液体含量分析

  流体的质量是运行可靠性的核心,在运行过程中,流体可能会受到金属腐蚀、固体颗粒和微生物生长产生的物质的污染。因此,必须定期对流体质量进行监测和分析,从颜色、pH值、金属含量、细菌菌落、电导率等方面进行分析。

  为了预防及消除冷板液冷解决方案成分可能出现的故障,火山发动机与ODM及供应商合作建立了包括液质处理流程、运行维护周期、监控机制等完整的液质监控流程及标准。

  定期向油液中添加抑制剂,以防止运行过程中微生物生长和金属腐蚀。同时,供应商也定期将油液样品送往实验室进行分析。表三和表四分别详细说明了一次回路和二次回路油液含量分析的汇总情况,包括外观、pH值、浊度、电导率、总硬度、细菌和铜、铁、氯离子。

  由两表可知,连续0~3次试验中,各项指标均有变化,但各项特性基本保持稳定,表明抑制剂已发挥功效,能够保证油液品质及长期运行的可靠性。

  表 III 主回路流体含量分析  

  表 IV 二回路流体含量分析  

  

图 16 过滤装置上附着的固体颗粒

  第四部分 操作和维护

  除了第三部分中描述的关键知识外,还必须采取一些预防措施和措施,以确保 DCs 规模应用的长期运行可靠性。

  A 流体过滤机制

  过滤装置必须将固体颗粒从液体冷却溶液中分离出来,因为它可能会影响热冷却性能,甚至由于冷板或 QD 的堵塞而导致系统节流。

  图16为一次回路和二次回路均采用的过滤装置,过滤精度为50um,每平方英寸270目。目测发现,经过数月的运行,过滤装置表面已附着大量固体颗粒,因此必须定期清洗更换。

  B 定期补充抑制剂

  事实证明,缓蚀剂能有效防止金属腐蚀和微生物生长,保证油液质量。根据定期分析结果,需要定期向油液中添加缓蚀剂,以防止油液关键参数指标低于要求。

  如表三、表四所示,通过合理、科学的管理方法,油水质量在pH值、浊度、细菌菌落、电导率、铜和铁含量等方面可以保持在良好的状态。

  C 液体泄漏警告

  在超大规模应用中采用冷板液冷解决方案时,软管沿线的液体泄漏一直是数据中心运营商关注的重点。当液体滴在主板上时,可能会导致电路短路,甚至服务器发生灾难性故障。Volcano Engine 采用漏线传感器来监测任何液体泄漏。可以向操作员发送警告信号以进行维护和更换,这在ITherm2023 中的[15]中有详细描述。

  D 定期监测和维护

  根据质量分析报告对液体质量进行全面调查,液体服务器一经接入液架集管即投入运行,防止液体长时间滞留。

  定期监测油液质量十分必要,例如:第一周内进行第一轮检查;运行两周后进行第二轮检查;系统稳定后三个月进行第三轮检查。此外,一旦发现任何潜在风险,包括油液变色、灰尘和颗粒积聚、金属部件生锈等,应立即补充油液和抑制剂以改善油液质量。

  此外,还应考虑采取以下措施来确保长期运行的可靠性:

  ● 在线应用前进行假装操作。需要试运行以检查二次回路的流体质量。要求分析流体含量以了解是否需要更换或添加额外的抑制剂。

  ● 更换配件后控制油液质量。更换配件可能成为二次回路的污染源。因此,需要保证新配件的清洁度,并及时监测油液质量变化,避免风险。

  ● 建立快速动态管控机制。可通过现场快速检查,建立动态检测机制。

  ● 监测抑制剂的效果,加入抑制剂后确定流体的取样时间。

  ● 提前确保流体质量。在线发现问题后再处理将花费更多精力。因此,从一开始就保持流体质量是具有成本效益的。

  第五部分 总结

  为响应政府的双碳政策,字节跳动火山引擎数据中心已深入研究并批量部署了冷板液冷解决方案,以实现大规模绿色可持续应用。为了研究长期运行可靠性,为后续部署和行业参考打下坚实基础,定期监测和收集系统健康状态和关键运行数据,包括 CPU 等关键部件的温度衰减、流体的酸度、固体颗粒和细菌群落含量分析、关键成分的材料兼容性以及 QD 可能发生的泄漏和冷板的可靠性。

  虽然冷板液冷解决方案是一种相对成熟的冷却技术,但基于这项研究,我们总结出了一些新的知识,例如液体变色、QD 泄漏、灰尘和颗粒积聚以及液体质量下降等。由于液体质量是确保长期运行可靠性的关键,因此也证明了通过科学的控制和管理,包括定期添加抑制剂、监测和分析液体质量,可以很好地保持其质量。再加上在线应用前采取的一些措施,长期运行可靠性的目标不仅仅是理论上的,而是一个可以通过更优工程实践和学习实现的实际目标。

  本文提出的关键知识和分析可以成为未来数据中心部署中冷板液冷解决方案实施和应用生态系统的良好参考模型。

0
相关文章