服务器 频道

路漫漫其修远 探秘曙光全浸没相变液冷

  【IT168 评论】如今,全球超算大会SC16正在美国盐湖城召开,深度学习、人工智能、百亿亿次成为了大会的几大焦点议题之一。相比其他内容,百亿亿次更多强调了系统的综合能力,不仅仅是硬件的堆积,不仅仅是软件的调优,更不仅仅是应用的扩展。如今摆在百亿亿次面前的有四道难题,首先需要解决的就是“能耗墙”。

  对于超级计算机这样的庞然大物来说,能耗是非常棘手的问题。类似天河二号、太湖之光这样的优异超级计算机,每天的电费动辄就要几十万元,因此能耗管理就显得尤为重要。为此,超算行业规定了一个标准——30兆瓦以下。

  这是个什么概念呢?以当下优异的太湖之光超级计算机为例,它的功耗是15.3兆瓦,性能是12.5PFlops。而想要实现百亿亿次,就是需要10倍于太湖之光的性能,但是功耗只能提升一倍……这个难度是可想而知的。为此,整个行业都在寻觅更为靠谱的散热方式——液冷。

  从分类来说,液冷目前分为“冷板式液冷”和“全浸没式液冷”两大类,而且在实际应用中,冷板式液冷是比较普遍的设计,包括曙光在内的许多企业都有成熟的技术,特别是曙光的TC4600E-LP液冷刀片服务器已经实现了大规模量产,并将其成功应用在地球数值模拟装置原型系统、中国最大的电网仿真高性能计算平台等大项目中,获得了市场的充分认可。

  但是在“全浸没式液冷”领域,整个HPC行业目前还是处于探索之中。笔者统计了一下,本届SC16大会上,共有5个厂商展示了全浸没式液冷的产品,虽然他们能够在在部分程度上可以实现“全浸没式液冷”,也解决了冷却液材料的问题,但是这些技术并没有实现实质性的突破——因为迄今为止我们看到的所有系统都是开放式的设计, 无法在动态负载条件下长年运行。

路漫漫其修远 探秘曙光全浸没相变液冷
▲E级超算原型机

  本次SC大会上,中科曙光发布了E级计算系统的研发路线图,而E级计算的核心就是首先解决能耗的问题。在考虑到冷板式液冷已经接近性能瓶颈,难以承载E级计算需求之后,曙光果断的选择了“全浸没相变冷却技术”作为攻关的主要方向,并且投入了30多位热能工程、化学工程、控制工程领域的博士研究生、学术专家进行相关研究。

  “从目前国内外最新的研究进展来看,使用液态冷媒替代空气来对计算机设备进行冷却,是未来计算机设备的一场技术革命。在整机机械结构方面,去年我们发布了机械手臂Tank的概念方案,但是在考虑到E级计算原型机的系统需求和国家规定的进度要求之后,我们决定仍采用密封刀片的技术路线”,数据中心产品事业部总工程师沈卫东说。

路漫漫其修远 探秘曙光全浸没相变液冷
▲全浸没相变液冷图示

  说起来容易作起来难。正如之前我们提到的,开放式的全浸没方案之所以简单,是因为不需要考虑仓内压力变化与泄露问题,但是在密封环境下,这些问题却成为了产品研发的最大障碍。如何实现压力的恒定与可控,成为沈卫东团队需要解决的最大难题。

  “只有当刀片的CPU负载恒定不变时,才能够保证密封刀片内的压力不变进而保证零压而消除泄漏问题“,说到这里,沈卫东苦笑了一下:“这当然是不可能的。服务器的负载总是要随任务的变化而不断变化,从而导致密封刀片仓内的压力时而正压、时而负压,进而导致出现泄漏的可能性。我们必须找到新的解决方法”。

  听沈卫东的意思,话里话外,曙光已经找到了对应的解决方案,但是究竟他是如何实现的,究竟我们什么时候才能看到技术细节的公布,沈卫东却是讳莫如深。“我只能告诉你,2018年上半年国家对E级计算原型机进行验收的时候,我们一定能够完美地解决这个问题”。

路漫漫其修远 探秘曙光全浸没相变液冷
▲曙光全浸没相变液冷样机

  近年来,曙光液冷技术开发团队潜心攻关、突破瓶颈,积淀的液冷技术已经由量变引起质的飞跃。截至目前,曙光已申请液冷相关专利40余项,并将掌握的技术专利转化成420原型机、W560-LI全浸式液冷系统、浸没式液冷展示机等液冷先驱产品。

  “从SC13到SC16, 历届超算大会上都有国际一流厂商展出过浸没式相变液冷展机,但从目前来看, 密封环境下全浸没液冷技术在过去几年中未得到任何新的进展。相比之下,曙光对于全浸没式液冷的探索已经走在了行业前列,借助倾一国之力的E级超级计算机的推动, 曙光理应拔得头筹。 漫漫长夜之后, 全浸式相变液冷技术的曙光, 必将最早在东方出现”,沈卫东站在曙光展台旁,望着远方,充满自信地说道。

0
相关文章