【IT168 资讯】11月12日-17日,全球超算大会SC17将在美国丹佛举行,本届大会的热点议题可能会涵盖E级计算、人工智能、HPC云等。
在ISC17上我们可能会看到,HPC在金融、物流、大型科学、石油和天然气等领域的应用继续扩展到传统的企业计算方面,这些领域通常与大数据开发联系在一起。很明显,所有这些部分都在使用(或者计划使用)机器学习和人工智能,产生类似于HPC的体系结构。
由于CPU、GPU和新兴的神经芯片需要满足HPC的集群加速计算需求,这些系统的物理实现需要更专注于热捕捉和抑制。由此产生的热量和对节点、机架和集群热密度的影响,与英特尔的Knights Landing 、Knights Mill、Nividia的 P100 以及英特尔的 Skylake 处理器有关
瓦特数现在已经足够高,在包含这些HPC的冷却节点上,除了液体冷却之外,没有其他选择,以保持合理的机架密度。如果不能在节点级使用液体冷却,则需要进行地板空间的构建或数据中心扩展。更重要的是,减少节点和机架密度可以驱动所有类型的集群节点之间的互连距离的增加。
▲Asetek RackCDU D2C冷却
事态的发展直接导致了瓦特数出现拐点,而不是简单地延伸之前的趋势。根据所采取的方法,机器学习和人工智能加剧了这一趋势。在人工智能应用程序的培训或学习阶段(特别是在深度学习/神经网络方法中使用),在GPU中体现出的热功率问题是众所周知的。那么在某些情况下,如果将GPU应用于此,这些问题也会继续出现。
即使在训练阶段采用像Knight’s Mill这样的quasi-GPU,这种问题仍然会出现。
由于分布式冷却能够在各种各样的场景中解决站点的需求,因此可以认为,计算热功率的拐点是HPC的站点和为服务于他们的原始设备制造商(OEM)在全球加速中采用Asetek液体冷却的主要驱动要素。正如即将在sc17中呈现的那样,OEM在液冷方面相当一部分会是针对机器学习。
考虑到集群的多样性(特别是人工智能的加入),冷却方法的适应性变得相当重要。Asetek分布式结构基于低压、每个服务器节点的冗余泵和闭环冷却液。这使得在热捕捉和热排斥方面具有很高的灵活性。
Asetek serverls是一个服务器级液体辅助空气冷却(LAAC)的解决方案。它可以作为液体冷却的过渡阶段,也可以作为一种工具,使高性能计算节点立即并入数据中心。它允许站点利用现有的HVAC、CRAC和CRAH单元,但不改变数据中心的冷却。
ServerLSL取代了在服务器中使用冗余冷却器(冷盘/泵)的效率较低的空气冷却器,并通过每台服务器上的热交换器(HEXs)将100%的热空气排放到数据中心。这使得高功率的服务器节点具有1U的外形尺寸,并保持较高的集群机架密度。在站点级别,热量由现有的CRAC和chiller在不改变基础设施的情况下进行处理。使用ServerLSL,可以将液体冷却的节点与传统的风冷节点混合在一起。
▲ Asetek serverlsl冷却
虽然ServerLSL在每个服务器中隔离了系统,但Asetek RackCDU系统的重点是racklevel,这对数据中心整体的冷却成本产生了更大的影响。RackCDU系统利用了与ServerLSL节点相同的泵和冷却器。RackCDU目前使用的是使用Asetek液体冷却的TOP500中的所有站点。
Asetek RackCDU在节点级和整个设备上都提供了方案。与ServerLSL一样,RackCDU D2C(direct -to- chip)利用了服务器CPU和GPU上的冗余泵/冷板(以及其他类似于内存的高功率组件)。但收集到的热量则通过密封的液体路径将其移动到RackCDU的热交换器中,以便将其输送到设施水中。RackCDU D2C捕获了60%到80%的热量,降低了50%的数据中心冷却成本,并允许数据中心服务器密度增加2.5-5倍。
在这种混合液体/空气冷却的方法中,现有的HVAC系统消除了数据中心空气中的余热。当有闲置的冷却能力可用时,数据中心可以选择来自RackCDU和现有的CRAC和冷却塔的冷却设施水。
在服务器、机架、集群以及由Asetek分布式提供的站点级别上,Asetek在处理冷却方面具有很高的灵活性,但缺乏集中泵送的方法。
在SC17大会上,Asetek还将展示一种新的冷却技术,在该技术中,服务器共享一个安装了HEX的机架。
这一次的国际超算大会,备受瞩目,人工智能与机器学习也必将是不可或缺的大热,值得期待。