如何提升超算系统的“使用面积”？-服务器专区

如何提升超算系统的“使用面积”？

作者：刘策编辑：刘策 2017-06-23 14:38 IT168网站原创

　　“快点，快点，再快点”，张小飞正一脸焦急的看着电脑屏幕，嘴里也不住的嘟囔着。

　　不知情的人以为他在看某个体育赛事的直播，但其实他对面的电脑屏幕上只有黑白两种颜色——纯黑的背景下，白色的光标一闪一闪，除此之外再没有其他的内容。

　　作为中国科学技术大学(以下简称“中科大”)下辖计算机科学与技术学院的一名普通学生，张小飞正在利用自己的笔记本电脑进行毕业设计。可惜的是，他那台电脑别说是专业计算，就是日常跟寝室同学们开LOL的时候都卡得不行。

　　也就是在张小飞焦急的同时，中科大的高性能计算中心新采购了一批设备，使得超级计算机的性能有了质的飞跃……

　　提起中科大，许多人都不会觉得陌生。在中国，一线城市往往具备了更好的教育资源，北京有清华北大，上海有复旦交大，广州有中山大学，那么合肥呢?对于地处中国内陆的合肥来说，它在教育上的实力丝毫不逊色于以上的一线城市，这里的中国科学技术大学同样是中国的顶尖学府，甚至早在上世纪的90年代，“中科大少年班”这个名字就已经是家喻户晓、妇孺皆知。

　　作为中国科学技术的巨擎，中科大一直不愧于自己的名称。就以计算机系来说，早在多年前，中科大的队伍就已经角逐与国际舞台中，并且在去年取得了全球超算竞赛的冠军。可以说，在超算的研究与应用方面，中科大一直走在行业的前列。

如何提升超算系统的“使用面积”？

　　为了更好的了解并应用超级计算机，早在多年前，中科大超级计算中心就曾经购买过曙光TC4600百万亿次系统，实现了超算的初步应用。而就在不久前，中科大更是将这套系统实现了扩容与升级。相对于前几年基于至强E5平台的超算来说，本次扩容除了在计算能力(核心数量)上进行了升级之外，还侧重于网络的互联互通和存储能力的优化。可以说，针对当下超算的应用需求，中科大已经有了明确的部署。

　　这样一来，中科大的超算系统相比以往有了明显的提升，扩容后共有506个计算节点，12200颗CPU核心，512颗Intel Xeon Phi融核(MIC)KNL核心和39936颗NVIDIA CUDA核心，总双精度峰值计算能力为每秒519万亿次(CPU：482.82万亿次/秒，GPU：14.96万亿次/秒，Intel Xeon Phi融核：21.28万亿次/秒)。

如何提升超算系统的“使用面积”？

　　更重要的是，中科大引入了目前业内独家的、采用Multi-Host InfiniBand技术的M-Pro计算节点，共有40台。

　　在去年的ISC16上，曙光正式推出了M-Pro平台。考虑到高性能应用对于处理器主频的依赖特征，曙光大胆的采用了高主频的至强E3系列处理器，动辄就能达到3GHz以上，接近4GHz的频率，平均每核的内存带宽也明显高于常用的至强E5平台。结合Multi-Host InfiniBand技术，在保证低延迟、高带宽的前提下，提供更快、更均衡的并行通信性能，对计算、访存、网络通信密集的并行应用程序，能起到立竿见影的加速效果。

　　M-Pro的特色还不仅限于此。

　　对于整个服务器行业来说，我们最初采用标准服务器搭建超级计算机，后来出现了高密度的刀片服务器、再后来出现了整机柜类型的产品。可以说，随着服务器外型的不断演进，我们对于超算的性能有了更多的依赖，搭建超算的方式也五花八门，甚至还用上的液冷散热系统。但是很不幸的是，这些变化并未从本质带来任何的推动力。

如何提升超算系统的“使用面积”？

　　超算的本质主要是计算，我们所希望的就是如何提升超算的计算能力。当然，这些事情由包括英特尔、NVIDIA在内的许多厂商操心着，它们一方面推出更高主频、更多核心、更先进制程的产品，另一方面也在软件层面实现不断的优化，让软硬件更加协同，发挥更大的作用。

　　但这一切似乎都还不够。了解高性能计算的都知道，所谓理论峰值只是系统的最大潜力，但是在日常使用中我们获得的性能却要大大折扣。这其中，一方面是计算平台本身的性能不够强劲，另一方面则是传输过程中造成的资源闲置与浪费。这个好比是买房时候的建筑面积和使用面积的区别，很多时候我们买了100平米的房子，但是实际的使用面积可能只有70多平米，甚至更低一些。

　　M-Pro存在的价值，就是提升你这个房子的使用面积。

　　在一个复杂的超算系统中，存在着许多的节点，但是每个节点的处理器浮点峰值利用率都不高、不均匀。这就好比看起来每个节点的“建筑面积”很大，但是实际使用起来的空间却很小，运算的速度很慢、处理器的利用率很低，造成了大量的限制和浪费。

　　M-Pro存在的意义就在于改善了资源的利用率，不追求建筑面积，而是追求使用面积。提高单CPU核的计算、访存性能，是提高应用性能最直接的手段，同时，通过Multi-HostInfiniBand共享技术，让每颗处理器在做并行计算通信时处于完全对等和均衡的状态，能明显提升应用的并行效率。

　　这是一种前所未有的共享架构，也是M-Pro划时代的意义所在。按照曙光高性能计算产品事业部总经理李斌的话说，M-Pro更大的意义在于颠覆性。“这不是一款“主流”的的产品，甚至看起来有些逆流而动，但是你不可否认它有着广泛的适应性和出色的性能和性价比。”

　　事实也是如此。在整个产业依然按照摩尔定律前进、所有人都在看重处理器核心数量的今天，M-Pro的出现更像是一股清流。它破天荒的不再将核心数量和理论计算峰值作为应用的依据，而是通过最直接的手段去提高实际应用性能。针对当前高性能应用的并行效率与向量化优化程度有限，且优化越来越难的难题，M-Pro能够让程序在CPU主频更高、单核计算、访存和网络性能更好的平台上运行，使用更少的资源达到更高的性能，提高了资源的利用率。

如何提升超算系统的“使用面积”？

　　根据相关的测试数据，M-Pro 架构服务器相比普通双路计算节点实测应用性能显著提高。如VASP, OpenMX, Quantum Espresso, CPMD, Lammps, Fluent、CFX、WRF等的测试数据展现了150%-200%的性能提升。从成本角度来说，至少为客户节省30%-50%的设备购置投入。

　　在曙光内部，M-Pro被亲切的称为“小钢炮”，李斌对它的定义有7个字——经济实惠威力大。如今，“小钢炮”已经广泛应用在科研、教育、制造、气象、环境等各个领域中，为越来越多的用户带来性能上的进一步优化与提升，帮助他们节省成本，实现高效的超算应用。

　　PS：(文中张小飞为化名)

关注我们