服务器 频道

软件定义应用 高性能计算平台选型指南

  【IT168 评论】前段时间,中国科学报、网易等官方媒体和垂直网络门户纷纷报道了中国超级计算机,特别是“天河”系列发展的困境。一时间,各家媒体纷纷转载,社会对于超级计算机也提出了一些质疑的声音。在这样的情况下,“天河”超算主任设计师——国防科技大学卢永彤教授发布了《中国超级计算机之吾问吾答》一文,回应了社会上的诸多质疑。在笔者看来,普通用户对于超级计算机存在误解,正需要媒体的正确宣传和指引。毫无疑问,超级计算机承载了多种科研需求和应用模型,已成为各国科研的主要工具。

  一、超级计算机与大众的关系

  在许多人印象中,超级计算机这样的庞然大物应该应用于科研和大型模型研究领域,与大众的生活关系不大。事实上,这一想法存在着明显的误解。作为当下非常先进的IT设备,超级计算机在承载了科学研究项目的同时,也在间接的改变我们的生活。以大气物理和流体力学研究为例,事实上我们每天看到的天气预报很大程度上来自于超级计算机的预测,而我们乘坐的飞机、高铁等交通工具,在研发过程中也少不了超级计算机的参与。提到波音777飞机,这款世界上最安全的飞机则完全是在超级计算机中模拟计算出来的,而迄今为止造成人员伤亡的3起事故中(韩亚航空1起,马航2起),均由于人为因素。

软件定义应用 高性能计算平台选型指南
▲华大基因基因筛查与检测

  除用作科研和工业设计之外,超级计算机在诸多领域中都有应用。位于深圳的华大基因便利用天河一号A超级计算机进行人类基因组测序,而在华大基因提供的基因筛查与检测项目中,已经能够成功实现“无创产前基因检测胎儿染色体检测”,而在这项技术出现之前孕妇必须进行危险性极大的“羊水穿刺”。

  以上的案例说明,超级计算机与大众的生活其实密不可分,或许我们在日常感受不到超级计算机的存在,但是即便是最常见的天气预报,也让每天我们都得益于它们的计算和服务。

  二、中国超级计算发展的现状

  近年来中国在超级计算机方面发展迅速,跃升到国际先进水平国家当中。中国是第一个以发展中国家的身份制造了超级计算机的国家,2011年中国拥有世界最快的500个超级计算机中的74个,而十年前仍默默无闻。中国在1983年就研制出第一台超级计算机银河一号,使中国成为继美国、日本之后第三个能独立设计和研制超级计算机的国家。中国以国产微处理器为基础制造出本国第一台超级计算机名为“神威蓝光”。目前,中国自主研发的天河二号超级计算机已经连续三次在性能上达到了世界靠前位,除此之外天河一号A、神威蓝光、曙光星云等超级计算机都在国内外享有盛誉。

  但是在每次与行业专家探讨的时候,应用的缺失与人才的匮乏依然是当下超级计算机发展的主要问题。对于许多从业者来说,使用的软件都来自于国外的既有项目,除了部分行业进行的自主知识产权软件开发之外,中国与世界在软件应用方面仍然存在着不小的差距。

  让我们来听听下面这些行业专家是如何看待本行业超级计算机发展水平的:

软件定义应用 高性能计算平台选型指南
▲东方地球物理公司研究院处理总中心总工程师赖能和

  我们本身就是跨国经营的公司,从采集技术来说,和国外没有太大差别。软件技术方面,我们与国外大概有三年的时间差,从去年开始我们投入了非常多的力量进行数据处理的软件开发,目前已基本具备了和国外软件的同等水平(和法国CGG公司处理软件的水平基本在同一水平)。在成像方面,我们和国外依然存在差距。但借助于“千人计划”,两者的距离正在缩短,尤其是在时间偏移和深度偏移方面已经达到了国际水平。目前在数组建模方面与国际水平依然有差距——东方地球物理公司研究院处理总中心总工程师赖能和

软件定义应用 高性能计算平台选型指南
中国科学院固体物理研究所副所长曾雉

  就科研单位和高校来说,基于计算物理的材料模拟在国内应用范围非常广泛,也是很普及、很必需的应用。但是从应用效果来看,基于高性能计算的材料物理应用,特别是应用软件的国产化依然很低,绝大部分的软件依赖于国外的进口。这一方面与我国在高性能计算方面的应用起步晚有关,一方面也是由于国外在软件开发方面处于领先的地位——中国科学院固体物理研究所副所长曾雉

软件定义应用 高性能计算平台选型指南
清华大学地球系统数值模拟教育部重点实验室主任杨广文教授

  要解决一个问题的前提是要解决物理的模型,要解决数学模型,还有数学算法,要进行并行,然后进行编程,然后再进行应用,涉及到数据,将来又分析等等。所以整个研究过程是比较复杂的,而且需要不同专业的人,比如数学、计算机、物理、环境、地学等一系列学科的优秀人才,因此它的门槛很高——清华大学地球系统数值模拟教育部重点实验室主任杨广文教授

软件定义应用 高性能计算平台选型指南
▲中科院计算所计算机体系结构国家重点实验室研究员张云泉

  中国的超算硬件水平已经达到了世界领先程度,特别是天河二号再次获得了TOP500超算排名的第一位。从操作性来说,如何将这些世界顶尖的超级计算机应用好,成为了行业面临的重要问题。如何开发适合的软件、如何培训相关的技术人才,实现产业的良性循环,则是目前面临的主要问题——中科院计算所计算机体系结构国家重点实验室研究员张云泉

  通过上述专家的介绍,想必大家已经清楚中国超级计算机在应用方面需要努力的方向和直面的问题。或许正如国防科技大学卢永彤教授所说——我们作为超级计算机系统研制方,还有很多技术方面需要完善,如研发新型使能技术和体系结构、降低能耗、优化系统软件、加大对应用软件的支持力度。但我们应充分认识到,以天河2号为代表的超级计算机系统只是高性能计算生态环境中的重要一环, 我们还需领域物理模型、大型应用软件、交叉人才的培养等多个环节,才能维持我国高性能计算的生态环境健康有序发展。

  三、超级计算机基础架构介绍

  超级计算机虽然是庞然大物,但依然是由众多服务器所组成的。在本质上讲,影响超级计算机性能的因素在于计算能力、交换能力和软件应用能力。在这三个能力中,前两个能力很大程度上依赖于硬件系统的支持,而软件应用能力则凸显在并行程序的开发和优化方面,也是我们所讲的软实力。在这里,我们主要就前两种能力进行介绍。

  处理器是计算机的大脑,无论是家庭用的台式机、笔记本还是数据中心应用的服务器,处理器都是关键的环节。如今,包括英特尔至强、AMD皓龙、龙芯、申威等处理器都已经应用到了实际当中。不过就普遍性来说,英特尔至强依然是应用的主流。

软件定义应用 高性能计算平台选型指南
▲至强E5 v3处理器

  时至今日,至强处理器已经发展到了第三代——E5 v3,这款处理器相比以往的平台在性能和应用性上都有了很大的提升,特别是它所具备的AVX2.0指令集针对Linpack应用提供了更好的支持和优化,成为了超级计算机应用的非常好的选择。

  并行计算已成行业发展趋势

  由于并行计算的产生,处理器在许多应用当中已经不再作为主要的计算工具,加速器或协处理器的概念逐渐成为主流。相比传统的计算来说,加速器或协处理器已经将绝大多数应用从处理器中解放出来,由于核心数量巨大,加速器或协处理器可以实现更大程度上的并行计算,相比处理器的计算来说速度提升了几倍、几十倍。在这样的情况下,处理器仅仅作为数据传输的指令设备出现,甚至有公司已经开发出ARM架构的加速器平台,以获得最大的计算效率和最低的功耗输出。

软件定义应用 高性能计算平台选型指南
▲Tesla K40加速器

  加速器——NVIDIA是最早进行加速器研发的厂商,也是当下并行计算的最大受益者。它旗下的Tesla加速器专为超级计算机应用所设计,如今最快的Tesla K40加速器已经广泛应用在许多超级计算机当中。同时,经过多年的推广,加速器所支持的CUDA编程模式也成为了应用的主流,许多国内高校都开设了相关的课程。

软件定义应用 高性能计算平台选型指南
▲Xeon Phi

  协处理器——英特尔在2012年发布了自己的协处理器Xeon Phi,不过业内人士更喜欢亲切的叫它MIC。这款众核架构的协处理器同样可以实现并行计算的功能,这一点与NVIDIA Tesla相当类似。不同的地方在于英特尔认为MIC在代码应用方面与至强处理器相同,因此即便是零基础的人员也可以按照x86架构指令集进行编程,相比NVIDIA必须要学习的CUDA来说,这是一大优势。

  虽然Tesla与Xeon Phi各自表达自己的优势,但就笔者采访过的专家观点来看,无论使用哪种加速方式,想要实现理想中的加速比都是相当困难的事情,需要不断的优化。

  网络传输是超级计算机性能关键

  解决了计算方面的问题,网络交互也是行业关心的焦点。对于海量服务器之间的协同工作于数据传输来说,它直接关系到了计算机的运行速度问题。对于网络连接,在超级计算机领域存在着两种方式,传统的以太网和Infiniband。

  传统的以太网我们不需要解释了,几乎大家使用的电脑都是用于这样的方式,目前这种技术可以实现万兆和4万兆(40GB)连接,但是对于超级计算机来说这样的速度并不充裕,于是更多的超级计算机采用了Infiniband。

  来自百度百科的消息说——InfiniBand架构是一种支持多并发链接的“转换线缆”技术,在这种技术中,每种链接都可以达到2.5Gbps的运行速度。这种架构在一个链接的时候速度是500 MB/秒,四个链接的时候速度是2GB/秒,12个链接的时候速度可以达到6GB /秒。

软件定义应用 高性能计算平台选型指南
▲Mellanox 100GB交换机芯片

  换句话说,这种技术是解决服务器之间互相连接的问题,而这正是超级计算机所面临的技术难点。在这里,我们不能不提到一家名为Mellanox的公司,它的产品在TOP500榜单中占据了半壁江山。

  相比以太网来说,InfiniBand具备的优势太过明显,Mellanox公司的产品可以实现从40GB、56GB到最高100GB的连接,而且通过RDMA技术还可以实现超远程数据中心的互联,彻底解决网络通信带宽不足和距离较远的问题。

  四、软件定义超级计算机

  软件定义这个名字在这几年非常火爆,我们可以经常听到“软件定义存储”、“软件定义网络”、“软件定义数据中心”这样的名词,其目的则是将软件从传统的硬件中剥离出来,改变传统意义上软件对于硬件的附属地位。但是从超级计算机来说,早已是软件定义的时代。

  如今,互联网特别是移动互联网的发展对于当前的数据中心市场产生了大量的冲击,除了大数据之外,包括云计算、Web2.0等多项应用也对数据中心提出了新的要求。随着行业的发展高性能计算的形态也出现了新的变化,包括云计算、大数据等应用也在使用计算机集群,两者互相驱动,互相融合,互相促进。

  对此,国际高性能计算咨询委员会主席Gilad Shainer认为这将会成为超级计算机发展的新兴领域。从商业的角度来说,由大数据而产生的数据分析不仅仅能够产生商业化价值,比如能够帮助商家更好的筛选用户喜好与揣摩用户心理,还能够在研究领域为专家提供技术服务。当然,这一切都要求后端的数据中心提供更快的相应速度与处理能力。

0
相关文章