服务器 频道

针对应用测性能 揭秘863高性能计算评测

  【IT168 专稿】随着国民经济的发展和科研院校对计算性能需求的日益提升,高性能计算中心在全国各地区、各大院校中相继建立。从发展过程来看,国内高性能计算经历了从最早的集群计算机到科研网格,再到近年来的中国教育科研网格(ChinaGrid),规模越来越大,进而对高性能计算产生了评估和测试的需求——国家863高性能计算评测中心因此而生。

  近日,记者采访了清华大学计算机系副主任、863高性能计算机评测中心副主任陈文光教授,详细了解了863高性能计算评测中心的具体事务、评测流程和清华大学高性能计算节点建设的有关内容。

针对应用测性能 揭秘863高性能计算评测
▲清华大学计算机系副主任、863高性能计算机评测中心副主任 陈文光教授

  针对应用细测性能 第三方评估更权威

  陈文光教授表示,以往国家投资建设高性能计算中心,都是由科研单位自行决定采购服务器和具体规模等,在实际应用中难免因为当初考虑不周而出现各种问题。而如今引入了第三方评测,可以对相关单位的高性能计算方案做系统性的评估和测试,进而提供可供考量的针对性方案和报告。

  据了解,863高性能计算评测中心从需求出发通过分层建模的方法可分析机器存在的瓶颈和问题,涵盖了程序运行效率、内存和网络的I/O、CPU性能以及整个系统的负载能力。相继完成了国内约30套高性能计算系统的评测工作(有评估、有验收等),包括曙光5000A“魔方”,联想深腾7000等。

  与常规服务器测试不同,高性能计算的性能并不只是跑某几个类似Linpack之类的测试软件就可以衡量的。陈教授认为,性能的真正标准是一个具体应用在计算机上运行所体现的特征——也因为高性能计算往往是为了某个或某几个特定应用而打造的,因而更加具有针对性(这与我们常规的通用计算性能测试有所区别)。

  因此,做高性能计算系统评测的重要工作就是尽量多的收集用户未来在系统上运行的应用有哪些——进而选取出用户最重要的若干个应用作为测试程序的候选。这些程序还要进一步加工改造,如限定应用输入的问题规模使得程序可以在单个节点上执行,而且执行时间要比较适中,一般在10分钟到1小时之间;程序还需对计算结果进行正确性检查等。

  陈教授表示,在清华大学自身计划采购的探索4号百万亿次计算机系统的评测中,863评测中心就使用上述面向应用的评测方法,根据校内高性能计算机的重要用户,选取并改造了由全球气候模拟程序,环境计算,计算化学计算程序,生物蛋白质计算等5个程序组成的应用测试集,用于对厂商提供的候选服务器方案进行评测。

  处理器智能特性很重要

  在陈文光教授测试高性能计算系统的过程中,对于英特尔近期推出的至强处理器身上集成的一些智能特性,如RAS、Turbo Boost等,陈教授也谈了谈他的体会。他拿英特尔至强7500的RAS特性举例表示,系统的平均无故障时间是高性能计算机的基础。“一台机器平均无故障时间如果是三年,那么1000台机器组成的系统每天都会有机器故障。”因此,对于大规模需要满负载长时间运行的应用来说,高性能计算更需要处理器RAS所提供的高可靠性。

  另一方面,诸如至强集成的Turbo boost(睿频技术)提供的动态频率提升功能,陈教授认为它能进一步将同构系统变成“异构”系统——使得系统可以动态的平衡主频敏感型应用,为解决高性能计算中的负载不均衡的问题提供了一种新的可能。

  虚拟化管理更加方便 国内高性能计算正飞速发展

  英特尔(中国)品牌与市场策略经理顾凡先生曾指出,英特尔在高性能领域的努力不仅仅是为了提升其计算性能,降低计算成本;而是整体的提升高性能计算生态——尤其是应用软件和管理方式。以中国的情况来说,在高性能计算机硬件的设计和搭建上已经不弱于发达国家,但是在应用方面的发展却还存在很大差距。

  对于高性能计算的管理问题,目前国内已经有类似Gridview等集群软件能动态地对系统进行监控,而进一步来看虚拟化技术也为高性能计算提供了很好的管理特性。陈教授表示,用户以前必须适应高性能计算机的环境(操作系统等)——应用和环境不匹配时需要用户重新更改应用程序。而现在,虚拟化技术解决了类似的问题,并且提供了应用间的隔离特性——大大增强了管理性,虽然也降低了一些性能,但是从成本上和应用上看都有可取之处。

  而对于目前国内高性能计算应用匮乏的问题,陈教授认为对于高等院校来说目前相关应用已经在飞速增加。而企业和社会上对于高性能计算的应用可能还存在一些认识上的瓶颈,在程序开发上也还尚未成熟。而目前国外高性能计算机大多运行着支持4096核以上的应用程序,而国内超算中心租用给客户的商业化应用软件大多在128核以下,甚至大部分都运行在32核以内。这表示目前我国高性能计算编程和应用匮乏,只有科研、能源和教育等领域的高性能计算应用在做领军式的开拓和发展。

  据了解, 清华大学正在积极扩建自身的高性能计算中心,预计将采用900个基于英特尔至强5600处理器的节点打造计算能力达到每秒100 万亿次浮点运算级别的超算系统,为日益增加的高性能计算需求提供充足的空间。另一方面,清华大学也计划在该系统中采用基于英特尔至强7500处理器的胖节点,以应对OpenMP类型的应用。而对于这次升级过程中的任务和应用迁移问题,陈教授表示,高校的应用一般都是自己开发的(有源代码),因此只需要重新编译即可。

0
相关文章