服务器 频道

清华大学高性能计算机测试与选型经验谈

  HPC选型:应用导向是首要原则

  基于清华大学在HPC领域的多种角色定位,陈文光接触过大量来自不同厂家的高性能计算机。谈到高性能计算机选型,他认为与评测类似,以应用为导向仍然是最为重要的原则。

  我们知道,无论是全球的TOP500高性能计算机排行榜,还是国内的TOP100,都是以Linpack测试值来评定机器性能高低的,这些排行榜也为许多用户在HPC选型时提供了一些参考。陈文光对此提出了不同的看法:高性能计算机性能不能简单地用一个数字来表达!

  在陈文光看来,性能是一个程序或一组程序在这套计算机上运行所表现出来的特性,因此,谈到性能,必须说明两个前提条件,即机器是什么,应用是什么。用户如果要购买高性能计算机,不能只看峰值速度或Linpack测试速度,最重要的是看实际应用程序在这台机器上的运行性能。

  他告诉记者,在实际情况中,有很多用户,特别是超算中心、高校高性能计算中心的应用程序会有很多,可能有几十、几百个,对此,可以按2:8原则选出使用机时最多的重要应用,然后从中挑选出容易做成小规模测试程序的代表性应用,进而对这些测试程序给出代表性输入,在一两个节点或小规模集群上测试,最后通过预测模型来分析在更大规模系统上的性能表现,以提供选型时的性能与配置依据。

  陈文光特别强调,对于HPC系统计算模块的选型,业界已经有相对比较成熟的定量分析方法,而对于HPC存储、I/O方面,国内和国际上都比较忽视。对此,清华大学也一直在进行这方面的研究,对程序的I/O行为进行建模和分析,以找到非常好的的配置。

  HPC云:还有很长一段路要走

  谈到如何在虚拟机和云计算平台上提供高性能计算服务这一趋势,陈文光认为,还有很长一段路要走。日前清华大学也在针对Amazon EC2上的CCI集群版虚拟机进行测试,最大的一个发现是,与本地的机器相比,其使用的万兆以太网延迟太大,一般本地用的Infiniband延迟只有一点几微秒,而基于万兆以太网上的云平台的延迟达到了40-50微秒,“这对于那些对I/O延迟很敏感的应用来说体验是会很差的。”

  针对目前一些超算中心也在向云平台转变的现象,陈文光持谨慎态度,他认为,目前在HPC云这块,Amazon做得相对比较好,其他厂商还没有很成熟的方案出来。因为与传统超算中心运营模式相比,HPC云需要准备好一整套的机制,包括计费、流程、管理等,底层I/O的问题也会更加复杂,因此,超算中心不能简单地买一套软件来装上就能实现向云平台的转变。

0
相关文章