性能与问题的规模以及主机处理器密切相关
图3对在8节点集群进行的4个NAMD基准测试的性能指标进行了展示。对只包含CPU的集群,包含2个GPU/节点的集群,以及更换主机处理器的集群进行了对比测试,以确定GPU和CPU对性能的总体影响。正如图3所示,当问题规模较小时,采用只包含CPU的集群性能更好。但是当问题的规模更大时,集群中使用了GPU时性能更好。当原子规模位于100K到300K之间时,采用GPU的集群的性能优势逐渐显现出来。当问题的规模更大时,使用GPU的性能优势更加明显。规模最大的STMV显示,与仅仅采用CPU(X5670处理器)的集群相比,采用GPU的集群的性能足足提升了3.5倍。
▲图3:在8节点集群上进行NAMD基准测试的性能对比。性能指标以“day/ns”表示(值越低越好)
使用速度更快的X5670 2.93GHz处理器在以上所有测试中都能够提升性能。但是使用速度更快的处理器对仅采用CPU而没有采用GPU的集群的性能影响更为显著。对于采用了GPU的集群来说,多数计算密集型任务交由GPU处理,因此使用X5670的性能与使用X5650相比没有太大差别。通过观察问题规模最大的两组性能测试,可以发现采用速度更快的处理器的集群的性能提升了6.7%,但是功率消耗却增加了7%而且硬件成本也更高。再观察一下问题规模最大的一组性能测试,可以发现采用速度更快的处理器的集群的性能只提升了0.08%,但是却以功率消耗增加9.6%以及硬件成本更高为代价。基于上述事实,我们推荐在计算节点中使用X5650处理器,因为当问题规模更大时(1百万个原子或者更多),处理器之间的性能差异微乎其微。从现在开始,我们的测试仅关注问题规模更大的NAMD基准测试。
选择集群规模
图4对4节点集群以及8节点集群在两个大规模NAMD基准测试中的性能指标进行了对比,节点数不同的两个集群所使用的GPU数量都是16颗。正如图4所示,F1ATPASE大约有327K个原子,在8节点集群上基准测试的性能稍好。但是STMV大约有1066K个原子,在8节点集群上基准测试的性能要比4节点集群高出了35%。
▲图4:4节点集群以及8节点集群NAMD基准测试的性能对比。性能指标以“day/ns”表示(值越低越好)
▲图5:对比NAMD基准测试在4节点以及8节点集群上的功率消耗
图5对两个NAMD基准测试在4节点以及8节点集群上的功率消耗进行了对比。F1ATPASE功率多消耗26%可以获得2%的性能提升。STMV功率多消耗32%,可以获得35%的性能提升。在4节点集群和8节点集群之间进行选择取决于研究的问题中所使用的原子数。当研究的问题规模所使用的原子数大约为325K或者更少时,使用4节点集群可能能够带来最大的价值。因为这时4节点集群与8节点集群的性能相近,但是软硬件成本以及消耗的功率都更低。但是对原子数为1000K或者是更多的问题来说,8节点集群可能能够带来最大的价值。
了解更多内容可访问高性能计算社区。