【IT168 应用】
测试摘要
- 假定单台C410X满配16颗M2070GPU,那么运行NAMD所推荐的硬件解决方案包括了8个节点。在STMV上进行标准的大型NAMD基准测试,C410X解决方案的性能是集群中只包含性能相当CPU的3.5倍。
- 如果计算节点将运行NAMD,那么建议采用X5650处理器。
▲图1:Dell GPGPU解决方案基于C410X和两台PEC6100
简介
通用GPU非常适合对分子动力学模拟计算进行加速。GPU能够显著提升通用分子动力学(MD)代码的性能,使研究人员使用更为高效、更为密集的高性能计算架构成为了可能。NAMD非常有名而且通常使用MD模拟器。NAMD是专为大型分子生物学系统进行高性能模拟而设计的并行分子动力学代码。NAMD由伊利诺州大学香槟分校的理论与计算生物物理组(TCB)以及并行编程实验室(PPL)联合开发,不仅免费而且开源。根据问题规模的不同,NAMD提供了四种基准测试。下表给出了四种基准测试以及对应的问题规模(原子数量):
▲
基准测试的性能通过“day/ns”来衡量。对于一个给定的计算系统,“day/ns”表明了进行1ns的实时模拟所需要的计算天数。因此对一个给定的架构来说,“day/ns”的值越低说明性能越好。Dell HPC工程团队配置了基于GPU的解决方案并对其进行了评估,以帮助用户根据自己特定的需求选择相应的解决方案。在如图1所示的配置中,包括了一到两台PowerEdge C6100主机服务器并与PowerEdge C410x进行了连接,构成了4节点到8节点的计算集群。GPU解决方案使用了16个NVIDA ™ Tesla M2070 GPU以及CUDA 4.0软件栈。所运行的NAMD代码并没有经过任何优化。但是为了在并行运行时获取更好的可扩展性,对以下参数进行了修改(根据在并行计算机上进行基准测试的指南修改):
▲
软硬件配置
图2展示了所使用的硬件配置,每个计算节点(PE C6100)使用iPASS线缆(图中用红色表示)连接到PE C410x,同时为了满足结点之间进行通信的需求,所有的计算节点还与InfiniBand交换机进行了连接(图中用蓝色表示)。4到8节点NAMD配置所使用的软硬件组件如下图所示:
▲图2:第二代PCIe x16 iPASS线缆以及InfiniBand连接图。8个计算节点使用iPASS线缆连接到C410x。
▲
性能与问题的规模以及主机处理器密切相关
图3对在8节点集群进行的4个NAMD基准测试的性能指标进行了展示。对只包含CPU的集群,包含2个GPU/节点的集群,以及更换主机处理器的集群进行了对比测试,以确定GPU和CPU对性能的总体影响。正如图3所示,当问题规模较小时,采用只包含CPU的集群性能更好。但是当问题的规模更大时,集群中使用了GPU时性能更好。当原子规模位于100K到300K之间时,采用GPU的集群的性能优势逐渐显现出来。当问题的规模更大时,使用GPU的性能优势更加明显。规模最大的STMV显示,与仅仅采用CPU(X5670处理器)的集群相比,采用GPU的集群的性能足足提升了3.5倍。
▲图3:在8节点集群上进行NAMD基准测试的性能对比。性能指标以“day/ns”表示(值越低越好)
使用速度更快的X5670 2.93GHz处理器在以上所有测试中都能够提升性能。但是使用速度更快的处理器对仅采用CPU而没有采用GPU的集群的性能影响更为显著。对于采用了GPU的集群来说,多数计算密集型任务交由GPU处理,因此使用X5670的性能与使用X5650相比没有太大差别。通过观察问题规模最大的两组性能测试,可以发现采用速度更快的处理器的集群的性能提升了6.7%,但是功率消耗却增加了7%而且硬件成本也更高。再观察一下问题规模最大的一组性能测试,可以发现采用速度更快的处理器的集群的性能只提升了0.08%,但是却以功率消耗增加9.6%以及硬件成本更高为代价。基于上述事实,我们推荐在计算节点中使用X5650处理器,因为当问题规模更大时(1百万个原子或者更多),处理器之间的性能差异微乎其微。从现在开始,我们的测试仅关注问题规模更大的NAMD基准测试。
选择集群规模
图4对4节点集群以及8节点集群在两个大规模NAMD基准测试中的性能指标进行了对比,节点数不同的两个集群所使用的GPU数量都是16颗。正如图4所示,F1ATPASE大约有327K个原子,在8节点集群上基准测试的性能稍好。但是STMV大约有1066K个原子,在8节点集群上基准测试的性能要比4节点集群高出了35%。
▲图4:4节点集群以及8节点集群NAMD基准测试的性能对比。性能指标以“day/ns”表示(值越低越好)
▲图5:对比NAMD基准测试在4节点以及8节点集群上的功率消耗
图5对两个NAMD基准测试在4节点以及8节点集群上的功率消耗进行了对比。F1ATPASE功率多消耗26%可以获得2%的性能提升。STMV功率多消耗32%,可以获得35%的性能提升。在4节点集群和8节点集群之间进行选择取决于研究的问题中所使用的原子数。当研究的问题规模所使用的原子数大约为325K或者更少时,使用4节点集群可能能够带来最大的价值。因为这时4节点集群与8节点集群的性能相近,但是软硬件成本以及消耗的功率都更低。但是对原子数为1000K或者是更多的问题来说,8节点集群可能能够带来最大的价值。
了解更多内容可访问高性能计算社区。