【IT168 应用】
测试摘要
- 假定单台C410X满配16颗M2070GPU,那么运行NAMD所推荐的硬件解决方案包括了8个节点。在STMV上进行标准的大型NAMD基准测试,C410X解决方案的性能是集群中只包含性能相当CPU的3.5倍。
- 如果计算节点将运行NAMD,那么建议采用X5650处理器。
▲图1:Dell GPGPU解决方案基于C410X和两台PEC6100
简介
通用GPU非常适合对分子动力学模拟计算进行加速。GPU能够显著提升通用分子动力学(MD)代码的性能,使研究人员使用更为高效、更为密集的高性能计算架构成为了可能。NAMD非常有名而且通常使用MD模拟器。NAMD是专为大型分子生物学系统进行高性能模拟而设计的并行分子动力学代码。NAMD由伊利诺州大学香槟分校的理论与计算生物物理组(TCB)以及并行编程实验室(PPL)联合开发,不仅免费而且开源。根据问题规模的不同,NAMD提供了四种基准测试。下表给出了四种基准测试以及对应的问题规模(原子数量):
▲
基准测试的性能通过“day/ns”来衡量。对于一个给定的计算系统,“day/ns”表明了进行1ns的实时模拟所需要的计算天数。因此对一个给定的架构来说,“day/ns”的值越低说明性能越好。Dell HPC工程团队配置了基于GPU的解决方案并对其进行了评估,以帮助用户根据自己特定的需求选择相应的解决方案。在如图1所示的配置中,包括了一到两台PowerEdge C6100主机服务器并与PowerEdge C410x进行了连接,构成了4节点到8节点的计算集群。GPU解决方案使用了16个NVIDA ™ Tesla M2070 GPU以及CUDA 4.0软件栈。所运行的NAMD代码并没有经过任何优化。但是为了在并行运行时获取更好的可扩展性,对以下参数进行了修改(根据在并行计算机上进行基准测试的指南修改):
▲
软硬件配置
图2展示了所使用的硬件配置,每个计算节点(PE C6100)使用iPASS线缆(图中用红色表示)连接到PE C410x,同时为了满足结点之间进行通信的需求,所有的计算节点还与InfiniBand交换机进行了连接(图中用蓝色表示)。4到8节点NAMD配置所使用的软硬件组件如下图所示:
▲图2:第二代PCIe x16 iPASS线缆以及InfiniBand连接图。8个计算节点使用iPASS线缆连接到C410x。
▲