服务器 频道

实测: 办公桌上的“万亿次超算中心”

 【IT168 专稿】

     一、测试目的

    2009年3月2日,浪潮发布“倚天”桌面超级计算机(以下简称浪潮“倚天”),单机计算能力最高可达每秒4万亿次,市场售价仅为5万元,真正实现了将超级计算机从庞大的机房和计算中心转移到了用户的桌面。

    浪潮“倚天” 采用CPU-GPU协同计算加速架构,以CPU和GPU双计算核心实现协同计算加速。其中,CPU专职逻辑选择、判断跳转和IO通信计算,GPU专职计算密集型、高度并行的计算任务,使得计算资源得到合理分配,计算力被充分释放,计算性能实现几倍到几百倍的增长。浪潮“倚天”在相当于普通PC的体积上实现了万亿次的计算性能,为大量数据并行处理、计算密集型应用提供了一种全新的超高性价比的解决方案。

    为了对其在实际高性能计算应用中的性能和产品特性进行评估,我们挑选了分子动力学和天体物理学领域的两个HPC应用进行了测试,对比浪潮“倚天”与X86架构集群在实际应用环境下的计算性能,以及它对单机应用的加速比,我们特地设计了两个测试场景(这里的浪潮“倚天”按照一万亿次计算能力配置)。

二、测试方案1:浪潮“倚天”VS 4节点X86集群

对比双方介绍:

    浪潮“倚天”与4节点X86架构高性能计算集群的比较,集群节点采用了1U双路机架服务器,下表是对比双方的配置:

测试算例:

    分子动力学模拟是通过求解系统中所有粒子的运动方程来得到粒子的运动轨迹。在模拟中,粒子间相互作用的计算占用了大部分机时,不同的粒子间势能模型需要的计算时间是不同的,其中势能函数随距离衰减的速度是一个重要的影响因素。分子动力学模拟在新材料设计、蛋白质折叠、新药研发等领域中发挥着极为重要的作用,由于计算量大,这是一类非常典型的高性能计算应用。

    Nanopore算例是通过分子动力学的方法,利用NAMD软件进行模拟计算,对硅纳米孔柱阵列的排列结构进行研究,并用可视化软件VMD将其显示出来。该算例既可以在集群上进行任务分发和并行计算,也可以在支持CUDA架构的NVIDIA GPU上进行单GPU运算或多GPU并行运算,具备比较可能和比较意义。

    在运行机制上,NAMD基于Charm++并行支持库,高端硬件平台上可以保持较高并行效率直到数千个处理器规模。NAMD最有特色的地方是通过Charm++实现了动态负载平衡,能够很容易地扩展到数百乃至数千个处理器上运行,效率却不会下降太多。

    VMD是分子可视化软件使用OpenGL提供高质量的3D分子图形,用于显示、动画演示和分析大的生物分子体系,原子、分子、残基的数量,以及动画画面的数量,在内存允许的范围内没有任何限制。 

测试过程

    在集群上的NAMD采用charmrun软件进行任务分发,这里采用了VMD图形显示和NAMD计算同时进行的运行方式。即开启VMD进行图形化对算例的分子结构进行显示,之后connect进行计算,实时计算其每个时刻的各种状态。

    此套测试程序中,namd2为namd的mpi程序,除namd自身的功能外,它还负责进行消息传递和任务分发等,namd_openmpi_gpu为用CUDA改写后的namd程序。测试命令为

    mpirun ./namd2 namd_openmpi_gpu nanopore.namd

    而对于集群上的namd程序,可以采用charmrun命令来进行并行计算,+p32代表用32个核来进行并行计算,测试命令为

    charmrun +p32 ./namd nanopore.namd

    为了方便操作,我们仅计算了1000个step下的计算时间作为对比。

测试结果

    由测试结果截图可以看出,浪潮“倚天”所用的时间为65.9s (wallclock),而4节点集群同样的计算任务所用的时间为120.7s,可见在该算例下,浪潮“倚天”的运算效率大约是4节点集群的两倍。此外,利用VMD启动可视化分子模型时,浪潮“倚天”的VMD建模速度更是明显比集群快。

图1:浪潮“倚天”的测试成绩

 

图2:集群测试成绩


 

0
相关文章