采用Infiniband构建高性能计算平台-服务器专区

采用Infiniband构建高性能计算平台

作者：IT168服务器频道编辑：洪钊峰 2008-01-07 00:00

3. 应用分析
3.1. Fluent应用分析

目前CFD模拟应用是制造业内增长最快的一种应用，fluent是CFD领域里最广泛使用的一种商用软件，用来模拟从不可压缩到高度可压缩范围内的复杂流动。由于采用了多种求解方法和多重网格加速收敛技术，因而FLUENT能达到非常好的的收敛速度和求解精度。灵活的非结构化网格和基于解算的自适应网格技术及成熟的物理模型，使FLUENT在层流、转捩和湍流、传热、化学反应、多相流、多孔介质等方面有广泛应用。

下图描述的是在fluent6.2上进行的千兆以太网络和Infiniband网络的性能对比。

测试环境：
硬件环境：采用的主频2.0G Hz的opteron双核处理器，计算节点为2G内存配置。
操作系统：redhat EL3.0
应用软件：fluent6.2，测试时划分的网格数在3.2万-900万之内。
并行环境：在Infiniband平台上为silverstorm mpi 3.0
在以太网平台上为mpich1.2

测试结果如下图所示

图中横坐标为计算环境中的CPU数量，纵坐标为应用运行所用的时间。由图中可以看出，对千兆以太网（粉色曲线）来说，cluster内处理器未到达128时系统的运行时间会随着处理器的增加而缩短，当处理器逐渐增加，超过128颗CPU后，系统的运行时间并不会继续缩短，而是逐渐趋于稳定，由此可以判断，在千兆以太网环境下，fluent应用的拐点即为128CPU。对Infiniband网络（蓝色曲线）分析：当系统内到达196处理器时还未出现拐点，可以判定，其相对于千兆以太网性能有所增加。纵向比较，当处理器规模为64颗处理器之后，Infiniband网络的性能比千兆网的性能提高的更多：在32处理器时：以太网运行280分钟，Infiniband运行185分钟，性能提升34%；当处理器规模为64时，以太网运行170分钟，Infiniband运行100分钟，性能提升41%；处理器规模为128时，以太网运行130分钟，Infiniband运行55分钟，性能提升57%。综上可以得知节点规模越大，采用Infiniband网络的优势越明显，得到的投资回报率才越高。

所以，在应用Fluent时，我们建议：当系统内处理器规模小于64时，采用千兆以太网络更能有效的保护用户投资，当系统内处理器规模较大，建议采用高速Infiniband网络更能发挥整体优势。

3.2. STAR-CD应用分析

STAR-CD的创始人之一Gosman与Phoenics的创始人Spalding都是英国伦敦大学同一教研室的教授。

STAR-CD 是Simulation of Turbulent flow in Arbitrary Region的缩写，CD是computational Dynamics Ltd。是基于有限容积法的通用流体计算软件，在网格生成方面，采用非结构化网格，单元体可为六面体，四面体，三角形界面的棱柱，金字塔形的锥体以及六种形状的多面体，还可与CAD、CAE软件接口，如ANSYS, IDEAS, NASTRAN, PATRAN, ICEMCFD, GRIDGEN等，这使STAR-CD在适应复杂区域方面的特别优势。

STAR－CD能处理移动网格，用于多级透平的计算，在差分格式方面，纳入了一阶UpWIND,二阶UpWIND,CDS,QUICK,以及一阶UPWIND与CDS或QUICK的混合格式，在压力耦合方面采用SIMPLE，PISO以及称为SIMPLO的算法。在湍流模型方面，有k-e,RNK-ke,ke两层等模型，可计算稳态，非稳态，牛顿，非牛顿流体，多孔介质，亚音速，超音速，多项流等问题. STAR－CD的强项在于汽车工业，汽车发动机内的流动和传热

下图描述的是在STAR-CD上进行的千兆以太网络和Infiniband网络的性能对比。

测试环境：
硬件环境：采用的主频2.0G Hz的opteron双核处理器，计算节点为2G内存配置
操作系统：Rocks 3.3.0 (RedHat Enterprise 3)
应用软件：STAR-CD 3.24 & 3.25
并行环境：在Infiniband平台上为ScaliMPI
在以太网平台上为mpich

测试结果如下图所示

图中横坐标为计算环境中的CPU数量，纵坐标为应用的并行效率。由图中可以看出，对千兆以太网（粉色曲线）来说，它的并行效率很低的，从1颗处理器到48颗处理器，并行效率下降的很快(斜率很大)，所以不适合大规模计算。对于高速Infiniband网络（蓝色曲线）来说，在32处理器以下的规模时，并行效率较低，在32至200颗处理器之间的并行效率都较高，所以Infiniband在大规模机群中更能体现其优势。横向分析二者区别：当处理器规模小于16的时候，千兆以太网的并行效率为75%，Infiniband的并行效率为78%，并没有很多的差别，由于高速网的投入会较高于千兆以太网，所以在小于16处理器的时候Infiniband的性价比并不好。

所以，在应用STAR-CD时我们建议：小于16颗处理器的计算平台中采用千兆网络构建，处理器规模在16至32时根据项目资金，可以选择千兆网络或高速Infiniband网络，超过48颗处理器的计算平台采用高速Infiniband网络。

3.3. LS-Dyna应用分析

LS-Dyna是美国livermore公司开发的三维有限元动力分析软件LS-Dyna经历了2D到3D的发展过程。目前的LS-Dyna是3D版。LS-Dyna的求解器最初采用的是显式积分（explicit）在时域内来求解微分方程，其优点是大为减少了存储量，可以适应比用隐式积分更为复杂更为大的问题。其缺点是是条件稳定的，因此必须选择很小的时间步长。目前的LS-Dyna版本中已经增加了隐式求解（NewMark）和振型叠加法，增加了求解自振频率的部分，还增加了一定的静力计算功能。

下图描述的是在LS-Dyna上进行的千兆以太网络和Infiniband网络的性能对比。

测试环境：
硬件环境：采用的主频3.4G Hz的nocona处理器，计算节点为2G内存配置。
操作系统：redhat3.0
应用软件：LS-DynaMPP 970 (Neon_refined and 3 car collision)
并行环境：在Infiniband平台上为sst mpi 3.1
在以太网平台上为intel mpi

测试结果如下图所示

图中横坐标为计算环境中的CPU数量，纵坐标为应用运行所用的时间。由图中可以看出，对千兆以太网（粉色曲线）来说，当处理器规模在32节点之内，运行时间会随着处理器增多而降低，但是超过32处理器后系统反而会性能下降，所以可以得出32处理器是千兆以太网的性能拐点。而且当系统为32处理器时，千兆以太网运行时间为2200秒，Infiniband网络运行时间为800秒，可知高速网络的性能高于千兆以太网络的3倍。12万多特价，单机一万三。硬盘3500，内存一万伍千三，三条。X工程师刘小倩。再分析高速网络：测试规模达到90颗处理器依然没有出现性能拐点，可以断定在该应用中LSDyna的大规模计算时只能选用高速计算网络。继续进行横向分析：在处理器规模小于16时，运行1250秒；当处理器规模为32时，运行800秒，性能提升36%；当处理器规模为64时，运行600秒，性能提升25%；处理器规模为96时性能提升的也很慢。从而得出：在处理器规模增加阿到64个时，性能提升的不再明显。

所以，在应用LS-Dyna时，我们建议：采用高速网络，尤其是在16处理器~96处理器之间时一定要采用高速网络才可达到一定的处理能力。