曙光4000L机群系统结构
考虑到目前湘潭大学学院高性能计算系统的应用现状,经过与湘潭大学的充分沟通与实地考虑,最后决定采用基于机群架构的设计思想:高性能节点机的倾力打造与机柜子系统的搭建。
该系统共采用68个节点,其中64个参与运算作为计算节点,其它四个节点分别承担I/O吞吐服务、用户登录服务、整个机群系统的管理、监控服务。
1)计算节点
在高性能计算领域里,计算节点是高性能计算系统中的单个计算机系统,它的计算能力是关系到整个系统性能的最主要因素,是整个高性能计算系统的基础,曙光公司选择了2U机架式的服务器节点机——曙光天阔A620r-E作为计算节点。
天阔A620r-E能稳定运行多种32位和64位主流操作系统,采用了基于Opteron 64位处理器的架构,配置两颗AMD Opteron 270处理器,在单处理器上显示了强大的解决问题的能力,在多处理器系统上体现了近乎线性的性能加速比。在湘潭大学的高性能计算系统的搭建中,各院系的应用对于节点机的结构有着很高的要求,同时要考虑到应用的粒度、应用的计算特性、应用时效性等方面的因素。尤其是物理系,要保证所使用的商业软件能正常运行,这就要求能够运行64位程序的同时向下兼容32位应用,同时对CUP的浮点运算能力要求较高,需具有很高的系统峰值。
曙光天阔A620r-E作为计算节点搭建的机群系统,其理论峰值运算能力达到1024 Gflops,Linpack 效率可达70%,实际运算能力可达716.8 Gflops,很好的解决了湘潭大学一直以来服务器处理能力不足,计算规模小的问题。曙光天阔A620r-E具有处理速度快、可用性强、易管理、可伸缩和噪音低等方面的强大优势,全面提高了湘潭大学网络系统效能。
2)机柜子系统
在系统搭建以及优化过程中,由于机柜子系统是整个系统的承载部件,机群的主要子系统都安装在机柜系统中,同时其还承担了整个系统的供电和监控功能,于是在实际考察后,系统配置了一个曙光TC4000L主机机柜,三个扩展机柜,用以安装所有设备和相应的联结系统。
曙光4000L独有SKVM网络、管理网络技术,大大减少节点机之间的连线,提高了系统的稳定性和可靠性。而机柜中机群电源系统、主干交换机、内置控制台等设备均采用了精心设计的内部网络和电源布线,同时做到近插接,构造了整洁的机柜内部环境,极大地方便了用户设备调试和问题分析,满足了各院系的整体应用需求。
3)Myrinet 通信网络
此外,考虑到高性能计算对于网络性能的较高需求,湘潭大学的高性能计算系统采用了Myrinet 高速的通信网络,从而实现了高速度、低延迟、点对点的通讯能力。此项设计在解决数学的实际应用中尤为突出,数学系主要使用该系统作为并行程序设计应用,对一些算法的设计和优化进行操作,为其他学院提供一些程序设计的支持,对系统的通讯与交换能力有很高的要求。同时,在网络搭建中还采用千兆的无阻塞、全互连的快速网络,用以实现I/O吞吐,并通过网卡邦定技术,增加带宽,做到资源的充分利用。
4)用户管理系统
在高性能计算环境的实现同时,由于三院共享这套高性能计算系统,用户的管理则显得非常重要,为了更好的方便用户使用,工程师又通过曙光4000L机群操作系统软件(DCOS)对湘潭大学进行了高性能计算系统的管理优化,曙光4000L机群管理软件大大提高了机器的使用率,减少了不必要的用户资源冲突,同时兼顾资源的共享和资源的合理应用。
DCOS管理系统是一套多功能、易使用、可扩展的实用化机群管理工具,包含几个模块(DCMS、Mterm、DCIS、DCMM),完全符合SUMA标准,即具有可扩展性、可用性、可管理性和可靠性四个方面的特性。通过曙光的机群操作系统工具,可以实现对整个系统所有节点的全面整合,曙光的机群操作系统支持各种异构平台,在使用上更加方便。
5)全光纤磁盘阵列系统
最后,本方案采用高可靠性、高可管理性、高性价比的全光纤磁盘阵列系统,保证了数据吞吐的高效性和可靠性,有助于满足用户的今天的各种存储需求,而且为满足未来存储需求的持续增长奠定了良好基础。