【IT168 报道】"仅用三个机柜,在不到10平米的空间里构建一个10万亿次的超算平台,这在以前是不可想象的。"
中科院超级计算环境合肥分中心项目负责人在谈到超算平台的建设方案时感触颇深。而随着这一基于刀片架构、聚合计算能力达到12万亿次/秒的建设方案通过中科院专家的评审,合肥分中心的"十万亿次"超级计算蓝图正在逐步变为现实。
速度的召唤
中科院超级计算合肥分中心项目,是中科院构建分布式高性能超级计算环境工程的一部分。按照《中国科学院"十一五"信息化规划》,中科院将由超级计算总中心、分中心和所级计算中心构成三层结构的网络环境,最终形成具有总计算能力200万亿次/秒以上的分布式高性能计算环境,为科学院科研信息化建设提供支撑服务,并成为中国国家网格的重要基础设施。中科院合肥物质科学研究院作为国内顶尖的物质科学研究机构,成为首批七个分中心的承建单位之一。
项目负责人介绍,研究院主要从事核聚变、大气光学、智能机器人传感器等尖端技术的研究,并承担着核聚变领域的四大科学工程--HT-7、EAST、ITER和强磁场实验装置,高性能计算系统成为全院日常工作正常推进的必需装备。
"在平台建设目标上,我们有一个优先级的考虑。" 负责人表示,"在预算范围内,运算速度是第一位的,速度越快对于我们科研工作的支持就越有力。在解决速度问题的基础上,我们才会综合考量成本、管理等其他因素。"
性能、节能、智能--浪潮三部曲
在项目招标信息发出之后,多家厂商均根据自身的应用理解提出了解决方案,并搭建了小规模集群进行实地测试。最终,聚合计算能力将达到12万亿次/秒,总存储容量24.2TB的浪潮天梭TS10000高性能解决方案成为赢家。
"浪潮系统12万亿次的计算性能大大超出了10万亿次的建设目标,而方案在节能和智能化管理方面的独到设计,则使系统呈现出高效均衡的特点,为我们分中心的日常运维和长期建设打下了很好的基础。" 项目负责人对浪潮的方案给予了高度的肯定。
据了解,计算节点采用全刀片架构、搭载Nehalem新平台的天梭TS10000方案,在解决思路上重点突出强大计算能力与节能、智能化管理的有机结合。
整个系统共由122个节点构成,其中计算节点112个,全部采用基于全新至强?5560处理器的浪潮NX7140N刀片,可提供224颗CPU、896个核心的强大计算力,搭配每刀24G 的ECC DDR3内存,使整个系统能够充分满足高密度计算的要求。而为了使系统的I/O速度跟上CPU,系统不仅配备了高速DDR InfiniBand网络和LUSTRE并行文件系统,还在国内HPC领域首次大规模应用了SSD固态硬盘来提升读写速度。
计算与I/O的有机结合,使得整套方案在总体性能上表现卓越。在VASP算例的实测中,浪潮天梭以68.2%的加速比居于领先地位。而在Vien2k算例测试中,浪潮天梭也有近50%的性能优势。
在节能方面,这套仅占用三个机柜、规划占地面积在10平米以内的计算系统同样出色。与传统的机架式服务器和普通刀片相比,拥有7U 14刀高计算密度的NX7140N,单位计算力的节能优势十分明显,是业界最节能的刀片产品。同时,它还采用了转换效率高达93%的电源,进一步保证了每一度电都能用到实处。
智能化管理是系统的另外一大亮点。方案引入千兆以太网,为作业调度及网络汇聚层的监管提供无阻塞通信,还部署了LSF作业调度系统,以提高大规模应用管理的效率和便捷性。此外,浪潮TSMM2.0监控管理软件,则能够实现对整套系统的单一映射,成为系统管理员监管系统各个节点的统一平台。
十万亿次梦想 国庆节前实现
据项目负责人透露,在经过中科院信息化工作领导小组和中科院超算总中心专家的认证通过后,整个方案已经进入了部署实施阶段,由研究院计算中心、浪潮和Intel三方联合组成的技术团队正在着手系统搭建和软硬件安装调试工作。
"系统的部署和优化工作开展的十分专业细致。包含了从系统级到代码级的调优和相关的软件分析和应用开发,着重解决平台搭建中遇到的软件兼容性和I/O问题。到国庆前,这套十二万亿次超算平台就将向院内外正式开放。"项目负责人最后谈到。