在高密度与低功耗间找到平衡
对于大规模高性能计算机系统而言,如何提高系统密度并降低功耗是研制人员面临的关键问题之一。为提高曙光5000A的系统密度,中科院计算所联合曙光公司,研制了具有自主知识产权的4CPU 4核高密度刀片主板和基于该主板的世界上第一款7U高度的10片的工业标准刀片服务器。该刀片服务器可以实现单机箱40CPU,160核的超高计算密度,并实现了单节点内部的并行计算。
由于采用高密度服务器,曙光5000A能在大约75平方米的占地面积内聚集230万亿次的计算能力,而其满负载运行时不带水冷系统功耗只有700千瓦,带水冷系统的功耗仅为1000千瓦。这一方面提高了机群系统的可扩展性,另一方面降低了整个系统地运行成本。
为了降低功耗,曙光5000A在研发过程中,有CPU芯片、内存、刀片服务器、软件、散热系统等不同层面都采用了许多节能技术或产品。比如,曙光5000A采用的是1.9GHz的AMD 65瓦低功耗处理器,而不是主频更高的普通95瓦CPU,虽然会牺牲20%的性能,但却换来了每年节约200万度电的好处。曙光5000A还首次采用了水冷系统,通过使用水冷系统,降低了高性能计算系统对客户机房的要求,同时提高了冷却效率。水冷系统的设计实现了水电分离,保证了系统的安全性。同时水冷系统还包括备份的被动散热系统,可以在水冷失效的情况下保证系统的正常运行,提高了系统的稳定性。
据聂华介绍,曙光5000A之所以选择AMD处理器,在技术层面主要有两方面的原因:一是曙光5000A的设计目标是“高效能”,为了达到这个目标,不得不采用四路SMP系统而不是双路系统来做节点,尽管现在双路刀片的技术已经很成熟,但针对四路以上的系统,曙光认为前端总线架构会有限制,而AMD处理器的直连架构更合适一些。但聂华也表示,直连内存架构是未来的趋势所在,英特尔下半年推出的Nehalem采用了和AMD几乎一样的架构,相信会对AMD构成较大的挑战。另一方面,由于节能是曙光5000A设计过程中非常重要的一点,对于上海超算这样的大用户来说,不仅要面对日常巨大的电费开支,而且在电力需求超过6兆瓦之后,甚至需要建设分级电站来保证电力供应,这样会导致更高的成本,所以在这种情况下,即便只降低10%的功耗也有非常大的意义,AMD的CPU在这方面有较好的价值。