【IT168 专稿】2009年国内高性能计算排行榜Top100上,来自南京大学的高性能计算系统以34万亿次的Linpack成绩排名第七(国际Top500排名203)。中秋节前夕,记者来到南京大学高性能计算中心采访了负责此项目的周庆林老师,并参观了该高性能计算中心机房。
▲南京大学高性能计算中心 周庆林老师
据了解,这套HPC系统采用基于至强5500的IBM HS22刀片服务器打造,于去年第二季度开始建设,今年7月份完成全部调试工作正式投入对南京大学各科学院系的高性能计算服务。
1、南京大学高性能计算中心的建设背景
据周庆林老师介绍,南京大学从事高性能计算方面的建设始于1980年天文系的应用需求。随着科学技术以及教育需求的提升,各个院系也相继开始购买服务器解决自己的计算需求。但是各个院系由于成本、人力等原因自己建设科研教学用高性能计算节点过于浪费,且不符合资源利用最大化的需求。因此,在985工程二期的项目中,南京大学拨出了专门款项购置和更新全校所需的共享大型计算设备,力求为全校理科院系提供更强大的计算能力。
南京大学高性能计算中心也因此孕育而生。在论证中南京大学的专家组一致认为,作为一个高性能计算中心,需要为科研计算提供两类设备:一类为共享内存型SMP或CCNUMA架构小型机;另一类为x86架构机架或刀片服务器,提供通用计算。
但是到了2005年左右,x86架构高性能计算集群开始升温,大大动摇了传统共享内存模式的小型机地位。因此,南京大学打算做小规模的小型机,另一部分做x86集群——但是有两个问题:第一是机房选址问题,第二是到底选择什么样的x86服务器。
周庆林老师表示,当时再机房选址时主要考虑了两个方面的问题:1、机房的承重问题,由于每个机架塞满服务器之后有数吨重,建设在高楼层需要对楼层进行加固,因此最终选择了建设在一楼。2、机房的制冷和走线问题,南京大学当时选择了物理系1层做数据中心机房,但是问题在于电力配给不够,考虑到增容需要对楼宇进行改造,因此最后选择在天文系的楼宇建设机房。
机房选址的问题解决之后,究竟选择机架服务器还是刀片服务器做高性能计算中心的计算节点呢?周庆林老师表示,当时专家组也经过了一些讨论,并结合学校有些院系的使用经验,最终选择了刀片服务器。据周老师介绍,刀片服务器至今已经经过了几代的发展,日趋成熟。而机架服务器相对来说存在布线、管理较复杂的问题。
南京大学高性能计算中心从选用基于至强平台的刀片服务器至今,没有出现过任何计算节点的问题,稳定性方面不弱于原来的小型机机架(甚至更好)。散热方面,目前高端刀片机箱由于计算密度高,计算资源集中,因此只要做好冷热通道就能很好的解决散热效率,满足系统需求(第三节有机房的具体介绍,会着重介绍散热)。
2、南京大学高性能计算中心架构揭秘
确定了选择刀片服务器之后,通过招标南京大学选择了IBM BladeCenter HS22刀片服务器作为高性能计算系统的计算节点。整个系统由10个登陆节点,4个管理节点,54TB高速并行存储、128TB SAN架构存储以及4x Infiniband全线速网络、千兆作业调度管理网络等构成。
▲南京大学高性能计算中心系统架构图
据周老师介绍,全套系统由402片HS22刀片服务器构成,每节点12GB内存,2颗英特尔至强5500系列处理器(主频2.66GHz,8MB Cache),20Gb Infiniband HCA卡。其中有10片HS22刀片服务器用作登陆节点,每节点24GB内存,4Gb光纤卡,20Gb Infiniband以及千兆网卡。另有30台刀片机箱与上述计算节点配套,拥有16口Infiniband交换模块、六口千兆交换机和两个百兆管理网口。
网络交换方面,周老师介绍说他们采用了两台288口20Gb 4x Infiniband交换机(当时还没有成熟的40Gb Infiniband交换设别),组成全线速无阻塞并行计算网络。此外还有四台4口万兆上行48口BNT的交换机用作作业调度和管理。
对于刀片服务器的散热和供电是重中之重,南大高性能计算中心采用了4台90千瓦制冷量的艾默生Libert Pex机房精密空调,120千瓦UPS拥有96节汤式100AH电池,可在断电的情况下维持数据中心1小时时间,足够工作负载暂停和系统正常关闭。此外,南京大学高性能中心还配备了三个配电柜,提供500KVA机房电力增容,一套七氟丙烷气体消防灭火系统为机房提供消防保障。
之所以选择至强平台的考虑有三点:1、至强5500通过QPI快速互联通道、内存控制器集成等技术在高性能计算中已经具有强大的性能优势;2、从性价比和高性能计算的整合率来看,至强5500拥有更好的性能,更低的功耗;3、南京大学高性能计算中心计划将至强5500平滑升级迁移到至强5600处理器,平台不变仅刷新bois就可以将系统性能提升约50%。
3、图解南京大学高性能计算中心
▲走进高性能计算中心的机房,首先可以看到外侧监控人员的坐席
▲通过监控软件,外面的管理员可以轻松的了解目前设备的工作情况,包括温度、供电、机房视频监控等
▲周庆林老师向我们展示了管理平台的功能之一:每天向手机发短信汇报目前机房的状况,一旦遇到问题也会立刻发短信通知到指定的手机。
▲机房内是摆放整齐的机柜,可以看到上面用玻璃从机柜正中封死了机房后部和前部,这样做的好处是隔绝了冷热通道——空调的冷风从下面(架高60cm\)送到前部,被机柜风扇吸入排出到后面直接送给空调。封死之后冷热通道彻底隔绝,大大提升了散热效率。
▲打开机架,可以看到IBM HS22刀片服务器,这个机柜比较特殊,可以看到上面的那个刀片机箱只插了10个刀片——这既是我们前文提到的管理登陆节点,而下面和旁边的其他刀片则插满了14个计算刀片
▲IBM x3650服务器用作并行存储,为实时计算的数据调用提供了一个缓冲(前端是刀片,后端是SAN)
▲IBM DS3000 SAN负责后端存储
▲两台288口20Gb 4x Infiniband交换机
▲如此多的Infiniband连接线,码放的非常整齐
▲机房的消防设施
▲七氟丙烷灭火系统的储气罐——有毒,可窒息
▲96组UPS电池柜一角