【IT168 专稿】7月22日,曙光牵手AMD以及30余家IT媒体和行业媒体在北京文津国际酒店共同举办了曙光5000A高效能计算机研讨会。[专题: 曙光5000发布会视频图文] [视频: 曙光总裁历军谈曙光5000A]
会上,曙光公司副总裁聂华介绍了曙光5000A的更多技术细节,并且集中展示了曙光5000A在自主创新方面的成果。作为代表中国商用高性能计算机的典范之作,曙光5000A的研制成功,再次证明了中国的创新能力。曙光5000A 230万次的峰值运算速度也让中国成为继美国之后,第二个能够研发、生产、应用百万亿次超级计算机的国家。
软硬件体系架构的创新
高性能计算机是一种通过网络将计算、管理、I/O、交换、存储等多个单元模块耦合在一起的计算机系统。曙光5000A的第一套超大型系统将于08年11月份落户“上海超级计算中心”,该系统的刀片计算节点机采用四路四核AMD Barcelona处理器,每个节点64GB内存,胖节点机采用八路四核AMD Barcelona处理器,每个节点128GB内存,整个系统由1650个节点组成庞大机群,共有3万多颗CPU核与120T海量内存,其理论浮点峰值为每秒230万亿次,采用20GB的Infiniband高速网络进行互联,采用了WCCS + SuSe Linux 双操作系统。
为了增加耦合度,过去往往要构建包括以太网、专有网络在内的各种各样的网络。而曙光5000A则采用DDR Infiniband实现计算网络和存储网络的合一,大大简化了整体的网络结构,并创新地使用了新的HPP体系架构。聂华认为,这种结构会引领未来大规模计算机的发展潮流。
而在软件方面,曙光5000A从系统软件、分布式构件、全域监控、全域服务、资源调度管理、立体安全、支撑构件以及应用层等多个层面进行了规划和创新,涉及了从操作系统、编译器、多线程优化、并行优化、TCP/IP、CLI、KVM、功耗监控管理、动态分区与虚拟机管理、入侵检测到虚拟IDS、MPI、负载均衡、作业调度等50多个领域。聂华认为,“从软件层面上来看,曙光5000A系统也构成了真正意义上的有机组合。”
那么,曙光5000A从技术角度来看,到底有什么特色呢?曙光将其概括为“四高两低”,即高性能、高效能、高密度、高可靠性、低功耗、低成本。
曙光5000A在最新TOP500中可排到第七
“高性能”的特点比较容易理解,曙光5000A可谓“大制作”、“大手笔”,其理论运算峰值可以达到230万亿次每秒浮点运算,LINPACK值超过160万亿次每秒,系统效率在70%以上,这个水平可以在最新一期的TOP500全球高性能计算机上排在第七位,尽管曙光5000A实际上错过了这次排名,此前中国最好的成绩是2004年10万亿次曙光4000A排名第十位。从系统所使用的关键部件数量规模来看,也是相当惊人:3万多个CPU核、12万GB(即120TB)的DDR2内存容量、700TB的全光纤SAN存储容量、70GB的I/O带宽......使得曙光5000A当之无愧地成为当前中国规模最大的计算机系统。
但是,在6月份公布的最新一期全球TOP500中,包括曙光在内的国产厂商的系统都已经退出了排行榜,曙光5000A由于时间问题也与之失之臂。由于TOP500系统更新速度很快,曙光5000A在今年11月份的下一期排行榜中能否进入前十也已成问题。
对此,聂华认为,排名对用户来说并不重要,但对于厂商来说却很重要。因为TOP500排名所依据的是解线性方程组的LINPACK测试,这跟用户实际的应用要求来说是不一样的,所以对用户实际采购的参考价值不大;但对于厂商而言,这却代表了厂商的技术水平,所以很重要。
他分析说,之所以造成中国厂商在最新TOP500中全军覆没这一局面,一方面和国家5年一周期的科技计划有关系,今年正好处于从十五到十一五的过渡期;另一方面,国内高性能计算机的硬件制造水平超前于高性能计算应用水平,特别是软件的发展有所滞后,国内并行计算的人才底子也比较薄弱。对厂商来说,只有先找到需要百万亿次、千万亿次计算能力的用户之后,才会去制造相应的超级计算机。他认为,多核处理器的出现会大大刺激并行计算的发展,因为现在即便是一台普通的PC也会用到双核或四核的处理器,随着这个基础的铺开,会加速高性能计算的普及。
从高性能到高效能
也许很多人关注得比较多的是运算速度,但在聂华看来,“高效能”更加值得关注,曙光5000A在863计划中的描述也是“高效能计算机”。他解释说,高效能跟强调节能的高能效不一样,它的意思是“高生产力”。那么,什么是高性能计算机的高生产力呢?打个比方说,我们可以通过几万台普通的PC构建成集群,并保证一定的稳定性,达到100万亿次的峰值运算性能,但这个系统只能用来做LINPACK,而对于紧耦合度较大的应用却不适合,所以它不是高效能的系统。
为了保证曙光5000A的高效能,曙光在“多路SMP胖节点、CPU核直连访问内存技术、单CPU核访问大内存、高速互连网络、高效并行文件系统”等方面下了功夫。比如,通过双路刀片系统也同样可以构建起230万亿次的机器,但为了提高效能,曙光5000A采用了4路SMP甚至一部分8路SMP的胖节点,使得适用性和应用度大幅度提高。另外,直连架构也是一种高效能的体现,胖节点单CPU核可以直接内存寻址128GB,这就能满足特殊行业应用的挑战性需求。还有在互连网络方面,曙光5000A采用20GB,延迟小于1.6us的Infiniband高速网络,实现了低延迟、全无阻塞的网络结构。
此外,为了保证曙光5000A的"高可靠性",研发人员采用了全冗余的刀片服务器设计和全冗余的网络设计,使系统不存在单一的故障点,大大提高系统的可用性。
其实,如果仅从性能的角度来看,也许通过FPGA、GPU等加速技术,很容易就能做到百万亿次甚至千万亿次。那为什么曙光5000A中没有大规模使用这种加速技术呢?
对此,聂华解释说,上海超级计算中心可能是世界上最大的通用计算平台。跟国外很多超级计算机主要服务某一种特定应用的模式不同,上海超算是面向整个华东地区的计算服务平台。而FPGA、ClearSpeed、龙芯处理器等作为协处理器,主要是针对某些特定应用的加速。曙光和上海超算曾经针对50种主要的应用做过ClearSpeed加速测试,发现仅对其中三种应用能起到加速作用,而对其他四十多种应用并没有起到加速作用。因此,作为通用计算平台,曙光5000A选择了通用CPU和通用架构,尽管其中会使用一小部分GPU加速节点来做一些图形处理应用,也会少量用到龙芯加速器。“如果国内有千万亿次需求的用户是针对某种特定应用的,用龙芯来构建就不遥远了,用FPGA也可以实现。”
AMD中国区高级技术经理刘文卓补充道,AMD也正在与上海超算就GPGPU的项目进行合作,目前AMD的GPU卡有320个浮点计算单元,性能可以做到1TFLOPS,也就是说,仅仅用1000块这样的GPU卡就可以做到每秒千万亿次浮点运算的性能水平。但问题在于,一方面这种GPU卡是针对独特的应用的,目前AMD与上海超算合作对几百种应用进行扫描测试,以期找到合适的应用领域,另一方面GPU计算要面临非X86环境的问题,应用需要进行重新编译。
在高密度与低功耗间找到平衡
对于大规模高性能计算机系统而言,如何提高系统密度并降低功耗是研制人员面临的关键问题之一。为提高曙光5000A的系统密度,中科院计算所联合曙光公司,研制了具有自主知识产权的4CPU 4核高密度刀片主板和基于该主板的世界上第一款7U高度的10片的工业标准刀片服务器。该刀片服务器可以实现单机箱40CPU,160核的超高计算密度,并实现了单节点内部的并行计算。
由于采用高密度服务器,曙光5000A能在大约75平方米的占地面积内聚集230万亿次的计算能力,而其满负载运行时不带水冷系统功耗只有700千瓦,带水冷系统的功耗仅为1000千瓦。这一方面提高了机群系统的可扩展性,另一方面降低了整个系统地运行成本。
为了降低功耗,曙光5000A在研发过程中,有CPU芯片、内存、刀片服务器、软件、散热系统等不同层面都采用了许多节能技术或产品。比如,曙光5000A采用的是1.9GHz的AMD 65瓦低功耗处理器,而不是主频更高的普通95瓦CPU,虽然会牺牲20%的性能,但却换来了每年节约200万度电的好处。曙光5000A还首次采用了水冷系统,通过使用水冷系统,降低了高性能计算系统对客户机房的要求,同时提高了冷却效率。水冷系统的设计实现了水电分离,保证了系统的安全性。同时水冷系统还包括备份的被动散热系统,可以在水冷失效的情况下保证系统的正常运行,提高了系统的稳定性。
据聂华介绍,曙光5000A之所以选择AMD处理器,在技术层面主要有两方面的原因:一是曙光5000A的设计目标是“高效能”,为了达到这个目标,不得不采用四路SMP系统而不是双路系统来做节点,尽管现在双路刀片的技术已经很成熟,但针对四路以上的系统,曙光认为前端总线架构会有限制,而AMD处理器的直连架构更合适一些。但聂华也表示,直连内存架构是未来的趋势所在,英特尔下半年推出的Nehalem采用了和AMD几乎一样的架构,相信会对AMD构成较大的挑战。另一方面,由于节能是曙光5000A设计过程中非常重要的一点,对于上海超算这样的大用户来说,不仅要面对日常巨大的电费开支,而且在电力需求超过6兆瓦之后,甚至需要建设分级电站来保证电力供应,这样会导致更高的成本,所以在这种情况下,即便只降低10%的功耗也有非常大的意义,AMD的CPU在这方面有较好的价值。
2亿元造价何谓“低成本”?
很多人知道,曙光5000A的造价高达2亿元人民币。为什么还能标称“低成本”呢?聂华解释说,这2亿元不仅是包括主机,也包括海量的内存、存储和I/O等所有部件,总体算下来并不高。而且,由于采用全系统统一的智能监控管理系统,简化了系统架构和管理,用户不需要为该系统增加管理人员。全系统主机年运营耗电少于1000万度,比非低功耗设计的系统节约大量电费开支。另外,曙光会提供3年全系统免费保修,提供终身免费技术服务。因此从TCO的角度来看,曙光5000A的造价并不高。
据了解,曙光5000A的第一套超大型系统将于08年11月份落户“上海超级计算中心”。曙光5000A不仅可以应用于高性能计算,还可以应用于信息服务,电子政务,网络游戏等常见商业应用。在高性能计算领域,曙光5000A可广泛运行证券指数计算、电力安全评估、建筑工程抗震性评估、天气预报、石油地震资料处理、核能开发利用、汽车碰撞、电磁辐射、计算流体力学、基因匹配与拼接、蛋白质结构分析和材料科学等20多个应用领域。 在商业应用方面,由于曙光5000A使用Suse Linux 和 WCCS ,可广泛运行目前Linux和Windows下的主流的行业软件。