曙光5000A：从高性能到高效能的突破-服务器专区

曙光5000A：从高性能到高效能的突破

作者：IT168 洪钊峰编辑：洪钊峰 2008-07-23 15:47 来源：IT168�

【IT168 专稿】7月22日，曙光牵手AMD以及30余家IT媒体和行业媒体在北京文津国际酒店共同举办了曙光5000A高效能计算机研讨会。[专题: 曙光5000发布会视频图文] [视频: 曙光总裁历军谈曙光5000A]

会上，曙光公司副总裁聂华介绍了曙光5000A的更多技术细节，并且集中展示了曙光5000A在自主创新方面的成果。作为代表中国商用高性能计算机的典范之作，曙光5000A的研制成功，再次证明了中国的创新能力。曙光5000A 230万次的峰值运算速度也让中国成为继美国之后，第二个能够研发、生产、应用百万亿次超级计算机的国家。

软硬件体系架构的创新

高性能计算机是一种通过网络将计算、管理、I/O、交换、存储等多个单元模块耦合在一起的计算机系统。曙光5000A的第一套超大型系统将于08年11月份落户“上海超级计算中心”，该系统的刀片计算节点机采用四路四核AMD Barcelona处理器，每个节点64GB内存，胖节点机采用八路四核AMD Barcelona处理器，每个节点128GB内存，整个系统由1650个节点组成庞大机群，共有3万多颗CPU核与120T海量内存，其理论浮点峰值为每秒230万亿次，采用20GB的Infiniband高速网络进行互联，采用了WCCS + SuSe Linux 双操作系统。

为了增加耦合度，过去往往要构建包括以太网、专有网络在内的各种各样的网络。而曙光5000A则采用DDR Infiniband实现计算网络和存储网络的合一，大大简化了整体的网络结构，并创新地使用了新的HPP体系架构。聂华认为，这种结构会引领未来大规模计算机的发展潮流。

而在软件方面，曙光5000A从系统软件、分布式构件、全域监控、全域服务、资源调度管理、立体安全、支撑构件以及应用层等多个层面进行了规划和创新，涉及了从操作系统、编译器、多线程优化、并行优化、TCP/IP、CLI、KVM、功耗监控管理、动态分区与虚拟机管理、入侵检测到虚拟IDS、MPI、负载均衡、作业调度等50多个领域。聂华认为，“从软件层面上来看，曙光5000A系统也构成了真正意义上的有机组合。”

那么，曙光5000A从技术角度来看，到底有什么特色呢？曙光将其概括为“四高两低”，即高性能、高效能、高密度、高可靠性、低功耗、低成本。

曙光5000A在最新TOP500中可排到第七

“高性能”的特点比较容易理解，曙光5000A可谓“大制作”、“大手笔”，其理论运算峰值可以达到230万亿次每秒浮点运算，LINPACK值超过160万亿次每秒，系统效率在70%以上，这个水平可以在最新一期的TOP500全球高性能计算机上排在第七位，尽管曙光5000A实际上错过了这次排名，此前中国最好的成绩是2004年10万亿次曙光4000A排名第十位。从系统所使用的关键部件数量规模来看，也是相当惊人：3万多个CPU核、12万GB（即120TB）的DDR2内存容量、700TB的全光纤SAN存储容量、70GB的I/O带宽......使得曙光5000A当之无愧地成为当前中国规模最大的计算机系统。

但是，在6月份公布的最新一期全球TOP500中，包括曙光在内的国产厂商的系统都已经退出了排行榜，曙光5000A由于时间问题也与之失之臂。由于TOP500系统更新速度很快，曙光5000A在今年11月份的下一期排行榜中能否进入前十也已成问题。

对此，聂华认为，排名对用户来说并不重要，但对于厂商来说却很重要。因为TOP500排名所依据的是解线性方程组的LINPACK测试，这跟用户实际的应用要求来说是不一样的，所以对用户实际采购的参考价值不大；但对于厂商而言，这却代表了厂商的技术水平，所以很重要。

他分析说，之所以造成中国厂商在最新TOP500中全军覆没这一局面，一方面和国家5年一周期的科技计划有关系，今年正好处于从十五到十一五的过渡期；另一方面，国内高性能计算机的硬件制造水平超前于高性能计算应用水平，特别是软件的发展有所滞后，国内并行计算的人才底子也比较薄弱。对厂商来说，只有先找到需要百万亿次、千万亿次计算能力的用户之后，才会去制造相应的超级计算机。他认为，多核处理器的出现会大大刺激并行计算的发展，因为现在即便是一台普通的PC也会用到双核或四核的处理器，随着这个基础的铺开，会加速高性能计算的普及。

从高性能到高效能

也许很多人关注得比较多的是运算速度，但在聂华看来，“高效能”更加值得关注，曙光5000A在863计划中的描述也是“高效能计算机”。他解释说，高效能跟强调节能的高能效不一样，它的意思是“高生产力”。那么，什么是高性能计算机的高生产力呢？打个比方说，我们可以通过几万台普通的PC构建成集群，并保证一定的稳定性，达到100万亿次的峰值运算性能，但这个系统只能用来做LINPACK，而对于紧耦合度较大的应用却不适合，所以它不是高效能的系统。

为了保证曙光5000A的高效能，曙光在“多路SMP胖节点、CPU核直连访问内存技术、单CPU核访问大内存、高速互连网络、高效并行文件系统”等方面下了功夫。比如，通过双路刀片系统也同样可以构建起230万亿次的机器，但为了提高效能，曙光5000A采用了4路SMP甚至一部分8路SMP的胖节点，使得适用性和应用度大幅度提高。另外，直连架构也是一种高效能的体现，胖节点单CPU核可以直接内存寻址128GB，这就能满足特殊行业应用的挑战性需求。还有在互连网络方面，曙光5000A采用20GB，延迟小于1.6us的Infiniband高速网络，实现了低延迟、全无阻塞的网络结构。

此外，为了保证曙光5000A的"高可靠性"，研发人员采用了全冗余的刀片服务器设计和全冗余的网络设计，使系统不存在单一的故障点，大大提高系统的可用性。

其实，如果仅从性能的角度来看，也许通过FPGA、GPU等加速技术，很容易就能做到百万亿次甚至千万亿次。那为什么曙光5000A中没有大规模使用这种加速技术呢？

对此，聂华解释说，上海超级计算中心可能是世界上最大的通用计算平台。跟国外很多超级计算机主要服务某一种特定应用的模式不同，上海超算是面向整个华东地区的计算服务平台。而FPGA、ClearSpeed、龙芯处理器等作为协处理器，主要是针对某些特定应用的加速。曙光和上海超算曾经针对50种主要的应用做过ClearSpeed加速测试，发现仅对其中三种应用能起到加速作用，而对其他四十多种应用并没有起到加速作用。因此，作为通用计算平台，曙光5000A选择了通用CPU和通用架构，尽管其中会使用一小部分GPU加速节点来做一些图形处理应用，也会少量用到龙芯加速器。“如果国内有千万亿次需求的用户是针对某种特定应用的，用龙芯来构建就不遥远了，用FPGA也可以实现。”

AMD中国区高级技术经理刘文卓补充道，AMD也正在与上海超算就GPGPU的项目进行合作，目前AMD的GPU卡有320个浮点计算单元，性能可以做到1TFLOPS，也就是说，仅仅用1000块这样的GPU卡就可以做到每秒千万亿次浮点运算的性能水平。但问题在于，一方面这种GPU卡是针对独特的应用的，目前AMD与上海超算合作对几百种应用进行扫描测试，以期找到合适的应用领域，另一方面GPU计算要面临非X86环境的问题，应用需要进行重新编译。

在高密度与低功耗间找到平衡

对于大规模高性能计算机系统而言，如何提高系统密度并降低功耗是研制人员面临的关键问题之一。为提高曙光5000A的系统密度，中科院计算所联合曙光公司，研制了具有自主知识产权的4CPU 4核高密度刀片主板和基于该主板的世界上第一款7U高度的10片的工业标准刀片服务器。该刀片服务器可以实现单机箱40CPU，160核的超高计算密度，并实现了单节点内部的并行计算。

由于采用高密度服务器，曙光5000A能在大约75平方米的占地面积内聚集230万亿次的计算能力，而其满负载运行时不带水冷系统功耗只有700千瓦，带水冷系统的功耗仅为1000千瓦。这一方面提高了机群系统的可扩展性，另一方面降低了整个系统地运行成本。

为了降低功耗，曙光5000A在研发过程中，有CPU芯片、内存、刀片服务器、软件、散热系统等不同层面都采用了许多节能技术或产品。比如，曙光5000A采用的是1.9GHz的AMD 65瓦低功耗处理器，而不是主频更高的普通95瓦CPU，虽然会牺牲20%的性能，但却换来了每年节约200万度电的好处。曙光5000A还首次采用了水冷系统，通过使用水冷系统，降低了高性能计算系统对客户机房的要求，同时提高了冷却效率。水冷系统的设计实现了水电分离，保证了系统的安全性。同时水冷系统还包括备份的被动散热系统，可以在水冷失效的情况下保证系统的正常运行，提高了系统的稳定性。

据聂华介绍，曙光5000A之所以选择AMD处理器，在技术层面主要有两方面的原因：一是曙光5000A的设计目标是“高效能”，为了达到这个目标，不得不采用四路SMP系统而不是双路系统来做节点，尽管现在双路刀片的技术已经很成熟，但针对四路以上的系统，曙光认为前端总线架构会有限制，而AMD处理器的直连架构更合适一些。但聂华也表示，直连内存架构是未来的趋势所在，英特尔下半年推出的Nehalem采用了和AMD几乎一样的架构，相信会对AMD构成较大的挑战。另一方面，由于节能是曙光5000A设计过程中非常重要的一点，对于上海超算这样的大用户来说，不仅要面对日常巨大的电费开支，而且在电力需求超过6兆瓦之后，甚至需要建设分级电站来保证电力供应，这样会导致更高的成本，所以在这种情况下，即便只降低10%的功耗也有非常大的意义，AMD的CPU在这方面有较好的价值。

2亿元造价何谓“低成本”？

很多人知道，曙光5000A的造价高达2亿元人民币。为什么还能标称“低成本”呢？聂华解释说，这2亿元不仅是包括主机，也包括海量的内存、存储和I/O等所有部件，总体算下来并不高。而且，由于采用全系统统一的智能监控管理系统，简化了系统架构和管理，用户不需要为该系统增加管理人员。全系统主机年运营耗电少于1000万度，比非低功耗设计的系统节约大量电费开支。另外，曙光会提供3年全系统免费保修，提供终身免费技术服务。因此从TCO的角度来看，曙光5000A的造价并不高。

据了解，曙光5000A的第一套超大型系统将于08年11月份落户“上海超级计算中心”。曙光5000A不仅可以应用于高性能计算，还可以应用于信息服务，电子政务，网络游戏等常见商业应用。在高性能计算领域，曙光5000A可广泛运行证券指数计算、电力安全评估、建筑工程抗震性评估、天气预报、石油地震资料处理、核能开发利用、汽车碰撞、电磁辐射、计算流体力学、基因匹配与拼接、蛋白质结构分析和材料科学等20多个应用领域。在商业应用方面，由于曙光5000A使用Suse Linux 和 WCCS ，可广泛运行目前Linux和Windows下的主流的行业软件。

关注我们