【IT168 专稿】随着2010年5月31日最新一期世界高性能计算机排行榜的公布,中国的“星云”超级计算机一举获得了世界排行第二的好成绩,成为国内首个进入世界高性能计算前三甲的超级计算机。IT168服务器频道一直以来都在以全方位的视角关注着高性能计算领域的发展,对本次“星云”超级计算机的横空出世也做了详尽的报道(点击查看专题:极限速度 中国力量)。
前不久,我们请来了“星云”超级计算机项目的负责人——曙光公司副总裁聂华先生,为广大网友细解国内高性能计算发展的心路历程以及“星云”背后鲜为人知的研制过程。
星云受关注很正常 国内HPC还有很长路要走
回看TOP 500榜单前十名的机器,大多都有自己的名字——从耳熟能详的“走鹃”,到“美洲虎”再到“蓝色基因”等无一不是标志着高性能计算发展水平的重要元勋。而本次冲击进第二名的曙光“星云”超级计算机为什么要取这个名字呢?聂总表示,这源于研发人员对它的一种寄托和期望。
曙光公司副总裁聂华先生
与过去曙光3000、曙光4000、曙光5000等稍显“冷冰”的机器名相比,星云作为曙光6000未来的一个组成部分,取名“星云”一方面切合了目前的云计算时代,另一方面也为其增添了活力。据了解,在早先的超级计算机中,有“星群”的概念,每一个“星群”的节点都很强,而“星云”则是希望将这种强大的性能和云计算的资源灵活调配聚合在一起——最大化的实现高性能与负载均衡。
聂总表示,由于去年的国际金融危机影响,今年的TOP 500榜单变化并不明显。因此,对于中国这样的新兴经济体来说,高性能计算需求日趋旺盛,另一方面也有足够的资金去研发更高性能的超级计算机。如果把TOP 500形容成一个大考,那么做出成绩仅仅是有技术力量,实际上曙光“星云”不光在技术上获得成功,也标志着我国高性能计算市场跃入了新的台阶。
“按照我个人的看法来讲,中国现在可以说已经成为高性能计算机的强国。”聂总表示,不论从TOP 500前十名中有两台中国的超级计算机来看,还是从目前国内超级计算机的发展势头来看都是如此。但是,他同时表示国内高性能计算仍然还在起步期,如果仅以一两台机器的性能来宣称我们赶上其他发达国家,走在世界前列还为时过早。他表示,高性能计算本身蕴含了太多的应用,而这些应用其实是需要给这些高性能计算机应用,孕育到我们整个国民经济日常应用当中,所以高性能计算的应用变得日常重要。在高性能计算机应用上来讲,我们国家其实离我们的欧美强国还有一段很长的路要走。
温家宝总理视察曙光星云超级计算机之后讲话
前不久,温家宝总理视察曙光天津产业基地时表示,加大结构调整力度,要加大战略性新兴产业的发展。而曙光“星云”千万亿次的通用计算能力再次证明了,中国最大的潜力在于我们的智慧和创造力,和勇于突破难关的坚韧不拔。(引自中央电视台《新闻联播》)
不盲目追求性能 星云“四高两低”是创新
作为“星云”超级计算机的研发团队负责人,聂总在谈到星云的技术特点时表示,星云的研发目的并不仅仅是追求性能。“我们追求创新的同时我们一定要享受创新带来的价值,这是整个星云系统当中非常贯彻的一个理念。”因此,“星云”超级计算机的一个最大特点就是“四高两低”特性。
1、高性能——星云”系统实测峰值达每秒1271万亿次(每秒执行1271万亿条指令),使其成为亚洲和中国知名台、世界第三台实测性能超千万亿次的超级计算机。
2、高效能——采用了自主设计的HPP体系结构、高效异构协同计算技术,高效易用的编程环境,极大方便用户操作应用。
3、高可靠——采用全冗余设计,无单一故障点,在对系统Linpack(国际标准的超级计算机测试方法)测试中,“星云”表现出它的极高稳定性和可靠性。
4、高密度——在对单柜测试得出,“星云”单柜峰值高达25.7TFlops,成为国内同类系统单位面积计算峰值最高的计算机。
5、低功耗——每瓦能耗实测性能超过4.98亿次,成为目前是国内最绿色的超级计算机。
6、低成本——“星云”系统遵循中国HPCSC(中国电子工业标准化协会-高性能计算机标准工作委员会)标准,实现专用计算机关键部件的标准化和产业化,大大节省了用户产品扩容成本。
聂总表示,星云采用了4640个曙光TC3600模块化刀片服务器作为节点,处理器是32nm工艺的六核至强X5650,并且采用了Nvidia Tesla C2050 GPU做协处理(理论计算峰值性能可以达到每秒2980万亿次)。也因此使得“星云”成为中国乃至亚洲计算性能最强的超级计算机。
此外,这两天Green 500世界绿色高性能计算机排行榜中,“星云”获得了第四名的成绩,也就是说从总体的性能功耗比上来看,“星云”也跻身进了世界前五——每一瓦功耗可以得到4.89亿次的浮点运算性能。
高性能计算的未来是融合 集群技术在进步
对于未来高性能计算的发展方向,聂总认为融合架构的高性能计算机正在变成一种趋势。“无论传统的CPU+FPGA还是类似‘走鹃’中的x86+CELL处理器的形式,都为现今的CPU+GPU,以及英特尔提出的集成众核架构提供了参照。”“星云”所采用的至强CPU处理器+Nvidia GPU的混合模式就是将GPU并行计算的特性与CPU的通用特性结合起来,最大限度的利用两者的性能,从架构上弥补两者的短板,从而将系统整体推向更高的性能。
聂总认为,高性能计算技术在x86时代已经变成了通用技术——从以往的向量机到大规模MPP机器再到现在的集群,技术上相对越来越简单,但是面临的功耗问题和成本问题日益严峻。因此新的系统瓶颈往往出现在成本方面,往常的“堆料”方式行不通了。
因此异构体系的高性能计算机和协处理器、GPU的采用就是为了在有限功耗和成本增加的情况下,获得更高的计算性能。“可以说这些都是尝试,高性能计算的发展本身就是尝试各种途径的过程,然后技术积累和沉淀下来才能下移至服务器等领域。”
聂总表示,未来不论高性能计算向什么方向做探索,必然会在成本与用户应用两个方面下手,也只有如此高性能计算才有市场,才能更好的为用户创造更多价值。