服务器 频道

专访:历军谈曙光超级计算机进世界前十

    记者:在这次TOP500中,第一名的千万亿次超级计算机IBM走鹃采用了CELL和Opteron相混合的结构,是用Infiniband互连的Cluster,但第二名的千万亿次机CRAY XT5美洲虎却完全基于X86,采用CRAY公司自有互连技术的MPP架构,请问您怎么看待这两种截然不同的架构?对曙光下一代的千万亿次机研发有什么借鉴意义?

    历军:千万亿次机是曙光下一阶段的目标。目前集群结构已经走到头了,你能看到今天TOP10中的系统都不是传统上完全对称的Cluster,而是一些变形的架构。我认为高端高性能计算机的下一步趋势主要会表现三个方面:一是通用与专用相结合的系统,二是专用处理器会得到大规模应用,三是针对专门问题和应用软件去设计机器。今天的曙光5000还是一种通用的机器,下一步我们会在应用软件的移植与优化方面投入更多力量,因为目前应用优化是限制HPC进一步发展的瓶颈。我相信我们下一代产品的架构与国际上的系统没有太大差别,甚至在某些方面会超过他们。

    记者:曙光5000A也是TOP500前十中唯一一台安装在美国之外的超级计算机,请问您对此有何感想?相对于应用而言,中国的高性能计算机是不是过于超前了?

    历军:从百万亿次机到千万亿次机,社会上总会出现一些质疑,认为我们又在搞劳民伤财的形象工程。但从美国这样的发达国家来看,超级计算机不是多了,而是少了,这也是为什么TOP10中有9台都在美国。象能源、军事、航空航天、材料这些领域在中国也照样需要,只是我们的应用水平还不高。

    其实,在高性能计算这个领域,硬件技术超前一点是合理的,在中国往往是机器带动应用向前发展。机器是个舞台,科学家有了这个舞台,才能够打破他在科学研究中碰到的天花板。所以机器和应用之间有一代的差距是可以理解的。今天,上一代的曙光4000A在咱们国家的大飞机设计、神舟飞船、基因研究、石油勘探上面都用上了。可见机器带动应用是现阶段的必经之路。

    但相信到了某一天,就会有数学家、科学家们发现机器性能不够用了,需要更快的机器,这个时候,应用反过来会推动硬件向前发展。所以到下一代,我们的机器就不会是象曙光5000这样是完全通用的系统。从历史发展趋势来看,通用机和专用机是在不断交替向前发展的。曙光5000A下一步会朝专用方向迈进,但我们不会去做完全专用的机器,而是在通用的基础平台之上提高针对某个专门领域的计算性能,比如在数学中常用的傅立叶变换,是乘法器和加法器的组合,算法并不复杂,完全可以通过协处理器的在线可重构能力,来提高相应的计算性能。

    但就今天而言,我们的应用程序开发、数学模型还不够好,能够把机器性能跑满的应用还很少。只有一些科学家们自己开发的模型才有可能用到100T、200T这么大的规模。当然,曙光的定位决定我们不会去开发应用软件,我们要做的是怎么帮助用户在计算机中提高其算法的运行效率。比如,过去是用程序叠代的方式来优化,我们可以用硬件来固化,将一个算法用逻辑门的方式来实现,这可以大大提高效率。

    记者:根据TOP500的数据,曙光5000A也是目前世界上最快的基于Windows HPC Server 2008 操作系统的超级计算机。请您谈一下为什么会用这款操作系统?毕竟TOP500中99%用的都是Linux或UNIX操作系统。

    历军:在这里,我需要澄清一个事实,Windows HPC Server不是曙光5000唯一支持的操作系统。我们交付给用户的系统预装的是Linux操作系统。这次之所以在Windows平台上进行Linpack测试,是因为Windows在部署上有自己的优点,我个人以前认为Windows可能做不到这么高的性能,但没想到成功了。这也证明我们的系统可以很好的支持Windows系统,但目前在超大规模领域包括应用软件开发方面还有很多工作要做。

    在中小规模和个人HPC上面,我认为Windows也是一个选择,可以在一定程度上降低HPC的应用复杂度,毕竟我们不能要求每个科学家都是Linux高手。

    记者:TOP500除了关注传统的Linpack性能,现在也已经开始考量系统的能效情况。请您谈一下曙光5000A在节能、降低功耗方面采取了哪些措施?

    历军:低功耗设计是曙光5000的一个重要特点。比如节点机开关电源的转换效率是60%还是80%,这非常关键,效率低意味着有更大的电能损耗,我们改进了计算节点上的电源,能耗降低了不少。在CPU上,我们也选用了低功耗的处理器。在空调制冷方面,我们采用了风冷和水冷相结合的方式,让制冷过程在机柜里面就可以实现,这大大节约了机房空调的成本。

    另外,曙光在自已开发的GridView管理软件中,有一个功耗管理模块可以专门用来控制机器的能耗,比如你可以把不忙的节点机上的作业进行合并,也可以把一个节点休眠、关闭或者降低它的CPU主频,还可以进行作业负载均衡等等。这些都是非常重要的能耗管理和控制手段。

    记者:此前有消息称曙光在下一代超级计算机中会用到龙芯CPU,请问现在的进展如何?

    历军:我们正在开发可以支持龙芯3号处理器的刀片服务器,因为龙芯的流片要到明年初才能完成,所以我们预计在明年4月份左右推出这个产品。从性能峰值来看,龙芯3号四核CPU的性能跟AMD巴塞罗那还是有差距,但它在密度、功耗和价格方面会有很大优势。

0
相关文章