广州超算中心主任袁学锋解读天河二号 -服务器专区

广州超算中心主任袁学锋解读天河二号

作者：刘策编辑：刘策 2014-04-27 22:03 IT168网站原创

　　【IT168 评论】天河二号在超算领域是一个非常响亮的名字。相比于前辈天河一号和天河一号A来说，天河二号已经连续两届获得TOP500超级计算机排名的冠军，而在落户广州之后它的应用也在逐渐展开。不过因为应用与安全的关系，天河二号一直处于“犹抱琵琶半遮面”的状态，很少有媒体能够对其应用环境与应用软件进行详细的解读。近日，2014年ASC世界大学生超级计算机竞赛总决赛在广州中山大学展开，我们也有机会近距离接触到了位于国家超级计算广州中心(中山大学东校区内)的天河二号超级计算机。更幸运的是，我有机会对国家超级计算广州中心(以下简称广州超算中心)主任袁学锋教授进行了长达2个小时的专访，从而揭开了天河二号神秘的面纱。

▲国家超级计算广州中心主任袁学锋教授

　　天河二号的现实意义与应用方向

　　据了解，天河二号的总造价成本高达18亿元人民币，这笔资金来自包括广东省和广州市在内的国家部委和地区支持。有了世界优秀的硬件设置，如何将这些硬件设备应用好，使它切实为用户服务就成为了广州超算中心首要考虑的问题。目前，广州超算中心的核心目标是要建成集高性能计算、海量信息存储和处理服务能力为一体的世界优秀的数据中心。广州超算中心的宗旨是立足广州、面向全国、向世界开放计算资源。

　　在谈到目前天河二号的应用案例时，袁学锋主任重点谈到了以下4个方面：

　　1、数字执照——目前世界上都在酝酿着所谓的第三次产业革命，其核心的内容就是如何把信息技术向制造业、实体经济辐射。所以如何将信息技术转化为生产力，是广州超算中心在应用方面的核心内容，而且是衡量一个国家创新型经济竞争能力的核心内容。

　　2、地球和谐环境工程——这里包括了地球生物、地壳运动、地表、海洋、大气和天文，为这些应用和科学研究提供平台。

　　3、材料科学与工程平台——以当下热门的3D打印为例，就是通过材料实现了对于制造业的颠覆性创新，从这一点来说广州超算中心可以提供在材料和制造方面的高性能计算能力。

　　4、医药和个性化医疗平台——目前广州超算中心已经与世界领先的基因公司华大基因展开基于基因科学的合作内容，将医疗与基因工程集成化、个性化，这其中牵扯大数据、高性能计算的东西，还有云计算技术等多项内容，广州超算中心则负责所有数据的汇总与分析。

　　除了上述4点之外，广州超算中心还负责广东省的政务云系统，包括电子政务、电子教育、电子医疗、电子环境、电子灾害预报等内容都将在天河二号上实现。不过袁学锋主任也表示，这只是天河二号所承担的非常小的业务内容，这部分业务在天河二号目前的应用占比中不到10%。

　　天河二号系统如何实现商业化

　　无论是中国还是欧美、日本这样的超算大国，在超算中心商业化的问题上都遇到了困难，几乎所有的超算中心都需要政府的财政支持。对于天河二号这样庞大的系统来说，如何实现这商业化的盈利也成为了我们非常关心的问题。

　　袁学锋主任在回答问题之前，首先肯定了广州超算中心是一家公益性事业单位，正是这样独特的属性也决定了广州超算中心与众不同的发展路线。他表示，广州超算中心一个很重要的使命，是要在科技体制创新过程中，担当试验田。一方面，广州超算中心作为优异的超算中心，会有政府的财政支持，但是这不足以从根本上解决超算中心的经济来源问题，甚至可以说是杯水车薪。因此，超算中心只能从自身实际出发，探索独特的发现路线。

　　在谈到商业化的方式时，袁学锋主任表示超算中心将会从3个方面着手：

　　1、广州超算中心负责广东省的电子政务内容，这部分收入较为稳定，不过只占到超算中心成本的10%。

　　2、促进产业的扩大与发展——广州超算中心的主要任务是促进高性能计算的发展和应用的普及，作为提供计算的平台，超算中心不能有过高的收费，否则将会阻碍平台上企业的发展。因此，广州超算中心在这一方面投入了20%的资源，其目的就是鼓励更多的创业者和中小企业能够加入超算的平台。

　　3、完全的市场化运作——除上面2个方面之外，大约有70%的资源都会应用在这个方向，这也是广州超算中心的主要盈利点。正如之前介绍的那样，广州超算中心不以盈利为目标，通过吸纳众多的中小客户加入，让这些客户在超算平台上成长壮大，形成产业化、规模化，进而成为超算中心的的主要增长点。

　　天河二号为什么会选择Intel Xeon Phi?

　　NVIDIA在2007年正式发布了CUDA架构，时至今日CUDA已经成为许多超算从业者的必修课程;随着NVIDIA在GeForce、Tegra等家用和手持设备上对于CUDA的支持，学习CUDA编程已经是轻而易举的事情，这也使GPU计算成为了高性能计算中最重要的异构计算模式。不过在天河二号中，却并没有使用GPU计算，转而选择了英特尔提供的Xeon Phi解决方案。

　　相比GPU加速方案来说，英特尔的Xeon Phi解决方案正式发布只有一年多的时间，在应用范围和生态系统方面还落后于GPU计算，那么为什么天河二号会采用这样的加速方案呢?袁学锋主任解释说——Xeon Phi最大的优势就是在于架构方面，因为Xeon Phi与x86处理器在架构上是一致的，因此原有的运行的x86处理器上的代码可以不加修改就应用在Xeon Phi上，这相比需要使用CUDA编程才能运行的GPU加速方案来说在应用上会更为方便。

　　不过袁学锋主任同时也表示，Xeon Phi仅仅是在上手的时候更快一些，如果需要真正实现硬件的充分运行甚至达到峰值性能，还需要在代码上进行大量的优化。而这个工作是非常繁重而辛苦的，相比CUDA优化来说，Xeon Phi的架构在这里并没有起到优势——如果想真正的用好超级计算机，无论是Xeon Phi还是Tesla都需要大量的优化，这一点谁也回避不了，想要实现Xeon Phi的充分运行，所花费的精力不会比在GPU上更少。虽然当下看来，CUDA良好的普及程度和广泛的用户群依然对于Xeon Phi形成了优势;而从未来的发展来说，Xeon Phi的生态系统也将进一步完善。“或许过4、5年之后，再看这个问题就完全不一样了”。

　　天河二号每核心时成本只要1毛5

　　作为庞大的超级计算机系统，除了建设的巨额投资之外，日常的维护费用也必然是天文数字。袁学锋主任曾这样描绘天河二号系统满载下的24小时耗电量——每天一台奥迪汽车。据统计，包括供电、散热、网络、运维等成本在内，天河二号系统满载的每天耗费是40万人民币，不过目前系统的负载率只有50%左右，所以耗费也相应降低。

　　谈到成本问额，袁学锋主任表示如果能够在天河二号上实现每核心时0.15元人民币(1毛5分钱)的收入，就可以实现收支平衡。乍一听起来这金额并不夸张，但是考虑到天河二号312万个计算核心来说，这个数字就相当惊人了。不过目前世界范围内的超算中心负载程度都不高，如果能够达到50-60%的负载率就可以实现盈利，超过70%的负载率就需要升级系统了，否则就会影响到运算效率。

　　作为面向全社会开放的超级计算资源，天河二号也计划在2个月后正式面向普通市民开放。市民可以通过提交申请表和计算课题，在审核通过后就可以免费试用天河二号10万核心时的资源。袁学锋主任认为通过这种方式可以让大家更近距离的接触超级计算机，接触高性能计算，从而实现对于整个产业的推动作用。与此同时，当广州超算中心的二层(天河二号所在的楼层)正式建设完毕后，也将向社会开放参观，希望将超算中心打造成青少年科普基地。

　　天河二号的已运行国产大飞机应用

　　面对如此庞大的超级计算机，供电和散热都是首先需要考虑的问题，而且还必须考虑到周边环境的安全。袁学锋主任透露，目前天河二号使用了3条供电线路，而散热系统使用的是水冷和风冷并行的方式。面对如此庞大的系统和如此巨大的日常消耗，天河二号究竟在实现哪些计算呢?袁学锋主任重点谈到了以下3大应用：

　　1、国产飞机——中国商飞(中国商用飞机有限责任公司)已经在天河二号上实现了C919的运行模拟，这是一款与波音737类似的中型客机。

　　2、气候模拟——包括国际范围内的大气模拟和高铁相关的隧道气流模拟应用。

　　3、生育模拟——蛋白氨基酸的模拟与钙离子通道模拟。

　　袁学锋主任表示，除了这些商业化的应用之外，国家863课题组也将在天河二号上进行大量项目的模拟计算工作，未来天河二号的二期工程也将启动。

　　后记：天河二号是当下世界上运行速度最快的超级计算机，在本次采访中我们了解到了之前未曾披露的诸多细节，特别是天河二号上大量应用的出现说明我国在高性能计算的软件应用领域也开始进入高速增长的态势。袁学锋主任对于天河二号充满了热情与期待，在采访的最后，他说——“冲击TOP500的第一名不是我们的目的，当然能够获得更好。但是对我来说在我看来，包括整个设计团队对排名看得不是很重要，看重的还是应用问题。外国人老说我们的Linpack第一，应用好像我们无声无息，这个对我们压力比较大。我们很大的任务是要一定证明，我们做应用也可以”。

关注我们