SC14报道之14：GPU才是计算中心的野心-服务器专区

SC14报道之14：GPU才是计算中心的野心

作者：洪钊峰编辑：洪钊峰 2014-11-20 14:28 IT168网站原创

　　【IT168 评论】在全球高性能计算领域，GPU作为一种加速计算的技术，其近几年的发展可谓如日中天，越来越多的用户开始把“CPU+GPU”的模式作为构建HPC系统的一种标配。凭借功耗低、每瓦特性能高的优势，GPU早已取代了过去的FPGA，成为一种主流的加速计算方案，但在NVIDIA的眼中，这还远远不够，GPU最终要变成一种全面的计算平台。

　　11月19日，在新奥尔良的全球超级计算大会上，NVIDIA公司HPC专家王鹏博士向IT168记者全面介绍了该公司的最新技术成果与发展策略，并就GPU市场竞争、百亿亿次、中国高性能计算产业发展等话题做了一些交流。

▲

　　GPU从加速器向计算平台转型的野心

　　在此次SC大会上，NVIDIA一共展出了6个方面的内容：

　　一、与IBM、美国能源部合作开发下一代十亿亿次(100PFLOPS)超级计算机。美国能源部下的橡树岭和劳伦斯利弗莫尔两大国家实验室计划在2017年推出两台性能在150-300PFLOPS的超级计算机，前者用于开放科学领域，后者用于国家核安全任务。有意思的是，这两套超级计算机采用的是IBM POWER CPU+NVIDIA GPU的结构，而不是x86 CPU+GPU的模式，其中POWER主要做调度管理负载，主要的性能则来自于GPU加速系统。据介绍，这是去年IBM推出OpenPOWER开放联盟之后两家公司的合作成果。其中CPU与GPU之间将通过NVIDIA的NVlink高速网络互连起来，据称比PCIe网络性能提高5-6倍。

　　二、NVlink横空出世，为GPU从加速器向计算平台转型辅路。NVlink是NVIDIA开发的一种高速互连技术，可以将CPU与GPU、GPU与GPU、IO模块与GPU之间连接起来。其中值得一提的是，NVIDIA所支持的CPU已经不只是英特尔或AMD的x86处理器(这类CPU与GPU之间的互连仍然通过PCIe连接)，而且也包括IBM的POWER处理器和正在凭借低功耗优势在企业数据中心领域寻求突破的ARM 64位处理器，这两类CPU与GPU的互连将通过NVlink来实现。虽然现在主流的高性能计算机集群大部分仍然使用英特尔的处理器，但IBM和ARM也正在努力扩展市场空间。NVIDIA则希望支持多种CPU，以满足不同用户的需求，也有助于改变自己“加速器”的身份。比如ARM处理器的优点在于功耗极低，但绝对性能不足，而与拥有强大性能的GPU相配合，就在高性能计算领域有了用武之地。而对于POWER而言，这类处理器凭借性能和稳定性在金融、电信、制造等传统行业尤其是一些关键领域里有很强的优势，随着大数据分析应用越来越普及，通过配合GPU来加速数据分析，也有望迎来第二春，实际上，IBM已经将DB2数据库应用移植到了GPU上来做加速。因此，随着GPU技术的发展和应用的普及，NVIDIA已经不满足于仅仅充当加速器这种配角，而是要变成全面的计算平台，包括芯片、互连、编译器、应用程序库等等。NVlink的出现，让NVIDIA迈出了坚实的一步。

　　三、发布最新一代的Tesla GPU产品K80。与上一代的K40相比，K80的GPU内核数由2280个增加到了4992个，内存峰值带宽由228GB/s提升到了480GB/s，使得其在功耗增加30%的基础上，把性能提升了60-70%。K80仍然采用开普勒架构，但寄存器和共享内存数目翻了倍，这两点虽然不会直接提升浮点计算性能，但却对实际应用的性能提升有很大帮助。

▲

　　四、机器学习应用在GPU上有了爆炸式增长。在Facebook、腾讯、百度、微软等互联网公司，海量数据的处理开始寻求GPU的帮助，其应用主要有两个方面，一是对图片视频进行视觉计算，通过GPU后台来分析内容，以提高用户搜索准确率，同时了解网友的行为特征，二是语音识别，其建模计算是一个迭代的过程，需要持续收集不同口音、不同语种、不同方言的素材，因此数据量会不断增长，其处理需要依赖于GPU的加速计算。

　　五、GPU不光计算，还能同时把结果可视化出来。瑞士超算中心在现场演示了在一个1000个节点GPU集群上同时做计算和可视化的过程，这意味着对于那些需要通过图片和三维模型来显示计算结果的科研人员来说，可以一边计算，一边观看结果，一边调优或修改参数，比如药物分子研究中，用户不必等两天之后看到结果再去改参数，而是边模拟边修改，效率会大大提升。王鹏认为，这将是一种开创性的应用模式。

　　与英特尔亦敌亦友

　　谈到NVIDIA与英特尔、AMD的竞争，王鹏认为，NVIDIA早在2007年就开始做GPU加速计算，英特尔和AMD后来加入竞争，这对整个市场而言是好事，大家共同努力才使得GPU加速和异构计算变成了高性能计算领域里的趋势。而且，CPU+GPU的异构模式本身也决定了二得亦敌亦友的关系，有时候竞争大于合作，有时候合作大于竞争。而在在SC14上，英特尔的至强Phi和NVIDIA的K80几乎成了形影不离的朋友，出现在各大HPC软硬件厂商的展台上，双方都在努力经营自己的生态圈。

　　不过，王鹏也提到，由于提前了5年时间来做GPU计算，特别是在CUDA应用移植和软件生态的构建上，这5年时间已经为NVIDIA赢得了竞争优势，毕竟对于很多软件厂商来说，前期的软件移植是需要很大投入的，这对后来者会形成一个强有力的竞争门槛。不过，英特尔方面在推广至强Phi时，主打的宣传牌之一是，至强Phi和普通至强一样都是基于x86架构，因些用户的应用无须重新开发。但王鹏认为，关键还要看应用的性能，无论是GPU加速，还是至强Phi加速，用户的算法都要适用于异构计算，即决定让不同的函数、模块运行在CPU还是GPU上，从而获得加速，这种决定与你用GPU，还是用至强Phi是没有关系的，你都得对软件进行优化，否则就实现不了加速，那也就没有意义了。

　　百亿亿次计算不难实现

　　谈到大家普遍关心的下一代百亿亿次计算(E级计算)，业界的一种普遍观点认为要想实现百亿亿次，需要突破功耗、密度、可用性、成本等方面的限制，而现有的千万亿次超级计算机的集群架构和相关技术积累难以为继。对此，王鹏表示了不同的观点，他认为，到2017年，以上述美国能源部的两套系统为例，届时就可以实现十亿亿次，功耗只需10MW，再利用5年的时间，到2022年，百亿亿次超级计算机就会出现，系统在5年里只需要实现3-4倍的性能增长，这并不是难事，不需要对CPU+GPU的集群架构有大的改变。

　　建言中国HPC产业发展

　　谈到中国高性能计算的发展现状，王鹏认为，应用是根本，中国HPC产业在应用层面偏弱，与欧美差距很大，但这也意味着存在机会。我们不必想着怎么在传统的领域去追赶别人，关键是要抓住新的机遇，比如在GPU加速平台上的应用软件，欧美也是处于起步阶段，现在大家在同一起跑线上。他举例道，中科院过程所、中石油公司、百度等企业在应用方面已经走在了前列。据悉，这几个应用也是NVIDIA与中国高性能计算厂商如曙光公司合作的成果。曙光作为NVIDIA在中国本土的第一个OEM合作伙伴，也是最活跃的一个，双方已经在石油、教育、政府、互联网行业合作开发很多成功应用案例，包括中科院超算中心、中科院过程所、地球物理所、胜利油田、中原油田、江汉油田、百度深度学习、深圳超算中心、中山大学、成都云计算中心、南京云计算中心等等。特别值得一提的是，双方与百度合作的“百度大脑”深度学习项目，对于互联网高性能计算应用有着重要的示范效应。

SC14报道之14：GPU才是计算中心的野心

　　另外，他还建议，中国已经有了很好的硬件平台，比如曙光的星云、国防科大的天河，在应用不足的情况下，这些平台的一部分资源完全可以开放给教育领域，让学校的学生先利用起来——他们是世界的未来。

　　不过，王鹏也提到，美国从应用出发来研制大机器的过程值得中国学习。以美国能源部为例，其之所以要构建两套150-300PFLOPS的超级计算机，首要目标还是为了满足实际应用的需求，要出新的科学研究成果。在具体招标过程中，其做法首先是向业界公开10个国家实验室里的重要应用，然后让厂商在自己的硬件上移植和运行这些应用，再把各厂商汇报上来的性能的平均值作为最重要的选型指标。NVIDIA和IBM正是凭借对这10个应用在GPU上的成功移植和优化，实现了最高的性能，而且，跟美国目前最快的“泰坦”超级计算机相比，一套150-300PFLOPS的系统只需要4000个节点，比泰坦现有的1.8万个节点数量大为减少，正是基于这些因素，最终成功中标。在这个过程中，用户根本不考虑Linpack性能，而只关心自己的应用性能。

　　笔者认为，相比之下，中国一些超算中心用户无论是在选型过程，还是在后期的运营过程中，都相当粗放。比如选型时，脱离实际应用，只考虑Linpack性能甚至是以TOP500的排名来做参照，这是相当“幼稚”的做法。在运营过程中，特别是一些应用不饱和的超算中心，机时利用率很低，导致3-5年产品技术更新周期后，资源浪费极为严重，而应用又没有发展起来，形成一种恶性循环。因此，对于那些无法自负赢亏、生存都有问题的超算中心，建议政府部门调整运营机制。比如，不再为超算中心支付电费来维持其运营，而是把电费拿出来去刺激周边的企业、高校或科研院所，也就是说，鼓励用户去超算中心购买时机，然后政府给予补贴，从而既在超算中心之间形成一种竞争机制，同时又能刺激HPC用户的应用发展。中国有句口号，“要致富，先修路”，建超算中心好比是政府出钱修路，但问题在于路修好之后，你要做的应该是去刺激经济发展，去招商引资，让更多的人、车在这条路上跑起来，而不是继续修路，更不是去投资进一步把路拓宽。机制不变，中国的高性能计算产业，尤其是软件和应用层面，难言乐观。更多关于SC14的报道，请关注IT168直播专题：http://live.it168.com/221.html

关注我们