【IT168 评论】在刚刚结束的湖南张家界HPC China 2012大会上,全新的TOP100排行榜火热出炉。除了第一名的天河一号A之外,更多注意到,在排名前五的超算当中,有4台都采用了异构设计。所谓异构就是指一种特殊形式的并行和分布式计算,具体到超算当中则是采用CPU+GPU的方式进行计算。而谈到GPU计算,我们就不能不提到一个响当当的名字——英伟达NVIDIA。正是由于它的出现,改变了当前超算市场的发展模式,从单纯的CPU计算发展到了CPU+GPU混合运算的模式,也使得超算行业获得了跨越式的发展。在HPC China 2012大会的空隙,我们有幸采访到了NVIDIA英伟达Tesla事业部首席技术官Steve Scott,请他谈谈对于超算和Tesla未来发展的看法。
NVIDIA英伟达Tesla事业部首席技术官Steve Scott
其实早在10月30日的HPC China 2012大会主会场,Steve Scott先生就已经进行了题为《GPU Computing and the road to Exascale》的演讲,演讲的重点则是谈到了目前超算中最为重要的功耗问题。Steve Scott先生表示——“对于高性能计算中心来说,功耗是首先需要考虑的因素。从技术上来讲,单线程的性能和整个功耗比上很难做到平衡,所以以GPU为核心对海量的并行计算进行加速,同时还保留CPU单线程的处理,这样的组成是最高效、最实用的高性能计算的体系。NVIDIA的GPU加速技术并不仅仅是一个产品,而是一个正确的解决方案,同时也是一个可持续的商业模式”。
事实上,正是由于GPU加速的出现,使得超算的发展速度大大增加,而在成本和占地面积上得到了遏制。在以往,要想获得更好的性能必须要增加机群的服务器数量,这样带来的后果则是不断增加的服务器和巨大的电力消耗。而在GPU加速模式出现之后,只需要投入相对更低的成本,就可以让原有的超算性能得以大幅度提升,正是这样的方式促使了行业的不断进步。这其中功不可没的要算是NVIDIA英伟达Tesla加速卡,正是它的出现使得异构成为了可能。而我们对于Steve Scott先生的采访,也紧密围绕了Tesla和异构超算的未来而展开。以下的问题中,包括了NVIDIA英伟达和英特尔产品之间的差异化分析、CUDA加速的现实意义以及Tesla产品未来的发展问题。
下周,也就是美国时间的11月12日,英特尔即将在美国盐湖城的SC12大会上发布最新的至强融核处理器——Xeon Phi,也就是我们之前所说的MIC系列产品。虽然再次之间,英特尔也曾在许多场合谈到了MIC应用的环境及用户体验,但是这些也只是作为产品发布前的测试而进行的。真正的产品细节要到SC12大会才能够见分晓。不过作为英特尔在超算应用的重点,MIC的出现引起了行业内的颇多关注。那么作为异构计算的践行者,NVIDIA英伟达对于MIC又是如何看待的呢?
Steve Scott首先出于礼节性的恭喜了英特尔新品的出现,并且表示欢迎英特尔加入到异构的大家庭当中。但是话锋一转,在谈到MIC与自家产品竞争关系的时候,Steve Scott就没有这么客气了。他表示“离开性能来谈编程没有任何意义”,NVIDIA的Tesla推出以来,已经经过了诸多超算中心和工程师的验证,在性能上表现得可圈可点,而且在编程的优化方面也实现了多种方式,比如OpenACC、CUDA C、CUDA C++、C以及C++。至于英特尔一直在强调的所谓“编程更简单”,Steve Scott表示究竟是否简单还是要看实际用户的体验效果,但毫无疑问的是CUDA已经经过了诸多用户的验证,并且最新版本的CUDA 5也增加了丰富的功能。相比之下英特尔的MIC一直处于测试阶段,包括与TACC(美国得州超算中心)的测试也一直处于保密阶段,在性能和优化方面,NVIDIA英伟达明显处于行业的领先位置。
Steve Scott先生的回答不禁让笔者想到前一段时间他在自己博客上的一篇文章——NO FREE LUNCH(Intel 集成众核 (MIC) 没有免费午餐,编者注)。在这篇文章中,Steve Scott先生谈到了MIC必须面对的三大问题,即功耗、混合式的解决方案和复杂的原生模式。而在这三个问题背后,Steve Scott先生一针见血的提出了自己质疑的根本——MIC的性能问题。他写道:“目前为止,围绕 MIC 编程的讨论对所有与性能有关的内容避而不谈,没有直面这些问题。 我们看到,MIC 的扩展图表显示,使用的核心越多,性能提升就越大,然而却并未展示绝对性能。 而且“扩展”结果几乎全是单一芯片 (从高性能计算的角度而言完全算不上扩展)。 看起来与四年前最初的 Larrabee GPU 图表非常相似”。
姑且不论Steve Scott先生的职位及公司背景,单从博文的内容来说,这或许是英特尔MIC面世以来获得的最严厉批评。而在本次专访中,我们发现Steve Scott依然没有丝毫改变自己观点的意思,依然在质疑MIC的实际性能。或许在没有发布之前,这个问题都不会有结果。我们只能耐心等待英特尔至强融核的发布,等着看到相关的数据和用户评价,再来判断。
我们的第二个问题围绕着热门的开普勒K20和虚拟化应用展开。在如今的高性能计算当中,处理器的占用率非常高,如此一来CPU再进行虚拟化的意义似乎不大。不过在开普勒K20中,明确提到了对于虚拟化的支持,这一功能在实际中会有用处吗?NVIDIA英伟达是如何看待这个问题的呢?Steve Scott先生坦言,在高性能计算领域其实虚拟化的应用并不是非常广泛。而对于NVIDIA英伟达而说,这一虚拟化功能的实现前景是在图形化和云计算的结合这。具体说来分为两个方面,首先是在民用级的GeForce这方面,通过GRID技术使得用户可以通过网络利用到云端强大的GeForce计算能力,虚拟化的去玩游戏,或者做其他一些图形的应用。
对于专业的用户来说,NVIDIA英伟达提供了一款名为VGX的解决方案,允许专业的用户可以通过网络,利用云端Quadro高性能计算能力的产品,使得多用户在云端可以使用到很多Quadro计算能力,使这种可能成为现实。NVIDIA英伟达目前主要是在云计算方面将GPU虚拟化的工作做得最好。
谈到Tesla,NVIDIA英伟达最早将其定位在个人超级计算机,也就是现在我们所说的PHPC。不过随着云时代的到来,个人超算看起来越来越遥不可及,而且许多超算厂商也认为个人超算已经被历史所淘汰,它所能体现的价值早已经被云应用所取代。那么对于NVIDIA英伟达来说,Tesla目前更多应用在超算领域,是否意味着英特尔对于Tesla的PHPC应用已经完全放弃了呢?这个问题听起来简单,但事关Tesla的定位,所谓名不正则言不顺,因此Steve Scott先生也花费了一些心思来解释。
Steve Scott先生谈到——从应用角度来讲一下个人高性能计算和高性能计算中心的一些区别,其实对于Tesla来说有很多的应用,比如说面向个人的应用目前主要集中在高校环境中。很多在大学中的应用是用一个Tesla或者用几个Tesla,专门是服务自己研究的领域来进行加速,因为可以针对这一个应用进行非常好的编程效果,得到的加速效果一般都是10倍、20倍或者30倍,所得到的效果也是非常令人满意。而且就应用自身来说,并不像高性能计算中心运行那么复杂,所以通过自己的编程和对于相对简单的应用优化,它的性能加速一般都是很高的。对于高性能计算中心所使用的一些应用来说,可能通过初期的编程只能得到三倍或者五倍的提升,不像个人应用这边提升的倍数那么明显。
如果从这个意义来说,PHPC依然会有一个不错的发展空间,至少从单一应用的优化来说,肯定相比超算中心的优化要更有优势。另外一个云计算不可忽视的问题就是网络的因素。在目前国内的网络环境下,实现远程的Tesla计算也非常困难,需要耗费大量的时间,单单是基础数据的运行就不是一件容易的事情。因此我们也看出,PHPC在个人应用方面依然具备一定的特殊性,正是这些特殊的优势使得它有着一定的市场前景。
如今,NVIDIA英伟达NVIDIA的Tesla对于超算应用来说提供了强大的支持,更快的运行速度、更好的编程体验成为了大家选择异构计算的根本原因。从这个角度来说,NVIDIA英伟达NVIDIA已经不再像几年前那样仅仅是一个图形芯片的制造商,随着移动互联网和云计算、超算的兴起,NVIDIA英伟达NVIDIA已经成为新处理器时代的领军企业。