【IT168 专稿】日前,英伟达(下称Nvidia)在北京召开了2010GPU高性能计算峰会。大会以GPU在高性能计算以及通用计算领域的应用前景做开场,辅以众多合作伙伴的产品展示,高调宣传了基于Fermi架构Tesla计算卡的强大。Nvidia公司创始人兼总裁黄仁勋先生首先介绍了英伟达在GPU领域取得的成就,并展示了基于GPU的应用案例。
▲Nvidia公司创始人兼总裁 黄仁勋先生
“GPU是时间机器” 超级计算机将成为主流
黄仁勋首先介绍了高性能计算在多工业领域的重要作用,他表示目前各个行业领域的工业设计以及仿真处理均离不开超级计算机——如药物研发,医学成像,自动化设计,份子动力学,天文学,产品研发,天气预报等等。而Nvidia的产品线主要分为三大部分:QUADRO(主要面向专业图形设计等)、TESLA以及GeForce/TEGRA(面向消费级/移动领域的显卡产品),其中TESLA是面向超级计算机和云计算中心的GPU计算卡。
▲QUADRO产品主要针对用在工作站中(详见这里),TESLA计算卡绝大部分被安置在数据中心的各个节点中作为众核计算单元(例如超微推出的GPU计算节点:详见这里),而GeForce就是人们常见的显卡,TEGRA是Nvidia最新的高清/移动图形平台(例如智能手机:详见这里)
黄仁勋表示,如今的高性能计算发展趋势已经不需要该超级计算系统拥有通用计算的能力。相反,超算系统很多时候是为了一到两项“拳头”级应用而打造。拿自身企业来距离,黄仁勋表示Nvidia的超级计算系统拥有超过40000个CPU内核,并且每年还投资超过1亿美元做升级——而这其中65~70%的计算性能被用于模拟仿真他们的GPU产品——如今的EDA工业设计已经大量依托于超级计算机的模拟仿真,而非成本高昂的实验性试制品。
▲Nvidia自身高性能计算中心里有65~70%的计算能力用作GPU设计(黄色部分)
▲黄仁勋还展示了一张他年轻时候的照片:对于自己的电路设计需要在面包板上搭出一样的电路进行检测——而如今,这一切只需要利用类似Multisim的数字电路模拟仿真软件就可以轻松实现。
回过头来看目前计算应用的发展趋势,黄仁勋认为传统x86服务器正在细分为面向企业数据中心的高性能服务器,面向工业设计以及前文所述高计算量需求的超级计算系统,以及面向互联网应用的高密度微型服务器。而超级计算系统中正越来越多的开始使用GPU做运算单元——来自天津超算中心的工程师表示,如果今年夺得世界靠前的天河一号A超算系统全部使用CPU来打造的话(性能不变前提下),其网络复杂度要上升3~4倍,功耗和成本也要上升数倍。
黄仁勋表示,GPU的发展与CPU发展遇到的瓶颈有很大的相关性,他认为2006年CPU由于制程原因在主频领域遇到困境进而转向多核已经是业界公认的转折点。相反,从2006年开始GPU计算开始以数倍于CPU的速率发展(见下图)。黄仁勋认为,在未来的几年内CPU将再次面临多核发展的瓶颈,而工业对于计算力的需求却会激增,这将会最终导致通用计算重心从CPU全面转向GPU,而CUDA生态环境以及Nvidia GPU已经做好了准备。
“总有一些计算是不能等的,总有一些计算是需要更快的计算速度,总有一些计算是需要更高能效比的。”黄仁勋如是说,“Nvidia的GPU就好比是时间机器,能够加速你的应用,让你感受到计算从几周甚至数月缩短到几个小时乃至几秒钟时间的神奇。”
或者猛击这里查看第三页:CUDA成熟开花结果 IT168校园团队获大奖
▲笔者和黄仁勋先生的合影(GPU教父,1999年Nvidia Geforce256颠覆性的提出了GPU概念——普及给00后的儿郎们)
世界优异GPU高性能计算应用案例图解
如果说过去高性能计算仅用在政府以及学术研究领域的话,那么如今工业计算需求的井喷式发展则让高性能计算迎来了黄金时期。黄仁勋表示,相比科学研究和政府乃至军工的超级计算机,工业界需求的系统更在意能效比——节约时间,节约金钱,节约成本。
▲目前Top500前五名的超级计算系统中,第一、第三和第四套系统采用了Nvidia的GPU+CPU混合计算架构(绿色),而另两套系统采用了纯CPU计算(蓝色)。可以看出,采用了纯CPU计算的系统能效比远低于混合架构系统(红色)
黄仁勋表示,目前排在世界前5名的超算系统中,有四个采用了CPU+GPU的异构混合计算模式——其中最著名的就是位居榜首的中国“天河一号A”(计算能力2507万亿次/秒)。据介绍,“天河一号”配备了14336颗至强X5670处理器(32nm工艺,六核12线程,2.93GHz主频),而GPU方面则采用了7168块基于Nvidia “Fermi”架构的Tesla M2050计算卡(主频1.15GHz,双精度浮点性能515Gflops、单精度浮点性能1.03Tflops)。(更多天河一号相关信息请点击这里)
▲“天河一号”的GPU计算节点,Nvidia “Fermi”核心Tesla M2050系列计算卡,拥有448个流处理器核心(CUDA核心),主频1.15GHz,专用ECC存储器是DDR5规格的3Gb缓存,缓存频率高达1.55GHz,这使得GPU内数据存储速率达到了148Gb/s。由于散热和功耗等因素,一个GPU计算节点中只放置了两块M2050计算卡。
黄仁勋表示,目前超级计算系统的CPU+GPU趋势已经毋庸置疑,而在民用x86计算领域,CPU也有和GPU相融合的态势——Nvidia在Fermi架构中加入了众多原本只属于CPU的特性(如L1,L2缓存等)。而英特尔新一代Sandy-Bridge处理器架构中也融合了GPU部分用以实现简单的显卡功能(从能效角度考虑,这样的产品更适合移动互联和入门级台式机)。
此外,黄仁勋还举了一些其他用户使用GPU做高性能计算的例子:如 宝洁公司将高性能计算应用在了各种产品的设计和研发当中——如用HPC设计品客薯片的弧度,使其完美的“飞行”在生产线当中;还有其他诸如咖啡杯、洗发水等产品的设计也都在大量应用超级计算机。
CUDA开发成熟结果 IT168校园团队获大奖
黄仁勋表示,Nvidia目前已经销售了超过2亿颗支持CUDA环境的GPU,其开发套件已经被下载了60万次,用友超过10万个活跃开发者,所有的OEM供应商在其PC中均有支持CUDA的产品(对CUDA感兴趣的朋友请点击这里查看CUDA ZONE)。
CUDA提供了统一的编程环境,一改以往程序员需要使用GPU时需要使用另一套GPU专属并行计算语言(类似DirectX,OpenGL等)。CUDA将GPU并行编程和传统x86架构上的串行编程(如C语言)结合在一起,为传统程序提供了良好的适应性平台,并为以往串行程序的并行优化提供了完美支持。
值得一提的是在本届GPU高性能计算大会上,由IT168承办的CUDA校园程序设计大赛(点击这里进入)揭晓了获奖者,并由黄仁勋向他们颁发了奖杯和证书。
黄仁勋为三位获得大奖的CUDA校园程序设计选手颁奖
大会合作伙伴展台图文解析
本次GPU高性能计算峰会吸引了Nvidia的不少合作伙伴,其中包括联想、惠普、浪潮、曙光、LEADTEC、GPUS、AMAX和超微(SuperMicro)。下面笔者用图文结合的形式带您一起看看他们都展示了些什么。
▲首先是AMAX,他们是Nvidia GPU的解决方案提供商,号称拥有30年行业经验和诸多行业认证
▲这是他们展示的双路GPU工作站——可以看到该工作站在用GPU做星系的渲染(熟悉台式机产品的朋友都知道Nvidia的SLI技术,在Tesla计算卡中则不需要)
▲LEADTEK是桌面虚拟化VDI厂商,与Citrix Xenserver提供的软件解决方案不同,他们主要提供类似“机顶盒”式的桌面终端,使得用户端只需要一台显示器和输入输出设备,即可从主机分享计算、存储、显示资源;另一方面,该公司还专注于hmpp编译器,试图提高GPU混合架构的计算能力,缩短程序开发时间。
▲现场有一个桌面虚拟化VDI的演示环境
▲浪潮展示了自己的倚天系列超级计算机,计算性能达到万亿次,仅有工作站大小。
▲现场展示了一款浪潮“倚天”桌面超算NF5588计算系统——想了解更多这款产品信息的读者,请点击这里
▲GPUS(吉浦迅)这个公司的名字很讨巧,他主要提供医药领域的GPU应用解决方案以及网络上的CUDA培训
▲该展台有大量的演示文档和相关案例的展示光盘,感兴趣的读者可以在文后留言索取,笔者会上传该案例光盘的映像文件
▲超微的展台展出了他们的1U机架式服务器产品
▲这个双路的1U机架产品内置了两块Nvidia TESLA计算卡,记者质疑这两块卡是否应该选用M2050(被动散热式),而非C2050(图中所示),得到了超微工程师的肯定。他表示,这两块卡是零时装上做演示用的,产品中还是使用的M2050(如天河一号中所用,可见前文)
▲曙光除了展示采用了TESLA计算卡的“星云”外,还展示了PHPC200
▲基本上可以看成是一个微缩了TC3600刀片服务器(何其相似),下面我们拿出一个节点看看
▲一个双路节点(至强5600系列处理器),每颗处理器拥有6根内存条(每节点12根,整机60根)
▲后背板上则有千兆网络模块,KVM管理模块,Tesla计算模块(PCI-E),甚至Infiniband模块(对个人超算来说是很奢侈)
▲联想展示了深腾系列高性能计算系统(据传闻,在升级了Tesla计算卡之后,也达到了2000万亿次(再次声明,非官方说法))
▲联想的工作站中也采用了支持CUDA的显卡(也支持TESLA)
▲惠普也是将基于TESLA的高性能工作站放在了重要展示位置
▲超强性能的Z800,内部没有打开,但是水冷系统和四块并行计算的TESLA卡足以满足一般图形用户的设计需求
▲猜猜这是什么,是的,这是惠普今年新推出的SL系列可扩展服务器SL390s G7的一个节点(共有),双路至强5600平台(处理器在下面,被隔开了)上面是两块TESLA M2050计算卡。一个惠普S6500机箱内可以插入四个这样的节点,构成八路CPU+八块TESLA GPU计算卡的超强组合——想了解更多关于这款产品的读者,请猛击这里