【IT168 专稿】11月26日,2009年全国高性能算法软件研究开发研讨会,暨中国软件行业协会数学软件分会理事会年会在京召开。大会计划为期两天,主要就中国高性能计算Top 100排行榜作出相关报告并予以颁奖。据了解,本届大会由中国软件行业协会数学软件分会主办,中国计算机学会高性能计算专业委员会和国家863高性能计算机评测中心协办,中科院软件所并行软件与计算科学实验室承办。
在Nvidia有关GPU并行计算和生态环境为主题的报告中,来自Nvidia公司的中国PSG销售经理谢强先生表示,Nvidia公司是最早将GPU推向通用计算领域的公司之一,而且最先一批推出了CUDA架构,其1.0版本就已经支持经典的C语言编程环境——这对并行计算编程难的问题来说无疑是一个重要里程碑。据了解,Nvidia公司将于今年末,明年初的时候(笔者认为极有可能是明年初,与“Fermi”一同)发布CUDA 3.0,届时将全面支持包括C语言,Fortran语言,OpenCL语言和面向对象的C++语言编程环境。
Nvidia公司的中国PSG销售经理谢强先生
谢强先生表示,此前的CUDA 2.0版本主要是加入了对OpenCL语言环境的支持,而面向科学计算的Fortran语言CUDA 2.0只是提供了一个编译器,程序员需要先在Fortran里面写好程序,然后重新编译成CUDA可执行的程序,并且GPU执行效率不高。CUDA 3.0版本将提供一个全面的Fortran语言编程环境,使得程序员可以直接在CUDA里编程。另一方面,由于CUDA 3.0所面对的是Nvidia最新的“Fermi”费米GPU,因而可以利用“Fermi”架构中大量的指针指令从而彻底支持“面向对象的编程”,这无疑又是并行计算与串行计算相结合过程中里程碑式的成就。
CUDA 3.0将支持更强大的编程环境
据介绍,Nvidia即将推出的新一代GPU处理器代号“Fermi”(费米),集成了512个流处理器(是上一代的两倍),拥有超过30亿个晶体管,而这些流处理器使其双精度浮点运算能力超过上一代8倍。“费米”还具有ECC纠错技术,在可靠性方面保证了并行计算的顺利。谢强先生着重强调了ECC功能在高性能计算中的作用。他表示,GPU中数百个微内核在运算过程中很容易因为电磁干扰等原因发生数据错误现象,早先的解决方法是重复计算数次,通过类比结果来确认数据可靠性。而ECC技术最早在服务器内存中采用,用于保证数据准确性,现在“Fermi”成为第一个采用该技术的GPU处理器。(里程碑在此 Nvidia专场详解“费米” , 7大改进 NVIDIA第2代CUDA架构Fermi分析 )
Fermi“费米”架构中的重要特性
谢强先生还介绍了用于高性能计算的Tesla计算卡:“Nvidia制作的GPU分为两个主要用途:图形渲染和并行计算。Tesla计算卡完全关闭了图形渲染模块,使得GPU可以百分之一百的将性能应用到高性能计算中。”而目前已经有相当多的针对图形工作站和超级计算机的Tesla计算卡、计算节点问世。在Nvidia的PPT中可以看到,17个采用了Tesla的工作站就可以与一个Top 500中采用了270个多核CPU的服务器集群相当,并且功耗只有25千瓦,远低于服务器集群的181千瓦——投资成本更低。
另据透露,全球最大的某刀片生产商(IBM?)也将在不久之后宣布在其主要刀片产品中采用Nvidia的“Fermi”(费米)Tesla通用计算卡,用以拓展其计算性能。
Nvidia从1995年开始从事GPU的开发工作
旗下拥有Geforce系列显卡面向消费级游戏领域,Quadro系列显卡面向专业图形和工作站,Tesla系列计算卡则面向高性能计算和超级计算机
通用处理器(CPU)的发展历程,一方面是面向高性能计算的处理器发展,以ILLIAC IV超级计算机为鼻祖,到类似IBM蓝色基因超级计算机(其实还有Sun的SPARC系列以及英特尔的安腾系列处理器,IBM的Cell处理器应该也在这一类里,可惜已经停止开发了),Nvidia统一将之归纳为众核处理(Many-Core)架构
另一方面是以x86架构和一些面向数据库的RISC架构处理器为主体的发展路线,如IBM Power处理器,我们熟悉的普通CPU等等,Nvidia将之归纳为多核处理(Multi-Core)
可以看出,GPU的发展速度要远高于CPU
CUDA是计算统一设备架构的缩写
2009年的超级计算研究中,有12%的论文是基于Nvidia GPU的
即将发布的诸多Tesla计算卡,主要面向个人超算领域
这是面向超级计算机的Tesla计算节点