【IT168 专稿】日前,中国高性能计算年会在长沙召开,展会公布了2009年最新的中国TOP 100,国防科技大学研制的天河一号超级计算机以1 PFlops(千万亿次)的计算速度夺得了中国超算排行榜的第一名。各家厂商就目前日渐火热的高性能计算市场做出表示,认为随着金融危机的发生,企业逐步认识到高性能计算在工程和研发领域具有高效率、低成本等特点,从而使得高性能计算市场开始增加。
在Nvidia的新技术专场讲座里,来自美国的Nvidia Tesla超级计算部门总经理Andy Keane先生详细讲解了Nvidia最新GPU“费米”(Fermi)的有关架构以及其利用CUDA进行通用计算的性能。 他表示,“费米”(Fermi)是一个具有划时代意义的GPU产品,其双精度浮点计算性能的大幅度提升将大大满足当前工程领域高性能计算的需求。
Andy Keane先生首先透露了CUDA在各个高性能计算领域所占有的份额在逐步上升,并且在科研院所和能源领域有着更有前景的用途。接着他表示GPU正在逐步深入通用计算领域,很多厂商在尝试将GPU计算与CPU计算相融合。而国内目前最经典的例子要数刚刚浮出水面的千万亿次超级计算机“天河一号”,其计算单元是由6144颗CPU以及5120颗GPU组成。另一方面,Andy介绍了融合了CPU与GPU的服务器,如超微的1U机架式GPU服务器,还有Bull Bullx的GPU刀片等。
接下来,在技术讲解中,Andy介绍了新一代GPU处理器“费米”(Fermi)的详细架构。据介绍,“费米”(Fermi)集成了512个流处理器(是上一代的两倍),拥有超过30亿个晶体管,而这些流处理器使其双精度浮点运算能力超过上一代8倍。“费米”还具有ECC纠错技术,在可靠性方面保证了并行计算的顺利。另一方面,作为支持CUDA通用计算的一部分,“费米”也进一步支持C++编程环境,使得并行计算编程更加容易。
除此之外,“费米”(Fermi)还具有L1和L2缓存(是不是有些像CPU了),新的GDDR5高速闪存也将GPU和显存之间的通讯带宽增加了一倍,而显存的容量也支持到1TB(太惊人了)。
Andy介绍了“费米”(Fermi)处理器的SM Architecture(Sharder Model优化渲染引擎)架构。他表示,“费米”拥有16个SM引擎,而每个SM引擎包括32个支持CUDA的GPU流处理器。据介绍,SM引擎拥有64KB RAM缓存和可自定义大小的L1缓存,双精度浮点运算性能提升8倍正是得益于此。
Andy拿出了一个GPU内核做了详解,他表示,根据IEEE 754-2008有关浮点运算的标准,“费米”任何一个核心的浮点性能都要好过目前最好的CPU,而新建的整数处理单元和浮点计算单元一道在最后汇聚为运算结果队列,这种拆分的并行计算使得双精度和单精度运算都保证了良好的效率。
Andy表示,“费米”是第一个真正意义上拥有片上缓存的GPU,而“费米”中的每条SM引擎都拥有一个L1 Cache,在提升通信带宽的同时降低系统延迟。另一方面所有内核之间还共享有L2 Cache,用以在众核环境下共享资源和通信。
按照Nvidia首席科学家Bill Dally先生的在回答现场观众问题时,引用了伯克利大学并行计算实验室主任Dave Patterson的观点:历史会证明“费米”是一个里程碑式的GPU处理器。