三、测试方案2:
快速傅里叶变换(Fast Fourier Transform FFT)在高性能的应用十分广泛,它在声学、电信、电力系统、图像与信号处理、物探、天线、雷达、卫星 、医疗等应用领域有广泛的应用。凡是可以利用傅里叶变换来进行分析、综合、变换的地方,都可以利用FFT算法及运用数字计算技术来加以实现。
CUFFT 是NIVIDA CUDA的快速傅里叶变换库。是NVIDIA公司专为其CUDA架构计算设备开发的FFT加速库。CUFFT库支持以下功能:
1. 可以对实数或复数进行一维,二维和三维的离散傅里叶变换。
2. 可以同时并行处理一批一维的离散傅里叶变换;
3. 对二维、三维傅里叶变换,每一维可以在[2,16384]中任意取值;
4. 对一维傅里叶变换,能处理最大数组尺寸为8M;
5. 对实数或者复数进行的FFT,结果输出位置可以和输入位置一致(原地变换),也可以不同(异址变换)。
本次测试采用CUFFT库版本:libcufft.so.3.0.14,测试分别在“倚天”NF5588(搭载Tesla C2050)和第一代“倚天”桌面超算上进行,对不同长度的信号(双精度一维数组)先后进行正、负FFT变换,并截取FFT计算的精确时间,测试平台配置如下:
对比平台 | 升级版“倚天”NF5588 | 第一代“倚天”桌面超算 | |
硬件 | CPU | 2*Intel E5520 @ 2.27GHz | 2* Intel E5420 @ 2.5GHz |
GPU | 2* Nvidia Tesla C2050 | 2*Nvidia Tesla C1060 | |
内存 | 16G DDR3 1333MHz | 8G DDR3 | |
硬盘 | 500GB SATA | 500GB SATA | |
系统 | OS | Red Hat Enterprise Linux Server release 5.4 | Red Hat Enterprise Linux Server release 5.4 |
驱动 | CUDA | devdriver_3.1_linux_64_256.40.run (cuda3.1) | devdriver_3.1_linux_64_256.40.run (cuda3.1) |
对比测试结果如下:
Double Inplace FFT Batch enabled | |||
signal_length | 第一代“倚天”桌面超算 | 升级版“倚天”NF5588 | 性能提升 |
1024 | 0.24 | 0.247 | 0.971 |
2048 | 0.192 | 0.208 | 0.923 |
4096 | 0.216 | 0.212 | 1.019 |
8192 | 0.21 | 0.211 | 0.995 |
16384 | 0.27 | 0.248 | 1.089 |
32768 | 0.418 | 0.432 | 0.968 |
65536 | 0.792 | 0.44 | 1.800 |
131072 | 1.244 | 0.57 | 2.182 |
262144 | 2.161 | 0.865 | 2.498 |
524288 | 4.433 | 1.458 | 3.040 |
1048576 | 8.545 | 2.694 | 3.172 |
2097152 | 17.337 | 5.697 | 3.043 |
4194304 | 36.219 | 11.577 | 3.129 |
8388608 | 75.363 | 24.666 | 3.055 |
随信号长度的增加, “倚天”NF5588的性能优势明显体现出来,当信号长度增加到最大8M(数组总大小为64MB)时, NF5588的cufft计算时间仅为第一代产品的三分之一。同时也说明“Fermi”架构的Tesla 20系列GPU在双精度计算上较其上一代平台有了较大性能提升。
四、测试结论:
浪潮升级版“倚天”NF5588较上代产品进行了全面的升级,它支持NVIDIA Tesla最新的20系列GPU,采用双路Intel Xeon 5500/5600系列CPU,及最新的DDR3 ECC Unbuffered/DDR3 ECC Register内存,最大容量可至48GB,并且具有更高的系统可靠性、更强的海量存储能力、更强I/O扩展能力及更卓越的散热技术。
一系列的实测证明了NF5588超强的计算能力,它的计算能力甚至超越了一个小型的高性能集群,浪潮高性能产业将继续努力满足HPC行业对性能无休止的追求,努力满足HPC应用对计算能力最苛刻要求,努力使浪潮的HPC产品胜任于包括生命、金融、证券、动漫、电信、大中型企业、能源等各种关键性应用。