ScienceMark v2.0 Membench
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
ScienceMark v2.0 Membench L1测试成绩
ScienceMark v2.0 Membench L2测试成绩
ScienceMark v2.0 Membench 内存测试成绩
首先我们进行的是ScienceMark的测试,主要考察系统的缓存和内存子系统情况。L1/L2 Cache的成绩主要是跟处理器频率相关,因为目前的处理器当中L1 Cache都是和处理器核心同频率的,而L2 Cache基本上也是——当前的处理器L2都是全速的(放置在处理器内但不在同一个芯片上的Pentium II为半速L2,而Pentium之前的处理器L2则和处理器分离,速度更低)。越快的频率,L1/L2性能就越好。而内存带宽主要由两部分相关:比较大的部分是内存架构,小部分是内存操作指令(集),例如使用最新的SSE指令集比通常的ALU指令集会得到更大的吞吐量,而不同的SSE版本性能也有不同。
ScienceMark Membench | |||
---|---|---|---|
厂商 | Intel | Intel | Intel |
产品型号 | ASUS Z8NA-D6C Intel Gainestown Xeon X5570 2.93GHz | Nehalem-EP Intel Gainestown Xeon X5570 2.93GHz | PowerEdge 2900 III Intel Harpertown Xeon E5430 2.66GHz |
内存技术参数 | 2GB R-ECC DDR3-1333 SDRAM x6 | 4GB R-ECC DDR3-1333 SDRAM x6 | 4GB R-ECC DDR3-1333 SDRAM x6 |
L1带宽(MB/s) | 47818.05 | 47880.48 | 55376.16 |
L2带宽(MB/s) | 19664.95 | 19604.64 | 16757.55 |
内存带宽(MB/s) | 9991.92 | 10116.61 | 4485.09 |
L1 Cache Latency(ns) | |||
32 Bytes Stride | 2 cycles 0.68 ns | 2 cycles 0.68 ns | 1.13 ns |
L1 Algorithm Bandwidth(MB/s) | |||
Compiler | 43215.35 | 43072.25 | 25201.96 |
REP MOVSD | 43511.21 | 43467.25 | 25467.15 |
ALU Reg Copy | 12047.41 | 11949.09 | 13093.65 |
MMX Reg Copy | 24174.09 | 22537.36 | 25242.19 |
SSE PAlign | 45382.39 | 47773.13 | 52826.21 |
SSE2 PAlign | 47818.05 | 47880.48 | 55376.16 |
L2 Cache Latency(ns) | |||
4 Bytes Stride | 3 cycles 1.02 ns | 3 cycles 1.02 ns | 1.13 ns |
16 Bytes Stride | 3 cycles 1.02 ns | 3 cycles 1.02 ns | 1.50 ns |
64 Bytes Stride | 8 cycles 2.73 ns | 8 cycles 2.73 ns | 4.51 ns |
256 Bytes Stride | 8 cycles 2.73 ns | 8 cycles 2.73 ns | 4.51 ns |
512 Bytes Stride | 8 cycles 2.73 ns | 7 cycles 2.39 ns | 4.89 ns |
L2 Algorithm Bandwidth(MB/s) | |||
Compiler | 18066.34 | 18039.64 | 11880.48 |
REP MOVSD | 19664.95 | 19604.64 | 12536.88 |
ALU Reg Copy | 8782.00 | 8788.90 | 8577.86 |
MMX Reg Copy | 14046.98 | 14083.83 | 13408.31 |
SSE PAlign | 18726.69 | 18731.92 | 16719.97 |
SSE2 PAlign | 18240.65 | 5833.93 | 16757.55 |
Memory Latency(ns) | |||
4 Bytes Stride | 3 cycles 1.02 ns | 3 cycles 1.02 ns | 1.13 ns |
16 Bytes Stride | 5 cycles 1.70 ns | 5 cycles 1.70 ns | 4.89 ns |
64 Bytes Stride | 23 cycles 7.84 ns | 22 cycles 7.50 ns | 19.17 ns |
256 Bytes Stride | 104 cycles 35.45 ns | 102 cycles 34.77 ns | 59.77 ns |
512 Bytes Stride | 119 cycles 40.57 ns | 117 cycles 39.88 ns | 68.04 ns |
Memory Algorithm Bandwidth(MB/s) | |||
Compiler | 9075.41 | 9210.17 | 3178.45 |
REP MOVSD | 9991.92 | 10116.61 | 3220.23 |
ALU Reg Copy | 7965.79 | 8156.00 | 2789.34 |
MMX Reg Copy | 8945.01 | 9306.18 | 2972.91 |
MMX Reg 3dNow | - | - | - |
MMX Reg SSE | 8801.02 | 8781.26 | 3978.53 |
SSE PAlign | 8568.30 | 8580.24 | 4128.59 |
SSE PAlign SSE | 9505.51 | 9524.07 | 4390.48 |
SSE2 PAlign | 8543.69 | 8560.83 | 4326.42 |
SSE2 PAlign SSE | 9541.90 | 9555.13 | 4441.71 |
MMX Block 4kb | 7804.15 | 7743.82 | 4063.30 |
MMX Block 16kb | 8314.60 | 8321.35 | 4479.88 |
SSE Block 4kb | 7895.35 | 7890.10 | 4074.79 |
SSE Block 16kb | 8255.85 | 8355.86 | 4485.09 |
基于同样的处理器,Z8NA-D6C缓存性能和Z8PS-D12-1U相近,而仍然是内存规格上的缘故,内存性能要低一点,这些都是很合理的现象。在老的Z8PS-D12-1U上,L2 Algorithm Bandwidth测试中的SSE2 PAlign得分有些异常,在Z8NA-D6C上则不再出现这个问题。