ScienceMark v2.0 Membench
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
ScienceMark v2.0 Membench L1测试成绩
ScienceMark v2.0 Membench L2测试成绩
ScienceMark v2.0 Membench 内存测试成绩
首先我们进行的是ScienceMark的测试,主要考察系统的缓存和内存子系统情况。L1/L2 Cache的成绩主要是跟处理器频率相关,因为目前的处理器当中L1 Cache都是和处理器核心同频率的,而L2 Cache基本上也是——当前的处理器L2都是全速的(放置在处理器内但不在同一个芯片上的Pentium II为半速L2,而Pentium之前的处理器L2则和处理器分离,速度更低)。越快的频率,L1/L2性能就越好。而内存带宽主要由两部分相关:比较大的部分是内存架构,小部分是内存操作指令(集),例如使用最新的SSE指令集比通常的ALU指令集会得到更大的吞吐量,而不同的SSE版本性能也有不同。
ScienceMark Membench | |||
厂商 | Dawning | DELL | |
产品型号 | I620r-G Nehalem-EP Intel Gainestown Xeon E5540 2.53GHz | PowerEdge 2900 III Intel Harpertown Xeon E5430 2.66GHz | |
内存技术参数 | 2GB R-ECC DDR3-1066 SDRAM x12 | 2GB FBD DDR2-667 SDRAM x4 | |
L1带宽(MB/s) | 47705.89 | 55376.16 | |
L2带宽(MB/s) | 19499.26 | 16757.55 | |
内存带宽(MB/s) | 8620.40 | 4485.09 | |
L1 Cache Latency(ns) | |||
32 Bytes Stride | 2 cycles 0.79 ns | 1.13 ns | |
L1 Algorithm Bandwidth(MB/s) | |||
Compiler | 41485.23 | 25201.968 | |
REP MOVSD | 43346.81 | 25467.15 | |
ALU Reg Copy | 11990.39 | 13093.65 | |
MMX Reg Copy | 47705.89 | 25242.19 | |
SSE PAlign | 46105.34 | 52826.21 | |
SSE2 PAlign | 48167.88 | 55376.16 | |
L2 Cache Latency(ns) | |||
4 Bytes Stride | 3 cycles 1.19 ns | 1.13 ns | |
16 Bytes Stride | 3 cycles 1.19 ns | 1.50 ns | |
64 Bytes Stride | 9 cycles 3.56 ns | 4.51 ns | |
256 Bytes Stride | 8 cycles 3.17 ns | 4.51 ns | |
512 Bytes Stride | 8 cycles 3.17 ns | 4.89 ns | |
L2 Algorithm Bandwidth(MB/s) | |||
Compiler | 18042.06 | 11880.48 | |
REP MOVSD | 19499.26 | 12536.88 | |
ALU Reg Copy | 8766.52 | 8577.86 | |
MMX Reg Copy | 13988.43 | 13408.31 | |
SSE PAlign | 18664.20 | 16719.97 | |
SSE2 PAlign | 18664.20 | 16757.55 | |
Memory Latency(ns) | |||
4 Bytes Stride | 3 cycles 1.19 | 1.13 | |
16 Bytes Stride | 5 cycles 1.98 | 4.89 | |
64 Bytes Stride | 23 cycles 9.10 | 19.17 | |
256 Bytes Stride | 105 cycles 41.55 | 59.77 | |
512 Bytes Stride | 118 cycles 46.70 | 68.04 | |
Memory Algorithm Bandwidth(MB/s) | |||
Compiler | 8013.28 | 3178.45 | |
REP MOVSD | 8620.40 | 3220.23 | |
ALU Reg Copy | 7066.53 | 2789.34 | |
MMX Reg Copy | 8098.63 | 2972.91 | |
MMX Reg 3dNow | - | - | |
MMX Reg SSE | 7288.34 | 3978.53 | |
SSE PAlign | 7121.20 | 4128.59 | |
SSE PAlign SSE | 8001.72 | 4390.48 | |
SSE2 PAlign | 7123.08 | 4326.42 | |
SSE2 PAlign SSE | 7985.25 | 4441.71 | |
MMX Block 4kb | 6499.16 | 4063.30 | |
MMX Block 16kb | 6873.16 | 4479.88 | |
SSE Block 4kb | 6582.42 | 4074.79 | |
SSE Block 16kb | 4681.34 | 4485.09 |
基本上,与处理器结合最紧密的L1,或L2(在有L3的情况下)的延迟总是跟处理器频率密集相关的,从总体测试结果来看,频率较低的Nehalem-EP的L1带宽要低一点,不过其运算带宽缺是Penryn Xeon的两倍左右。整体来说,Nehalem-EP的缓存/内存子系统比Penryn Xeon要强出不少。