缓存内存性能测试
|
ScienceMark Membench | |||
|
双路双核Xeon |
单路双核Xeon |
双路Xeon | |
|
内存带宽(MB/s) |
3703.52 |
4016.83 |
4091.74 |
|
L1 Cache Latency (ns) | |||
|
32 Bytes Stride |
1.43 |
1.07 |
1.03 |
|
L2 Cache Latency(ns) | |||
|
4 Bytes Stride |
2.21 |
2.14 |
2.00 |
|
16 Bytes Stride |
4.64 |
4.26 |
4.67 |
|
64 Bytes Stride |
10.36 |
9.64 |
9.00 |
|
256 Bytes Stride |
10.36 |
9.29 |
8.67 |
|
512 Bytes Stride |
10.00 |
8.57 |
8.33 |
|
Memory Latency(ns) | |||
|
4 Bytes Stride |
3.21 |
2.14 |
2.00 |
|
16 Bytes Stride |
5.71 |
5.00 |
5.00 |
|
64 Bytes Stride |
16.78 |
16.78 |
16.33 |
|
256 Bytes Stride |
128.21 |
126.42 |
125.66 |
|
512 Bytes Stride |
134.63 |
132.85 |
131.33 |
|
Algorithm Bandwidth(MB/s) | |||
|
Compiler |
1914.36 |
2255.71 |
2113.73 |
|
REP MOVSD |
1950.86 |
2286.97 |
2140.7 |
|
ALU Reg Copy |
1746.1 |
2127.93 |
1885.35 |
|
MMX Reg Copy |
1903.61 |
2214.51 |
2031.39 |
|
MMX Reg 3dNow |
- |
- |
- |
|
MMX Reg SSE |
2712.14 |
3402.06 |
3396.47 |
|
SSE PAlign |
3066.42 |
3533.77 |
3537.47 |
|
SSE PAlign SSE |
3012.8 |
3480.59 |
3525.52 |
|
SSE2 PAlign |
3066.15 |
3542.22 |
3539.02 |
|
SSE2 PAlign SSE |
3010.93 |
3468.71 |
3527.03 |
|
MMX Block 4kb |
3098.21 |
3619.55 |
3770.11 |
|
MMX Block 16kb |
3622.71 |
4016.49 |
4091.74 |
|
SSE Block 4kb |
3292.47 |
3613.15 |
3800.00 |
|
SSE Block 16kb |
3703.52 |
4016.83 |
4078.21 |
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
对比双路双核平台和单路双核平台的测试结果,我们会发现测试结果出现了一些有趣的现象:双路双核平台的内存带宽的测试结果是低于单路双核平台的,仔细对比会发现,L1和L2缓存延迟时间方面,双路双核平台比单路双核慢。而内存延迟测试方面,也出现了小数据包测试(4Bytes、16Bytes)性能低于单路平台的现象——此时受到缓存性能的影响会更加明显。当测试数据块达到64Bytes、256Bytes和512Bytes时,两者之间则没有明显的差距了。在不同的Algorithm Bandwidth中,单路双核平台的测试结果也是明显的高于双路双核平台的测试结果。我们推测出现这种结果还是同处理器的缓存仲裁机制效率不高有关。
对比单核双Xeon平台的L1、L2缓存的延迟时间,我们会发现它同单路双核Xeon平台的性能是相近的,内存延迟以及带宽也是相近的。这个部分的测试结果或许可以揭示在SPEC CPU2000中“Speed”测试
![]() |
我们还使用了Sisoft Sandra 2005 Pro程序中的Cache & Memory Benchmark测试子项目进行了测试。数据块2KB-16KB之间的测试曲线基本可以代表L1缓存的性能。之前我们对于单核心Xeon系统的测试显示,这个部分的测试结果同处理器的数量(线程)有关,比如单颗双核处理器、单颗超线程Xeon处理器(也就是2线程)的测试结果都在25000MB/s水平上,而单核心双Xeon(4线程)L1缓存带宽则会窜升至70000-80000 MB/s之间。
但是这个规律在这次的双核平台上完全被打破了,单颗双核Xeon(4线程)的L1测试结果为25000 MB/s左右,两颗双核Xeon(8线程)的L1测试结果为35000 MB/s。
32KB-1MB之间的测试曲线基本代表了L2缓存的性能,这项测试也同处理器的数量有关,双Xeon处理器的L2缓存带宽在40000 MB/s水平上。但是双核平台上没有延续这个规律,虽然他们分别具有8线程和4线程,但是测试结果只有25000 MB/s和19000 MB/s左右。
4MB以上的测试曲线可以代表内存的性能,三个平台的测试结果比较接近,基于华硕PVL-D/SCSI的双路双核平台的内存带宽为2300 MB/s,单路双核平台的内存带宽为2700 MB/s,双Xeon平台的内存带宽为2700 MB/s。
