缓存内存性能测试
|
ScienceMark Membench | ||||
| 双路Xeon 5050 |
双路Paxville DP |
单路Paxville DP |
双路Xeon 3.0GHz | |
|
内存带宽(MB/s) |
2283.58 |
3703.52 |
4016.83 |
4091.74 |
|
L1 Cache Latency (ns) | ||||
|
32 Bytes Stride |
1.34 |
1.43 |
1.07 |
1.03 |
|
L2 Cache Latency(ns) | ||||
|
4 Bytes Stride |
1.34 |
2.21 |
2.14 |
2.00 |
|
16 Bytes Stride |
2.67 |
4.64 |
4.26 |
4.67 |
|
64 Bytes Stride |
9.02 |
10.36 |
9.64 |
9.00 |
|
256 Bytes Stride |
8.69 |
10.36 |
9.29 |
8.67 |
|
512 Bytes Stride |
8.35 |
10.00 |
8.57 |
8.33 |
|
Memory Latency(ns) | ||||
|
4 Bytes Stride |
1.67 |
3.21 |
2.14 |
2.00 |
|
16 Bytes Stride |
6.68 |
5.71 |
5.00 |
5.00 |
|
64 Bytes Stride |
27.07 |
16.78 |
16.78 |
16.33 |
|
256 Bytes Stride |
179.11 |
128.21 |
126.42 |
125.66 |
|
512 Bytes Stride |
189.8 |
134.63 |
132.85 |
131.33 |
|
Algorithm Bandwidth(MB/s) | ||||
|
Compiler |
1771.21 |
1914.36 |
2255.71 |
2113.73 |
|
REP MOVSD |
1796.07 |
1950.86 |
2286.97 |
2140.7 |
|
ALU Reg Copy |
1751.59 |
1746.1 |
2127.93 |
1885.35 |
|
MMX Reg Copy |
1794.26 |
1903.61 |
2214.51 |
2031.39 |
|
MMX Reg 3dNow |
- |
- |
- |
- |
|
MMX Reg SSE |
2283.58 |
2712.14 |
3402.06 |
3396.47 |
|
SSE PAlign |
2272.72 |
3066.42 |
3533.77 |
3537.47 |
|
SSE PAlign SSE |
2281.81 |
3012.8 |
3480.59 |
3525.52 |
|
SSE2 PAlign |
2271.43 |
3066.15 |
3542.22 |
3539.02 |
|
SSE2 PAlign SSE |
2280.69 |
3010.93 |
3468.71 |
3527.03 |
|
MMX Block 4kb |
3163.14 |
3098.21 |
3619.55 |
3770.11 |
|
MMX Block 16kb |
2212.04 |
3622.71 |
4016.49 |
4091.74 |
|
SSE Block 4kb |
2174.46 |
3292.47 |
3613.15 |
3800.00 |
|
SSE Block 16kb |
2204.89 |
3703.52 |
4016.83 |
4078.21 |
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
Xeon 5050处理器的每个核心配置了12K追踪缓存和16K数据缓存以及2M二级缓存(英特尔称之为高级传输缓存),它们均为8-way并联结构,64字节线宽,同之前的单核心的Netburst架构Xeon处理器并没有太大的差异。不过,在英特尔的文档中明确的说明对于Execution Trace Cache进行了改进和优化,但是我们并没有更多的资料显示这种改变的细节。
从这个部分的测试结果可以看出,Xeon 5050处理器的L1缓存的延迟并不太理想,但是L2缓存的延迟有了明显的改进。三个使用DDR2内存的平台内存测试结果比较相近,但是使用了更高频率的FD-DIMM的Xeon 5050丝毫没有显示出来任何优势,内存延迟时间很长,增长了30%以上,因此其内存带宽测试结果最低也容易分析其原因了。
根据以往的经验来看,ScienceMark MemBenchmark的测试结果同SPEC CPU2000 Speed测试结果符合的很好。从我们测试结果可以很容易的知道为什么双路Xeon 5050平台和双核Paxville DP为什么低于双路Xeon平台了,前者受累于“漫长”的内存延迟,后者则是L2缓存延迟太长。
![]() |
我们还使用了Sisoft Sandra 2005 Pro程序中的Cache & Memory Benchmark测试子项目进行了测试。这个程序的算法同ScienceMark的非常不同,以前在单核心Xeon平台的测试结果显示它会明显的受到处理器数量或者可并行处理线程数量的影响。不过,近期我们对于Paxville DP平台的测试结果并不符合这个规律,其结果明显的偏低。新的Xeon 5050平台最高可并行处理8个线程,但是测试曲线同双路Xeon 3.0GHz平台几乎吻合,它也没有因为支持更多的线程而在这个环节受益。
