缓存内存性能测试
|
ScienceMark Membench | |||
| 双路Xeon 5080 | 双路Xeon 5050 | 双路Opteron | |
|
内存带宽(MB/s) |
3573.56 | 2283.58 | 4225.35 |
|
L1 Cache Latency (ns) | |||
|
32 Bytes Stride |
1.07 | 1.34 | 1.67 |
|
L2 Cache Latency(ns) | |||
|
4 Bytes Stride |
1.07 | 1.34 | 1.67 |
|
16 Bytes Stride |
2.15 | 2.67 | 2.79 |
|
64 Bytes Stride |
7.25 | 9.02 | 9.47 |
|
256 Bytes Stride |
6.98 | 8.69 | 6.69 |
|
512 Bytes Stride |
6.71 | 8.35 | 7.24 |
|
Memory Latency(ns) | |||
|
4 Bytes Stride |
1.34 | 1.67 | 1.67 |
|
16 Bytes Stride |
4.83 | 6.68 | 7.24 |
|
64 Bytes Stride |
18.53 | 27.07 | 29.54 |
|
256 Bytes Stride |
135.34 | 179.11 | 53.00 |
|
512 Bytes Stride |
142.06 | 189.8 | 74.13 |
|
Algorithm Bandwidth(MB/s) | |||
|
Compiler |
2753.82 | 1771.21 | 2033.02 |
|
REP MOVSD |
2789.13 | 1796.07 | 2060.88 |
|
ALU Reg Copy |
2652.54 | 1751.59 | 2051.71 |
|
MMX Reg Copy |
2791.96 | 1794.26 | 2137.96 |
|
MMX Reg 3dNow |
- | - | 3836.07 |
|
MMX Reg SSE |
3573.56 | 2283.58 | 4222.72 |
|
SSE PAlign |
3554.13 | 2272.72 | 3350.08 |
|
SSE PAlign SSE |
3561.63 | 2281.81 | 4225.35 |
|
SSE2 PAlign |
3551.91 | 2271.43 | 3349.9 |
|
SSE2 PAlign SSE |
3561.73 | 2280.69 | 4222.67 |
|
MMX Block 4kb |
3336.38 | 3163.14 | 3898.09 |
|
MMX Block 16kb |
3442.12 | 2212.04 | 4167.31 |
|
SSE Block 4kb |
3353.61 | 2174.46 | 3769.51 |
|
SSE Block 16kb |
3446.63 | 2204.89 | 4008.02 |
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
Xeon 5080/5050处理器的每个核心配置了12K追踪缓存和16K数据缓存以及2M二级缓存(英特尔称之为高级传输缓存),它们均为8-way并联结构,64字节线宽,同之前的单核心的Netburst架构Xeon处理器并没有太大的差异。而AMD Opteron 265处理器的每个核心则配置了64KB数据缓存和64KB指令缓存,2-way并联结构,64字节线宽。两家厂商在处理器L1缓存方面的设计思路是完全不同的。
在L1缓存延迟方面,Xeon 5080凭借着高主频和改进的执行追踪缓存取得了明显的优势,32 Bytes Stride测试延迟只有1.03ns,而主频为3.0GHz的Xeon 5050的延迟为1.34ns,Opteron 265的延迟为1.67ns。
Xeon 5080的L2缓存延迟具有明显的优势,特别是同采用共享二级缓存设计的Opteron 265相比也没有丝毫的逊色。
两个双核Xeon 5000处理器都采用了FB-DIMM内存,特别是双路Xeon 5080平台采用了4通道平台,其内存延迟比双路Xeon 5050平台(2通道)缩短了很多。而双路Opteron因为整合了内存控制器并且采用了SDRAM内存,所以其内存延迟测试表现一贯不错,特别是256/512 Bytes Stride测试部分。
![]() |
我们还使用了Sisoft Sandra 2005 Pro程序中的Cache & Memory Benchmark测试子项目进行了测试。这个程序的算法同ScienceMark的非常不同,以前在单核心Xeon平台的测试结果显示它会明显的受到处理器数量或者可并行处理线程数量的影响。
不过,之前我们对于双路Paxville DP平台和双路Xeon 5050平台的测试显示这个项目的测试成绩并没有更进一步的提高。当我们在Xeon 5080平台上运行这项测试的时候,我们发现2k-128k数据段(基本可以代表L1性能)测试结果最高达到了20000MB/s!是之前测试的双路Xeon 5050平台的近3倍。而256KB-1MB数据段(可以代表L2性能),测试结果也高达10000MB/s,也远远高于双路Xeon 5050平台。
AMD Opteron 265平台在这项测试中表现比较低迷。
