缓存内存性能测试
|
ScienceMark Membench | ||||||
| 平台 | Xeon 5120 | Xeon 5080 | Xeon 5050 | Paxville DP | Xeon LV | Opteron 270 |
| L1带宽 | 52358.39 | - | - | - | 25050.18 | 23044.12 |
| L2带宽 | 15683.28 | - | - | - | 12543.13 | 7311.76 |
|
内存带宽(MB/s) |
2918.25 |
3573.56 | 2283.58 | 3703.52 | 3202.20 | 4243.7 |
|
L1 Cache Latency (ns) | ||||||
|
32 Bytes Stride |
1.61 |
1.07 | 1.34 | 1.43 | 1.50 | 1.5 |
|
L2 Cache Latency(ns) | ||||||
|
4 Bytes Stride |
1.61 | 1.07 | 1.34 |
2.21 |
1.50 | 1.5 |
|
16 Bytes Stride |
2.14 | 2.15 | 2.67 |
4.64 |
2.50 | 2.5 |
|
64 Bytes Stride |
5.89 | 7.25 | 9.02 |
10.36 |
7.00 | 8.5 |
|
256 Bytes Stride |
6.43 | 6.98 | 8.69 |
10.36 |
7.00 | 6.5 |
|
512 Bytes Stride |
6.43 | 6.71 | 8.35 |
10.00 |
7.00 | 6.5 |
|
Memory Latency(ns) | ||||||
|
4 Bytes Stride |
1.61 | 1.34 | 1.67 |
3.21 |
2.00 | 2 |
|
16 Bytes Stride |
2.14 | 4.83 | 6.68 |
5.71 |
7.00 | 7.5 |
|
64 Bytes Stride |
6.96 | 18.53 | 27.07 |
16.78 |
28.50 | 28 |
|
256 Bytes Stride |
7.50 | 135.34 | 179.11 |
128.21 |
123.49 | 69 |
|
512 Bytes Stride |
8.04 | 142.06 | 189.8 |
134.63 |
122.49 | 70.5 |
|
Algorithm Bandwidth(MB/s) | ||||||
|
Compiler |
2068.71 | 2753.82 | 1771.21 |
1914.36 |
1603.90 | 1765.82 |
|
REP MOVSD |
2086.7 | 2789.13 | 1796.07 |
1950.86 |
1621.81 | 1758.61 |
|
ALU Reg Copy |
2019.78 | 2652.54 | 1751.59 |
1746.1 |
1321.41 | 1811.95 |
|
MMX Reg Copy |
2046.38 | 2791.96 | 1794.26 |
1903.61 |
1364.01 | 1899.24 |
|
MMX Reg 3dNow |
- | - | - |
- |
- | 3290.3 |
|
MMX Reg SSE |
2906.74 | 3573.56 | 2283.58 |
2712.14 |
2695.34 | 3623.76 |
|
SSE PAlign |
2897.37 | 3554.13 | 2272.72 |
3066.42 |
2834.36 | 2875.31 |
|
SSE PAlign SSE |
2918.25 | 3561.63 | 2281.81 |
3012.8 |
2624.56 | 3624.98 |
|
SSE2 PAlign |
2888.73 | 3551.91 | 2271.43 |
3066.15 |
2807.56 | 2876.13 |
|
SSE2 PAlign SSE |
2917.67 | 3561.73 | 2280.69 |
3010.93 |
2641.72 | 3623.51 |
|
MMX Block 4kb |
2460.69 | 3336.38 | 3163.14 |
3098.21 |
2889.96 | 3677.91 |
|
MMX Block 16kb |
2663.69 | 3442.12 | 2212.04 |
3622.71 |
3176.61 | 4041.21 |
|
SSE Block 4kb |
2452.03 | 3353.61 | 2174.46 |
3292.47 |
2910.25 | 3854.69 |
|
SSE Block 16kb |
2668.89 | 3446.63 | 2204.89 |
3703.52 |
3202.20 | 4243.7 |
L1缓存同处理器主频同频,因此它的延迟主要受到处理器主频、数据通道接口位宽的影响,从上表可知主频为3.73GHz的Xeon 5080 L1缓存延迟约为1.07ns,而主频为1.86GHz的Xeon 5120的L1缓存延迟则约为1.61ns。由于这项测试无法测试Netburst微架构的处理器的L1/L2带宽,因此我们只能对于Xeon 5120、Xeon LV 2.0GHz和Opteron 270进行对比。从测试结果来看,Xeon 5120 L1缓存带宽是另外两个的2倍。(Xeon 5120中执行资源到L1数据缓存的通道位宽为128bit,而Xeon LV则是64bit,两者主频相当,因此测试数据与之吻合。不过,我们无法确认Opteron的该项参数,否则可进一步确认该结论)
L2缓存也同处理器主频同频,它的延迟除了受到主频的影响之外,还同L2缓存的结构(比如独立还是共享)、算法有关、数据通道接口位宽。从测试结果来看,共享二级缓存架构的处理器相对于独享二级缓存架构的处理器具有一定的优势——Xeon 5080凭借着3.73GHz的主频同其它共享二级缓存架构的处理器持平。
虽然不同的平台所采用的内存类型、时序、容量都不完全相同,但是Xeon 5120平台的内存延迟明显的低于其它的平台,不过这些优势并没有在内存带宽测试中体现出来。
Algorithm Bandwidth部分的测试结果反应了不同的处理器在处理针对不同的指令集优化的软件时的表现,Xeon 5080凭借着其高主频和4通道内存配置在6个项目中取得了第一,在7个项目中取得了第二。Opteron 270则在8个项目中取得了第一。而Xeon 5120在前4项测试中取得了第二成绩。
|
SiSoftware.Sandra.Enterprise.v2007.5.10.98 | ||||||
| 平台 | Xeon 5120 | Xeon 5080 | Xeon 5050 | Paxville DP | Xeon LV | Opteron 270 |
| Memory Bandwidth | ||||||
| RAM Int Buff iSSE2(MB/s) | 4152 | 5216 | 3336 |
3411 |
3259 |
8425 |
| RAM Float Buff iSSE2(MB/s) | 4158 | 5213 | 3338 |
3421 |
3272 |
8406 |
| Memory Latency | ||||||
| Random Access | ||||||
| 1kB | 1.6 | 1.1 | 1.4 | - | 1.5 | 1.5 |
| 4kB | 1.6 | 1.1 | 1.4 | - | 1.5 | 1.5 |
| 16kB | 1.6 | 1.2 | 1.5 | - | 1.5 | 1.5 |
| 64kB | 7.6 | 7.6 | 9.4 | - | 7.0 | 1.5 |
| 256kB | 8.4 | 7.6 | 9.5 | - | 7.0 | 8.6 |
| 1MB | 8.6 | 15.1 | 18.9 | - | 8.3 | 11.2 |
| 4MB | 14.4 | 109 | 145.0 | - | 83.8 | 97.6 |
| 16MB | 118.5 | 145.1 | 191.7 | - | 115.5 | 102.4 |
| 64MB | 134.9 | 155.1 | 205.0 | - | 121.5 | 108.5 |
| Linear Access | ||||||
| 1kB | 1.6 | 1.1 | 1.4 | - | 1.5 | 1.5 |
| 4kB | 1.6 | 1.1 | 1.4 | - | 1.5 | 1.5 |
| 16kB | 1.6 | 1.2 | 1.5 | - | 1.5 | 1.5 |
| 64kB | 6.6 | 7.6 | 9.4 | - | 7.0 | 1.5 |
| 256kB | 6.6 | 7.6 | 9.4 | - | 7.0 | 8.6 |
| 1MB | 6.6 | 7.7 | 9.7 | - | 7.1 | 8.6 |
| 4MB | 7.3 | 18.8 | 27.5 | - | 28.8 | 28 |
| 16MB | 25.5 | 18.9 | 27.6 | - | 29.0 | 28 |
| 64MB | 25.6 | 18.9 | 27.5 | - | 29.0 | 28 |
| Cache and Memory(MB/s) | ||||||
| 2KB | 169224 | 231224 | 183580 | 10210 | 93979 | 81770 |
| 4KB | 212754 | 239076 | 190065 | 37519 | 104009 | 78787 |
| 8KB | 226392 | 179823 | 143786 | 33837 | 106945 | 77982 |
| 16KB | 236478 | 175076 | 139958 | 34569 | 110788 | 81218 |
| 32KB | 234714 | 170846 | 136540 | 35837 | 109814 | 81931 |
| 64KB | 222290 | 155952 | 124609 | 31268 | 105650 | 79351 |
| 128KB | 173958 | 126491 | 101256 | 25359 | 85798 | 69673 |
| 256KB | 69226 | 127008 | 101868 | 25266 | 53855 | 62682 |
| 512KB | 68656 | 126246 | 101100 | 25254 | 53103 | 48378 |
| 1MB | 65802 | 118893 | 95312 | 25009 | 46464 | 39154 |
| 4MB | 54043 | 95930 | 76271 | 24883 | 19709 | 21975 |
| 16MB | 7008 | 6669 | 4194 | 11281 | 2520 | 6607 |
| 64MB | 4703 | 6163 | 3811 | 2371 | 2197 | 6541 |
| 256MB | 4430 | 5839 | 3629 | 2370 | 2078 | 6225 |
| 1GB | 3544 | 4679 | 2903 | 2199 | 1658 | 4978 |
从SiSoft Sandra 2007的内存带宽测试结果分析,处理器主频、前端总线带宽都会对于内存带宽测试产生较为明显的影响,这种趋势也体现在了内存延迟测试、缓存和内存带宽测试部分。