服务器 频道

全国首发 AMD Shanghai/上海性能评测

  ScienceMark v2.0 Membench

  ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。


ScienceMark v2.0 Membench L1测试成绩


ScienceMark v2.0 Membench L2测试成绩


ScienceMark v2.0 Membench 内存测试成绩

  首先我们进行的是ScienceMark的测试,主要考察系统的缓存和内存子系统情况。L1/L2 Cache的成绩主要是跟处理器频率相关,因为目前的处理器当中L1 Cache都是和处理器核心同频率的,而L2 Cache基本上也是——当前的处理器L2都是全速的(放置在处理器内但不在同一个芯片上的Pentium II为半速L2,而Pentium之前的处理器L2则和处理器分离,速度更低)。越快的频率,L1/L2性能就越好。而内存带宽主要由两部分相关:比较大的部分是内存架构,小部分是内存操作指令(集),例如使用最新的SSE指令集比通常的ALU指令集会得到更大的吞吐量,而不同的SSE版本性能也有不同。

ScienceMark Membench

厂商DawningDawningDELL
产品型号AS650
AMD Shanghai
Opteron 2378
2.4GHz
AS650
AMD Barcelona
Opteron 2350
2.0GHz
PowerEdge 2900 III
Intel Harptown
Xeon E5430
2.66GHz
内存技术参数2GB R-ECC DDR2-667 SDRAM x42GB R-ECC DDR2-667 SDRAM x42GB FBD-ECC DDR2-667 SDRAM x4
L1带宽(MB/s)48167.8837069.9755376.16
L2带宽(MB/s)14314.3411523.4616757.55
内存带宽(MB/s)6672.765144.714485.09
L1 Cache Latency(ns)
32 Bytes Stride1.251.501.13
L1 Algorithm Bandwidth(MB/s)
Compiler34042.6328354.5825201.968
REP MOVSD34864.1028986.1425467.15
ALU Reg Copy12166.9410804.2613093.65
MMX Reg Copy25698.4720285.3725242.19
SSE PAlign48167.4037003.9952826.21
SSE2 PAlign48167.8837069.9755376.16
L2 Cache Latency(ns)
4 Bytes Stride1.251.131.13
16 Bytes Stride1.251.501.50
64 Bytes Stride3.754.514.51
256 Bytes Stride6.254.514.51
512 Bytes Stride6.254.894.89
L2 Algorithm Bandwidth(MB/s)
Compiler11609.578830.23118800.48
REP MOVSD12140.009964.3412536.88
ALU Reg Copy9273.717660.438577.86
MMX Reg Copy12042.459754.6113408.31
SSE PAlign14314.3411523.4616719.97
SSE2 PAlign14289.8811502.3816757.55
Memory Latency(ns)
4 Bytes Stride1.672.001.13
16 Bytes Stride5.008.004.89
64 Bytes Stride20.0031.0019.17
256 Bytes Stride34.5897.4959.77
512 Bytes Stride81.24107.9968.04
Memory Algorithm Bandwidth(MB/s)
Compiler2872.771826.243178.45
REP MOVSD2887.021851.433220.23
ALU Reg Copy2654.291606.582789.34
MMX Reg Copy2943.851882.102972.91
MMX Reg 3dNow6631.755028.88-
MMX Reg SSE6672.765106.973978.53
SSE PAlign5765.464720.154128.59
SSE PAlign SSE6611.105144.714390.48
SSE2 PAlign5766.874721.734326.42
SSE2 PAlign SSE6612.425144.154441.71
MMX Block 4kb4450.462940.434063.30
MMX Block 16kb4677.493201.034479.88
SSE Block 4kb4441.713087.784074.79
SSE Block 16kb4681.343245.744485.09
 

AMD 45nm Shanghai Opteron 2378的缓存架构,L3基于48路集合关联

AMD 45nm Shanghai Opteron 2378的缓存架构,L3基于32路集合关联,并且容量只有2MB

Intel 45nm Harptertown Xeon E5430的缓存架构,L3基于24路集合关联

  基本上,与处理器结合最紧密的L1,或L2(在有L3的情况下)的延迟总是跟处理器频率密集相关的(这让笔者想起了一个有趣的故事:有些时候Prescott的寄存器存取延迟甚至不如L1/L2的延迟),从总体测试结果来看,Shanghai的L1、L2设计要比Barcelona进步多了,同时其效能也比Intel的Harptertown要高,内存带宽方面,Shanghai处理器明显要比Barcelona要高出30~40%左右,刨去频率上的差异,同频Shanghai的缓存/内存性能要比Barcelona强约10%/20%,也比Intel Harptertown要强。从处理器架构上说,只有Nehalem才是Shanghai设计的对手。

0
相关文章