服务器 频道

性能大幅提升 Core i7 服务器应用测试

  ScienceMark v2.0 Membench

  ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。


ScienceMark v2.0 Membench L1测试成绩


ScienceMark v2.0 Membench L2测试成绩


ScienceMark v2.0 Membench 内存测试成绩

  首先我们进行的是ScienceMark的测试,主要考察系统的缓存和内存子系统情况。L1/L2 Cache的成绩主要是跟处理器频率相关,因为目前的处理器当中L1 Cache都是和处理器核心同频率的,而L2 Cache基本上也是——当前的处理器L2都是全速的(放置在处理器内但不在同一个芯片上的Pentium II为半速L2,而Pentium之前的处理器L2则和处理器分离,速度更低)。越快的频率,L1/L2性能就越好。而内存带宽主要由两部分相关:比较大的部分是内存架构,小部分是内存操作指令(集),例如使用最新的SSE指令集比通常的ALU指令集会得到更大的吞吐量,而不同的SSE版本性能也有不同。

ScienceMark Membench

厂商NehalemDELL PE2900 III
产品型号单路Core i7 Extreme 940双路E5450
内存技术参数1GB DDR3-1066 SDRAM x62GB FBD ECC DDR2-667 SDRAM x4
L1带宽(MB/s)47986.2755707.30
L2带宽(MB/s)19708.2616740.23
内存带宽(MB/s)13491.824505.59
L1 Cache Latency(ns)
32 Bytes Stride1.021.00
L1 Algorithm Bandwidth(MB/s)
Compiler42946.57 
REP MOVSD43613.84 
ALU Reg Copy12113.23 
MMX Reg Copy23883.50 
SSE PAlign47242.50 
SSE2 PAlign47986.27 
L2 Cache Latency(ns)
4 Bytes Stride1.021.00
16 Bytes Stride1.021.34
64 Bytes Stride3.064.01
256 Bytes Stride3.064.01
512 Bytes Stride2.724.34
L2 Algorithm Bandwidth(MB/s)
Compiler18218.37 
REP MOVSD19708.26 
ALU Reg Copy8797.54 
MMX Reg Copy14108.99 
SSE PAlign18752.85 
SSE2 PAlign18763.34 
Memory Latency(ns)
4 Bytes Stride1.361.00
16 Bytes Stride1.704.68
64 Bytes Stride6.1219.38
256 Bytes Stride36.6559.48
512 Bytes Stride43.5466.16
Memory Algorithm Bandwidth(MB/s)
Compiler10216.663177.97
REP MOVSD13421.203223.82
ALU Reg Copy9015.342818.10
MMX Reg Copy9570.622992.21
MMX Reg 3dNow------
MMX Reg SSE12729.133962.02
SSE PAlign13379.864297.17
SSE PAlign SSE13311.124124.61
SSE2 PAlign13491.824293.79
SSE2 PAlign SSE13236.434126.98
MMX Block 4kb11442.954167.14
MMX Block 16kb12754.304480.38
SSE Block 4kb11424.754172.21
SSE Block 16kb12878.854505.59

  从测试结果来看,45nm Nehalem Core i7平台与45nm Penryn Xeon总体超出实在太多了。L1缓存因为与频率密切相关,而且从上一页的表格来看,Core i7 Extreme 940的L1 I-Cache(指令缓存)为4路集合关联,要弱于Xeon E5450的8路集合关联,因此L1延迟要高上一些,L1带宽则要低上不少。


Nehalem的三级缓存架构

Core i7 940的缓存架构

  对于Core i7 Extreme 940来说,有一处特别的地方就是L3 Cache的存在,L2和L1很相像,都是小容量、低延迟。Xeon E5450就不是这样,因此最终的结果是Nehalem的L2性能要强于Penryn Xeon。由于ScienceMark 2.0认不出Nehalem的L3,因此没有相关的数据。


Nehalem的缓存设计

  到了内存延迟和内存带宽测试上,Core i7 Extreme 940完胜,这和Nehalem的架构密切相关:


Nehalem的内置内存控制器架构

  由于内置了内存控制器,因此内存延迟极低,在使用同样内存基础频率的情况下,Core i7的延迟只有Xeon的2/3,也就是64%左右。在带宽方面,虽然Core i7只具有3个内存通道,而Xeon平台则具有4个内存通道,然而Xeon的内存数据还要经过狭窄的FSB来到达CPU,比起Core i7的完全独享来自然大有不如,因此Core i7 Extreme 940的内存带宽性能测试大约是Xeon E5450的3倍左右。它们的理论带宽分别是25GB(三通道DDR3-1066)和20.8GB(四通道FBD DDR2-667),可见Core i7的内存带宽效率也远比现在的Xeon + 5000X要高。

0
相关文章