服务器 频道

单挑双路5400 优异Nehalem-WS深度首测

  【IT168评测中心】至今,Intel Nehalem-EP处理器已经发布整整3个月,围绕着这款处理器,我们曾经进行过众多深入的评测,包括从核心技术分析它的优势所在:英特尔至强5500服务器主题评测。不过虽然我们测试过众多的至强5500处理器,但是对于同样核心、面向工作站领域的W3500和W5500系列了解还不是很多。恰好最近,我们收到了一台来自惠普方面送测的Z400工作站,其中搭配了至强W3570工作站处理器。

  在Intel官方网站中,我们很容易的找到了这款处理器的相关信息。在Nehalem至强工作站处理器产品线,一共有3款产品,而我们本次要介绍的W3570正位列其中。

  至强W3570处理器使用的是Nehalem-WS核心,属于Bloomfield(Nehalem-WS 1S系列),这个系列有W3570/W3540/W3520三款,分别与Core i7-965/940/920完全相同,也是四核心八线程、3.20/2.93/2.66GHz频率、8MB三级缓存、QPI总线频率6.4GT/s或4.8GT/s、热设计功耗130W。

  同时,从产品的DataSheet中,我们还了解到了至强W3500系列更多的信息。同规格来看,虽然号称是工作站专用的处理器,不过内部结构和我们之前看到的服务器级别至强5500并没有太大的出入,基于同样核心的两类产品都具备了基本的特征。

 

W3570处理器真身

  刚才我们介绍过,至强W3570处理器使用的是Nehalem-WS核心,属于Bloomfield(Nehalem-WS 1S系列),这个系列有W3570/W3540/W3520三款。就规格来说,至强W3570是一款单路处理器,主频高达3.2GHz(这个频率对于至强处理器来说的确很高,之前我们测试过的至强X5570处理器只有2.93GHz),具备4个物理核心,缓存为8MB(按照Nehalem处理器的规格,这里指的应该是L3缓存), 支持Intel QuickPath Technology技术,QPI总线频率为6.4GT/s,TDP为130瓦。  

 

  事实上,如果只通过外观,我们并不能区别工作站或服务器专用的处理器有任何差别。它们的功能也趋于一致,或许只有通过测试我们才能够看到两者的详细差别。

  另外,有关Nehalem处理器的详细分析,我们在之前的文章中已经做过介绍,详情参见:Intel Nehalem-EP处理器首发深度评测

测试平台、测试环境
测试分组
类别
惠普Z400工作站联想T260 G2服务器双路Xeon E5430基准平台
DELL PE2900 III服务器
处理器子系统
处理器
单路Intel Xeon W3570
单路Intel Xeon E5504
双路Intel Xeon E5430
处理器架构
Intel 45nm NehalemIntel 45nm NehalemIntel 45nm Penryn
处理器代号
BloomfieldGainestownHarpertown
处理器封装
Socket 1366 LGASocket 1366 LGASocke 771 LGA
处理器规格
四核四核四核
处理器指令集
MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,SSE4.2,EM64T
MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,SSE4.2,EM64T
MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,EM64T,VT
主频3.2GHz2GHz2.66GHz
处理器外部总线1x QPI
3200MHz
6.40GT/s
单向6.4GB/s(每QPI)
双向12.8GB/s(每QPI)
1x QPI
3200MHz
6.40GT/s
单向12.8GB/s(每QPI)
双向25.6GB/s(每QPI)
FSB
333MHz
1333MT/s
10.6GB/s
L1 D-Cache
4x 32KB
8路集合关联
4x 32KB
8路集合关联
4x 32KB
8路集合关联
L1 I-Cache
4x 32KB
4路集合关联
4x 32KB
4路集合关联
4x 32KB
8路集合关联
L2 Cache
4x 256KB
8路集合关联
4x 256KB
8路集合关联
2x 6144KB
16路集合关联
L3 Cache
8MB
16路集合关联
8MB
16路集合关联
 
主板型号
HP
Lenovo
DELL PE2900 III
芯片组
Intel Tylersburg X58
IOH:Intel 5520(Tylersburg-36D)
ICH:Intel 82801JR(ICH10R)
Intel Tylersburg-EP
IOH:Intel 5520(Tylersburg-36D)
ICH:Intel 82801JR(ICH10R)
MCH:Intel 5000X
ICH:Intel ESB6321
内存控制器
CPU集成三通道R-ECC DDR3 1333每CPU集成双通道R-ECC DDR2 800北桥集成四通道FBD DDR2 667
内存
2GB R-ECC DDR3 1333 SDRAM x42GB R-ECC DDR3 1333 SDRAM x42GB FBD DDR2 667 SDRAM x4
系统磁盘子系统
磁盘控制器
Intel ICH10R RAID Controller
Intel ICH10R RAID Controller
DELL Perc 5/i RAID Controller
磁盘控制器规格
6x SATA 3Gb/s
MatrixRAID 0/1/3/5
6x SATA 3Gb/s
MatrixRAID 0/1/3/5
8x SAS 3Gbps
磁盘控制器设置
SATA 3Gb/s
AHCI w/NCQ
SATA 3Gb/s
AHCI w/NCQ
RAID 5
磁盘控制器驱动
Intel Matrix Storage Manager
8.8.0.1009 x64
Intel Matrix Storage Manager
8.8.0.1009 x64
LSI SAS
3.8.0.64
磁盘
Seagate
Barracuda 7200.11 x1
Seagate
Barracuda 7200.11 x1
Seagate
Cheetah 15K.5
ST314655SS x3
磁盘规格
7200RPM
320GB
SATA  3Gbps
16MB Cache
7200RPM
320GB
SATA  3Gbps
16MB Cache
15000RPM
146GB
SAS 3Gbps
16MB Cache
磁盘设置
SATA 3Gb/s
NCQ
50GB系统分区
SATA 3Gb/s
NCQ
50GB系统分区
SAS 3Gbps
20GB系统分区
软件环境
操作系统Microsoft
Windows Server 2008 Enterprise Edition SP1 x64
Microsoft
Windows Server 2003 R2 Enterprise Edition SP2 x64
Microsoft
Windows Server 2008 Enterprise Edition SP1 x64

  本次测试我们选择了惠普Z400作为至强W3570处理器测试的基准平台,对比平台选择了上一代的双路至强E5430服务器和单路至强E5504服务器两种。

  • SPEC CPU 2006 v1.0.1

  SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。

  SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。

  SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。

  SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。

  我们在被测服务器中安装了当前最新版本的Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler这两款SPEC CPU 2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(假如只支持SSE3,则使用QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。

  和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64bit Windows Server 2008 Enterprise下完成,对于每个运算核心,配置1.5GB内存。

  • SiSoftware Sandra v2009

  SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。

  • CineBench R10

  CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,在服务器测试平台中显示子系统不重要,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。

  成功安装至强W3570处理器之后,我们先看看它在CPU-Z软件下的相关信息。

 

至强W3570处理器信息

 

惠普Z400工作站使用的Intel X58芯片组,搭配的是ICH10R南桥

  SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。

  有一点需要说明的是,Sandra的处理器架构性能测试是根据处理器所能支持的所有指令集中选择进行的,不同的处理器支持的指令集不同,测试使用到的指令集也就不同。例如,Nehalem在这个测试当中就可以使用SSE4.2,而Penryn就只能使用SSE4.1。

SiSoftware Sandra Pro Business 2009
测试对象
Intel 至强W3570处理器 3.2GHz
Intel 至强E5504处理器 2GHz
双路Intel Harptown
Xeon E5430
2.66GHz
Processor Arithmetic Benchmark
处理器架构测试
Dhrystone ALU
82271MIPS
49318MIPS
91006MIPS
Dhrystone ALU vs SPEED
25.71MIPS/MHz
24.66MIPS/MHz
34.21MIPS/MHz
Whetstone iSSE3
43513MFLOPS
26064MFLOPS
78385MFLOPS
Dhrystone iSSE3 vs SPEED
13.60MFLOPS/MHz
13.03MFLOPS/MHz
29.47MFLOPS/MHz
Processor Multi-Media Benchmark
处理器多媒体测试
Multi-Media Int x16 iSSE4.1
141.48MPixel/s
84.83MPixel/s
 
Multi-Media Int x8 aSSE2
 
 
 
Multi-Media Int x8 iSSE4.1
 
 
199.33MPixel/s
Multi-Media Int x16 iSSE4.1 vs SPEED
44.21kPixels/s/MHz
42.41kPixels/s/MHz
 
Multi-Media Int x8 aSSE2 vs SPEED
 
 
 
Multi-Media Int x8 iSSE4.1 vs SPEED
 
 
74.94MPixel/s/MHz
Multi-Media Float x8 iSSE2
108.09MPixel/s
64.72MPixel/s 
 
Multi-Media Float x4 iSSE2
 
 
108.69MPixel/s
Multi-Media Float x8 iSSE2 vs SPEED
33.78kPixels/s/MHz
32.36kPixels/s/MHz 
 
Multi-Media Float x4 iSSE2 vs SPEED
 
 
40.86kPixels/s/MHz
Multi-Media Double x4 iSSE2
56.39MPixel/s
33.81MPixel/s 
 
Multi-Media Double x2 iSSE2
 
 
55.75MPixel/s
Multi-Media Double x4 iSSE2 vs SPEED
17.62kPixels/s/MHz
16.91kPixels/s/MHz 
 
Multi-Media Double x2 iSSE2 vs SPEED
 
 
20.96kPixels/s/MHz
Multi-Core Efficiency Benchmark
Inter-Core Bandwidth
16.54GB/s
9.73GB/s
20.54GB/s
Inter-Core Bandwidth vs SPEED
5.29MB/s/MHz
4.98MB/s/MHz
7.91MB/s/MHz
Inter-Core Latency
(越小越好)
48ns
74ns
90ns
Inter-Core Latency vs SPEED
(越小越好)
0.01ns/MHz
0.04ns/MHz
0.03ns/MHz
.NET Arithmetic Benchmark
.NET架构测试
Dhrystone .NET
14421MIPS
8103MIPS
10562MIPS
Dhrystone .NET vs SPEED
4.51MIPS/MHz
4.05MIPS/MHz
3.97MIPS/MHz
Whetstone .NET
28887MFLOPS
17394MFLOPS
45399MFLOPS
Whetstone .NET vs SPEED
9.03MFLOPS/MHz
8.70MFLOPS/MHz
17.07MFLOPS/MHz
.NET Multi-Media Benchmark
.NET多媒体测试
Multi-Media Int x1 .NET
28.51MPixel/s
17.02MPixel/s
31.28MPixel/s
Multi-Media Int x1 .NET vs SPEED
8.91kPixels/s/MHz
8.51kPixels/s/MHz
11.76kPixels/s/MHz
Multi-Media Float x1 .NET
8.35MPixel/s
4.99MPixel/s
8.68MPixel/s
Multi-Media Float x1 .NET vs SPEED
2.61kPixels/s/MHz
2.49kPixels/s/MHz
3.26kPixels/s/MHz
Multi-Media Double x1 .NET
15.5MPixel/s
9.28MPixel/s
24.75MPixel/s
Multi-Media Double x1 .NET vs SPEED
4.84kPixels/s/MHz
4.64kPixels/s/MHz
9.30kPixels/s/MHz

  从对比来看,至强W3570较对比的至强E5504来说性能要好不少,许多项目都有领先的优势。当然除了主频的因素之外,超线程也在这其中起到了很大的作用。

  SiSoftware Sandra缓存内存测试主要包括内存带宽、内存延迟等性能的测试。

SiSoftware Sandra Pro Business 2009
测试对象
Intel 单路至强W3570 3.2GHz
Intel 单路至强E5504 2GHz
DELL PE2900 III
双路Intel Harptown
Xeon E5430
2.66GHz
Memory Bandwidth Benchmark
内存带宽测试
Int Buff'd iSSE2 Memory Bandwidth
16.90GB/s
9.98GB/s
6.13GB/s
Int Buff'd iSSE2 Memory Bandwidth vs SPEED
 
 
9.43MB/s/MHz
Float Buff'd iSSE2 Memory Bandwidth
17.31GB/s
9.98GB/s
6.13GB/s
Float Buff'd iSSE2 Memory Bandwidth vs SPEED
 
 
9.43MB/s/MHz
Memory Latency Benchmark
内存延迟测试
Memory(Random Access) Latency
(越小越好)
76ns
108ns
108ns
Memory(Random Access) Latency vs SPEED
(越小越好)
 
 
0.16ns/MHz
Speed Factor
(越小越好)
63.90
52.50
95.20
Internal Data Cache
4clocks
4clocks
3clocks
L2 On-board Cache
10clocks
10clocks
18clocks
L3 On-board Cache
49clocks
48clocks
 
Cache and Memory Benchmark
缓存及内存测试
Cache/Memory Bandwidth
65.86GB/s
36.81GB/s
68.88GB/s
Cache/Memory Bandwidth vs SPEED
21.07MB/s/MHz
18.85MB/s/MHz
26.52MB/s/MHz
Speed Factor
(越小越好)
29.00
33.40
111.90
Internal Data Cache
271.92GB/s
163.13GB/s
421.23GB/s
L2 On-board Cache
230.88GB/s
137.45GB/s
122.68GB/s

  在内存测试中,由于至强W3570平台依然遥遥领先,这其中内存三通道和超线程都是功不可没。

  SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。

  我们用蓝色代表至强W3570的测试成绩,用红色代表至强E5504的测试成绩,用绿色代表至强E5430的测试成绩。在大多数项目中,至强W3570的成绩都是三者当中领先的,而且其始终领先于至强E5504的成绩。由于至强E5430使用的是两个处理器,在个别项目中成绩突出。

  SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。

  和之前的整数性能测试结果类似,在浮点测试中,至强W3570依然性能卓越,相比至强E5504来说有了近一倍的提升,在部分项目中领先双路至强E5430。

  CineBench R10

  CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。

至强W3570测试成绩
CineBench R10
处理器
单路Intel  至强W3570单路Intel 至强E5504双路Intel Harpertown
Xeon E5430
CPU Benchmark
Rendering (1 CPU)4954 CB-CPU2868 CB-CPU2931 CB-CPU
Rendering (x CPU)
17193 CB-CPU
10559 CB-CPU
16806 CB-CPU
Multiprocessor Speedup
3.47x
3.68x
5.73x
OpenGL Benchmark
OpenGL Standard
278 CB-GFX
158 CB-GFX
176 CB-GFX

  在我们进行的CineBench测试中,至强W3570凭借着主频和超线程的优势压制了单路E5504,单处理器的渲染性能提升了73%;多处理器的渲染性能提升了63%,性能优势非常明显。而且相比上一代的至强E5430来说,也有着较大的提升,架构优势表现明显。

   ScienceMark v2.0 Membench

  ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。

ScienceMark Membench
厂商IntelIntelIntel
产品型号Intel 单路至强W3570 3.2GHzIntel 单路至强E5504 2GHzPowerEdge 2900 III
Intel Harpertown
Xeon E5430 2.66GHz
内存技术参数2GB R-ECC DDR3-1333 SDRAM x42GB R-ECC DDR3-1333 SDRAM x44GB R-ECC DDR3-1333 SDRAM x6
L1带宽(MB/s)103754.5147877.4155376.16
L2带宽(MB/s)42247.0419596.0516757.55
内存带宽(MB/s)13884.178833.574485.09
L1 Cache Latency(ns)
32 Bytes Stride0.62 ns1.50 ns1.13 ns
L1 Algorithm Bandwidth(MB/s)
Compiler71112.4842198.8825201.96
REP MOVSD94211.6743498.5225467.15
ALU Reg Copy25659.2112067.1013093.65
MMX Reg Copy52379.6224173.0525242.19
SSE PAlign103651.5247830.3252826.21
SSE2 PAlign103754.5147877.4155376.16
L2 Cache Latency(ns)
4 Bytes Stride0.942.00 ns1.13 ns
16 Bytes Stride0.942.00 ns1.50 ns
64 Bytes Stride2.815.00 ns4.51 ns
256 Bytes Stride2.504.50 ns4.51 ns
512 Bytes Stride2.504.00 ns4.89 ns
L2 Algorithm Bandwidth(MB/s)
Compiler37758.5017957.5811880.48
REP MOVSD42247.0419596.0512536.88
ALU Reg Copy19039.828778.568577.86
MMX Reg Copy30510.4114063.1713408.31
SSE PAlign40513.2218656.4216719.97
SSE2 PAlign40513.2218677.1916757.55
Memory Latency(ns)
4 Bytes Stride0.942.00 ns1.13 ns
16 Bytes Stride1.872.00 ns4.89 ns
64 Bytes Stride8.448.50 ns19.17 ns
256 Bytes Stride31.2546.00 ns59.77 ns
512 Bytes Stride35.9452.00 ns68.04 ns
Memory Algorithm Bandwidth(MB/s)
Compiler8901.347918.043178.45
REP MOVSD12489.758833.573220.23
ALU Reg Copy7988.865631.162789.34
MMX Reg Copy9030.045880.522972.91
MMX Reg 3dNow---
MMX Reg SSE13389.968398.253978.53
SSE PAlign13210.838750.744128.59
SSE PAlign SSE13876.738715.174390.48
SSE2 PAlign13181.138749.694326.42
SSE2 PAlign SSE13884.178724.844441.71
MMX Block 4kb10887.567648.234063.30
MMX Block 16kb11795.958515.204479.88
SSE Block 4kb10974.577731.284074.79
SSE Block 16kb11850.058620.844485.09

  从测试中我们看到,至强W3570凭借着高主频在L1和L2的测试中遥遥领先,而在内存带宽和其他指令(集)项目的测试中,也领先对比平台至强E5504和至强E5430许多,三通道的性能优势发挥明显。

  【IT168评测中心】对于工作站处理器,我们的确接触的不多,特别是本次基于Nehalem-WS核心的产品来说,至强W3570作为单路工作站处理器的优异产品,的确给我们带来了耳目一新的感觉。我们本次选择的测试平台就是惠普Z400工作站,这也将至强W3570的性能发挥得淋漓尽致。

  我们在测试中选择了当前Nehalem-EP服务器中的单路产品——至强E5504作为对比产品,同时还加入了上一代的中端产品至强E5430。测试表明,至强W3570虽然是单路处理器,但是性能非常不错,凭借着主频和超线程的优势,在测试中明显胜出,性能较单路至强E5504来说有50-70%领先;而且凭借着架构的优势,许多项目相比双路至强E5430来说也毫不逊色,部分项目甚至超出了双路至强E5430的水平。

  因此我们认为,单路至强W3570工作站处理器品质卓越,在单路平台中性能领先。顺便说一句,新加坡超频王子Shamino利用至强W3570创造了5813.65MHz的世界纪录。不过受到价格的限制(约为人民币10000元),只有那些优异发烧友和注重运算性能的图形工作室才会考虑这款产品。

0
相关文章