服务器 频道

性能大幅提升 Core i7 服务器应用测试

  【IT168评测中心】从上一年中开始,Intel就陆续放出酷睿处理器的下一代架构Nehalem的相关消息,45nm Penryn处理器的功耗以及性能已经让我们非常满意了,作为Penryn的下一代,Nehalem让人期待不已。现在到了2008年十月,新架构Nehalem的处理器事物终于来到了我们的面前,同期到来的还有搭配的桌面级别主板两块(一块Intel X58SO,一块ASUS P6T Deluxe)。和以往Intel处理器架构总是先亮相于服务器或是移动平台不同,今次Nehalem架构的全新产品首先出现在了桌面平台上,对应于Core 2 Duo或是Core 2 Quad,Intel将这个全新的产品系列命名为Core i7。


Nehalem - Core i7 Extreme的黑色LOGO

采用LGA1366封装的Core i7(左)与LGA775封装的Core 2(右)相比大上了不少

Nehalem桌面测试平台

  预计Nehalem——Core i7将于11月正式发布,而服务器版本仍然还有一段时日,Nehalem作为桌面级别产品的性能我们已经可以从这篇《再攀性能之巅 Intel全新酷睿i7深度评测》看到了,然而服务器方面的性能呢?我们IT168评测中心已经等不及了。

点击查看相关文章:

再攀性能之巅 Intel全新酷睿i7深度评测

Core i7很能超 Bloomfield直上4G无问题

首批Core i7 900处理器详细规格曝光

八核心Nehalem处理器明年下半年面世

[IDF08]基辛格演讲:Nehalem集群演示

我们自行购买的Nehalem也是一个工程样板

CPU-Z 1.48可以正常识别出关于CPU的详细信息

  全球首批三款Nehalem架构处理器型号分别为Core i7 965 Extreme、Core i7 940及Core i7 920,我们拿到的这颗Core i7处理器型号为Core i7 940,是目前发布的三款Core i7产品中定位居中的一款,和顶级的Core i7 965 Extreme相比,它只是QPI规格稍低、倍频向上锁定以及缺少Turbo Mode功能。

由于加入了更多核心外的复杂设计,因此Core i7的背面也更加复杂

Core i7 940的缓存信息

  Core i7 965 Extreme、940及920处理器,核心代号Bloomfield,均采用原生四核心设计,基于45nm工艺生产,拥有7.31亿个晶体管,每个核心拥有256KB的独立二级缓存,四个核心共享8M容量的三级缓存,TDP为130W。由于缓存总容量较之Penryn四核还有所下降,所以其晶体管数量实际上还略低于Penryn四核心。但由于三级缓存及内存控制器等复杂设计的加入,Intel为Bloomfield设计了一个LGA 1366接口,这也直接使得最终产品看上去比起LGA 775接口的产品大了不少,处理器基板上的金属触点是为了Debug而设计。

测试平台、测试环境
测试分组
类别
Core i7 Extreme 940平台双路Xeon E5450平台
DELL PE2900 III服务器
处理器子系统
处理器
Intel Core i7 Extreme 940
双路Intel Xeon E5450
处理器代号
BloomfieldHarpertown
处理器封装
Socket 1366 LGASocke 771 LGA
处理器规格
四核超线程
内置内存控制器
四核
处理器指令集
MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,SSE4.2,EM64T,VT
MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,EM64T,VT
主频2.93GHz3.00GHz
处理器外部总线QPI Link:3200MHzFSB:1333MHz
L1 D-Cache
4x 32KB
8路集合关联
4x 32KB
8路集合关联
L1 I-Cache
4x 32KB
4路集合关联
4x 32KB
8路集合关联
L2 Cache
4x 256KB
8路集合关联
12MB
16路集合关联
L3 Cache
8MB
16路集合关联
 
主板
主板型号
ASUS P6T Deluxe
DELL PE2900 III
北桥芯片组(MCH)
Intel X58Intel 5000X
北桥芯片特性Intel VT-d技术12MB Snoop Filter
内存控制器
处理器内置三通道DDR3北桥集成四通道FBD DDR2
内存
1GB DDR3 1066 SDRAM x62GB FBD DDR2 667 SDRAM x4
系统磁盘子系统
磁盘控制器
Intel ICH10R RAID Controller
DELL Perc 5/i RAID Controller
磁盘控制器规格
SATA 3GbpsSAS 3Gbps
磁盘控制器设置
RAID 0
RAID 5
磁盘控制器驱动
Intel Matrix Storage Manager
8.5.0.10032
LSI SAS
2.20.0.64
磁盘
Seagate
SV35.3
ST31000340SV x2
Seagate
Cheetah 15K.5
ST314655SS x3
磁盘规格
7200RPM
1TB
SATA 3Gbps
32MB Cache
15000RPM
146GB
SAS 3Gbps
16MB Cache
磁盘设置
SATA 3Gbps
50GB系统分区
SAS 3Gbps
20GB系统分区
网络子系统
网卡
Marvell Yukon 88E8056
PCI-E千兆网卡 x2
Broadcom BCM5708C
 PCI-E千兆网卡 x2
网卡设置
Marvell NIC Teaming
Load Balancing
Broadcom NIC Teaming
Load Balancing
网卡驱动
Marvell Yukon for Win64
10.55.3.3
Broadcom NetXtreme 2 for Win64
11.04.01
软件环境
操作系统
Microsoft
Windows Server 2008
Enterprise x64 Edition SP1
Microsoft
Windows Server 2003 R2
Enterprise x64 Edition SP2

  我们使用了一套基于X58芯片组的主板搭配了测试平台,这块主板是ASUS P6T Deluxe,关于它的解析将会稍后推出。主要对比平台是一台安装了Windows Server 2003 R2 x64操作系统的DELL PowerEdge 2900 III服务器,包含了多款Xeon处理器的对比测试。DELL PowerEdge 2900 III服务器采用的主板基于Intel 5000X芯片组,带有12MB Snoop Filter缓存,它可以提升重负荷下缓存同步、进程调度方面的性能。5000X芯片组比较少见。前段时间推出的5400 Seburg芯片组带有24MB的Snoop Filter缓存。


我们使用的主板:ASUS P6T Deluxe


使用了6条DDR3-1066内存

Intel Xeon E54xx Harpertown处理器:

45nm Harpertown处理器

  45nm Xeon E5450的频率为3.00GHz,和我们的Core i7 Extreme 940的频率很接近。Core i7 Extreme 940的频率是2.93GHz。

  ScienceMark v2.0 Membench

  ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。


ScienceMark v2.0 Membench L1测试成绩


ScienceMark v2.0 Membench L2测试成绩


ScienceMark v2.0 Membench 内存测试成绩

  首先我们进行的是ScienceMark的测试,主要考察系统的缓存和内存子系统情况。L1/L2 Cache的成绩主要是跟处理器频率相关,因为目前的处理器当中L1 Cache都是和处理器核心同频率的,而L2 Cache基本上也是——当前的处理器L2都是全速的(放置在处理器内但不在同一个芯片上的Pentium II为半速L2,而Pentium之前的处理器L2则和处理器分离,速度更低)。越快的频率,L1/L2性能就越好。而内存带宽主要由两部分相关:比较大的部分是内存架构,小部分是内存操作指令(集),例如使用最新的SSE指令集比通常的ALU指令集会得到更大的吞吐量,而不同的SSE版本性能也有不同。

ScienceMark Membench

厂商NehalemDELL PE2900 III
产品型号单路Core i7 Extreme 940双路E5450
内存技术参数1GB DDR3-1066 SDRAM x62GB FBD ECC DDR2-667 SDRAM x4
L1带宽(MB/s)47986.2755707.30
L2带宽(MB/s)19708.2616740.23
内存带宽(MB/s)13491.824505.59
L1 Cache Latency(ns)
32 Bytes Stride1.021.00
L1 Algorithm Bandwidth(MB/s)
Compiler42946.57 
REP MOVSD43613.84 
ALU Reg Copy12113.23 
MMX Reg Copy23883.50 
SSE PAlign47242.50 
SSE2 PAlign47986.27 
L2 Cache Latency(ns)
4 Bytes Stride1.021.00
16 Bytes Stride1.021.34
64 Bytes Stride3.064.01
256 Bytes Stride3.064.01
512 Bytes Stride2.724.34
L2 Algorithm Bandwidth(MB/s)
Compiler18218.37 
REP MOVSD19708.26 
ALU Reg Copy8797.54 
MMX Reg Copy14108.99 
SSE PAlign18752.85 
SSE2 PAlign18763.34 
Memory Latency(ns)
4 Bytes Stride1.361.00
16 Bytes Stride1.704.68
64 Bytes Stride6.1219.38
256 Bytes Stride36.6559.48
512 Bytes Stride43.5466.16
Memory Algorithm Bandwidth(MB/s)
Compiler10216.663177.97
REP MOVSD13421.203223.82
ALU Reg Copy9015.342818.10
MMX Reg Copy9570.622992.21
MMX Reg 3dNow------
MMX Reg SSE12729.133962.02
SSE PAlign13379.864297.17
SSE PAlign SSE13311.124124.61
SSE2 PAlign13491.824293.79
SSE2 PAlign SSE13236.434126.98
MMX Block 4kb11442.954167.14
MMX Block 16kb12754.304480.38
SSE Block 4kb11424.754172.21
SSE Block 16kb12878.854505.59

  从测试结果来看,45nm Nehalem Core i7平台与45nm Penryn Xeon总体超出实在太多了。L1缓存因为与频率密切相关,而且从上一页的表格来看,Core i7 Extreme 940的L1 I-Cache(指令缓存)为4路集合关联,要弱于Xeon E5450的8路集合关联,因此L1延迟要高上一些,L1带宽则要低上不少。


Nehalem的三级缓存架构

Core i7 940的缓存架构

  对于Core i7 Extreme 940来说,有一处特别的地方就是L3 Cache的存在,L2和L1很相像,都是小容量、低延迟。Xeon E5450就不是这样,因此最终的结果是Nehalem的L2性能要强于Penryn Xeon。由于ScienceMark 2.0认不出Nehalem的L3,因此没有相关的数据。


Nehalem的缓存设计

  到了内存延迟和内存带宽测试上,Core i7 Extreme 940完胜,这和Nehalem的架构密切相关:


Nehalem的内置内存控制器架构

  由于内置了内存控制器,因此内存延迟极低,在使用同样内存基础频率的情况下,Core i7的延迟只有Xeon的2/3,也就是64%左右。在带宽方面,虽然Core i7只具有3个内存通道,而Xeon平台则具有4个内存通道,然而Xeon的内存数据还要经过狭窄的FSB来到达CPU,比起Core i7的完全独享来自然大有不如,因此Core i7 Extreme 940的内存带宽性能测试大约是Xeon E5450的3倍左右。它们的理论带宽分别是25GB(三通道DDR3-1066)和20.8GB(四通道FBD DDR2-667),可见Core i7的内存带宽效率也远比现在的Xeon + 5000X要高。

  SiSoftware Sandra Pro Business 2009

  SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从Sandra 2007开始支持SSE4指令集。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。我们在Core i7 Extreme平台上使用的是Sandra 2009,在E5450使用的是Sandra 2008。

SiSoftware Sandra Pro Business 2009
 
单Core i7 Extreme 940双路Xeon E5450
Processor Arithmetic Benchmark
Dhrystone iSSE4.271538 MIPS 
Dhrystone ALU
 
110320 MIPS
Whetstone iSSE3
61616 MFLOPS
87861 MFLOPS
Processor Multi-Media Benchmark
Multi-Media Int x16 iSSE4.1
148.56MPixel/s
 
Multi-Media Float x8 iSSE2
114.78MPixel/s
 
Multi-Media Double x4 iSSE2
63.17MPixel/s
 
Multi-Media Int x8 iSSSE3
 
655876 iit/s
Multi-Media Float x4 iSSE2
 
358011 fit/s
Multi-Core Efficiency Benchmark
Inter-Core Bandwidth
39.17GB/s
 
Inter-Core Latency
16ns
 
Memory Bandwidth Benchmark
Int Buff'd iSSE2 Memory Bandwidth
19.11GB/s
6264 MB/s
Float Buff'd iSSE2 Memory Bandwidth
19.11GB/s
6262 MB/s
Memory Latency Benchmark
Memory(Random Access) Latency
94ns
 
Speed Factor
64.50
 
Internal Data Cache
4clocks
 
L2 On-board Cache
11clocks
 
L3 On-board Cache
53clocks
 
Cache and Memory Benchmark
Cache/Memory Bandwidth
60.02GB/s
75623 MB/s
Speed Factor
27.30
 
.NET Arithmetic Benchmark
Dhrystone .NET
16280MIPS
12358 .netMIPS
Whetstone .NET
38076MFLOPS
52176 .netMFLOPS
.NET Multi-Media Benchmark
Multi-Media Int x1 .NET
29.06MPixel/s
120421 .netiit/s
Multi-Media Float x1 .NET
12.59MPixel/s
27648 .netfit/s
Multi-Media Double x1 .NET
24.87MPixel/s
 

SiSoftware Sandra对比(一些测试项目有所不同,如Nehalem上测试的是Dhrystone iSSE4.2,在Penryn上就只是Dhrystone ALU,这是因为Penryn不支持iSSE4.2)

  虽然使用的Sandra版本不同,导致了部分数据不能直接对比之外,其他部分仍然可以一比高下。由于双路志强E5450是实打实地具有8个CPU核心,而Core i7的8个执行核心其实是4个CPU核心通过超线程技术“变”出来的,因此处理器的理论性能上Core i7 940不敌同频率的双路Xeon E5450,只有65%(整数)~70%(浮点)左右。


Nehalem的超线程技术

  由于超线程技术实际上是使一个处理器内核的所有执行引擎的利用率提升的技术,因此其对性能提升的幅度就不如确实的处理器内核那么高,按照以往Pentium 4的经验,超线程对处理器的性能提升约为10%~30%左右(极少数情况下,还具有负作用),因此我们可以推测出除了超线程之后,Nehalem内核具有的性能提升幅度,考虑到4内核8执行核心的Core i7 2.93GHz相当于8内核Xeon 3GHz的65%~70%,而超线程可以提升10%~30%,则每一个Nehalem物理内核会比一个Xeon E5450内核提升约10%~15%左右。

  内存带宽方面,Sandra结果表示Core i7平台的性能是Xeon平台的3倍,与ScienceMark的结果相同。

  CineBench R10

  CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。

 
Core i7 Extreme 940 CineBench R10 64bit测试成绩


Core i7 Extreme 940 CineBench R10 32bit测试成绩

CineBench R10 64bit
处理器
单路Core i7 Extreme 940双路Xeon E5430
显卡NVIDIA 9500GT双ATI 3870x2 CrossFire-X
CPU Benchmark
Rendering (1 CPU)3990 CB-CPU3257 CB-CPU
Rendering (x CPU)
16919 CB-CPU
19452 CB-CPU
Multiprocessor Speedup
4.24x
5.97x
OpenGL Benchmark
OpenGL Standard
4599 CB-GFX
2505 CB-GFX

没有采用E5450,不过我们有E5430的成绩,E5430的频率为2.66GHz,架构与E5450相同

   单处理器的渲染性能,Core i7 Extreme 940要比Xeon E5450高22.5%,这混合了处理器的提升,以及内存子系统的提升。多处理器的渲染性能Core i7不敌Xeon,原因在于Core i7事实上只有4个处理器核心,通过超线程才“变出来”8个执行核心。Multiprocessor Speedup就体现了这个因素:Core i7的是4.24倍,而Xeon则是5.97倍。一方面确实表现了超线程技术并不是真正的多处理器核心,另一方面也表现了Nehalem的超线程技术和多核心化的性能相去也不是很远。例如,8个Xeon物理处理器核心的提升是5.97倍的话,那么4个Nehalem物理处理器核心可以粗糙地认为是3倍提升,则超线程相当于4.24/3 = 1.41倍的性能,也就是说,一个“虚拟”的CPU相当于0.4个“真实”的CPU,Nehalem的超线程技术可以说是比起Pentium 4的远为进化了。仅通过小部分线路就可以获得如此之大的提升,Nehalem的超线程可谓物廉价美。

  WebBench v5.0

  WebBench是针对服务器作为Web Server时的性能进行测试,我们在被测服务器上安装了IIS6.0组件,以提供测试所需的Web服务。在测试中我们开启了网络实验室中的56台客户端,分别使用了WebBench 5.0内置的动态CGI以及静态页面脚本对服务器进行了测试。

  静态测试是由客户端读取预先放置在服务器Web Server下的Web页面(wbtree),这项测试主要考察的是服务器磁盘系统以及网络连接性能。我们使用了实验室中的56台客户端,配合Static_mt.tst多线程静态脚本测试向被测服务器发送请求。

  动态测试偏重于对服务器CPU子系统的性能测试,它对于Web服务器提供了足够的负载。我们将一个C语言编写的CGI源文件Simcigi.c编译为Simcgi.exe,并将其作为动态测试中的CGI脚本。在测试过程中,每台安装了WebBench客户端软件的PC,会在300秒的时间内持续向服务器发送CGI请求,而控制台会纪录并汇总服务器所响应CGI请求的数据。CGI测试的成绩高低,主要取决于服务器处理器子系统性能的优劣。处理器子系统包括CPU、内存以及内存控制器,CPU频率、缓存以及内存容量大小和内存带宽,都会影响该项成绩。


Nehalem平台 - WebBench静态页面性能

  Nehalem Core i7 Extreme 940大约可以达到25000每秒处理请求数,一般的服务器受限于千兆网卡带宽,为18000左右。一般的双千兆网卡捆绑可以达到22000每秒处理请求数的性能。


Nehalem平台 - WebBench动态页面性能

  一般双路Xeon 54xx系列服务器动态页面性能可以达到11000左右,单路Nehalem Core i7 Extreme 940可以达到10860左右,略微低于双路Xeon。要记住,Nehalem只有4个物理处理核心,双路Xeon平台则是8个。

  如同我们一再强调的那样,WebBench静态页面性能其实非常依赖于网卡带宽,其次,它对内存子系统也具有一些要求,而WebBench动态页面性能则不主要依赖于网卡带宽而依赖于处理器性能、内存子系统性能,依靠着强大的内核、超线程技术、内置三通道高带宽内存,Nehalem平台在所有测试当中力敌至强平台,这充分表明了Nehalem架构的威力,同时,超线程的实力也可见一斑,和真实的处理器核心有一拼之力。

注:

  Nehalem处理器使用的IIS 7.0在我们以前的测试当中证明具有强劲的静态页面性能以及相对IIS 6.0较弱的动态页面性能,现在的测试的结果可以更加表明Nehalem的动态页面性能优势。

  【IT168评测中心】经过测试,我们对Nehalem的强大有了深刻的认识,经过总结,它可以简单地归结为三个方面:


Nehalem - Core i7 Extreme的黑色LOGO

处理器内核架构

  通过各式各样的架构上的改进,并配合SSE4.2指令集,Nehalem处理器架构的性能比Penryn处理器要高10%~20%左右,这和Penryn通过SSE4.1达到主要的性能提升不一样,Nehalem处理器的提升是着实地基于内核架构的提升(其实,SSE4.2指令集的数量很少)。这个数值也和Intel宣称同频率Nehalem比Penryn快约10%的说法相近。

内存子系统

  记得Intel的老对手AMD在首次将内置内存控制器运用到x86处理器上的情景么?Athlon处理器,或者说K7处理器,由于内置了内存控制器,并使用了源自DEC Alpha的一系列技术,性能颇为强劲,风头一时盖过Intel,并促使了Core微架构最终代替了Pentium 4的NetBurst微架构。现在Intel也将内置内存控制器运用到了x86处理器上,Nehalem的三通道DDR3内存架构威力巨大,同时具有低延迟、高带宽的特点,从测试上看,延迟比四通道DDR2-667降低了33%,带宽提升了200%!在服务器、工作站应用上可以提升约10%的性能,处理器的数量越多,优势越明显。

超线程技术

  对于桌面平台而言,超线程的存在对Benchmark性能并没有太大的提升,不过,在我们的服务器/工作站测试当中,Nehalem的超线程技术却是具有重要的地位:一个虚拟出来的处理器,相当于0.4个实际处理器,而只需要增加少量电子线路就可以达到,在提升能效比、提升计算密度方面具有巨大的优势,在桌面平台上,超线程技术其实也很有效果。超线程技术实是Nehalem的一大杀手锏。

 

(左)Nehalem - Core i7

  我们测试的Nehalem处理器并不是面向企业级市场,并且我们目前只能搭建单路平台,然而从测试成绩来看,在合适的条件下,单路Nehalem就可以和双路Xeon Harpertown打个旗鼓相当,未来企业级版本Nehalem的性能更加让人期待了!

0
相关文章