服务器 频道

获iF2009设计大奖 DELL R710服务器评测

  【IT168评测中心】4月2日,戴尔(DELL)公司在北京推出了5款基于全新英特尔至强5500系列处理器的第11代PowerEdge服务器,包括半高刀片式M610和全高刀片式M710、1U机架式R610、2U机架式R710和以及塔式T610服务器。戴尔表示,在未来几个月内,戴尔还将推出更多双路产品,包括T710、R410与T410。


DELL第11代服务器4月2日发布会现场 

  在5月份,DELL向我们提供了R610的样机,这是一款获得2009年德国iF产品设计大奖的机器,外型十分靓丽:


DELL PowerEdge R610服务器
 
 

DELL PowerEdge R710服务器
 
  随后我们收到了R710,可以看出,它和R610就像是兄弟一样,实际上R610和R710一起获得了2009年德国iF产品设计大奖,从外型上看,R710就是2U规格的R610。不过,从内部而言,1U和2U还是很不相同的,下面我们就来看看。
 

Intel Nehalem-EP处理器首发深度评测

直联架构的威力 Nehalem-EP处理器解析

Nehalem-EP 新Xeon 5500处理器首度曝光

透视六核心至强 Dunnington处理器解析

透视八核心至强 Nehalem-EX处理器解析

2008年度评测报告:深入Nehalem微架构

性能大幅提升 Core i7 服务器应用测试

再攀性能之巅 Intel全新酷睿i7深度评测

机密揭露:Intel超线程技术有多少种?

[IDF08]基辛格演讲:Nehalem集群演示

 

  在DELL的官方网站上,我们可以看到R710的介绍,在上面没有直接说其性能如何突出,而是表明了四点:受到客户启发的具有针对性的设计、增强的虚拟化性能、简化的系统管理、节能设计,后面我们将会一一看到。

 


DELL PowerEdge R710服务器

 


和1U高度的R610相比,2U的R710前面板显得宽裕了不少;R710样机提供了6个3.5" SAS热插拔硬盘槽,R610则提供的是6个2.5" SAS热插拔硬盘槽;实际上,在购买的时候,你可以要求DELL的机器更换前面板硬盘架的规格,有一点不变的是,在同样的硬盘规格下,R710可以搭载的硬盘数量更多
 

就一般而言,2U机架一般都不会和1U一样采用Riser设计,不过R710不同,通过两个Riser提供了4个全高的扩展卡插槽位;此外,R710还提供了两个冗余电源单元的位置

 


首先是机架两旁的把手,这个设计很方便将服务器拉出来

 


前面板一个类似于身份证的塑料卡,寻求售后服务的时候将会有用

 

从图上可以看出,热插拔硬盘架左边具有一个数字,作为标识该硬盘的序号

 

按一下红色的“停止键”,硬盘架把手就会弹出

 

 

按照惯例,顶盖上提供了充足的操作说明

 


两个冗余电源

 


和R610一样,R710也使用了通过80Plus金牌认证的电源,转换效率比通常的电源要高10~20个百分比,长期运行可以节约不少电能

 


五个风扇处在服务器中前部;两个处理器的位置不太一样

 

 

 

Xeon E5520处理器,是5500系列当中带四核超线程的E系列的最低一款型号,主频2.26GHz,QPI速率5.86GT/s,支持内存到DDR3-1066,如下表所示:
 

Nehalem-EP/Nehalem-WS Xeon规格对照表

 


原配的2GB R-ECC DDR3内存;需要特别说明的一点是,R710提供了共18个DIMM,每个处理器9个,每通道3个,这样R710最高可以支持144GB内存(采用8GB内存模组)
 

DDR3-1066规格;由于容量不足以运行SPEC CPU测试,因此在运行的时候,我们实际用的是6条4GB的R-ECC DDR3-1066内存

 


风罩:罩在处理器和内存上方,确保风从处理器散热器和内存条之间流过

 


Broadcom BC5709C是带TOE的双千兆网络芯片,R710一共配置了两个,也就是提供了4个千兆网络端口,这也是为了解决现在处理器越来越快,传统I/O难以跟上的状况
 

 


和远程管理相关的模块,Nehalem-EP平台都搭载了相关的技术;R710还支持NodeManager,提供更强大的远程管理能力

  DELL服务器具有自成系列的磁盘阵列卡:著名的PERC系列,和R610一样,DELL PowerEdge R710上使用的也是PERC 6/I阵列卡。


DELL PERC 6/I阵列卡

  PERC 6/I阵列卡基于LSI SAS 1078 RoC(RAID on Chip)芯片,自带500MHz的PowerPC 440处理器,支持8个SAS 3Gb/s接口,支持硬件RAID 0/1/3/5/6阵列,具备完善的阵列备份/恢复/迁移功能,PERC 6/I缓存容量一般为256MB,也有512MB的型号。PERC 6/i使用PCI Express x8 Gen1接口,单向带宽为2GB/s。

 

生产环境必备的阵列电池单元

3.5"热插拔SAS硬盘,新的架子上硬盘与热插拔架面板具有一定的距离,并且是全金属制作,对散热更有好处
 
 

应该是Fujitsu OEM的MBA3147RC,转速15000RPM,容量147GB,缓存16MB,接口的SAS 3Gb/s;和阵列卡一样,DELL OEM的硬盘通常具有定制的Firmware,因此性能表现和原型会有些不同,如DELL某一工作站上的很特别的一个硬盘:

超另类 西数160GB猛禽硬盘全球独家评测

  在2005年度服务器横评之后,我们认为当时的网络实验室无法满足今后继续发展的服务器测试的需要。所以,2006年我们IT168评测中心又斥资几十万对于IT168网络实验室的服务器测试平台进行了大幅度的升级,为思科Catalyst4500千兆交换机(WS-X4013+ Supervisor Engine II-Plus和WS-X4548-GB-RJ45)增加了一个思科全千兆24口模块WS-X4424-GB-RJ45,可同时连接72个千兆铜缆设备和2个光缆设备。另外,我们还购置了29台Dell PowerEdge SC430塔式服务器和原来的32台主流配置PC一起为服务器测试平台的提供负载。2007年,我们又采购性能更强的部分客户端,来确保为新一代的服务器提供足够的测试负载。2009年初,我们又对所有客户端的内存子系统进行了全面的升级。


Catalyst4500千兆交换机


部分Dell PowerEdge SC430服务器

  在新的测试环境下,我们进一步完善了服务器性能测试方案:

  • SPEC CPU 2006 v1.0.1

  SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。

  SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。

  SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。

  SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。

  我们在被测服务器中安装了当前最新版本的Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler这两款SPEC CPU 2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(假如只支持SSE3,则使用QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。

  和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64bit Windows Server 2008 Enterprise下完成,对于每个运算核心,最低配置1.5GB内存。

  • Iometer 2006.7.27

  Iometer是一款功能非常强大的IO测试软件,它除了可以在本机运行测试本机的IO(磁盘)性能之外,还提供了模拟网络应用的能力。在这次的测试中,我们仅仅让它在本机运行测试服务器的磁盘性能。为了全面测试被测服务器的IO性能,我们分别选择了不同的测试脚本。

  • Max_throughput(read):文件尺寸为64KB,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取吞吐量

  • Max_IO(read):文件尺寸为512B,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取操作IO处理能力

  • Max_throughput(write):文件尺寸为64KB,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入吞吐量

  • Max_IO(write):文件尺寸为512B,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入操作IO处理能力

  • SiSoftware Sandra v2009

  SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。

  • NetBench v7.03

  NetBench是针对文件服务器的性能测试软件,影响NetBench性能的主要是服务器的磁盘子系统,服务器磁盘控制器、条带大小、读写缓存、硬盘类型、组建磁盘阵列模式、内存容量、网络拓朴结构等都会对测试结果有明显的影响。我们在被测服务器上设立了文件服务器,NetBench通过网络实验室中60个客户端来模拟网络中的PC向文件服务器所发出的文件传输请求,文件服务器则将存储在磁盘上的文件数据发送给相应的客户端。在测试过程中,客户端会以每四台一组的步进依次增加并且向服务器发送文件传输请求,测试结束后控制台收集数据并绘制出服务器的数据传输变化曲线。

  • Benchmark Factory 4.6

  大部分的服务器应用都同数据库有着密切的联系,因此我们今年开始着手在在服务器测试中加入对于数据库性能的测试。我们选择了Benchmark Factory 4.6软件和Microsoft SQL2005 SP3来测试不同的硬件平台在数据库应用中的表现。

  我们选择了Benchmark Factory内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。

  • 系统功耗监测

  我们使用UNI-T UT71E智能数字万用表对于被测服务器系统的整体功耗进行了监测,利用随机附带的接口程序,我们可以记录被测服务器任意时间段内的功率变化。

  • CineBench R10

  CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,在服务器测试平台中显示子系统不重要,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。

  • ScienceMark 2.0

  ScienceMark 2.0可以用来评估测试对象在执行科学计算时的运算效能,这部分效能主要和处理器子系统和内存子系统相关。我们主要用来评估测试对象的内存子系统的性能。

  测试对比平台的详细参数如下:

 

 

测试平台、测试环境
测试分组
类别DELL PE R710
双路Intel Gainestown
Xeon E5520
DELL PE 2900 III基准
双路Intel Harpertown
Xeon E5430
处理器子系统
处理器双路Intel Xeon E5520双路Intel Xeon E5430
处理器架构Intel 45nm NehalemIntel 45nm Penryn
处理器代号GainestownHarpertown
处理器封装Socket 1366 LGASocke 771 LGA
处理器规格四核四核
处理器指令集MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,SSE4.2,EM64T,VT
MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,EM64T,VT
主频2.27GHz2.66GHz
处理器外部总线2x QPI
2933MHz
5.86GT/s
单向11.72GB/s(每QPI)
双向23.44GB/s(每QPI)
FSB
333MHz
1333MT/s
10.6GB/s
L1 D-Cache4x 32KB
8路集合关联
4x 32KB
8路集合关联
L1 I-Cache4x 32KB
4路集合关联
4x 32KB
8路集合关联
L2 Cache4x 256KB
8路集合关联
2x 6144KB
16路集合关联
L3 Cache4MB @ 2128MHz
16路集合关联
 
主板
主板型号DELL PE R710DELL PE 2900 III
芯片组Intel Tylersburg-EP
IOH:Intel 5520(Tylersburg-36D)
ICH:Intel 82801IB(ICH9)
MCH:Intel 5000X
ICH:Intel ESB6321
芯片特性2x QPI
36 PCI Express Gen2 Lanes
VT-d Gen 2
2x FSB1333
PCI Express Gen1 Lanes
12MB Snoop Filter
VT-d Gen 1
内存控制器每CPU集成三通道R-ECC DDR3 1066北桥集成四通道FBD DDR2 667
内存4GB ECC DDR3 800 SDRAM x62GB FBD DDR2 667 SDRAM x4
系统磁盘子系统
磁盘控制器DELL PERC 6/i SAS RAID ControllerDELL Perc 5/i RAID Controller
磁盘控制器规格LSI1078 RoC
500MHz PowerPC 440
512MB ECC DDR2 RAM
8x SAS 3Gb/s
RAID 0/1/3/5/6
PCI Express x8

Intel IOP333
500MHz Intel Xscale(ARM)
256MB ECC DDR2 RAM
LSI 1068E SAS
8x SAS 3Gb/s
RAID 0/1/3/5
PCI Express x8

磁盘控制器设置RAID 5RAID 5
磁盘控制器驱动LSI MegaRAID R3.6
3.9.0.64
LSI MegaRAID R3.6
3.9.0.64
磁盘DELL
MBA3147RC
Seagate
Cheetah 15K.5
ST314655SS x3
磁盘规格15000RPM
147GB
SAS 3Gb/s
16MB Cache
15000RPM
146GB
SAS 3Gb/s
16MB Cache
磁盘设置SAS 3Gb/s
50GB系统分区
SAS 3Gb/s
20GB系统分区
网络子系统
网卡Broadcom BCM5709C
双口PCI-E千兆网卡 x2
Broadcom BCM5708C
PCI-E千兆网卡 x2
网卡设置PCI Express x4 @ IOH
Broadcom NIC Teaming
Load Balancing
PCI Express x1 @ ESB6321
Broadcom NIC Teaming
Load Balancing
网卡驱动Broadcom NetXtreme 2
11.04.01
Broadcom NetXtreme 2
11.04.01
软件环境
操作系统Microsoft
Windows Server 2008 Enterprise Edition SP1 x64
Microsoft
Windows Server 2008 Enterprise Edition SP1 x64

  原样机搭配的是4根2GB的内存,双通道的配置和容量都会限制住性能,因此测试的时候我们使用的是6条4GB的内存模组,共24GB。

 


在正常的IDLE情况下,2.26GHz的Xeon E5520运行在1.6GHz的频率
 
 
比较特别地,R710用的是ICH9南桥,现在服务器的南桥一般就是用来连接键盘鼠标USB设备,因此用什么倒是不重要
 
 

  SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。

  有一点需要说明的是,Sandra的处理器架构性能测试是根据处理器所能支持的所有指令集中选择进行的,不同的处理器支持的指令集不同,测试使用到的指令集也就不同。例如,Nehalem在这个测试当中就可以使用SSE4.2,而Penryn就只能使用SSE4.1,而用Opteron可能就只能到SSE3了。一般而言,由于可以使用SSE4,Intel的处理器理论性能会比较好。

SiSoftware Sandra Pro Business 2009
测试对象
DELL PE R710
双路Intel Gainestown
Xeon E5520
2.27GHz
DELL PE2900 III
双路Intel Harpertown
Xeon E5430
2.66GHz
Processor Arithmetic Benchmark
处理器架构测试
Dhrystone ALU
116566MIPS(iSSE4.2)91006MIPS
Dhrystone ALU vs SPEED
51.56MIPS/MHz34.21MIPS/MHz
Whetstone iSSE3
100386MFLOPS78385MFLOPS
Dhrystone iSSE3 vs SPEED
44.40MFLOPS/MHz29.47MFLOPS/MHz
Processor Multi-Media Benchmark
处理器多媒体测试
Multi-Media Int x16 iSSE4.1
242.06MPixel/s 
Multi-Media Int x8 iSSE4.1
 199.33MPixel/s
Multi-Media Int x16 iSSE4.1 vs SPEED
107.06kPixel/s/MHz 
Multi-Media Int x8 iSSE4.1 vs SPEED
 74.94kPixel/s/MHz
Multi-Media Float x8 iSSE2
185.56MPixel/s 
Multi-Media Float x4 iSSE2
 108.69MPixel/s
Multi-Media Float x8 iSSE2 vs SPEED
82.07kPixels/s/MHz 
Multi-Media Float x4 iSSE2 vs SPEED
 40.86kPixels/s/MHz
Multi-Media Double x4 iSSE2
102.65MPixel/s 
Multi-Media Double x2 iSSE2
 55.75MPixel/s
Multi-Media Double x4 iSSE2 vs SPEED
45.40kPixels/s/MHz 
Multi-Media Double x2 iSSE2 vs SPEED
 20.96kPixels/s/MHz
Multi-Core Efficiency Benchmark
Inter-Core Bandwidth
58.54GB/s20.54GB/s
Inter-Core Bandwidth vs SPEED
26.51MB/s/MHz7.91MB/s/MHz
Inter-Core Latency
(越小越好)
21ns90ns
Inter-Core Latency vs SPEED
(越小越好)
0.01ns/MHz0.03ns/MHz
Cryptography
加密性能测试
AES256 CPU Cryptographic Bandwidth
862MB/s 
AES256 CPU Cryptographic Bandwidth VS SPEED
0.38MB/s/MHz 
SHA256 CPU Hashing Bandwidth
800MB/s 
SHA256 CPU Hashing Bandwidth vs SPEED
0.35MB/s/MHz 
.NET Arithmetic Benchmark
.NET架构测试
Dhrystone .NET
26698MIPS10562MIPS
Dhrystone .NET vs SPEED
11.81MIPS/MHz3.97MIPS/MHz
Whetstone .NET
60209MFLOPS45399MFLOPS
Whetstone .NET vs SPEED
26.63MFLOPS/MHz17.07MFLOPS/MHz
.NET Multi-Media Benchmark
.NET多媒体测试
Multi-Media Int x1 .NET
48.04MPixel/s31.28MPixel/s
Multi-Media Int x1 .NET vs SPEED
21.25kPixels/s/MHz11.76kPixels/s/MHz
Multi-Media Float x1 .NET
20.77MPixel/s8.68MPixel/s
Multi-Media Float x1 .NET vs SPEED
9.18kPixels/s/MHz3.26kPixels/s/MHz
Multi-Media Double x1 .NET
40.45MPixel/s24.75MPixel/s
Multi-Media Double x1 .NET vs SPEED
17.89kPixels/s/MHz9.30kPixels/s/MHz

SiSoftware Sandra对比

  从各方面来说,Nehalem-EP的计算能力都挺强的,具体原因大家都知道:IMC和HTT(集成内存控制器和超线程技术)。

  SiSoftware Sandra缓存内存测试主要包括内存带宽、内存延迟等性能的测试。

 

SiSoftware Sandra Pro Business 2009
测试对象
DELL PE R710
双路Intel Gainestown
Xeon E5520
2.27GHz
DELL PE2900 III
双路Intel Harpertown
Xeon E5430
2.66GHz
Memory Bandwidth Benchmark
内存带宽测试
Int Buff'd iSSE2 Memory Bandwidth
13.45GB/s6.13GB/s
Int Buff'd iSSE2 Memory Bandwidth vs SPEED
 9.43MB/s/MHz
Float Buff'd iSSE2 Memory Bandwidth
13.45GB/s6.13GB/s
Float Buff'd iSSE2 Memory Bandwidth vs SPEED
 9.43MB/s/MHz
Memory Latency Benchmark(Random)
内存延迟测试(随机)
Memory(Random Access) Latency
(越小越好)
124ns108ns
Speed Factor
(越小越好)
70.9095.20
Internal Data Cache
4clocks3clocks
L2 On-board Cache
10clocks18clocks
L3 On-board Cache
48clocks 
Memory Latency Benchmark(Linear)
内存延迟测试(线性)
Memory(Linear Access) Latency
(越小越好)
16ns20ns
Speed Factor
(越小越好)
9.2017.30
Internal Data Cache
4clocks3clocks
L2 On-board Cache
10clocks13clocks
L3 On-board Cache
12clocks 
Cache and Memory Benchmark
缓存及内存测试
Cache/Memory Bandwidth
112.59GB/s68.88GB/s
Cache/Memory Bandwidth vs SPEED
50.99MB/s/MHz26.52MB/s/MHz
Speed Factor
(越小越好)
22.80111.90
Internal Data Cache
363.34GB/s421.23GB/s
L2 On-board Cache
363.45GB/s122.68GB/s

SiSoftware Sandra对比

  从Sandra测试来看,DELL PE R710的双三通道DDR3-1066的带宽约是四通道DDR2-667的两倍左右,实际上表现和我们测试R610时一样,R610样机使用的也是E5520。

  SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。

SPEC CPU 2006整数运算性能

  在主频略低的情况下(2.26GHz vs 2.66GHz),R710整数性能提升了90%,这个结果和当时R610一样……因为处理器和内存也都一样。

  SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。

SPEC CPU 2006浮点运算性能

   浮点运算上R710的提升达到131%,R610是130%,可以认为是一样的。

  ScienceMark v2.0 Membench

  ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。

  首先我们进行的是ScienceMark的测试,主要考察系统的缓存和内存子系统情况。L1/L2 Cache的成绩主要是跟处理器频率相关,因为目前的处理器当中L1 Cache都是和处理器核心同频率的,而L2 Cache基本上也是——当前的处理器L2都是全速的(放置在处理器内但不在同一个芯片上的Pentium II为半速L2,而Pentium之前的处理器L2则和处理器分离,速度更低)。越快的频率,L1/L2性能就越好。而内存带宽主要由两部分相关:比较大的部分是内存架构,小部分是内存操作指令(集),例如使用最新的SSE指令集比通常的ALU指令集会得到更大的吞吐量,而不同的SSE版本性能也有不同。

 

ScienceMark Membench
产品型号DELL PE R710
双路Intel Gainestown
Xeon E5520 2.27GHz
PowerEdge 2900 III
Intel Harpertown
Xeon E5430 2.66GHz
内存技术参数4GB R-ECC DDR3-1066 SDRAM x6
三通道x2
4GB R-ECC DDR3-1333 SDRAM x6
四通道
L1带宽(MB/s)55661.8255376.16
L2带宽(MB/s)22751.3516757.55
内存带宽(MB/s)7413.394485.09
L1 Cache Latency(ns)
32 Bytes Stride2 cycles
0.88 ns
1.13 ns
L2 Cache Latency(ns)
4 Bytes Stride3 cycles
1.33 ns
1.13 ns
16 Bytes Stride3 cycles
1.33 ns
1.50 ns
64 Bytes Stride9 cycles
3.98 ns
4.51 ns
256 Bytes Stride8 cycles
3.54 ns
4.51 ns
512 Bytes Stride7 cycles
3.10 ns
4.89 ns
Memory Latency(ns)
4 Bytes Stride3 cycles
1.33 ns
1.13 ns
16 Bytes Stride7 cycles
3.10 ns
4.89 ns
64 Bytes Stride33 cycles
14.60 ns
19.17 ns
256 Bytes Stride172 cycles
76.07 ns
59.77 ns
512 Bytes Stride190 cycles
84.03 ns
68.04 ns
Memory Algorithm Bandwidth(MB/s)
Compiler7413.393178.45
REP MOVSD7023.613220.23
ALU Reg Copy5222.892789.34
MMX Reg Copy6033.312972.91
MMX Reg 3dNow--
MMX Reg SSE5799.363978.53
SSE PAlign5621.654128.59
SSE PAlign SSE6437.684390.48
SSE2 PAlign5607.864326.42
SSE2 PAlign SSE6458.714441.71
MMX Block 4kb4913.304063.30
MMX Block 16kb5180.924479.88
SSE Block 4kb4933.484074.79
SSE Block 16kb5196.854485.09

  除了和主频紧密相关的L1性能之外,Nehalem-EP的表现远比Harpertown好,这主要是IMC的功劳。

  CineBench R10

  CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。

 

CineBench R10 64bit
处理器DELL PE R710
双路Intel Gainestown
Xeon E5520 2.27GHz
DELL PE 2900 III
双路Intel Harpertown
Xeon E5430 2.66GHz
显卡--
CPU Benchmark
Rendering (1 CPU)3309 CB-CPU2931 CB-CPU
Rendering (x CPU)22233 CB-CPU16806 CB-CPU
Multiprocessor Speedup6.72x5.73x
OpenGL Benchmark
OpenGL Standard171 CB-GFX176 CB-GFX

服务器测试成绩

  结果比R610的略为好些,可能是主板进步了的缘故。

  Benchmark Factory 4.6

  我们在被测服务器上安装了Microsoft SQL 2005 SP1,按照测试要求建立了数据库。BF在测试之前会在数据库中生成9个表,其中包括4个500万行的表格,每行包括100字节的数据,因此每个表格容量大约是476MB,整个数据库容量为1.86GB。我们用60个客户端模拟1000个用户,在这个数据库中进行查询、添加、删除、修改等操作。

 

SQL2005数据库性能测试

  数据库测试是一个综合性的测试,凭借着新的架构:IMC、QPI和HTT,R710表现不错,达到了10万TPS(每秒交易数)。

  我们利用UNI-T UT71E智能数字万用表和相配套的软件对于对于被测服务器在几种不同的状态下的功耗进行了监测,主要包括如下项目:

  • P1:连接电源但不开机状态

  • P2:系统启动完毕,5分钟内无动作,但不休眠

  • P3:系统启动完毕,处理器满载、磁盘以最大吞吐量工作

 

功耗

  R710的80Plus金牌电源具有非常好的90%转换效率,远胜一般电源。总体来说,R710的功耗非常低,甚至比我们以前测试的R610还低一点。

  【IT168评测中心】DELL PowerEdge R710和其兄弟R610是戴尔推出的基于全新Intel Xeon 5500系列处理器的第11代PowerEdge服务器中的主力机架式产品。它们的构造设计获得了2009年德国iF产品设计大奖,比起上一代来有了非常多的改进。


DELL PowerEdge R710服务器

  硬件配置上,PowerEdge R710在2U的机架内提供了双路Xeon 5500处理器(测试样机配置的是E5520)和18个DIMMs(最大144GB内存容量)和6个3.5"热插拔SAS硬盘槽,比R610具有更强的扩展性。R710还配置了通过了80 Plus金牌认证的冗余电源。在测试中,凭借着Nehalem平台崭新的直联架构——集成内存控制器和双QPI总线,再配合超线程技术,PowerEdge R710的性能表现良好。当然,测试成绩和R610几乎一样——因为测试配置也几乎一样。


DELL PowerEdge R610:近乎完美

  DELL宣称的:“第11代PowerEdge服务器堪称戴尔历史上性能最强大的产品线,也是最安静和最漂亮的服务器。”在我们测试DELL PowerEdge R610的时候,我们给了“近乎完美”的评语,现在R710似乎再难以给同样的印象,因为从外观上看,R710没那么苗条,而且我们搬起来也更难一些——我们更偏爱R610一些。不过,就功能上,R710更强一些,而在设计上,R710和R610都是很完美的。


DELL PowerEdge R710服务器

Intel Nehalem-EP处理器首发深度评测

直联架构的威力 Nehalem-EP处理器解析

Nehalem-EP 新Xeon 5500处理器首度曝光

透视六核心至强 Dunnington处理器解析

透视八核心至强 Nehalem-EX处理器解析

2008年度评测报告:深入Nehalem微架构

性能大幅提升 Core i7 服务器应用测试

再攀性能之巅 Intel全新酷睿i7深度评测

机密揭露:Intel超线程技术有多少种?

[IDF08]基辛格演讲:Nehalem集群演示

(完)

0
相关文章