服务器 频道

近乎完美 DELL最新一代R610服务器评测

  【IT168评测中心】4月2日,戴尔(DELL)公司在北京推出了5款基于全新英特尔至强5500系列处理器的第11代PowerEdge服务器,包括半高刀片式M610和全高刀片式M710、1U机架式R610、2U机架式R710和以及塔式T610服务器。戴尔表示,在未来几个月内,戴尔还将推出更多双路产品,包括T710、R410与T410。


DELL第11代服务器4月2日发布会现场 

  在稍后举行的一个服务器产品体验会上,DELL专门面向评测媒体介绍了DELL的最新一代服务器,戴尔中国服务器高级产品经理赵永琳向我们介绍了戴尔的新产品,“第11代PowerEdge服务器堪称戴尔历史上性能最强大的产品线,也是最安静和最漂亮的服务器。”其特点主要表现在:内嵌Hypervisor,方便用户部署虚拟化软件,同时通过更大的内存和更多的I/O来提高虚拟化的性能和效率,用户通过虚拟化可以减少物理机数量,同时简化管理;通过采用高转换效率的电源、基于策略的电源散热控制,可以实现最高的每瓦特性能;集成内置管理模块,简化系统部署和安装时间,让用户把精力放到业务创新中去;外观上也是最漂亮的一代产品,获得了德国iF产品设计大奖,同时采用了低转速、大流量的风扇,使其成为戴尔历史上最安静的服务器。因此,这此服务器可以通过进一步简化数据中心的操作、提高性能和能效并降低总体拥有成本,从而帮助企业用最低的成本获得最大的收益。”

  DELL也很快在五月初向我们提供了第十一代PowerEdge服务器的样品:R610,从前面可知,这是一款1U机架式服务器产品。由于在测试过程中由于发生了一些问题,因此本文出现有些拖延。出了什么问题呢?请看后面分解。


DELL PowerEdge R610服务器

Intel Nehalem-EP处理器首发深度评测

直联架构的威力 Nehalem-EP处理器解析

Nehalem-EP 新Xeon 5500处理器首度曝光

透视六核心至强 Dunnington处理器解析

透视八核心至强 Nehalem-EX处理器解析

2008年度评测报告:深入Nehalem微架构

性能大幅提升 Core i7 服务器应用测试

再攀性能之巅 Intel全新酷睿i7深度评测

机密揭露:Intel超线程技术有多少种?

[IDF08]基辛格演讲:Nehalem集群演示

  作为最新一代的服务器,代数变迁的原因之一在于架构上的大变动。以目前推出的Intel架构型号为例(第十一代PowerEdge会有AMD架构的型号):它和上一代的明显差异就在于新一代PowerEdge采用了Nehalem架构,基于Nehalem-EP处理器和Tylersburg-EP芯片组。Nehalem-EP处理器就是我们熟知的5500系列至强处理器,总结起来,新的平台架构比起上一代的主要优势有三点:

虽然SMT有不少处理器采用,不过,在x86处理器上只有Intel具有
直联架构带来了IMC(集成内存控制器)和QPI(快速通道互联总线)

  IMC(集成内存控制器):CISC的x86架构对缓存/内存带宽极度渴求,集成内存控制器让处理器避开了访问内存需要通过FSB总线的限制,并将带宽提升到三通道DDR3 1333(8核心Nehalem-EX支持四通道DDR3)每处理器,极大提升了Nehalem处理器的内存带宽,对服务器应用提升巨大。
  QPI(快速通道互联总线):新的点对点总线带宽更高,并且让处理器之间可以直接连接,避免了共享的FSB总线在处理器核心过多时的效率急剧下降,更适合扩展到大规模并行系统。同样处理器数量下,快速通道互联技术点对点形成的ccNUMA拓扑比共享FSB的星型总线具有更高的效率。

直联架构带来了IMC和QPI
虽然SMT有不少处理器采用,不过,在x86处理器上只有Intel具有

  HTT(超线程技术):超线程技术在打游戏的时候或许看不出有作用,不过在企业级别应用上效果明显。在主要竞争对手也有集成内存控制器和类似快速通道互联技术的情况下,超线程技术就成为了Nehalem的特别武器。这项据说耗资十亿开发费用的技术终于从Nehalem开始大放光芒。

  除了这几点明显的进步之外,Nehalem-EP架构还具有很多改进,具体可见:

Intel Nehalem-EP处理器首发深度评测

  超线程技术的较详细的说明:

机密揭露:Intel超线程技术有多少种?

  关于R610的外观很值得一提:R610和R710获得了2009年德国iF产品设计大奖。内在先不说,外观设计上确实让人耳目一新。


DELL PowerEdge R610服务器


DELL PowerEdge R610服务器:2个USB,一个VGA,一个带数个按钮的蓝光LED显示屏,以及6个2.5"热插拔SAS硬盘槽,之外还有一些秘密的配置,继续看


DELL PowerEdge R610:新的前面板罩式这样子的,很有艺术感


DELL PowerEdge R610:修长的身材 

 


DELL PowerEdge R610服务器
 

前面板的USB口、VGA口和LED显示屏无疑对诊断和维护来说是非常方便的
 

标有EST三个字母的地方其实是一个塑料片,上面有机器的代码号;虽然看不见,但是这个塑料卡片的背后是服务器网卡的MAC地址,可以用来机房中定位机器
 

热插拔架也是重新设计的,只要轻轻一按带红色圈的方形按钮,把手就会弹出,维护相当方便(按钮设计为略凹下以避免误操作,红色也是用来警戒的颜色)
 

Intel Xeon徽标——这个地方看起来还像一个开关?不错,按下去之后它就会向上翻转形成一个用来机架拖/推的舌片,只需要拇指+食指就可以拖拉操作
 

4个网络接口(之外还有一个额外的用于远程管理的RJ45口)和冗余电源是R610的特别之处

 


厚实的内部

顶盖上详尽的安装说明
 

舒心的设计:顶盖边上的垫边,起到维护评测人员手掌的作用,当然也有轻微的密封隔音作用
 

两个冗余电源,上面带有大量的EMI接触弹片

 


冗余电源:符合Intel Node Manager的规格要求,可以与系统通信,可以限制服务器的功耗上限

 


标签底下一连串标志,最重要的是:上面有一个80 Plus Gold标志——80 Plus金牌标志,它代表着电源的转换效率接近了90%;这个电源的功率是502W,DELL还提供了750W的模块,一些低配置的情况下没有必要使用这么高的功率——用户可以根据功耗配置来选择两种电源,这也是一个体贴的设计


DELL PowerEdge R610服务器:散热主要由前端的多个散热风扇完成


这些冗余的热插拔风扇直接对着处理器和内存这两个核心部件进行散热

即使是在系统满负荷运转的时候噪声也不是很高

Intel Xeon E5520处理器,Nehalem-EP架构,代号Gainestown,主频2.26GHz,QPI频率2926MHz,四核八线程

 


Nehalem集成了内存控制器——Xeon E5520支持三通道DDR3-1066内存,而R610主板上则实现了每处理器6个DIMM,每通道2DIMMs,然而我们收到的配置只有4条内存,也就是每处理器4 DIMM,只实现了满配置的双通道

 


没有实现三通道——这也是标题为“近乎完美”而不是“完美”的原因之一,双通道配置显然会比三通道要慢,并且让人无法得知机器的性能到底怎么样;在联系厂商之后,我们重新以三通道内存配置完成了测试,用的内存是这个:


实际上就是Intel官方送测样机上的内存

 Intel Nehalem-EP处理器首发深度评测


容量为4GB单条,规格为DDR3-1333,共使用了6条,合两个处理器六个内存通道。当然,在R610上由于处理器的缘故,跑的频率是DDR3-1066

 


实话实说:R610是比一般服务器要长一些,因此有些变形……图上还可以看见原始的双通道内存配置
 

两个Broadcom BCM5709C双千兆网卡芯片

  DELL PowerEdge R610特别的地方在于,它提供了四个千兆网口,这通过采用两个Broadcom BCM5709C双千兆网卡芯片来实现,现代的服务器处理器和内存的速度不断提升,而与外部环境的接口却总是两个1Gbps的网络接口,明显限制了服务器的应用。也就是说,I/O是一个瓶颈。在Nehalem-EP架构上,去掉了内存控制器的北桥芯片叫做IOH,目的就是为了提升新平台的IO能力:Tylersburg-36D总共可以提供36 Lanes的PCI Express Gen2界面,比起以往大有提升。当然,这两个双千兆网卡是直接与Tylersburg-36D IOH芯片连接的,它支持RDMA、iSCSI,硬件处理TCP/IO和L5协议,以及RDMA帧,这也是它和一般网卡的不同之处。


Winbond WPCM450DA0BX芯片

  或许你会以为这是一个FWH(Firmware Hub)芯片——它不是,它是Winbond在08年Q2推出的Server BMC w/ 2-D Graphics芯片,也就是说它是一个2D显卡,同时也是一个远程管理芯片。


安全套件

 


安全套件

  如大家熟知的那样,DELL服务器具有自成系列的磁盘阵列卡:著名的PERC系列,DELL PowerEdge R610上用的仍然是PERC 6/I阵列卡。


DELL PERC 6/I阵列卡

  PERC 6/I阵列卡基于LSI SAS 1078 RoC(RAID on Chip)芯片,自带500MHz的PowerPC处理器,支持8个SAS 3Gbps接口,支持硬件RAID 0/1/3/5/6阵列,具备完善的阵列备份/恢复/迁移功能,PERC 6/I缓存容量一般为256MB。PERC 6/i使用PCI Express x8 Gen1接口,单向带宽为2GB/s。


生产环境必备的阵列电池单元

 


2.5"热插拔SAS硬盘,新的架子上硬盘与热插拔架面板具有一定的距离,并且是全金属制作,对散热更有好处
 

Seagate OEM的Savvio 10K.3,转速10000RPM的2.5"硬盘,容量146GB,缓存16MB,接口为独特的SAS 6Gbps(SAS 2.0规范),更小的外形是为了提供更好的IO性能;和阵列卡一样,DELL的硬盘通常具有定制的Firmware,因此性能表现和原型会有些不同,如DELL某一工作站上的很特别的一个硬盘:

超另类 西数160GB猛禽硬盘全球独家评测

关于Seagate Savvio 10K.3硬盘:
SAS 6Gbps 希捷Savvio 10K.3硬盘首测

  在2005年度服务器横评之后,我们认为当时的网络实验室无法满足今后继续发展的服务器测试的需要。所以,2006年我们IT168评测中心又斥资几十万对于IT168网络实验室的服务器测试平台进行了大幅度的升级,为思科Catalyst4500千兆交换机(WS-X4013+ Supervisor Engine II-Plus和WS-X4548-GB-RJ45)增加了一个思科全千兆24口模块WS-X4424-GB-RJ45,可同时连接72个千兆铜缆设备和2个光缆设备。另外,我们还购置了29台Dell PowerEdge SC430塔式服务器和原来的32台主流配置PC一起为服务器测试平台的提供负载。2007年,我们又采购性能更强的部分客户端,来确保为新一代的服务器提供足够的测试负载。2009年初,我们又对所有客户端的内存子系统进行了全面的升级。


Catalyst4500千兆交换机


部分Dell PowerEdge SC430服务器

  在新的测试环境下,我们进一步完善了服务器性能测试方案:

  • SPEC CPU 2006 v1.0.1

  SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。

  SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。

  SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。

  SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。

  我们在被测服务器中安装了当前最新版本的Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler这两款SPEC CPU 2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(假如只支持SSE3,则使用QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。

  和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64bit Windows Server 2008 Enterprise下完成,对于每个运算核心,最低配置1.5GB内存。

  • Iometer 2006.7.27

  Iometer是一款功能非常强大的IO测试软件,它除了可以在本机运行测试本机的IO(磁盘)性能之外,还提供了模拟网络应用的能力。在这次的测试中,我们仅仅让它在本机运行测试服务器的磁盘性能。为了全面测试被测服务器的IO性能,我们分别选择了不同的测试脚本。

  • Max_throughput(read):文件尺寸为64KB,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取吞吐量

  • Max_IO(read):文件尺寸为512B,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取操作IO处理能力

  • Max_throughput(write):文件尺寸为64KB,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入吞吐量

  • Max_IO(write):文件尺寸为512B,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入操作IO处理能力

  • SiSoftware Sandra v2009

  SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。

  • NetBench v7.03

  NetBench是针对文件服务器的性能测试软件,影响NetBench性能的主要是服务器的磁盘子系统,服务器磁盘控制器、条带大小、读写缓存、硬盘类型、组建磁盘阵列模式、内存容量、网络拓朴结构等都会对测试结果有明显的影响。我们在被测服务器上设立了文件服务器,NetBench通过网络实验室中60个客户端来模拟网络中的PC向文件服务器所发出的文件传输请求,文件服务器则将存储在磁盘上的文件数据发送给相应的客户端。在测试过程中,客户端会以每四台一组的步进依次增加并且向服务器发送文件传输请求,测试结束后控制台收集数据并绘制出服务器的数据传输变化曲线。

  • Benchmark Factory 4.6

  大部分的服务器应用都同数据库有着密切的联系,因此我们今年开始着手在在服务器测试中加入对于数据库性能的测试。我们选择了Benchmark Factory 4.6软件和Microsoft SQL2005 SP3来测试不同的硬件平台在数据库应用中的表现。

  我们选择了Benchmark Factory内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。

  • 系统功耗监测

  我们使用UNI-T UT71E智能数字万用表对于被测服务器系统的整体功耗进行了监测,利用随机附带的接口程序,我们可以记录被测服务器任意时间段内的功率变化。

  • CineBench R10

  CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,在服务器测试平台中显示子系统不重要,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。

  • ScienceMark 2.0

  ScienceMark 2.0可以用来评估测试对象在执行科学计算时的运算效能,这部分效能主要和处理器子系统和内存子系统相关。我们主要用来评估测试对象的内存子系统的性能。

  测试对比平台的详细参数如下:

测试平台、测试环境
测试分组
类别
DELL PE R610服务器
双路Intel Gainestown
Xeon E5520
双路Xeon E5430基准平台
DELL PE 2900 III服务器
处理器子系统
处理器
双路Intel Xeon E5520
双路Intel Xeon E5430
处理器架构
Intel 45nm NehalemIntel 45nm Penryn
处理器代号
GainestownHarpertown
处理器封装
Socket 1366 LGASocke 771 LGA
处理器规格
四核四核
处理器指令集
MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,SSE4.2,EM64T,VT
MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,EM64T,VT
主频2.26GHz2.66GHz
处理器外部总线2x QPI
2933MHz
5.86GT/s
单向11.73GB/s(每QPI)
双向23.46GB/s(每QPI)
FSB
333MHz
1333MT/s
10.6GB/s
L1 D-Cache
4x 32KB
8路集合关联
4x 32KB
8路集合关联
L1 I-Cache
4x 32KB
4路集合关联
4x 32KB
8路集合关联
L2 Cache
4x 256KB
8路集合关联
2x 6144KB
16路集合关联
L3 Cache
8MB @ 2128MHz
16路集合关联
 
主板
主板型号
DELL PE R610
DELL PE 2900 III
芯片组
Intel Tylersburg-EP
IOH:Intel 5520(Tylersburg-36D)
ICH:Intel 82801JR(ICH10R)
MCH:Intel 5000X
ICH:Intel ESB6321
芯片特性2x QPI
VT-d Gen 2
2x FSB1333
12MB Snoop Filter
VT-d Gen 1
内存控制器
每CPU集成三通道R-ECC DDR3 1066北桥集成四通道FBD DDR2 667
内存
4GB R-ECC DDR3 1333 SDRAM x6 @ DDR3-10662GB FBD DDR2 667 SDRAM x4
系统磁盘子系统
磁盘控制器
DELL PERC 6/I SAS RAID Controller
DELL Perc 5/i RAID Controller
磁盘控制器规格
LSI 1078 RoC
500MHz PowerPC
256MB RAM
8x SAS 3Gbps
RAID 0/1/3/5/6
LSI 1068 SAS
Intel IOP333
500MHz ARM
256MB RAM
8x SAS 3Gbps
RAID 0/1/3/5
磁盘控制器设置
RAID 5
RAID 5
磁盘控制器驱动
DELL PERC 6/I SAS RAID Driver
3.9.0.64
LSI SAS
3.8.0.64
磁盘
Seagate
Savvio 10K.3
ST9146803 x2
Seagate
Cheetah 15K.5
ST314655SS x3
磁盘规格
10000RPM
146GB
SAS 6Gbps
16MB Cache
15000RPM
146GB
SAS 3Gbps
16MB Cache
磁盘设置
SAS 3Gbps
50GB系统分区
SAS 3Gbps
20GB系统分区
网络子系统
网卡
Broadcom BCM5709C Dual Port Gigabit Network Controller x2Broadcom BCM5708C
PCI-E千兆网卡 x2
网卡设置
PCI Express x1 @ IOH
Broadcom NIC Teaming
Load Balancing
PCI Express x1 @ ESB6321
Broadcom NIC Teaming
Load Balancing
网卡驱动
Broadcom NetXtreme 2Broadcom NetXtreme 2
11.04.01
软件环境
操作系统Microsoft
Windows Server 2008 Enterprise Edition SP1 x64
Microsoft
Windows Server 2008 Enterprise Edition SP1 x64

  为了完全体现新架构的实力,我们使用了Windows Server 2008 Enterprise Edition SP1 x64操作系统,可以更好地支持Nehalem-EP的ccNUMA架构。

 


在正常的IDLE情况下,2.26GHz的Xeon E5520运行在1.6GHz的频率

 

 

 


需要再次声明:16GB内存是测试样机的原始配置,为了充分表现出R610的性能特点,我们使用了(每CPU)三通道共24GB的内存进行了测试

  SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。

  有一点需要说明的是,Sandra的处理器架构性能测试是根据处理器所能支持的所有指令集中选择进行的,不同的处理器支持的指令集不同,测试使用到的指令集也就不同。例如,Nehalem在这个测试当中就可以使用SSE4.2,而Penryn就只能使用SSE4.1,而用Opteron可能就只能到SSE3了。一般而言,由于可以使用SSE4,Intel的处理器理论性能会比较好。

SiSoftware Sandra Pro Business 2009
测试对象
DELL PE R610
双路Intel Gainestown
Xeon E5520
2.26GHz
DELL PE 2900 III
双路Intel Harptown
Xeon E5430
2.66GHz
Processor Arithmetic Benchmark
处理器架构测试
Dhrystone ALU
116444MIPS91006MIPS
Dhrystone ALU vs SPEED
51.50MIPS/MHz34.21MIPS/MHz
Whetstone iSSE3
99838MFLOPS78385MFLOPS
Dhrystone iSSE3 vs SPEED
44.16MFLOPS/MHz29.47MFLOPS/MHz
Processor Multi-Media Benchmark
处理器多媒体测试
Multi-Media Int x16 iSSE4.1
242.20MPixel/s 
Multi-Media Int x8 iSSE4.1
 199.33MPixel/s
Multi-Media Int x16 iSSE4.1 vs SPEED
107.12kPixel/s/MHz 
Multi-Media Int x8 iSSE4.1 vs SPEED
 74.94kPixel/s/MHz
Multi-Media Float x8 iSSE2
185.59MPixel/s 
Multi-Media Float x4 iSSE2
 108.69MPixel/s
Multi-Media Float x8 iSSE2 vs SPEED
82.08kPixels/s/MHz 
Multi-Media Float x4 iSSE2 vs SPEED
 40.86kPixels/s/MHz
Multi-Media Double x4 iSSE2
102.67MPixel/s 
Multi-Media Double x2 iSSE2
 55.75MPixel/s
Multi-Media Double x4 iSSE2 vs SPEED
45.41kPixels/s/MHz 
Multi-Media Double x2 iSSE2 vs SPEED
 20.96kPixels/s/MHz
Multi-Core Efficiency Benchmark
多核心效率测试
Inter-Core Bandwidth
62.53GB/s20.54GB/s
Inter-Core Bandwidth vs SPEED
28.32MB/s/MHz7.91MB/s/MHz
Inter-Core Latency
(越小越好)
19ns90ns
Inter-Core Latency vs SPEED
(越小越好)
0.01ns/MHz0.03ns/MHz
.NET Arithmetic Benchmark
.NET架构测试
Dhrystone .NET
26214MIPS10562MIPS
Dhrystone .NET vs SPEED
11.59MIPS/MHz3.97MIPS/MHz
Whetstone .NET
61993MFLOPS45399MFLOPS
Whetstone .NET vs SPEED
27.42MFLOPS/MHz17.07MFLOPS/MHz
.NET Multi-Media Benchmark
.NET多媒体测试
Multi-Media Int x1 .NET
47.35MPixel/s31.28MPixel/s
Multi-Media Int x1 .NET vs SPEED
20.94kPixels/s/MHz11.76kPixels/s/MHz
Multi-Media Float x1 .NET
20.41MPixel/s8.68MPixel/s
Multi-Media Float x1 .NET vs SPEED
9.03kPixels/s/MHz3.26kPixels/s/MHz
Multi-Media Double x1 .NET
39.61MPixel/s24.75MPixel/s
Multi-Media Double x1 .NET vs SPEED
17.52kPixels/s/MHz9.30kPixels/s/MHz

 

SiSoftware Sandra对比

  处理器架构性能测试分为整数和浮点两个部分,DELL PE R610是双路四核带超线程,8个物理内核,16个虚拟处理器,虽然主频要低一些,然而得分仍明显地超出基准服务器。

  SiSoftware Sandra缓存内存测试主要包括内存带宽、内存延迟等性能的测试。

SiSoftware Sandra Pro Business 2009
测试对象
DELL PE R610
双路Intel Gainestown
Xeon E5520
2.26GHz
DELL PE2900 III
双路Intel Harptown
Xeon E5430
2.66GHz
Memory Bandwidth Benchmark
内存带宽测试
Int Buff'd iSSE2 Memory Bandwidth
13.40GB/s
6.13GB/s
Int Buff'd iSSE2 Memory Bandwidth vs SPEED
 
9.43MB/s/MHz
Float Buff'd iSSE2 Memory Bandwidth
13.38GB/s
6.13GB/s
Float Buff'd iSSE2 Memory Bandwidth vs SPEED
 
9.43MB/s/MHz
Memory Latency Benchmark
内存延迟测试
Memory(Random Access) Latency
(越小越好)
125ns
108ns
Memory(Random Access) Latency vs SPEED
(越小越好)
 
0.16ns/MHz
Speed Factor
(越小越好)
71.20
95.20
Internal Data Cache
4clocks
3clocks
L2 On-board Cache
10clocks
18clocks
L3 On-board Cache
48clocks
 
Memory Latency Benchmark
内存延迟测试
Memory(Linear Access) Latency
(越小越好)
16ns
 
Memory(Linear Access) Latency vs SPEED
(越小越好)
 
 
Speed Factor
(越小越好)
8.90
 
Internal Data Cache
4clocks
 
L2 On-board Cache
10clocks
 
L3 On-board Cache
12clocks
 
Cache and Memory Benchmark
缓存及内存测试
Cache/Memory Bandwidth
112.36GB/s
68.88GB/s
Cache/Memory Bandwidth vs SPEED
50.89MB/s/MHz
26.52MB/s/MHz
Speed Factor
(越小越好)
22.70
111.90
Internal Data Cache
361.18GB/s
421.23GB/s
L2 On-board Cache
334.05GB/s
122.68GB/s

SiSoftware Sandra对比

  从Sandra测试来看,DELL PE R610的双三通道DDR3-1066的带宽约是四通道DDR2-667的两倍左右。

  SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。

SPEC CPU 2006整数运算性能

  在主频略低的情况下(2.26GHz vs 2.66GHz),R610整数性能提升了90%。

  SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。

SPEC CPU 2006浮点运算性能

   相比于整数运算,浮点运算上R610的提升更大一些,达到了130%,明显地超过2900 III。

  ScienceMark v2.0 Membench

  ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。

  首先我们进行的是ScienceMark的测试,主要考察系统的缓存和内存子系统情况。L1/L2 Cache的成绩主要是跟处理器频率相关,因为目前的处理器当中L1 Cache都是和处理器核心同频率的,而L2 Cache基本上也是——当前的处理器L2都是全速的(放置在处理器内但不在同一个芯片上的Pentium II为半速L2,而Pentium之前的处理器L2则和处理器分离,速度更低)。越快的频率,L1/L2性能就越好。而内存带宽主要由两部分相关:比较大的部分是内存架构,小部分是内存操作指令(集),例如使用最新的SSE指令集比通常的ALU指令集会得到更大的吞吐量,而不同的SSE版本性能也有不同。

ScienceMark Membench
厂商DELLDELL
产品型号PowerEdge R610
Intel Gainestown
Xeon E5520 2.26GHz
PowerEdge 2900 III
Intel Harpertown
Xeon E5430 2.66GHz
内存技术参数4GB R-ECC DDR3-1333 SDRAM x6 @ DDR3-1066 2GB FBD-DDR2 667 SDRAM x8
L1带宽(MB/s)47758.8555376.16
L2带宽(MB/s)19541.8516757.55
内存带宽(MB/s)6959.604485.09
L1 Cache Latency(ns)
32 Bytes Stride2 cycles
0.88 ns
1.13 ns
L1 Algorithm Bandwidth(MB/s)
Compiler42521.3025201.96
REP MOVSD43383.8025467.15
ALU Reg Copy12029.6613093.65
MMX Reg Copy24112.8725242.19
SSE PAlign46354.6752826.21
SSE2 PAlign47758.8555376.16
L2 Cache Latency(ns)
4 Bytes Stride3 cycles
1.33 ns
1.13 ns
16 Bytes Stride3 cycles
1.33 ns
1.50 ns
64 Bytes Stride9 cycles
3.98 ns
4.51 ns
256 Bytes Stride8 cycles
3.54 ns
4.51 ns
512 Bytes Stride8 cycles
3.54 ns
4.89 ns
L2 Algorithm Bandwidth(MB/s)
Compiler17883.4211880.48
REP MOVSD19541.8512536.88
ALU Reg Copy8764.808577.86
MMX Reg Copy14103.0613408.31
SSE PAlign18620.1916719.97
SSE2 PAlign18630.5316757.55
Memory Latency(ns)
4 Bytes Stride3 cycles
1.33 ns
1.13 ns
16 Bytes Stride8 cycles
3.54 ns
4.89 ns
64 Bytes Stride32 cycles
14.15 ns
19.17 ns
256 Bytes Stride174 cycles
76.96 ns
59.77 ns
512 Bytes Stride191 cycles
84.48 ns
68.04 ns
Memory Algorithm Bandwidth(MB/s)
Compiler6900.373178.45
REP MOVSD6959.603220.23
ALU Reg Copy5189.152789.34
MMX Reg Copy5997.482972.91
MMX Reg 3dNow--
MMX Reg SSE5709.783978.53
SSE PAlign5568.934128.59
SSE PAlign SSE6350.834390.48
SSE2 PAlign5546.164326.42
SSE2 PAlign SSE6364.574441.71
MMX Block 4kb4893.724063.30
MMX Block 16kb5120.234479.88
SSE Block 4kb4866.764074.79
SSE Block 16kb5138.864485.09

  除了和主频紧密相关的L1性能之外,Nehalem-EP的表现远比Harpertown好,这主要是IMC的功劳。

  CineBench R10

  CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。

CineBench R10
处理器双路Intel Gainestown
Xeon E5520
双路Intel Harpertown
Xeon E5430
显卡--
CPU Benchmark
Rendering (1 CPU)3288 CB-CPU2931 CB-CPU
Rendering (x CPU)21832 CB-CPU16806 CB-CPU
Multiprocessor Speedup6.64x5.73x
OpenGL Benchmark
OpenGL Standard174 CB-GFX176 CB-GFX

服务器测试成绩

  单处理器的渲染性能比基准平台高12%,多处理器的渲染测试提升30%,这表示超线程在里面起了作用——CineBench这种应用会比较好地发挥超线程的能力。

  Iometer 2006.07.27

  我们的基准服务器采用了三块15000RPM的Seagate Cheetah 15K.5硬盘。DELL PE R610则是用三块10000RPM的Savvio 10K.3(2.5英寸外形因子)。基准平台使用了LSI MegaRAID SAS 8408E硬件阵列卡组建了RAID 5阵列,而DELL PE R610则使用了DELL PERC 6/I阵列卡,阵列卡对比上,PERC 6/I要比8408E强。

IO读

IO写

读吞吐量

写吞吐量

  显然,PERC 6/I加上三个Savvio 10K.3性能要比PERC 5/I加上三个Cheetah 15K.5更好在连续,虽然Cheetah转速更高,然而Savvio较小的盘片获得了更好的寻道性能,并且PERC 6/I性能上有优势。

  NetBench v7.03

  NetBench 7.03 Ent_dm.tst测试脚本模拟的是企业级文件服务器应用,它不但要求被测服务器的磁盘子系统可以提供足够的吞吐量,还需要其具有较高的IO处理能力,并且需要较为平衡的读取能力和写入能力。 

 NetBench性能测试

  不知为何,Iometer表现较好的Nehalem-EP平台成绩反而低不少,多次测试结果仍然表现如此,有可能是和网卡驱动有关。关于NetBench性能与处理器、内存、磁盘的关系可以看这里《评测机密:文件服务器性能提升N大要义

  Benchmark Factory 4.6

  我们在被测服务器上安装了Microsoft SQL 2005 SP1,按照测试要求建立了数据库。BF在测试之前会在数据库中生成9个表,其中包括4个500万行的表格,每行包括100字节的数据,因此每个表格容量大约是476MB,整个数据库容量为1.86GB。我们用60个客户端模拟1000个用户,在这个数据库中进行查询、添加、删除、修改等操作。

 

SQL2005数据库性能测试

  数据库测试是一个综合性的测试,尽管频率更低,然而凭借着新的架构:IMC、QPI和HTT,R610表现非凡,是基准平台的一倍以上——这个提升比以往基于Nehalem-EP的平台的提升要高一些,4个千兆网络端口有利于提升如数据库这样的吞吐量计算的表现。

  我们利用UNI-T UT71E智能数字万用表和相配套的软件对于对于被测服务器在几种不同的状态下的功耗进行了监测,主要包括如下项目:

  • P1:连接电源但不开机状态

  • P2:系统启动完毕,5分钟内无动作,但不休眠

  • P3:系统启动完毕,处理器满载、磁盘以最大吞吐量工作

 

功耗

  在各个部件上,DELL PE R610都比基准服务器要省电,除了电源之外,而且这个差异是由于R610采用冗余电源引起的。采用两个冗余电源单元的情况下,不管你愿不愿意,消耗的能源总是比单个冗余单元要高。假如都是用一个单元的话,R610的80Plus金牌电源具有非常好的90%转换效率,远胜一般电源。总体来说,R610的功耗非常低。

  【IT168评测中心】DELL PowerEdge R610是戴尔推出的基于全新英特尔至强5500系列处理器的第11代PowerEdge服务器中的主力机架式产品之一,另外一款主力型号是R710。


DELL PowerEdge R610服务器

  硬件配置上,PowerEdge R610在1U的机架内提供了双路Xeon 5500处理器(测试样机配置的是E5520)和12 DIMMs(最大96GB内存容量)和6个2.5"热插拔SAS硬盘槽,并且配置了通过了80 Plus金牌认证的冗余电源。在测试中,凭借着Nehalem平台崭新的直联架构——集成内存控制器和双QPI总线,再配合超线程技术,PowerEdge R610的性能比起其上一代有了一个大的飞跃,在主频较低的情况下仍然表现良好,SPEC CPU 2006的提升达到了90%/130%(整数/浮点,相对于2.66GHz Xeon E5430),而吞吐量应用(如数据库)则提升更大:几乎达到了两倍的提高。此外,R610的功耗表现也非常良好,空载功率比2900 III基准平台低了整整100W。DELL PowerEdge R610的性能和功耗表现都比我们接触过的Nehalem-EP平台要好一些 。


DELL PowerEdge R610服务器:重新设计的前面板

  此外,R610的提升并不仅仅是性能,在外观设计、使用上,R610都非常人性化,新一代服务器在机箱、轨道、线缆管理支架、硬盘托架和闩锁装置等方面都进行了重新设计,如:纯金属的硬盘托架,更易于操作的轨道装置等,此外,多层LCD和KVM辅助管理也很有用,DELL宣称:“我们通过对全球客户的调查,在包括导轨、内存、降噪、外观、内存数量等15个用户最关注的地方进行了创新设计,其中13项明显击败对手。这些来自客户反馈意见的设计使得R610和R710获得了2009年德国iF产品设计大奖。”——经过一段时间的测试,R610在使用上确实令人感到很舒服。按照DELL的介绍,第十一代DELL PowerEdge服务器还具有很多特点:如内嵌Hypervisor等,由于时间关系,关于这些部分的测试会留到后续文章来完成。


修长的身材,强大的性能 

  DELL宣称的:“第11代PowerEdge服务器堪称戴尔历史上性能最强大的产品线,也是最安静和最漂亮的服务器。”并非夸大其词,对于比较挑剔的我们,DELL PowerEdge R610是少数能令我们感到“满足”的作品。


DELL PowerEdge R610:近乎完美

Intel Nehalem-EP处理器首发深度评测

直联架构的威力 Nehalem-EP处理器解析

Nehalem-EP 新Xeon 5500处理器首度曝光

透视六核心至强 Dunnington处理器解析

透视八核心至强 Nehalem-EX处理器解析

2008年度评测报告:深入Nehalem微架构

性能大幅提升 Core i7 服务器应用测试

再攀性能之巅 Intel全新酷睿i7深度评测

机密揭露:Intel超线程技术有多少种?

[IDF08]基辛格演讲:Nehalem集群演示

0
相关文章