【IT168评测中心】4月2日,戴尔(DELL)公司在北京推出了5款基于全新英特尔至强5500系列处理器的第11代PowerEdge服务器,包括半高刀片式M610和全高刀片式M710、1U机架式R610、2U机架式R710和以及塔式T610服务器。戴尔表示,在未来几个月内,戴尔还将推出更多双路产品,包括T710、R410与T410。
DELL第11代服务器4月2日发布会现场
在稍后举行的一个服务器产品体验会上,DELL专门面向评测媒体介绍了DELL的最新一代服务器,戴尔中国服务器高级产品经理赵永琳向我们介绍了戴尔的新产品,“第11代PowerEdge服务器堪称戴尔历史上性能最强大的产品线,也是最安静和最漂亮的服务器。”其特点主要表现在:内嵌Hypervisor,方便用户部署虚拟化软件,同时通过更大的内存和更多的I/O来提高虚拟化的性能和效率,用户通过虚拟化可以减少物理机数量,同时简化管理;通过采用高转换效率的电源、基于策略的电源散热控制,可以实现最高的每瓦特性能;集成内置管理模块,简化系统部署和安装时间,让用户把精力放到业务创新中去;外观上也是最漂亮的一代产品,获得了德国iF产品设计大奖,同时采用了低转速、大流量的风扇,使其成为戴尔历史上最安静的服务器。因此,这此服务器可以通过进一步简化数据中心的操作、提高性能和能效并降低总体拥有成本,从而帮助企业用最低的成本获得最大的收益。”
DELL也很快在五月初向我们提供了第十一代PowerEdge服务器的样品:R610,从前面可知,这是一款1U机架式服务器产品。由于在测试过程中由于发生了一些问题,因此本文出现有些拖延。出了什么问题呢?请看后面分解。
作为最新一代的服务器,代数变迁的原因之一在于架构上的大变动。以目前推出的Intel架构型号为例(第十一代PowerEdge会有AMD架构的型号):它和上一代的明显差异就在于新一代PowerEdge采用了Nehalem架构,基于Nehalem-EP处理器和Tylersburg-EP芯片组。Nehalem-EP处理器就是我们熟知的5500系列至强处理器,总结起来,新的平台架构比起上一代的主要优势有三点:
直联架构带来了IMC(集成内存控制器)和QPI(快速通道互联总线)
IMC(集成内存控制器):CISC的x86架构对缓存/内存带宽极度渴求,集成内存控制器让处理器避开了访问内存需要通过FSB总线的限制,并将带宽提升到三通道DDR3 1333(8核心Nehalem-EX支持四通道DDR3)每处理器,极大提升了Nehalem处理器的内存带宽,对服务器应用提升巨大。
QPI(快速通道互联总线):新的点对点总线带宽更高,并且让处理器之间可以直接连接,避免了共享的FSB总线在处理器核心过多时的效率急剧下降,更适合扩展到大规模并行系统。同样处理器数量下,快速通道互联技术点对点形成的ccNUMA拓扑比共享FSB的星型总线具有更高的效率。
虽然SMT有不少处理器采用,不过,在x86处理器上只有Intel具有 |
HTT(超线程技术):超线程技术在打游戏的时候或许看不出有作用,不过在企业级别应用上效果明显。在主要竞争对手也有集成内存控制器和类似快速通道互联技术的情况下,超线程技术就成为了Nehalem的特别武器。这项据说耗资十亿开发费用的技术终于从Nehalem开始大放光芒。
除了这几点明显的进步之外,Nehalem-EP架构还具有很多改进,具体可见:
超线程技术的较详细的说明:
关于R610的外观很值得一提:R610和R710获得了2009年德国iF产品设计大奖。内在先不说,外观设计上确实让人耳目一新。
DELL PowerEdge R610:新的前面板罩式这样子的,很有艺术感
标签底下一连串标志,最重要的是:上面有一个80 Plus Gold标志——80 Plus金牌标志,它代表着电源的转换效率接近了90%;这个电源的功率是502W,DELL还提供了750W的模块,一些低配置的情况下没有必要使用这么高的功率——用户可以根据功耗配置来选择两种电源,这也是一个体贴的设计
DELL PowerEdge R610服务器:散热主要由前端的多个散热风扇完成
Nehalem集成了内存控制器——Xeon E5520支持三通道DDR3-1066内存,而R610主板上则实现了每处理器6个DIMM,每通道2DIMMs,然而我们收到的配置只有4条内存,也就是每处理器4 DIMM,只实现了满配置的双通道
没有实现三通道——这也是标题为“近乎完美”而不是“完美”的原因之一,双通道配置显然会比三通道要慢,并且让人无法得知机器的性能到底怎么样;在联系厂商之后,我们重新以三通道内存配置完成了测试,用的内存是这个:
容量为4GB单条,规格为DDR3-1333,共使用了6条,合两个处理器六个内存通道。当然,在R610上由于处理器的缘故,跑的频率是DDR3-1066
DELL PowerEdge R610特别的地方在于,它提供了四个千兆网口,这通过采用两个Broadcom BCM5709C双千兆网卡芯片来实现,现代的服务器处理器和内存的速度不断提升,而与外部环境的接口却总是两个1Gbps的网络接口,明显限制了服务器的应用。也就是说,I/O是一个瓶颈。在Nehalem-EP架构上,去掉了内存控制器的北桥芯片叫做IOH,目的就是为了提升新平台的IO能力:Tylersburg-36D总共可以提供36 Lanes的PCI Express Gen2界面,比起以往大有提升。当然,这两个双千兆网卡是直接与Tylersburg-36D IOH芯片连接的,它支持RDMA、iSCSI,硬件处理TCP/IO和L5协议,以及RDMA帧,这也是它和一般网卡的不同之处。
或许你会以为这是一个FWH(Firmware Hub)芯片——它不是,它是Winbond在08年Q2推出的Server BMC w/ 2-D Graphics芯片,也就是说它是一个2D显卡,同时也是一个远程管理芯片。
如大家熟知的那样,DELL服务器具有自成系列的磁盘阵列卡:著名的PERC系列,DELL PowerEdge R610上用的仍然是PERC 6/I阵列卡。
PERC 6/I阵列卡基于LSI SAS 1078 RoC(RAID on Chip)芯片,自带500MHz的PowerPC处理器,支持8个SAS 3Gbps接口,支持硬件RAID 0/1/3/5/6阵列,具备完善的阵列备份/恢复/迁移功能,PERC 6/I缓存容量一般为256MB。PERC 6/i使用PCI Express x8 Gen1接口,单向带宽为2GB/s。
Seagate OEM的Savvio 10K.3,转速10000RPM的2.5"硬盘,容量146GB,缓存16MB,接口为独特的SAS 6Gbps(SAS 2.0规范),更小的外形是为了提供更好的IO性能;和阵列卡一样,DELL的硬盘通常具有定制的Firmware,因此性能表现和原型会有些不同,如DELL某一工作站上的很特别的一个硬盘:
关于Seagate Savvio 10K.3硬盘:
SAS 6Gbps 希捷Savvio 10K.3硬盘首测
在2005年度服务器横评之后,我们认为当时的网络实验室无法满足今后继续发展的服务器测试的需要。所以,2006年我们IT168评测中心又斥资几十万对于IT168网络实验室的服务器测试平台进行了大幅度的升级,为思科Catalyst4500千兆交换机(WS-X4013+ Supervisor Engine II-Plus和WS-X4548-GB-RJ45)增加了一个思科全千兆24口模块WS-X4424-GB-RJ45,可同时连接72个千兆铜缆设备和2个光缆设备。另外,我们还购置了29台Dell PowerEdge SC430塔式服务器和原来的32台主流配置PC一起为服务器测试平台的提供负载。2007年,我们又采购性能更强的部分客户端,来确保为新一代的服务器提供足够的测试负载。2009年初,我们又对所有客户端的内存子系统进行了全面的升级。
Catalyst4500千兆交换机
部分Dell PowerEdge SC430服务器
在新的测试环境下,我们进一步完善了服务器性能测试方案:
-
SPEC CPU 2006 v1.0.1
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。
SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了当前最新版本的Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler这两款SPEC CPU 2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(假如只支持SSE3,则使用QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64bit Windows Server 2008 Enterprise下完成,对于每个运算核心,最低配置1.5GB内存。
-
Iometer 2006.7.27
Iometer是一款功能非常强大的IO测试软件,它除了可以在本机运行测试本机的IO(磁盘)性能之外,还提供了模拟网络应用的能力。在这次的测试中,我们仅仅让它在本机运行测试服务器的磁盘性能。为了全面测试被测服务器的IO性能,我们分别选择了不同的测试脚本。
-
Max_throughput(read):文件尺寸为64KB,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取吞吐量
-
Max_IO(read):文件尺寸为512B,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取操作IO处理能力
-
Max_throughput(write):文件尺寸为64KB,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入吞吐量
-
Max_IO(write):文件尺寸为512B,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入操作IO处理能力
-
SiSoftware Sandra v2009
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。
-
NetBench v7.03
NetBench是针对文件服务器的性能测试软件,影响NetBench性能的主要是服务器的磁盘子系统,服务器磁盘控制器、条带大小、读写缓存、硬盘类型、组建磁盘阵列模式、内存容量、网络拓朴结构等都会对测试结果有明显的影响。我们在被测服务器上设立了文件服务器,NetBench通过网络实验室中60个客户端来模拟网络中的PC向文件服务器所发出的文件传输请求,文件服务器则将存储在磁盘上的文件数据发送给相应的客户端。在测试过程中,客户端会以每四台一组的步进依次增加并且向服务器发送文件传输请求,测试结束后控制台收集数据并绘制出服务器的数据传输变化曲线。
-
Benchmark Factory 4.6
大部分的服务器应用都同数据库有着密切的联系,因此我们今年开始着手在在服务器测试中加入对于数据库性能的测试。我们选择了Benchmark Factory 4.6软件和Microsoft SQL2005 SP3来测试不同的硬件平台在数据库应用中的表现。
我们选择了Benchmark Factory内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。
-
系统功耗监测
我们使用UNI-T UT71E智能数字万用表对于被测服务器系统的整体功耗进行了监测,利用随机附带的接口程序,我们可以记录被测服务器任意时间段内的功率变化。
-
CineBench R10
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,在服务器测试平台中显示子系统不重要,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
-
ScienceMark 2.0
ScienceMark 2.0可以用来评估测试对象在执行科学计算时的运算效能,这部分效能主要和处理器子系统和内存子系统相关。我们主要用来评估测试对象的内存子系统的性能。
测试对比平台的详细参数如下:
测试平台、测试环境 | |||||
测试分组 | |||||
类别 | DELL PE R610服务器 双路Intel Gainestown Xeon E5520 | 双路Xeon E5430基准平台 DELL PE 2900 III服务器 | |||
处理器子系统 | |||||
处理器 | 双路Intel Xeon E5520 | 双路Intel Xeon E5430 | |||
处理器架构 | Intel 45nm Nehalem | Intel 45nm Penryn | |||
处理器代号 | Gainestown | Harpertown | |||
处理器封装 | Socket 1366 LGA | Socke 771 LGA | |||
处理器规格 | 四核 | 四核 | |||
处理器指令集 | MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,SSE4.2,EM64T,VT | MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,EM64T,VT | |||
主频 | 2.26GHz | 2.66GHz | |||
处理器外部总线 | 2x QPI 2933MHz 5.86GT/s 单向11.73GB/s(每QPI) 双向23.46GB/s(每QPI) | FSB 333MHz 1333MT/s 10.6GB/s | |||
L1 D-Cache | 4x 32KB 8路集合关联 | 4x 32KB 8路集合关联 | |||
L1 I-Cache | 4x 32KB 4路集合关联 | 4x 32KB 8路集合关联 | |||
L2 Cache | 4x 256KB 8路集合关联 | 2x 6144KB 16路集合关联 | |||
L3 Cache | 8MB @ 2128MHz 16路集合关联 | ||||
主板 | |||||
主板型号 | DELL PE R610 | DELL PE 2900 III | |||
芯片组 | Intel Tylersburg-EP IOH:Intel 5520(Tylersburg-36D) ICH:Intel 82801JR(ICH10R) | MCH:Intel 5000X ICH:Intel ESB6321 | |||
芯片特性 | 2x QPI VT-d Gen 2 | 2x FSB1333 12MB Snoop Filter VT-d Gen 1 | |||
内存控制器 | 每CPU集成三通道R-ECC DDR3 1066 | 北桥集成四通道FBD DDR2 667 | |||
内存 | 4GB R-ECC DDR3 1333 SDRAM x6 @ DDR3-1066 | 2GB FBD DDR2 667 SDRAM x4 | |||
系统磁盘子系统 | |||||
磁盘控制器 | DELL PERC 6/I SAS RAID Controller | DELL Perc 5/i RAID Controller | |||
磁盘控制器规格 | LSI 1078 RoC 500MHz PowerPC 256MB RAM 8x SAS 3Gbps RAID 0/1/3/5/6 | LSI 1068 SAS Intel IOP333 500MHz ARM 256MB RAM 8x SAS 3Gbps RAID 0/1/3/5 | |||
磁盘控制器设置 | RAID 5 | RAID 5 | |||
磁盘控制器驱动 | DELL PERC 6/I SAS RAID Driver 3.9.0.64 | LSI SAS 3.8.0.64 | |||
磁盘 | Seagate Savvio 10K.3 ST9146803 x2 | Seagate Cheetah 15K.5 ST314655SS x3 | |||
磁盘规格 | 10000RPM 146GB SAS 6Gbps 16MB Cache | 15000RPM 146GB SAS 3Gbps 16MB Cache | |||
磁盘设置 | SAS 3Gbps 50GB系统分区 | SAS 3Gbps 20GB系统分区 | |||
网络子系统 | |||||
网卡 | Broadcom BCM5709C Dual Port Gigabit Network Controller x2 | Broadcom BCM5708C PCI-E千兆网卡 x2 | |||
网卡设置 | PCI Express x1 @ IOH Broadcom NIC Teaming Load Balancing | PCI Express x1 @ ESB6321 Broadcom NIC Teaming Load Balancing | |||
网卡驱动 | Broadcom NetXtreme 2 | Broadcom NetXtreme 2 11.04.01 | |||
软件环境 | |||||
操作系统 | Microsoft Windows Server 2008 Enterprise Edition SP1 x64 | Microsoft Windows Server 2008 Enterprise Edition SP1 x64 |
为了完全体现新架构的实力,我们使用了Windows Server 2008 Enterprise Edition SP1 x64操作系统,可以更好地支持Nehalem-EP的ccNUMA架构。
在正常的IDLE情况下,2.26GHz的Xeon E5520运行在1.6GHz的频率
需要再次声明:16GB内存是测试样机的原始配置,为了充分表现出R610的性能特点,我们使用了(每CPU)三通道共24GB的内存进行了测试
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。
有一点需要说明的是,Sandra的处理器架构性能测试是根据处理器所能支持的所有指令集中选择进行的,不同的处理器支持的指令集不同,测试使用到的指令集也就不同。例如,Nehalem在这个测试当中就可以使用SSE4.2,而Penryn就只能使用SSE4.1,而用Opteron可能就只能到SSE3了。一般而言,由于可以使用SSE4,Intel的处理器理论性能会比较好。
SiSoftware Sandra Pro Business 2009 | ||
---|---|---|
测试对象 | DELL PE R610 双路Intel Gainestown Xeon E5520 2.26GHz | DELL PE 2900 III 双路Intel Harptown Xeon E5430 2.66GHz |
Processor Arithmetic Benchmark 处理器架构测试 | ||
Dhrystone ALU | 116444MIPS | 91006MIPS |
Dhrystone ALU vs SPEED | 51.50MIPS/MHz | 34.21MIPS/MHz |
Whetstone iSSE3 | 99838MFLOPS | 78385MFLOPS |
Dhrystone iSSE3 vs SPEED | 44.16MFLOPS/MHz | 29.47MFLOPS/MHz |
Processor Multi-Media Benchmark 处理器多媒体测试 | ||
Multi-Media Int x16 iSSE4.1 | 242.20MPixel/s | |
Multi-Media Int x8 iSSE4.1 | 199.33MPixel/s | |
Multi-Media Int x16 iSSE4.1 vs SPEED | 107.12kPixel/s/MHz | |
Multi-Media Int x8 iSSE4.1 vs SPEED | 74.94kPixel/s/MHz | |
Multi-Media Float x8 iSSE2 | 185.59MPixel/s | |
Multi-Media Float x4 iSSE2 | 108.69MPixel/s | |
Multi-Media Float x8 iSSE2 vs SPEED | 82.08kPixels/s/MHz | |
Multi-Media Float x4 iSSE2 vs SPEED | 40.86kPixels/s/MHz | |
Multi-Media Double x4 iSSE2 | 102.67MPixel/s | |
Multi-Media Double x2 iSSE2 | 55.75MPixel/s | |
Multi-Media Double x4 iSSE2 vs SPEED | 45.41kPixels/s/MHz | |
Multi-Media Double x2 iSSE2 vs SPEED | 20.96kPixels/s/MHz | |
Multi-Core Efficiency Benchmark 多核心效率测试 | ||
Inter-Core Bandwidth | 62.53GB/s | 20.54GB/s |
Inter-Core Bandwidth vs SPEED | 28.32MB/s/MHz | 7.91MB/s/MHz |
Inter-Core Latency (越小越好) | 19ns | 90ns |
Inter-Core Latency vs SPEED (越小越好) | 0.01ns/MHz | 0.03ns/MHz |
.NET Arithmetic Benchmark .NET架构测试 | ||
Dhrystone .NET | 26214MIPS | 10562MIPS |
Dhrystone .NET vs SPEED | 11.59MIPS/MHz | 3.97MIPS/MHz |
Whetstone .NET | 61993MFLOPS | 45399MFLOPS |
Whetstone .NET vs SPEED | 27.42MFLOPS/MHz | 17.07MFLOPS/MHz |
.NET Multi-Media Benchmark .NET多媒体测试 | ||
Multi-Media Int x1 .NET | 47.35MPixel/s | 31.28MPixel/s |
Multi-Media Int x1 .NET vs SPEED | 20.94kPixels/s/MHz | 11.76kPixels/s/MHz |
Multi-Media Float x1 .NET | 20.41MPixel/s | 8.68MPixel/s |
Multi-Media Float x1 .NET vs SPEED | 9.03kPixels/s/MHz | 3.26kPixels/s/MHz |
Multi-Media Double x1 .NET | 39.61MPixel/s | 24.75MPixel/s |
Multi-Media Double x1 .NET vs SPEED | 17.52kPixels/s/MHz | 9.30kPixels/s/MHz |
SiSoftware Sandra对比
处理器架构性能测试分为整数和浮点两个部分,DELL PE R610是双路四核带超线程,8个物理内核,16个虚拟处理器,虽然主频要低一些,然而得分仍明显地超出基准服务器。
SiSoftware Sandra缓存内存测试主要包括内存带宽、内存延迟等性能的测试。
SiSoftware Sandra Pro Business 2009 | ||
---|---|---|
测试对象 | DELL PE R610 双路Intel Gainestown Xeon E5520 2.26GHz | DELL PE2900 III 双路Intel Harptown Xeon E5430 2.66GHz |
Memory Bandwidth Benchmark 内存带宽测试 | ||
Int Buff'd iSSE2 Memory Bandwidth | 13.40GB/s | 6.13GB/s |
Int Buff'd iSSE2 Memory Bandwidth vs SPEED | 9.43MB/s/MHz | |
Float Buff'd iSSE2 Memory Bandwidth | 13.38GB/s | 6.13GB/s |
Float Buff'd iSSE2 Memory Bandwidth vs SPEED | 9.43MB/s/MHz | |
Memory Latency Benchmark 内存延迟测试 | ||
Memory(Random Access) Latency (越小越好) | 125ns | 108ns |
Memory(Random Access) Latency vs SPEED (越小越好) | 0.16ns/MHz | |
Speed Factor (越小越好) | 71.20 | 95.20 |
Internal Data Cache | 4clocks | 3clocks |
L2 On-board Cache | 10clocks | 18clocks |
L3 On-board Cache | 48clocks | |
Memory Latency Benchmark 内存延迟测试 | ||
Memory(Linear Access) Latency (越小越好) | 16ns | |
Memory(Linear Access) Latency vs SPEED (越小越好) | ||
Speed Factor (越小越好) | 8.90 | |
Internal Data Cache | 4clocks | |
L2 On-board Cache | 10clocks | |
L3 On-board Cache | 12clocks | |
Cache and Memory Benchmark 缓存及内存测试 | ||
Cache/Memory Bandwidth | 112.36GB/s | 68.88GB/s |
Cache/Memory Bandwidth vs SPEED | 50.89MB/s/MHz | 26.52MB/s/MHz |
Speed Factor (越小越好) | 22.70 | 111.90 |
Internal Data Cache | 361.18GB/s | 421.23GB/s |
L2 On-board Cache | 334.05GB/s | 122.68GB/s |
SiSoftware Sandra对比
从Sandra测试来看,DELL PE R610的双三通道DDR3-1066的带宽约是四通道DDR2-667的两倍左右。
SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。
SPEC CPU 2006整数运算性能
在主频略低的情况下(2.26GHz vs 2.66GHz),R610整数性能提升了90%。
SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。
SPEC CPU 2006浮点运算性能
相比于整数运算,浮点运算上R610的提升更大一些,达到了130%,明显地超过2900 III。
ScienceMark v2.0 Membench
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
首先我们进行的是ScienceMark的测试,主要考察系统的缓存和内存子系统情况。L1/L2 Cache的成绩主要是跟处理器频率相关,因为目前的处理器当中L1 Cache都是和处理器核心同频率的,而L2 Cache基本上也是——当前的处理器L2都是全速的(放置在处理器内但不在同一个芯片上的Pentium II为半速L2,而Pentium之前的处理器L2则和处理器分离,速度更低)。越快的频率,L1/L2性能就越好。而内存带宽主要由两部分相关:比较大的部分是内存架构,小部分是内存操作指令(集),例如使用最新的SSE指令集比通常的ALU指令集会得到更大的吞吐量,而不同的SSE版本性能也有不同。
ScienceMark Membench | ||
---|---|---|
厂商 | DELL | DELL |
产品型号 | PowerEdge R610 Intel Gainestown Xeon E5520 2.26GHz | PowerEdge 2900 III Intel Harpertown Xeon E5430 2.66GHz |
内存技术参数 | 4GB R-ECC DDR3-1333 SDRAM x6 @ DDR3-1066 | 2GB FBD-DDR2 667 SDRAM x8 |
L1带宽(MB/s) | 47758.85 | 55376.16 |
L2带宽(MB/s) | 19541.85 | 16757.55 |
内存带宽(MB/s) | 6959.60 | 4485.09 |
L1 Cache Latency(ns) | ||
32 Bytes Stride | 2 cycles 0.88 ns | 1.13 ns |
L1 Algorithm Bandwidth(MB/s) | ||
Compiler | 42521.30 | 25201.96 |
REP MOVSD | 43383.80 | 25467.15 |
ALU Reg Copy | 12029.66 | 13093.65 |
MMX Reg Copy | 24112.87 | 25242.19 |
SSE PAlign | 46354.67 | 52826.21 |
SSE2 PAlign | 47758.85 | 55376.16 |
L2 Cache Latency(ns) | ||
4 Bytes Stride | 3 cycles 1.33 ns | 1.13 ns |
16 Bytes Stride | 3 cycles 1.33 ns | 1.50 ns |
64 Bytes Stride | 9 cycles 3.98 ns | 4.51 ns |
256 Bytes Stride | 8 cycles 3.54 ns | 4.51 ns |
512 Bytes Stride | 8 cycles 3.54 ns | 4.89 ns |
L2 Algorithm Bandwidth(MB/s) | ||
Compiler | 17883.42 | 11880.48 |
REP MOVSD | 19541.85 | 12536.88 |
ALU Reg Copy | 8764.80 | 8577.86 |
MMX Reg Copy | 14103.06 | 13408.31 |
SSE PAlign | 18620.19 | 16719.97 |
SSE2 PAlign | 18630.53 | 16757.55 |
Memory Latency(ns) | ||
4 Bytes Stride | 3 cycles 1.33 ns | 1.13 ns |
16 Bytes Stride | 8 cycles 3.54 ns | 4.89 ns |
64 Bytes Stride | 32 cycles 14.15 ns | 19.17 ns |
256 Bytes Stride | 174 cycles 76.96 ns | 59.77 ns |
512 Bytes Stride | 191 cycles 84.48 ns | 68.04 ns |
Memory Algorithm Bandwidth(MB/s) | ||
Compiler | 6900.37 | 3178.45 |
REP MOVSD | 6959.60 | 3220.23 |
ALU Reg Copy | 5189.15 | 2789.34 |
MMX Reg Copy | 5997.48 | 2972.91 |
MMX Reg 3dNow | - | - |
MMX Reg SSE | 5709.78 | 3978.53 |
SSE PAlign | 5568.93 | 4128.59 |
SSE PAlign SSE | 6350.83 | 4390.48 |
SSE2 PAlign | 5546.16 | 4326.42 |
SSE2 PAlign SSE | 6364.57 | 4441.71 |
MMX Block 4kb | 4893.72 | 4063.30 |
MMX Block 16kb | 5120.23 | 4479.88 |
SSE Block 4kb | 4866.76 | 4074.79 |
SSE Block 16kb | 5138.86 | 4485.09 |
除了和主频紧密相关的L1性能之外,Nehalem-EP的表现远比Harpertown好,这主要是IMC的功劳。
CineBench R10
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
CineBench R10 | ||
处理器 | 双路Intel Gainestown Xeon E5520 | 双路Intel Harpertown Xeon E5430 |
显卡 | - | - |
CPU Benchmark | ||
Rendering (1 CPU) | 3288 CB-CPU | 2931 CB-CPU |
Rendering (x CPU) | 21832 CB-CPU | 16806 CB-CPU |
Multiprocessor Speedup | 6.64x | 5.73x |
OpenGL Benchmark | ||
OpenGL Standard | 174 CB-GFX | 176 CB-GFX |
服务器测试成绩
单处理器的渲染性能比基准平台高12%,多处理器的渲染测试提升30%,这表示超线程在里面起了作用——CineBench这种应用会比较好地发挥超线程的能力。
Iometer 2006.07.27
我们的基准服务器采用了三块15000RPM的Seagate Cheetah 15K.5硬盘。DELL PE R610则是用三块10000RPM的Savvio 10K.3(2.5英寸外形因子)。基准平台使用了LSI MegaRAID SAS 8408E硬件阵列卡组建了RAID 5阵列,而DELL PE R610则使用了DELL PERC 6/I阵列卡,阵列卡对比上,PERC 6/I要比8408E强。
IO读
IO写
读吞吐量
写吞吐量
显然,PERC 6/I加上三个Savvio 10K.3性能要比PERC 5/I加上三个Cheetah 15K.5更好在连续,虽然Cheetah转速更高,然而Savvio较小的盘片获得了更好的寻道性能,并且PERC 6/I性能上有优势。
NetBench v7.03
NetBench 7.03 Ent_dm.tst测试脚本模拟的是企业级文件服务器应用,它不但要求被测服务器的磁盘子系统可以提供足够的吞吐量,还需要其具有较高的IO处理能力,并且需要较为平衡的读取能力和写入能力。
不知为何,Iometer表现较好的Nehalem-EP平台成绩反而低不少,多次测试结果仍然表现如此,有可能是和网卡驱动有关。关于NetBench性能与处理器、内存、磁盘的关系可以看这里《评测机密:文件服务器性能提升N大要义》。
Benchmark Factory 4.6
我们在被测服务器上安装了Microsoft SQL 2005 SP1,按照测试要求建立了数据库。BF在测试之前会在数据库中生成9个表,其中包括4个500万行的表格,每行包括100字节的数据,因此每个表格容量大约是476MB,整个数据库容量为1.86GB。我们用60个客户端模拟1000个用户,在这个数据库中进行查询、添加、删除、修改等操作。
SQL2005数据库性能测试
数据库测试是一个综合性的测试,尽管频率更低,然而凭借着新的架构:IMC、QPI和HTT,R610表现非凡,是基准平台的一倍以上——这个提升比以往基于Nehalem-EP的平台的提升要高一些,4个千兆网络端口有利于提升如数据库这样的吞吐量计算的表现。
我们利用UNI-T UT71E智能数字万用表和相配套的软件对于对于被测服务器在几种不同的状态下的功耗进行了监测,主要包括如下项目:
P1:连接电源但不开机状态
P2:系统启动完毕,5分钟内无动作,但不休眠
P3:系统启动完毕,处理器满载、磁盘以最大吞吐量工作
功耗
在各个部件上,DELL PE R610都比基准服务器要省电,除了电源之外,而且这个差异是由于R610采用冗余电源引起的。采用两个冗余电源单元的情况下,不管你愿不愿意,消耗的能源总是比单个冗余单元要高。假如都是用一个单元的话,R610的80Plus金牌电源具有非常好的90%转换效率,远胜一般电源。总体来说,R610的功耗非常低。
【IT168评测中心】DELL PowerEdge R610是戴尔推出的基于全新英特尔至强5500系列处理器的第11代PowerEdge服务器中的主力机架式产品之一,另外一款主力型号是R710。
硬件配置上,PowerEdge R610在1U的机架内提供了双路Xeon 5500处理器(测试样机配置的是E5520)和12 DIMMs(最大96GB内存容量)和6个2.5"热插拔SAS硬盘槽,并且配置了通过了80 Plus金牌认证的冗余电源。在测试中,凭借着Nehalem平台崭新的直联架构——集成内存控制器和双QPI总线,再配合超线程技术,PowerEdge R610的性能比起其上一代有了一个大的飞跃,在主频较低的情况下仍然表现良好,SPEC CPU 2006的提升达到了90%/130%(整数/浮点,相对于2.66GHz Xeon E5430),而吞吐量应用(如数据库)则提升更大:几乎达到了两倍的提高。此外,R610的功耗表现也非常良好,空载功率比2900 III基准平台低了整整100W。DELL PowerEdge R610的性能和功耗表现都比我们接触过的Nehalem-EP平台要好一些 。
DELL PowerEdge R610服务器:重新设计的前面板
此外,R610的提升并不仅仅是性能,在外观设计、使用上,R610都非常人性化,新一代服务器在机箱、轨道、线缆管理支架、硬盘托架和闩锁装置等方面都进行了重新设计,如:纯金属的硬盘托架,更易于操作的轨道装置等,此外,多层LCD和KVM辅助管理也很有用,DELL宣称:“我们通过对全球客户的调查,在包括导轨、内存、降噪、外观、内存数量等15个用户最关注的地方进行了创新设计,其中13项明显击败对手。这些来自客户反馈意见的设计使得R610和R710获得了2009年德国iF产品设计大奖。”——经过一段时间的测试,R610在使用上确实令人感到很舒服。按照DELL的介绍,第十一代DELL PowerEdge服务器还具有很多特点:如内嵌Hypervisor等,由于时间关系,关于这些部分的测试会留到后续文章来完成。
DELL宣称的:“第11代PowerEdge服务器堪称戴尔历史上性能最强大的产品线,也是最安静和最漂亮的服务器。”并非夸大其词,对于比较挑剔的我们,DELL PowerEdge R610是少数能令我们感到“满足”的作品。