【IT168评测中心】根据来自IDC的调查报告,2008年中国X86服务器市场总体出货量达到712618台,同比增长了11.3%。在这个市场中,惠普、戴尔、IBM占据了国内市场出货量的前三名。而从服务器型号来说,双路服务器依然是当前企业消费的热门产品,由于金融危机的影响,中小企业更注重性价比的选择。今天,我们就介绍一款侧重于节点应用的服务器,它来自惠普,型号为ProLiant DL4x170h G6。
和我们之前测试过的诸多服务器有所不同,惠普ProLiant DL4x170h G6节点服务器是一台比较特殊的产品。相比我们常见的机架式服务器来说,ProLiant DL4x170h G6的构造更像是一台机架式的刀片机柜。
从正面看来,DL4x170h G6并没有什么特殊的地方,它依然是延续了DL系列的庄重造型,只是机身提供了16个2.5英寸硬盘插槽,看起来更像是一台存储服务器。
DL4x170h G6的背面显得与众不同,仔细观察就会发现它除了使用两个电源供电(其中一个为冗余)之外,还有4个类似服务器的模块。在惠普的定义中,DL4x170h G6中的4x代表它提供了四个节点,我们看到的就是这四个节点的接口部分。
这个角度看起来更清楚,有点像我们之前测试过的“双子星”一类的产品。不同的是,DL4x170h G6电源两侧整合的都是双路主板,也就是说在我们看到的这个平面上,可以提供4个处理器插槽。
从这个角度来看,DL4x170h G6内部一共提供了4个散热风扇,还是用了两个半长的导风罩,主要保障处理器和内存部位的散热。
DL4x170h G6作为一台4节点服务器,内部整合了4台独立服务器,分为上下两层。轻轻滑动扣具,我们可以拆下其中一台服务器看看下面的结构。
越看越像刀片了——DL4x170h G6内部的节点使用的是双路Nehalem主板,提供了2个处理器插槽和16条内存插槽。 这款主板基于Intel 5520芯片组+ICH10R南桥,包括了显示芯片、千兆网络芯片,同时还支持独立的阵列卡,其本质就是一台体积较小的双路服务器。
DL4x170h G6服务器的每个节点使用了一颗至强E5504处理器(可扩展为两颗)。这款处理器是至强5500家族中的低端产品,定位在中小企业应用领域。至强E5504处理器主频为2GHz,QPI为4.8GT/s,不支持Turbo Boost Technology,不支持Hyper-Threading Technology 。
除了处理器之外,内存容量对于服务器的性能也产生重大的影响。DL4x170h G6单节点提供了8条三星4GB DDR3-1333 R-ECC内存,单节点容量达到了32GB。
DL4x170h G6服务器为单个节点配备了型号为P212/256MB的阵列卡。对于服务器来说,阵列卡的性能直接影响到服务器的磁盘性能和相应的存储能力。P212作为惠普的新产品,配备了256MB内存(可更换,最大支持512MB),存储性能更为强大。之前,我们测试过惠普DL385 G5服务器,其中的阵列卡电池给我们留下的深刻的印象(有无电池对于性能影响巨大)。本次,惠普特别提供了阵列卡电池,提供了更好的性能保障。
本次我们测试的DL4x170h G6服务器提供了2.5英寸SAS硬盘位,每个节点4个(这款服务器也可以支持3.5英寸SAS硬盘,最多8个),自带希捷ST9146803SS硬盘。ST9146803SS属于希捷的Savvio 10K.3系列,支持最新的SAS 6.0Gbps传输速度,容量为146GB,转速为10000rpm,缓存为16MB。
对于4节点服务器来说,此电源也是至关重要的部分。这里,DL4x170h G6使用的是惠普HSTNS-PL18电源,提供了一个冗余(多节点服务器配备冗余电源很重要),总功率为1500W。虽然这款电源没有80Plus标识,但是从测试中的功率因数来看完全达到了认证标准(数值在0.9以上)。
总体看来,惠普ProLiant DL4x170h G6是惠普ProLiant DL1000系列服务器中的新产品,定位为节点服务器,主要针对中型和大型机房应用。它的内部整合了4个半宽节点,这些节点基于Nehalem-EP处理器,应用Intel 5520平台,提供给用户尽可能快速的运算能力。
在2005年度服务器横评之后,我们认为当时的网络实验室无法满足今后继续发展的服务器测试的需要。所以,2006年我们IT168评测中心又斥资几十万对于IT168网络实验室的服务器测试平台进行了大幅度的升级,为思科Catalyst4500千兆交换机(WS-X4013+ Supervisor Engine II-Plus和WS-X4548-GB-RJ45)增加了一个思科全千兆24口模块WS-X4424-GB-RJ45,可同时连接72个千兆铜缆设备和2个光缆设备。另外,我们还购置了29PowerEdge SC430塔式服务器和原来的32台主流配置PC一起为服务器测试平台的提供负载。2007年,我们又采购性能更强的部分客户端,来确保为新一代的服务器提供足够的测试负载。
2009年,我们又对所有客户端的内存子系统进行了全面的升级,还购买了一台思科全千兆24口模块,扩大了整个网络实验室,调整了测试客户端的操作系统及软件配置。
宽敞明亮的网络实验室机房
Catalyst4500千兆交换机
部分Dell PowerEdge SC430服务器
在新的测试环境下,我们进一步完善了服务器性能测试方案:
SPEC CPU 2006 v1.0.1
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。
SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了当前最新版本的Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler这两款SPEC CPU 2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(假如只支持SSE3,则使用QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64bit Windows Server 2008 Enterprise下完成,对于每个运算核心,最低配置1.5GB内存。
SiSoftware Sandra v2009
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。
CineBench R10
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,在服务器测试平台中显示子系统不重要,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
ScienceMark 2.0
ScienceMark 2.0可以用来评估测试对象在执行科学计算时的运算效能,这部分效能主要和处理器子系统和内存子系统相关。我们主要用来评估测试对象的内存子系统的性能。
Iometer 2006.7.27
Iometer是一款功能非常强大的IO测试软件,它除了可以在本机运行测试本机的IO(磁盘)性能之外,还提供了模拟网络应用的能力。在这次的测试中,我们仅仅让它在本机运行测试服务器的磁盘性能。为了全面测试被测服务器的IO性能,我们分别选择了不同的测试脚本。
Max_throughput(read):文件尺寸为64KB,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取吞吐量
Max_IO(read):文件尺寸为512B,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取操作IO处理能力
Max_throughput(write):文件尺寸为64KB,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入吞吐量
Max_IO(write):文件尺寸为512B,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入操作IO处理能力
系统功耗监测
我们使用UNI-T UT71E智能数字万用表对于被测服务器系统的整体功耗进行了监测,利用随机附带的接口程序,我们可以记录被测服务器任意时间段内的功率变化。
测试平台、测试环境 | |||||
测试分组 | |||||
类别 | 惠普ProLiant DL4x170h G6 单路Intel Gainestown Xeon E5504 | Lenovo T260 G2 单路Intel Gainestown Xeon E5504 | |||
处理器子系统 | |||||
处理器 | 单路Intel Xeon E5504 | 单路Intel Xeon E5504 | |||
处理器架构 | Intel 45nm Nehalem | Intel 45nm Nehalem | |||
处理器代号 | Gainestown | Gainestown | |||
处理器封装 | Socket 1366 LGA | Socket 1366 LGA | |||
处理器规格 | 四核 | 四核 | |||
处理器指令集 | MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,SSE4.2,EM64T,VT | MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,SSE4.2,EM64T,VT | |||
主频 | 2.00GHz | 2.00GHz | |||
处理器外部总线 | 2x QPI 2400MHz 4.8GT/s 单向9.6GB/s(每QPI) 双向19.2GB/s(每QPI) | 2x QPI 2400MHz 4.8GT/s 单向9.6GB/s(每QPI) 双向19.2GB/s(每QPI) | |||
L1 D-Cache | 4x 32KB 8路集合关联 | 4x 32KB 8路集合关联 | |||
L1 I-Cache | 4x 32KB 4路集合关联 | 4x 32KB 4路集合关联 | |||
L2 Cache | 4x 256KB 8路集合关联 | 4x 256KB 8路集合关联 | |||
L3 Cache | 4MB @ 1600MHz 16路集合关联 | 4MB @ 1600MHz 16路集合关联 | |||
主板 | |||||
主板型号 | Intel Tylersburg 5520 | Intel S5500BC | |||
芯片组 | Intel Tylersburg-EP IOH:Intel 5520(Tylersburg-36D) ICH:Intel 82801JR(ICH10R) | Intel Tylersburg-EP IOH:Intel 5500(Tylersburg-24D) ICH:Intel 82801JR(ICH10R) | |||
芯片特性 | 2x QPI 24 PCI Express Gen2 Lanes VT-d Gen 2 | 2x QPI 24 PCI Express Gen2 Lanes VT-d Gen 2 | |||
内存控制器 | 每CPU集成三通道R-ECC DDR3 800 主板实现三通道 | 每CPU集成三通道R-ECC DDR3 800 主板实现双通道 | |||
内存 | 2GB ECC DDR3 800 SDRAM x8 | 2GB ECC DDR3 800 SDRAM x4 | |||
系统磁盘子系统 | |||||
磁盘控制器 | HP Smart Array P212/256MB Controller | Intel ICH10R SATA AHCI Controller | |||
磁盘控制器规格 | 8x SAS 3Gb/s AHCI w/NCQ | 6x SATA 3Gb/s AHCI w/NCQ | |||
磁盘控制器设置 | AHCI w/NCQ | AHCI w/NCQ | |||
磁盘控制器驱动 | Smart Array SAS/SATA 6.18.0.64 | IMSM 8.8.0.1006 | |||
磁盘 | Seagate Savvio 10K.3 ST9146803SS | Hitachi Deskstar P7K500 HDP725025GLA380 | |||
磁盘规格 | 10000RPM 146GB SAS 6Gb/s w/NCQ 16MB Cache | 7200RPM 250GB SATA 3Gb/s w/NCQ 8MB Cache | |||
磁盘设置 | SAS 6Gb/s w/NCQ 50GB系统分区 | SATA 3Gb/s w/NCQ 50GB系统分区 | |||
网络子系统 | |||||
网卡 | Intel 82574L Gigabit Network Controller x2 | Intel 82574L Gigabit Network Controller x2 | |||
网卡设置 | PCI Express x1 @ ICH10R Intel NIC Teaming Load Balancing | PCI Express x1 @ ICH10R Intel NIC Teaming Load Balancing | |||
网卡驱动 | Intel PRO Set 14.0 | Intel PRO Set 14.0 | |||
软件环境 | |||||
操作系统 | Microsoft Windows Server 2008 Enterprise Edition SP2 x64 | Microsoft Windows Server 2008 Enterprise Edition SP1 x64 |
本次测试,我们结合惠普ProLiant DL4x170h G6节点服务器的构造特点,具体针对单一节点的性能进行测试。此外,我们选取了之前测试过的联想T260 G2服务器作为对比平台。T260 G2是一台Nehalem-EP架构的服务器,使用的处理器为Intel至强E5504(跟本次测试的惠普一样),搭配了Intel S5500BC主板,通过ICH10R南桥连接硬盘。从基础配置来说,两台服务器的规格较为接近,也使得测试结果更有参考价值。
DL4x170h G6服务器搭配了一颗至强E5504处理器,主频为2GHz
芯片组型号为Intel 5520
内存实现了3通道,总容量为32GB
有16条内存插槽,每颗处理器拥有8条
SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。
SPEC2006测试结果分为整数和浮点两部分,我们先看到的是整数部分的成绩。从结果来看,由于两台服务器使用了同样的处理器,从理论来说结果应该非常接近才对。但是我们看到,在大多数测试项目中,惠普DL4x170h G6服务器都有着明显的领先优势。虽然SPEC2006侧重于考察处理器的性能,但是在运行过程中对内存容量的要求也很高,在大容量内存的支持下更容易获得好成绩。另外,惠普DL4x170h G6服务器使用的是三通道设计,而对比平台只有双通道,这也会在一定程度上对性能造成影响。
从结果来看,惠普DL4x170h G6服务器在许多项目中领先对比平台10%到30%之间,同时我们也发现了对内存容量并不敏感的项目,比如453影像光线追踪和447有限元分析等等。
SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。
整数测试中,惠普DL4x170h G6服务器高歌猛进,取得了不小的领先优势;而在浮点项目中,虽然多数项目中惠普DL4x170h G6服务器依旧领先,但是从幅度来看有所降低,两者差距较小,这也说明浮点测试对于内存的依赖性并不大。
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。
SiSoftware Sandra Pro Business 2009 | ||
---|---|---|
测试对象 | 惠普ProLiant DL4x170h G6 单路Intel Gainestown Xeon E5504 2.0GHz | 单路Intel Gainestown Xeon E5504 2.0GHz |
Processor Arithmetic Benchmark 处理器架构测试 | ||
Dhrystone ALU | 49337MIPS | 49318MIPS |
Dhrystone ALU vs SPEED | 24.67MIPS/MHz | 24.66MIPS/MHz |
Whetstone iSSE3 | 25620MFLOPS | 26064MFLOPS |
Dhrystone iSSE3 vs SPEED | 12.81MFLOPS/MHz | 13.03MFLOPS/MHz |
Processor Multi-Media Benchmark 处理器多媒体测试 | ||
Multi-Media Int x16 iSSE4.1 | 84.93MPixel/s | 84.83MPixel/s |
Multi-Media Int x16 iSSE4.1 vs SPEED | 42.47kPixels/s/MHz | 42.41kPixel/s/MHz |
Multi-Media Float x8 iSSE2 | 64.79MPixel/s | 64.72MPixel/s |
Multi-Media Float x8 iSSE2 vs SPEED | 32.39kPixels/s/MHz | 32.36kPixels/s/MHz |
Multi-Media Double x4 iSSE2 | 33.81MPixel/s | 33.81MPixel/s |
Multi-Media Double x4 iSSE2 vs SPEED | 16.91kPixels/s/MHz | 16.91kPixels/s/MHz |
Multi-Core Efficiency Benchmark | ||
Inter-Core Bandwidth | 9.81GB/s | 9.73GB/s |
Inter-Core Bandwidth vs SPEED | 5.02MB/s/MHz | 4.98MB/s/MHz |
Inter-Core Latency (越小越好) | 80ns | 74ns |
Inter-Core Latency vs SPEED (越小越好) | 0.04ns/MHz | 0.04ns/MHz |
Cryptography 加密性能测试 | ||
AES256 CPU Cryptographic Bandwidth | 326MB/s | 326MB/s |
AES256 CPU Cryptographic Bandwidth VS SPEED | 0.16MB/s/MHz | 0.16MB/s/MHz |
SHA256 CPU Hashing Bandwidth | 373MB/s | 373MB/s |
SHA256 CPU Hashing Bandwidth vs SPEED | 0.19MB/s/MHz | 0.19MB/s/MHz |
.NET Arithmetic Benchmark .NET架构测试 | ||
Dhrystone .NET | 6991MIPS | 8103MIPS |
Dhrystone .NET vs SPEED | 3.50MIPS/MHz | 4.05MIPS/MHz |
Whetstone .NET | 17130MFLOPS | 17394MFLOPS |
Whetstone .NET vs SPEED | 8.56MFLOPS/MHz | 8.70MFLOPS/MHz |
.NET Multi-Media Benchmark .NET多媒体测试 | ||
Multi-Media Int x1 .NET | 16.92MPixel/s | 17.02MPixel/s |
Multi-Media Int x1 .NET vs SPEED | 8.46kPixels/s/MHz | 8.51kPixels/s/MHz |
Multi-Media Float x1 .NET | 5.01MPixel/s | 4.99MPixel/s |
Multi-Media Float x1 .NET vs SPEED | 2.51kPixels/s/MHz | 2.49kPixels/s/MHz |
Multi-Media Double x1 .NET | 9.19MPixel/s | 9.28MPixel/s |
Multi-Media Double x1 .NET vs SPEED | 4.60kPixels/s/MHz | 4.64kPixels/s/MHz |
这个项目是处理器常规性能测试。由于惠普DL4x170h G6服务器和对比平台使用了同样的至强E5504处理器,因此在这个项目中的差距不大,除了最后的.NET架构和多媒体性能测试之外,惠普DL4x170h G6服务器大部分时候有着微弱的领先优势。
SiSoftware Sandra缓存内存测试主要包括内存带宽、内存延迟等性能的测试。
SiSoftware Sandra Pro Business 2009 | ||
---|---|---|
测试对象 | 惠普ProLiant DL4x170h G6 单路Intel Gainestown Xeon E5504 2.0GHz | 单路Intel Gainestown Xeon E5504 2.0GHz |
Memory Bandwidth Benchmark 内存带宽测试 | ||
Int Buff'd iSSE2 Memory Bandwidth | 14.01GB/s | 9.98GB/s |
Float Buff'd iSSE2 Memory Bandwidth | 12.07GB/s | 9.98GB/s |
Memory Latency Benchmark(Random) 内存延迟测试(随机) | ||
Memory(Random Access) Latency (越小越好) | 109ns | 108ns |
Speed Factor (越小越好) | 53.40 | 52.50 |
Internal Data Cache | 4clocks | 4clocks |
L2 On-board Cache | 10clocks | 10clocks |
L3 On-board Cache | 48clocks | 48clocks |
Memory Latency Benchmark(Linear) 内存延迟测试(线性) | ||
Memory(Linear Access) Latency (越小越好) | 9ns | 9ns |
Speed Factor (越小越好) | 4.50 | 4.40 |
Internal Data Cache | 4clocks | 4clocks |
L2 On-board Cache | 10clocks | 10clocks |
L3 On-board Cache | 12clocks | 12clocks |
Cache and Memory Benchmark 缓存及内存测试 | ||
Cache/Memory Bandwidth | 43.25GB/s | 36.81GB/s |
Cache/Memory Bandwidth vs SPEED | 22.14MB/s/MHz | 18.85MB/s/MHz |
Speed Factor (越小越好) | 21.50 | 33.40 |
Internal Data Cache | 159.31GB/s | 163.13GB/s |
L2 On-board Cache | 135.65GB/s | 137.45GB/s |
但是到内存测试项目,两者的差距就体现出来了。由于惠普DL4x170h G6服务器实现了三通道设计,而对比平台只有双通道,因此在内存带宽中两者差距明显,幅度分别达到了40%和20%。和SPEC2006对于内存的依赖不同,这个项目只是对于内存带宽(通道数量)有要求,而对于内存容量则并不敏感。
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
ScienceMark Membench | ||
---|---|---|
厂商 | 惠普 | Intel |
产品型号 | 惠普ProLiant DL4x170h G6 单路Intel Gainestown Xeon E5504 2.0GHz | 单路Intel Gainestown Xeon E5504 |
内存技术参数 | 2GB R-ECC DDR3-800 SDRAM x8 三通道 | 2GB R-ECC DDR3-800 SDRAM x4 双通道 |
L1带宽(MB/s) | 59785.03 | 47877.41 |
L2带宽(MB/s) | 24392.68 | 19561.78 |
内存带宽(MB/s) | 9753.54 | 8833.57 |
L1 Cache Latency(ns) | ||
32 Bytes Stride | 3 cycles 1.50 ns | 3 cycles 1.50 ns |
L1 Algorithm Bandwidth(MB/s) | ||
Compiler | 52980.69 | 42198.88 |
REP MOVSD | 54366.01 | 43498.52 |
ALU Reg Copy | 15060.05 | 12067.10 |
MMX Reg Copy | 30215.90 | 24173.05 |
SSE PAlign | 59785.03 | 47830.32 |
SSE2 PAlign | 58639.54 | 47877.41 |
L2 Cache Latency(ns) | ||
4 Bytes Stride | 4 cycles 2.00 ns | 4 cycles 2 ns |
16 Bytes Stride | 4 cycles 2.00 ns | 4 cycles 2 ns |
64 Bytes Stride | 10 cycles 5.00 ns | 10 cycles 5 ns |
256 Bytes Stride | 9 cycles 4.50 ns | 9 cycles 4.50 ns |
512 Bytes Stride | 8 cycles 4.00 ns | 8 cycles 4 ns |
L2 Algorithm Bandwidth(MB/s) | ||
Compiler | 22624.80 | 17957.58 |
REP MOVSD | 24392.68 | 19596.05 |
ALU Reg Copy | 10970.33 | 8778.56 |
MMX Reg Copy | 17562.86 | 14063.17 |
SSE PAlign | 23344.86 | 18656.42 |
SSE2 PAlign | 23361.11 | 18677.19 |
Memory Latency(ns) | ||
4 Bytes Stride | 4 cycles 2.00 ns | 4 cycles 2 ns |
16 Bytes Stride | 5 cycles 2.50 ns | 5 cycles 2.50 ns |
64 Bytes Stride | 17 cycles 8.50 ns | 17 cycles 8.50 ns |
256 Bytes Stride | 94 cycles 47.00 ns | 92 cycles 46.00 ns |
512 Bytes Stride | 110 cycles 55.00 ns | 104 cycles 52.00 ns |
Memory Algorithm Bandwidth(MB/s) | ||
Compiler | 9293.20 | 7918.04 |
REP MOVSD | 9753.54 | 8833.57 |
ALU Reg Copy | 6376.50 | 5631.16 |
MMX Reg Copy | 6985.65 | 5880.52 |
MMX Reg 3dNow | - | - |
MMX Reg SSE | 8560.05 | 8398.25 |
SSE PAlign | 9150.80 | 8750.74 |
SSE PAlign SSE | 8996.74 | 8715.17 |
SSE2 PAlign | 9160.76 | 8749.69 |
SSE2 PAlign SSE | 9001.75 | 8724.84 |
MMX Block 4kb | 7748.20 | 7648.23 |
MMX Block 16kb | 8636.91 | 8515.20 |
SSE Block 4kb | 7838.92 | 7731.28 |
SSE Block 16kb | 8753.36 | 8620.84 |
得益于三通道,这个项目中惠普DL4x170h G6服务器的内存带宽高出了对比服务器近1000MB/s,由此看到两者的差异非常明显。在内存指令(集)中,除了部分项目结果较为接近之外,差距还是非常大的。同样,这个项目的测试结果与内存容量并没有直接的关系。
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
CineBench R10 64bit | ||
处理器 | 惠普ProLiant DL4x170h G6 单路Intel Gainestown Xeon E5504 2.0GHz | 单路Intel Gainestown Xeon E5504 |
显卡 | - | - |
CPU Benchmark | ||
Rendering (1 CPU) | 2873 CB-CPU | 2868 CB-CPU |
Rendering (x CPU) | 10578 CB-CPU | 10559 CB-CPU |
Multiprocessor Speedup | 3.68x | 3.68x |
OpenGL Benchmark | ||
OpenGL Standard | 158 CB-GFX | 158 CB-GFX |
这个项目中两款服务器的成绩差距不大,数值基本属于误差范围之内。由于使用了同样的处理器,而且都是单路结构,因此两者在多处理器测试中的表现基本一致。
本次我们测试的惠普DL4x170h G6服务器使用了惠普P212/256MB阵列卡,这款阵列卡配备了256MB容量内存,而且还有独立电池供电。磁盘则使用的是2块希捷Savvio 10K.3系列ST9146803SS硬盘,支持最新的SAS 6.0Gbps传输速度,容量为146GB,转速为10000rpm,缓存为16MB。测试中我们组建了RAID 0阵列。
相比之下,对比服务器只有一块Hitachi Deskstar P7K500 HDP725025GLA380硬盘,通过ICH10R南桥控制,没有组建阵列。
出现这样的结果在我们的意料之中。除了使用独立的阵列卡之外,惠普DL4x170h G6服务器搭配的是SAS 6Gbps硬盘,而且理论上2.5英寸的硬盘能够提供更高的IOps(相比3.5英寸),最大11000 IOps的结果就显得很正常了。
除了IOps很高之外,组建了RAID 0阵列的磁盘在MBps测试中的表现也很出色。它的读写都达到了200MBps以上,对比服务器由于使用了单SATA硬盘,80MBps的结果也可以接受。
NetBench 7.03 Ent_dm.tst测试脚本模拟的是企业级文件服务器应用,它不但要求被测服务器的磁盘子系统可以提供足够的吞吐量,还需要其具有较高的IO处理能力,并且需要较为平衡的读取能力和写入能力。
虽然在刚才的IOMeter测试中惠普DL4x170h G6服务器的磁盘性能表现得非常强大,但还是在我们的预料之内。但是在NetBench测试中,这样的结果就有点出乎意料了。大家看到,惠普DL4x170h G6服务器的测试曲线几乎呈直线上升,只有在最后的高负载下才出现平缓的趋势,最终的数值定格在了1800 Mbps。
应该说,这样的结果是我们之前测试服务器中没有预料到的,即便是许多专用的存储服务器也达不到这样的成绩,我们60台客户端的负载差一点就不够了。由此说明,惠普DL4x170h G6服务器不仅是运算性能不错,在磁盘测试中的表现更为出色。
我们利用UNI-T UT71E智能数字万用表和相配套的软件对于对于被测服务器在几种不同的状态下的功耗进行了监测,主要包括如下项目:
P1:连接电源但不开机状态
P2:系统启动完毕,5分钟内无动作,但不休眠
P3:系统启动完毕,处理器满载、磁盘以最大吞吐量工作
这是我们对比平台唯一值得骄傲的项目,可惜的是这个项目并不能独立作为性能考核的标准。从上面的柱状图看出,惠普DL4x170h G6服务器的功耗要比对比平台高一些,在零负载下它的待机功耗为22.7W,空载状态为138.3W,满载情况为182.3W。但是如果结合性能来分析,我们认为惠普DL4x170h G6服务器的能耗比还是比较低的,特别是从空载到满载的功耗提升只有不到60W。一方面是由于单节点只有一颗处理器运行,另一方面我们觉得它所使用的80Plus电源也起到了积极的作用。
【IT168评测中心】惠普ProLiant DL4x170h G6是我们在日常测试中不多见的节点服务器。在测试之初,我们对于这台机器的性能也有着一些疑惑。在2U的空间下,它提供了相当于4台双路服务器的运算能力,如果按照刀片服务器的运算能力来看,它的性能应该非常强劲;可是如果计算存储密度的话,似乎又会得到相反的结论。因此,我们还是希望通过实际测试来获得准确的判断。
就外观来说,首先吸引我们的是它的16个2.5英寸磁盘位。在2U体积下能够实现如此多的磁盘位,更是增加了我们的好奇,后来的测试也证明这些磁盘的确发挥了明显的作用。
谈到性能,本次测试的DL4x170h G6并非是优异配置,其处理器也只有一颗至强5500家族中定位低端的E5504(如果使用更高规格的处理器,特别是支持SMT超线程技术的话,性能提升会更为明显)。不过从实际测试结果来看,借助Nehalem-EP结构和三通道主板的支持, DL4x170h G6的运算性能较我们之前测试过的同档次服务器来说高出许多,处理器测试成绩高出对比平台30%。而且, DL4x170h G6的磁盘能力也不错,借助RAID 0阵列和2.5英寸6Gbps硬盘,它的IOps可以达到11000,在文件服务器的测试中更是达到了1800 Mbps,接近我们客户端所能够提供的极限性能。
最后说说功耗。对于单个节点来说,DL4x170h G6服务器的最大功耗为182W,待机功耗为22W,按照能效比的观点来看功耗并不高,这得益于80Plus电源的大力支持。
总体看来,我们认为本次测试的惠普ProLiant DL4x170h G6节点服务器是一台非常不错的产品,在2U的空间中提供了强大的处理器能力,其I/O能力更是可圈可点,是一台适合机房采购的产品。
【IT168评测中心】根据来自IDC的调查报告,2008年中国X86服务器市场总体出货量达到712618台,同比增长了11.3%。在这个市场中,惠普、戴尔、IBM占据了国内市场出货量的前三名。而从服务器型号来说,双路服务器依然是当前企业消费的热门产品,由于金融危机的影响,中小企业更注重性价比的选择。今天,我们就介绍一款侧重于节点应用的服务器,它来自惠普,型号为ProLiant DL4x170h G6。
和我们之前测试过的诸多服务器有所不同,惠普ProLiant DL4x170h G6节点服务器是一台比较特殊的产品。相比我们常见的机架式服务器来说,ProLiant DL4x170h G6的构造更像是一台机架式的刀片机柜。
从正面看来,DL4x170h G6并没有什么特殊的地方,它依然是延续了DL系列的庄重造型,只是机身提供了16个2.5英寸硬盘插槽,看起来更像是一台存储服务器。
DL4x170h G6的背面显得与众不同,仔细观察就会发现它除了使用两个电源供电(其中一个为冗余)之外,还有4个类似服务器的模块。在惠普的定义中,DL4x170h G6中的4x代表它提供了四个节点,我们看到的就是这四个节点的接口部分。
这个角度看起来更清楚,有点像我们之前测试过的“双子星”一类的产品。不同的是,DL4x170h G6电源两侧整合的都是双路主板,也就是说在我们看到的这个平面上,可以提供4个处理器插槽。
从这个角度来看,DL4x170h G6内部一共提供了4个散热风扇,还是用了两个半长的导风罩,主要保障处理器和内存部位的散热。
DL4x170h G6作为一台4节点服务器,内部整合了4台独立服务器,分为上下两层。轻轻滑动扣具,我们可以拆下其中一台服务器看看下面的结构。
越看越像刀片了——DL4x170h G6内部的节点使用的是双路Nehalem主板,提供了2个处理器插槽和16条内存插槽。 这款主板基于Intel 5520芯片组+ICH10R南桥,包括了显示芯片、千兆网络芯片,同时还支持独立的阵列卡,其本质就是一台体积较小的双路服务器。
DL4x170h G6服务器的每个节点使用了一颗至强E5504处理器(可扩展为两颗)。这款处理器是至强5500家族中的低端产品,定位在中小企业应用领域。至强E5504处理器主频为2GHz,QPI为4.8GT/s,不支持Turbo Boost Technology,不支持Hyper-Threading Technology 。
除了处理器之外,内存容量对于服务器的性能也产生重大的影响。DL4x170h G6单节点提供了8条三星4GB DDR3-1333 R-ECC内存,单节点容量达到了32GB。
DL4x170h G6服务器为单个节点配备了型号为P212/256MB的阵列卡。对于服务器来说,阵列卡的性能直接影响到服务器的磁盘性能和相应的存储能力。P212作为惠普的新产品,配备了256MB内存(可更换,最大支持512MB),存储性能更为强大。之前,我们测试过惠普DL385 G5服务器,其中的阵列卡电池给我们留下的深刻的印象(有无电池对于性能影响巨大)。本次,惠普特别提供了阵列卡电池,提供了更好的性能保障。
本次我们测试的DL4x170h G6服务器提供了2.5英寸SAS硬盘位,每个节点4个(这款服务器也可以支持3.5英寸SAS硬盘,最多8个),自带希捷ST9146803SS硬盘。ST9146803SS属于希捷的Savvio 10K.3系列,支持最新的SAS 6.0Gbps传输速度,容量为146GB,转速为10000rpm,缓存为16MB。
对于4节点服务器来说,此电源也是至关重要的部分。这里,DL4x170h G6使用的是惠普HSTNS-PL18电源,提供了一个冗余(多节点服务器配备冗余电源很重要),总功率为1500W。
总体看来,惠普ProLiant DL4x170h G6是惠普ProLiant DL1000系列服务器中的新产品,定位为节点服务器,主要针对中型和大型机房应用。它的内部整合了4个半宽节点,这些节点基于Nehalem-EP处理器,应用Intel 5520平台,提供给用户尽可能快速的运算能力。
在2005年度服务器横评之后,我们认为当时的网络实验室无法满足今后继续发展的服务器测试的需要。所以,2006年我们IT168评测中心又斥资几十万对于IT168网络实验室的服务器测试平台进行了大幅度的升级,为思科Catalyst4500千兆交换机(WS-X4013+ Supervisor Engine II-Plus和WS-X4548-GB-RJ45)增加了一个思科全千兆24口模块WS-X4424-GB-RJ45,可同时连接72个千兆铜缆设备和2个光缆设备。另外,我们还购置了29台Dell PowerEdge SC430塔式服务器和原来的32台主流配置PC一起为服务器测试平台的提供负载。2007年,我们又采购性能更强的部分客户端,来确保为新一代的服务器提供足够的测试负载。
2009年,我们又对所有客户端的内存子系统进行了全面的升级,还购买了一台思科全千兆24口模块,扩大了整个网络实验室,调整了测试客户端的操作系统及软件配置。
宽敞明亮的网络实验室机房
Catalyst4500千兆交换机
部分Dell PowerEdge SC430服务器
在新的测试环境下,我们进一步完善了服务器性能测试方案:
SPEC CPU 2006 v1.0.1
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。
SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了当前最新版本的Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler这两款SPEC CPU 2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(假如只支持SSE3,则使用QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64bit Windows Server 2008 Enterprise下完成,对于每个运算核心,最低配置1.5GB内存。
SiSoftware Sandra v2009
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。
CineBench R10
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,在服务器测试平台中显示子系统不重要,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
ScienceMark 2.0
ScienceMark 2.0可以用来评估测试对象在执行科学计算时的运算效能,这部分效能主要和处理器子系统和内存子系统相关。我们主要用来评估测试对象的内存子系统的性能。
Iometer 2006.7.27
Iometer是一款功能非常强大的IO测试软件,它除了可以在本机运行测试本机的IO(磁盘)性能之外,还提供了模拟网络应用的能力。在这次的测试中,我们仅仅让它在本机运行测试服务器的磁盘性能。为了全面测试被测服务器的IO性能,我们分别选择了不同的测试脚本。
Max_throughput(read):文件尺寸为64KB,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取吞吐量
Max_IO(read):文件尺寸为512B,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取操作IO处理能力
Max_throughput(write):文件尺寸为64KB,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入吞吐量
Max_IO(write):文件尺寸为512B,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入操作IO处理能力
系统功耗监测
我们使用UNI-T UT71E智能数字万用表对于被测服务器系统的整体功耗进行了监测,利用随机附带的接口程序,我们可以记录被测服务器任意时间段内的功率变化。
测试平台、测试环境 | |||||
测试分组 | |||||
类别 | 惠普ProLiant DL4x170h G6 单路Intel Gainestown Xeon E5504 | Lenovo T260 G2 单路Intel Gainestown Xeon E5504 | |||
处理器子系统 | |||||
处理器 | 单路Intel Xeon E5504 | 单路Intel Xeon E5504 | |||
处理器架构 | Intel 45nm Nehalem | Intel 45nm Nehalem | |||
处理器代号 | Gainestown | Gainestown | |||
处理器封装 | Socket 1366 LGA | Socket 1366 LGA | |||
处理器规格 | 四核 | 四核 | |||
处理器指令集 | MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,SSE4.2,EM64T,VT | MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,SSE4.2,EM64T,VT | |||
主频 | 2.00GHz | 2.00GHz | |||
处理器外部总线 | 2x QPI 2400MHz 4.8GT/s 单向9.6GB/s(每QPI) 双向19.2GB/s(每QPI) | 2x QPI 2400MHz 4.8GT/s 单向9.6GB/s(每QPI) 双向19.2GB/s(每QPI) | |||
L1 D-Cache | 4x 32KB 8路集合关联 | 4x 32KB 8路集合关联 | |||
L1 I-Cache | 4x 32KB 4路集合关联 | 4x 32KB 4路集合关联 | |||
L2 Cache | 4x 256KB 8路集合关联 | 4x 256KB 8路集合关联 | |||
L3 Cache | 4MB @ 1600MHz 16路集合关联 | 4MB @ 1600MHz 16路集合关联 | |||
主板 | |||||
主板型号 | Intel Tylersburg 5520 | Intel S5500BC | |||
芯片组 | Intel Tylersburg-EP IOH:Intel 5520(Tylersburg-36D) ICH:Intel 82801JR(ICH10R) | Intel Tylersburg-EP IOH:Intel 5500(Tylersburg-24D) ICH:Intel 82801JR(ICH10R) | |||
芯片特性 | 2x QPI 24 PCI Express Gen2 Lanes VT-d Gen 2 | 2x QPI 24 PCI Express Gen2 Lanes VT-d Gen 2 | |||
内存控制器 | 每CPU集成三通道R-ECC DDR3 800 主板实现三通道 | 每CPU集成三通道R-ECC DDR3 800 主板实现双通道 | |||
内存 | 2GB ECC DDR3 800 SDRAM x8 | 2GB ECC DDR3 800 SDRAM x4 | |||
系统磁盘子系统 | |||||
磁盘控制器 | HP Smart Array P212/256MB Controller | Intel ICH10R SATA AHCI Controller | |||
磁盘控制器规格 | 8x SAS 3Gb/s AHCI w/NCQ | 6x SATA 3Gb/s AHCI w/NCQ | |||
磁盘控制器设置 | AHCI w/NCQ | AHCI w/NCQ | |||
磁盘控制器驱动 | Smart Array SAS/SATA 6.18.0.64 | IMSM 8.8.0.1006 | |||
磁盘 | Seagate Savvio 10K.3 ST9146803SS | Hitachi Deskstar P7K500 HDP725025GLA380 | |||
磁盘规格 | 10000RPM 146GB SAS 6Gb/s w/NCQ 16MB Cache | 7200RPM 250GB SATA 3Gb/s w/NCQ 8MB Cache | |||
磁盘设置 | SAS 6Gb/s w/NCQ 50GB系统分区 | SATA 3Gb/s w/NCQ 50GB系统分区 | |||
网络子系统 | |||||
网卡 | Intel 82574L Gigabit Network Controller x2 | Intel 82574L Gigabit Network Controller x2 | |||
网卡设置 | PCI Express x1 @ ICH10R Intel NIC Teaming Load Balancing | PCI Express x1 @ ICH10R Intel NIC Teaming Load Balancing | |||
网卡驱动 | Intel PRO Set 14.0 | Intel PRO Set 14.0 | |||
软件环境 | |||||
操作系统 | Microsoft Windows Server 2008 Enterprise Edition SP2 x64 | Microsoft Windows Server 2008 Enterprise Edition SP1 x64 |
本次测试,我们结合惠普ProLiant DL4x170h G6节点服务器的构造特点,具体针对单一节点的性能进行测试。此外,我们选取了之前测试过的联想T260 G2服务器作为对比平台。T260 G2是一台Nehalem-EP架构的服务器,使用的处理器为Intel至强E5504(跟本次测试的惠普一样),搭配了Intel S5500BC主板,通过ICH10R南桥连接硬盘。从基础配置来说,两台服务器的规格较为接近,也使得测试结果更有参考价值。
服务器搭配了至强E5504处理器,主频为2GHz
芯片组型号为Intel 5520
内存实现了3通道,总容量为32GB
有16条内存插槽,每颗处理器拥有8条
北桥芯片组信息
内存信息
主板南桥信息
SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。
SPEC2006测试结果分为整数和浮点两部分,我们先看到的是整数部分的成绩。从结果来看,由于两台服务器使用了同样的处理器,从理论来说结果应该非常接近才对。但是我们看到,在大多数测试项目中,惠普DL4x170h G6服务器都有着明显的领先优势。虽然SPEC2006侧重于考察处理器的性能,但是在运行过程中对内存容量的要求也很高,在大容量内存的支持下更容易获得好成绩。另外,惠普DL4x170h G6服务器使用的是三通道设计,而对比平台只有双通道,这也会在一定程度上对性能造成影响。
从结果来看,惠普DL4x170h G6服务器在许多领先对比平台10%到30%之间,同时我们也发现了对内存容量并不敏感的项目,比如453影像光线追踪和447有限元分析等等。
SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。
整数测试中,惠普DL4x170h G6服务器高歌猛进,取得了不小的领先优势。而在浮点项目中,虽然多数项目中惠普DL4x170h G6服务器依旧领先,但是从幅度来看有所降低,多数项目两者差距较小,这也说明浮点测试对于内存的依赖性并不大。
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。
SiSoftware Sandra Pro Business 2009 | ||
---|---|---|
测试对象 | 惠普ProLiant DL4x170h G6 单路Intel Gainestown Xeon E5504 2.0GHz | 单路Intel Gainestown Xeon E5504 2.0GHz |
Processor Arithmetic Benchmark 处理器架构测试 | ||
Dhrystone ALU | 49337MIPS | 49318MIPS |
Dhrystone ALU vs SPEED | 24.67MIPS/MHz | 24.66MIPS/MHz |
Whetstone iSSE3 | 25620MFLOPS | 26064MFLOPS |
Dhrystone iSSE3 vs SPEED | 12.81MFLOPS/MHz | 13.03MFLOPS/MHz |
Processor Multi-Media Benchmark 处理器多媒体测试 | ||
Multi-Media Int x16 iSSE4.1 | 84.93MPixel/s | 84.83MPixel/s |
Multi-Media Int x16 iSSE4.1 vs SPEED | 42.47kPixels/s/MHz | 42.41kPixel/s/MHz |
Multi-Media Float x8 iSSE2 | 64.79MPixel/s | 64.72MPixel/s |
Multi-Media Float x8 iSSE2 vs SPEED | 32.39kPixels/s/MHz | 32.36kPixels/s/MHz |
Multi-Media Double x4 iSSE2 | 33.81MPixel/s | 33.81MPixel/s |
Multi-Media Double x4 iSSE2 vs SPEED | 16.91kPixels/s/MHz | 16.91kPixels/s/MHz |
Multi-Core Efficiency Benchmark | ||
Inter-Core Bandwidth | 9.81GB/s | 9.73GB/s |
Inter-Core Bandwidth vs SPEED | 5.02MB/s/MHz | 4.98MB/s/MHz |
Inter-Core Latency (越小越好) | 80ns | 74ns |
Inter-Core Latency vs SPEED (越小越好) | 0.04ns/MHz | 0.04ns/MHz |
Cryptography 加密性能测试 | ||
AES256 CPU Cryptographic Bandwidth | 326MB/s | 326MB/s |
AES256 CPU Cryptographic Bandwidth VS SPEED | 0.16MB/s/MHz | 0.16MB/s/MHz |
SHA256 CPU Hashing Bandwidth | 373MB/s | 373MB/s |
SHA256 CPU Hashing Bandwidth vs SPEED | 0.19MB/s/MHz | 0.19MB/s/MHz |
.NET Arithmetic Benchmark .NET架构测试 | ||
Dhrystone .NET | 6991MIPS | 8103MIPS |
Dhrystone .NET vs SPEED | 3.50MIPS/MHz | 4.05MIPS/MHz |
Whetstone .NET | 17130MFLOPS | 17394MFLOPS |
Whetstone .NET vs SPEED | 8.56MFLOPS/MHz | 8.70MFLOPS/MHz |
.NET Multi-Media Benchmark .NET多媒体测试 | ||
Multi-Media Int x1 .NET | 16.92MPixel/s | 17.02MPixel/s |
Multi-Media Int x1 .NET vs SPEED | 8.46kPixels/s/MHz | 8.51kPixels/s/MHz |
Multi-Media Float x1 .NET | 5.01MPixel/s | 4.99MPixel/s |
Multi-Media Float x1 .NET vs SPEED | 2.51kPixels/s/MHz | 2.49kPixels/s/MHz |
Multi-Media Double x1 .NET | 9.19MPixel/s | 9.28MPixel/s |
Multi-Media Double x1 .NET vs SPEED | 4.60kPixels/s/MHz | 4.64kPixels/s/MHz |
这个项目是处理器常规性能测试。由于惠普DL4x170h G6服务器和对比平台使用了同样的至强E5504处理器,因此在这个项目中的差距不大,除了最后的.NET架构和多媒体性能测试之外,惠普DL4x170h G6服务器大部分时候有着微弱的领先优势。
SiSoftware Sandra缓存内存测试主要包括内存带宽、内存延迟等性能的测试。
SiSoftware Sandra Pro Business 2009 | ||
---|---|---|
测试对象 | 惠普ProLiant DL4x170h G6 单路Intel Gainestown Xeon E5504 2.0GHz | 单路Intel Gainestown Xeon E5504 2.0GHz |
Memory Bandwidth Benchmark 内存带宽测试 | ||
Int Buff'd iSSE2 Memory Bandwidth | 14.01GB/s | 9.98GB/s |
Float Buff'd iSSE2 Memory Bandwidth | 12.07GB/s | 9.98GB/s |
Memory Latency Benchmark(Random) 内存延迟测试(随机) | ||
Memory(Random Access) Latency (越小越好) | 109ns | 108ns |
Speed Factor (越小越好) | 53.40 | 52.50 |
Internal Data Cache | 4clocks | 4clocks |
L2 On-board Cache | 10clocks | 10clocks |
L3 On-board Cache | 48clocks | 48clocks |
Memory Latency Benchmark(Linear) 内存延迟测试(线性) | ||
Memory(Linear Access) Latency (越小越好) | 9ns | 9ns |
Speed Factor (越小越好) | 4.50 | 4.40 |
Internal Data Cache | 4clocks | 4clocks |
L2 On-board Cache | 10clocks | 10clocks |
L3 On-board Cache | 12clocks | 12clocks |
Cache and Memory Benchmark 缓存及内存测试 | ||
Cache/Memory Bandwidth | 43.25GB/s | 36.81GB/s |
Cache/Memory Bandwidth vs SPEED | 22.14MB/s/MHz | 18.85MB/s/MHz |
Speed Factor (越小越好) | 21.50 | 33.40 |
Internal Data Cache | 159.31GB/s | 163.13GB/s |
L2 On-board Cache | 135.65GB/s | 137.45GB/s |
但是到内存测试项目,两者的差距就体现出来了。由于惠普DL4x170h G6服务器实现了三通道设计,而对比平台只有双通道,因此在内存带宽中两者差距明显,幅度分别达到了40%和20%。和SPEC2006对于内存的依赖不同,这个项目只是对于内存带宽(通道数量)有要求,而对于内存容量则并不敏感。
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
ScienceMark Membench | ||
---|---|---|
厂商 | 惠普 | Intel |
产品型号 | 惠普ProLiant DL4x170h G6 单路Intel Gainestown Xeon E5504 2.0GHz | 单路Intel Gainestown Xeon E5504 |
内存技术参数 | 2GB R-ECC DDR3-800 SDRAM x8 三通道 | 2GB R-ECC DDR3-800 SDRAM x4 双通道 |
L1带宽(MB/s) | 59785.03 | 47877.41 |
L2带宽(MB/s) | 24392.68 | 19561.78 |
内存带宽(MB/s) | 9753.54 | 8833.57 |
L1 Cache Latency(ns) | ||
32 Bytes Stride | 3 cycles 1.50 ns | 3 cycles 1.50 ns |
L1 Algorithm Bandwidth(MB/s) | ||
Compiler | 52980.69 | 42198.88 |
REP MOVSD | 54366.01 | 43498.52 |
ALU Reg Copy | 15060.05 | 12067.10 |
MMX Reg Copy | 30215.90 | 24173.05 |
SSE PAlign | 59785.03 | 47830.32 |
SSE2 PAlign | 58639.54 | 47877.41 |
L2 Cache Latency(ns) | ||
4 Bytes Stride | 4 cycles 2.00 ns | 4 cycles 2 ns |
16 Bytes Stride | 4 cycles 2.00 ns | 4 cycles 2 ns |
64 Bytes Stride | 10 cycles 5.00 ns | 10 cycles 5 ns |
256 Bytes Stride | 9 cycles 4.50 ns | 9 cycles 4.50 ns |
512 Bytes Stride | 8 cycles 4.00 ns | 8 cycles 4 ns |
L2 Algorithm Bandwidth(MB/s) | ||
Compiler | 22624.80 | 17957.58 |
REP MOVSD | 24392.68 | 19596.05 |
ALU Reg Copy | 10970.33 | 8778.56 |
MMX Reg Copy | 17562.86 | 14063.17 |
SSE PAlign | 23344.86 | 18656.42 |
SSE2 PAlign | 23361.11 | 18677.19 |
Memory Latency(ns) | ||
4 Bytes Stride | 4 cycles 2.00 ns | 4 cycles 2 ns |
16 Bytes Stride | 5 cycles 2.50 ns | 5 cycles 2.50 ns |
64 Bytes Stride | 17 cycles 8.50 ns | 17 cycles 8.50 ns |
256 Bytes Stride | 94 cycles 47.00 ns | 92 cycles 46.00 ns |
512 Bytes Stride | 110 cycles 55.00 ns | 104 cycles 52.00 ns |
Memory Algorithm Bandwidth(MB/s) | ||
Compiler | 9293.20 | 7918.04 |
REP MOVSD | 9753.54 | 8833.57 |
ALU Reg Copy | 6376.50 | 5631.16 |
MMX Reg Copy | 6985.65 | 5880.52 |
MMX Reg 3dNow | - | - |
MMX Reg SSE | 8560.05 | 8398.25 |
SSE PAlign | 9150.80 | 8750.74 |
SSE PAlign SSE | 8996.74 | 8715.17 |
SSE2 PAlign | 9160.76 | 8749.69 |
SSE2 PAlign SSE | 9001.75 | 8724.84 |
MMX Block 4kb | 7748.20 | 7648.23 |
MMX Block 16kb | 8636.91 | 8515.20 |
SSE Block 4kb | 7838.92 | 7731.28 |
SSE Block 16kb | 8753.36 | 8620.84 |
得益于三通道,这个项目中惠普DL4x170h G6服务器的内存带宽高出了对比服务器近1000MB/s,由此看到两者的差异非常明显。在内存指令(集)中,除了部分项目结果较为接近之外,差距还是非常大的。同样,这个项目的测试结果与内存容量并没有直接的关系。
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
CineBench R10 64bit | ||
处理器 | 惠普ProLiant DL4x170h G6 单路Intel Gainestown Xeon E5504 2.0GHz | 单路Intel Gainestown Xeon E5504 |
显卡 | - | - |
CPU Benchmark | ||
Rendering (1 CPU) | 2873 CB-CPU | 2868 CB-CPU |
Rendering (x CPU) | 10578 CB-CPU | 10559 CB-CPU |
Multiprocessor Speedup | 3.68x | 3.68x |
OpenGL Benchmark | ||
OpenGL Standard | 158 CB-GFX | 158 CB-GFX |
这个项目中两款服务器的成绩差距不大,数值基本属于误差范围之内。由于使用了同样的处理器,而且都是单路结构,因此两者在多处理器测试中的表现基本一致。
本次我们测试的惠普DL4x170h G6服务器使用了惠普P212/256MB阵列卡,这款阵列卡配备了256MB容量内存,而且还有独立电池供电。磁盘则使用的是2块希捷Savvio 10K.3系列ST9146803SS硬盘,支持最新的SAS 6.0Gbps传输速度,容量为146GB,转速为10000rpm,缓存为16MB。测试中我们组建了RAID 0阵列。
相比之下,对比服务器只有一块Hitachi Deskstar P7K500 HDP725025GLA380硬盘,通过ICH10R南桥控制,没有阵列。
出现这样的结果在我们的意料之中。除了使用独立的阵列卡之外,惠普DL4x170h G6服务器搭配的是SAS 6Gbps硬盘,而且理论上2.5英寸的硬盘能够提供更高的IOps(相比3.5英寸),最大11000 IOps的结果就显得很正常了。
除了IOps很高之外,组建了RAID 0阵列的磁盘在MBps测试中的表现也很出色。它的读写都达到了200MBps以上,对比服务器由于使用了单SATA硬盘,80MBps的结果也可以接受。
NetBench 7.03 Ent_dm.tst测试脚本模拟的是企业级文件服务器应用,它不但要求被测服务器的磁盘子系统可以提供足够的吞吐量,还需要其具有较高的IO处理能力,并且需要较为平衡的读取能力和写入能力。
虽然在刚才的IOMeter测试中惠普DL4x170h G6服务器的磁盘性能表现得非常强大,但还是在我们的预料之内。但是在NetBench测试中,这样的结果就有点出乎意料了。大家看到,惠普DL4x170h G6服务器的测试曲线几乎呈直线上升,只有在最后的高负载下才出现平缓的趋势,最终的数值定格在了1800。
应该说,这样的结果是我们之前测试服务器中没有预料到的,即便是许多专用的存储服务器也达不到这样的成绩,我们60台客户端的负载差一点就不够了。由此说明,惠普DL4x170h G6服务器不仅是运算性能不错,在磁盘测试中的表现更为出色。
我们利用UNI-T UT71E智能数字万用表和相配套的软件对于对于被测服务器在几种不同的状态下的功耗进行了监测,主要包括如下项目:
P1:连接电源但不开机状态
P2:系统启动完毕,5分钟内无动作,但不休眠
P3:系统启动完毕,处理器满载、磁盘以最大吞吐量工作
这是我们对比平台唯一值得骄傲的项目。从上面的柱状图看出,惠普DL4x170h G6服务器的功耗要比对比平台高一些,在零负载下它的待机功耗为22.7W,空载状态为138.3W,满载情况为182.3W。但是如果结合性能来分析,我们认为惠普DL4x170h G6服务器的功耗还是比较低的,特别是从空载到满载的功耗提升只有不到60W。一方面是由于单节点只有一颗处理器运行,另一方面我们觉得它所使用的80Plus电源也起到了积极的作用。
【IT168评测中心】惠普ProLiant DL4x170h G6是我们在日常测试中不多见的节点服务器。在测试之初,我们对于这台机器的性能也有着一些疑惑。在2U的空间下,它提供了相当于4台双路服务器的运算能力,如果按照刀片服务器的运算能力来看,它的性能应该非常强劲;可是如果计算存储密度的话,似乎又会得到相反的结论。因此,我们还是希望通过实际测试来获得准确的判断。
就外观来说,首先吸引我们的是它的16个2.5英寸磁盘位。在2U体积下能够实现如此多的磁盘位,更是增加了我们的好奇,后来的测试也证明这些磁盘的确发挥了明显的作用。
谈到性能,本次测试的DL4x170h G6并非是优异配置,其处理器也只有一颗至强5500家族中定位低端的E5504。不过从实际测试结果来看,借助Nehalem-EP结构和三通道主板的支持, DL4x170h G6的运算性能较我们之前测试过的同档次服务器来说高出许多,处理器测试成绩高出对比平台30%。而且, DL4x170h G6的磁盘能力也不错,借助RAID 0阵列和2.5英寸6Gbps硬盘,它的IOps可以达到11000,在文件服务器的测试中更是达到了1800 Mbps,接近我们客户端所能够提供的极限性能。
最后说说功耗。对于单个节点来说,DL4x170h G6服务器的最大功耗为182W,待机功耗为22W,按照能效比的观点来看功耗并不高,这得益于80Plus电源的大力支持。
总体看来,我们认为本次测试的惠普ProLiant DL4x170h G6节点服务器是一台非常不错的产品,在2U的空间中提供了强大的处理器能力,其I/O能力更是可圈可点,是一台适合机房采购的产品。(完)