【IT168评测中心】2007年年底,Intel推出了代号Stoakley的新平台,新的平台包括了基于新核心(代号Harpertown)的Xeon 5400/5200处理器以及Intel 5400/5100芯片组(代号分别为Seaburg和San Clemente)。然而厂商对于Intel的这次升级换代,跟进的积极性并不大。在我们IT168评测中心举行的《四核争锋 2007年度双路四核服务器横评》,国内市场上9大厂商送测的10款服务器无一例外的均采用了之前Bensley平台,但是更换了Xeon 5400系列处理器。。
我们一直没有能够看到厂商推出采用完全Stoakley平台的产品,直到2008年3月份HP推出了全新的Proliant 100系列的服务器。我们第一时间收到了Proliant DL180 G5和Proliant DL160 G5服务器,前者采用了Intel 5100芯片组,后者则采用了Intel 5400芯片组。HP Proliant DL160 G5是业界第一款基于Stoakley平台的设计的服务器,关于这款服务器的详细解析,可以参见首款Stoakley服务器 DL160G5完全解析。
测试平台
本次送测的HP Proliant DL160 G5服务器配置了单路Xeon 5472处理器,搭载Intel 5400芯片组,5400芯片组和5472 Xeon处理器都是Intel的企业级新品,详细参数见下表:
|
惠普Proliant DL160 G5平台 |
|
| 处理器 | Xeon E5472 x 1 |
| 主频 | 3.00GHz |
| FSB | 1600MHz |
| L1容量 | 64K(Data容量为32K) |
| L2容量 | 12MB(共享) |
| 芯片组 | Intel 5400 Stoakley |
| 内存 | 2GB R-ECC DDR2 667 SDRAM x 4 |
| 硬盘 | 160GB 7200RPM SATA硬盘 x 1 |
| 硬盘设置 | 磁盘分为三个分区,均为NTFS格式,系统默认簇,主分区30GB,其它分为扩展分区,共享文件夹、磁盘测试均在格式化后的50GB分区上进行 |
| 操作系统 | Microsoft Windows Server 2003 R2 Enterprise Edition SP2 |
| 网卡 | Broadcom NetXtreme网卡 |
我们进行了处理性能、内存缓存性能、数据库网络应用辅以基本测试环节进行。具体测试项目如下:
-
SPECCPU2006 v1.0.1
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。
SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了当前最新版本的Intel C++ 10.1.013 Compiler、Intel Fortran 10.1.013 Compiler这两款SPEC CPU2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化,由于测试服务器的45nm Xeon X5472处理器支持SSE4.1,因此我们使用了QxS编译参数。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译优化选项。
我们根据被测系统选择实际可同时处理的线程数量:也就是4个。最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
SPEC CPU 2006的测试比较消耗时间,因此准确度也很高。
-
ScienceMark v2.0 Membench
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
-
IOMeter 2004.7.30
IOMeter是一款功能非常强大的IO测试软件,它除了可以在本机运行测试本机的IO(磁盘)性能之外,还提供了模拟网络应用的能力。在这次的测试中,我们仅仅让它在本机运行测试服务器的磁盘性能。为了全面测试被测服务器的IO性能,我们分别选择了不同的测试脚本。
-
Max_throughput(read):文件尺寸为64KB,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取吞吐量
-
Max_IO(read):文件尺寸为512B,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取操作IO处理能力
-
Max_throughput(write):文件尺寸为64KB,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入吞吐量
-
Max_IO(write):文件尺寸为512B,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入操作IO处理能力
-
WebBench v5.0
WebBench是针对服务器作为Web Server时的性能进行测试,我们在被测服务器上安装了IIS6.0组件,以提供测试所需的Web服务。在测试中我们开启了网络实验室中的56台客户端,分别使用了WebBench 5.0内置的动态CGI以及静态页面脚本对服务器进行了测试。
静态测试是由客户端读取预先放置在服务器Web Server下的Web页面(wbtree),这项测试主要考察的是服务器磁盘系统以及网络连接性能。我们使用了实验室中的56台客户端,配合Static_mt.tst多线程静态脚本测试向被测服务器发送请求。
动态测试偏重于对服务器CPU子系统的性能测试,它对于Web服务器提供了足够的负载。我们将一个C语言编写的CGI源文件Simcigi.c编译为Simcgi.exe,并将其作为动态测试中的CGI脚本。在测试过程中,每台安装了WebBench客户端软件的PC,会在300秒的时间内持续向服务器发送CGI请求,而控制台会纪录并汇总服务器所响应CGI请求的数据。CGI测试的成绩高低,主要取决于服务器处理器子系统性能的优劣。处理器子系统包括CPU、内存以及内存控制器,CPU频率、缓存以及内存容量大小和内存带宽,都会影响该项成绩。
-
NetBench v7.03
NetBench是针对文件服务器的性能测试软件,影响NetBench性能的主要是服务器的磁盘子系统,服务器磁盘控制器、条带大小、读写缓存、硬盘类型、组建磁盘阵列模式、内存容量、网络拓朴结构等都会对测试结果有明显的影响。我们在被测服务器上设立了文件服务器,NetBench通过网络实验室中60个客户端来模拟网络中的PC向文件服务器所发出的文件传输请求,文件服务器则将存储在磁盘上的文件数据发送给相应的客户端。在测试过程中,客户端会以每四台一组的步进依次增加并且向服务器发送文件传输请求,测试结束后控制台收集数据并绘制出服务器的数据传输变化曲线。
处理性能测试
|
SPEC CPU 2006 |
||
| 厂商 | 惠普 | |
| 产品型号 | DL160G5 | |
| 开启线程数 | 4 | |
| 410.bwaves |
14.6 |
|
| 416.gamess | 32.6 | |
| 433.milc | 19.6 | |
| 434.zeusmp | 16.5 | |
| 435.gromacs | 21.6 | |
| 436.cactusADM | 19.3 | |
| 437.leslie3d | 13.8 | |
| 444.namd | 21.1 | |
| 447.dealII | 27.1 | |
| 450.soplex | 15.3 | |
| 453.povray | 29.9 | |
| 454.calculix | 21.7 | |
| 459.GemsFDTD | 11.5 | |
| 465.tonto | 25.1 | |
| 470.lbm | 16.8 | |
| 481.wrf | 16.2 | |
| 482.sphinx3 | 23.1 | |
|
SPECfp_rate_base2006 |
23.1 | |
|
SPEC CPU 2006 |
||
| 厂商 | 惠普 | |
| 产品型号 | DL160G5 | |
| 开启线程数 | 4 | |
| 400.perlbench | 19.5 | |
| 401.bzip2 | 17.8 | |
| 403.gccc | 23.7 | |
| 429.mcf | 13.0 | |
| 445.gobmk | 55.2 | |
| 456.hmmer | 22.5 | |
| 458.sjeng | 45.0 | |
| 462.libquantum | 36.8 | |
| 464.h264ref | 77.4 | |
| 471.omnetpp | 14.4 | |
| 473.astar | 15.3 | |
| 483.xalancbmk | 1.79 | |
|
SPECint_rate_base2006 |
20.9 | |
在内存缓存测试环节,我们采用ScienceMark科学计算测试中的Membench项目:
|
ScienceMark Membench |
||
| 厂商 | 惠普 | |
| 产品型号 | HP DL160G5 | |
| 内存技术参数 | 2GB FBD DDR2 667 SDRAM x 4 |
|
| L1带宽 | 78333.03 | |
| L2带宽 | 23996.18 | |
| 内存带宽(MB/s) | 4805.22 | |
| L1 Cache Latency(ns) | ||
| 32 Bytes Stride | 1.00 | |
| L2 Cache Latency(ns) | ||
| 4 Bytes Stride | 1.00 | |
| 16 Bytes Stride | 1.34 | |
| 64 Bytes Stride | 4.34 | |
| 256 Bytes Stride | 4.34 | |
| 512 Bytes Stride | 4.66 | |
| Memory Latency(ns) | ||
| 4 Bytes Stride | 4.01 | |
| 16 Bytes Stride | 15.37 | |
| 64 Bytes Stride | 58.81 | |
| 256 Bytes Stride | 63.83 | |
| 512 Bytes Stride | 71.18 | |
| Algorithm Bandwidth(MB/s) | ||
| Compiler |
3120.49 |
|
| REP MOVSD | 3144.82 | |
| ALU Reg Copy | 1926.70 | |
| MMX Reg Copy | 2066.14 | |
| MMX Reg 3dNow | --- | |
| MMX Reg SSE | 4793.54 | |
| SSE PAlign | 3786.67 | |
| SSE PAlign SSE | 4803.23 | |
| SSE2 PAlign | 3781.78 | |
| SSE2 PAlign SSE | 4805.22 | |
| MMX Block 4kb | 3989.46 | |
| MMX Block 16kb | 4312.89 | |
| SSE Block 4kb | 4053.80 | |
| SSE Block 16kb | 4361.82 | |
从上表我们可以看到,新的5472 1600MHz的FSB和5400 Stoakley芯片组的内存带宽相对比我们以往测试的要高一些,例如,4805.22MB/s的带宽比180G5 3900MB/s的带宽高上不少,各项架构测试的性能带宽也基本上有所提升。
我们测试的样机HP 160G5采用了单块160GB 7200RPM SATA硬盘。

IO读写
峰值读取IOps为13000,峰值写入IOps则略低于13000,并在队列深度为128的时候达到,这很奇怪,因此SATA的NCQ本地命令排序仅能支持32个队列深度,这表明160G5的磁盘系统对较高的队列深度也能很好地支持。

IO吞吐量
对于单个磁盘来说,性能很是不错,读吞吐量都在70MB/s左右,写则略低,在53MB/s到63MB/s之间。
NetBench 7.03 Ent_dm.tst测试脚本模拟的是企业级文件服务器应用,它不但要求被测服务器的磁盘子系统可以提供足够的吞吐量,还需要其具有较高的IO处理能力,并且需要较为平衡的读取能力和写入能力。

受到只有一个硬盘的限制,160G5的峰值吞吐量仅略高于150Mbps,不过,在客户端逐渐增长的情形下,其性能持续增长,表现出良好的伸缩性。
Web服务器测试分为静态应用测试和动态应用测试,处理器计算能力、缓存内存效能则对于动态应用的性能有明显影响,而IO能力对于静态应用的性能有明显的影响。

静态
静态测试曲线显示,HP 160G5服务器最高可处理18000个静态请求,事实上,这是网络带宽带来的限制。

动态
动态测试和处理器以及内存都有关系,在同样是1个处理器的情况下,160G5最高接近8000的每秒动态请求处理数量要比180G5高出约30%。
IT168评测中心观点
HP ProLiant DL160 G5是瞄准性能级别的计算平台,它采用了ntel的新Xeon 54x2系列处理器和最新的5400 Stoakley芯片组,54x2系列处理器支持1600MHz的FSB,Stoakley平台则支持24MB的Snoop Filter缓存,并提供强大的扩展能力,这两者的配合可以产生极强的运算能力。这款服务器很适合作为高性能计算的平台。
从测试结果来看,单Xeon 5372处理器的160G5性能比起以往测试的5300处理器+5000P芯片组效率有了较明显的提升,相信满配置的160G5可以提供强大的处理能力。