【IT168评测中心】在今年3月16日(美国时间),Intel发布了Nehalem-EP处理器的继任者Westmere-EP。新一代的处理器采用了32nm工艺制程,在功耗大致不变的情况下,将处理器的核心数量提升到了6个,并在各个方面都有所改进。
一般来说,各大服务器厂商随后都会推出采用新的处理器以及融合其他新技术的一系列产品,只是今年来的似乎晚一些。HP的采用Westmere-EP处理器的新一代双路服务器产品以G7为后缀,例如,我们收到的一台ProLiant DL380 G7,是上一年我们测过的DL380 G6的后续型号。
HP ProLiant DL380 G7服务器
DL380 G7外观上和DL380 G6没有太大区别,它们的内部有什么差别呢?
2010.03,32nm Westmere Xeon发布:
Intel 32nm Westmere-EP处理器首发评测
用来拖出服务器的一个设计
这个小塑料条上记载了寻求技术支持必须的信息;它右边的LED阵列指示了各大主要配件的工作状况
支持冗余电源
操作需要内六角扳手……机器自带了一个(注意上上图和上图的分别)
460W的电源,单路12V输出38.3A
硬盘笼的背板,使用常见的SFF8087插头
一共六个热插拔风扇
散热器下的是单路Xeon E5620处理器,代号Westmere-EP,32nm工艺,4核心带超线程,频率2.40GHz
可以看到,E5620特别的地方是它4个核心也具有12MB的L3缓存;它的TDP是80W
自带三条R-DDR3 1333内存,不过,E5620处理器只支持到DDR3-1066
使用的15000RPM 146GB硬盘,一共三个,通过一个阵列卡搭建成一个RAID 5阵列
Broadcom BCM5709C双口千兆网卡,具有普通的TOE卸载引擎以及iSCSIoE卸载引擎和RDMA引擎,并支持RSS、MSI/MSI-X特性
在2009年秋我们IT168评测中心网络实验室搬迁到新的机房之后,我们又对实验室的服务器测试平台进行了大幅度的升级,先是将已有的Cisco Catalyst 4506千兆交换机升级到3个模块,达到了一共120个千兆网络端口,还新购买了30台DELL PowerEdge T100服务器,配合原有的30台DELL PowerEdge SC430服务器以及30台PC作为网络测试的客户端,可以提供非常充足的测试压力。

网络实验室控制台

网络实验室机房

Cisco Catalyst 4506千兆交换机,120个千兆铜口

部分Dell PowerEdge SC430服务器
在新的测试环境下,我们进一步完善了服务器性能测试方案:
SPEC CPU 2006 v1.0.1
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。
SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler这两款SPEC CPU 2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(假如只支持SSE3,则使用QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64位的Windows Server 2008 R2 Datacentere下完成,对于每个运算核心,最低配置1.5GB内存。
SiSoftware Sandra v2010
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3&SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一,SiSoftware Sandra 2010对NUMA架构以及最新的Windows 7/Windows Server 2008 R2提供了更好的支持,此外测试项目和测试结果也有了略微的变化。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。
WebBench v5.0
WebBench是针对服务器作为Web Server时的性能进行测试,我们在被测服务器上安装了IIS组件,以提供测试所需的Web服务。在测试中我们使用了网络实验室中的60台客户端,配置了120个测试引擎,分别使用了WebBench 5.0内置的动态CGI以及静态页面脚本对服务器进行了测试。
静态测试是由客户端读取预先放置在服务器Web Server下的Web页面(wbtree),这项测试主要考察的是服务器磁盘系统以及网络连接性能。我们使用了实验室中的56台客户端,配合Static_mt.tst多线程静态脚本测试向被测服务器发送请求。
动态测试偏重于对服务器CPU子系统的性能测试,它对于Web服务器提供了足够的负载。我们将一个C语言编写的CGI源文件Simcigi.c编译为Simcgi.exe,并将其作为动态测试中的CGI脚本。在测试过程中,每台安装了WebBench客户端软件的PC,会在300秒的时间内持续向服务器发送CGI请求,而控制台会纪录并汇总服务器所响应CGI请求的数据。CGI测试的成绩高低,主要取决于服务器处理器子系统性能的优劣。处理器子系统包括CPU、内存以及内存控制器,CPU频率、缓存以及内存容量大小和内存带宽,都会影响该项成绩。
Benchmark Factory for Databases 5.7.1g
我们选择了Benchmark Factory for Databases 5.7.1g软件来进行测试,它是我们之前使用的4.6的升级版本。
我们选择了BF内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。关系性数据库就是用二维表格结构来表示实体及实体之间联系模型的数据库形式。
BF通过一台独立的控制台控制我们的60台服务器充当的客户端产生数据库测试压力,由于客户端所有的资源都用来产生数据库操作,因此可以给服务器施加相当大的测试压力。
CineBench R11.5
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,在服务器测试平台中显示子系统不重要,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
我们准备了数个用来对比的平台。在一些DL380 G6没有进行的新测试项目中,将使用Xeon X5680的数据来代替,X5680的频率比X5670高一些,其他方面和X5670平台没什么区别。
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。
SiSoftware Sandra Pro Business 2010 | ||||
---|---|---|---|---|
测试对象 | 双路Intel Nehalem-EP Xeon X5570 | 双路Intel Westmere-EP Xeon X5670 | HP ProLiant DL380 G6 双路Intel Nehalem-EP Xeon E5540 | HP ProLiant DL360 G7 单路Intel Westmere-EP Xeon E5620 |
Processor Arithmetic Benchmark 处理器算术性能测试 | ||||
Aggregate Arithmetic Performance | 147.17GOPS | 218.69GOPS | 133.63GOPS | 62.33GOPS |
Dhrystone iSSE4.2 | 172.5GIPS | 257GIPS | 156.4GIPS | 72.4GIPS |
Whetstone iSSE3 | 121.84GFLOPS | 180.41GFLOPS | 110.88GFLOPS | 52.26GFLOPS |
Processor Multi-Media Benchmark 处理器多媒体性能测试 | ||||
Aggregate Multi-Media Performance | 251.49MPixel/s | 118.86MPixel/s | ||
Multi-Media Int x16 iSSE4.1 | 317.13MPixel/s | 470.51MPixel/s | 288MPixel/s | 136.21MPixel/s |
Multi-Media Float x8 iSSE2 | 237MPixel/s | 350.2MPixel/s | 215MPixel/s | 101.5MPixel/s |
Multi-Media Double x4 iSSE2 | 128.62MPixel/s | 190.87MPixel/s | 116.69MPixel/s | 55.24MPixel/s |
Multi-Core Efficiency Benchmark 多核效率测试 | ||||
Inter-Core Bandwidth | 71.15GB/s | 80.7GB/s | 61GB/s | 31.38GB/s |
Inter-Core Latency (越小越好) | 18ns | 18ns | 18ns | 20ns |
Cryptography Benchmark 加密解密性能测试 | ||||
Cryptographic Bandwidth | 4GB/s | |||
AES128-ECB iAES Cryptographic Bandwidth | 7.43GB/s | |||
SHA256 iSSE4 Hashing Bandwidth | 661MB/s | |||
.NET Arithmetic Benchmark .NET算术性能测试 | ||||
Aggregate .NET Performance | 48.46GIPS | 24.63GIPS | ||
Dhrystone .NET | 32.11GIPS | 32.2GIPS | 29.13GIPS | 13.85GIPS |
Whetstone .NET | 79.56GFLOPS | 115GFLOPS | 67.8GFLOPS | 35.4GFLOPS |
.NET Multi-Media Benchmark .NET多媒体性能测试 | ||||
Aggregate .NET Multi-Media Performance | 38MPixel/s | 18MPixel/s | ||
Multi-Media Int x1 .NET | 59MPixel/s | 88.64MPixel/s | 53.4MPixel/s | 25.4MPixel/s |
Multi-Media Float x1 .NET | 25.22MPixel/s | 37.73MPixel/s | 22.78MPixel/s | 10.68MPixel/s |
Multi-Media Double x1 .NET | 48.3MPixel/s | 68.45MPixel/s | 43.6MPixel/s | 19.85MPixel/s |
单路配置限制了DL380 G7的发挥。
SiSoftware Sandra缓存内存测试主要包括内存带宽、内存延迟等性能的测试。
SiSoftware Sandra Pro Business 2010 | ||||
---|---|---|---|---|
测试对象 | 双路Intel Nehalem-EP Xeon X5570 | 双路Intel Westmere-EP Xeon X5670 | HP ProLiant DL380 G6 双路Intel Nehalem-EP Xeon E5540 | HP ProLiant DL360 G7 单路Intel Westmere-EP Xeon E5620 |
Memory Bandwidth Benchmark 内存带宽测试 | ||||
Aggregate Memory Performance | 24.19GB/s | 19GB/s | ||
Int Buff'd iSSE2 Memory Bandwidth | 38GB/s | 35GB/s | 24.18GB/s | 19GB/s |
Float Buff'd iSSE2 Memory Bandwidth | 38GB/s | 35GB/s | 24.2GB/s | 19GB/s |
Memory Latency Benchmark(Random) 内存延迟测试(随机) | ||||
Memory(Random Access) Latency (越小越好) | 80ns | 83ns | 114ns | 90ns |
Speed Factor (越小越好) | 55.50 | 57.00 | 77.10 | 58.00 |
Internal Data Cache | 4clocks | 4clocks | 4clocks | 4clocks |
L2 On-board Cache | 11clocks | 10clocks | 9clocks | 9clocks |
L3 On-board Cache | 49clocks | 57clocks | 47clocks | 51clocks |
Memory Latency Benchmark(Linear) 内存延迟测试(线性) | ||||
Memory(Linear Access) Latency (越小越好) | 7ns | 7ns | 12ns | 7ns |
Speed Factor (越小越好) | 4.80 | 5.10 | 7.60 | 4.70 |
Internal Data Cache | 4clocks | 4clocks | 4clocks | 4clocks |
L2 On-board Cache | 10clocks | 11clocks | 11clocks | 9clocks |
L3 On-board Cache | 13clocks | 13clocks | 13clocks | 11clocks |
Cache and Memory Benchmark 缓存及内存测试 | ||||
Cache/Memory Bandwidth | 142GB/s | 183.26GB/s | 120GB/s | 58.64GB/s |
Speed Factor (越小越好) | 21.20 | 31.00 | 25.40 | 20.10 |
Internal Data Cache | 471GB/s | 663.51GB/s | 425.58GB/s | 207.22GB/s |
L2 On-board Cache | 295.4GB/s | 537.88GB/s | 270.3GB/s | 128.47GB/s |
L3 On-board Cache | 92.56GB/s | 36GB/s |
单路配置下,在某几项延迟指标中表现不错。
SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。
SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
CineBench R11.5 64bit | ||||
处理器 | 双路Intel Nehalem-EP Xeon X5570 | 双路Intel Westmere-EP Xeon X5670 | 双路Intel Westmere-EP Xeon X5680 | HP ProLiant DL360 G7 单路Intel Westmere-EP Xeon E5620 |
显卡 | - | - | - | - |
CPU Benchmark | ||||
Rendering (1 CPU) | 1.02 pts | 1.02 pts | 1.16 pts | 0.91 pts |
Rendering (x CPU) | 9.92 pts | 14.58 pts | 16.40 pts | 4.31 pts |
Multiprocessor Speedup | 9.68x | 14.33x | 14.18x | 4.73x |
总成绩是4.31 pts。
Web服务器测试分为静态应用测试和动态应用测试,处理器计算能力、缓存内存效能则对于动态应用的性能有明显影响,而IO能力对于静态应用的性能有明显的影响。
Web服务器使用了Windows Server 2008 R2自带的IIS 7.5。
静态页面下的性能已经超过了单个千兆网口的极限,这表明瓶颈是在处理器上。网络子系统用的是4个BCM5709C千兆网口的端口聚合。
静态页面性能
动态页面性能
峰值是75749 TPS,比频率相近的单路Nehalem-EP约6万多的成绩要好不少。
【IT168评测中心】DL380 G7是惠普第七代服务器当中的2U主流规格型号,采用了最新的Intel 32nm Westmere-EP处理器,不过遗憾的是我们收到的DL380 G7样机是单路E5620配置,没有完全发挥出Westmere-EP的威力。高端的Westmere-EP型号可以提供默认频率3.33GHz、六个核心十二个线程,提供非常充足的计算能力。用户可以在购买时选择处理器、内存等部件的规格配置。
HP ProLiant DL380 G7服务器
由于配置较低,因此测试成绩不会让人具有太深刻的印象,不过,测试中它也提供了不错的性能,可以满足小型网站、小型工作组的需求。此外,HP ProLiant DL380 G7的前面板LED指示灯非常有用,帮助我们及时排除了测试中出现过的几次内存没插好的现象。DL380 G6的整体工业设计很不错。
2010.03,32nm Westmere Xeon发布:
Intel 32nm Westmere-EP处理器首发评测