【IT168评测中心】Nehalem-EX时代DELL一共发布了三款机器,一款之前测过的刀片服务器M910,以及两款机架式服务器R810和R910。它们都是四路的机器,不过M910和R810都是属于可以做四路也可以做二路配置的机型。
DELL PowerEdge R810
笔者已经测试过M910,也测试过Intel官方送测的Nehalem-EX样机,对7500系列处理器的表现已经有了一个大致的认识。但是笔者还没有接触过同为Nehalem-EX系列的6500系列处理器。在M910之后送来的R810刚好补全了我们的资料,它是基于6500系列Nehalem-EX:两个Xeon E6540,规格上看,它和E7540很相似,只是它只能组建两路系统而已。
四路Nehalem-EX 戴尔M910服务器评测
4路32核64线程 优异Nehalem-EX平台评测
较为“轻便”的2U机架服务器
前面板就是传统的DELL造型,可以搭载6个2.5"热插拔存储
冗余电源、4个全高2个半高扩展槽位置,此外还具备了4个网络接口
和常见的结构不太一样,R810的风扇位于机箱靠后的位置,位于处理器和扩展卡之间
电源
处理器前方有一个导风罩
热插拔风扇组件
可以安装四个处理器
处理器板与IO板之间的连接
这个模块就是DELL的FlexMemory Bridge模块了
做成了CPU的样子
内部是SMI和QPI的通道
真正的CPU是这样的:Xeon E6540
中央黑色散热器下的就是SMB芯片
内置的H700阵列卡,PERC 6/i的下一代,SAS 6Gb/s接口
双Broadcom BCM5709C芯片,每个芯片提供两个千兆端口,并且每个端口都支持8个RSS队列
扩展槽Riser
在2009年秋我们IT168评测中心网络实验室搬迁到新的机房之后,我们又对实验室的服务器测试平台进行了大幅度的升级,先是将已有的Cisco Catalyst 4506千兆交换机升级到3个模块,达到了一共120个千兆网络端口,还新购买了30台DELL PowerEdge T100服务器,配合原有的30台DELL PowerEdge SC430服务器以及30台PC作为网络测试的客户端,可以提供非常充足的测试压力。
网络实验室控制台
网络实验室机房
Cisco Catalyst 4506千兆交换机,120个千兆铜口
部分Dell PowerEdge SC430服务器
在新的测试环境下,我们进一步完善了服务器性能测试方案:
SPEC CPU 2006 v1.0.1
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。
SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了Intel C++ 11.1.034 Compiler、Intel Fortran 11.1.034 Compiler这两款SPEC CPU 2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(假如只支持SSE3,则使用QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64位的Windows Server 2008 R2 Datacentere下完成,对于每个运算核心,最低配置1.5GB内存。
SiSoftware Sandra v2010
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3&SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一,SiSoftware Sandra 2010对NUMA架构以及最新的Windows 7/Windows Server 2008 R2提供了更好的支持,此外测试项目和测试结果也有了略微的变化。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。
Benchmark Factory for Databases 5.7.1g
我们选择了Benchmark Factory for Databases 5.7.1g软件来进行测试,它是我们之前使用的4.6的升级版本。
我们选择了BF内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。关系性数据库就是用二维表格结构来表示实体及实体之间联系模型的数据库形式。
BF通过一台独立的控制台控制我们的60台服务器充当的客户端产生数据库测试压力,由于客户端所有的资源都用来产生数据库操作,因此可以给服务器施加相当大的测试压力。
CineBench R11.5
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,在服务器测试平台中显示子系统不重要,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
通过FlexMemory Bridge模块,达到双路使用128GB内存的配置(32 DIMMs)。
SiSoftware Sandra Pro Business 2010 | ||||||
---|---|---|---|---|---|---|
测试对象 | 双路Intel Nehalem-EP Xeon X5570 2.93GHz | 双路Intel Westmere-EP Xeon X5670 2.93GHz | 双路Intel Westmere-EP Xeon X5680 3.33GHz | Dawning I840-H 四路Intel Dunnington Xeon X7460 2.66GHz @Sandra 2009 | DELL PowerEdge M910 四路Intel Nehalem-EX Xeon E7540 2.0GHz | DELL PE R810 双路Intel Nehalem-EX Xeon E6540 2.0GHz |
Processor Arithmetic Benchmark 处理器算术性能测试 | ||||||
Aggregate Arithmetic Performance | 147.17GOPS | 218.69GOPS | 249.2GOPS | 298.6GOPS | 152GOPS | |
Dhrystone iSSE4.2 | 172.5GIPS | 257GIPS | 291.36GIPS | 292201MIPS | 350.47GIPS | 174.32GIPS |
Whetstone iSSE3 | 121.84GFLOPS | 180.41GFLOPS | 207GFLOPS | 208685MFLOPS | 246.73GFLOPS | 129.73GFLOPS |
Processor Multi-Media Benchmark 处理器多媒体性能测试 | ||||||
Aggregate Multi-Media Performance | 277MPixel/s | 410.36MPixel/s | 465.8MPixel/s | 753.51MPixel/s | 562.11MPixel/s | 288.38MPixel/s |
Multi-Media Int x16 iSSE4.1 | 317.13MPixel/s | 470.51MPixel/s | 534.13MPixel/s | 283.27MPixel/s | 646.86MPixel/s | 330.77MPixel/s |
Multi-Media Float x8 iSSE2 | 237MPixel/s | 350.2MPixel/s | 397.47MPixel/s | 501.36MPixel/s | 477.37MPixel/s | 246MPixel/s |
Multi-Media Double x4 iSSE2 | 128.62MPixel/s | 190.87MPixel/s | 216.17MPixel/s | 260.18MPixel/s | 260MPixel/s | 133.57MPixel/s |
Multi-Core Efficiency Benchmark 多核效率测试 | ||||||
Inter-Core Bandwidth | 71.15GB/s | 80.7GB/s | 84GB/s | 12.88GB/s | 106.67GB/s | |
Inter-Core Latency (越小越好) | 18ns | 18ns | 16ns | 110ns | 23ns | |
Cryptography Benchmark 加密解密性能测试 | ||||||
Cryptographic Bandwidth | 1.26GB/s | 10.33GB/s | 11.72GB/s | 3GB/s | 1.52GB/s | |
AES128-ECB iAES Cryptographic Bandwidth | 1GB/s | 18.45GB/s | 21GB/s | 2.88GB/s | 1.46GB/s | |
SHA256 iSSE4 Hashing Bandwidth | 1.49GB/s | 2.22GB/s | 2.52GB/s | 3GB/s | 1.58GB/s | |
.NET Arithmetic Benchmark .NET算术性能测试 | ||||||
Aggregate .NET Performance | 55.84GOPS | 73.6GOPS | 80.22GOPS | 89.47GOPS | 58.34GOPS | |
Dhrystone .NET | 32.11GIPS | 32.2GIPS | 37GIPS | 75397MIPS | 31.67GIPS | 33.36GIPS |
Whetstone .NET | 79.56GFLOPS | 115GFLOPS | 123.43GFLOPS | 136088MFLOPS | 147.26GFLOPS | 83.32GFLOPS |
.NET Multi-Media Benchmark .NET多媒体性能测试 | ||||||
Aggregate .NET Multi-Media Performance | 42.13MPixel/s | 63.18MPixel/s | 71.4MPixel/s | 90MPixel/s | 45.8MPixel/s | |
Multi-Media Int x1 .NET | 59MPixel/s | 88.64MPixel/s | 100.36MPixel/s | 119.30MPixel/s | 127.38MPixel/s | 64.34MPixel/s |
Multi-Media Float x1 .NET | 25.22MPixel/s | 37.73MPixel/s | 42.42MPixel/s | 31.74MPixel/s | 52.7MPixel/s | 27.27MPixel/s |
Multi-Media Double x1 .NET | 48.3MPixel/s | 68.45MPixel/s | 78.48MPixel/s | 58.72MPixel/s | 102.48MPixel/s | 52.22MPixel/s |
大致上,双路E6540的运算性能是四路E7540的一半多一些,和预想的差不多。
SiSoftware Sandra Pro Business 2010 | ||||||
---|---|---|---|---|---|---|
测试对象 | 双路Intel Nehalem-EP Xeon X5570 2.93GHz | 双路Intel Westmere-EP Xeon X5670 2.93GHz | 双路Intel Westmere-EP Xeon X5680 3.33GHz | Dawning I840-H 四路Intel Dunnington Xeon X7460 2.66GHz @Sandra 2009 | DELL PowerEdge M910 四路Intel Nehalem-EX Xeon E7540 2.0GHz | DELL PE R810 双路Intel Nehalem-EX Xeon E6540 2.0GHz |
Memory Bandwidth Benchmark 内存带宽测试 | ||||||
Aggregate Memory Performance | 38GB/s | 35GB/s | 35.2GB/s | 33.86GB/s | 33.2GB/s | |
Int Buff'd iSSE2 Memory Bandwidth | 38GB/s | 35GB/s | 35.2GB/s | 3.49GB/s | 33.86GB/s | 33.18GB/s |
Float Buff'd iSSE2 Memory Bandwidth | 38GB/s | 35GB/s | 35.18GB/s | 3.49GB/s | 33.85GB/s | 33.23GB/s |
Memory Latency Benchmark(Random) 内存延迟测试(随机) | ||||||
Memory(Random Access) Latency (越小越好) | 80ns | 83ns | 82ns | 192ns | 161ns(min) | |
Speed Factor (越小越好) | 55.50 | 57.00 | 64.60 | 98.10 | 90 | |
Internal Data Cache | 4clocks | 4clocks | 4clocks | 4clocks | 4clocks | |
L2 On-board Cache | 11clocks | 10clocks | 10clocks | 10clocks | 9clocks | |
L3 On-board Cache | 49clocks | 57clocks | 60clocks | 84clocks | 97clocks | |
Memory Latency Benchmark(Linear) 内存延迟测试(线性) | ||||||
Memory(Linear Access) Latency (越小越好) | 7ns | 7ns | 7ns | 41ns | 32ns(min) | |
Speed Factor (越小越好) | 4.80 | 5.10 | 5.50 | 20.70 | 17.20 | |
Internal Data Cache | 4clocks | 4clocks | 4clocks | 4clocks | 4clocks | |
L2 On-board Cache | 10clocks | 11clocks | 11clocks | 10clocks | 9clocks | |
L3 On-board Cache | 13clocks | 13clocks | 13clocks | 34clocks | 35~45clocks | |
Cache and Memory Benchmark 缓存及内存测试 | ||||||
Cache/Memory Bandwidth | 142GB/s | 183.26GB/s | 195.6GB/s | 315GB/s | 182GB/s | |
Speed Factor (越小越好) | 21.20 | 31.00 | 35.20 | 34.80 | 17.60 | |
Internal Data Cache | 471GB/s | 663.51GB/s | 744.49GB/s | 919.66GB/s | 489.14GB/s | |
L2 On-board Cache | 295.4GB/s | 537.88GB/s | 611GB/s | 749GB/s | 382.72GB/s | |
L3 On-board Cache | 112GB/s | 146.33GB/s | 159GB/s | 336.6GB/s | 215.64GB/s |
内存带宽上,双路E6540和四路E7540差不多,因为双路配置下E6540使用了所有的内存控制器,而四路E7540只使用了一个,两个配置下总的内存通道数量是一样的。延迟上,双路E6540配置还要略低一些。
SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。
前面得出,纯计算能力单个E6540和E7540没什么差别,组成双路的效率比四路的效率还要略高一点。现在,SPEC得出的整数运算吞吐量,R810达到了M910的69.4%,这表明,R810的双路处理器因为使用了完整的两个内存控制器而得到了实际运算效果的提升,比较明显的462.libquantum 量子计算项目就是这样。
SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。
在浮点运算吞吐量上,R810还要比M910高一些(4%),虽然不同的项目有高有低,但是这表明了内存带宽也是很重要的。
CineBench R11.5 64bit | |||||
处理器 | 双路Intel Nehalem-EP Xeon X5570 | 双路Intel Westmere-EP Xeon X5670 | 双路Intel Westmere-EP Xeon X5680 | DELL PowerEdge M910 四路Intel Nehalem-EX Xeon E7540 | DELL PE R810 双路Intel Nehalem-EX Xeon E6540 |
显卡 | - | - | - | - | - |
CPU Benchmark | |||||
Rendering (1 CPU) | 1.02 pts | 1.02 pts | 1.16 pts | 0.78 pts | 0.79 pts |
Rendering (x CPU) | 9.92 pts | 14.58 pts | 16.40 pts | 19.26 pts | 10.32 pts |
Threads | 16 | 24 | 24 | 48 | 24 |
Multiprocessor Speedup | 9.68x | 14.33x | 14.18x | 24.65x | 13.14x |
这个测试比较侧重于更多的计算核心。
MMM - Matrix-Matrix Multiplicaion Benchmark | |||||
处理器 | 双路Intel Nehalem-EP Xeon X5570 | 双路Intel Westmere-EP Xeon X5670 | 双路Intel Westmere-EP Xeon X5680 | DELL PowerEdge M910 四路Intel Nehalem-EX Xeon E7540 | DELL PE R810 双路Intel Nehalem-EX Xeon E6540 |
单位 | GFLOPS | GFLOPS | GFLOPS | GFLOPS | GFLOPS |
Threads 1 | |||||
5000 step | 7.821975 | 7.842319 | 8.877563 | 5.867645 | 6.007474 |
10000 step | 7.890761 | 7.840417 | 8.883291 | 5.865347 | 5.984136 |
15000 step | 7.888751 | 7.845479 | 8.881528 | 5.826604 | 5.90173 |
Threads 2 | |||||
5000 step | 15.59136 | 15.62796 | 17.5891 | 11.570261 | 11.815215 |
10000 step | 15.7544 | 15.66469 | 17.73566 | 11.689317 | 11.870882 |
15000 step | 15.7445 | 15.64657 | 17.67208 | 11.602247 | 11.796412 |
Threads 4 | |||||
5000 step | 30.69218 | 29.99696 | 34.85343 | 21.788607 | 22.342354 |
10000 step | 31.02227 | 29.75883 | 34.90105 | 22.21115 | 22.337463 |
15000 step | 31.04954 | 30.55926 | 34.92557 | 22.073702 | 22.299975 |
Threads 8 | |||||
5000 step | 36.2252 | 49.03697 | 45.99856 | 41.228878 | 28.497565 |
10000 step | 38.21083 | 50.30305 | 45.99856 | 43.472432 | 29.396352 |
15000 step | 40.71236 | 56.00031 | 47.74417 | 43.37777 | 37.193253 |
Threads 16 | |||||
5000 step | 59.38371 | 64.04222 | 66.10022 | 73.379889 | 44.935817 |
10000 step | 61.44583 | 62.42291 | 72.38159 | 78.596851 | 51.056532 |
15000 step | 61.83442 | 64.3761 | 73.2495 | 79.099092 | 54.979568 |
Threads 24 | |||||
5000 step | 54.82514 | 84.13599 | 66.10022 | 94.000418 | 60.406535 |
10000 step | 54.82514 | 88.58685 | 72.38159 | 124.028823 | 63.634763 |
15000 step | 59.18915 | 90.12297 | 73.2495 | 124.574801 | 64.72546 |
Threads 48 | |||||
5000 step | 97.335138 | ||||
10000 step | 119.780984 | ||||
15000 step | 121.637469 |
和Sandra得出的结果差不多。
SunGard Adaptiv Analytics Benchmark v4.0 | |||||
处理器 | 双路Intel Nehalem-EP Xeon X5570 | 双路Intel Westmere-EP Xeon X5670 | 双路Intel Westmere-EP Xeon X5680 | DELL PowerEdge M910 四路Intel Nehalem-EX Xeon E7540 | DELL PE R810 双路Intel Nehalem-EX Xeon E6540 |
Threads | 16 | 24 | 24 | 48 | 24 |
Time (lower is better) | 138.076s | 110.331s | 94.911s | 139.512s | 147.716s |
black_scholes | |||||
处理器 | 双路Intel Nehalem-EP Xeon X5570 | 双路Intel Westmere-EP Xeon X5670 | 双路Intel Westmere-EP Xeon X5680 | DELL PowerEdge M910 四路Intel Nehalem-EX Xeon E7540 | DELL PE R810 双路Intel Nehalem-EX Xeon E6540 |
Threads | 16 | 24 | 24 | 48 | 24 |
Time (lower is better) | 9.17s | 6.16s | 5.51s | 4.40s | 8.28s |
更多的计算能力在这两个测试里面是更好的。
16万TPS左右,比M910还要高点。数据库测试对内存带宽和内存延迟比较敏感。
测试时网络占用率
【IT168评测中心】R810是DELL推出的基于Nehalem-EX处理器的2U服务器,它可以配置为2路也可以配置为4路。R810提供了32个DIMM的内存支持能力,最高容量达512GB,通过DELL的FlexMemory Bridge技术,R810在2路配置下也能完全使用这32个DIMM。R810还支持冗余电源和四个BCM5709C千兆网络端口,通过H700提供了SAS 6Gb/s的阵列支持能力。R810支持6个2.5"热插拔硬盘。
DELL PowerEdge R810
样机配置的是两个Xeon E6540处理器,它和E7540基本没什么区别,除了只能用于双路配置之外。在使用了两个DELL的FlexMemory Bridge模块之后,每个E6540处理器可以应用完整的两个内存控制器以及对应的16个DIMM,从而获得了不错的性能表现,和四路配置的M910相比是互有上下,因为后者每个处理器仅使用了一个内存控制器。我们认为,M910和R910都更适合于双路配置,不过,一些应用下,四路配置也是可以选择的。