服务器 频道

双路6500至强 戴尔R810机架服务器评测

  【IT168评测中心】Nehalem-EX时代DELL一共发布了三款机器,一款之前测过的刀片服务器M910,以及两款机架式服务器R810和R910。它们都是四路的机器,不过M910和R810都是属于可以做四路也可以做二路配置的机型。

DELL PowerEdge R810机架服务器
DELL PowerEdge R810

  笔者已经测试过M910,也测试过Intel官方送测的Nehalem-EX样机,对7500系列处理器的表现已经有了一个大致的认识。但是笔者还没有接触过同为Nehalem-EX系列的6500系列处理器。在M910之后送来的R810刚好补全了我们的资料,它是基于6500系列Nehalem-EX:两个Xeon E6540,规格上看,它和E7540很相似,只是它只能组建两路系统而已。

四路Nehalem-EX 戴尔M910服务器评测

4路32核64线程 优异Nehalem-EX平台评测

 

DELL PowerEdge M910外观
较为“轻便”的2U机架服务器

DELL PowerEdge M910外观
前面板就是传统的DELL造型,可以搭载6个2.5"热插拔存储

DELL PowerEdge M910外观
冗余电源、4个全高2个半高扩展槽位置,此外还具备了4个网络接口

 

DELL PowerEdge M910内部结构
和常见的结构不太一样,R810的风扇位于机箱靠后的位置,位于处理器和扩展卡之间

DELL PowerEdge M910内部结构
电源

DELL PowerEdge M910内部结构
处理器前方有一个导风罩

DELL PowerEdge M910内部结构
热插拔风扇组件

DELL PowerEdge M910内部结构

 

处理器子系统:Xeon E6540
可以安装四个处理器

处理器子系统:Xeon E6540
处理器板与IO板之间的连接

处理器子系统:Xeon E6540
这个模块就是DELL的FlexMemory Bridge模块了

处理器子系统:Xeon E6540
做成了CPU的样子

处理器子系统:Xeon E6540
内部是SMI和QPI的通道

处理器子系统:Xeon E6540
真正的CPU是这样的:Xeon E6540

处理器子系统:Xeon E6540

 

内存子系统及外围组件

 

内存子系统及外围组件
中央黑色散热器下的就是SMB芯片

内存子系统及外围组件
内置的H700阵列卡,PERC 6/i的下一代,SAS 6Gb/s接口

内存子系统及外围组件

 

 

内存子系统及外围组件
双Broadcom BCM5709C芯片,每个芯片提供两个千兆端口,并且每个端口都支持8个RSS队列

内存子系统及外围组件
扩展槽Riser

  在2009年秋我们IT168评测中心网络实验室搬迁到新的机房之后,我们又对实验室的服务器测试平台进行了大幅度的升级,先是将已有的Cisco Catalyst 4506千兆交换机升级到3个模块,达到了一共120个千兆网络端口,还新购买了30台DELL PowerEdge T100服务器,配合原有的30台DELL PowerEdge SC430服务器以及30台PC作为网络测试的客户端,可以提供非常充足的测试压力。


网络实验室控制台

网络实验室机房

Cisco Catalyst 4506千兆交换机,120个千兆铜口

部分Dell PowerEdge SC430服务器

  在新的测试环境下,我们进一步完善了服务器性能测试方案:

  • SPEC CPU 2006 v1.0.1

  SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。

  SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。

  SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。

  SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。

  我们在被测服务器中安装了Intel C++ 11.1.034 Compiler、Intel Fortran 11.1.034 Compiler这两款SPEC CPU 2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(假如只支持SSE3,则使用QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。

  和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64位的Windows Server 2008 R2 Datacentere下完成,对于每个运算核心,最低配置1.5GB内存。

  • SiSoftware Sandra v2010

  SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3&SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一,SiSoftware Sandra 2010对NUMA架构以及最新的Windows 7/Windows Server 2008 R2提供了更好的支持,此外测试项目和测试结果也有了略微的变化。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。

  • Benchmark Factory for Databases 5.7.1g

  我们选择了Benchmark Factory for Databases 5.7.1g软件来进行测试,它是我们之前使用的4.6的升级版本。

  我们选择了BF内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。关系性数据库就是用二维表格结构来表示实体及实体之间联系模型的数据库形式。

  BF通过一台独立的控制台控制我们的60台服务器充当的客户端产生数据库测试压力,由于客户端所有的资源都用来产生数据库操作,因此可以给服务器施加相当大的测试压力。

  •  CineBench R11.5 

  CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,在服务器测试平台中显示子系统不重要,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。

 

服务器对比测试平台

   通过FlexMemory Bridge模块,达到双路使用128GB内存的配置(32 DIMMs)。

 

SiSoftware Sandra Pro Business 2010
测试对象
双路Intel Nehalem-EP
Xeon X5570
2.93GHz
双路Intel Westmere-EP
Xeon X5670
2.93GHz
双路Intel Westmere-EP
Xeon X5680
3.33GHz
Dawning I840-H
四路Intel Dunnington
Xeon X7460
2.66GHz
@Sandra 2009
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
2.0GHz
DELL PE R810
双路Intel Nehalem-EX
Xeon E6540
2.0GHz
Processor Arithmetic Benchmark
处理器算术性能测试
Aggregate Arithmetic Performance
147.17GOPS218.69GOPS249.2GOPS 298.6GOPS152GOPS
Dhrystone iSSE4.2
172.5GIPS257GIPS291.36GIPS292201MIPS350.47GIPS174.32GIPS
Whetstone iSSE3
121.84GFLOPS180.41GFLOPS207GFLOPS208685MFLOPS246.73GFLOPS129.73GFLOPS
Processor Multi-Media Benchmark
处理器多媒体性能测试
Aggregate Multi-Media Performance
277MPixel/s410.36MPixel/s465.8MPixel/s753.51MPixel/s562.11MPixel/s288.38MPixel/s
Multi-Media Int x16 iSSE4.1
317.13MPixel/s470.51MPixel/s534.13MPixel/s283.27MPixel/s646.86MPixel/s330.77MPixel/s
Multi-Media Float x8 iSSE2
237MPixel/s350.2MPixel/s397.47MPixel/s501.36MPixel/s477.37MPixel/s246MPixel/s
Multi-Media Double x4 iSSE2
128.62MPixel/s190.87MPixel/s216.17MPixel/s260.18MPixel/s260MPixel/s133.57MPixel/s
Multi-Core Efficiency Benchmark
多核效率测试
Inter-Core Bandwidth
71.15GB/s80.7GB/s84GB/s12.88GB/s 106.67GB/s
Inter-Core Latency
(越小越好)
18ns18ns16ns110ns 23ns
Cryptography Benchmark
加密解密性能测试
Cryptographic Bandwidth
1.26GB/s10.33GB/s11.72GB/s 3GB/s1.52GB/s
AES128-ECB iAES
Cryptographic Bandwidth
1GB/s18.45GB/s21GB/s 2.88GB/s1.46GB/s
SHA256 iSSE4 Hashing Bandwidth
1.49GB/s2.22GB/s2.52GB/s 3GB/s1.58GB/s
.NET Arithmetic Benchmark
.NET算术性能测试
Aggregate .NET Performance
55.84GOPS73.6GOPS80.22GOPS 89.47GOPS58.34GOPS
Dhrystone .NET
32.11GIPS32.2GIPS37GIPS75397MIPS31.67GIPS33.36GIPS
Whetstone .NET
79.56GFLOPS115GFLOPS123.43GFLOPS136088MFLOPS147.26GFLOPS83.32GFLOPS
.NET Multi-Media Benchmark
.NET多媒体性能测试
Aggregate .NET Multi-Media Performance
42.13MPixel/s63.18MPixel/s71.4MPixel/s 90MPixel/s45.8MPixel/s
Multi-Media Int x1 .NET
59MPixel/s88.64MPixel/s100.36MPixel/s119.30MPixel/s127.38MPixel/s64.34MPixel/s
Multi-Media Float x1 .NET
25.22MPixel/s37.73MPixel/s42.42MPixel/s31.74MPixel/s52.7MPixel/s27.27MPixel/s
Multi-Media Double x1 .NET
48.3MPixel/s68.45MPixel/s78.48MPixel/s58.72MPixel/s102.48MPixel/s52.22MPixel/s

   大致上,双路E6540的运算性能是四路E7540的一半多一些,和预想的差不多。

SiSoftware Sandra Pro Business 2010
测试对象
双路Intel Nehalem-EP
Xeon X5570
2.93GHz
双路Intel Westmere-EP
Xeon X5670
2.93GHz
双路Intel Westmere-EP
Xeon X5680
3.33GHz
Dawning I840-H
四路Intel Dunnington
Xeon X7460
2.66GHz
@Sandra 2009
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
2.0GHz
DELL PE R810
双路Intel Nehalem-EX
Xeon E6540
2.0GHz
Memory Bandwidth Benchmark
内存带宽测试
Aggregate Memory Performance
38GB/s35GB/s35.2GB/s 33.86GB/s33.2GB/s
Int Buff'd iSSE2 Memory Bandwidth
38GB/s35GB/s35.2GB/s3.49GB/s33.86GB/s33.18GB/s
Float Buff'd iSSE2 Memory Bandwidth
38GB/s35GB/s35.18GB/s3.49GB/s33.85GB/s33.23GB/s
Memory Latency Benchmark(Random)
内存延迟测试(随机)
Memory(Random Access) Latency
(越小越好)
80ns83ns82ns 192ns161ns(min)
Speed Factor
(越小越好)
55.5057.0064.60 98.1090
Internal Data Cache
4clocks4clocks4clocks 4clocks4clocks
L2 On-board Cache
11clocks10clocks10clocks 10clocks9clocks
L3 On-board Cache
49clocks57clocks60clocks 84clocks97clocks
Memory Latency Benchmark(Linear)
内存延迟测试(线性)
Memory(Linear Access) Latency
(越小越好)
7ns7ns7ns 41ns32ns(min)
Speed Factor
(越小越好)
4.805.105.50 20.7017.20
Internal Data Cache
4clocks4clocks4clocks 4clocks4clocks
L2 On-board Cache
10clocks11clocks11clocks 10clocks9clocks
L3 On-board Cache
13clocks13clocks13clocks 34clocks35~45clocks
Cache and Memory Benchmark
缓存及内存测试
Cache/Memory Bandwidth
142GB/s183.26GB/s195.6GB/s 315GB/s182GB/s
Speed Factor
(越小越好)
21.2031.0035.20 34.8017.60
Internal Data Cache
471GB/s663.51GB/s744.49GB/s 919.66GB/s489.14GB/s
L2 On-board Cache
295.4GB/s537.88GB/s611GB/s 749GB/s382.72GB/s
L3 On-board Cache
112GB/s146.33GB/s159GB/s 336.6GB/s215.64GB/s

  内存带宽上,双路E6540和四路E7540差不多,因为双路配置下E6540使用了所有的内存控制器,而四路E7540只使用了一个,两个配置下总的内存通道数量是一样的。延迟上,双路E6540配置还要略低一些。

  SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。

SPEC CPU 2006整数性能测试

   前面得出,纯计算能力单个E6540和E7540没什么差别,组成双路的效率比四路的效率还要略高一点。现在,SPEC得出的整数运算吞吐量,R810达到了M910的69.4%,这表明,R810的双路处理器因为使用了完整的两个内存控制器而得到了实际运算效果的提升,比较明显的462.libquantum 量子计算项目就是这样。

  SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。

SPEC CPU 2006浮点性能测试

  在浮点运算吞吐量上,R810还要比M910高一些(4%),虽然不同的项目有高有低,但是这表明了内存带宽也是很重要的。

 

CineBench R11.5 64bit
处理器双路Intel Nehalem-EP
Xeon X5570
双路Intel Westmere-EP
Xeon X5670
双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
DELL PE R810
双路Intel Nehalem-EX
Xeon E6540
显卡-----
CPU Benchmark
Rendering (1 CPU)1.02 pts1.02 pts1.16 pts0.78 pts0.79 pts
Rendering (x CPU)9.92 pts14.58 pts16.40 pts19.26 pts10.32 pts
Threads1624244824
Multiprocessor Speedup9.68x14.33x14.18x24.65x13.14x

   这个测试比较侧重于更多的计算核心。

MMM - Matrix-Matrix Multiplicaion Benchmark
处理器双路Intel Nehalem-EP
Xeon X5570
双路Intel Westmere-EP
Xeon X5670
双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
DELL PE R810
双路Intel Nehalem-EX
Xeon E6540
单位GFLOPSGFLOPSGFLOPSGFLOPSGFLOPS
Threads 1
5000 step7.8219757.8423198.8775635.8676456.007474
10000 step7.8907617.8404178.8832915.8653475.984136
15000 step7.8887517.8454798.8815285.8266045.90173
Threads 2
5000 step15.5913615.6279617.589111.57026111.815215
10000 step15.754415.6646917.7356611.68931711.870882
15000 step15.744515.6465717.6720811.60224711.796412
Threads 4
5000 step30.6921829.9969634.8534321.78860722.342354
10000 step31.0222729.7588334.9010522.2111522.337463
15000 step31.0495430.5592634.9255722.07370222.299975
Threads 8
5000 step36.225249.0369745.9985641.22887828.497565
10000 step38.2108350.3030545.9985643.47243229.396352
15000 step40.7123656.0003147.7441743.3777737.193253
Threads 16
5000 step59.3837164.0422266.1002273.37988944.935817
10000 step61.4458362.4229172.3815978.59685151.056532
15000 step61.8344264.376173.249579.09909254.979568
Threads 24
5000 step54.8251484.1359966.1002294.00041860.406535
10000 step54.8251488.5868572.38159124.02882363.634763
15000 step59.1891590.1229773.2495124.57480164.72546
Threads 48
5000 step   97.335138 
10000 step   119.780984 
15000 step   121.637469 

   和Sandra得出的结果差不多。

SunGard Adaptiv Analytics Benchmark v4.0
处理器双路Intel Nehalem-EP
Xeon X5570
双路Intel Westmere-EP
Xeon X5670
双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
DELL PE R810
双路Intel Nehalem-EX
Xeon E6540
Threads1624244824
Time
(lower is better)
138.076s110.331s94.911s139.512s147.716s

black_scholes
处理器双路Intel Nehalem-EP
Xeon X5570
双路Intel Westmere-EP
Xeon X5670
双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
DELL PE R810
双路Intel Nehalem-EX
Xeon E6540
Threads1624244824
Time
(lower is better)
9.17s6.16s5.51s4.40s8.28s

   更多的计算能力在这两个测试里面是更好的。

 

SQL2005数据库测试

   16万TPS左右,比M910还要高点。数据库测试对内存带宽和内存延迟比较敏感。

SQL2005数据库测试
测试时网络占用率

  【IT168评测中心】R810是DELL推出的基于Nehalem-EX处理器的2U服务器,它可以配置为2路也可以配置为4路。R810提供了32个DIMM的内存支持能力,最高容量达512GB,通过DELL的FlexMemory Bridge技术,R810在2路配置下也能完全使用这32个DIMM。R810还支持冗余电源和四个BCM5709C千兆网络端口,通过H700提供了SAS 6Gb/s的阵列支持能力。R810支持6个2.5"热插拔硬盘。

DELL PowerEdge R810机架服务器
DELL PowerEdge R810

  样机配置的是两个Xeon E6540处理器,它和E7540基本没什么区别,除了只能用于双路配置之外。在使用了两个DELL的FlexMemory Bridge模块之后,每个E6540处理器可以应用完整的两个内存控制器以及对应的16个DIMM,从而获得了不错的性能表现,和四路配置的M910相比是互有上下,因为后者每个处理器仅使用了一个内存控制器。我们认为,M910和R910都更适合于双路配置,不过,一些应用下,四路配置也是可以选择的。

四路Nehalem-EX 戴尔M910服务器评测

4路32核64线程 优异Nehalem-EX平台评测

0
相关文章