【IT168评测中心】在3月底,Intel发布了45nm、8核心的Nehalem架构处理器:Nehalem-EX,面向多路服务器平台,主要目的是提供极强的计算能力、内存扩充能力以及RAS特性。足够多的RAS特性对于Mission Critical领域是十分重要的,因为这个领域上,稳定性非常重要。
对于一个新生事物来说,应用总是偏慢的,企业级产品更是如此。在Nehalem-EX发布之后,过了好一段时间才有厂商可以提供评测样品,这就是DELL。他们提供了一共三个型号的Nehalem-EX机器可以测试。
我们最早拿到的Nehalem-EX测试样机:DELL PowerEdge M910刀片服务器
偏慢的反应对于笔者来说也是一样,新的机器在测试中可能会出现各种各样的问题,需要花时间去解决。到了现在,我们终于可以一览Nehalem-EX的实际性能了。
在DELL的刀片机柜中,叫做一个“全高”刀片;“半高”的刀片更为常见些
尽管M910的计算能力非常强大,不过它仅配置了两个2.5"的热插拔SAS硬盘
搭配的M1000e机架,不带M910服务器,全重186公斤,这时候笔者深刻体会了引力的真实意义……
每个处理器支持8个DIMM,这8个DIMM通过两个SMB芯片来支持,图上在内存条之间的四个银白散热器,就是对应两个处理器的SMB芯片的散热器
因为Nehalem-EX暂时还不支持DDR3-1333,因此配置的都是DDR3-1066内存,单条容量4GB,系统总容量为128GB
用螺丝固定的LGA1567 Nehalem-EX处理器,和通常不同
DELL惯用的Broadcom网络芯片;BCM5709C是个支持8个RSS队列的双口千兆网卡,M910总共提供了4个千兆网口
DELL的特色,在服务器上集成一些CF插槽,可以随机集成一些备用的工具软件,或者,集成一些嵌入式的虚拟化软件或者操作系统
Nehalem-EX:Xeon X7540,不是最高端型号,它具有6个核心,主频2.0GHz
这个图描述了四路Nehalem-EX的大致结构,大部分的四路Nehalem-EX都是这样的
在每一代的DELL服务器中总会携带有一些独有的技术,到了Nehalem-EX这一带也是这样,这次,戴尔带来的是一个叫做FlexMem Bridge的技术,顾名思义:弹性内存桥接技术,这个技术用来干什么的呢?
我们先来看看M910的结构,R810是结构相似的机架版本:
四路7500/6500至强配置
R810和M910都是可以同时应用7500以及6500系列至强的版本,6500系列至强是7500的双路版本,只能达到两路配置,不过具有Nehalem-EP/Westmere-EP所不具有的高级RAS特性以及强劲的内存支持能力。随R810和M910的这种灵活搭配能力而来的问题是:如果使用了双路配置的话,有一半的内存插槽会闲置,实在可惜!
FlexMem Bridge是这样的一个技术:在使用双路处理器的时候,通过这个技术可以让剩下来的处理器可以访问到应该是没有装上去的两个处理器的内存插槽:
FlexMem Bridge,就是一个桥接的技术
它通过一个模块将一个Nehalem-EX处理器的一个内存控制器引出的两个SMI Link(SMI:Scalable Memory Interface)旁路到另一个Nehalem-EX处理器的内存通道上,从而完成这样的工作。FlexMem Bridge模块还可以旁路一路QPI通道。
左下角占据了CPU位置的模块就是FlexMem Bridge
在首次听到FlexMem Bridge技术的时候,笔者感觉到它确实很特别,让双路处理器下使用极大量的内存:32个内存插槽,最多512GB的内存容量。不过,有得必有失,经过观察之后,笔者发现这个技术在四路配置下,每个Nehalem-EX处理器仅使用了两个内存控制器的其中一个,另外一个就闲置了,这可能会影响到其性能。就笔者的看法:FlexMem Bridge很适合双路Nehalem-EX平台(M910和R810),但是四路平台最好还是用原生的R910。
在2009年秋我们IT168评测中心网络实验室搬迁到新的机房之后,我们又对实验室的服务器测试平台进行了大幅度的升级,先是将已有的Cisco Catalyst 4506千兆交换机升级到3个模块,达到了一共120个千兆网络端口,还新购买了30台DELL PowerEdge T100服务器,配合原有的30台DELL PowerEdge SC430服务器以及30台PC作为网络测试的客户端,可以提供非常充足的测试压力。
网络实验室控制台
网络实验室机房
Cisco Catalyst 4506千兆交换机,120个千兆铜口
部分Dell PowerEdge SC430服务器
在新的测试环境下,我们进一步完善了服务器性能测试方案:
SPEC CPU 2006 v1.0.1
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。
SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了Intel C++ 11.1.034 Compiler、Intel Fortran 11.1.034 Compiler这两款SPEC CPU 2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(假如只支持SSE3,则使用QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64位的Windows Server 2008 R2 Datacentere下完成,对于每个运算核心,最低配置1.5GB内存。
SiSoftware Sandra v2010
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3&SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一,SiSoftware Sandra 2010对NUMA架构以及最新的Windows 7/Windows Server 2008 R2提供了更好的支持,此外测试项目和测试结果也有了略微的变化。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。
WebBench v5.0
WebBench是针对服务器作为Web Server时的性能进行测试,我们在被测服务器上安装了IIS组件,以提供测试所需的Web服务。在测试中我们使用了网络实验室中的60台客户端,配置了120个测试引擎,分别使用了WebBench 5.0内置的动态CGI以及静态页面脚本对服务器进行了测试。
静态测试是由客户端读取预先放置在服务器Web Server下的Web页面(wbtree),这项测试主要考察的是服务器磁盘系统以及网络连接性能。我们使用了实验室中的56台客户端,配合Static_mt.tst多线程静态脚本测试向被测服务器发送请求。
动态测试偏重于对服务器CPU子系统的性能测试,它对于Web服务器提供了足够的负载。我们将一个C语言编写的CGI源文件Simcigi.c编译为Simcgi.exe,并将其作为动态测试中的CGI脚本。在测试过程中,每台安装了WebBench客户端软件的PC,会在300秒的时间内持续向服务器发送CGI请求,而控制台会纪录并汇总服务器所响应CGI请求的数据。CGI测试的成绩高低,主要取决于服务器处理器子系统性能的优劣。处理器子系统包括CPU、内存以及内存控制器,CPU频率、缓存以及内存容量大小和内存带宽,都会影响该项成绩。
Benchmark Factory for Databases 5.7.1g
我们选择了Benchmark Factory for Databases 5.7.1g软件来进行测试,它是我们之前使用的4.6的升级版本。
我们选择了BF内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。关系性数据库就是用二维表格结构来表示实体及实体之间联系模型的数据库形式。
BF通过一台独立的控制台控制我们的60台服务器充当的客户端产生数据库测试压力,由于客户端所有的资源都用来产生数据库操作,因此可以给服务器施加相当大的测试压力。
CineBench R11.5
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,在服务器测试平台中显示子系统不重要,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
测试结果将会与Nehalem-EP、Westmere-EP、Dunnington等多种典型处理器家族做对比。测试时均使用了四路配置……因为直到测试快结束的时候,Lucifer才搞到带有FlexMem Bridge的DELL PowerEdge R810服务器。
由于EIST,闲置时频率只有1064MHz
BIOS版本是1.0.1
除了容量,其它的参数完全认不出来
SPD也是
任务管理器
测试样机预安装的Windows Server 2008 R2 Enterprise
一版的CPU
DELL PERC H700是DELL PERC 6i的继任者
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。
SiSoftware Sandra Pro Business 2010 | ||||
---|---|---|---|---|
测试对象 | 双路Intel Nehalem-EP Xeon X5570 | 双路Intel Westmere-EP Xeon X5670 | 双路Intel Westmere-EP Xeon X5680 | DELL PowerEdge M910 四路Intel Nehalem-EX Xeon E7540 |
Processor Arithmetic Benchmark 处理器算术性能测试 | ||||
Aggregate Arithmetic Performance | 147.17GOPS | 218.69GOPS | 249.2GOPS | 298.6GOPS |
Dhrystone iSSE4.2 | 172.5GIPS | 257GIPS | 291.36GIPS | 350.47GIPS |
Whetstone iSSE3 | 121.84GFLOPS | 180.41GFLOPS | 207GFLOPS | 246.73GFLOPS |
Processor Multi-Media Benchmark 处理器多媒体性能测试 | ||||
Aggregate Multi-Media Performance | 562.11MPixel/s | |||
Multi-Media Int x16 iSSE4.1 | 317.13MPixel/s | 470.51MPixel/s | 534.13MPixel/s | 646.86MPixel/s |
Multi-Media Float x8 iSSE2 | 237MPixel/s | 350.2MPixel/s | 397.47MPixel/s | 477.37MPixel/s |
Multi-Media Double x4 iSSE2 | 128.62MPixel/s | 190.87MPixel/s | 216.17MPixel/s | 260MPixel/s |
Multi-Core Efficiency Benchmark 多核效率测试 | ||||
Inter-Core Bandwidth | 71.15GB/s | 80.7GB/s | 84GB/s | - |
Inter-Core Latency (越小越好) | 18ns | 18ns | 16ns | - |
Cryptography Benchmark 加密解密性能测试 | ||||
Cryptographic Bandwidth | 3GB/s | |||
AES128-ECB iAES Cryptographic Bandwidth | 2.88GB/s | |||
SHA256 iSSE4 Hashing Bandwidth | 3GB/s | |||
.NET Arithmetic Benchmark .NET算术性能测试 | ||||
Aggregate .NET Performance | 89.47GIPS | |||
Dhrystone .NET | 32.11GIPS | 32.2GIPS | 37GIPS | 31.67GIPS |
Whetstone .NET | 79.56GFLOPS | 115GFLOPS | 123.43GFLOPS | 147.26GFLOPS |
.NET Multi-Media Benchmark .NET多媒体性能测试 | ||||
Aggregate .NET Multi-Media Performance | 90MPixel/s | |||
Multi-Media Int x1 .NET | 59MPixel/s | 88.64MPixel/s | 100.36MPixel/s | 127.38MPixel/s |
Multi-Media Float x1 .NET | 25.22MPixel/s | 37.73MPixel/s | 42.42MPixel/s | 52.7MPixel/s |
Multi-Media Double x1 .NET | 48.3MPixel/s | 68.45MPixel/s | 78.48MPixel/s | 102.48MPixel/s |
Sandra在测试Multi-Core Efficiency项目的时候出错,因此这个项目没有成绩,推测可能是Sandra对Nehalem-EX略显复杂的拓扑结构支持不足导致。从总成绩来看,M910要比对比的最高端双路平台要提供20%多的计算性能。
SiSoftware Sandra缓存内存测试主要包括内存带宽、内存延迟等性能的测试。
SiSoftware Sandra Pro Business 2010 | ||||
---|---|---|---|---|
测试对象 | 双路Intel Nehalem-EP Xeon X5570 | 双路Intel Westmere-EP Xeon X5670 | 双路Intel Westmere-EP Xeon X5680 | DELL PowerEdge M910 四路Intel Nehalem-EX Xeon E7540 |
Memory Bandwidth Benchmark 内存带宽测试 | ||||
Aggregate Memory Performance | 33.86GB/s | |||
Int Buff'd iSSE2 Memory Bandwidth | 38GB/s | 35GB/s | 35.2GB/s | 33.86GB/s |
Float Buff'd iSSE2 Memory Bandwidth | 38GB/s | 35GB/s | 35.18GB/s | 33.85GB/s |
Memory Latency Benchmark(Random) 内存延迟测试(随机) | ||||
Memory(Random Access) Latency (越小越好) | 80ns | 83ns | 82ns | 192ns |
Speed Factor (越小越好) | 55.50 | 57.00 | 64.60 | 98.10 |
Internal Data Cache | 4clocks | 4clocks | 4clocks | 4clocks |
L2 On-board Cache | 11clocks | 10clocks | 10clocks | 10clocks |
L3 On-board Cache | 49clocks | 57clocks | 60clocks | 84clocks |
Memory Latency Benchmark(Linear) 内存延迟测试(线性) | ||||
Memory(Linear Access) Latency (越小越好) | 7ns | 7ns | 7ns | 41ns |
Speed Factor (越小越好) | 4.80 | 5.10 | 5.50 | 20.70 |
Internal Data Cache | 4clocks | 4clocks | 4clocks | 4clocks |
L2 On-board Cache | 10clocks | 11clocks | 11clocks | 10clocks |
L3 On-board Cache | 13clocks | 13clocks | 13clocks | 34clocks |
Cache and Memory Benchmark 缓存及内存测试 | ||||
Cache/Memory Bandwidth | 142GB/s | 183.26GB/s | 195.6GB/s | 315GB/s |
Speed Factor (越小越好) | 21.20 | 31.00 | 35.20 | 34.80 |
Internal Data Cache | 471GB/s | 663.51GB/s | 744.49GB/s | 919.66GB/s |
L2 On-board Cache | 295.4GB/s | 537.88GB/s | 611GB/s | 749GB/s |
L3 On-board Cache | 336.6GB/s |
从结果来看,内存带宽和内存延迟上M910都不占优势,这是由于:主频较低、内存存取通路较长、内存频率较低以及M910进采用了单内存控制器配置,Cache/Memory带宽表现良好则是因为新的环形总线架构。无法解释的是L3缓存的延迟,甚高,不太符合笔者之前的猜测,是否是M910的缘故?这要等笔者测完另外两台Nehalem-EX机器才能知晓了。
SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。
和Sandra的成绩略有不同,在这里,M910的性能和基于X5680的平台差不多,略高一些,这应该是内存子系统方面的问题,M910下四路Nehalem-EX每路仅使用了一个内存控制器,在456.hmmer 基因序列搜索、464.h264ref 视频压缩这两个测试项目当中,M910还不如上一代的Dunnington。
SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。
看起来浮点项目上对内存带宽要求的更多一些,M910的整体性能表现比Westmere-EP平台要低。
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
CineBench R11.5 64bit | ||||
处理器 | 双路Intel Nehalem-EP Xeon X5570 | 双路Intel Westmere-EP Xeon X5670 | 双路Intel Westmere-EP Xeon X5680 | DELL PowerEdge M910 四路Intel Nehalem-EX Xeon E7540 |
显卡 | - | - | - | - |
CPU Benchmark | ||||
Rendering (1 CPU) | 1.02 pts | 1.02 pts | 1.16 pts | 0.78 pts |
Rendering (x CPU) | 9.92 pts | 14.58 pts | 16.40 pts | 19.26 pts |
Multiprocessor Speedup | 9.68x | 14.33x | 14.18x | 24.65x |
可以说,表现不错,相对双路X5680提升的比率(17.4%)和理论计算性能的比值(Sandra:高20%)很接近,不足部分可能是由于M910内存控制器配置上的缘故。
这三个测试是Intel推荐的项目之一,因此笔者也使用其进行了测试:
MMM - Matrix-Matrix Multiplicaion Benchmark | ||||
处理器 | 双路Intel Nehalem-EP Xeon X5570 | 双路Intel Westmere-EP Xeon X5670 | 双路Intel Westmere-EP Xeon X5680 | DELL PowerEdge M910 四路Intel Nehalem-EX Xeon E7540 |
单位 | GFLOPS | GFLOPS | GFLOPS | GFLOPS |
Threads 1 | ||||
5000 step | 7.821975 | 7.842319 | 8.877563 | 5.867645 |
10000 step | 7.890761 | 7.840417 | 8.883291 | 5.865347 |
15000 step | 7.888751 | 7.845479 | 8.881528 | 5.826604 |
Threads 2 | ||||
5000 step | 15.59136 | 15.62796 | 17.5891 | 11.570261 |
10000 step | 15.7544 | 15.66469 | 17.73566 | 11.689317 |
15000 step | 15.7445 | 15.64657 | 17.67208 | 11.602247 |
Threads 4 | ||||
5000 step | 30.69218 | 29.99696 | 34.85343 | 21.788607 |
10000 step | 31.02227 | 29.75883 | 34.90105 | 22.21115 |
15000 step | 31.04954 | 30.55926 | 34.92557 | 22.073702 |
Threads 8 | ||||
5000 step | 36.2252 | 49.03697 | 45.99856 | 41.228878 |
10000 step | 38.21083 | 50.30305 | 45.99856 | 43.472432 |
15000 step | 40.71236 | 56.00031 | 47.74417 | 43.37777 |
Threads 16 | ||||
5000 step | 59.38371 | 64.04222 | 66.10022 | 73.379889 |
10000 step | 61.44583 | 62.42291 | 72.38159 | 78.596851 |
15000 step | 61.83442 | 64.3761 | 73.2495 | 79.099092 |
Threads 24 | ||||
5000 step | 54.82514 | 84.13599 | 66.10022 | 94.000418 |
10000 step | 54.82514 | 88.58685 | 72.38159 | 124.028823 |
15000 step | 59.18915 | 90.12297 | 73.2495 | 124.574801 |
Threads 48 | ||||
5000 step | 97.335138 | |||
10000 step | 119.780984 | |||
15000 step | 121.637469 |
MMM是一个类似矩阵乘法基准测试软件,得到的结果单位是GFLOPS,也就是说它是一个浮点测试。可以看到,M910平台/Nehalem-EX平台具有着最高的计算能力:121.6GFLOPS,表现比Sandra的结果更抢眼。MMM和Linpack一样,都能充分地利用CPU运算核心的能力,因此它实际上建议关闭超线程来测试。
SunGard Adaptiv Analytics Benchmark v4.0 | ||||
处理器 | 双路Intel Nehalem-EP Xeon X5570 | 双路Intel Westmere-EP Xeon X5670 | 双路Intel Westmere-EP Xeon X5680 | DELL PowerEdge M910 四路Intel Nehalem-EX Xeon E7540 |
Threads | 16 | 24 | 24 | 48 |
Time (lower is better) | 138.076s | 110.331s | 94.911s | 139.512s |
这个测试程序是SunGard风险分析管理套件的一个部分,多线程的优势并不大,反而是高频率的好处多一些,因此M910平台是垫底的。
black_scholes | ||||
处理器 | 双路Intel Nehalem-EP Xeon X5570 | 双路Intel Westmere-EP Xeon X5670 | 双路Intel Westmere-EP Xeon X5680 | DELL PowerEdge M910 四路Intel Nehalem-EX Xeon E7540 |
Threads | 16 | 24 | 24 | 48 |
Time (lower is better) | 9.17s | 6.16s | 5.51s | 4.40s |
black_scholes是对布莱克-肖尔斯期权定价模型进行计算的一个程序,布莱克-肖尔斯期权定价模型是由1997诺贝尔经济学奖的两个获得者创立和发展的模型。可以知道,这个测试对多线程的支持比较好,M910取得了最好的性能。
EVEREST主要是一个系统信息查看工具,它也具有一些性能测试项目,可以用来参考。我们先来看看它获得的硬件信息:
EVEREST Ultimate Edition 5.50.2100 Benchmark Module 2.4.273.0 | ||||
---|---|---|---|---|
测试对象 | 双路Intel Nehalem-EP Xeon X5570 | 双路Intel Westmere-EP Xeon X5670 | 双路Intel Westmere-EP Xeon X5680 | DELL PowerEdge M910 四路Intel Nehalem-EX Xeon E7540 @16x LCPU |
内存读取 | 14279 MB/s | 13293 MB/s | 13689 MB/s | 3568 MB/s |
内存写入 | 8865 MB/s | 7526 MB/s | 8324 MB/s | 2143 MB/s |
内存复制 | 11878 MB/s | 10430 MB/s | 10616 MB/s | 2753 MB/s |
内存潜伏 | 64.5 ns | 68.7 ns | 67.0 ns | 16.6 ns |
CPU Queen | 46138 | 46082 | 52461 | 32185 |
CPU PhotoWorxx | 58330 | 73372 | 73828 | 58556 |
CPU ZLib | 193850 KB/s | 282989 KB/s | 319463 KB/s | 236148 KB/s |
CPU AES | 46774 | 849298 | 844363 | 32098 |
FPU Julia | 22410 | 32730 | 37178 | |
FPU Mandel | 12096 | 16349 | 18583 | |
FPU SinJulia | 10978 | 16429 | 18706 |
基本上……用EVEREST测试多路平台不靠谱,它最后测试时只使用了16个逻辑处理器,其结果没有太大意义。
解读:w/HTT的意思是with HTT,也就是“在超线程状态下”,w/o HTT意思是without HTT,也就是“不在超线程状态下”,TB则是Turbo Boost睿频技术,4P24C48T指的是4处理器(Processors)、24核心(Cores)、48线程(Threads)。依此类推。GbE是Gigabit Ethernet(千兆以太网),4 GbE Ports表示使用了4个千兆端口。
从数量级上看,在同一个M910下的测试结果没太大不同。不过,在细节上,还是可以看出一些差异来,首先是同为两个千兆网络端口,SQL2008下的峰值TPS低一些,不过没有SQL2005时在400虚拟用户时出现的低谷,显得更为平滑、稳定。而四个千兆网络端口的配置则是全面超过了其他两种配置,并且性能非常稳定(12万Tps左右),这个性能大致上和频率较低的双路Nehalem-EP差不多,比不上新的Westmere-EP。我们分析的结果是,它显示了网络子系统可能存在的瓶颈,也有可能是内存上的问题,因为数据库测试对内存的带宽和延迟都比较敏感。
Nehalem-EX/DELL PE M910使用的两个Broadcom网络芯片,型号BCM5709S,是个支持8个RSS队列的双口千兆网卡,8个RSS队列是指,在工作的时候它可以将负载分配到最多8个物理处理器核心上,对于具有24个物理处理器核心的M910来说,显得不是很足够。
【IT168评测中心】DELL PowerEdge M910是我们拿到的首批Nehalem-EX测试样机,Nehalem-EX是Intel在3月底发布的45nm、8核心的Nehalem架构处理器,不过我们拿到的M910搭载的是六核心版本:E7540,频率是2.0GHz。Nehalem-EX面向多路服务器平台,主要目的是提供极强的计算能力、内存扩充能力以及RAS特性。
Nehalem-EX服务器:DELL PowerEdge M910,需要注意的是,这是一个刀片服务器
DELL FlexMem Bridge,就是一个桥接的技术
PowerEdge M910和其兄弟R810搭载了DELL最新研发的FlexMem Bridge技术,笔者将其翻译为弹性内存桥接技术,这个技术通过一个安置在CPU插槽上、外形很像CPU的一个pass-through旁路部件,实现机器在双路或者四路配置下都能完全地利用到所有的32个内存插槽,例如,在使用Xeon 6500系列的时候,机器也可以使用最多达512GB的内存。
图为R810服务器内部,左下角占据了CPU位置的模块就是FlexMem Bridge
这个FlexMem Bridge模块并不是拿到任何机器上都可以使用,实际上,这个技术要求R810和M910在使用四路配置的时候仅使用两个内存控制器的其中一个,这会限制机器的性能。测试中,四路Xeon E7540(2.0GHz、六核心带超线程、单内存控制器、DDR3-1066)配置提供了比双路Xeon X5680(3.33GHz、六核心带超线程、每CPU三通道DDR3-1333)多出20%的纯计算性能(350.47GIPS和246.73GFLOPS ),不过在各种应用项目中略为打了个折扣……笔者认为,R810和M910最好的情况是双路配置(带FlexMem Bridge),这时应该会获得不错的性能。
2010.03.31,45nm Nehalem-EX Xeon发布:
X86巅峰 Intel Nehalem-EX架构深入解析
2010.03.16,32nm Westmere Xeon发布:
Intel 32nm Westmere-EP处理器首发评测
日前,戴尔公司正在举办客户需求有奖调查活动。即日起至8月15日,前200名完整填写并成功提交以下表格的客户,将获赠价值人民币100元的精美4G闪存一个。
戴尔企业级技术方案有奖调查 |