服务器 频道

直联架构驱动 曙光I620r-G服务器评测

Click Here

  【IT168评测中心】Nehalem架构比以往Intel处理器具有了较大的变迁,这个变迁带来了非常直接的性能提升,总结起来,Nehalem-EP/Gainestown(至强5500处理器)比Penryn/Harperton具备的主要优势有三点:

虽然SMT有不少处理器采用,不过,在x86处理器上只有Intel具有
直联架构带来了集成内存控制器和快速通道互联总线

  集成内存控制器:CISC的x86架构对缓存/内存带宽极度渴求,集成内存控制器让处理器避开了访问内存需要通过FSB总线的限制,并将带宽提升到三通道DDR3 1333(8核心Nehalem-EX支持四通道DDR3)每处理器,极大提升了Nehalem处理器的内存带宽,对服务器应用提升巨大。
  快速通道互联总线:新的点对点总线带宽更高,并且让处理器之间可以直接连接,避免了共享的FSB总线在处理器核心过多时的效率急剧下降,更适合扩展到大规模并行系统。同样处理器数量下,快速通道互联技术点对点形成的ccNUMA拓扑比共享FSB的星型总线具有更高的效率。

直联架构带来了IMC和QPI
虽然SMT有不少处理器采用,不过,在x86处理器上只有Intel具有

  超线程技术:超线程技术在打游戏的时候或许看不出有作用,不过在企业级别应用上效果明显。在主要竞争对手也有集成内存控制器和类似快速通道互联技术的情况下,超线程技术就成为了Nehalem的特别武器。这项据说耗资十亿开发费用的技术终于从Nehalem开始大放光芒。

Click Here

曙光I620r-G服务器
曙光的Nehalem-EP测试样机I620r-G是一台2U机架式服务器

曙光I620r-G服务器面板
曙光I620r-G服务器面板

此次送测的曙光I620r-G服务器采用了单电源配置
曙光I620r-G服务器面板

曙光I620r-G服务器最多支持12个3.5英寸热插拔SAS硬盘
曙光I620r-G服务器最多支持12个3.5英寸热插拔SAS硬盘

曙光的Nehalem-EP测试样机I620r-G是一台2U机架式服务器
曙光I620r-G服务器

曙光I620r-G服务器面板

此次送测的曙光I620r-G服务器采用了单电源配置

Click Here

曙光I620r-G服务器:两个Xeon E5540处理器,主频2.53GHz,QPI频率2.93GHz
曙光I620r-G采用了2个至强E5540处理器,主频2.53GHz,快速通道互联频率2.93GHz

Winbond的FWH芯片
Intel Tylersburg-36D/Intel 5520芯片组

Intel ICH10R南桥芯片
主板提供了一条PCI Express 2.0 x16插槽和3条x8插槽

Intel Tylersburg-36D/Intel 5520芯片组

  Intel 82576双口千兆网卡,支持VMDq,支持IOAT2,支持VT-c,界面为PCI Express x4,直接挂在Tylersburg-36D的一个PCI Express x4接口上,性能非凡。

用于远程网络管理的Realtek RTL8201N百兆网络芯片
Intel ICH10R南桥芯片

Intel 82576网络控制器芯片
ICH10R提供的6个SATA 3Gbps接口

PCI Express插槽
用于远程网络管理的Realtek RTL8201N百兆网络芯片

ICH10R提供的6个SATA 3Gbps接口
Winbond的FWH芯片

Click Here

  在2005年度服务器横评之后,我们认为当时的网络实验室无法满足今后继续发展的服务器测试的需要。所以,2006年我们IT168评测中心又斥资几十万对于IT168网络实验室的服务器测试平台进行了大幅度的升级,为思科Catalyst4500千兆交换机(WS-X4013+ Supervisor Engine II-Plus和WS-X4548-GB-RJ45)增加了一个思科全千兆24口模块WS-X4424-GB-RJ45,可同时连接72个千兆铜缆设备和 2个光缆设备。另外,我们还购置了29台Dell PowerEdge SC430塔式服务器和原来的32台主流配置PC一起为服务器测试平台的提供负载。2007年,我们又采购性能更强的部分客户端,来确保为新一代的服务器提供足够的测试负载。2009年初,我们又对所有客户端的内存子系统进行了全面的升级。

  测试环境与测试方法

Catalyst4500千兆交换机
Catalyst4500千兆交换机

部分Dell PowerEdge SC430服务器
部分Dell PowerEdge SC430服务器

  在新的测试环境下,我们进一步完善了服务器性能测试方案,每次我们会选择以下的部分测试项目对于被测产品进行评估:

  • SPEC CPU 2006 v1.0.1

  SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。

  SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。

  SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。

  SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。

  我们在被测服务器中安装了当前最新版本的Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler这两款SPEC?CPU 2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(假如只支持SSE3,则使用QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。

  和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64bit Windows Server 2008 Enterprise下完成,对于每个运算核心,配置1.5GB内存。

  • SiSoftware Sandra?v2009

  SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。

  • Benchmark Factory 4.6

  大部分的服务器应用都同数据库有着密切的联系,因此我们今年开始着手在在服务器测试中加入对于数据库性能的测试。我们选择了Benchmark Factory 4.6软件和Microsoft SQL2005 SP3来测试不同的硬件平台在数据库应用中的表现。

  我们选择了Benchmark Factory内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。

Click Here

  本次Nehalem-EP评测基于一台曙光的服务器,型号为I620r-G,配置的是双路Nehalem-EP 至强 E5540处理器,测试结果并会与我们IT168评测中心的DELL PowerEdge 2900 III服务器进行对比,测试对比平台的详细参数如下:

测试平台、测试环境
测试分组
类别Dawning I620r-G服务器
双路Intel Gainestown
至强 E5540
双路至强 E5430基准平台
DELL PE2900 III服务器
双路Intel Harpertown
至强 E5430
处理器子系统
处理器双路Intel 至强 E5540双路Intel 至强 E5430
处理器架构Intel 45nm NehalemIntel 45nm Penryn
处理器代号GainestownHarpertown
处理器封装Socket 1366 LGASocke 771 LGA
处理器规格四核四核
处理器指令集MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,SSE4.2,EM64T,VT
MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,EM64T,VT
主频2.53GHz2.66GHz
处理器外部总线2xQPI
2933MHz
5.86GT/s
单向11.73GB/s(每QPI)
双向23.46GB/s(每QPI)
FSB
333MHz
1333MT/s
10.6GB/s
L1 D-Cache4x 32KB
8路集合关联
4x 32KB
8路集合关联
L1 I-Cache4x 32KB
4路集合关联
4x 32KB
8路集合关联
L2 Cache4x 256KB
8路集合关联
2x 6144KB
16路集合关联
L3 Cache8MB
16路集合关联
 
主板
主板型号
Dawning Tylersburg-36D
DELL PE2900 III
芯片组Intel Tylersburg-EP
IOH:Intel 5520(Tylersburg-36D)
ICH:Intel 82801JR(ICH10R)
MCH:Intel 5000X
ICH:Intel ESB6321
芯片特性2xQPI
VT-d
2xFSB1333
12MB Snoop Filter
VT-d
内存控制器每CPU集成三通道R-ECC DDR3 1066北桥集成四通道FBD DDR2 667
内存2GB R-ECC DDR3 1066 SDRAM x122GB FBD DDR2 667 SDRAM x4
系统磁盘子系统
盘控制器 LSI Embedded MegaRAID SAS?RAID?ControllerDELL Perc 5/i RAID Controller
盘控制器规格8xSAS 3Gbps8xSAS 3Gbps
磁盘控制器设置 RAID 0RAID 5
磁盘控制器驱动LSI MegaSR
13.06.0212.2009
LSI SAS
3.8.0.64
磁盘Fujitsu
MBA3300RC x2
Seagate
Cheetah 15K.5
ST314655SS x3
磁盘规格15000RPM
300GB
SAS 3Gbps
16MB Cache
15000RPM
146GB
SAS 3Gbps
16MB Cache
磁盘设置SAS 3Gbps
50GB系统分区
SAS 3Gbps
20GB系统分区
网络子系统
网卡Intel 82576 Gigabit Dual Port Network ControllerBroadcom BCM5708C
PCI-E千兆网卡 x2
网卡设置PCI Express x4
I/OAT
Intel Teaming
Load Balancing
PCI Express x1
Broadcom NIC Teaming
Load Balancing
网卡驱动Intel PRO Set
10.3.49.00
Broadcom NetXtreme 2
11.04.01
软件环境
操作系统Microsoft
Windows Server 2008 Enterprise Edition SP1 x64
Microsoft
Windows Server 2008 Enterprise Edition SP1 x64

 

Click Here

  SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。

  有一点需要说明的是,Sandra的处理器架构性能测试是根据处理器所能支持的所有指令集中选择进行的,不同的处理器支持的指令集不同,测试使用到的指令集也就不同。例如,Nehalem在这个测试当中就可以使用SSE4.2,而Penryn就只能使用 SSE4.1,而Opteron可能就只能使用SSE3了。一般而言,由于可以使用SSE4,Intel的处理器理论性能会比较好。

SiSoftware Sandra Pro Business 2009
测试对象
Dawning I620r-G
双路Intel Gainestown
至强 E5540
2.53GHz
DELL PE2900 III
双路Intel Harptown
至强 E5430
2.66GHz
Processor Arithmetic Benchmark
处理器架构测试
Dhrystone ALU129014MIPS91006MIPS
Dhrystone ALU vs SPEED51.05MIPS/MHz34.21MIPS/MHz
Whetstone iSSE3 111000MFLOPS78385MFLOPS
Dhrystone iSSE3 vs SPEED43.93MFLOPS/MHz29.47MFLOPS/MHz
Processor Multi-Media Benchmark
处理器多媒体测试
Multi-Media Int x16 iSSE4.1269.08MPixel/s 
Multi-Media Int x8 iSSE4.1 199.33MPixel/s
Multi-Media Int x16 iSSE4.1 vs SPEED106.48kPixels/s/MHz 
Multi-Media Int x8 iSSE4.1 vs SPEED 74.94kPixels/s/MHz
Multi-Media Float x8 iSSE2
206.19MPixel/s
 
Multi-Media Float x4 iSSE2  108.69MPixel/s
Multi-Media Float x8 iSSE2 vs SPEED81.60kPixels/s/MHz 
Multi-Media Float x4 iSSE2 vs SPEED 40.86kPixels/s/MHz
Multi-Media Double x4 iSSE2
113.93MPixel/s
 
Multi-Media Double x2 iSSE2  55.75MPixel/s
Multi-Media Double x4 iSSE2 vs SPEED45.09kPixels/s/MHz 
Multi-Media Double x2 iSSE2 vs SPEED 20.96kPixels/s/MHz
Multi-Core Efficiency Benchmark
Inter-Core Bandwidth 63.30GB/s20.54GB/s
Inter-Core Bandwidth vs SPEED25.65MB/s/MHz7.91MB/s/MHz
Inter-Core Latency
(越小越好)
22ns90ns
Inter-Core Latency vs SPEED
(越小越好)
0.01ns/MHz0.03ns/MHz
.NET Arithmetic Benchmark
.NET架构测试
Dhrystone .NET 29299MIPS10562MIPS
Dhrystone .NET vs SPEED11.59MIPS/MHz3.97MIPS/MHz
Whetstone .NET 69736MFLOPS45399MFLOPS
Whetstone .NET vs SPEED27.60MFLOPS/MHz17.07MFLOPS/MHz
.NET Multi-Media Benchmark
.NET多媒体测试
Multi-Media Int x1 .NET 53.25MPixel/s31.28MPixel/s
Multi-Media Int x1 .NET vs SPEED21.07kPixels/s/MHz11.76kPixels/s/MHz
Multi-Media Float x1 .NET 23.09MPixel/s8.68MPixel/s
Multi-Media Float x1 .NET vs SPEED9.14kPixels/s/MHz3.26kPixels/s/MHz
Multi-Media Double x1 .NET 45.02MPixel/s24.75MPixel/s
Multi-Media Double x1 .NET vs SPEED17.81kPixels/s/MHz9.30kPixels/s/MHz

  处理器架构性能测试分为整数和浮点两个部分,在频率更低的情况下,曙光I620r-G服务器的测试成绩全面强于对比的基准服务器,领先幅度在50%~100%左右。

Click Here

  SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。

曙光I620r-G服务器Nehalem-EP/Gainestown Xeon E5540 SPEC CPU 2006整数运算性能
曙光I620r-G服务器Nehalem-EP/Gainestown 至强 E5540 SPEC CPU 2006整数运算性能

  对比频率更高的Harpertown,曙光I620(r)-G服务器Nehalem- EP/Gainestown的性能可谓让人大吃一惊:提升超过了100%,至强 E5540的得分为153,比至强 E5430的74.8分高104.5%,同时CPU的主频要低4.95%,成绩斐然。在测试当中,403.gcc C编译器(194.6%)、429.mcf 组合优化(257.6%)、462.libquantum 物理:量子计算(298.8%)、471.omnetpp 离散事件仿真(211.3%)、473.astar 寻路算法(139.9%)、483.xalancbmk XML处理(169.9%)这6项的提升都很明显,这些项目都能因直联架构而获益。所有的项目都能从超线程当中获得提升。

  SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。

曙光I620r-G服务器Intel Nehalem-EP/Gainestown Xeon E5540 SPEC CPU 2006浮点运算性能
曙光I620r-G服务器Intel Nehalem-EP/Gainestown 至强 E5540 SPEC CPU 2006浮点运算性能

  浮点运算上的提升比整数上更大,曙光I620r-G服务器Nehalem-EP/Gainestown的得分为137,比 Harpertown的57分高140%,这是IMC、QPI、HTT的集合成果,表明了Nehalem架构的强大优势。在测试当中,410.bwaves 流体力学(390.6%)、433.milc 量子力学(434.8%)、434.zeusmp 物理:计算流体力学(110.5%)、436.cactusADM 物理:广义相对论(122.7%)、437.leslie3d 流体力学(310.9%)、450.soplex 线形编程、优化(279.4%)、459.GemsFDTD 计算电磁学(221.8%)、465.tonto 量子化学(97.0%)、470.lbm 流体力学(278.2%)、481.wrf 天气预报(174.6%)、482.sphinx3 语音识别(333.0%)这11个项目的提升都很大,提升幅度都是几倍几倍的,最高的是433.milc 量子力学(434.8%),至强 E5540的性能是至强 E5430的5倍以上。

Click Here

  我们在被测服务器上安装了Microsoft SQL 2005 SP1,按照测试要求建立了数据库。BF在测试之前会在数据库中生成9个表,其中包括4个500万行的表格,每行包括100字节的数据,因此每个表格容量大约是476MB,整个数据库容量为1.86GB。我们用60个客户端模拟1000个用户,在这个数据库中进行查询、添加、删除、修改等操作。

?曙光I620r-G服务器SQL2005数据库性能测试
曙光I620r-G服务器SQL2005数据库性能测试

  数据库测试是一个综合性的测试,在较少客户端的时候,其性能依赖于处理器以及内存系统,在较多客户端的时候,则开始依赖于磁盘子系统。在这个测试里面,Nehalem-EP的三个优势都得以完全发挥,最终成绩非常惊人:在频率更低的情况下,平均TPS(每秒交易数)要高114%(90557.2对40397.217),提升超过了一倍以上。峰值TPS是96264.5。Nehalem真是理想的数据库平台。

Click Here

  【IT168评测中心】凭借着崭新的直联架构——集成内存控制器和双快速通道互联总线,再配合超线程技术,Nehalem-EP的性能比起其上一代有了一个大的飞跃,同频率下处理器密集型和内存密集型运算的性能提升达到了一倍以上。

Nehalem-EP处理器:独孤求败
两个至强 E5540处理器,主频2.53GHz,QPI频率2.93GHz

  我们知道,由于处理器指令集架构的缘故,x86处理器非常依赖于缓存/内存性能,使用集成内存控制器之后,Nehalem-EP消除了FSB总线引起的内存瓶颈,通过每处理器三通道DDR3,提供了高带宽、低延迟的子系统,极大地提升了性能。

  同样,高带宽的QPI总线也更有利于多处理器协同工作,虽然在双路系统中表现并不明显,不过,可以预先,在4路及4路以上市场以及非常多PCI Express IO设备的情况下,快速通道互联总线可以发挥巨大的作用。

两个Xeon E5540处理器,主频2.53GHz,QPI频率2.93GHz
Nehalem-EP处理器:独孤求败

  超线程技术也是Nehalem处理器的要点之一,虽然不是所有的应用中都有正面效果,然而总体来看,超线程技术对SPEC CPU 2006的成绩提升为14.2%(整数)和7.87%(浮点),在应用测试当,如SQL数据库性能测试中,超线程的存在让性能提升了67.8%,这是一个巨大的数字。这表明数据库应用可以将Nehalem-EP的超线程技术发挥到极致。

曙光I620r-G服务器,采用了Xeon E5540处理器
曙光I620r-G服务器,采用了至强 E5540处理器

  各方面的测试都表明,使用了Nehalem-EP 至强 E5540处理器的曙光I620r-G服务器比起上一代同频率的产品,性能提升非常大,最高在一倍以上,同时功耗并没有明显变化,成本也很相近,性价比很高。

相关文章导读

直联架构的威力 Nehalem-EP处理器解析

Nehalem-EP 新Xeon 5500处理器首度曝光

透视六核心至强 Dunnington处理器解析

透视八核心至强 Nehalem-EX处理器解析

2008年度评测报告:深入Nehalem微架构

性能大幅提升 Core i7 服务器应用测试

再攀性能之巅 Intel全新酷睿i7深度评测

机密揭露:Intel超线程技术有多少种?

[IDF08]基辛格演讲:Nehalem集群演示

0
相关文章