【IT168评测中心】Nehalem架构比以往Intel处理器具有了较大的变迁,这个变迁带来了非常直接的性能提升,总结起来,Nehalem-EP/Gainestown(至强5500处理器)比Penryn/Harperton具备的主要优势有三点:
直联架构带来了集成内存控制器和快速通道互联总线
集成内存控制器:CISC的x86架构对缓存/内存带宽极度渴求,集成内存控制器让处理器避开了访问内存需要通过FSB总线的限制,并将带宽提升到三通道DDR3 1333(8核心Nehalem-EX支持四通道DDR3)每处理器,极大提升了Nehalem处理器的内存带宽,对服务器应用提升巨大。
快速通道互联总线:新的点对点总线带宽更高,并且让处理器之间可以直接连接,避免了共享的FSB总线在处理器核心过多时的效率急剧下降,更适合扩展到大规模并行系统。同样处理器数量下,快速通道互联技术点对点形成的ccNUMA拓扑比共享FSB的星型总线具有更高的效率。
虽然SMT有不少处理器采用,不过,在x86处理器上只有Intel具有 |
超线程技术:超线程技术在打游戏的时候或许看不出有作用,不过在企业级别应用上效果明显。在主要竞争对手也有集成内存控制器和类似快速通道互联技术的情况下,超线程技术就成为了Nehalem的特别武器。这项据说耗资十亿开发费用的技术终于从Nehalem开始大放光芒。
曙光的Nehalem-EP测试样机I620r-G是一台2U机架式服务器
曙光I620r-G服务器最多支持12个3.5英寸热插拔SAS硬盘
此次送测的曙光I620r-G服务器采用了单电源配置
曙光I620r-G采用了2个至强E5540处理器,主频2.53GHz,快速通道互联频率2.93GHz
Intel Tylersburg-36D/Intel 5520芯片组
主板提供了一条PCI Express 2.0 x16插槽和3条x8插槽
Intel 82576双口千兆网卡,支持VMDq,支持IOAT2,支持VT-c,界面为PCI Express x4,直接挂在Tylersburg-36D的一个PCI Express x4接口上,性能非凡。
用于远程网络管理的Realtek RTL8201N百兆网络芯片
在2005年度服务器横评之后,我们认为当时的网络实验室无法满足今后继续发展的服务器测试的需要。所以,2006年我们IT168评测中心又斥资几十万对于IT168网络实验室的服务器测试平台进行了大幅度的升级,为思科Catalyst4500千兆交换机(WS-X4013+ Supervisor Engine II-Plus和WS-X4548-GB-RJ45)增加了一个思科全千兆24口模块WS-X4424-GB-RJ45,可同时连接72个千兆铜缆设备和 2个光缆设备。另外,我们还购置了29台Dell PowerEdge SC430塔式服务器和原来的32台主流配置PC一起为服务器测试平台的提供负载。2007年,我们又采购性能更强的部分客户端,来确保为新一代的服务器提供足够的测试负载。2009年初,我们又对所有客户端的内存子系统进行了全面的升级。
测试环境与测试方法
Catalyst4500千兆交换机
部分Dell PowerEdge SC430服务器
在新的测试环境下,我们进一步完善了服务器性能测试方案,每次我们会选择以下的部分测试项目对于被测产品进行评估:
SPEC CPU 2006 v1.0.1
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。
SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了当前最新版本的Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler这两款SPEC?CPU 2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(假如只支持SSE3,则使用QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64bit Windows Server 2008 Enterprise下完成,对于每个运算核心,配置1.5GB内存。
SiSoftware Sandra?v2009
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。
Benchmark Factory 4.6
大部分的服务器应用都同数据库有着密切的联系,因此我们今年开始着手在在服务器测试中加入对于数据库性能的测试。我们选择了Benchmark Factory 4.6软件和Microsoft SQL2005 SP3来测试不同的硬件平台在数据库应用中的表现。
我们选择了Benchmark Factory内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。
本次Nehalem-EP评测基于一台曙光的服务器,型号为I620r-G,配置的是双路Nehalem-EP 至强 E5540处理器,测试结果并会与我们IT168评测中心的DELL PowerEdge 2900 III服务器进行对比,测试对比平台的详细参数如下:
类别 | Dawning I620r-G服务器 双路Intel Gainestown 至强 E5540 | 双路至强 E5430基准平台 DELL PE2900 III服务器 双路Intel Harpertown 至强 E5430 | |||
处理器 | 双路Intel 至强 E5540 | 双路Intel 至强 E5430 | |||
处理器架构 | Intel 45nm Nehalem | Intel 45nm Penryn | |||
处理器代号 | Gainestown | Harpertown | |||
处理器封装 | Socket 1366 LGA | Socke 771 LGA | |||
处理器规格 | 四核 | 四核 | |||
处理器指令集 | MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,SSE4.2,EM64T,VT | MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,EM64T,VT | |||
主频 | 2.53GHz | 2.66GHz | |||
处理器外部总线 | 2xQPI 2933MHz 5.86GT/s 单向11.73GB/s(每QPI) 双向23.46GB/s(每QPI) | FSB 333MHz 1333MT/s 10.6GB/s | |||
L1 D-Cache | 4x 32KB 8路集合关联 | 4x 32KB 8路集合关联 | |||
L1 I-Cache | 4x 32KB 4路集合关联 | 4x 32KB 8路集合关联 | |||
L2 Cache | 4x 256KB 8路集合关联 | 2x 6144KB 16路集合关联 | |||
L3 Cache | 8MB 16路集合关联 | ||||
主板型号 | Dawning Tylersburg-36D | DELL PE2900 III | |||
芯片组 | Intel Tylersburg-EP IOH:Intel 5520(Tylersburg-36D) ICH:Intel 82801JR(ICH10R) | MCH:Intel 5000X ICH:Intel ESB6321 | |||
芯片特性 | 2xQPI VT-d | 2xFSB1333 12MB Snoop Filter VT-d | |||
内存控制器 | 每CPU集成三通道R-ECC DDR3 1066 | 北桥集成四通道FBD DDR2 667 | |||
内存 | 2GB R-ECC DDR3 1066 SDRAM x12 | 2GB FBD DDR2 667 SDRAM x4 | |||
磁盘控制器 | LSI Embedded MegaRAID SAS?RAID?Controller | DELL Perc 5/i RAID Controller | |||
磁盘控制器规格 | 8xSAS 3Gbps | 8xSAS 3Gbps | |||
磁盘控制器设置 | RAID 0 | RAID 5 | |||
磁盘控制器驱动 | LSI MegaSR 13.06.0212.2009 | LSI SAS 3.8.0.64 | |||
磁盘 | Fujitsu MBA3300RC x2 | Seagate Cheetah 15K.5 ST314655SS x3 | |||
磁盘规格 | 15000RPM 300GB SAS 3Gbps 16MB Cache | 15000RPM 146GB SAS 3Gbps 16MB Cache | |||
磁盘设置 | SAS 3Gbps 50GB系统分区 | SAS 3Gbps 20GB系统分区 | |||
网卡 | Intel 82576 Gigabit Dual Port Network Controller | Broadcom BCM5708C PCI-E千兆网卡 x2 | |||
网卡设置 | PCI Express x4 I/OAT Intel Teaming Load Balancing | PCI Express x1 Broadcom NIC Teaming Load Balancing | |||
网卡驱动 | Intel PRO Set 10.3.49.00 | Broadcom NetXtreme 2 11.04.01 | |||
操作系统 | Microsoft Windows Server 2008 Enterprise Edition SP1 x64 | Microsoft Windows Server 2008 Enterprise Edition SP1 x64 |
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。
有一点需要说明的是,Sandra的处理器架构性能测试是根据处理器所能支持的所有指令集中选择进行的,不同的处理器支持的指令集不同,测试使用到的指令集也就不同。例如,Nehalem在这个测试当中就可以使用SSE4.2,而Penryn就只能使用 SSE4.1,而Opteron可能就只能使用SSE3了。一般而言,由于可以使用SSE4,Intel的处理器理论性能会比较好。
测试对象 | Dawning I620r-G 双路Intel Gainestown 至强 E5540 2.53GHz | DELL PE2900 III 双路Intel Harptown 至强 E5430 2.66GHz | |
Processor Arithmetic Benchmark 处理器架构测试 | |||
Dhrystone ALU | 129014MIPS | 91006MIPS | |
Dhrystone ALU vs SPEED | 51.05MIPS/MHz | 34.21MIPS/MHz | |
Whetstone iSSE3 | 111000MFLOPS | 78385MFLOPS | |
Dhrystone iSSE3 vs SPEED | 43.93MFLOPS/MHz | 29.47MFLOPS/MHz | |
Processor Multi-Media Benchmark 处理器多媒体测试 | |||
Multi-Media Int x16 iSSE4.1 | 269.08MPixel/s | ||
Multi-Media Int x8 iSSE4.1 | 199.33MPixel/s | ||
Multi-Media Int x16 iSSE4.1 vs SPEED | 106.48kPixels/s/MHz | ||
Multi-Media Int x8 iSSE4.1 vs SPEED | 74.94kPixels/s/MHz | ||
Multi-Media Float x8 iSSE2 | 206.19MPixel/s | ||
Multi-Media Float x4 iSSE2 | 108.69MPixel/s | ||
Multi-Media Float x8 iSSE2 vs SPEED | 81.60kPixels/s/MHz | ||
Multi-Media Float x4 iSSE2 vs SPEED | 40.86kPixels/s/MHz | ||
Multi-Media Double x4 iSSE2 | 113.93MPixel/s | ||
Multi-Media Double x2 iSSE2 | 55.75MPixel/s | ||
Multi-Media Double x4 iSSE2 vs SPEED | 45.09kPixels/s/MHz | ||
Multi-Media Double x2 iSSE2 vs SPEED | 20.96kPixels/s/MHz | ||
Multi-Core Efficiency Benchmark | |||
Inter-Core Bandwidth | 63.30GB/s | 20.54GB/s | |
Inter-Core Bandwidth vs SPEED | 25.65MB/s/MHz | 7.91MB/s/MHz | |
Inter-Core Latency (越小越好) | 22ns | 90ns | |
Inter-Core Latency vs SPEED (越小越好) | 0.01ns/MHz | 0.03ns/MHz | |
.NET Arithmetic Benchmark .NET架构测试 | |||
Dhrystone .NET | 29299MIPS | 10562MIPS | |
Dhrystone .NET vs SPEED | 11.59MIPS/MHz | 3.97MIPS/MHz | |
Whetstone .NET | 69736MFLOPS | 45399MFLOPS | |
Whetstone .NET vs SPEED | 27.60MFLOPS/MHz | 17.07MFLOPS/MHz | |
.NET Multi-Media Benchmark .NET多媒体测试 | |||
Multi-Media Int x1 .NET | 53.25MPixel/s | 31.28MPixel/s | |
Multi-Media Int x1 .NET vs SPEED | 21.07kPixels/s/MHz | 11.76kPixels/s/MHz | |
Multi-Media Float x1 .NET | 23.09MPixel/s | 8.68MPixel/s | |
Multi-Media Float x1 .NET vs SPEED | 9.14kPixels/s/MHz | 3.26kPixels/s/MHz | |
Multi-Media Double x1 .NET | 45.02MPixel/s | 24.75MPixel/s | |
Multi-Media Double x1 .NET vs SPEED | 17.81kPixels/s/MHz | 9.30kPixels/s/MHz |
处理器架构性能测试分为整数和浮点两个部分,在频率更低的情况下,曙光I620r-G服务器的测试成绩全面强于对比的基准服务器,领先幅度在50%~100%左右。
SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。
曙光I620r-G服务器Nehalem-EP/Gainestown 至强 E5540 SPEC CPU 2006整数运算性能
对比频率更高的Harpertown,曙光I620(r)-G服务器Nehalem- EP/Gainestown的性能可谓让人大吃一惊:提升超过了100%,至强 E5540的得分为153,比至强 E5430的74.8分高104.5%,同时CPU的主频要低4.95%,成绩斐然。在测试当中,403.gcc C编译器(194.6%)、429.mcf 组合优化(257.6%)、462.libquantum 物理:量子计算(298.8%)、471.omnetpp 离散事件仿真(211.3%)、473.astar 寻路算法(139.9%)、483.xalancbmk XML处理(169.9%)这6项的提升都很明显,这些项目都能因直联架构而获益。所有的项目都能从超线程当中获得提升。
SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。
曙光I620r-G服务器Intel Nehalem-EP/Gainestown 至强 E5540 SPEC CPU 2006浮点运算性能
浮点运算上的提升比整数上更大,曙光I620r-G服务器Nehalem-EP/Gainestown的得分为137,比 Harpertown的57分高140%,这是IMC、QPI、HTT的集合成果,表明了Nehalem架构的强大优势。在测试当中,410.bwaves 流体力学(390.6%)、433.milc 量子力学(434.8%)、434.zeusmp 物理:计算流体力学(110.5%)、436.cactusADM 物理:广义相对论(122.7%)、437.leslie3d 流体力学(310.9%)、450.soplex 线形编程、优化(279.4%)、459.GemsFDTD 计算电磁学(221.8%)、465.tonto 量子化学(97.0%)、470.lbm 流体力学(278.2%)、481.wrf 天气预报(174.6%)、482.sphinx3 语音识别(333.0%)这11个项目的提升都很大,提升幅度都是几倍几倍的,最高的是433.milc 量子力学(434.8%),至强 E5540的性能是至强 E5430的5倍以上。
我们在被测服务器上安装了Microsoft SQL 2005 SP1,按照测试要求建立了数据库。BF在测试之前会在数据库中生成9个表,其中包括4个500万行的表格,每行包括100字节的数据,因此每个表格容量大约是476MB,整个数据库容量为1.86GB。我们用60个客户端模拟1000个用户,在这个数据库中进行查询、添加、删除、修改等操作。
?
曙光I620r-G服务器SQL2005数据库性能测试
数据库测试是一个综合性的测试,在较少客户端的时候,其性能依赖于处理器以及内存系统,在较多客户端的时候,则开始依赖于磁盘子系统。在这个测试里面,Nehalem-EP的三个优势都得以完全发挥,最终成绩非常惊人:在频率更低的情况下,平均TPS(每秒交易数)要高114%(90557.2对40397.217),提升超过了一倍以上。峰值TPS是96264.5。Nehalem真是理想的数据库平台。
【IT168评测中心】凭借着崭新的直联架构——集成内存控制器和双快速通道互联总线,再配合超线程技术,Nehalem-EP的性能比起其上一代有了一个大的飞跃,同频率下处理器密集型和内存密集型运算的性能提升达到了一倍以上。
两个至强 E5540处理器,主频2.53GHz,QPI频率2.93GHz
我们知道,由于处理器指令集架构的缘故,x86处理器非常依赖于缓存/内存性能,使用集成内存控制器之后,Nehalem-EP消除了FSB总线引起的内存瓶颈,通过每处理器三通道DDR3,提供了高带宽、低延迟的子系统,极大地提升了性能。
同样,高带宽的QPI总线也更有利于多处理器协同工作,虽然在双路系统中表现并不明显,不过,可以预先,在4路及4路以上市场以及非常多PCI Express IO设备的情况下,快速通道互联总线可以发挥巨大的作用。
超线程技术也是Nehalem处理器的要点之一,虽然不是所有的应用中都有正面效果,然而总体来看,超线程技术对SPEC CPU 2006的成绩提升为14.2%(整数)和7.87%(浮点),在应用测试当,如SQL数据库性能测试中,超线程的存在让性能提升了67.8%,这是一个巨大的数字。这表明数据库应用可以将Nehalem-EP的超线程技术发挥到极致。
曙光I620r-G服务器,采用了至强 E5540处理器
各方面的测试都表明,使用了Nehalem-EP 至强 E5540处理器的曙光I620r-G服务器比起上一代同频率的产品,性能提升非常大,最高在一倍以上,同时功耗并没有明显变化,成本也很相近,性价比很高。
相关文章导读 |