【IT168评测中心】在2009年3月31号Intel推出新一代Nehalem-EP服务器 平台之后,服务器厂商们纷纷跟进,一时新品如潮。研发代号为Nehalem-EP的至强5500服务器处理器是Nehalem处理器架构的集中体现,在桌面版本乃至移动版本上看不到的多QPI总线等特性开始在Nehalem-EP上现身——我们早已经知道,不同于之前的Core架构,Nehalem架构是为企业应用而设计,因此,服务器版本的Nehalem-EP性能惊人,比起上一代产品提升非常大。国内重要的服务器厂商Inspur浪潮也推出了基于Nehalem-EP的全线新平台产品,并提出了“精控IT”的理念:精准的、贴切用户需求的产品设计,精确的、一条龙式的方案与服务,精细的、以业务为中心的IT运维管理。
新一代浪潮Nehalem服务器的型号发生了变化,从以往的三位数字上升到了四位数,如,浪潮最主打的双路Nehalem-EP服务器的型号就是NF5280,这是一款按最大理论值、最高标准进行设计的系统,具体表现在:采用较高级别的Intel 5520+ICH10R芯片组,支持最高端的至强5500处理器,支持最大容量的内存容量,支持最全面的硬盘选择——8个3.5英寸SATA/SAS硬盘或16个2.5英寸SATA/SAS/SSD硬盘,全面支持RAID0、1、5、10数据保护功能。
浪潮NF5280评测样机,配置了双路Nehalem-EP Xeon X5570处理器和36GB DDR3内存
我们IT168评测中心收到了浪潮送来的NF5280测试样机。其配置完全符合其“旗舰”的形象:采用了最高端的Nehalem-EP处理器Xeon X5570,并配置了达36GB的R-ECC DDR3内存,是我们在双路服务器当中见过的最大容量。
Core架构的成功我们都已经看到了,然而随着时间的流逝,Intel需要制作一款新的处理器产品来满足未来的需求。
Intel对Core架构作出了改动,首先它将原来的架构扩展为原生4核(甚至6核、8核)设计,并为多核的需要准备了新的总线QPI来满足巨大的带宽需求,结果就是Nehalem内核。Nehalem内核还采用了集成内存控制器的设计,也是为了满足多核心巨大的带宽需求(从目前来看,Nehalem-EP不会有6核、8核的型号,这些产品会出现在Nehalem-EX上面)。
Nehalem-EP平台核心之一:Nehalem-EP处理器
Nehalem架构比以往Intel处理器具有了较大的变迁,这个变迁带来了非常直接的性能提升,总结起来,Nehalem-EP/Gainestown比Penryn/Harperton具备的主要优势有三点:
直联架构带来了IMC和QPI
IMC:CISC的x86架构对缓存/内存带宽极度渴求,集成内存控制器让处理器避开了访问内存需要通过FSB总线的限制,并将带宽提升到三通道DDR3 1333(8核心Nehalem-EX支持四通道DDR3)每处理器,极大提升了Nehalem处理器的内存带宽,对服务器应用提升巨大。
Nehalem-EP平台核心之一:Intel Tylersburg-EP芯片组
QPI:新的点对点总线带宽更高,并且让处理器之间可以直接连接,避免了共享的FSB总线在处理器核心过多时的效率急剧下降,更适合扩展到大规模并行系统。同样处理器数量下,QPI点对点形成的ccNUMA拓扑比共享FSB的星型总线具有更高的效率。
虽然SMT有不少处理器采用,不过,在x86处理器上只有Intel具有
HTT:超线程技术在打游戏的时候或许看不出有作用,不过在企业级别应用上效果明显。在主要竞争对手也有IMC和类似QPI的情况下,HTT就成为了Nehalem的特别武器。这项据说耗资十亿开发费用的技术终于从Nehalem开始大放光芒。
浪潮NF5280评测样机
浪潮NF5280服务器架构
浪潮NF5280评测样机:主板,右侧内存模组下方的大方型散热片覆盖下的就是Tylersburg-36D/5520芯片
对于一个平台来说,采用的芯片组决定了其架构,并影响到系统的扩展能力,浪潮NF5280服务器采用了Tylersburg-36D芯片组,其型号为5520,搭配的南桥为ICH10R。由于内存控制器已经集成到了处理器当中,因此5520芯片的主要功能就是连接南桥芯片,以及提供高带宽的I/O能力:它的新名字是IOH(I/O Hub),IO是其主要目的。
Tylersburg的IO主要针对三个方面:CPU、PCIE设备和ICH南桥,这三种设备的连接分别由QPI、PCI Express、ESI来完成。其中PCI Express支持是Tylersburg最重要的部分。
Tylersburg-EP IOH最多可以提供2个x16规格的PCI Express总线(Tylersburg-36D),并且可以分割为多个细小的连接,如分解为4个x8,或者最多分解为8个x4。除了两个这两个可以用来连接显卡的x16界面之外,Tylersburg-EP还可以额外提供一个x4界面用来在连接两块x16显卡之后连接其它如阵列卡这样的设备,这个额外的端口可以分割为两个x2界面。因此,Tylersburg-EP最多具有10个PCI Express端口,并且这些端口都属于第二代(PCI Express Gen 2,或者2.0),每信道带宽达到了500MB/s,是其上一代的两倍。
包括ICH10R在内,Tylersburg最多可以提供42个PCIe Lanes:36个Gen2,6个Gen1
Tylersburg-EP最多提供两个QPI总线,可以最多支持两路Nehalem-EP处理器(我们尝试了将Core i7放上去,结果无法启动……)。Tylersburg-EP使用的南桥是ICH10R,而不是以往的ESB63x1系列,这一点和桌面版本的Tylersburg/X58一样。
浪潮NF5280提供了4条PCI Express Gen2插槽、三条PCI-X 100/133插槽和一条远程管理模块专用插槽,从上到下分别为:
黑色的远程管理模块插槽(本质上是PCIE x4 Gen1界面)
黑色PCIE x8 Gen2插槽+黑色PCIE x1 Gen1插槽
黑色PCIE x4 Gen2插槽
提供PCIE x8 Gen2速率的黑色PCIE x16 Gen2插槽(可以连接PCIE x16显卡)
白色PCI-X 133MHz插槽
白色PCI-X 100/133MHz插槽
白色PCI-X 100/133MHz插槽
白色PCIE x4-U Gen2插槽(用于连接ZCR阵列扩展卡)
其中黑色的远程管理模块插槽由ICH10R提供,白色PCI-X插槽则由PXH PCI-E-to-PCI-X桥提供。
浪潮NF5280服务器架构
浪潮NF5280评测样机:主板,右侧内存模组下方的大方型散热片覆盖下的就是Tylersburg-36D/5520芯片
NF5280采用的是82576EB,比起已经算是比较稀奇的82575EB来,功能更加强大。82576EB是一个完整的双端口千兆以太网芯片,除了两个基本的千兆网卡功能外,提供VMDq功能,并支持IOAT2,支持VT-c,特别为虚拟化应用而设计,性能和功能都不同凡响。82576EB采用了PCIE x4 Gen2接口,直接于5520 IOH连接,不存在瓶颈问题。
NF5280提供了两种远程控制方案选择:独立BMC、BMC/KVM,“浪潮是国内厂商中第一个这么设计的”——BMC可以监控CPU、风扇、电源的运行状态,从而方便用户调整风扇的转速或者是电源的输出功率,而KVM-OVER-IP可以让用户实现基于WEB的远程管理。
基于BMC的独立远程管理模块和板载ASPEED KVM over IP模块
浪潮NF5280服务器架构
磁盘也是服务器I/O当中相当重要的一环,浪潮NF5280服务器除了ICH10R南桥提供的6个SATA 3Gbps端口(AHCI/RAID 0/1/5)之外,还通过IOH直接连接的LSISAS1068E芯片提供8个SAS 3Gbps端口(支持RAID 0/1,兼容SATA),这个LSISAS1068E芯片还可以通过ZCR升级到硬件RAID 5。
除了板载的多个存储接口之外,浪潮NF5280还采用了一块独立的LSI MegaRAID SAS 8708ELP 256MB阵列卡——通常比板载的性能要高一些。LSI MegaRAID SAS 8708ELP 256MB阵列卡基于LSI SAS1078E芯片,集成500MHz的ARM处理器和256MB的ECC DDR2内存,硬件支持RAID 0/1/5/6,是较常见的高性能阵列卡。
在2005年度服务器横评之后,我们认为当时的网络实验室无法满足今后继续发展的服务器测试的需要。所以,2006年我们IT168评测中心又斥资几十万对于IT168网络实验室的服务器测试平台进行了大幅度的升级,为思科Catalyst4500千兆交换机(WS-X4013+ Supervisor Engine II-Plus和WS-X4548-GB-RJ45)增加了一个思科全千兆24口模块WS-X4424-GB-RJ45,可同时连接72个千兆铜缆设备和2个光缆设备。另外,我们还购置了29台Dell PowerEdge SC430塔式服务器和原来的32台主流配置PC一起为服务器测试平台的提供负载。2007年,我们又采购性能更强的部分客户端,来确保为新一代的服务器提供足够的测试负载。2009年初,我们又对所有客户端的内存子系统进行了全面的升级。
Catalyst4500千兆交换机
部分Dell PowerEdge SC430服务器
在新的测试环境下,我们进一步完善了服务器性能测试方案:
SPEC CPU 2006 v1.0.1
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。
SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了当前最新版本的Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler这两款SPEC CPU 2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(假如只支持SSE3,则使用QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64bit Windows Server 2008 Enterprise下完成,对于每个运算核心,至少配置1.5GB内存。
Iometer 2006.7.27
Iometer是一款功能非常强大的IO测试软件,它除了可以在本机运行测试本机的IO(磁盘)性能之外,还提供了模拟网络应用的能力。在这次的测试中,我们仅仅让它在本机运行测试服务器的磁盘性能。为了全面测试被测服务器的IO性能,我们分别选择了不同的测试脚本。
Max_throughput(read):文件尺寸为64KB,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取吞吐量
Max_IO(read):文件尺寸为512B,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取操作IO处理能力
Max_throughput(write):文件尺寸为64KB,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入吞吐量
Max_IO(write):文件尺寸为512B,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入操作IO处理能力
SiSoftware Sandra v2009
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。
NetBench v7.03
NetBench是针对文件服务器的性能测试软件,影响NetBench性能的主要是服务器的磁盘子系统,服务器磁盘控制器、条带大小、读写缓存、硬盘类型、组建磁盘阵列模式、内存容量、网络拓朴结构等都会对测试结果有明显的影响。我们在被测服务器上设立了文件服务器,NetBench通过网络实验室中60个客户端来模拟网络中的PC向文件服务器所发出的文件传输请求,文件服务器则将存储在磁盘上的文件数据发送给相应的客户端。在测试过程中,客户端会以每四台一组的步进依次增加并且向服务器发送文件传输请求,测试结束后控制台收集数据并绘制出服务器的数据传输变化曲线。
Benchmark Factory 4.6
大部分的服务器应用都同数据库有着密切的联系,因此我们今年开始着手在在服务器测试中加入对于数据库性能的测试。我们选择了Benchmark Factory 4.6软件和Microsoft SQL2005 SP3来测试不同的硬件平台在数据库应用中的表现。
我们选择了Benchmark Factory内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。
CineBench R10
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,在服务器测试平台中显示子系统不重要,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
ScienceMark 2.0
ScienceMark 2.0可以用来评估测试对象在执行科学计算时的运算效能,这部分效能主要和处理器子系统和内存子系统相关。我们主要用来评估测试对象的内存子系统的性能。
系统功耗监测
我们使用UNI-T UT71E智能数字万用表对于被测服务器系统的整体功耗进行了监测,利用随机附带的接口程序,我们可以记录被测服务器任意时间段内的功率变化。
测试对比平台的详细参数如下:
测试平台、测试环境 | |||||
测试分组 | |||||
类别 | Inspur NF5280服务器 双路Intel Nehalem-EP Xeon X5570 | 双路Xeon E5430基准平台 | |||
处理器子系统 | |||||
处理器 | 双路Intel Xeon X5570 | 双路Intel Xeon E5430 | |||
处理器架构 | Intel 45nm Nehalem | Intel 45nm Penryn | |||
处理器代号 | Gainestown | Harpertown | |||
处理器封装 | Socket 1366 LGA | Socke 771 LGA | |||
处理器规格 | 四核 | 四核 | |||
处理器指令集 | MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,SSE4.2,EM64T,VT | MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,EM64T,VT | |||
主频 | 2.93GHz | 2.66GHz | |||
处理器外部总线 | 2x QPI 3.2GHz 6.4GT/s 12.8GB/s(单向) 25.6GB/s(双向) | 1x FSB 333MHz 1333MT/s 10.6GB/s | |||
L1 D-Cache | 4x 32KB 8路集合关联 | 4x 32KB 8路集合关联 | |||
L1 I-Cache | 4x 32KB 4路集合关联 | 4x 32KB 8路集合关联 | |||
L2 Cache | 4x 256KB 8路集合关联 | 2x 6MB 16路集合关联 | |||
L3 Cache | 8MB 16路集合关联 | ||||
主板 | |||||
主板型号 | Inspur NF5280 | ||||
芯片组 | Intel Tylersburg-EP IOH:Intel 5520(Tylersburg-36D) ICH:Intel 82801JR(ICH10R) PXH:Intel PXH6702 | MCH:Intel 5000X ICH:Intel ESB6321 | |||
芯片特性 | 2x QPI PCI Express 36 Lanes Gen2 VT-d Gen 2 | 2x FSB1333 12MB Snoop Filter PCI Express Gen1 VT-d Gen 1 | |||
内存控制器 | 每CPU集成三通道R-ECC DDR3 | Intel 5000X 集成四通道FBD DDR2 667 | |||
内存 | 36GB 2GB R-ECC DDR3 1333 SDRAM x18 | 8GB 2GB FBD DDR2 667 SDRAM x4 | |||
系统磁盘子系统 | |||||
磁盘控制器 | LSI MegaRAID SAS 8708ELP RAID Controller | DELL Perc 5/i RAID Controller | |||
磁盘控制器规格 | LSI1078 RoC | Inte lOP333 /w XScale CPU 256MB RAM LSI1068 SAS Controler /w ARM CPU 8x SAS 3Gbps Hardware RAID 0/1/5 | |||
磁盘控制器设置 | RAID 5 | RAID 5 | |||
磁盘控制器驱动 | LSI MegaRAID R3.6 3.9.0.64 | LSI SAS 3.8.0.64 | |||
磁盘 | Hitachi Ultrastar 15K300 HUS153030VLS300 x3 | Seagate Cheetah 15K.5 ST314655SS x3 | |||
磁盘规格 | 15000RPM 300GB SAS 3Gbps 16MB Cache | 15000RPM 146GB SAS 3Gbps 16MB Cache | |||
磁盘设置 | SAS 3Gbps 50GB系统分区 | SAS 3Gbps 20GB系统分区 | |||
网络子系统 | |||||
网卡 | Intel 82576EB Dual Port Gigabit Network Controller | Broadcom BCM5708C PCI-E千兆网卡 x2 | |||
网卡设置 | 82576EB Dual Port NIC: | PCI Express x1 @ ESB6321 Broadcom NIC Teaming Load Balancing | |||
网卡驱动 | Intel PRO Set 13.5 | Broadcom NetXtreme 2 11.04.01 | |||
软件环境 | |||||
操作系统 | Microsoft Windows Server 2008 Enterprise Edition SP1 x64 | Microsoft Windows Server 2008 Enterprise Edition SP1 x64 |
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。
有一点需要说明的是,Sandra的处理器架构性能测试是根据处理器所能支持的所有指令集中选择进行的,不同的处理器支持的指令集不同,测试使用到的指令集也就不同。例如,Nehalem在这个测试当中就可以使用SSE4.2,而Penryn就只能使用SSE4.1,而Opteron可能就只能使用SSE3了。一般而言,由于可以使用SSE4,Intel的处理器理论性能会比较好。
SiSoftware Sandra Pro Business 2009 | ||
---|---|---|
测试对象 | Inspur NF5280 双路Intel Gainestown Xeon X5570 2.93GHz | 双路Intel Harptown Xeon E5430 2.66GHz |
Processor Arithmetic Benchmark 处理器架构测试 | ||
Dhrystone ALU | 142977MIPS | 91006MIPS |
Dhrystone ALU vs SPEED | 48.75MIPS/MHz | 34.21MIPS/MHz |
Whetstone iSSE3 | 124035MFLOPS | 78385MFLOPS |
Dhrystone iSSE3 vs SPEED | 42.29MFLOPS/MHz | 29.47MFLOPS/MHz |
Processor Multi-Media Benchmark 处理器多媒体测试 | ||
Multi-Media Int x16 iSSE4.1 | 296.85MPixel/s | |
Multi-Media Int x8 iSSE4.1 | 199.33MPixel/s | |
Multi-Media Int x16 iSSE4.1 vs SPEED | 101.21kPixel/s/MHz | |
Multi-Media Int x8 iSSE4.1 vs SPEED | 74.94kPixel/s/MHz | |
Multi-Media Float x8 iSSE2 | 228.24MPixel/s | |
Multi-Media Float x4 iSSE2 | 108.69MPixel/s | |
Multi-Media Float x8 iSSE2 vs SPEED | 77.82kPixels/s/MHz | |
Multi-Media Float x4 iSSE2 vs SPEED | 40.86kPixels/s/MHz | |
Multi-Media Double x4 iSSE2 | 125.88MPixel/s | |
Multi-Media Double x2 iSSE2 | 55.75MPixel/s | |
Multi-Media Double x4 iSSE2 vs SPEED | 42.92kPixels/s/MHz | |
Multi-Media Double x2 iSSE2 vs SPEED | 20.96kPixels/s/MHz | |
Multi-Core Efficiency Benchmark | ||
Inter-Core Bandwidth | 75.61GB/s | 20.54GB/s |
Inter-Core Bandwidth vs SPEED | 26.40MB/s/MHz | 7.91MB/s/MHz |
Inter-Core Latency (越小越好) | 16ns | 90ns |
Inter-Core Latency vs SPEED (越小越好) | 0.01ns/MHz | 0.03ns/MHz |
.NET Arithmetic Benchmark .NET架构测试 | ||
Dhrystone .NET | 32904MIPS | 10562MIPS |
Dhrystone .NET vs SPEED | 11.22MIPS/MHz | 3.97MIPS/MHz |
Whetstone .NET | 78286MFLOPS | 45399MFLOPS |
Whetstone .NET vs SPEED | 26.69MFLOPS/MHz | 17.07MFLOPS/MHz |
.NET Multi-Media Benchmark .NET多媒体测试 | ||
Multi-Media Int x1 .NET | 62.28MPixel/s | 31.28MPixel/s |
Multi-Media Int x1 .NET vs SPEED | 21.23kPixels/s/MHz | 11.76kPixels/s/MHz |
Multi-Media Float x1 .NET | 26.19MPixel/s | 8.68MPixel/s |
Multi-Media Float x1 .NET vs SPEED | 8.93kPixels/s/MHz | 3.26kPixels/s/MHz |
Multi-Media Double x1 .NET | 51.45MPixel/s | 24.75MPixel/s |
Multi-Media Double x1 .NET vs SPEED | 17.54kPixels/s/MHz | 9.30kPixels/s/MHz |
SiSoftware Sandra对比
处理器架构性能测试分为整数和浮点两个部分,Nehalem-EP处理器是双路四核带超线程,8个物理内核,16个虚拟处理器,得分大幅度超出基准服务器。
SiSoftware Sandra缓存内存测试主要包括内存带宽、内存延迟等性能的测试。
SiSoftware Sandra Pro Business 2009 | ||
---|---|---|
测试对象 | Inspur NF5280 双路Intel Gainestown Xeon X5570 2.93GHz | 双路Intel Harptown Xeon E5430 2.66GHz |
Memory Bandwidth Benchmark 内存带宽测试 | ||
Int Buff'd iSSE2 Memory Bandwidth | 16.93GB/s | 6.13GB/s |
Int Buff'd iSSE2 Memory Bandwidth vs SPEED | 9.43MB/s/MHz | |
Float Buff'd iSSE2 Memory Bandwidth | 16.90GB/s | 6.13GB/s |
Float Buff'd iSSE2 Memory Bandwidth vs SPEED | 9.43MB/s/MHz | |
Memory Latency Benchmark 内存延迟测试 | ||
Memory(Random Access) Latency (越小越好) | 81ns | 108ns |
Memory(Random Access) Latency vs SPEED (越小越好) | 0.16ns/MHz | |
Speed Factor (越小越好) | 61.40 | 95.20 |
Internal Data Cache | 4clocks | 3clocks |
L2 On-board Cache | 10clocks | 18clocks |
L3 On-board Cache | 48clocks | |
Cache and Memory Benchmark 缓存及内存测试 | ||
Cache/Memory Bandwidth | 143.24GB/s | 68.88GB/s |
Cache/Memory Bandwidth vs SPEED | 50.01MB/s/MHz | 26.52MB/s/MHz |
Speed Factor (越小越好) | 20.90 | 111.90 |
Internal Data Cache | 448.46GB/s | 421.23GB/s |
L2 On-board Cache | 421.42GB/s | 122.68GB/s |
SiSoftware Sandra对比
Nehalem-EP结果比起上一代至强来强上不少,这是新的直联架构决定的。
SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。
SPEC CPU 2006整数运算性能
我们可以看出Nehalem-EP/Gainestown具有非常强大的SPEC性能,它的直联架构(内置内存控制器和QPI总线)、超线程技术都具有很明显的效果,比起老一代至强,提升一倍以上。
SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。
SPEC CPU 2006整数运算性能
相比于整数运算,浮点运算上Nehalem-EP的提升更大一些,比较明显地超过老一代至强,或许Nehalem-EP最能发挥功效的地方是在3D图形工作站。
ScienceMark v2.0 Membench
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
首先我们进行的是ScienceMark的测试,主要考察系统的缓存和内存子系统情况。L1/L2 Cache的成绩主要是跟处理器频率相关,因为目前的处理器当中L1 Cache都是和处理器核心同频率的,而L2 Cache基本上也是——当前的处理器L2都是全速的(放置在处理器内但不在同一个芯片上的Pentium II为半速L2,而Pentium之前的处理器L2则和处理器分离,速度更低)。越快的频率,L1/L2性能就越好。而内存带宽主要由两部分相关:比较大的部分是内存架构,小部分是内存操作指令(集),例如使用最新的SSE指令集比通常的ALU指令集会得到更大的吞吐量,而不同的SSE版本性能也有不同。
ScienceMark Membench | ||
---|---|---|
厂商 | Inspur | |
产品型号 | NF5280 Intel Gainestown Xeon X5570 2.93GHz | Intel Harpertown Xeon E5430 2.66GHz |
内存技术参数 | 2GB R-ECC DDR3-1333 SDRAM x18 | 2GB FBD-DDR2 667 SDRAM x8 |
L1带宽(MB/s) | 47880.48 | 55376.16 |
L2带宽(MB/s) | 19604.64 | 16757.55 |
内存带宽(MB/s) | 10116.61 | 4485.09 |
L1 Cache Latency(ns) | ||
32 Bytes Stride | 2 cycles 0.68 ns | 1.13 ns |
L1 Algorithm Bandwidth(MB/s) | ||
Compiler | 43072.25 | 25201.96 |
REP MOVSD | 43467.25 | 25467.15 |
ALU Reg Copy | 11949.09 | 13093.65 |
MMX Reg Copy | 22537.36 | 25242.19 |
SSE PAlign | 47773.13 | 52826.21 |
SSE2 PAlign | 47880.48 | 55376.16 |
L2 Cache Latency(ns) | ||
4 Bytes Stride | 3 cycles 1.02 ns | 1.13 ns |
16 Bytes Stride | 3 cycles 1.02 ns | 1.50 ns |
64 Bytes Stride | 8 cycles 2.73 ns | 4.51 ns |
256 Bytes Stride | 8 cycles 2.73 ns | 4.51 ns |
512 Bytes Stride | 7 cycles 2.39 ns | 4.89 ns |
L2 Algorithm Bandwidth(MB/s) | ||
Compiler | 18039.64 | 11880.48 |
REP MOVSD | 19604.64 | 12536.88 |
ALU Reg Copy | 8788.90 | 8577.86 |
MMX Reg Copy | 14083.83 | 13408.31 |
SSE PAlign | 18731.92 | 16719.97 |
SSE2 PAlign | 5833.93 | 16757.55 |
Memory Latency(ns) | ||
4 Bytes Stride | 3 cycles 1.02 ns | 1.13 ns |
16 Bytes Stride | 5 cycles 1.70 ns | 4.89 ns |
64 Bytes Stride | 22 cycles 7.50 ns | 19.17 ns |
256 Bytes Stride | 102 cycles 34.77 ns | 59.77 ns |
512 Bytes Stride | 117 cycles 39.88 ns | 68.04 ns |
Memory Algorithm Bandwidth(MB/s) | ||
Compiler | 9210.17 | 3178.45 |
REP MOVSD | 10116.61 | 3220.23 |
ALU Reg Copy | 8156.00 | 2789.34 |
MMX Reg Copy | 9306.18 | 2972.91 |
MMX Reg 3dNow | - | - |
MMX Reg SSE | 8781.26 | 3978.53 |
SSE PAlign | 8580.24 | 4128.59 |
SSE PAlign SSE | 9524.07 | 4390.48 |
SSE2 PAlign | 8560.83 | 4326.42 |
SSE2 PAlign SSE | 9555.13 | 4441.71 |
MMX Block 4kb | 7743.82 | 4063.30 |
MMX Block 16kb | 8321.35 | 4479.88 |
SSE Block 4kb | 7890.10 | 4074.79 |
SSE Block 16kb | 8355.86 | 4485.09 |
表现远比Harpertown好——主要是IMC的功劳。
CineBench R10
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
CineBench R10 | ||
处理器 | Inspur NF5280 双路Intel Gainestown Xeon X5570 | 双路Intel Harpertown Xeon E5430 |
显卡 | - | - |
CPU Benchmark | ||
Rendering (1 CPU) | 4410 CB-CPU | 2931 CB-CPU |
Rendering (x CPU) | 28172 CB-CPU | 16806 CB-CPU |
Multiprocessor Speedup | 6.39x | 5.73x |
OpenGL Benchmark | ||
OpenGL Standard | 224 CB-GFX | 176 CB-GFX |
服务器测试成绩
单处理器的渲染性能Nehalem-EP提升了50%以上,多处理器的渲染测试提升更多,Nehalem-EP平台用作图形工作站应该表现会非常出色。
Iometer 2006.07.27
我们的基准服务器采用了三块15000RPM的Seagate Cheetah 15K.5硬盘。浪潮NF5280则是用三块15000RPM Hitachi 15K300。基准平台使用了LSI MegaRAID SAS 8408E硬件阵列卡组建了RAID 5阵列,而浪潮NF5280则使用了流行的LSI MegaRAID SAS 8708ELP 256MB。阵列卡对比上,浪潮NF5280明显比较强。
IO读
IO写
读吞吐量
写吞吐量
浪潮NF5280在连续IOps方面在低负荷的时候表现不如基准服务器,不过在高负荷下大为胜出。除此之外,浪潮NF5280的表现均比基准服务器要好。
NetBench v7.03
NetBench 7.03 Ent_dm.tst测试脚本模拟的是企业级文件服务器应用,它不但要求被测服务器的磁盘子系统可以提供足够的吞吐量,还需要其具有较高的IO处理能力,并且需要较为平衡的读取能力和写入能力。
NetBench性能测试
Nehalem-EP平台的成绩更为高一些。关于NetBench性能与处理器、内存、磁盘的关系可以看这里《评测机密:文件服务器性能提升N大要义》。
Benchmark Factory 4.6
我们在被测服务器上安装了Microsoft SQL 2005 SP1,按照测试要求建立了数据库。BF在测试之前会在数据库中生成9个表,其中包括4个500万行的表格,每行包括100字节的数据,因此每个表格容量大约是476MB,整个数据库容量为1.86GB。我们用60个客户端模拟1000个用户,在这个数据库中进行查询、添加、删除、修改等操作。
SQL2005数据库性能测试
数据库测试是一个综合性的测试,一般而言,在较少客户端的时候,其性能依赖于处理器以及内存系统,在较多客户端的时候,则开始依赖于磁盘子系统。在这个测试里面,Nehalem-EP的三个优势都得以完全发挥,最终成绩非常惊人:几乎是基准平台的3倍。数量众多的内存在这里发挥了明显的作用。
我们利用UNI-T UT71E智能数字万用表和相配套的软件对于对于被测服务器在几种不同的状态下的功耗进行了监测,主要包括如下项目:
P1:连接电源但不开机状态
P2:系统启动完毕,5分钟内无动作,但不休眠
P3:系统启动完毕,处理器满载、磁盘以最大吞吐量工作
功耗
由于浪潮NF5280测试样机搭配了18条内存(36GB),并使用了冗余电源,因此功耗显得略高。NF5280的处理器频率也要高一些。
【IT168评测中心】凭借着崭新的直联架构——集成内存控制器和双QPI总线,再配合超线程技术,Nehalem-EP至强5500系列处理器的性能比起其上一代有了一个大的飞跃,同频率下处理器密集型和内存密集型运算的性能提升达到了一倍以上,而吞吐量应用则提升更大。
浪潮NF5280评测样机,配置了双路Nehalem-EP Xeon X5570处理器和36GB DDR3内存
来自国内重要服务器厂商浪潮的NF5280服务器是采用至强5500处理器的产品,我们测试的样机配置了2.93GHz的X5570处理器和高达36GB的DDR3 1333内存——浪潮NF5280是少数可以提供18个DIMM的服务器之一,采用4GB的内存模块,可以轻松达到72GB的内存容量。
全新模块化设计:NF5280
设计思想上,浪潮一方面致力于帮助用户实现最高计算性能,另一方面又通过模块化设计来平衡成本,从而帮助用户实现了灵活的“按需选择”:不同的硬盘选项、最大的内存扩展容量、不同的PCI选择、模块化的电源设计等。NF5280很好地体现了这个思想。