服务器 频道

业界新旗舰 浪潮英信NF5280服务器评测

Click Here

  【IT168评测中心】在2009年3月31号Intel推出新一代Nehalem-EP服务器 平台之后,服务器厂商们纷纷跟进,一时新品如潮。研发代号为Nehalem-EP的至强5500服务器处理器是Nehalem处理器架构的集中体现,在桌面版本乃至移动版本上看不到的多QPI总线等特性开始在Nehalem-EP上现身——我们早已经知道,不同于之前的Core架构,Nehalem架构是为企业应用而设计,因此,服务器版本的Nehalem-EP性能惊人,比起上一代产品提升非常大。国内重要的服务器厂商Inspur浪潮也推出了基于Nehalem-EP的全线新平台产品,并提出了“精控IT”的理念:精准的、贴切用户需求的产品设计,精确的、一条龙式的方案与服务,精细的、以业务为中心的IT运维管理。

  新一代浪潮Nehalem服务器的型号发生了变化,从以往的三位数字上升到了四位数,如,浪潮最主打的双路Nehalem-EP服务器的型号就是NF5280,这是一款按最大理论值、最高标准进行设计的系统,具体表现在:采用较高级别的Intel 5520+ICH10R芯片组,支持最高端的至强5500处理器,支持最大容量的内存容量,支持最全面的硬盘选择——8个3.5英寸SATA/SAS硬盘或16个2.5英寸SATA/SAS/SSD硬盘,全面支持RAID0、1、5、10数据保护功能。

浪潮NF5280评测样机,配置了双路Nehalem-EP Xeon X5570处理器和36GB DDR3内存

  我们IT168评测中心收到了浪潮送来的NF5280测试样机。其配置完全符合其“旗舰”的形象:采用了最高端的Nehalem-EP处理器Xeon X5570,并配置了达36GB的R-ECC DDR3内存,是我们在双路服务器当中见过的最大容量。

Intel Nehalem-EP处理器首发深度评测

直联架构的威力 Nehalem-EP处理器解析

Nehalem-EP 新Xeon 5500处理器首度曝光

透视六核心至强 Dunnington处理器解析

透视八核心至强 Nehalem-EX处理器解析

2008年度评测报告:深入Nehalem微架构

性能大幅提升 Core i7 服务器应用测试

再攀性能之巅 Intel全新酷睿i7深度评测

机密揭露:Intel超线程技术有多少种?

[IDF08]基辛格演讲:Nehalem集群演示

Click Here

  Core架构的成功我们都已经看到了,然而随着时间的流逝,Intel需要制作一款新的处理器产品来满足未来的需求。


4核心Nehalem-EP处理器晶元图

  Intel对Core架构作出了改动,首先它将原来的架构扩展为原生4核(甚至6核、8核)设计,并为多核的需要准备了新的总线QPI来满足巨大的带宽需求,结果就是Nehalem内核。Nehalem内核还采用了集成内存控制器的设计,也是为了满足多核心巨大的带宽需求(从目前来看,Nehalem-EP不会有6核、8核的型号,这些产品会出现在Nehalem-EX上面)。


4核心Nehalem-EP处理器的一些简要参数

Click Here


Nehalem-EP平台核心之一:Nehalem-EP处理器

  Nehalem架构比以往Intel处理器具有了较大的变迁,这个变迁带来了非常直接的性能提升,总结起来,Nehalem-EP/Gainestown比Penryn/Harperton具备的主要优势有三点:


直联架构带来了IMC和QPI

  IMC:CISC的x86架构对缓存/内存带宽极度渴求,集成内存控制器让处理器避开了访问内存需要通过FSB总线的限制,并将带宽提升到三通道DDR3 1333(8核心Nehalem-EX支持四通道DDR3)每处理器,极大提升了Nehalem处理器的内存带宽,对服务器应用提升巨大。


Nehalem-EP平台核心之一:Intel Tylersburg-EP芯片组

  QPI:新的点对点总线带宽更高,并且让处理器之间可以直接连接,避免了共享的FSB总线在处理器核心过多时的效率急剧下降,更适合扩展到大规模并行系统。同样处理器数量下,QPI点对点形成的ccNUMA拓扑比共享FSB的星型总线具有更高的效率。

虽然SMT有不少处理器采用,不过,在x86处理器上只有Intel具有

  HTT:超线程技术在打游戏的时候或许看不出有作用,不过在企业级别应用上效果明显。在主要竞争对手也有IMC和类似QPI的情况下,HTT就成为了Nehalem的特别武器。这项据说耗资十亿开发费用的技术终于从Nehalem开始大放光芒。

Click Here

浪潮NF5280评测样机


浪潮NF5280评测样机,前面板可以配置8个3.5"热插拔硬盘

 


浪潮NF5280评测样机

 


浪潮NF5280评测样机

 


浪潮NF5280评测样机 
Click Here
浪潮NF5280评测样机
浪潮NF5280评测样机

浪潮NF5280评测样机
 
浪潮NF5280评测样机:冗余电源
 
浪潮NF5280评测样机配置的冗余电源,正式销售版本将会支持Intel Node Manager功能
Click Here
浪潮NF5280评测样机
 

由于内置了内存控制器,因此处理器和内存就组合成为了一个新的子系统
 

Nehalem-EP Xeon X5570处理器,主频2.93GHz,QPI频率3.2GHz,每处理器两个QPI
 

做工精良的Socket 1366 LGA热管散热器
 

业界少有的18DIMM:每处理器提供9 DIMM,每三个DIMM作为一个内存通道,内存支持DDR3-1066,提供了非常大的带宽
 

使用2GB单条的内存,浪潮NF5280测试样机配置了36GB内存。使用8GB内存的满配情况下可以达到144GB
 

浪潮NF5280支持R-ECC DDR3内存,测试样机配置的是DDR3-1333,写成PC3-10600的形式
Click Here


浪潮NF5280服务器架构

浪潮NF5280评测样机


浪潮NF5280评测样机:主板,右侧内存模组下方的大方型散热片覆盖下的就是Tylersburg-36D/5520芯片

  对于一个平台来说,采用的芯片组决定了其架构,并影响到系统的扩展能力,浪潮NF5280服务器采用了Tylersburg-36D芯片组,其型号为5520,搭配的南桥为ICH10R。由于内存控制器已经集成到了处理器当中,因此5520芯片的主要功能就是连接南桥芯片,以及提供高带宽的I/O能力:它的新名字是IOH(I/O Hub),IO是其主要目的。

  Tylersburg的IO主要针对三个方面:CPU、PCIE设备和ICH南桥,这三种设备的连接分别由QPI、PCI Express、ESI来完成。其中PCI Express支持是Tylersburg最重要的部分。

  Tylersburg-EP IOH最多可以提供2个x16规格的PCI Express总线(Tylersburg-36D),并且可以分割为多个细小的连接,如分解为4个x8,或者最多分解为8个x4。除了两个这两个可以用来连接显卡的x16界面之外,Tylersburg-EP还可以额外提供一个x4界面用来在连接两块x16显卡之后连接其它如阵列卡这样的设备,这个额外的端口可以分割为两个x2界面。因此,Tylersburg-EP最多具有10个PCI Express端口,并且这些端口都属于第二代(PCI Express Gen 2,或者2.0),每信道带宽达到了500MB/s,是其上一代的两倍。


包括ICH10R在内,Tylersburg最多可以提供42个PCIe Lanes:36个Gen2,6个Gen1

  Tylersburg-EP最多提供两个QPI总线,可以最多支持两路Nehalem-EP处理器(我们尝试了将Core i7放上去,结果无法启动……)。Tylersburg-EP使用的南桥是ICH10R,而不是以往的ESB63x1系列,这一点和桌面版本的Tylersburg/X58一样。


浪潮NF5280评测样机:I/O插槽与I/O部件,部分由IOH提供,部分由ICH提供

  浪潮NF5280提供了4条PCI Express Gen2插槽、三条PCI-X 100/133插槽和一条远程管理模块专用插槽,从上到下分别为:

黑色的远程管理模块插槽(本质上是PCIE x4 Gen1界面)
黑色PCIE x8 Gen2插槽+黑色PCIE x1 Gen1插槽
黑色PCIE x4 Gen2插槽
提供PCIE x8 Gen2速率的黑色PCIE x16 Gen2插槽(可以连接PCIE x16显卡)
白色PCI-X 133MHz插槽
白色PCI-X 100/133MHz插槽
白色PCI-X 100/133MHz插槽
白色PCIE x4-U Gen2插槽(用于连接ZCR阵列扩展卡)

  其中黑色的远程管理模块插槽由ICH10R提供,白色PCI-X插槽则由PXH PCI-E-to-PCI-X桥提供。


浪潮NF5280评测样机:ICH10R南桥
Click Here


浪潮NF5280服务器架构


浪潮NF5280评测样机:主板,右侧内存模组下方的大方型散热片覆盖下的就是Tylersburg-36D/5520芯片


浪潮NF5280评测样机:I/O插槽与I/O部件,部分由IOH提供,部分由ICH提供
 
  就服务器来说,对外界而言,网络是唯一的通信窗口,因此服务器的网卡也很重要,浪潮NF5280采用了最新的千兆网络芯片:
 

82576EB的上一辈:82575EB
 

浪潮NF5280服务器采用的82576EB网卡是82575EB的改进版

   NF5280采用的是82576EB,比起已经算是比较稀奇的82575EB来,功能更加强大。82576EB是一个完整的双端口千兆以太网芯片,除了两个基本的千兆网卡功能外,提供VMDq功能,并支持IOAT2,支持VT-c,特别为虚拟化应用而设计,性能和功能都不同凡响。82576EB采用了PCIE x4 Gen2接口,直接于5520 IOH连接,不存在瓶颈问题。


ATI ES1000显卡芯片,采用PCI界面

  NF5280提供了两种远程控制方案选择:独立BMC、BMC/KVM,“浪潮是国内厂商中第一个这么设计的”——BMC可以监控CPU、风扇、电源的运行状态,从而方便用户调整风扇的转速或者是电源的输出功率,而KVM-OVER-IP可以让用户实现基于WEB的远程管理。


基于BMC的独立远程管理模块和板载ASPEED KVM over IP模块
Click Here


浪潮NF5280服务器架构

  磁盘也是服务器I/O当中相当重要的一环,浪潮NF5280服务器除了ICH10R南桥提供的6个SATA 3Gbps端口(AHCI/RAID 0/1/5)之外,还通过IOH直接连接的LSISAS1068E芯片提供8个SAS 3Gbps端口(支持RAID 0/1,兼容SATA),这个LSISAS1068E芯片还可以通过ZCR升级到硬件RAID 5。


浪潮NF5280服务器:LSI MegaRAID SAS 8708ELP 256MB阵列卡

   除了板载的多个存储接口之外,浪潮NF5280还采用了一块独立的LSI MegaRAID SAS 8708ELP 256MB阵列卡——通常比板载的性能要高一些。LSI MegaRAID SAS 8708ELP 256MB阵列卡基于LSI SAS1078E芯片,集成500MHz的ARM处理器和256MB的ECC DDR2内存,硬件支持RAID 0/1/5/6,是较常见的高性能阵列卡。


浪潮NF5280服务器:日立Ultrastar 15K300
 

日立Ultrastar 15K300,型号HUS153030VLS300,SAS 3Gbps接口,容量300GB,转速15000RPM
Click Here

  在2005年度服务器横评之后,我们认为当时的网络实验室无法满足今后继续发展的服务器测试的需要。所以,2006年我们IT168评测中心又斥资几十万对于IT168网络实验室的服务器测试平台进行了大幅度的升级,为思科Catalyst4500千兆交换机(WS-X4013+ Supervisor Engine II-Plus和WS-X4548-GB-RJ45)增加了一个思科全千兆24口模块WS-X4424-GB-RJ45,可同时连接72个千兆铜缆设备和2个光缆设备。另外,我们还购置了29台Dell PowerEdge SC430塔式服务器和原来的32台主流配置PC一起为服务器测试平台的提供负载。2007年,我们又采购性能更强的部分客户端,来确保为新一代的服务器提供足够的测试负载。2009年初,我们又对所有客户端的内存子系统进行了全面的升级。


Catalyst4500千兆交换机


部分Dell PowerEdge SC430服务器

  在新的测试环境下,我们进一步完善了服务器性能测试方案:

  • SPEC CPU 2006 v1.0.1

  SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。

  SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。

  SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。

  SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。

  我们在被测服务器中安装了当前最新版本的Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler这两款SPEC CPU 2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(假如只支持SSE3,则使用QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。

  和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64bit Windows Server 2008 Enterprise下完成,对于每个运算核心,至少配置1.5GB内存。

  • Iometer 2006.7.27

  Iometer是一款功能非常强大的IO测试软件,它除了可以在本机运行测试本机的IO(磁盘)性能之外,还提供了模拟网络应用的能力。在这次的测试中,我们仅仅让它在本机运行测试服务器的磁盘性能。为了全面测试被测服务器的IO性能,我们分别选择了不同的测试脚本。

  • Max_throughput(read):文件尺寸为64KB,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取吞吐量

  • Max_IO(read):文件尺寸为512B,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取操作IO处理能力

  • Max_throughput(write):文件尺寸为64KB,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入吞吐量

  • Max_IO(write):文件尺寸为512B,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入操作IO处理能力

  • SiSoftware Sandra v2009

  SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。

  • NetBench v7.03

  NetBench是针对文件服务器的性能测试软件,影响NetBench性能的主要是服务器的磁盘子系统,服务器磁盘控制器、条带大小、读写缓存、硬盘类型、组建磁盘阵列模式、内存容量、网络拓朴结构等都会对测试结果有明显的影响。我们在被测服务器上设立了文件服务器,NetBench通过网络实验室中60个客户端来模拟网络中的PC向文件服务器所发出的文件传输请求,文件服务器则将存储在磁盘上的文件数据发送给相应的客户端。在测试过程中,客户端会以每四台一组的步进依次增加并且向服务器发送文件传输请求,测试结束后控制台收集数据并绘制出服务器的数据传输变化曲线。

  • Benchmark Factory 4.6

  大部分的服务器应用都同数据库有着密切的联系,因此我们今年开始着手在在服务器测试中加入对于数据库性能的测试。我们选择了Benchmark Factory 4.6软件和Microsoft SQL2005 SP3来测试不同的硬件平台在数据库应用中的表现。

  我们选择了Benchmark Factory内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。

  • CineBench R10

  CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,在服务器测试平台中显示子系统不重要,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。

  • ScienceMark 2.0

  ScienceMark 2.0可以用来评估测试对象在执行科学计算时的运算效能,这部分效能主要和处理器子系统和内存子系统相关。我们主要用来评估测试对象的内存子系统的性能。

  • 系统功耗监测

  我们使用UNI-T UT71E智能数字万用表对于被测服务器系统的整体功耗进行了监测,利用随机附带的接口程序,我们可以记录被测服务器任意时间段内的功率变化。

Click Here

  测试对比平台的详细参数如下: 

测试平台、测试环境
测试分组
类别
Inspur NF5280服务器
双路Intel Nehalem-EP
Xeon X5570
双路Xeon E5430基准平台
处理器子系统
处理器
双路Intel Xeon X5570
双路Intel Xeon E5430
处理器架构
Intel 45nm NehalemIntel 45nm Penryn
处理器代号
GainestownHarpertown
处理器封装
Socket 1366 LGASocke 771 LGA
处理器规格
四核四核
处理器指令集
MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,SSE4.2,EM64T,VT
MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,EM64T,VT
主频2.93GHz2.66GHz
处理器外部总线2x QPI
3.2GHz
6.4GT/s
12.8GB/s(单向)
25.6GB/s(双向)
1x FSB
333MHz
1333MT/s
10.6GB/s
L1 D-Cache
4x 32KB
8路集合关联
4x 32KB
8路集合关联
L1 I-Cache
4x 32KB
4路集合关联
4x 32KB
8路集合关联
L2 Cache
4x 256KB
8路集合关联
2x 6MB
16路集合关联
L3 Cache
8MB
16路集合关联
 
主板
主板型号
Inspur NF5280
 
芯片组
Intel Tylersburg-EP
IOH:Intel 5520(Tylersburg-36D)
ICH:Intel 82801JR(ICH10R)
PXH:Intel PXH6702
MCH:Intel 5000X
ICH:Intel ESB6321
芯片特性2x QPI
PCI Express 36 Lanes Gen2
VT-d Gen 2
2x FSB1333
12MB Snoop Filter
PCI Express Gen1
VT-d Gen 1
内存控制器
每CPU集成三通道R-ECC DDR3Intel 5000X
集成四通道FBD DDR2 667
内存
36GB
2GB R-ECC DDR3 1333 SDRAM x18
8GB
2GB FBD DDR2 667 SDRAM x4
系统磁盘子系统
磁盘控制器
LSI MegaRAID SAS 8708ELP RAID Controller
DELL Perc 5/i RAID Controller
磁盘控制器规格

LSI1078 RoC
500MHz PowerPC
256MB RAM
8x SAS 3Gbps
Hardware RAID 0/1/5/6

Inte lOP333 /w XScale CPU
256MB RAM
LSI1068 SAS Controler /w ARM CPU
8x SAS 3Gbps
Hardware RAID 0/1/5
磁盘控制器设置
RAID 5
RAID 5
磁盘控制器驱动
LSI MegaRAID R3.6
3.9.0.64
LSI SAS
3.8.0.64
磁盘
Hitachi
Ultrastar 15K300
HUS153030VLS300 x3
Seagate
Cheetah 15K.5
ST314655SS x3
磁盘规格
15000RPM
300GB
SAS 3Gbps
16MB Cache
15000RPM
146GB
SAS 3Gbps
16MB Cache
磁盘设置
SAS 3Gbps
50GB系统分区
SAS 3Gbps
20GB系统分区
网络子系统
网卡
Intel 82576EB Dual Port Gigabit Network ControllerBroadcom BCM5708C
PCI-E千兆网卡 x2
网卡设置

82576EB Dual Port NIC:
PCI Express x4 @ 5520 IOH
I/OAT
TCP/RDMA/iSCSI CRC Acceleration
VMDq
Intel Teaming
Load Balancing

PCI Express x1 @ ESB6321
Broadcom NIC Teaming
Load Balancing
网卡驱动
Intel PRO Set
13.5
Broadcom NetXtreme 2
11.04.01
软件环境
操作系统Microsoft
Windows Server 2008 Enterprise Edition SP1 x64
Microsoft
Windows Server 2008 Enterprise Edition SP1 x64

Click Here

  SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。

  有一点需要说明的是,Sandra的处理器架构性能测试是根据处理器所能支持的所有指令集中选择进行的,不同的处理器支持的指令集不同,测试使用到的指令集也就不同。例如,Nehalem在这个测试当中就可以使用SSE4.2,而Penryn就只能使用SSE4.1,而Opteron可能就只能使用SSE3了。一般而言,由于可以使用SSE4,Intel的处理器理论性能会比较好。

SiSoftware Sandra Pro Business 2009
测试对象
Inspur NF5280
双路Intel Gainestown
Xeon X5570
2.93GHz
双路Intel Harptown
Xeon E5430
2.66GHz
Processor Arithmetic Benchmark
处理器架构测试
Dhrystone ALU
142977MIPS
91006MIPS
Dhrystone ALU vs SPEED
48.75MIPS/MHz
34.21MIPS/MHz
Whetstone iSSE3
124035MFLOPS
78385MFLOPS
Dhrystone iSSE3 vs SPEED
42.29MFLOPS/MHz
29.47MFLOPS/MHz
Processor Multi-Media Benchmark
处理器多媒体测试
Multi-Media Int x16 iSSE4.1
296.85MPixel/s
 
Multi-Media Int x8 iSSE4.1
 
199.33MPixel/s
Multi-Media Int x16 iSSE4.1 vs SPEED
101.21kPixel/s/MHz
 
Multi-Media Int x8 iSSE4.1 vs SPEED
 
74.94kPixel/s/MHz
Multi-Media Float x8 iSSE2
228.24MPixel/s
 
Multi-Media Float x4 iSSE2
 
108.69MPixel/s
Multi-Media Float x8 iSSE2 vs SPEED
77.82kPixels/s/MHz
 
Multi-Media Float x4 iSSE2 vs SPEED
 
40.86kPixels/s/MHz
Multi-Media Double x4 iSSE2
125.88MPixel/s
 
Multi-Media Double x2 iSSE2
 
55.75MPixel/s
Multi-Media Double x4 iSSE2 vs SPEED
42.92kPixels/s/MHz
 
Multi-Media Double x2 iSSE2 vs SPEED
 
20.96kPixels/s/MHz
Multi-Core Efficiency Benchmark
Inter-Core Bandwidth
75.61GB/s
20.54GB/s
Inter-Core Bandwidth vs SPEED
26.40MB/s/MHz
7.91MB/s/MHz
Inter-Core Latency
(越小越好)
16ns
90ns
Inter-Core Latency vs SPEED
(越小越好)
0.01ns/MHz
0.03ns/MHz
.NET Arithmetic Benchmark
.NET架构测试
Dhrystone .NET
32904MIPS
10562MIPS
Dhrystone .NET vs SPEED
11.22MIPS/MHz
3.97MIPS/MHz
Whetstone .NET
78286MFLOPS
45399MFLOPS
Whetstone .NET vs SPEED
26.69MFLOPS/MHz
17.07MFLOPS/MHz
.NET Multi-Media Benchmark
.NET多媒体测试
Multi-Media Int x1 .NET
62.28MPixel/s
31.28MPixel/s
Multi-Media Int x1 .NET vs SPEED
21.23kPixels/s/MHz
11.76kPixels/s/MHz
Multi-Media Float x1 .NET
26.19MPixel/s
8.68MPixel/s
Multi-Media Float x1 .NET vs SPEED
8.93kPixels/s/MHz
3.26kPixels/s/MHz
Multi-Media Double x1 .NET
51.45MPixel/s
24.75MPixel/s
Multi-Media Double x1 .NET vs SPEED
17.54kPixels/s/MHz
9.30kPixels/s/MHz

SiSoftware Sandra对比

  处理器架构性能测试分为整数和浮点两个部分,Nehalem-EP处理器是双路四核带超线程,8个物理内核,16个虚拟处理器,得分大幅度超出基准服务器。

Click Here

  SiSoftware Sandra缓存内存测试主要包括内存带宽、内存延迟等性能的测试。

SiSoftware Sandra Pro Business 2009
测试对象
Inspur NF5280
双路Intel Gainestown
Xeon X5570
2.93GHz
双路Intel Harptown
Xeon E5430
2.66GHz
Memory Bandwidth Benchmark
内存带宽测试
Int Buff'd iSSE2 Memory Bandwidth
16.93GB/s
6.13GB/s
Int Buff'd iSSE2 Memory Bandwidth vs SPEED
 
9.43MB/s/MHz
Float Buff'd iSSE2 Memory Bandwidth
16.90GB/s
6.13GB/s
Float Buff'd iSSE2 Memory Bandwidth vs SPEED
 
9.43MB/s/MHz
Memory Latency Benchmark
内存延迟测试
Memory(Random Access) Latency
(越小越好)
81ns
108ns
Memory(Random Access) Latency vs SPEED
(越小越好)
 
0.16ns/MHz
Speed Factor
(越小越好)
61.40
95.20
Internal Data Cache
4clocks
3clocks
L2 On-board Cache
10clocks
18clocks
L3 On-board Cache
48clocks
 
Cache and Memory Benchmark
缓存及内存测试
Cache/Memory Bandwidth
143.24GB/s
68.88GB/s
Cache/Memory Bandwidth vs SPEED
50.01MB/s/MHz
26.52MB/s/MHz
Speed Factor
(越小越好)
20.90
111.90
Internal Data Cache
448.46GB/s
421.23GB/s
L2 On-board Cache
421.42GB/s
122.68GB/s

SiSoftware Sandra对比

  Nehalem-EP结果比起上一代至强来强上不少,这是新的直联架构决定的。

Click Here

  SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。

SPEC CPU 2006整数运算性能

  我们可以看出Nehalem-EP/Gainestown具有非常强大的SPEC性能,它的直联架构(内置内存控制器和QPI总线)、超线程技术都具有很明显的效果,比起老一代至强,提升一倍以上。

Click Here

  SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。

SPEC CPU 2006整数运算性能

   相比于整数运算,浮点运算上Nehalem-EP的提升更大一些,比较明显地超过老一代至强,或许Nehalem-EP最能发挥功效的地方是在3D图形工作站。

Click Here

  ScienceMark v2.0 Membench

  ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。

  首先我们进行的是ScienceMark的测试,主要考察系统的缓存和内存子系统情况。L1/L2 Cache的成绩主要是跟处理器频率相关,因为目前的处理器当中L1 Cache都是和处理器核心同频率的,而L2 Cache基本上也是——当前的处理器L2都是全速的(放置在处理器内但不在同一个芯片上的Pentium II为半速L2,而Pentium之前的处理器L2则和处理器分离,速度更低)。越快的频率,L1/L2性能就越好。而内存带宽主要由两部分相关:比较大的部分是内存架构,小部分是内存操作指令(集),例如使用最新的SSE指令集比通常的ALU指令集会得到更大的吞吐量,而不同的SSE版本性能也有不同。

ScienceMark Membench
厂商Inspur 
产品型号NF5280
Intel Gainestown
Xeon X5570 2.93GHz
Intel Harpertown
Xeon E5430 2.66GHz
内存技术参数2GB R-ECC DDR3-1333 SDRAM x182GB FBD-DDR2 667 SDRAM x8
L1带宽(MB/s)47880.4855376.16
L2带宽(MB/s)19604.6416757.55
内存带宽(MB/s)10116.614485.09
L1 Cache Latency(ns)
32 Bytes Stride2 cycles
0.68 ns
1.13 ns
L1 Algorithm Bandwidth(MB/s)
Compiler43072.2525201.96
REP MOVSD43467.2525467.15
ALU Reg Copy11949.0913093.65
MMX Reg Copy22537.3625242.19
SSE PAlign47773.1352826.21
SSE2 PAlign47880.4855376.16
L2 Cache Latency(ns)
4 Bytes Stride3 cycles
1.02 ns
1.13 ns
16 Bytes Stride3 cycles
1.02 ns
1.50 ns
64 Bytes Stride8 cycles
2.73 ns
4.51 ns
256 Bytes Stride8 cycles
2.73 ns
4.51 ns
512 Bytes Stride7 cycles
2.39 ns
4.89 ns
L2 Algorithm Bandwidth(MB/s)
Compiler18039.6411880.48
REP MOVSD19604.6412536.88
ALU Reg Copy8788.908577.86
MMX Reg Copy14083.8313408.31
SSE PAlign18731.9216719.97
SSE2 PAlign5833.9316757.55
Memory Latency(ns)
4 Bytes Stride3 cycles
1.02 ns
1.13 ns
16 Bytes Stride5 cycles
1.70 ns
4.89 ns
64 Bytes Stride22 cycles
7.50 ns
19.17 ns
256 Bytes Stride102 cycles
34.77 ns
59.77 ns
512 Bytes Stride117 cycles
39.88 ns
68.04 ns
Memory Algorithm Bandwidth(MB/s)
Compiler9210.173178.45
REP MOVSD10116.613220.23
ALU Reg Copy8156.002789.34
MMX Reg Copy9306.182972.91
MMX Reg 3dNow--
MMX Reg SSE8781.263978.53
SSE PAlign8580.244128.59
SSE PAlign SSE9524.074390.48
SSE2 PAlign8560.834326.42
SSE2 PAlign SSE9555.134441.71
MMX Block 4kb7743.824063.30
MMX Block 16kb8321.354479.88
SSE Block 4kb7890.104074.79
SSE Block 16kb8355.864485.09

  表现远比Harpertown好——主要是IMC的功劳。

Click Here

  CineBench R10

  CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。

CineBench R10
处理器
Inspur NF5280
双路Intel Gainestown
Xeon X5570
双路Intel Harpertown
Xeon E5430
显卡--
CPU Benchmark
Rendering (1 CPU)4410 CB-CPU2931 CB-CPU
Rendering (x CPU)
28172 CB-CPU
16806 CB-CPU
Multiprocessor Speedup
6.39x
5.73x
OpenGL Benchmark
OpenGL Standard
224 CB-GFX
176 CB-GFX

服务器测试成绩

  单处理器的渲染性能Nehalem-EP提升了50%以上,多处理器的渲染测试提升更多,Nehalem-EP平台用作图形工作站应该表现会非常出色。

Click Here

  Iometer 2006.07.27

  我们的基准服务器采用了三块15000RPM的Seagate Cheetah 15K.5硬盘。浪潮NF5280则是用三块15000RPM Hitachi 15K300。基准平台使用了LSI MegaRAID SAS 8408E硬件阵列卡组建了RAID 5阵列,而浪潮NF5280则使用了流行的LSI MegaRAID SAS 8708ELP 256MB。阵列卡对比上,浪潮NF5280明显比较强。

IO读 

IO写

读吞吐量

写吞吐量

  浪潮NF5280在连续IOps方面在低负荷的时候表现不如基准服务器,不过在高负荷下大为胜出。除此之外,浪潮NF5280的表现均比基准服务器要好。

Click Here

  NetBench v7.03

  NetBench 7.03 Ent_dm.tst测试脚本模拟的是企业级文件服务器应用,它不但要求被测服务器的磁盘子系统可以提供足够的吞吐量,还需要其具有较高的IO处理能力,并且需要较为平衡的读取能力和写入能力。 

NetBench性能测试

  Nehalem-EP平台的成绩更为高一些。关于NetBench性能与处理器、内存、磁盘的关系可以看这里《评测机密:文件服务器性能提升N大要义

Click Here

  Benchmark Factory 4.6

  我们在被测服务器上安装了Microsoft SQL 2005 SP1,按照测试要求建立了数据库。BF在测试之前会在数据库中生成9个表,其中包括4个500万行的表格,每行包括100字节的数据,因此每个表格容量大约是476MB,整个数据库容量为1.86GB。我们用60个客户端模拟1000个用户,在这个数据库中进行查询、添加、删除、修改等操作。

SQL2005数据库性能测试

  数据库测试是一个综合性的测试,一般而言,在较少客户端的时候,其性能依赖于处理器以及内存系统,在较多客户端的时候,则开始依赖于磁盘子系统。在这个测试里面,Nehalem-EP的三个优势都得以完全发挥,最终成绩非常惊人:几乎是基准平台的3倍。数量众多的内存在这里发挥了明显的作用。

Click Here

  我们利用UNI-T UT71E智能数字万用表和相配套的软件对于对于被测服务器在几种不同的状态下的功耗进行了监测,主要包括如下项目:

  • P1:连接电源但不开机状态

  • P2:系统启动完毕,5分钟内无动作,但不休眠

  • P3:系统启动完毕,处理器满载、磁盘以最大吞吐量工作

功耗

  由于浪潮NF5280测试样机搭配了18条内存(36GB),并使用了冗余电源,因此功耗显得略高。NF5280的处理器频率也要高一些。

Click Here

  【IT168评测中心】凭借着崭新的直联架构——集成内存控制器和双QPI总线,再配合超线程技术,Nehalem-EP至强5500系列处理器的性能比起其上一代有了一个大的飞跃,同频率下处理器密集型和内存密集型运算的性能提升达到了一倍以上,而吞吐量应用则提升更大。

浪潮NF5280评测样机,配置了双路Nehalem-EP Xeon X5570处理器和36GB DDR3内存

  来自国内重要服务器厂商浪潮的NF5280服务器是采用至强5500处理器的产品,我们测试的样机配置了2.93GHz的X5570处理器和高达36GB的DDR3 1333内存——浪潮NF5280是少数可以提供18个DIMM的服务器之一,采用4GB的内存模块,可以轻松达到72GB的内存容量。


全新模块化设计:NF5280

  设计思想上,浪潮一方面致力于帮助用户实现最高计算性能,另一方面又通过模块化设计来平衡成本,从而帮助用户实现了灵活的“按需选择”:不同的硬盘选项、最大的内存扩展容量、不同的PCI选择、模块化的电源设计等。NF5280很好地体现了这个思想。

 
浪潮NF5280评测样机

Intel Nehalem-EP处理器首发深度评测

直联架构的威力 Nehalem-EP处理器解析

Nehalem-EP 新Xeon 5500处理器首度曝光

透视六核心至强 Dunnington处理器解析

透视八核心至强 Nehalem-EX处理器解析

2008年度评测报告:深入Nehalem微架构

性能大幅提升 Core i7 服务器应用测试

再攀性能之巅 Intel全新酷睿i7深度评测

机密揭露:Intel超线程技术有多少种?

[IDF08]基辛格演讲:Nehalem集群演示

2
相关文章