服务器 频道

承前启后 华硕Paxville DP平台

  Intel 双核Xeon 2.8GHz处理器

  优点:

  • 采用双核技术,支持超线程,单处理器可并行处理四线程

  • 可在现有E7520平台上运行

  缺点:

  • 发热量大

  价格:

  华硕PVL-D/SCSI主板

  优点:

  • 支持Paxville DP处理器

  • 采用双6700PXH芯片,提供4条64bit/133 MHz PCI-X插槽

  • 板载2颗Broadcom BCM5721千兆网卡控制器,提供双千兆铜缆网口

  • 板载AIC7902 SCSI控制器,支持RAID 0/1

  • 附件齐全

  缺点

  • 暂无

  价格

  IT168评测中心2005年10月10日英特尔正式发布了其第一款双核心Xeon处理器,其中包括面向双路服务器的Dual-Core Xeon 2.8GHz(Paxville DP核心)和四路服务器的Dual-Core Xeon 7000(Paxville核心)。对于英特尔的合作伙伴特别是坚持仅采用英特尔处理器产品的厂商而言,这无疑是个好消息,这之前因为没有双核产品,他们只有把英特尔Pentium D处理器加入到入门级服务器中撑撑门面。

  按照英特尔之前的公布的蓝图,英特尔双核Xeon处理器要等到今年的第一季度才会发布,提前一个季度发布新产品是最近几年来少有的事情。英特尔将其解释为多年研发处理器经验的积累使得双核处理器的研发进度明显提前,英特尔根据研发进度调整了产品发布的时间,使得客户可以在原有架构上获得更高的性能。

  业界的普遍看法是,英特尔此举的主要原因是其主要竞争对手AMD Opteron的成功的市场拓展所带来的竞争压力所致,特别是去年4月份AMD率先推出的双核Opteron处理器,更是使得一贯领先的英特尔无以应对,唯一的Pentium D双核处理器还要面对真假双核的置疑。

  根据AMD公布的2005年第四季度财报,“AMD计算产品集团的销售额为13.1亿美元,比2004年同期的7.3亿美元增长79%,比上一季度的9.69亿美元增长35%;运营利润为2.87亿美元,高于2004年同期的9000万美元和上一季度的1.49亿美元。这主要得益于产品平均价格的提高,大客户对AMD产品需求的提升,以及服务器和客户端业务的高速发展。从地域的角度来看,AMD计算产品集团在北美、欧洲和大中华区等市场的表现尤为抢眼。”第三方的调查报告也显示,近年来AMD处理器的市占率有了大幅度的提升,Mercury Research公布的2006年第一季度数据显示,目前AMD皓龙处理器占全球先进季度发运的x86服务器处理器总量的22.1%,较2005年第四季度的16.4%有大幅增长。

  其实,最早英特尔并没有计划将Paxville核心应用到双路处理器服务器中,读者可以搜索一下过去的关于Paxville的新闻会发现它总是很明确的同Xeon MP联系在一起。更有意思的是,基于Paxville核心的Xeon MP 7000系列处理器采用了新的命名方式,目前的四个型号分别7020/7030/7040/7041,而唯独用于双处理器服务器的Intel Xeon 2.8GHz依然是传统的以主频命名的方式。看上去基于Paxville DP核心的产品并非计划内产品,它甚至连使用新型号的权利都没有。根据我们所掌握的资料来看,Dempsey核心才是DP的正统,它们就是即将发布的Xeon 5000系列处理器。

  双路服务器占据了服务器市场大绝大多数,按理说英特尔应该会格外重视这个市场,但是英特尔却是先提起来Pentium D搪塞一下,然后又拉下Paxville抵挡一阵。虽然表面上英特尔是迫于市场压力“提前”发布了双核Xeon产品,但是在最重要的双路服务器市场上依然是按照预先的计划推进。

  英特尔Xeon处理器规格一览

  我们将英特尔已经发布(2006年5月23日之前)Xeon处理器产品的主要规格归纳在如下的表格中,其中包括了全部的7款双核Xeon处理器,借助这个表格我们可以更容易的向读者阐明Paxville DP处理器的主要功能和定位。

  双核Xeon 2.8GHz处理器同Pentium D处理器非常的相似,也是将两个完全相同的处理器核心封装在一起,每个核心独享2MB L2缓存,共享800MHz FSB,支持超线程、EM64T、EDbit等技术。这款处理器集成了高达3亿个晶体管,依然采用90nm晶圆生产工艺,而并非英特尔已经应用于桌面处理器的65nm晶圆生产工艺。

CPU-Z可正确识别Paxville DP的基本信息

  • Dual-Core processing

  • Available at 2.80 GHz processor speed

  • 90 nm process technology

  • Dual processing (DP) server support

  • Binary compatible with applications running on previous members of Intel’s IA-32 microprocessor line

  • Intel NetBurst micro-architecture

  • Hyper-Threading Technology allowing up to 8 threads per platform

  • Hardware support for multithreaded applications 800 MHz system bus

  • Rapid Execution Engine: Arithmetic Logic Units (ALUs) run at twice the processor core frequency

  • Hyper Pipelined Technology

  • Advanced Dynamic Execution

  • Very deep out-of-order execution

  • Enhanced branch prediction

     

  • Includes 16-KB Level 1 data cache per core (2x16-KB)

  • Intel Extended Memory 64 Technology (Intel EM64T) 􀂄

  • 2-MB Advanced Transfer Cache per core (2x2-MB, On-die, full speed Level 2 (L2) Cache) with 8-way associativity and Error Correcting Code (ECC)

  • Enables system support of up to 64 GB of physical memory

  • 144 Streaming SIMD Extensions 2 (SSE2) instructions

  • 13 Streaming SIMD Extensions 3 (SSE3) instructions

  • Enhanced floating-point and multimedia unit for enhanced video, audio, encryption, and 3D performance

  • System Management mode

  • Thermal Monitor 􀂄 Machine Check Architecture (MCA)

  • Demand-Based Switching (DBS) with Enhanced Intel SpeedStep Technology

  根据英特尔提供的资料,Pentium 830/840处理器的TDP(Thermal design power)为130瓦,单核Xeon 3.0GHz的TDP为110瓦,双核Xeon 2.8GHz处理器的TDP略高为135瓦。英特尔还在双核Xeon 2.8GHz处理器中加入了新的电源管理功能DBS(demand-based switching),这个功能可以关闭空闲状态的部分芯片。因此表面上看,双核Xeon的功耗似乎提升不多。不过,在我们的测试过程中,发现原来用于测试单核双Xeon平台的420瓦电源无法驱动双核双Xeon平台,为了能够顺利测试我们只好重新购置了功率高达700瓦的电源。就我们目前所看到的服务器厂商推出的双核Xeon产品,其所采用的电源的功率一般为600瓦左右。

  这款双核Xeon处理器采用了同单核Xeon同样的封装形式,均为604-pin FC-mPGA4(Flip Chip Micro Pin Grid Array),因此可以安装在现有的Xeon平台上。这是双核Xeon 2.8GHz处理器更现实的意义的地方,能够支持现有平台的平滑升级。目前使用英特尔E7520芯片组的用户,可以通过更新BIOS让主板支持双核处理器,从把现有的“双路四线程”服务器升级为“四路八线程”服务器。

  对比上述表格中Paxville DP和Paxville的主要规格,我们还发现双核Xeon 2.8GHz处理器平台还没有提供硬件VT的支持能力。双路服务器用户还要等到英特尔正式发布Bensley平台之后才能获得硬件支持VT技术的服务器平台。

  DBS技术

  随着处理器的主频越来越高,整合度越来越高,即便是英特尔的处理器产品也不可避免的出现了发热量增长过快的问题。目前主流的英特尔Xeon处理器的TDP均在110-140瓦之间,这不仅仅需要更高效率、更可靠的散热系统,也需要耗费更多的电能。但是实际应用中,处理器往往不会工作在满载的状态下,因此英特尔将原来应用于移动处理器的Speedstep技术移植到了服务器处理器上,让处理器工作在适当的频率和电压上,从而降低应用中的的功耗。

  EIST(Enhanced Intel SpeedStep Technology)技术通过在不同的倍频和电压点之间切换,实现处理器的节能。要支持这项技术,系统必须支持动态VID转换。在不同的电压、频率状态间切换是由软件控制的。基于Paxville DP核心的双核Xeon处理器支持这个功能。

  EIST功能的中心是为处理器增加了一个新的状态:“性能状态(Performance states)”,简称P-states。P状态是正常状态的一个子状态,EIST功能支持实时频率和电压的实时动态切换。当然在处理器频率变化的同时,处理器的性能在也发生相应的变化。特别需要指出的是前端总线的频率并不会变化,只是内部核心频率发生改变。为了能够运行在较低功耗状态,电压也会随着主频(或者说是倍频)改变。双核Xeon处理器内部的两个核心在某个时刻的负载不同,因此可能其中一个需要工作在较低的频率上,而另外一个需要工作在较高的频率上,整合在处理器中的相关硬件逻辑电路可以对它们的需求进行判断,然后选择较高的一个电压作为处理器当前的供电电压。

  如上图所示,EIST技术定义了4种(或者说6种)状态,它们是Normal State、Enhanced HALT和HALT State、Enhanced HALT Snoop和HALT Snoop State、Stop-Grant State。处理器只有在Normal State状态下才能发挥全部的设计性能,而P-state也属于Normal State状态的一种。

  总得来说,EIST通过提供多个电压/频率运行点,从而能在较低功率状态下提供非常好的性能。另外,电压/频率是由软件控制通过写入到MSR(Model Specific Registers)实现的,这样可以消除对于芯片组的依赖性。

  在调节频率的同时,电压也会发生变化。如果目标频率高于当前频率,通过变化VID信号,Vcc将会以12.5 mV的步进增加,直到达到所需要的电压。PLL(Phase Lock Loop)然后锁定新频率。如果目标频率低于当频率,则PLL锁定新频率,然后Vcc会根据VID信号的变化降低到所需要的电压。

  根据我们的理解,EIST功能是英特尔DBS(Demand Based Switching,按需切换)功能的重要组成部分,DBS可能还会包括其它方面的内容。

  IBM公布了一些资料,显示当处理器的利用率在45%的时候,DBS平均系统功耗可以降低大约24%,也这就意味着在这样的负载水平的服务器一年的电费之处会少四分之一!

  50%的性能提升,40%的价格提升

  在发布新处理器的同时,英特尔还公布了一系列的性能测试报告,这些报告对比了配置了两颗单核Xeon 3.6GHz的服务器平台和配置了两颗双核Xeon 2.8GHz的服务器平台的的性能差异。这些报告显示不同的应用中,新的双核Xeon处理器具有15-50%的性能优势。

服务器平台性能

 

Xeon 3.6GHz

Paxville 2.8GHz

增幅(降幅)

Java Performance

105296

159071

51.1%

Mail server Performance

8208

9500

15.7%

Database server Price Performance

1.4$/tpmc

0.99$/tpmc

(29.3%)

 

HPC应用性能

 

Xeon 3.6GHz

Paxville 2.8GHz

增幅(降幅)

Star-CD

1

1.31

31%

Fluent6.2

1

1.31

31%

LS-Dyna

1

1.34

34%

Linpack

1

1.39

39%

 

处理器性能

 

Xeon 3.6GHz

Paxville 2.8GHz

增幅(降幅)

整数吞吐量

39.5

59.9

51.6%

浮点吞吐量

33.2

42.5

28.0%

  在部分应用中(Java性能和整数性能)基于Paxville核心的双核Xeon处理器的性能高出主频更高的单核Xeon处理器50%左右——这应该也是英特尔在众多场合对于新的双核Xeon处理器性能描述的主要依据。目前英特尔公布的双核Xeon 2.8GHz处理器的千颗采购单价为1043美元,而3.8GHz单核心Xeon处理器售价为690美元,价格升幅为40%,性价比有了一定程度的提升。

  据悉,英特尔计划在2006年年底让其85%的服务器处理器都采用双核技术,这也就意味着双核将会成为处理器的“标配”。另外,英特尔还表示下一代的双核Xeon处理器的价格还会进一步下降,基本同现有单核Xeon处理器价格持平。这意味着这家芯片巨人意图在短时间内迅速将双核技术“平民化”,恢复甚至是进一步扩大原来在技术、产品和市场上的领先优势。

  我们IT168评测中心也对于Paxville服务器系统进行了多种应用的测试。

  华硕服务器主板PVL-D/SCSI

  华硕PVL-D系列主板是全球先进款支持双核Paxville DP处理器的主板,但是由于种种原因送测样品进入到国内已经是今年4月份了,而此时英特尔的新一代双核Xeon平台已经蓄势待发了。根据具体的配置不同,这个系列的主板还细分为几个子型号,我们这次收到的测试样品为PVL-D/SCSI,是一款板载了SCSI控制器的主板。

  华硕PVL-D/SCSI主板外形尺寸为33cm x 30.5 cm(13in x 12in),适用于符合SSI EEB 3.5规范的服务器机箱。它采用的芯片组依然是我们熟悉的E7520 MCH+6700PXH+ICH5R,因此所提供的功能并没有太多的变化。

  双核Xeon 2.8GHz处理器依然是Socket604接口,因此这款主板的处理器插座依然同之前的Xeon服务器主板相同。每个处理器供电电路采用了1个ADP3168(6-Bit Programmable 2/3/4-Phase Synchronous Buck Controller)和4个ADP3418K(12V MOSFET Driver)以及多个MOSFET管、线圈、电阻组成。

  华硕PVL-D/SCSI主板提供了8条DDR2 DIMM插槽,用户可以安装容量为256MB、512MB和1GB的Registered ECC DDR2400内存模组。如果安装2GB DDR2模组,华硕解释说由于芯片组资源分配的问题,侦测到的容量可能会低于16GB。另外,需要注意的是,这款主板不支持采用128Mb芯片的内存模组,也不支持双bank x16内存模组。如果仅仅安装1条内存,那么应该安装在DIMM_B4,也就是上图所示的最上面的蓝色插槽中。

  华硕PVL-D/SCSI主板采用了两颗6700PXH芯片,因此总共可以提供4条64bit/133 MHz PCI-X插槽,这在双Xeon服务器主板上并不多见。我们评测过的大部分产品都是板载了1颗6700PXH芯片,因此要提供4条PCI-X插槽话,只能是64bit/100MHz或者64bit/66MHz的规格。利用这样的功能,服务器厂商可以推出具有极高扩展性的服务器产品。另外,这款主板还提供了1条32bit/33MHz PCI插槽和1条PCI-E x 8插槽——对于应用相对较少的新旧接口都有兼顾。

  华硕PVL-D/SCSI主板上提供了2个IDE接口、2个SATA接口、2个SCSI接口和1个ZCR扩展槽。在华硕PVL-D系列中只有板载了Adaptec SCSI控制器的型号才直接提供SCSI接口。上图白色的扩展槽是可用于扩展Adaptec AIC-2015 Zero-Channel RAID卡,用户可以用较低的成本获得RAID5配置,而且不会占用PCI-X或者PCI-E插槽。

  华硕PVL-D/SCSI主板提供了1个PS/2键盘、1个PS/2鼠标接口、2个USB接口、1个并口、1个串口、1个VGA接口和2个千兆铜缆网口。其千兆网口是由两颗板载Broadcom BCM5721 PCI-Express千兆网卡控制器芯片。

  同以往的华硕产品一样,这款主板产品也提供了齐全的附件:

  • 2条SATA信号线

  • 1条SATA电源线(双头)

  • 2条SCSI Ultra 320线缆

  • 80芯IDE信号线

  • 三合一软驱信号线

  • 2套CEK扣具

  • I/O挡板

  • 华硕主板支持光盘

  • 用户手册

  测试平台和测试方法

  今年我们对于IT168网络实验室的服务器测试平台进行了大幅度的升级,为思科Catalyst4500千兆交换机(WS-X4013+ Supervisor Engine II-Plus和WS-X4548-GB-RJ45)增加了一个思科全千兆24口模块WS-X4424-GB-RJ45,可同时连接72个千兆铜缆设备和2个光缆设备。

  另外,我们还购置了29台Dell PowerEdge SC430塔式服务器和原来的32台主流配置PC一起为服务器测试平台的提供负载。

Catalyst4500千兆交换机

新增的部分Dell PowerEdge SC430服务器

  我们利用华硕PVL-D/SCSI主板和两颗双核Xeon 2.8GHz(Paxville DP)处理器构建了一台双路服务器,具体配置如下表所示:

被测服务器配置

主板

ASUS PVL-D/SCSI

芯片组

E7520 + 6700PXH x2 + ICH5R

驱动程序

INF 7.3.1.1013

处理器

Intel Xeon 2.8GHz(Paxville DP核心)

主频

2.8GHz

FSB

800MHz

L2容量

2 x 2MB

处理器设置

XDbit Disable
EIST Disable
C1 State Disable
HyperThreading Enable

内存

三星 512MB 1Rx8 PC2-3200R-333-12-A3 x 4

内存时序

3-3-3-7 1CMD

磁盘控制器

板载AIC-7902 PCI-X Dual U320 SCSI控制器

硬盘

Seagate Cheetah 10k.7 ST373207LW x 2

驱动程序

Adaptec AIC-7902 HostRaid 1.2.63.0

磁盘设置

两款硬盘组建为RAID 1模式,磁盘分为两个分区,均为NTFS格式,系统默认簇,主分区20GB,其它分为扩展分区,共享文件夹、磁盘测试均在格式化后的扩展分区进行

操作系统

Microsoft Windows Server2003,5.02.3790,SP1

网卡

板载Broadcom BCM5721千兆网卡

驱动程序

8.27.1.0

  我们在上述配置的服务器上分别安装了Microsoft Windows 2003 SP1企业版(简体中文、32bit),正确安装了各个硬件的驱动程序,确保服务器工作在非常好的的状态。

  我们所使用的评测软件如下:

  • SPECCPU2000 v1.2

  • ScienceMark v2.0 Membench

  • IOMeter 2004.7.30

  • Sisoft Sandra 2005 Pro SR2

  • WebBench v5.0

  • NetBench v7.03

  SEPCCPU2000可以评估服务器系统中处理器的整数性能和浮点性能,我们进行的是SPECint_base2000和SPECfp_base2000两个项目的测试。ScienceMark v2.0一款用于评估处理器科学计算能力的软件,它提供了评估被测系统内存带宽的功能,这款软件可以很好的支持多线程。WebBench在服务器评估中被普遍使用,侧重于服务器CPU子系统的性能评估。另外,我们还利用Sisoft Sandra 2005 Pro这款普通读者都熟悉的软件对于整个系统进行测试。

客户端配置

主板

Dell OM9873

芯片组

E7230+ICH7R

驱动程序

INF 7.2.0.1004

处理器

Intel Celeron 326(2.53GHz)

前端总线

533MHz FSB

L2容量

256KB

内存

Micron PC4300 256MB

内存时序

4-4-4-12 1CMD

磁盘控制器

ICH7R

硬盘

WDC WD800JD 80GB SATA

分区

硬盘分为两个分区,均为NTFS格式,系统默认簇,主分区20GB,其它分为扩展分区

驱动程序

5.1.2535.0

操作系统

Microsoft Windows XP Pro

板载网卡

Broadcom NetXtreme Gigabit Ethernet

网卡驱动程序

8.22.1.0

 

客户端配置

主板

Gigabyte

芯片组

i845GL+ICH4

驱动程序

5.10.1006

处理器

Intel Celeron 1.7GHz

前端总线

400MHz FSB

L2容量

128KB

内存

Kingston 256MB DDR333

内存时序

2.5-3-3-7 1CMD

磁盘控制器

ICH4

硬盘

Seagate 7200.7 40GB

分区

硬盘分为两个分区,均为NTFS格式,系统默认簇,主分区20GB,其它分为扩展分区

驱动程序

2.3.0.2160

操作系统

Microsoft Windows XP Pro

板载网卡

Realtek RTL8139

网卡驱动程序

5.396.530.2001

  在下面的测试结果分析中,读者将会看到同双路Xeon 3.0服务器(华硕RS160-E2 1U服务器)评测的测试结果的对比,从而可以了解到双核技术在不提升处理器频率的情况下,可以带来多少计算能力的提升。

对比服务器配置:双路Xeon平台

处理器
Intel Xeon 3.0GHz  x 2
内存
512MB REG ECC DDRII400 x 4
硬盘控制器
板载Adaptec AIC-7902W控制器
存储
2个Cheetach  73GB硬盘
网络
BROADCOM BCM5721 PCIE千兆网卡控制器
显示
集成ATI RageXL8M显示控制器 
电源
AcBel API3FS43
光驱
Slim CD-ROM光驱
软驱
1.44M软驱 
操作系统
Microsoft Windows 2000 Server Standard SP1

  处理器性能测试

  SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。

  SPEC CPU2000是SPEC组织推出的一套CPU子系统评估软件,它包括CINT2000和CFP2000两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能。计算系统中的处理器、内存和编译器都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2000的影响非常的小。

  我们在被测服务器中安装了Intel C++ 8.1 Compiler、Intel Fortran 8.1 Compiler这两款SPEC CPU2000必需的编译器,另外安装了Microsoft Visual Studio 2003.net提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,可以满足Base测试。

双Paxville DP平台 (Throughput)
 

SPECfp
rate_base2000

 

SPECint
rate_base2000

开启线程数量

8

开启线程数量

8

168.wupwise

57.6

164.gzip

56.6

171.swim

22.6

175.vpr

38.2

172.mgrid

21.0

176.gcc

80.1

173.applu

21.7

181.mcf

23.1

177.mesa

57.7

186.crafty

50.0

178.galgel

53.5

197.parser

63.1

179.art

34.4

252.eon

81.9

183.equake

24.6

253.perlbmk

67.6

187.facerec

41.9

254.gap

56.3

188.ammp

33.6

255.vortex

105.0

189.lucas

22.4

256.bzip2

49.2

191.fma3d

28.5

300.twolf

50.7

200.sixtrack

32.3

总分

56.4

301.apsi

45.4

 

总分

33.3

 
单Paxville DP平台 (Throughput)
 

SPECfp
rate_base2000

 

SPECint
rate_base2000

开启线程数量

4

开启线程数量

4

168.wupwise

44.5

164.gzip

28.9

171.swim

21.7

175.vpr

23.2

172.mgrid

20.3

176.gcc

44.3

173.applu

20.6

181.mcf

23.4

177.mesa

28.7

186.crafty

25.3

178.galgel

43.3

197.parser

33.0

179.art

33.9

252.eon

40.9

183.equake

23.0

253.perlbmk

35.4

187.facerec

34.5

254.gap

37.4

188.ammp

21.7

255.vortex

54.6

189.lucas

21.6

256.bzip2

28.8

191.fma3d

22.5

300.twolf

29.6

200.sixtrack

16.3

总分

32.6

301.apsi

26.2

 

总分

25.9

 

双路Xeon 3.0GHz平台(Throughput)
 

SPECfp
rate_base2000

 

SPECint
rate_base2000

开启线程数量

4

开启线程数量

4

168.wupwise

47.0

164.gzip

30.8

171.swim

22.4

175.vpr

21.3

172.mgrid

18.5

176.gcc

41.2

173.applu

21.9

181.mcf

19.4

177.mesa

31.2

186.crafty

27.2

178.galgel

41.2

197.parser

33.4

179.art

29.8

252.eon

44.3

183.equake

23.1

253.perlbmk

36.4

187.facerec

35.2

254.gap

38.2

188.ammp

19.1

255.vortex

56.4

189.lucas

21.9

256.bzip2

26.9

191.fma3d

24.0

300.twolf

25.2

200.sixtrack

17.3

总分

31.9

301.apsi

25.7  
总分 25.8

  SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。

  从测试int_rate_base结果来看,双核处理器的整数性能有了大幅度的提升,提升幅度达到了76%,这意味着配置双核Xeon处理器的服务器比之前的单核产品具有更强的同时执行多个计算密集型整数操作的能力,数据库应用、邮件服务器、Web服务器等应用的性能均会有明显的提升。密集型浮点运算能力的提升幅度也较大,优势达到了29%。

  我们还在华硕PVL-D/SCSI主板上测试了仅仅安装一颗双核Xeon 2.8GHz处理器时的性能,发现此时系统相的性能依然略高于原来双Xeon配置的性能。另外,考虑到双核Xeon 2.8GHz平台的主频是2.8GHz,这说明其效率较双路Xeon有所提升。

双Paxville DP平台 (Speed)
 

SPECfp_base2000

 

SPECint_base2000

开启线程数量

8

开启线程数量

8

168.wupwise

1499

164.gzip

738

171.swim

2064

175.vpr

777

172.mgrid

810

176.gcc

1184

173.applu

976

181.mcf

1419

177.mesa

854

186.crafty

749

178.galgel

1980

197.parser

892

179.art

2627

252.eon

1150

183.equake

1556

253.perlbmk

971

187.facerec

1109

254.gap

1053

188.ammp

780

255.vortex

1521

189.lucas

1408

256.bzip2

804

191.fma3d

926

300.twolf

1065

200.sixtrack

436

总分

999

301.apsi

810  

总分

1146
 
单Paxville DP平台 (Speed)
 

SPECfp_base2000

 

SPECint_base2000

开启线程数量

4

开启线程数量

4

168.wupwise

2222

164.gzip

930

171.swim

2153

175.vpr

973

172.mgrid

1242

176.gcc

1592

173.applu

1300

181.mcf

1630

177.mesa

1230

186.crafty

1034

178.galgel

2932

197.parser

1159

179.art

3699

252.eon

1727

183.equake

1965

253.perlbmk

1499

187.facerec

1603

254.gap

1532

188.ammp

1035

255.vortex

2333

189.lucas

1790

256.bzip2

1017

191.fma3d

1246

300.twolf

1357

200.sixtrack

556

总分

1348

301.apsi

1053  

总分

1544
 

双Xeon平台(Speed)

 

SPECfp_base2000

 

SPECint_base2000

开启线程数量

4

开启线程数量

4

168.wupwise

2332

164.gzip

999

171.swim

2192

175.vpr

906

172.mgrid

1290

176.gcc

1643

173.applu

1372

181.mcf

1301

177.mesa

1321

186.crafty

1110

178.galgel

2401

197.parser

1166

179.art

2854

252.eon

1856

183.equake

1991

253.perlbmk

1577

187.facerec

1665

254.gap

1641

188.ammp

910

255.vortex

2299

189.lucas

1839

256.bzip2

969

191.fma3d

1310

300.twolf

1139

200.sixtrack

593

总分

1329

301.apsi

1012  
总分 1522

  在“Speed”测试中,我们发现了一个奇怪的现象,在双路双核配置下,无论是整数性能还是浮点性能都有明显的下降,仅是单路双核配置性能的74%。我们采用了多种方法进行了测试,比如采用4线程或者1线程,双路双核配置平台的性能也没有改变,关闭超线程技术对于测试结果也没有影响。通过后面的缓存方面的测试我们初步确认是L1/L2缓存的效率引起了这种问题。

  单路双核平台的Speed测试结果同双路Xeon平台的测试结果非常的接近,这说明它们在执行某个任务的时候性能基本一样的。

  缓存内存性能测试

ScienceMark Membench

 

双路双核Xeon

单路双核Xeon

双路Xeon

内存带宽(MB/s)

3703.52

4016.83

4091.74

L1 Cache Latency (ns)

32 Bytes Stride

1.43

1.07

1.03

L2 Cache Latency(ns)

4 Bytes Stride

 2.21

2.14

2.00

16 Bytes Stride

 4.64

4.26

4.67

64 Bytes Stride

10.36

9.64

9.00

256 Bytes Stride

10.36

9.29

8.67

512 Bytes Stride

10.00

8.57

8.33

Memory Latency(ns)

4 Bytes Stride

  3.21   

 2.14

2.00

16 Bytes Stride

  5.71

 5.00

5.00

64 Bytes Stride

 16.78

16.78

16.33

256 Bytes Stride

128.21

126.42

125.66

512 Bytes Stride

134.63

132.85

131.33

Algorithm Bandwidth(MB/s)

Compiler

1914.36

2255.71

2113.73

REP MOVSD

1950.86

2286.97

2140.7

ALU Reg Copy

1746.1

2127.93

1885.35

MMX Reg Copy

1903.61

2214.51

2031.39

MMX Reg 3dNow

-

-

-

MMX Reg SSE

2712.14

3402.06

3396.47

SSE PAlign

3066.42

3533.77

3537.47

SSE PAlign SSE

3012.8

3480.59

3525.52

SSE2 PAlign

3066.15

3542.22

3539.02

SSE2 PAlign SSE

3010.93

3468.71

3527.03

MMX Block 4kb

3098.21

3619.55

3770.11

MMX Block 16kb

3622.71

4016.49

4091.74

SSE Block 4kb

3292.47

3613.15

3800.00

SSE Block 16kb

3703.52

4016.83

4078.21

  ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。

  对比双路双核平台和单路双核平台的测试结果,我们会发现测试结果出现了一些有趣的现象:双路双核平台的内存带宽的测试结果是低于单路双核平台的,仔细对比会发现,L1和L2缓存延迟时间方面,双路双核平台比单路双核慢。而内存延迟测试方面,也出现了小数据包测试(4Bytes、16Bytes)性能低于单路平台的现象——此时受到缓存性能的影响会更加明显。当测试数据块达到64Bytes、256Bytes和512Bytes时,两者之间则没有明显的差距了。在不同的Algorithm Bandwidth中,单路双核平台的测试结果也是明显的高于双路双核平台的测试结果。我们推测出现这种结果还是同处理器的缓存仲裁机制效率不高有关。

  对比单核双Xeon平台的L1、L2缓存的延迟时间,我们会发现它同单路双核Xeon平台的性能是相近的,内存延迟以及带宽也是相近的。这个部分的测试结果或许可以揭示在SPEC CPU2000中“Speed”测试

  我们还使用了Sisoft Sandra 2005 Pro程序中的Cache & Memory Benchmark测试子项目进行了测试。数据块2KB-16KB之间的测试曲线基本可以代表L1缓存的性能。之前我们对于单核心Xeon系统的测试显示,这个部分的测试结果同处理器的数量(线程)有关,比如单颗双核处理器、单颗超线程Xeon处理器(也就是2线程)的测试结果都在25000MB/s水平上,而单核心双Xeon(4线程)L1缓存带宽则会窜升至70000-80000 MB/s之间。

  但是这个规律在这次的双核平台上完全被打破了,单颗双核Xeon(4线程)的L1测试结果为25000 MB/s左右,两颗双核Xeon(8线程)的L1测试结果为35000 MB/s。

  32KB-1MB之间的测试曲线基本代表了L2缓存的性能,这项测试也同处理器的数量有关,双Xeon处理器的L2缓存带宽在40000 MB/s水平上。但是双核平台上没有延续这个规律,虽然他们分别具有8线程和4线程,但是测试结果只有25000 MB/s和19000 MB/s左右。

  4MB以上的测试曲线可以代表内存的性能,三个平台的测试结果比较接近,基于华硕PVL-D/SCSI的双路双核平台的内存带宽为2300 MB/s,单路双核平台的内存带宽为2700 MB/s,双Xeon平台的内存带宽为2700 MB/s。

  磁盘性能测试

  IOMeter是一款功能非常强大的IO测试软件,它除了可以在本机运行测试本机的IO(磁盘)性能之外,还提供了模拟网络应用的能力。在这次的测试中,我们仅仅让它在本机运行测试服务器的磁盘性能。为了全面测试被测服务器的IO性能,我们分别选择了不同的测试脚本。

  • Max_throughput(read):文件尺寸为64KB,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取吞吐量

  • Max_IO(read):文件尺寸为512B,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取操作IO处理能力

  • Max_throughput(write):文件尺寸为64KB,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入吞吐量

  • Max_IO(write):文件尺寸为512B,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入操作IO处理能力

  华硕PVL-D/SCSI主板板载了Adaptec AIC-7902 PCI-X Dual U320 SCSI控制器,我们利用两块Seagate Cheetach 10k.7硬盘组建了RAID 1磁盘阵列,其最大读取IO能力可达29110 IOs/s,最大写入IO能力可达13814 IOs/s。

  被测平台的磁盘读取吞吐量最高可达92 MB/s,最大写入吞吐量最高可达69 MB/s。这个磁盘子系统的CPU占用率不高,在最大IO读取测试中,其CPU占用率最高仅仅达到了11%,最大吞吐量测试期间,CPU占用率在5%左右。

  Web服务器性能测试

  WebBench是针对服务器作为Web Server时的性能进行测试,我们在被测服务器上安装了IIS6.0组件,以提供测试所需的Web服务。在测试中我们开启了网络实验室中的56台客户端,分别使用了WebBench 5.0内置的动态CGI以及静态页面脚本对服务器进行了测试。

  静态测试是由客户端读取预先放置在服务器Web Server下的Web页面(wbtree),这项测试主要考察的是服务器磁盘系统以及网络连接性能。我们使用了实验室中的56台客户端,配合Static_mt.tst多线程静态脚本测试向被测服务器发送请求。配置了双路双核Xeon处理器的服务器平台的最高处理能力达到了17515 Requests/s,配置了单路双核Xeon处理器的服务器平台的最高处理能力达到了16642 Requests/s。双路Xeon平台的测试结果是在网络实验室升级之前测试的,最大负载只有32个客户端,因此没有测试出峰值。

  我们查看了测试期间产生的吞吐量,发现在静态测试过程中,同时接入40个客户端的时候,吞吐量已经达到了105 MB/s,基本上达到了千兆网络的吞吐量上限,这也就是为什么测试曲线从40个客户端之后开始变得平缓。

  动态测试偏重于对服务器CPU子系统的性能测试,它对于Web服务器提供了足够的负载。我们将一个C语言编写的CGI源文件Simcigi.c编译为Simcgi.exe,并将其作为动态测试中的CGI脚本。在测试过程中,每台安装了WebBench客户端软件的PC,会在300秒的时间内持续向服务器发送CGI请求,而控制台会纪录并汇总服务器所响应CGI请求的数据。

  当WebBench测试开始后,客户端会以每四台一组依次连接到服务器并发送CGI请求。当测试结束后,控制台会收集数据并绘制出服务器CGI响应数的变化曲线。CGI测试的成绩高低,主要取决于服务器处理器子系统性能的优劣。处理器子系统包括CPU、内存以及内存控制器,CPU频率、缓存以及内存容量大小和内存带宽,都会影响该项成绩。

  双路双核平台最高动态处理能力达到了4706 Requests/s,而单路双核平台的最高动态处理能力则是4119,双路Xeon平台的最高动态处理能力也达到了3914  Requests/s,可见双路双核平台的在SPEC CPU “Throughput”测试中所表现出来的并发处理优势表现了出来,单路双核平台略逊双路Xeon平台的表现。

  文件服务器性能测试

  NetBench是针对文件服务器的性能测试软件,影响NetBench性能的主要是服务器的磁盘子系统,服务器磁盘控制器、硬盘类型、组建磁盘阵列模式都会对测试结果有明显的影响。我们在被测服务器上设立了文件服务器,NetBench通过网络实验室中32个客户端来模拟网络中的PC向文件服务器所发出的文件传输请求,文件服务器则将存储在磁盘上的文件数据发送给相应的客户端。同Webbench测试一样,NetBench测试开始后客户端会以每四台一组依连接到服务器并发送文件传输请求。测试结束后控制台收集数据并绘制出服务器能够达到的数据传输变化曲线。

  我们构建的被测服务器的磁盘子系统采用了华硕PVL-D/SCSI板载AIC-7902 PCI-X Dual U320 SCSI控制器和两块希捷Cheetah 10k.7 SCSI硬盘组成了RAID 1磁盘阵列。

  我们启用了60个客户端和ENT_dm.tst脚本对于这个磁盘系统进行了测试,当有16个客户端同时接入被测服务器的时候,测试结果达到了592Mbps。

  我们利用内置的NIC.tst测试脚本,对于被测服务器千兆网卡的吞吐量和响应时间进行了测试。华硕PVL-D/SCSI主板板载了两颗Broadcom BCM5721 PCIE千兆网卡,测试结果显示在传输小数据包(小于4k)的时候,性能略低,吞吐量不到700Mbps,而当传输大于16k的数据包的时候,可以达到900Mbps的吞吐量。

  FTP服务器性能测试

  我们首先采用了在被测服务器上安装了应用广泛的Serv-U 6.2.0.1 FTP服务器软件,在FTP根目录下放置了测试所需要的文件夹。然后我们启用了网络实验室中的60台客户端和eTesting Labs FTP Test Tool 1.0来产生FTP流量,从而实现对于被测服务器的FTP应用的性能进行测试。测试脚本是基于内置的ftpget.tst测试脚本修改得到的,具体设置如下表。

FTP测试脚本配置

客户端数量 1-56 个
每客户端引擎数量   3 个
Ramp Up时间  30 秒
Ramp Down时间  30 秒
测试时间 300 秒
Delay时间   0 秒
Think时间   0 秒
Number of Retries 5 次
Retry Interval 100 ms
GET connect timeout 1 ms

 

负载脚本基本配置

比例 文件容量
20% 32KB、64KB
40% 256KB、1MB
40% 4MB
比例 指令
100% get
0% put

  这是我们第一次在服务器测试中引入FTP性能测试,如上图表所示最高吞吐量仅为257 Mbps。这个测试结果距离网络传输性能上限、磁盘子系统传输性能上限都很远,此时服务器处理器占用率也只有不到20%。

  IT168评测中心观点

  基于Paxville DP核心的双核Xeon 2.8GHz处理器的确是个匆匆过客,英特尔在发布了这款处理器之后的六个半月之后如期发布了基于Dempsey核心的Xeon 5000系列处理器。在这期间,服务器厂商厂商们的表现显示他们对于这款产品并不感兴趣,比如联想、浪潮等厂商均没有推出相关产品,而是直接备战“Bensley”新平台。

  这也并非说Paxville DP没有继续存在的理由,它毕竟可以在现有平台上很好的运行,如果价格合适,理论上用户可以用相对较低的价格把双路服务器升级到“四路服务器”。不过,目前的双核Xeon 2.8GHz处理器的售价还无法维持这个理由,两颗处理器的价格在2000美元以上,这可以在国内购置一台新的主流配置的双Xeon服务器了。

  另外,两颗双核Xeon 2.8GHz处理器协同工作的时候表现并不完美。比如,我们SPEC CPU2000的“Speed”测试中发现,当双路双核Xeon 2.8工作时,出现了性能降低的现象。另外,在缓存、内存性能测试中我们也发现双路双核平台的测试结果比单路双核平台的测试结果低,因此我们推测缓存机制不够完善的可能性更大。

  华硕是紧紧追随英特尔的脚步推动产品,我们这次测试的华硕PVL-D/SCSI主板是市面上为数不多的专为Paxville DP设计的主板。它的市场接受度将同双核Xeon 2.8GHz处理器的接受度密切相关。虽然Bensley平台已经发布,新产品也在陆续上市过程中,但是在价格没有达到预期之前,利用PVL-D/SCSI主板组件双核平台还是具有一定的价格优势,比如可以使用价格相对便宜的DDRII内存,而不是FD-DIMM内存。

  这款主板产品最大的特点是功能丰富、扩展性强。比如,它采用了两颗6700PXH芯片,可以支持4条64bit/133 MHz PCI-X插槽,板载了板载2颗Broadcom BCM5721千兆网卡控制器,提供双千兆铜缆网口,还可以通过ZCR扩展卡支持RAID5等更高级的磁盘阵列模式。

0
相关文章