【IT168评测中心】Intel发布45nm处理器已经接近一年了,距离我们IT168的45nm Xeon DP处理器测试也已经过了10个月,这段时间里,靠着新架构的作用,45nm在单位频率的性能上以及单位性能的功耗上都具有着明显的优势,很快取得了普及。虽然老的65nm处理器工作寿命未到,45nm已经成为了主流。
主流的双路平台——45nm Xeon DP包括了两个型号:Harpertown和Wolfdale DP。代号为Harpertown的Xeon DP处理器是四核处理器,代号为Wolfdale-DP的处理器为双核处理器,它们都是Penryn架构处理器衍生产品,均采用了45nm High-k制程技术。从65nm到45nm的转变,不仅仅是当前芯片设计在体积上的缩小。此类处理器中还增加了许多新的特性,如全新的Intel SIMD流指令扩展4(SSE4),可通过47条全新指令加快包括视频编码在内的工作负载的处理速度,从而支持高清晰度画质和照片处理,以及重要的HPC和企业应用。
我们IT168评测中心测试的服务器产品以双路四核的Harpertown居多,我们收到了宝通(宝通集团是一家面向全球专业的IT产品分销平台,公司于2003年成立,是Intel服务器处理器的销售渠道之一)送来的两款Harpertown处理器,分别是E5450和E5410,下面我们先来看看E5450的性能测试报告,这是一款频率稍高的处理器,用户会在较贵的服务器上看到它。
ScienceMark v2.0 Membench
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
SiSoftware Sandra Pro Home 2008
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从Sandra 2007开始支持SSE4指令集。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。
NetBench v7.03
NetBench是针对文件服务器的性能测试软件,影响NetBench性能的主要是服务器的磁盘子系统,服务器磁盘控制器、条带大小、读写缓存、硬盘类型、组建磁盘阵列模式、内存容量、网络拓朴结构等都会对测试结果有明显的影响。我们在被测服务器上设立了文件服务器,NetBench通过网络实验室中60个客户端来模拟网络中的PC向文件服务器所发出的文件传输请求,文件服务器则将存储在磁盘上的文件数据发送给相应的客户端。在测试过程中,客户端会以每四台一组的步进依次增加并且向服务器发送文件传输请求,测试结束后控制台收集数据并绘制出服务器的数据传输变化曲线。
WebBench v5.0
WebBench是针对服务器作为Web Server时的性能进行测试,我们在被测服务器上安装了IIS6.0组件,以提供测试所需的Web服务。在测试中我们开启了网络实验室中的56台客户端,分别使用了WebBench 5.0内置的动态CGI以及静态页面脚本对服务器进行了测试。
静态测试是由客户端读取预先放置在服务器Web Server下的Web页面(wbtree),这项测试主要考察的是服务器磁盘系统以及网络连接性能。我们使用了实验室中的56台客户端,配合Static_mt.tst多线程静态脚本测试向被测服务器发送请求。
动态测试偏重于对服务器CPU子系统的性能测试,它对于Web服务器提供了足够的负载。我们将一个C语言编写的CGI源文件Simcigi.c编译为Simcgi.exe,并将其作为动态测试中的CGI脚本。在测试过程中,每台安装了WebBench客户端软件的PC,会在300秒的时间内持续向服务器发送CGI请求,而控制台会纪录并汇总服务器所响应CGI请求的数据。CGI测试的成绩高低,主要取决于服务器处理器子系统性能的优劣。处理器子系统包括CPU、内存以及内存控制器,CPU频率、缓存以及内存容量大小和内存带宽,都会影响该项成绩。
Benchmark Factory 4.6
大部分的服务器应用都同数据库有着密切的联系,它是一个相当重要的测试。我们选择了Benchmark Factory 4.6软件和Microsoft SQL2005来测试不同的硬件平台在数据库应用中的表现。
我们选择了BF内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。
系统功耗监测
我们使用UNI-T UT71E智能数字万用表对于被测服务器系统的整体功耗进行了监测,利用随机附带的接口程序,我们可以记录被测服务器任意时间段内的功率变化。
测试平台、测试对象介绍
DELL PowerEdge 2900 III测试平台 | |
主板 | DELL PE2900 BIOS:2.3.1 |
处理器 | Xeon E5450 x 2 |
主频 | 3.00GHz |
FSB | 1333MHz |
L1容量 | 64K(Data容量为32K) |
L2容量 | 12MB(共享) |
芯片组 | Intel 5000X |
内存 | 2GB FBD DDR2 667 SDRAM x 4 |
磁盘控制器 | DELL Perc 5/i RAID Controller |
系统硬盘 | Seagate Cheetah 15K.5 ST314655SS 146GB 16MB SAS x 3 |
阵列卡设置 | WriteBack, Cached I/O, Adapative Read Ahead |
硬盘设置 | RAID 5,条带大小64KB 主分区20GB,测试分区50GB |
网卡 | Broadcom BCM5708C千兆网卡 X 2 |
操作系统 | Windows Server 2003 R2 Enterprise Edition SP2 |
我们使用了一台安装了Windows Server 2003 R2操作系统的DELL PowerEdge 2900 III服务器作为测试平台,只是把处理器更换为我们的测试对象:E5450处理器。PowerEdge 2900 III服务器采用的主板基于Intel 5000X芯片组,带有12MB Snoop Filter缓存,它可以提升重负荷下缓存同步、进程调度方面的性能。5000X芯片组比较少见。前段时间推出的5400 Seburg芯片组带有24MB的Snoop Filter缓存。
对比平台是我们PowerEdge 2900 III服务器原配的CPU:E5430,除了它的频率为2.66GHz之外,其它和E5450没什么区别。
Intel Xeon E5450处理器:
45nm Harpertown处理器
Harpertown处理器从架构上看就是两个共享一块L2 Cache的Wolfdale双核处理器粘在一起,因此Harpertown的L2有时也写作2X6 MB这样的形式。
代号 | 型号 | SMP | 主频 | L2 | TDP | 制程 |
Harpertown | Xeon E5405 | DP | 2.00 | 12MB | 80W | 45nm |
Xeon E5410 | DP | 2.33 | 12MB | 80W | 45nm | |
Xeon E5420 | DP | 2.50 | 12MB | 80W | 45nm | |
Xeon E5430 | DP | 2.66 | 12MB | 80W | 45nm | |
Xeon E5440 | DP | 2.83 | 12MB | 80W | 45nm | |
Xeon E5450 | DP | 3.00 | 12MB | 80W | 45nm | |
Xeon E5460 | DP | 3.16 | 12MB | 120W | 45nm |
从表中可以看出,45nm Xeon E5450的频率为3.00GHz,在Harpertown当中也算频率上的佼佼者,它配备了12MB容量的L2。E5450还具有的一个特点是TDP和其上一档E5460相差巨大,为80W对120W,这意味着从E5405到E5450,散热器和服务器风道上的设计只需要用同一种就可以了,也意味着E5450可以提供较好的性能/功耗比,
Intel E5450 ScienceMark 2.0测试界面
ScienceMark Membench | ||
厂商 | DELL PE2900 III | DELL PE2900 III |
产品型号 | 双路 E5450 | 双路 E5430 |
内存技术参数 | 2GB FBD ECC DDR2 667 SDRAM x 4 | 2GB FBD ECC DDR2 667 SDRAM x 4 |
内存带宽(MB/s) | 4505.59 | 4478.35 |
L1 Cache Latency(ns) | ||
32 Bytes Stride | 1.00 | 1.13 |
L2 Cache Latency(ns) | ||
4 Bytes Stride | 1.00 | 1.13 |
16 Bytes Stride | 1.34 | 1.50 |
64 Bytes Stride | 4.01 | 4.51 |
256 Bytes Stride | 4.01 | 4.51 |
512 Bytes Stride | 4.34 | 4.89 |
Algorithm Bandwidth(MB/s) | ||
Compiler | 3177.97 | 2320.00 |
REP MOVSD | 3223.82 | 2324.80 |
ALU Reg Copy | 2818.10 | 1879.52 |
MMX Reg Copy | 2992.21 | 1896.39 |
MMX Reg 3dNow | --- | --- |
MMX Reg SSE | 3962.02 | 2688.02 |
SSE PAlign | 4297.17 | 2687.01 |
SSE PAlign SSE | 4124.61 | 2690.93 |
SSE2 PAlign | 4293.79 | 2688.09 |
SSE2 PAlign SSE | 4126.98 | 2691.79 |
MMX Block 4kb | 4167.14 | 2583.20 |
MMX Block 16kb | 4480.38 | 2310.93 |
SSE Block 4kb | 4172.21 | 2599.01 |
SSE Block 16kb | 4505.59 | 2313.20 |
首先我们进行的是ScienceMark的测试,主要考察系统的处理器和内存情况。L1/L2 Cache的成绩主要是跟处理器频率相关,因为目前的处理器当中L1 Cache都是和处理器核心同频率的,而L2 Cache基本上也是——当前的处理器L2都是全速的(放置在处理器内但不在同一个芯片上的Pentium II为半速L2,而Pentium之前的处理器L2则和处理器分离,速度更低)。越快的频率,L1/L2性能就越好,因此频率更高的X5365性能突出。而内存带宽主要由两部分相关:比较大的部分是内存架构,小部分是内存操作指令(集),例如使用最新的SSE指令集比通常的ALU指令集会得到更大的吞吐量,而不同的SSE版本性能也有不同。
SiSoftware Sandra Pro Home 2008 | ||
E5450 | E5430 | |
Processor Arithmetic Benchmark | ||
Dhrystone ALU | 110320 MIPS | 98883 MIPS |
Whetstone iSSE3 | 87861 MFLOPS | 78073 MFLOPS |
Processor Multi-Media Benchmark | ||
Multi-Media Int x8 iSSSE3 | 655876 iit/s | 589298 iit/s |
Multi-Media Float x4 iSSE2 | 358011 fit/s | 320917 fit/s |
Memory Bandwidth Benchmark | ||
Int Buff'd iSSE2 Memory Bandwidth | 6264 MB/s | 6259 MB/s |
Float Buff'd iSSE2 Memory Bandwidth | 6262 MB/s | 6259 MB/s |
Cache and Memory Benchmark | ||
Cache/Memory Bandwidth | 75623 MB/s | 69276 MB/s |
.NET Arithmetic | ||
Dhrystone .NET | 12358 .netMIPS | 12098 .netMIPS |
Whetstone .NET | 52176 .netMFLOPS | 45386 .netMFLOPS |
.NET Multi-Media | ||
Multi-Media Int x1 .NET | 120421 .netiit/s | 104727.netiit/s |
Multi-Media Float x1 .NET | 27648 .netfit/s | 23881 .netfit/s |
除了内存带宽测试由于平台一致之外,其它侧重于处理器的测试中E5450全面胜出,分数高出10%~15%。E5450的频率高出12%,也就是说大致上是线性增长的。
NetBench测试的Ent_dm.tst测试脚本模拟的是企业级文件服务器应用,它不但要求被测服务器的处理器和内存子系统可以提供足够的运算能力和吞吐量,还需要磁盘子系统具有较高的IO处理能力。
E5450 NetBench吞吐量
处理器的不同带来了测试结果的不同,E5450的成绩要好9%,不及频率上的差距,不过也占了主要的成分,这表明了处理器在文件服务器中也比较重要,因为网络文件系统的创建、修改等操作都需要CPU进行处理。
E5450静态页面性能
看过我们以前评测文章的人就会知道,这个静态测试其实考量的是服务器的网络带宽——用来传输静态的页面并不太消耗其它资源,因此不同的处理器性能大都一样,在单千兆网卡的情况下。
E5450动态页面性能
动态性能和CPU、内存有较大的关系,和磁盘也有一些关系,最终频率高出12%的E5450峰值性能上高出约7%。
我们在被测的服务器上安装了Microsoft SQL 2005,按照测试要求建立了数据库,包括9个表,其中有4个500万行的表格,每行包括100字节的数据,因此每个表格容量大约是476MB,整个数据库容量为1.86GB。我们用60个客户端模拟1600个用户,在1-500的区间内以50个为一组依次增加,在这个数据库中进行查询、添加、删除、修改等操作。
SQL 2005性能
根据我们的经验,数据库是很处理器资源的,实际上在不同的负载下,数据库对内存子系统、磁盘子系统和网络子系统都具有着变化的压力,因此数据库测试是个比较均衡的测试。我们的测试当中E5450对E5430表现出了超过频率差异的性能差,达到了15%,频率差别则是12%,大致上可以认作具有一些误差,这也表明我们的测试负载侧重于处理器。500个客户端以上时每秒处理事务数,E5450平台约是38000,而E5430大约是32000左右。
我们利用UNI-T UT71E智能数字万用表和相配套的软件对于对于被测服务器在几种不同的状态下的功耗进行了监测,主要包括如下项目:
P1:连接电源但不开机状态
P2:系统启动完毕,5分钟内无动作,但不休眠
P3:系统启动完毕,处理器满载(CPU占用率100%)工作
E5450功耗测试
从测试结果来看……两款处理器功耗相差极为有限。总体而言,45nm处理器的功耗比起以往的65nm,有了较明显的降低,不过总体服务器功耗的降低需要依靠于各个部件的协力。其中电源、风扇等都是比较重要的耗电部件。
【IT168评测中心】从性能上看,处理器在服务器的性能因素当中占据了比较重要的地位,只有少数如静态Web服务才不太依赖于处理器。其他的应用中,根据负载的不同,对处理器的依赖性也各有不同。
代号 | 型号 | SMP | 主频 | L2 | TDP | 制程 |
Harpertown | Xeon E5405 | DP | 2.00 | 12MB | 80W | 45nm |
Xeon E5410 | DP | 2.33 | 12MB | 80W | 45nm | |
Xeon E5420 | DP | 2.50 | 12MB | 80W | 45nm | |
Xeon E5430 | DP | 2.66 | 12MB | 80W | 45nm | |
Xeon E5440 | DP | 2.83 | 12MB | 80W | 45nm | |
Xeon E5450 | DP | 3.00 | 12MB | 80W | 45nm | |
Xeon E5460 | DP | 3.16 | 12MB | 120W | 45nm |
我们测试了Intel 45nm Xeon E5450,主频为3.00GHz,L2 Cache为12MB,FSB为1333MHz,集成了8.2亿晶体管,TDP为80W,在大部分测试中,它都比参照平台性能高出相当于频率上的差距。
多数情况下,提升处理器频率是服务器提升性能的一个很方便的办法,不过Intel的策略来看就是处理器价格提升的幅度要比频率提升幅度要高不少。尽管如此,E5450仍然是一个不错的选择——它的频率不是最高的,而且在E54xx系列上面还有一个X54xx的子系列,因此它的价格还不算离谱,总体来看,E5450的性价比仍然不错,适合中高档服务器选用。