【IT168评测中心】Intel的Tick-Tock平台战略正有条不紊的推行着,Intel也赶在晶体管60周年之前发布了45nm工艺处理器,新的处理器家族被称为Penryn,关于Intel的45nm Penryn相信大家都已经从铺天盖地的宣传中已经很熟悉了。Penryn处理器具备了强大的计算能力和极低的功耗,它包含3个产品线共7名成员,包括有双核心桌面处理器Wolfdale、四核心桌面处理器Yorkfield、双核心移动处理器Penryn、双核心Xeon DP处理器Wolfdale DP、四核心Xeon DP处理器Harpertown、双核心Xeon MP处理器Dunnington DC及四核心Xeon MP处理器Dunnington QC。
Intel全线服务器产品线路图
在45nm桌面处理器方面,Intel已经发布了Core 2 Extreme QX9650处理器和Core 2 Extreme QX9770处理器,对于一般群众而言,这两款接近一万元的CPU象征意义大于实际意义,不过在服务器方面就不同了——Intel发布了相当多的Xeon处理器,我们测试了主力的Xeon 5000系列处理器当中的一款处理器:Xeon E5440处理器,频率为2.83GHz,属于一款频率中上的Xeon处理器,在服务器处理器中比起QX9650/QX9770来算是平易近人得多了。
服务器处理器平台中,Xeon DP系列是最常见的处理器之一,Xeon DP处理器经历了Paxville DP(双核,Netburst)、Dempsey(双核,Netburst,Benlsey平台)、Woodcrest(双核,Core,Benlsey平台)和Clovertown(四核,Core,Benlsey平台)这样的一个历程,现在45nm平台中,Xeon DP也升级到了Wolfdale DP(双核,增强Core架构,Stoakley平台)和Harpertown(四核,增强Core架构,Stoakley平台)。
代号 | 型号 | SMP | 主频 | FSB | L2 | TDP | 接口 | 制程 |
Clovertown | Xeon E5310 | DP | 1.60 | 1066Mhz | 8MB | 80W | LGA771 | 65nm |
Xeon E5320 | DP | 1.86 | 1066Mhz | 8MB | 80W | LGA771 | 65nm | |
Xeon E5335 | DP | 2.00 | 1333Mhz | 8MB | 80W | LGA771 | 65nm | |
Xeon E5345 | DP | 2.33 | 1333Mhz | 8MB | 80W | LGA771 | 65nm | |
Xeon X5355 | DP | 2.66 | 1333Mhz | 8MB | 120W | LGA771 | 65nm | |
Xeon X5365 | DP | 3.00 | 1333Mhz | 8MB | 120W | LGA771 | 65nm |
当前主流4核Xeon: Clovertown
代号 | 型号 | SMP | 主频 | L2 | TDP | 制程 |
Harpertown | Xeon E5405 | DP | 2.00 | 12MB | 80W | 45nm |
Xeon E5410 | DP | 2.33 | 12MB | 80W | 45nm | |
Xeon E5420 | DP | 2.50 | 12MB | 80W | 45nm | |
Xeon E5430 | DP | 2.66 | 12MB | 80W | 45nm | |
Xeon E5440 | DP | 2.83 | 12MB | 80W | 45nm | |
Xeon E5450 | DP | 3.00 | 12MB | 80W | 45nm | |
Xeon E5460 | DP | 3.16 | 12MB | 120W | 45nm |
45nm Xeon DP包括了两个型号:Harpertown和Wolfdale DP。代号为Harpertown的Xeon DP处理器是四核处理器,代号为Wolfdale-DP的处理器为双核处理器,它们都是Penryn架构处理器衍生产品,均采用了45nm High-k制程技术。从65nm到45nm的转变,不仅仅是当前芯片设计在体积上的缩小。此类处理器中还增加了许多新的特性,如全新的Intel SIMD流指令扩展4(SSE4),可通过47条全新指令加快包括视频编码在内的工作负载的处理速度,从而支持高清晰度画质和照片处理,以及重要的HPC和企业应用。据称,与前代四核Intel Xeon DP 5300系列处理器相比,45nm High-k Intel Xeon处理器的性能功耗比提升了38%,进一步巩固了其性能功耗比领先优势。
和上一代Clovertown相比,Harpertown处理器将2 x 4MB的L2缓存提升到了2 x 6MB L2缓存,每两个核心共享6MB缓存。Harpertown处理器将不再使用旧的1066MHz FSB,而开始支持更高的1333MHz/1600MHz FSB。由于采用了45nm High-k制程技术,四核Harpertown的功耗依然保持同现有的双核大致相当的水平,TDP依然为50瓦、80瓦和120瓦,并且频率规格也有所提高,最高端的Xeon E5460处理器可以达到3.16GHz,而上一代Xeon X5365只有3.00GHz,这意味着新的Harpertown平台的计算密度可以得到很大的提升。
在Intel的Tick-Tock战略上,Penryn是45nm工艺的第一个处理器产品线,因此其核心架构在Core微架构上进行改良,除了45nm工艺带来的电气改进之外新的Penryn微架构主要有5方面:
Intel Wide Dynamic Execution(Intel宽动态执行)方面的改进着实从基础上提升了处理器的运算性能,包括快速16进制除法器、更快速的操作系统基础支持、增强的Intel虚拟化技术三个部分。
Intel Advanced Smart Cache(Intel先进智能缓存)则进一步提升了缓存性能,以符合未来多核心的趋势,其包括了更大容量的缓存以及更多路的缓存关联。
Intel Smart Memory Access(Intel智能内存存取)提升了装载数据的速度,包括强化的存储转发结构和更高的总线带宽设计。
Intel Advanced Digital Media Boost(Intel先进数字媒体增强)则是对数字媒体的一系列优化、增强,包括了SSE4指令集的加入,以及全新的Super Shuffle Engine超级传送引擎。
Intel Intelligent Power Capability(Intel智能电源特性)则是充分发挥新制程的特点,降低总体能源的消耗,包括了深层关机技术和增强的Intel动态加速技术。
虽然45nm Penryn的并非基于全新的架构,然而在测试当中,45nm桌面处理器QX9650的性能有了比较明显的提升,因此我们预计,从Clovertown到Harptertown也会具有相似的结果,下面我们先来看看微架构上影响性能的这些主要改进。
基本上,45nm Penryn处理器的架构和Core 2架构很相似,我们认为会影响到性能的微架构方面的主要改进如下:
Intel Wide Dynamic Execution(Intel宽动态执行)方面的改进着实从处理器基础架构上提升了处理器的运算性能,它包括快速16进制除法器、更快速的操作系统基础支持、增强的Intel虚拟化技术三个部分。与桌面平台相关的主要是16进制除法器,而服务器则可以从所有的改进内容中获益。
Faster Radix-16 Divider(快速Radix-16除法器)
虽然除法也可以用乘法来代替,不过单独的除法指令、除法运算器部件显然可以提升效能,Penryn架构搭载了新的16进制除法部件,可以提供目前最优异的除法性能。传统的2进制或者4进制除法只能在每个时钟处理1位或者2位数据(2个位就能表示4个数,也就是4进制的意思),而Penryn 16进制除法器可以每个时钟处理4位数据(4个位就能表示16个数),可以大大提升包括整数、浮点在内的除法性能,并大大优化了平方根的运算,而且Penryn的除法器的Early-out构造可以以极低的延迟输出结果,最小值需要6个时钟周期。除法器的性能提升几乎涉及到了所有的应用程序。
Faster OS Primitive Support(更快速的操作系统基础支持)
Penryn通过提升中断遮罩控制以及时间戳计数器的性能,从而达到提升操作系统同步性能的目的。通常的多任务操作系统中,需要通过大量的中断请求来分配处理器资源给各个部件,而在繁忙的操作系统中,不同程序中大量的定时器/计数器需要不停地查询时间戳计数器,通过2倍于原来速度的CLI/STI/RDTSC指令执行速度,Penryn架构大大提升了这些应用的性能,例如数据中心、事务处理等应用都可以从中获得明显的提升,这有点像现代芯片组中新增加的精确时钟技术,这个技术可以比较明显地提升繁忙的服务器的性能表现。
Enhanced Intel Virtualization Technology(增强的Intel虚拟化技术)
作为当前的热点,也是Intel当前专注的部分,虚拟化技术也没有被忽略,这个持续发展中的技术也获得了改进:VM Exit/VM Entry性能获得了25%~75%的提升,在虚拟化应用中,虚拟机切换是很频繁的,VM Exit/VM Enry的执行也就很是频繁,这方面的改进可以明显地改进虚拟机(特别是多虚拟机)下的性能。
Intel Advanced Smart Cache(Intel先进智能缓存)则进一步提升了缓存性能,以符合未来多核心的趋势,其包括了更大容量的缓存以及更多路的缓存关联,服务器对L2缓存的利用效率是非常高的。
Intel Advanced Smart Cache其实就是L2缓存方面的改进,Penryn处理器家族的L2缓存容量得到了提升,双核心版本将拥有最多6MB、四核心将拥有最多12MB的L2缓存,比上一个版本增大了50%。并且在容量提升的基础上,Penryn还把L2 Cache的Associativity关联性由上一代的16路提升到了24路,令L2缓存存取的平均潜伏期得到了进一步的下降。
Intel Smart Memory Access(Intel智能内存存取)提升了装载数据的速度,包括强化的存储转发结构和更高的总线带宽设计。
除了更快的1600MT/s总线可以提供更高的存取速度之外,Penryn架构还提供了Improved Store Forwarding强化存储转发特性,通过新的64位载入指令,提升了内存之间、核心之间等的存储转发性能。
Intel Advanced Digital Media Boost(Intel先进数字媒体增强)则是对数字媒体的一系列优化、增强,包括了SSE4指令集的加入,以及全新的Super Shuffle Engine超级传送引擎,这一点留待下一节介绍。
Intel Intelligent Power Capability(Intel智能电源特性)则是充分发挥新制程的特点,降低总体能源的消耗,包括了深层关机技术和增强的Intel动态加速技术(该项改进主要针对移动平台)。
就目前来看,SSE4对相关方面应用的性能的提升非常之大。Penryn搭载的SSE4.1指令集主要分为三个部分,分别是SSE4视频编码加速部分、SSE4图形加速部分和SSE4流加载部分,其中SSE4视频编码加速部分包括了14条指令,用于加速4x4绝对差和、子像素过滤一击数据查找方面的性能。
在进行视频编码时,需要进行大量的Motion Estimation(动态预测),动态预测是视频编码过程中极其重要的一个环节,它的算法效率对整个编码效率有很大的影响,而这个动态预测需要进行大量的SAD(Sums of Absolute Difference,差分绝对值和)的运算,该运算是大部分视频编码算法中运动估计一步常采用的方法。SAD算法将会在相邻两个连续视频帧中找出一个大块的运动情况,以纪录其运动数据代替纪录像素数据而节约存储容量、压缩视频。为此,SAD需要计算两个大块中每一组对应的像素值之间绝对差值的累加和。这本身就是一个非常复杂的大数据量运算动作,即使依靠SIMD指令的一条指令就处理大量数据的优势,要组合成SAD操作代码也需要大量的指令。
现在,SSE4指令集内特别加入了SAD加速运算指令,只需要一条指令就可以快速高效地完成这些工作。例如,在SSE4之前,一个SAD工作代码如下:
非常的冗长繁琐,而在有了SSE4之后,这些指令就可以简化为一条指令:
MPSADBW xmm0,xmm1,0
简化量是非常巨大的。而在复杂的动态预测程序中,要执行复杂的SAD代码,这时SSE4还可以额外提供更高的方便性:
SSSE3可以看作是SSE4的一个提前“泄露”的子集,同样的工作,右边的SSE4代码无疑要比SSSE3更为简捷。
SSE4当中还加入了快速查找的指令,虽然并不仅仅是视频编码才能具有作用,然而对于整位像素和子像素运动估计方面具有特别好的效果,如下图的指令可以在8个元素中找到最小的一个元素,并找到其位置:
在Intel的SSE4展示当中,使用搭载SSE4指令集的2.66G Wolfdale Core 2系统对比2.33G Core 2 Duo E6550进行Pegasys TMPGEnc 4.0 XPress HDTV编码,最后得到了55%的性能提升,其中加速的SAD处理和快速查找在各自的领域的性能提升达到了2~3倍,SSE4指令集的作用可见一斑:
其中,CPU的频率提升只有14%,总应用程序提升却达到了55%,这就是SSE4视频编码加速指令的作用了。
Penryn架构中SSE4相关的改良还有一个:就是Super Shuffle Engine,Intel称之为超级乱序引擎,不过我们认为称之为超级传送引擎更为贴切一些:
Super Shuffle Engine超级传送引擎
Super Shuffle Engine其实是加速SSE相关数据的传输转移过程,包括打包、解压、对齐、宽进位等操作,都可以通过Super Shuffle Engine来加速,从而可以在每个时钟周期内完成128位的操作。这个加速是完全硬件的,不需要软件的变动。
SSE4目前看来对视频服务器的性能提升强于对桌面系统的提升,然而由于SSE4指令集也有很多基本的运算加速指令,我们以后将会详细考察这个指令集在服务器实际性能上是否会有提升。
我们在45nm处理器和65nm处理器当中分别选择了一款处理器进行了对比测试,分别是Xeon E5440(Harpertown)和Xeon X5365(Clowertown),一个频率是2.83GHz,一个频率是3GHz,65nm X5365的频率还要高一些,这是因为我们相信45nm处理器改良的架构会在同样的频率下具有更高的性能——就是说,这两款处理器具有着差不多的可比性。
45nm E5440 QuadCore vs 65nm X5365 QuadCore
图上方就是两个采用了45nm High-K工艺的Intel Xeon DP E5440处理器了,主频为2.83MHz,具备了2 x 6MB二级缓存,前端总线频率达到了1333MHz,其下方是用来进行对比的Intel Xeon DP X5365处理器,主频为3GHz,具备2 x 4MB二级缓存,前端总线也是1333MHz。
虽然Intel为配合54xx系列45nm Xeon DP处理器而特地推出了5400芯片组,不过目前尚未有见到有实物,因此我们采用了一块基于Intel 5000P芯片组的主板。5000系列芯片组也就是现有的Bensley平台,可以完善地支持新45nm Xeon DP处理器,包括了5000V、5000P、5000X北桥,Bensley平台将处理器的最高FSB频率限制在了1333MHz,因此只适合比较低端的Harpertown处理器。
Intel 5000芯片组架构图
5000P北桥采用了DIB前端总线,速率是1066/1333 MT/S,两条FSB的最大总带宽刚好和内存带宽一致,5000P提供了4通道667MHz FB-DIMM支持,每通道带宽5.3GB/s,总共就是21.2GB/s的巨大内存带宽,每个通道支持4个Dual Ranked FB-DIMM DDR2 DIMMs,最大总容量达到了64GB。5000P还能支持Memory RAID 1(miroring),可以提供更强的容错性,此时最大有效内存容量就变为装载内存的一半,最大是32GB。。
ASUS DSBF-D/SAS主板,基于Intel 5000P芯片组
我们使用了一块ASUS的DSBF-D/SAS主板,它基于Intel 5000P芯片组,在其较早的1010版本韧件就已经可以支持45nm Xeon处理器,不过并不能正确处理E5440的独特的8.5倍频,很快ASUS就更新到1011版本,并提供了完美的支持——我们的测试就基于1011版本韧件。
ASUS DSBF-D/SAS的基本架构图和上方的Intel 5000P架构图很相似,不过DSBF-D/SAS额外提供了一个6704PXH芯片来提供一条PCI-X 133MHz总线,同时在这条总线上连接一块LSI1068芯片来提供8个SAS端口,然而在测试中我们没有使用到6704PXH芯片组和LSI1068芯片。我们使用的是连接在6321ESB的PCI-X插槽上的一块Adaptec 2130S阵列卡,并使用了三块Seagate Cheetah 10K.7硬盘组建一个RAID 0阵列作为系统硬盘。
我们搭配了8GB的FB-DDR2 667 RAM来进行测试,这个容量是基于SPEC CPU 2006测试的要求。
除了型号、主频、指令集和缓存容量这些明显的区别之外,细心人还可以发现E5440的L2 Cache的关联数得到了提升,这可以提升频繁使用L2缓存的效能。
45nm工艺的主旋律就是性能提升、功耗降低,因此我们的测试也围绕着这两个方面进行。
性能测试方法
-
SPEC CPU 2006 v1.1
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。
SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了当前最新版本的Intel C++ 10.1.011 Compiler、Intel Fortran 10.1.011 Compiler这两款SPEC CPU2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(对于SSE3,使用的是QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量:也就是8个。最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
SPEC CPU 2006的测试比较消耗时间,因此准确度也很高。
-
SiSoftware Sandra XII 2008 SP1 12.34
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。我们使用了最新的Sandra XII 2008 SP1版本,个版本可以较好地支持SSSE3、SSE4指令。
-
WebBench v5.0
WebBench是针对服务器作为Web Server时的性能进行测试,我们在被测服务器上安装了IIS6.0组件,以提供测试所需的Web服务。在测试中我们开启了网络实验室中的56台客户端,分别使用了WebBench 5.0内置的动态CGI以及静态页面脚本对服务器进行了测试。
静态测试是由客户端读取预先放置在服务器Web Server下的Web页面(wbtree),这项测试主要考察的是服务器磁盘系统以及网络连接性能。我们使用了实验室中的56台客户端,配合Static_mt.tst多线程静态脚本测试向被测服务器发送请求。
动态测试偏重于对服务器CPU子系统的性能测试,它对于Web服务器提供了足够的负载。我们将一个C语言编写的CGI源文件Simcigi.c编译为Simcgi.exe,并将其作为动态测试中的CGI脚本。在测试过程中,每台安装了WebBench客户端软件的PC,会在300秒的时间内持续向服务器发送CGI请求,而控制台会纪录并汇总服务器所响应CGI请求的数据。CGI测试的成绩高低,主要取决于服务器处理器子系统性能的优劣。处理器子系统包括CPU、内存以及内存控制器,CPU频率、缓存以及内存容量大小和内存带宽,都会影响该项成绩。
功耗测试方法
我们使用了两个万用表来进行处理器消耗功率的测量,一个是UT71E 4 3/4位数字万用表,用来测试电压,还有一个数字钳式万用表,用来直接测量供给CPU的8Pin插口的直流电流,这个测试方法实际上得到的结果包含了PWM模块的能量损耗,不过用来参考确是非常直观。
我们为SPEC CPU 2006准备的Intel Compiler 10.1.011是当前Intel推出的最新版本编译器,按照说明,它提供了QxS选项以支持SSE4,不过从测试结果看来,虽然测试成绩比起以往版本有些提升,QxS选项的威力却是没有看到。
浮点性能通常和科学计算息息相关,SPEC CPU 2006里面的17项浮点测试就是如此,大部分都带着力学两个字,光是流体力学相关的就有4个,也包括着如影像光线追踪这样的图形应用和语音识别应用。
从测试结果看来,即使45nm E5440的频率低了5.6%,其性能也是比65nm X5365明显要高,总分提升了10.8%。当然,基于架构上的变化,也不是所有的项目提升幅度都一样,433.milc量子力学、434.zeusmp物理:计算流体力学、437.leslie3d流体力学、450.soplex线形编程、优化、459.GemsFDTD计算电磁学、465.tonto量子化学、470.lbm流体力学、481.wrf天气预报、482.sphinx3语音识别这9项的性能提升都超过了14%以上,而465.tonto量子化学、470.lbm流体力学、482.sphinx3语音识别这三项甚至超过了30%,不可谓不高。
一些项目的测试上45nm架构并没有体现出什么明显的性能提升,这包括了416.gamess量子化学、435.gromacs生物化学/分子力学、444.namd生物/分子力学、453.povray影像光线追踪、454.calculix结构力学,444.namd生物/分子力学甚至在考虑Xeon E5440较低的频率下也是性能有所削弱。不过总体而言,45nm架构的性能提升都很明显,每时钟周期的性能提升可以达到17.5%,很是可观,最突出的482.sphinx3语音识别子项目,每周期提升达到了47%。
整数性能和编程、压缩、编码等都相关,SPEC CPU 2006里包含了12项整数测试。还有一些科学计算也基于整数性能,如462.libquantum物理:量子计算。
从总分来看,45nm E5440整数性能的提升要比浮点的高,为15.8%,也没有每时钟周期性能反而下降的现象出现,如401.bzip2压缩、403.gcc c编译器、429.mcf组合优化、462.libquantum物理:量子计算、471.omnetpp离散事件仿真、473.astar寻路算法、483.xalancbmk XML处理这些项目的提升都非常明显,有4个项目的提升超过了30%,也就是每时钟周期性能提升超过40%。
相对来说,新架构对445.gobmk人工智能:围棋、456.hmmer基因序列搜索、458.sjeng人工智能:国际象棋和464.h264ref视频压缩就没有太大的提升,特别是视频压缩,这让我们感到最新的编译器对SSE4的支持力度仍然是感到不够完善。
SiSoftware Sandra也通常用来快速比较系统地理论性能数值,我们先来看看结果:
Processor Arithmetic用来比较处理器的架构优劣,不过从列表可以看出,Sandra用的是SSE3指令集,因此最后的测试结果,E5440整数性能要弱5.4%——这比主频上5.6%的幅度差要小些,意味着每时钟性能E5440还是有所提升。假如使用SSE4的话,E5440整数性能无疑会更好。
浮点方面,基于SSE3的测试,E5440要比X5365强8.1%,考虑到主频低一些,45nm Penryn的SSE3浮点性能表现不错。
在这个Processor Multi-Media多媒体性能测试中很不同的是,整数性能中测试E5440时候用的是SSE4.1,而X5365用的是SSSE3,因此E5440整数性能突出也就不足为奇:高出11.0%。不过浮点性能表现不理想(因为这时用的是SSE2):低5%,考虑到主频,每周期性能仍然是略有提升。
总体而言,2.83G对3GHz的测试结果依赖于使用的优化指令集:在同样基于SSE2指令集优化下,45nm Harpertown和65nm Clowertown相比没有什么优势,整数性能还有不及;在SSE3之下Harpertown的浮点性能会提升不小,而使用SSE4之后,Harpertown优势明显。同样的频率,新的架构显然确实具有不小的提升。
主频上的略微优势让缓存测试中X5365基本要强于E5440,E5440缓存容量上的优势让其在16MB测试块大小上要强于X5365。
在Web性能的测试环节,我们在被测服务器上安装了IIS6.0组件,以提供测试所需的Web服务。在测试中我们开启了网络实验室中的60台客户端,分别使用了WebBench 5.0内置的动态CGI以及静态页面脚本对服务器进行了测试。我们针对两平台进行了动态项目的测试:
动态测试偏重于对服务器CPU子系统的性能测试,它对于Web服务器提供了足够的负载。我们将一个C语言编写的CGI源文件Simcigi.c编译为Simcgi.exe,并将其作为动态测试中的CGI脚本。在测试过程中,每台安装了WebBench客户端软件的PC,会在300秒的时间内持续向服务器发送CGI请求,而控制台会纪录并汇总服务器所响应CGI请求的数据。CGI测试的成绩高低,主要取决于服务器处理器子系统性能的优劣。处理器子系统包括CPU、内存以及内存控制器,CPU频率、缓存以及内存容量大小和内存带宽,都会影响该项成绩。
结果一目了然,很是理想,每秒请求数达到了11000,比65nm X5365平台高近10%。
可想而知,更新的工艺会带来处理器功耗的降低,关键是,这个降低的幅度有多大?我们直接测试了ASUS DSBF-D/SAS上处理器供给线路上流过的直流电,来对比处理器的功耗。通常,在服务器主板上,这个处理器供给使用的是8Pin CPU供电插头,个人主板上常用的4Pin CPU供电插头转而为内存供电,这种配电方式无疑更为稳定。
在DSBF-D/SAS主板上,CPU风扇是和CPU共同使用8Pin插座的,因此我们将CPU风扇接到了其他使用24Pin主电源插头供电的风扇插座上。实际上,由于45nm E5440处理器的功耗很低,我们的原装铜散热器风扇在拔掉供电线缆之后,也能毫无问题地进行测试。
尽管在测试性能的时候,我们通常关闭处理器的C1E和EIST自动调整功能以获得非常好的的测试分数,然而在实际应用中,它们无疑是应该打开的。
通过同时运行8个StressPrime2004线程,我们将处理器的功耗推到了极致,一般的单电源在面对双路X5365接近24A的单路+12V需求时,还须先掂量掂量,如何面对联邦政府以及欧盟的单路240VA限制。而双路E5440的需求则让电源感到没有工作压力。
StressPrime2004基于Prime95质数运算/测试应用程序,经过比较,它确实是笔者已知的功耗最高的程序,比起SPEC CPU 2006都要高,同时它施加的负载很稳定,便于获得稳定、 易测量的结果。
在同样不使用C1E/EIST的情况下,双路E5440的输入电流为2.20A,X5365为8.0A,功耗分别为26.6W和96.6W,45nm技术要低72.5%,在使用C1E/EIST技术之后,分别降低到1.65A和3.76A——C1E和EIST真是个好东西——也就是20W和45.4W功耗,45nm要低56%。45nm工艺技术的作用非常显著,C1E/EIST也是。
很清楚,在8个SP2004进程之下,C1E/EIST开不开已经没有了什么分别,双路E5440的输入电流为10.92A,双路X5365的输入电流为23.76A,13A的电流差让万用表测出来的电压值也有些不同,一个为12.002V,一个为11.927V(Delta 600W服务器电源的表现很不错),功耗则分别是131.1W和283.4W,45nm相比65nm要低54%。
注:两个处理器使用的电流不同,因此其12V供电电压等也会不同,从而导致两个处理器分别测量的电流的总合并不一定等于总电流。
注意到这是双路平台之后,单个处理器的功耗还要经过一番运算,虽然在ASUS DSBF-D/SAS上两个处理器的实际功率并不平衡,不过大致上,我们可以得出单颗E5440的功耗情况:
No C1E/EIST闲置:
低于13W
C1E/EIST闲置:
低于10W
峰值:
低于65W
X5365则是:
No C1E/EIST闲置:
低于48W
C1E/EIST闲置:
低于23W
峰值:
低于140W
对于一个拥有12MB二级缓存、8.2亿晶体管的2.83GHz处理器来说,这个表现让人感到非常满意。
用过StressPrime2004的人就知道,StressPime2004每次的测试都只是打开2个线程,要完全发挥处理器的发热能力,就需要处理器核心和运行线程数的一一对应,也就是说,我们的测试平台需要4个SP2004进程、8个测试线程。
8个测试线程让8个处理器核心都处于100%负荷状态,这时双路E5440处理器部分需要消耗130W的电力,而X5365更是消耗了280W的电力。
在测试功耗的时候,为了单独让其中一个处理器达到最大功耗而另一个仍然处在闲置状态,需要单独设置每一个SP2004进程关联到指定的处理器上,如上图这样,偶数编号的处理器核心处于负荷状态才是整个4核处理器满负荷的状态,也就是编号0、2、6、8号处理器核心(任务管理器中,处理器核心从0到7编号),和通常人想象的不一样,一个处理器用0、1、2、3编号,另一个用4、5、6、7。Windows任务管理器总是先依次数完所有处理器的第一个核心,再到所有处理器的第二个核心……依次到最后一个核心。
利用这一点,在手动分配处理器核心给应用程序的时候,可以有选择地微调应用程序运行效能。
【IT168评测中心】我们选用的45nm处理器为Xeon E5440,主频为2.83GHz,L2 Cache为12MB,FSB为1333MHz,集成了8.2亿晶体管;65nm处理器为Xeon X5365,主频为3GHz,L2 Cache为8MB,FSB同样为1333MHz,只集成了5.82亿晶体管。
65nm Xeon对45nm Xeon:Clovertown vs Harpertown
虽然采用的65nm X5365主频更为高上一些,然而在主要的SPEC CPU 2006测试中,E5440的浮点性能要强10%、整数性能要强15%;其他如Sandra 2008测试主要作为参考辅助。而在功耗测试中,E5440的功率要比X5365低50%左右,单处理器峰值仅为不到65W,性能功耗比值非常之高。
即时是在SSE4尚未普及的情况下,45nm Harptertown也具有着不小的性能提升,实际上,我们在SPEC CPU 2006上用QxT选项(也就是没有进行SSE4优化的编译选项)测试过E5440,发现SPECfp_rate_base还提升了0.1分(当然,这个可以认为是误差)。由于硬件架构上45nm Xeon平台和65nm Xeon平台改变不大,现有的Intel 5000系列芯片组也可以容易地对其进行支持,因此凭着良好的性能功耗比,65nm Xeon向45nm Xeon的平滑迁移将会非常的容易,我们预见45nm Xeon将会很快成为主流。