透过DP变迁看MP性能趋势 Caneland预览-服务器专区

透过DP变迁看MP性能趋势 Caneland预览

作者：IT168评测中心李琪编辑：杨晓勇 2007-12-26 00:00

　　Core微架构终于进入Xeon MP平台

　　【IT168评测中心】2007年，英特尔服务器平台会全面的升级到四核处理器。9月初，英特尔会推出代号为Caneland的四路服务器平台，11月份则会推出以使用Penry处理器技术的双路服务器平台。

　　这两次的产品发布均包含着重大的产品升级。Caneland平台不仅包括全新的Clarksboro芯片组，还包括代号为Tigerton的Xeon 7300系列处理器（未来还会有代号为Dunnington的处理器）。上一代代号为Tulsa的Xeon 7100系列处理器依然采用了Netburst微架构，代号为Tigerton的Xeon 7300系列处理器则开始启用全新的Core微架构。无论是在PC领域，还是在双路服务器领域，从Netburst微架构升级到Core微架构之后性能都有了大幅度提升。因此，我们对于Caneland平台的这个改变充满了乐观的预期。

　　代号为Tigerton的处理器，会有四核版本和双核版本（英特尔9月份的发布确认有四核版本）。四核Tigerton处理器依然采用了双DIE设计，也就是说它是由两个双核核心封装而成，每个双核DIE共享一个4MB L2缓存。Tigerton处理器依然采用mPGA604封装，同基于Netburst微架构的Xeon 7000/7100系列处理器保持接口兼容。目前可以确认新的Caneland平台可以但是Truland平台能否平滑升级支持Tigerton处理器还有待于厂商确认。

　　目前英特尔透露的资料显示，用于高密度机架式/刀片式服务器的处理器TDP为50瓦，用于机架式/刀片式服务器的处理器TDP为80瓦，性能优化型处理器TDP为130瓦。这比现有的Tulsa处理器的95-150瓦有了明显的降低。我们认为原因主要有二个方面：Tigerton处理器的主频肯定会降低，起跳主频很可能是1.6GHz或1.8GHz左右，而Tulsa处理器的最低频率为2.5GHz，最高已经达到了3.5GHz；另外一个方面，双核Tulsa每个核心配置了1MB L2缓存，并且共享4-16MB的L3缓存，而四核Tigerton总共有8MB L2缓存，无L3缓存，因此高端版本功耗会得到更高的控制；Tulsa已经开始采用了65nm制程，相对于之前的Paxville MP功耗有了明显的降低，相信Tigerton应该会继续延续65nm制程。

　　相对于之前的TwinCastle芯片组，Caneland平台所采用的Clarksboro MCH芯片的前端总线有了明显的变化。原来的芯片只能提供两条667MHz/800MHz FSB，而Clarksboro芯片则提供了4条1066MT/s FSB，系统中的每颗处理器终于都有了独立的高速总线。英特尔四路平台不平衡的状态终于得到了改变。

　　Clarksrobo芯片组整合了64MB Snoop filter，这比Stoakley平台所使用的Seaburg所整合的24MB Snoop filter大的多，毕竟在这个平台上最多需要安装4颗处理器，总共16个核心。

　　Caneland平台终于开始采用FB-DIMM内存，不过Clarksrobo的内存控制器似乎并没有比Seaburg更复杂，它依然是4通道533MHz/667MHz FB-DIMM内存控制器，内存带宽最高不过21GB/s，同前端总线总带宽相比还存在较大的缺口。当安装8GB DIMM模组时，Caneland平台最高可配置256GB的内存。

　　Clarksrobo最高可支持28条PCIe x1通道（PCIe 1.x），同样这些通道可灵活的配置为x4、x8，用以连接更高速的设备。如上图所示，Clarksrobo依然需要同ESB2芯片配合使用，如果需要支持GbE、10 GbE、SAS等高吞吐量设备，则需要利用第三方的PCIe扩展器进行扩展。

　　从双路平台性能变化看四路

　　英特尔最近几年的技术推进步骤非常的明确，将最新的技术和微架构先期投放于竞争最激烈的PC领域，然后再应用于双路服务器领域，待技术经过了充分的验证，再应用于对可靠性要求更高的多路服务器平台上。

　　我们IT168评测中心过去的2年时间里，先后测试过Xeon、Dual-Core Xeon、Xeon 5000、Xeon 5100和Xeon 5300系列处理器，亲眼见证了英特尔Xeon处理器的成长过程。因此，本文选择了以下的几款主频相当的处理器的测试成绩进行了对比，我们特别提醒读者注意Xeon 5000和Xeon 5100之间的差异，以及Xeon 5000和Xeon 5300之间的差异，不出意外的话，Caneland平台的性能同Truland平台的性能之间的差异趋势也会很相似。

核心代号	Nocona	Paxville DP	Dempsey	Woodcrest	Clovertown
产品名称	Xeon 3.0GHz	Dual Core Xeon 2.8Ghz	Xeon 5060	Xeon 5160	Xeon 5365
主频	3.0GHz	2.8GHz	3.2GHz	3.0GHz	3.0GHz
核心数量	1	2	2	2	4
L1缓存	每核心16KB data＋12KB Trace	每核心16KB data＋12KB Trace	每核心16KB data＋12KB Trace	每核心32KB data+32KB code	每核心32KB data+32KB code
L2缓存	1MB	2x2MB	2x2MB	共享4MB	2x4MB
FSB	800MHz	800MHz	1066MHz	1333MHz	1333MHz
制程	90nm	90nm	65nm	65nm	65nm
TDP	103w	135w	130w	80w	120w
芯片组	E7520	E7520	5000P	5000P	5000P

　　我们是从过去测试的近百组不同配置的服务器测试数据中筛选出5组数据。得到这5组数据的服务器均为单处理器配置，Nocona和Paxville DP平台采用了Intel E7520芯片组，Dempsey、Woodcrest、Clovertown则均采用了Intel 5000P芯片组；每个测试平台均配置了2GB内存，其中Nocona和Paxville DP平台采用了DDR2内存，Dempsey、Woodcrest、Clovertown则采用了FB-DIMM内存；由于我们所进行的测试主要反映CPU和内存子系统的性能，因此这些测试平台的磁盘子系统虽然并不完全一样，但是并不影响我们考察这些处理器的性能发展趋势。

　　我们在上述配置的服务器上分别安装了Microsoft Windows 2003 Enterprise Server R2 5.02.3790 (Service Pack 1)，正确安装了各个设备的驱动程序，确保服务器工作在非常好的的状态。

　　我们所使用的评测项目如下：

SPECCPU2000 v1.2

　　SPEC是标准性能评估公司（Standard Performance Evaluation Corporation）的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织，这个组织的目标是建立、维护一套用于评估计算机系统的标准。

　　SPEC CPU2000是SPEC组织推出的一套CPU子系统评估软件，它包括CINT2000和CFP2000两个子项目，前者用于测量和对比整数性能，而后者则用于测量和对比浮点性能。计算系统中的处理器、内存和编译器都会影响最终的测试性能，而I/O（磁盘）、网络、操作系统和图形子系统对于SPEC CPU2000的影响非常的小。

　　SPECfp测试过程中同时执行多个实例（instance），测量系统执行计算密集型浮点操作的能力，比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例（instances），然后测试系统同时执行多个计算密集型整数操作的能力，可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。

　　我们在被测服务器中安装了Intel C++ 8.1 Compiler、Intel Fortran 8.1 Compiler这两款SPEC CPU2000必需的编译器，另外安装了Microsoft Visual Studio 2003.net提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件，可以满足Base测试。然后我们根据被测系统实际可同时处理的线程数量，设定用户数量，分别运行SPEC base和SPEC rate base测试的结果（其中SPEC base代表系统执行某个任务的速度，而SPEC base rate测试代表系统可以同时处理任务的能力）。

WebBench v5.0

　　WebBench是针对服务器作为Web Server时的性能进行测试，我们在被测服务器上安装了IIS6.0组件，以提供测试所需的Web服务。在测试中我们开启了网络实验室中的56台客户端，分别使用了WebBench 5.0内置的动态CGI以及静态页面脚本对服务器进行了测试。

　　静态测试是由客户端读取预先放置在服务器Web Server下的Web页面（wbtree），这项测试主要考察的是服务器磁盘系统以及网络连接性能。我们使用了实验室中的56台客户端，配合Static_mt.tst多线程静态脚本测试向被测服务器发送请求。

　　动态测试偏重于对服务器CPU子系统的性能测试，它对于Web服务器提供了足够的负载。我们将一个C语言编写的CGI源文件Simcigi.c编译为Simcgi.exe，并将其作为动态测试中的CGI脚本。在测试过程中，每台安装了WebBench客户端软件的PC，会在300秒的时间内持续向服务器发送CGI请求，而控制台会纪录并汇总服务器所响应CGI请求的数据。CGI测试的成绩高低，主要取决于服务器处理器子系统性能的优劣。处理器子系统包括CPU、内存以及内存控制器，CPU频率、缓存以及内存容量大小和内存带宽，都会影响该项成绩。

Benchmarkfactory 4.6

　　大部分的服务器应用都同数据库有着密切的联系，因此我们今年开始着手在在服务器测试中加入对于数据库性能的测试。我们选择了Benchmark Factory 4.6软件和Microsoft SQL2000 SP4来测试不同的硬件平台在数据库应用中的表现。

　　我们选择了BF内置的标准测试脚本AS3AP，这项测试可用于对于ANSI结构化查询语言（SQL）关系型数据库进行测试，它可用于测试DBMS（单用户微机数据库管理系统），也可用于测试高性能并行或者分布式数据库。

系统功耗监测

　　我们使用UNI-T UT71E智能数字万用表对于被测服务器系统的整体功耗进行了监测，利用随机附带的接口程序，我们可以记录被测服务器任意时间段内的功率变化。

　　CPU2000性能提升3-5倍

　　我们以Nocona核心的Xeon 3.0GHz的SPECint的测试结果为基准，然后计算其它4款处理器相对于其性能的倍数，可以看到Intel单颗Xeon处理器的整数性能在过去3年的时间内提升了5倍：

　　Dual Core Xeon 2.8GHz（Paxville DP）处理器的整数性能是频率相当的Xeon 3.0GHz（Nocona）单核处理器的1.8倍。考虑到对比处理器的主频差异，前端总线差异，Xeon 5060（Dempsey）相对于Dual Core Xeon 2.8GHz（Paxville DP）处理器几乎没有整数性能提升，可见Netburst微架构的潜力的确已经挖掘殆尽。

　　采用Core微架构的Xeon 5160（Woodcrest）处理器的整数性能是Netburst微架构的双核Xeon处理器的1.45倍，是Xeon 3.0GHz（Nocona）单核处理器的2.8倍，Core微架构的确有着极高的效率。

　　最新的Xeon X5365（Clovertown）四核处理器的整数性能是单颗同频双核处理器的1.74倍，是Xeon 3.0GHz（Nocona）单核处理器的5倍，显然更多核心被封装在一颗处理器中，使得单台服务器的并行任务处理能力飞速提升了。

　　联想到Xeon MP平台会从Truland平台升级到Caneland平台，处理器从采用Netburst微架构的Xeon 7100（Tulsa）升级到可能会采用Core微架构的Xeon 7300（Tigerton），整数性能提升可能会提升2倍以上。

SPECint rate_base2000测试 [IT168评测中心]
核心代号	Nocona	Paxville DP	Dempsey	Woodcrest	Clovertown
产品名称	Xeon 3.0GHz	Dual Core Xeon 2.8Ghz	Xeon 5060	Xeon 5160	Xeon 5365
主频	3.0GHz	2.8GHz	3.2GHz	3.0GHz	3.0GHz
164.gzip	15.4	28.9	32.7	41.5	81.0
175.vpr	12.8	23.3	25.5	39.0	59.0
176.gcc	23.2	44.3	48.5	66.4	121.0
181.mcf	18.4	23.4	26.2	33.4	39.4
186.crafty	13.5	25.3	27.9	44.6	87.8
197.parser	18.0	33.0	37.3	48.5	87.9
252.eon	21.9	40.9	46.8	68.9	137.0
253.perlbmk	18.4	35.4	38.4	67.4	127.0
254.gap	21.2	37.4	39.0	53.7	81.0
255.vortex	29.6	54.6	60.5	82.9	145.0
256.bzip2	16.1	28.8	30.9	39.4	73.6
300.twolf	16.6	29.6	33.1	70.6	136.0
总分	18.3	32.6	36.1	52.6	91.8

　　仔细阅读SPECint测试结果的明细表格，我们发现164.gzip（数据压缩）、186.crafty（象棋程序模拟）、252.eon（光线追踪）、253.perlbmk（Perl应用）、300.twolf性能提升幅度更大，Xeon 5365的性能是单核Xeon 3.0GHz的5.3、6.5、6.3、6.9、8.2倍！

　　总的来看，浮点性能的提升幅度比整数性能的提升幅度小。Dual Core Xeon 2.8GHz（Paxville DP）处理器的浮点性能是频率相当的Xeon 3.0GHz（Nocona）单核处理器的1.4倍。Xeon 5060（Dempsey）相对于Dual Core Xeon 2.8GHz（Paxville DP）处理器的浮点性能有较为明显的提升。这使得Xeon 5100系列处理器的性能提升幅度相对于小了些。

　　最新的Xeon X5365（Clovertown）四核处理器的浮点性能是单颗同频双核处理器的1.7倍——同整数性能提升幅度相近，是Xeon 3.0GHz（Nocona）单核处理器的3倍。

　　处理器从采用Netburst微架构的Xeon 7100（Tulsa）升级到采用Core微架构的Xeon 7300（Tigerton）之后，浮点性能提升可能会接近2倍。

SPECfp rate_base2000测试 [IT168评测中心]
核心代号	Nocona	Paxville DP	Dempsey	Woodcrest	Clovertown
产品名称	Xeon 3.0GHz	Dual Core Xeon 2.8Ghz	Xeon 5060	Xeon 5160	Xeon 5365
主频	3.0GHz	2.8GHz	3.2GHz	3.0GHz	3.0GHz
168.wupwise	27.8	44.5	51.0	40.0	66.4
171.swim	25.0	21.7	30.2	28.5	31.4
172.mgrid	16.4	20.3	27.1	25.7	29.1
173.applu	15.5	20.6	25.6	22.6	31.5
177.mesa	15.5	28.7	31.9	38.7	127.0
178.galgel	32.0	43.3	51.1	67.5	223.0
179.art	32.6	33.9	41.5	80.0	110.0
183.equake	24.8	23.0	29.1	26.7	30.9
187.facerec	21.9	34.5	37.5	39.6	64.0
188.ammp	13.0	21.7	23.1	34.9	68.0
189.lucas	19.0	21.6	28.4	26.2	31.9
191.fma3d	15.7	22.5	25.9	27.8	39.2
200.sixtrack	8.35	16.3	18.5	17.6	50.6
301.apsi	15.4	26.2	29.7	31.1	58.3
总分	18.9	25.9	30.9	33.3	56.0

　　我们看到173.applu（抛物/椭圆偏微分方程）、177.mesa（3D图形库）、188.ammp（计算化学）三个项目的性能提升幅度很大，Xeon 5365的浮点性能是单核Xeon 3.0GHz的8.1、6.9、5.2倍！

　　实际应用性能3倍以上

　　我们对比了Web服务器动态应用测试，处理器和缓存内存性能对于此类应用影响比较明显：

　　Web应用对于多核处理器非常的友好，Dual Core Xeon 2.8GHz（Paxville DP）的性能是Xeon 3.0GHz（Nocona）的1.6倍。在这个领域中，Dempsey相对于Paxville DP并没有优势。基于Core微架构的Woodcrest带来了明显的性能提升，Xeon 5160是Xeon 5060的1.6倍。Xeon 5365（Clovertown）四核处理器的Web应用的性能是Xeon 5160（Woodcrest）的1.3倍。

　　我们在被测服务器上安装了Microsoft SQL 2000 SP4，按照测试要求建立了数据库。BF在测试之前会在数据库中生成9个表，其中包括4个500万行的表格，每行包括100字节的数据，因此每个表格容量大约是476MB，整个数据库容量为1.86GB。我们用60个客户端模拟800个用户，并且以8个一组依次增加，在这个数据库中进行查询、添加、删除、修改等操作。

　　我们对比了采用了Dempsey、Woodcrest和Clovertown平台MS SQL2000平均性能，可以看到Xeon X5365（Clovertown）四核处理器的性能是同频Xeon 5160（Woodcrest）双核处理器的1.8倍，是基于Netburst微架构的Xeon 5060（Dempsey）双核处理器的2.2倍。

　　每核心功耗大幅度下降60%

　　TDP（热设计功耗）概念虽然不能同处理器的实际功耗完全划等号（比如Xeon X5365处理器TDP标称为120瓦，而我们实测功耗为168瓦），但是的确可以作为普通用户衡量处理器功耗大小的一个参考依据，可以这么认为TDP越大的功耗肯定会越大（本章节中，我们姑且把TDP当作功耗，并且进行一些计算，来帮助用户了解Intel Xeon处理器在过去几年中的每核心功耗趋势和能效比趋势）。

　　Nocona核心的单核Xeon 3.0GHz处理器的TDP为103瓦左右，随后二级缓存升级为2MB的Irwindale核心的单核Xeon的TDP略微提升到110瓦左右。第一款双核Xeon 2.8GHz处理器的TDP为135瓦，虽然它几乎是将两个Irwindale核心封装在一起，但是TDP并没有因此提升一倍，算下来每核心“功耗”只有67瓦。第二款双核Xeon 5000（Dempsey）虽然采用了更先进的65nm制程，但是TDP依然相当的高，在95-130瓦之间。第三款双核Xeon（Woodcrest）不仅仅带来了性能的飞升，其TPD更是控制在40-80w之间，每核心功耗因此只有40瓦。第一款四核Xeon（Clovertown）的TDP在65-120瓦之间，即便是按照最高的120瓦来算，其每核心功耗也不过30瓦。

核心代号	Nocona	Paxville DP	Dempsey	Woodcrest	Clovertown
产品名称	Xeon 3.0GHz	Dual Core Xeon 2.8Ghz	Xeon 5060	Xeon 5160	Xeon X5365
主频	3.0GHz	2.8GHz	3.2GHz	3.0GHz	3.0GHz
核心数量	1	2	2	2	4
L1缓存	每核心16KB data＋12KB Trace	每核心16KB data＋12KB Trace	每核心16KB data＋12KB Trace	每核心32KB data+32KB code	每核心32KB data+32KB code
L2缓存	1MB	2x2MB	2x2MB	共享4MB	2x4MB
FSB	800MHz	800MHz	1066MHz	1333MHz	1333MHz
制程	90nm	90nm	65nm	65nm	65nm
TDP	103w	135w	130w	80w	120w
每核心“功耗”	103w	67.5w	65w	40w	30w

　　从上面的表格来看，随着处理器的集成的核心数量越多，其每核心的功耗有了明显的下降。但是我们还是要提醒用户，Intel似乎在有意无意的把主流Xeon处理器的TDP保持在100-130瓦的范围以内，这意味着服务器厂商在设计一台Xeon服务器的时候，用于系统散热的基本是不变的。因此每核心功耗下降的最大意义在于同样的散热情况下，服务器厂商可以提供具有更密集计算能力的服务器产品。

　　我们利用SPEC CPU2000、Webbench和BenchFactory的测试结果和处理器的TDP值制作了上述图表，由于它们并非是严格意义上的能效比，因此我们将其称之为能效比趋势图。通过这4张图表，我们可以了解频率相近的Xeon处理器从单核到四核，从Netburst微架构到Core微架构变化后其能效比趋势：四核Xeon处理器的整数应用的能效比是单核Xeon处理器的4.25倍；浮点应用的能效比，四核是单核的2.6倍；Web应用显示四核处理器的能效比并非非常好的的；四核Xeon的数据库应用能效比是非常好的的，它是Xeon 5000处理器的2.4倍！

　　Caneland四核平台会有多少提升？

　　9月初Caneland平台将会取代Truland平台成为为英特尔四路Xeon服务器的主流平台。这次平台的升级所带来的变化将会超过英特尔双路服务器平台Bensley平台所带来的变化。

	Caneland平台	Bensley平台
CPU	从Tulsa升级为Tigerton，处理器微架构将从Netburst升级到Core，制程依然是65nm，FSB将会从667/800MHz提升到1066MHz。	从Paxville DP升级为Dempsey，Netburst微架构并无变化，1个月之后才引入Core微架构，制程从90nm升级到65nm，处理器FSB从800MHz升级为1066MHz/1333MHz
芯片组	升级到Clarksboro之后，从之前的2条FSB总线增加到4条FSB，确保每颗处理器有一条专用的FSB	从Lindenhurst升级到Blackford，开始支持双独立总线技术，大幅度缓解了前端总线带宽瓶颈
内存技术	升级到FB-DIMM，可支持4通道配置，最高可提供32GB/s带宽，最大容量可支持256GB	升级到FB-DIMM，可支持4通道配置，最高可提供21GB/s带宽，最大容量可支持64GB
网络技术	可能支持Intel I/OAT2技术	Intel I/OAT技术
平台技术	可能支持VT-d	VT-x

　　我们认为处理器相关变化、芯片组FSB和内存技术的变化会是确保Caneland平台相对于Truland平台取得性能提升的关键因素。因此，我们认为从Dempsey到Clovertown双路Xeon平台的性能变化比较适用于类比四核Xeon平台从Truland到Caneland的性能变化。我们推测Caneland平台的整数性能相对于上一代Truland平台会增长100%以上，理想的情况下会增长150%倍；浮点性能预计会有80%左右的性能提升；Web应用和数据库应用可能会有100％的性能增幅。

　　从Truland平台升级到Caneland平台，Tulsa和Tigerton处理器都采用了65nm制程——也就是说Tulsa提前消化了部分制程改进所带来的功耗降低，所以利用Woodcrest到Clovertown的变化来类比从Truland平台升级到Caneland平台的能效比趋势会更合适一些。我们推测，新的平台所带来的能效比提升幅度不会很大，可能会在10-20%之间。

　　究竟实际情况会怎样，我们IT168评测中心将会在英特尔发布Caneland平台的当天揭晓谜底。

关注我们