服务器 频道

Intel四核处理器Clovertown性能评测(下)

    【IT168 专稿】Intel四核处理器Clovertown性能评测(上篇)介绍了Clovertown、测试系统平台和CPU、内存子系统的性能,下篇将从应用的角度来看看Clovertown在金融证券、3D图像、多媒体、JAVA、功耗等方面的表现。

风险管理应用测试:SunGard Adaptiv Credit Risk Analysis

    SunGard Adaptiv Credit Risk是Sungard全面风险管理产品中的一个组件。作为简化版,该软件的核心是使用Monte Carlo财务引擎来测算出投资组合的未来收益。该软件包由基于Microsoft Windows 的.NET程序和两个数据文件组成——一份市场样本数据和一份投资组合样本数据,这些数据会被导入财务引擎中。

    我测试用的是最新发布的SunGard ACR 3.0版本,值得注意的是,2.5版本的结果和新版本的结果可能不一致。SunGard的扩展性相当不错,并能让处理器核心超负荷运转。

金融分析应用测试:Black & Scholes Kernel

    1973年,Black and Scholes开发了可以评估股票投资价值的模型。经过多年发展,该模型分析结果的精确度越来越高。现在,很多金融分析师都用这一模型来决定在什么价格时选购某种股票。

    Black and Scholes是一款实际应用软件,而且扩展性很好,从2-32颗处理器(核)都可以使用,因此也是非常好的基准测试软件。我们只要给出测试线程的数目和测试步骤的数目,然后让它去执行就可以了。

  
    在开始使用Intel提供的Black & Scholes kernel版本时,我发现它不能在64bit操作系统下执行。不过,在Intel的帮助下,我拿到了源代码,并编译出了64bit二进制代码(在Visual Studio 2005中通过微软编译器进行优化和编译)。虽然Intel编译的另一个版本在woodcrest与clovertown平台上可以跑得更快,但却无法在Opteron在运行,所以我只好采用自己编译的版本内核。

3D图像制作应用测试:CINEBENCH 9.5 (x64)

    CINEBENCH是一款基于强大的3D软件 ——CINEMA 4D的免费测试工具,可运行在Windows和Mac OS下。该工具不仅可以准确地测试处理器的性能,而且还测试其他影响系统性能的因素,如OpenGL,多线程,多处理器以及Intel的超线程技术。CINEBENCH的渲染任务可以在同一台计算机上测试多达16个处理器的性能,以及Cinebench针对大量多边图形的software-only阴影和OpenGL阴影测试,都会让系统性能达到极限。

    我一直是CINEBENCH的忠实FANS,因为它支持64位,扩展性高,而且又是基于实际应用的专业3D软件包。

    在单线程的C4D阴影和单CPU测试中,Woodcrest的CPU主频优势非常明显。在多CPU渲染时,Clovertown的性能才真正凸现出来。E5345的得分是我见过的最高的CINEBENCH测试结果。在Clovertown平台上,多CPU渲染从开始到结束只花了9秒钟。

3D图像制作应用测试:3ds Max 8.0

    Autodesk 3ds Max 8是一款专业的内容创作和多媒体工具软件。凭借可大大提升工作效率的诸多设计特性,3ds Max已成为游戏开发、可视化设计、可视化效果以及教育领域的领导者。已被广泛使用和不断扩展的3ds Max一般都运行在高端、多处理器的工作站和服务器系统上。在这次测试中,我下载了8.0试用版,也使用了一些3ds Max 7.0的基准测试文件。

 
    这里的测试结果非常有趣。如上图所示, Woodcrest与Clovertown都不是绝对的胜利者。有时是woodcrest有优势,虽然CPU核心少,但主频更快。但其他时候, Clovertown则凭借多核心的强大处理能力突破了以往的纪录。其实,在使用3ds Max时,效果变化主要还是取决于你渲染什么和怎么渲染。因此,如果你是3ds Max的超级fans,不要地机械地认为,从双核转到四核就会获得很大的性能提升。

3D图像制作应用测试:POV-Ray v3.7 beta 16a

    POV Ray-Tracer是通过ray-tracing渲染技术来制作三维的逼真图像。该软件是先读取包含场景对象和光线等信息的文本文件,然后生成接近于照片效果的场景图像。Ray-tracing的处理过程很慢,但能产生高品质的图像,获得逼真的反射、阴影、透视等效果。

    POV-Ray以往的版本都是单线程和32位应用,最新的Beta版才加入了对64bit和SMP的支持。下面的结果都是在POV-Ray缺省配置“多CPU Benchmark”下获得的。

  
    POV-Ray在官方网站上表示,它可以完美的随着CPU核心增多进行扩展。我的测试结果证实了这一点。如上图所示,Clovertown平台的8个核取得了压倒性的胜利——这甚至不能说是一种比赛。

多媒体应用测试:TMPGEnc Plus v2.524.63.181

    TMPGEnc Plus是一款高质量的MPEG-1/2编译器,同时适用于入门级和专业级用户。通过TMPGEnc Plus,我们可以将视频文件转换成DVD、SVCD(MPEG-2)、VCD(MPEG-1)等格式。可以说,TMPGEnc是当前最好的编译器之一,在多种不同应用中都可充当专业级工具。

    TMPGEnc并不是市场上最快的MPEG编译器,但根据我的经验,它却是一款性价比更高的工具,而且它还对Xeon/Opteron处理器、SMP/SMT进行了优化。在测试中我将一个1分46秒(87mb)、1080p的 WMV文件转换成NTSC DVD品质的MPEG2文件。我采用的是NTSC DVD(16:9)模版设置,2-pass VBR 编码和VBR PCM 声道。

    TMPGEnc声称能支持SMP/SMT,但实际上,我发现它无法支持4个以上的核心。如图所示,Clovertown的每个核心较低的频率束缚了性能的发挥。这也说明,在这一应用中,如果将双核换成四核,无疑是对资源的浪费。但4核毕竟是大势所趋,或许我应该去找一个新的可以发挥4核以上CPU性能优势的编码测试工具。

JAVA应用性能测试:SPECjbb2005

    SPECjbb2005(Java服务器基准)是评估服务器端JAVA性能的SPEC测试工具。和以前的SPECjbb2000一样,SPECjbb2005通过模拟三层C/S系统(主要是中间层)来评估服务器端JAVA的性能。该测试软件运行JVM(Java虚拟机)、JIT (Just-In-Time)编译器、碎片收集、线程以及操作系统的其他任务。它也测量CPU、Cache、内存和 SMP的性能。SPECjbb2005通过提供面向对象方式运行的、新的增强的工作负载,来反映真实应用系统的情况。另外,SPECjbb2005也引入了一些新的特性,如XML处理和BigDecimal计算,以保证测试结果能更确切地反映当前的实际应用。

    SPECjbb2005是一种被广泛使用的工业标准基准测试。概括来讲,每个"warehouse"会产生一个独立的线程,从而决定测试线程的并发数。相对应于"hardware threads"总数,被测系统的warehouses数目 (X)都有一个预期的最高值,比如Clovertown和Dempsey每颗有8个hardware threads,Woodcrest 和Opteron每颗有4个hardware threads。最终的测试结果以"Business Operations per Second (BOP/s)"(每秒交易次数)为单位,都是基于X,X+1,X+2,X+3等,直到2X的平均吞吐量来计算。

    SPECjbb2005的测试相当复杂,需要进行大量的参数设置。在测试中我采用了BEA的 64位 Jrockit JVM (jrockit-R26.4.0-jre1.5.0_06-win-x64)。使用单JVM和如下命令参数:-server –XXaggresive -XXtlasize64k –Xms2040M –Xmx2040M

    如上图,可以很清晰的看到,随着线程的并行化处理,拥有更多的CPU核是比较有优势的。Clovertown在这一测试中占有绝对优势。但值得注意的是,当warehouses数目达到2X时,所有测试平台的曲线都开始下降,而Clovertown下降的速率甚至比Dempsey还要快一些。随着我对SPECjbb和命令参数越来越熟悉,我看看能否找出其中的原因,看看能否通过调整参数来更好地体现测试平台的性能。

每瓦特性能测试

    尽管总的功耗使用情况也是值得关注的,但现在几乎所有人都特别关心每瓦特性能(performance-per-watt,PPW)上。我们知道,要测定总功耗使用量是比较容易的,但要在平台或系统的层面上来量化PPW就相当困难了。因为决定PPW的因素很多,而且结果会随着工作负载和实际应用的不同而变化。

    SPEC目前正在开发可以获得全面PPW的新的基准测试工具。相信这一工具在比较不同系统时会有所帮助,但为了有效地量化PPW,你还是需要对自己的(或类似的)应用进行测试,并考虑自己的使用水平。这样一来,比如,在100%的CPU负载下运行SQL Server,跟在40%的负载下运行JAVA应用,系统的功耗肯定是不一样的,也就没有了可比性。

    在下面的测试中,我自己编写了一个批处理文件,可以跑我们自编的Black & Scholes kernel。我使用了跟正常测试时一样的steps数目(1,000,000,000),但我改变了线程的数目,以模拟25, 50, 75和 100%的 CPU负载(Opteron 和Woodcres的线程数是1, 2, 3, 4;Clovertown 和 Dempsey 的线程数是2, 4, 6, 8),最后我得出了阶梯状的曲线,如下图。如果我们分析每一步负载的功耗和完成时间,就能得出被测系统的PPW结论。

 
    在Black & Scholes kernel测试中,Woodcrest至强在各种负载水平下的PPW都比较低,但看看Woodcrest比Opteron和Dempsey节省的总功耗(在各种负载水平),你会发现,从长远来看,Woodcrest有助于节省长期电耗成本。很显然,在这次测试中,Clovertown的PPW表现是非常好的的。

    值得讨论的是,在这篇文章中,Black & Scholes kernel 的测试结果与其他每项测试都有所矛盾。仅仅通过这一测试来阐述PPW的结论可能有失偏颇。我之所以做这项测试,目的是希望能引发讨论——PPW实际上如何体现?测试PPW的基础是什么(应用、负载水平等等)?是否需要对每种应用负载都做类似的功耗测试?SPEC的工业标准测试工具是否能解决所有问题?对这些,我也没有答案。但我相信我们的方向是正确的,还需要进行更多的大量的探讨。

平台总功耗测试

    为了了解测试平台的总功耗使用情况,我使用了Extech380803功率表来测量机器空闲和满负载状态下的电耗情况。在测试中,功率表仅连接到主机上(不含显示器和其他设备)。用CINEBENCH 9.5 (x64)的 多CPU渲染测试作为负载。Intel和AMD平台在测试中都打开了电源省电模式。

 
    三个Intel平台使用完全相同的配置,因此,功耗变化完全取决于处理器本身以及额外增加的散热风扇。由于Opteron平台采用更少的风扇(2x 80mm和2x active HSF)和510W的低功耗电源,而Intel系统采用700W电源、120mm和92mm的风扇,所以Opteron平台在启动时应该具有较大的功耗优势。

结 论

    我认为现在并不是所有人都很迫切的需要升级到4核平台。测试表明,在一些情况下,核心较少,但主频更高的Woodcrest的性能比核心较多但主频较低的Clovertown更好。尽管这一情况预计不会持续太久。

    近两年来,多核化趋势越来越明显,软件开发商也正在为多核做准备,特别是游戏开发商更是看好这一趋势。相信随着多线程应用软件的涌现,四核处理器的价值会变得更加明显。

    当然,这并不意味着当前四核处理器就没有市场。对于那些使用多线程软件处理多任务的用户而言,四核还是非常有吸引力的。在高端企业级应用和服务器应用中,四核显然有着广泛的市场。而且,我相信虚拟化将会成为四核的“杀手级应用”。

    随着技术的飞速发展,IT产业正在革命性地向虚拟化的方向转变。在那种环境中,四核将会带来巨大的利益。正如我们所预见的那样,随着越来越多的成熟虚拟化解决方案的推出,这一趋势大潮将大大改变IT架构的面貌。

0
相关文章