【IT168评测中心】我们IT168已经有许多关于AMD新一代45nm Shanghai处理器的报道了,同时也进行了相关方面的评测,例如进行理论性能上的测试分析,以及实际应用类如SQL Server等的测试。
AMD Shanghai/上海处理器,采用了45nm工艺制程(这也是AMD CPU第一次采用45nm),集成了7.05亿晶体管,拥有共享6M的三级缓存,增强的双通道内存控制器可以同时支持DDR2内存和DDR3内存,内置了4条Hyper Transport总线以支持组建大规模并行系统,“上海”还支持AMD的快速虚拟化索引(RVI)的AMD-V虚拟化技术,同时具备48位物理寻址能力,寻址空间可以达到(256TB)。
AMD 45nm Shanghai/上海 Opteron 2378实物照
今次我们进行的测试是SPEC CPU 2006,SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准,SPEC CPU测试被众多厂商、机构广泛地应用在进行系统运算性能的测试、评分上。
SPEC CPU2006 v1.01
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU 2006是SPEC组织推出的专门用来评估CPU子系统性能的测试软件,它目前版本为1.1,包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
SPEC CPU 2006总共包含了29个主要测试项目,最后两个specrand目录乃是SPEC自身的一部分
SPEC测试代表了绝大多CPU密集型的运算,包括编程语言、压缩、人工智能、基因序列搜索、视频压缩及各种力学的计算等,包含了多种科学计算,可以用来衡量系统执行这些任务的快慢。SPEC测试包括了浮点(fp)与整数运算(int)两大部分。
为了运行SPEC CPU 2006测试,我们统一安装了Windows Server 2008 Enterprise x64 Edition SP1操作系统,在主流的x64处理器下,原生64应用要比32位下快。我们还安装了Visual Studio 2005 SP1、Intel C++/Fortran Compiler 10.0.025编译器,对于Intel处理器,我们使用了QxS对SSE4指令集进行了优化,而对于AMD Barcelona/Shanghai处理器,则使用了QxO选项对SSE3指令集进行优化(它们不支持SSE4指令集)。编译时未使用SmartHeap商业优化库。
不仅仅测试耗时,对测试组件进行编译也很花时间。这个过程其实也能体现了系统的快慢
在一个计算系统中,CPU子系统是影响最大的,而内存子系统和C/C++/Fortran语言编译器都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2000的影响比较小。运行SPEC CPU 2006测试需要大量的内存和较多的磁盘空间。
我们测试的平台仍然和《全国首发 AMD Shanghai/上海性能评测》中的一样,基于于一台曙光A650服务器,其原配的是双路Barcelona Opteron 2350处理器,测试结果并会与我们IT168评测中心的DELL PowerEdge 2900 III服务器进行对比,测试对比平台的详细参数如下:
测试平台、测试环境 | |||||
测试分组 | |||||
类别 | Dawning A650服务器 双路AMD Shanghai Opteron 2378 | Dawning AS650服务器 双路AMD Barcelona Opteron 2350 | 双路Xeon E5430基准平台 DELL PE2900 III服务器 | ||
处理器子系统 | |||||
处理器 | 双路AMD Shanghai Opteron 2378 | 双路AMD Barcelona Opteron 2350 | 双路Intel Xeon E5430 | ||
处理器架构 | AMD 45nm Shanghai | AMD 65nm Barcelona | Intel 45nm Penryn | ||
处理器代号 | Shanghai | Barcelona | Harpertown | ||
处理器封装 | Socket F 1207 | Socket F 1207 | Socke 771 LGA | ||
处理器规格 | 四核 | 四核 | 四核 | ||
处理器指令集 | MMX,3DNow!,SSE,SSE2,SSE3,SSE4A,x86-64 | MMX,3DNow!,SSE,SSE2,SSE3,SSE4A,x86-64 | MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,EM64T,VT | ||
主频 | 2.40GHz | 2.00GHz | 2.66GHz | ||
处理器外部总线 | HTL:1000MHz | HTL:1000MHz | FSB:1333MHz | ||
L1 D-Cache | 4x 64KB 2路集合关联 | 4x 64KB 2路集合关联 | 4x 32KB 8路集合关联 | ||
L1 I-Cache | 4x 64KB 2路集合关联 | 4x 64KB 2路集合关联 | 4x 32KB 8路集合关联 | ||
L2 Cache | 2x 512KB 16路集合关联 | 2x 512KB 16路集合关联 | 2x 6144KB 16路集合关联 | ||
L3 Cache | 6MB 48路集合关联 | 2MB 32路集合关联 | |||
主板 | |||||
主板型号 | Tyan S2932-E | Tyan S2932-E | DELL PE2900 III | ||
北桥芯片组(MCH) | NVIDIA nForce PRO 3600 | NVIDIA nForce PRO 3600 | Intel 5000X | ||
北桥芯片特性 | - | - | 12MB Snoop Filter | ||
内存控制器 | 每CPU集成双通道DDR2-800 | 每CPU集成双通道DDR2-667 | 北桥集成四通道FBD DDR2 | ||
内存 | 2GB R-ECC DDR2 667 SDRAM x4 1GB R-ECC DDR2 667 SDRAM x4 | 2GB R-ECC DDR2 667 SDRAM x4 1GB R-ECC DDR2 667 SDRAM x4 | 2GB FBD DDR2 667 SDRAM x8 | ||
系统磁盘子系统 | |||||
磁盘控制器 | LSI MegaRAID SAS Controller | LSI MegaRAID SAS 8208ELP Controller | DELL Perc 5/i RAID Controller | ||
磁盘控制器规格 | SAS 3Gbps | SAS 3Gbps | SAS 3Gbps | ||
磁盘控制器设置 | RAID 5 | RAID 5 | RAID 5 | ||
磁盘控制器驱动 | LSI MegaRAID SAS 3.8.0.32 | LSI MegaRAID SAS 3.8.0.32 | LSI SAS 3.8.0.32 | ||
磁盘 | Fujitsu MBA3147RC x3 | Fujitsu MBA3147RC x3 | Seagate Cheetah 15K.5 ST314655SS x3 | ||
磁盘规格 | 15000RPM 147GB SAS 3Gbps 16MB Cache | 15000RPM 147GB SAS 3Gbps 16MB Cache | 15000RPM 146GB SAS 3Gbps 16MB Cache | ||
磁盘设置 | SATA 3Gbps 30GB系统分区 | SATA 3Gbps 30GB系统分区 | SAS 3Gbps 20GB系统分区 | ||
网络子系统 | |||||
网卡 | NVIDIA nForce Pro 3600 integrated MAC with Marvell 88E1121 PHY GbE Controller x2 | NVIDIA nForce Pro 3600 integrated MAC with Marvell 88E1121 PHY GbE Controller x2 | Broadcom BCM5708C PCI-E千兆网卡 x2 | ||
网卡设置 | ForceWare Teaming Load Balancing | ForceWare Teaming Load Balancing | Broadcom NIC Teaming Load Balancing | ||
网卡驱动 | NVIDIA NIC/LAN v67.76.1 | NVIDIA NIC/LAN v67.76.1 | Broadcom NetXtreme 2 11.04.01 | ||
软件环境 | |||||
操作系统 | Microsoft Windows Server 2008 Enterprise x64 Edition SP1 | Microsoft Windows Server 2008 Enterprise x64 Edition SP1 | Microsoft Windows Server 2008 Enterprise x64 Edition SP1 |
和上一次测试不同的是,64位环境下的SPEC CPU 2006测试要求每一个测试进程都搭配1.5GB以上的内存,每个内核一个测试线程,总共就需要12GB以上的内存,因此我们将A650平台的内存增加到12GB,将DELL基准平台的内存增加到16GB,并保持双通道的设置不变。测试表明,12GB以上的内存对性能没有影响。
有两处地方需要特别注明,首先是:Shanghai处理器支持R-ECC DDR2-800内存,而曙光A650服务器搭配的只是R-ECC DDR2-667内存,性能上会有所差异。尚不清楚Tyan S2932-E能否使用R-ECC DDR2-800内存。
其次,DELL基准平台基于Intel 5000X芯片组,带有12MB Snoop Filter缓存,它可以提升在内存密集型计算方面的效率,比起主流的Intel 5000P芯片组具有比较明显的优势。
SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。
AMD Shanghai SPEC CPU 2006整数运算性能
Shanghai的得分为81.7,比Barcelona的65.7分高24.4%,CPU的主频率高20%,可知在环境完全一致的情况下Shanghai的IPC性能比起Barcelona来要提升了。在测试当中,400.perlbench PERL编程语言(29.3%)、401.bzip2 压缩(46.6%)、403.gcc C编译器(30.9%)、464.h264ref 视频压缩(28.5%)、473.astar 寻路算法(25.6%)、483.xalancbmk XML处理(24.4%)共6项的提升都很明显,前面4个项目都是跟Shanghai L2/L3缓存架构的改进而密切相关的。
此外,整数运算自P4以来都是Intel的强项(例如,P4的ALU整数运算单元的频率是CPU主频的两倍),因此2.4GHz的Shanghai Opteron处理器性能比2.66GHz的Harptertown Xeon高不了太多,而400.perlbench PERL编程语言、456.hmmer 基因序列搜索、464.h264ref 视频压缩更是Intel的传统强项。2.4GHz的Shanghai Opteron处理器性能比2.66GHz的Harptertown Xeon强的项目有:401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、462.libquantum 物理:量子计算、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理这7项,这些项目都因为AMD的直联架构而获益。
SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。
AMD Shanghai SPEC CPU 2006整数运算性能
Shanghai的得分为75.5,比Barcelona的63.1分高19.7%,和CPU主频差异相当,由于一定会受到其他环境的影响,系统性能的提升一定会不及同处理器的频率上的提升,因此这个一定程度上表明了Shanghai架构的微小优势。在测试当中,434.zeusmp 物理:计算流体力学(36.3%)、435.gromacs 生物化学/分子力学(29.8%)、447.dealII 有限元分析(36.2%)、465.tonto 量子化学(27.8%)、482.sphinx3 语音识别(45.9%)这5个项目的提升都很大,这些运算都从Shanghai L2/L3缓存架构的改进而获益。
和整数性能相反,Intel处理器的浮点性能在P4以来就被Athlon超过,现在的2.0GHz的Barcelona都能比2.66GHz Xeon强。只有在416.gamess 量子化学、435.gromacs 生物化学/分子力学、444.namd 生物/分子、453.povray 影像光线追踪、454.calculix 结构力学这5项当中Intel Xeon处于明显的优势。或许整天使用POV-RAY制作效果图的人应该选择Intel平台。
我们利用UNI-T UT71E智能数字万用表和相配套的软件对于对于被测服务器在几种不同的状态下的功耗进行了监测,主要包括如下项目:
P1:连接电源但不开机状态
P2:系统启动完毕,5分钟内无动作,但不休眠
P3:系统启动完毕,处理器满载、磁盘以最大吞吐量工作
功耗:Shanghai 2.4GHz VS Barcelona 2.0GHz
我们可以确实地得知Shanghai处理器可以同时具有高性能、低功耗的特点。虽然Opteron 2378和Opteron 2350它们的ACP(注意:和Intel的TDP是不同意思的)都是75W,不过频率更高的Shanghai Opteron 2378 2.4GHz在全速运转时候的功耗要比Barcelona Opteron 2350 2.0Ghz功耗每CPU低25W左右,频率相同的情况下差距更大,因此Shanghai宣称功耗降低35%并不是一个很夸张的数值。
由于系统架构的不同,因此和Intel的对比显得有些艰难,我们只打算大概对比一下,我们的DELL PE2900 III基准平台的大致配置是和Dawning A650相仿的,都是3个15000RPM硬盘的塔式服务器。我们可以认为,由于FBD内存以及系统散热需要的风扇功耗提升,Intel Xeon E5430平台(326.6W)要比Shanghai平台(284.1W)功耗高上一些。
【IT168评测中心】在使用R-ECC DDR2-667、HT Link 1.0的劣势下,AMD Shanghai上海处理器仍然在SPEC CPU 2006测试当中得到了性能上的提升,特别是整数性能上的提升,其中一些比较依赖于缓存设计的测试项目具有了接近50%的增益。我们可可以从以往的经验中得知缓存的增大对整数运算是有明显效果的(例如当年没有L2的Intel Celeron 300A的整数很弱,浮点却和带有L2的PII 300相差无几)。
AMD Shanghai/上海晶圆超级大图(2560x1742),包括了4个完整的四核上海CPU
同时AMD Shanghai处理器的功耗也确实得到了很明显的降低,比起Barcelona Opteron处理器更有优势,从整个平台来看也比Intel 45nm Xeon要好一些。我们可以期待明年带有HT3.0并配有DDR2 800内存的Shanghai处理器的表现(处理器间的通信带宽对性能是有较大的影响的,现在的Shanghai的处理之间只能用HT1.0通信,效能很受限制)。
架构图:Intel Nehalem VS AMD Shanghai
不过,明年Nehalem架构的服务器处理器也推出了,到时又将是一番恶战,到底鹿死谁手呢?且让我们拭目以待。