服务器 频道

AMD Shanghai SPEC CPU运算效能评测

  【IT168评测中心】我们IT168已经有许多关于AMD新一代45nm Shanghai处理器的报道了,同时也进行了相关方面的评测,例如进行理论性能上的测试分析,以及实际应用类如SQL Server等的测试。

代号上海 AMD新一代处理器真芯实录

全国首发 AMD Shanghai/上海性能评测

  AMD Shanghai/上海处理器,采用了45nm工艺制程(这也是AMD CPU第一次采用45nm),集成了7.05亿晶体管,拥有共享6M的三级缓存,增强的双通道内存控制器可以同时支持DDR2内存和DDR3内存,内置了4条Hyper Transport总线以支持组建大规模并行系统,“上海”还支持AMD的快速虚拟化索引(RVI)的AMD-V虚拟化技术,同时具备48位物理寻址能力,寻址空间可以达到(256TB)。


AMD 45nm Shanghai/上海 Opteron 2378实物照

   今次我们进行的测试是SPEC CPU 2006,SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准,SPEC CPU测试被众多厂商、机构广泛地应用在进行系统运算性能的测试、评分上。

SPEC CPU2006 v1.01

  SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。

  SPEC CPU 2006是SPEC组织推出的专门用来评估CPU子系统性能的测试软件,它目前版本为1.1,包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能。

  SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。


SPEC CPU 2006总共包含了29个主要测试项目,最后两个specrand目录乃是SPEC自身的一部分 

  SPEC测试代表了绝大多CPU密集型的运算,包括编程语言、压缩、人工智能、基因序列搜索、视频压缩及各种力学的计算等,包含了多种科学计算,可以用来衡量系统执行这些任务的快慢。SPEC测试包括了浮点(fp)与整数运算(int)两大部分。

  为了运行SPEC CPU 2006测试,我们统一安装了Windows Server 2008 Enterprise x64 Edition SP1操作系统,在主流的x64处理器下,原生64应用要比32位下快。我们还安装了Visual Studio 2005 SP1、Intel C++/Fortran Compiler 10.0.025编译器,对于Intel处理器,我们使用了QxS对SSE4指令集进行了优化,而对于AMD Barcelona/Shanghai处理器,则使用了QxO选项对SSE3指令集进行优化(它们不支持SSE4指令集)。编译时未使用SmartHeap商业优化库。


不仅仅测试耗时,对测试组件进行编译也很花时间。这个过程其实也能体现了系统的快慢

 

  在一个计算系统中,CPU子系统是影响最大的,而内存子系统和C/C++/Fortran语言编译器都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2000的影响比较小。运行SPEC CPU 2006测试需要大量的内存和较多的磁盘空间。

  我们测试的平台仍然和全国首发 AMD Shanghai/上海性能评测中的一样,基于于一台曙光A650服务器,其原配的是双路Barcelona Opteron 2350处理器,测试结果并会与我们IT168评测中心的DELL PowerEdge 2900 III服务器进行对比,测试对比平台的详细参数如下: 

测试平台、测试环境
测试分组
类别
Dawning A650服务器
双路AMD Shanghai
Opteron 2378
Dawning AS650服务器
双路AMD Barcelona
Opteron 2350
双路Xeon E5430基准平台
DELL PE2900 III服务器
处理器子系统
处理器
双路AMD Shanghai
Opteron 2378
双路AMD Barcelona
Opteron 2350
双路Intel Xeon E5430
处理器架构
AMD 45nm ShanghaiAMD 65nm BarcelonaIntel 45nm Penryn
处理器代号
ShanghaiBarcelonaHarpertown
处理器封装
Socket F 1207Socket F 1207Socke 771 LGA
处理器规格
四核四核四核
处理器指令集
MMX,3DNow!,SSE,SSE2,SSE3,SSE4A,x86-64MMX,3DNow!,SSE,SSE2,SSE3,SSE4A,x86-64MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,EM64T,VT
主频2.40GHz2.00GHz2.66GHz
处理器外部总线HTL:1000MHzHTL:1000MHz
 
FSB:1333MHz
L1 D-Cache
4x 64KB
2路集合关联
4x 64KB
2路集合关联
4x 32KB
8路集合关联
L1 I-Cache
4x 64KB
2路集合关联
4x 64KB
2路集合关联
4x 32KB
8路集合关联
L2 Cache
2x 512KB
16路集合关联
2x 512KB
16路集合关联
2x 6144KB
16路集合关联
L3 Cache
6MB
48路集合关联
2MB
32路集合关联
 
主板
主板型号
Tyan S2932-E
Tyan S2932-E
DELL PE2900 III
北桥芯片组(MCH)
NVIDIA nForce PRO 3600NVIDIA nForce PRO 3600Intel 5000X
北桥芯片特性--12MB Snoop Filter
内存控制器
每CPU集成双通道DDR2-800每CPU集成双通道DDR2-667北桥集成四通道FBD DDR2
内存
2GB R-ECC DDR2 667 SDRAM x4
1GB R-ECC DDR2 667 SDRAM x4
2GB R-ECC DDR2 667 SDRAM x4
1GB R-ECC DDR2 667 SDRAM x4
2GB FBD DDR2 667 SDRAM x8
系统磁盘子系统
磁盘控制器
LSI MegaRAID SAS Controller
LSI MegaRAID SAS 8208ELP Controller
DELL Perc 5/i RAID Controller
磁盘控制器规格
SAS 3GbpsSAS 3GbpsSAS 3Gbps
磁盘控制器设置
RAID 5
RAID 5
RAID 5
磁盘控制器驱动
LSI MegaRAID SAS
3.8.0.32
LSI MegaRAID SAS
3.8.0.32
LSI SAS
3.8.0.32
磁盘
Fujitsu
MBA3147RC x3
Fujitsu
MBA3147RC x3
Seagate
Cheetah 15K.5
ST314655SS x3
磁盘规格
15000RPM
147GB
SAS 3Gbps
16MB Cache
15000RPM
147GB
SAS 3Gbps
16MB Cache
15000RPM
146GB
SAS 3Gbps
16MB Cache
磁盘设置
SATA 3Gbps
30GB系统分区
SATA 3Gbps
30GB系统分区
SAS 3Gbps
20GB系统分区
网络子系统
网卡
NVIDIA nForce Pro 3600 integrated MAC with Marvell 88E1121 PHY GbE Controller x2NVIDIA nForce Pro 3600 integrated MAC with Marvell 88E1121 PHY GbE Controller x2Broadcom BCM5708C
PCI-E千兆网卡 x2
网卡设置
ForceWare Teaming
Load Balancing
ForceWare Teaming
Load Balancing
Broadcom NIC Teaming
Load Balancing
网卡驱动
NVIDIA NIC/LAN v67.76.1NVIDIA NIC/LAN v67.76.1Broadcom NetXtreme 2
11.04.01
软件环境
操作系统
Microsoft
Windows Server 2008
Enterprise x64 Edition SP1
Microsoft
Windows Server 2008
Enterprise x64 Edition SP1
Microsoft
Windows Server 2008
Enterprise x64 Edition SP1

   和上一次测试不同的是,64位环境下的SPEC CPU 2006测试要求每一个测试进程都搭配1.5GB以上的内存,每个内核一个测试线程,总共就需要12GB以上的内存,因此我们将A650平台的内存增加到12GB,将DELL基准平台的内存增加到16GB,并保持双通道的设置不变。测试表明,12GB以上的内存对性能没有影响。

  有两处地方需要特别注明,首先是:Shanghai处理器支持R-ECC DDR2-800内存,而曙光A650服务器搭配的只是R-ECC DDR2-667内存,性能上会有所差异。尚不清楚Tyan S2932-E能否使用R-ECC DDR2-800内存。

  其次,DELL基准平台基于Intel 5000X芯片组,带有12MB Snoop Filter缓存,它可以提升在内存密集型计算方面的效率,比起主流的Intel 5000P芯片组具有比较明显的优势。

   SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。


AMD Shanghai SPEC CPU 2006整数运算性能

  Shanghai的得分为81.7,比Barcelona的65.7分高24.4%,CPU的主频率高20%,可知在环境完全一致的情况下Shanghai的IPC性能比起Barcelona来要提升了。在测试当中,400.perlbench PERL编程语言(29.3%)、401.bzip2 压缩(46.6%)、403.gcc C编译器(30.9%)、464.h264ref 视频压缩(28.5%)、473.astar 寻路算法(25.6%)、483.xalancbmk XML处理(24.4%)共6项的提升都很明显,前面4个项目都是跟Shanghai L2/L3缓存架构的改进而密切相关的。

  此外,整数运算自P4以来都是Intel的强项(例如,P4的ALU整数运算单元的频率是CPU主频的两倍),因此2.4GHz的Shanghai Opteron处理器性能比2.66GHz的Harptertown Xeon高不了太多,而400.perlbench PERL编程语言、456.hmmer 基因序列搜索、464.h264ref 视频压缩更是Intel的传统强项。2.4GHz的Shanghai Opteron处理器性能比2.66GHz的Harptertown Xeon强的项目有:401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、462.libquantum 物理:量子计算、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理这7项,这些项目都因为AMD的直联架构而获益。

  SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。


AMD Shanghai SPEC CPU 2006整数运算性能

   Shanghai的得分为75.5,比Barcelona的63.1分高19.7%,和CPU主频差异相当,由于一定会受到其他环境的影响,系统性能的提升一定会不及同处理器的频率上的提升,因此这个一定程度上表明了Shanghai架构的微小优势。在测试当中,434.zeusmp 物理:计算流体力学(36.3%)、435.gromacs 生物化学/分子力学(29.8%)、447.dealII 有限元分析(36.2%)、465.tonto 量子化学(27.8%)、482.sphinx3 语音识别(45.9%)这5个项目的提升都很大,这些运算都从Shanghai L2/L3缓存架构的改进而获益。

  和整数性能相反,Intel处理器的浮点性能在P4以来就被Athlon超过,现在的2.0GHz的Barcelona都能比2.66GHz Xeon强。只有在416.gamess 量子化学、435.gromacs 生物化学/分子力学、444.namd 生物/分子、453.povray 影像光线追踪、454.calculix 结构力学这5项当中Intel Xeon处于明显的优势。或许整天使用POV-RAY制作效果图的人应该选择Intel平台。

  我们利用UNI-T UT71E智能数字万用表和相配套的软件对于对于被测服务器在几种不同的状态下的功耗进行了监测,主要包括如下项目:

  • P1:连接电源但不开机状态

  • P2:系统启动完毕,5分钟内无动作,但不休眠

  • P3:系统启动完毕,处理器满载、磁盘以最大吞吐量工作

 
功耗:Shanghai 2.4GHz VS Barcelona 2.0GHz

  我们可以确实地得知Shanghai处理器可以同时具有高性能、低功耗的特点。虽然Opteron 2378和Opteron 2350它们的ACP(注意:和Intel的TDP是不同意思的)都是75W,不过频率更高的Shanghai Opteron 2378 2.4GHz在全速运转时候的功耗要比Barcelona Opteron 2350 2.0Ghz功耗每CPU低25W左右,频率相同的情况下差距更大,因此Shanghai宣称功耗降低35%并不是一个很夸张的数值。


Intel平台的功耗示例

  由于系统架构的不同,因此和Intel的对比显得有些艰难,我们只打算大概对比一下,我们的DELL PE2900 III基准平台的大致配置是和Dawning A650相仿的,都是3个15000RPM硬盘的塔式服务器。我们可以认为,由于FBD内存以及系统散热需要的风扇功耗提升,Intel Xeon E5430平台(326.6W)要比Shanghai平台(284.1W)功耗高上一些。

  【IT168评测中心】在使用R-ECC DDR2-667、HT Link 1.0的劣势下,AMD Shanghai上海处理器仍然在SPEC CPU 2006测试当中得到了性能上的提升,特别是整数性能上的提升,其中一些比较依赖于缓存设计的测试项目具有了接近50%的增益。我们可可以从以往的经验中得知缓存的增大对整数运算是有明显效果的(例如当年没有L2的Intel Celeron 300A的整数很弱,浮点却和带有L2的PII 300相差无几)。


AMD Shanghai/上海晶圆超级大图(2560x1742),包括了4个完整的四核上海CPU

  同时AMD Shanghai处理器的功耗也确实得到了很明显的降低,比起Barcelona Opteron处理器更有优势,从整个平台来看也比Intel 45nm Xeon要好一些。我们可以期待明年带有HT3.0并配有DDR2 800内存的Shanghai处理器的表现(处理器间的通信带宽对性能是有较大的影响的,现在的Shanghai的处理之间只能用HT1.0通信,效能很受限制)。


架构图:Intel Nehalem VS AMD Shanghai

  不过,明年Nehalem架构的服务器处理器也推出了,到时又将是一番恶战,到底鹿死谁手呢?且让我们拭目以待。

0
相关文章