服务器 频道

AMD六核Istanbul 曙光四路服务器评测

  【IT168评测中心】在年中的时候(2009年6月1日,美国当地时间),AMD发布了其Shanghai/上海更新换代的产品:Istanbul/伊斯坦布尔,将核心数量从上海的四个全面升级到六个。到现在为止,Istanbul/伊斯坦布尔仍然是唯一的一个直联架构六核心服务器处理器。 


AMD 六核心Istanbul/伊斯坦布尔处理器,可以用于最高八路处理器架构

  虽然在国外Istanbul的现身很早,不过在国内仍然是非常迟的:直到现在才有正式的产品发布。10月底,我们拿到了DAWNING曙光推出的AMD六核心Istanbul服务器,型号为A840r-H。而在5月份的时候,我们就测试了同样是曙光推出的Intel六核心Dunnington服务器,型号为I840r-H,从型号上可见这两台机器有相当多的共同之处:它们都是四路八核心的服务器。


采用了六核心Istanbul/伊斯坦布尔处理器的曙光A840r-H

  而在桌面领域,Nehalem架构的六核心处理器Gulftown也已经现身,不过,我们仍然要说,Istanbul/伊斯坦布尔仍然具有它的特色:唯一的直联架构六核心多路服务器处理器。Intel的Dunnington是四路六核心服务器处理器,而且其基于教老的Penryn架构,仍然是三个双核处理器粘合而来,而Gulftown毕竟是桌面处理器。Intel真正6核心服务器处理器是Westmere-EP,不过是双路平台,八路八核心的Nehalem-EX才是Istanbul对应的产品,然而要留待明年初才会有实物推出。


AMD 45nm Shanghai/上海 Opteron 2378,和Istanbul共享一个基础架构 


Istanbul/伊斯坦布尔实物:AMD Opteron 8431处理器,频率2.4GHz,内置六个物理处理核心

  Istanbul/伊斯坦布尔继承了AMD处理器采用F1方程式赛车赛道命名的传统,它仍然采用了45nm SOI制程工艺,并且基于Shanghai核心。和上一代的Shanghai相比,Istanbul最大的变化就是核心数量的提升,并继续提高了Shanghai处理器上出现的HT3.0总线的速度(当然现在的Shanghai处理器未能实现HT3.0——因为芯片组的缘故)。  

Istanbul:原定路线图

   虽然核心架构变化不大,不过核心数量有了50%的增长,Istanbul的性能提升将会比较明显,后面我们就可以知道它的性能,现在我们先来温习一下这款最新的六核心处理器的各种细节,再仔细看看曙光的这台四路六核Istanbul机器。

 全国首发 AMD Shanghai/上海性能评测

曙光I840四路六核Dunnington服务器评测


直联架构:Istanbul与Nehalem-EP

  作为Shanghai的升级产品,Istanbul在架构/微架构方面都和上一代比较相似。


AMD Istanbul/伊斯坦布尔架构图


AMD Shanghai/上海架构图

 
AMD Barcelona/巴塞罗那架构图

  就图上看,很明显的一个提升是HT总线的速率:Shanghai是24GB/s,Istanbul是57.6GB/s,不过真实的情况是:Shanghai标的速率是基于HT 1.0,Istanbul是HT 3.0。Shanghai也能提供HT 3.0总线的支持,不过由于芯片组的缘故,只能使用HT 1.0。本来AMD打算Istanbul发布的时候同时推出新的芯片组,不过现在来看,提前发布的它也只能使用HT 1.0了。我们收到的A840r-H确实使用了NVIDIA的nForce 3600芯片组,而不是原定配合的AMD Fiorano芯片组。


Istanbul:原定路线图

Istanbul HT总线的速度是这样子的:频率为2.4GHz(Shanghai为2.0GHz,在HT 1.0的时候频率为1.0GHz),基于DDR(双倍数据速率)的情况下就是4.8GT/s(giga transfer per second),而HT总线位宽是16位,因此就是9.6GB/s;考虑到双向传输的话,Istanbul每条HT 3.0能提供19.2GB/s的带宽,三条总线就是57.6GB/s的最高双向传输总带宽。作为对比,Intel Nehalem-EP带有两条QPI总线,频率为3.2GHz,6.4GT/s,12.8GB/s单向、25.6GB/s双向,51.2GB/s总双向带宽,单条QPI总线比HTT要大一些,不过总的传输带宽低一点:Nehalem-EP面向的是双路平台;四路平台的Nehalem-EX具有四条QPI总线,从外部总线上,倒是Intel要胜上一筹。


AMD六核心Istanbul伊斯坦布尔架构猜想图,现实情况是,Istanbul具有5MB L3


AMD Shanghai/上海架构

 缓存的变化:


Shanghai Opteron 2378缓存架构

 


Istanbul Opteron 8431缓存架构

  值得一提的是Istanbul的缓存方面的变化,这个变化是在容量上。在架构上,Istanbul仍然是三层缓存,前面两层是独享,最后一层在所有核心中共享。

  容量上,Istanbul显得比较反常,因为四核心的Shanghai是6MB L3,Istanbul只有5MB,这样分到每个核心上就不足1MB了,其他层的缓存容量和Shanghai一致。为什么会具有更少的缓存呢?或许是为了降低一点缓存同步的压力。

 

 


AMD 六核心Istanbul/伊斯坦布尔处理器
 

AMD 六核心Istanbul/伊斯坦布尔处理器
 

AMD 六核心Istanbul/伊斯坦布尔处理器

AMD 六核心Istanbul/伊斯坦布尔处理器


AMD Shanghai/上海晶圆超级大图(2560x1742),包括了4个完整的四核上海CPU

 


Opteron 8431与Athlong II x4


AMD 六核心Istanbul/伊斯坦布尔处理器

  AMD 45nm Istanbul/伊斯坦布尔将会首先由GlobalFoundries公司生产,我们现在已经知道GlobalFoundries是AMD拆分出去的生产工厂成立的独立公司。拆分之后,AMD成为了一个Fabless的处理器设计公司。这个拆分应该有资产方面的因素,此外也有拓展生产工厂业务的考虑。现在GlobalFoundries的主顾除了AMD之外还有其他公司。


Computex 2009: GlobalFoundries展示的28nm SRAM Bulk, 32nm Test Chip SOI, 45nm Istanbul SOI

  在之前举行的台湾Computex 2009上,GlobalFoundries展示了45nm Istanbul晶圆(同时也展出了多种可以向AMD之外的客户提供的其它工艺)。IT168也派出了报道团参加:

台北电脑展盛大开幕 IT168派记者团赴台现场报 


GlobalFoundries 45nm Istanbul SOI Wafer
 

GlobalFoundries 45nm Istanbul SOI Wafer,你可以数一数每个CPU上面的核心数量

Diffused in Germany, Made in Malaysia
德国生产,马来西亚组装

  Istanbul晶圆由德国的Dresden德累斯顿的Fab 1 Module 1生产。

 


据称在相同的功耗下提升了30%的性能,至于“完美的执行”看一下就算了
 

  除了6个核心、双通道DDR2-800集成内存控制器和最多三条HT 3.0总线之外,Istanbul还提供了进化版的AMD-V 2.0,让“伊斯坦布尔”的虚拟化性能再度提升,并加入了新的AMD-P技术来更完美地控制处理器功耗,配合CoolCore和Smart Fetch技术可以限制内核功耗甚至关闭内核。

HT Assist:降低维持缓存一致性所需要的步骤,图上是从10个事务降低到只需要2个事务

HyperTransport  technology Assist (HT Assist):降低多个处理器之间的缓存探测,降低交通量,从而提升4路/8路服务器的性能,优化如数据库、虚拟化这样的缓存敏感应用以及计算密集型的应用。

缓存探测是什么?为了维护内容的一致性,在多个处理器共享的缓存内存必须要保持一致——也就是维持缓存一致性。在其中的一份页面被修改的时候,其他处理器通过“缓存探测”来检测到这个操作,从而进行维持一致性的举动。这个举动在不同的系统上可以不同,既可以是更新复制被修改过的的页面,也可以是使其他的副本无效。实际上,这个HT Assist和Intel 5000X芯片组上的Snoop Filter缓存功能是差不多的,只是它占用的是L3缓存,也因此在双路配置的时候,必须把HT Assist功能——通常BIOS里面叫做Probe Filter的选项关闭。

需要澄清的一点是,一些说法是使用HT Assist后四路系统内存带宽可以提升60%。不对,不是这样,只是在一些应用中具有这么高的提升,如图上所示的“STREAM Memory bandwidth,流操作内存带宽”。

Extended Migration扩展迁移:兼容所有的单核/双核/四核/六核处理器,允许虚拟机在不同系统之间进行自由迁移。


Intel VT-d:不是我不想用AMD的图,而是实在资料太少

AMD-Vi:I/O级别的虚拟化,允许多个虚拟机分别直接与I/O设备沟通(需要Fiorano平台:SR5690/SR5670芯片组),提供更好的设备隔离安全性和虚拟I/O性能。与Intel的VT-d有些类似,可以看这里:

从VT-x到VT-d Intel虚拟化技术发展蓝图

功耗:在功耗上,Istanbul/伊斯坦布尔虽然多了50%的核心,然而通过工艺上的进步,以及电源管理技术上的改进,最后仍然维持了和Shanghai处理器一致的ACP平均功耗,当然,对于这点,我们期望后面的测试可以给出准确的数值。

远程电源管理界面APML:提供一个远程监视、控制平台功耗的界面,无需进入BIOS调整。对于大规模数据中心来说,逐台服务器进入BIOS调整电源管理参数是很麻烦的,APML就是个很方便的解决方法。

服务器系统需要一颗处理器和BMC(管理处理器)来支持APML,并需要相关管理软件,我们也随A840r-H机器收到了曙光研发的电源管理软件。

 

AMD Istanbul/伊斯坦布尔规格表

名称

Opteron 2427Opteron 2431Opteron 2435Opteron 2439 SE Opteron 8431Opteron 8435Opteron 8439 SE
系列

双路

八路

主频

2.2GHz

2.4GHz

2.6GHz

2.8GHz

2.4GHz

2.6GHz

2.8GHz

HT频率

2.4GHz

HT速率

9.8GB/s(单向)
19.6GB/s(双向)

核心/线程

6/6

L2缓存

6x 512KB

L3缓存

5MB

ACP75W

  首先推出的Istanbul属两个系列:双路,以及八路(当然它们也能用于四路),型号分别是2427、2431、2435、2439 SE以及8431、8435、8439 SE,第一位数字表明面向多少路系统,第二位数字表明采用的插槽,虽然同样是Socket F 1207,不过规格和上一代23xx/83xx不同(如,支持DDR2 800等),最后两位数字代表着性能,更大的数字表示性能更强。额外的SE后缀是后来又推出的新版本,频率达到了2.8GHz。

 
Istanbul/伊斯坦布尔:AMD Opteron 8431处理器,频率2.4GHz,内置六个物理处理核心

  我们手上的A840r-H服务器使用的是8431。


早期的规格表上并没有2439 SE和8439 SE

  曙光A840r-H是一台5U高度的四路服务器。 


22个3.5"热插拔硬盘槽,可以提供充足的DAS存储能力

其实不要光驱的话,可以支持24个,具体看客户的选择

 

开关和指示灯都集中到左边去了

支持四个冗余电源,这方便的可靠性倒是不用担心

 


布局比较传统

通过中央的暴力风扇阵隔开两个空间

处理器-内存子系统占据了大部分的空间,电源则隐藏在主板下方

四个热插拔风扇

三个Etasis(亿泰兴)的冗余电源,Etasis主要做服务器电源,产品口碑很高

亿泰兴的特点是工艺水准非常高

 


Socket F 1207插槽以及CPU

 


AMD Opteron 8431,六核Istanbul

单条2GB的R-ECC DDR2 667内存

每个Opteron 8431支持两个内存通道,主板实现上曙光A840提供每内存通道两个DIMM,也就是整台服务器支持16个DIMM,每个DIMM插2GB的话,系统内存容量就达到了32GB;曙光这台服务器支持最多128GB内存

 


扩展插槽以及芯片组
扩展槽从上到下:PCIE x16、PCIE x8、四条PCI-X 100/133
芯片组从上到下:NVIDIA nForce PRO 3600、AMD8132

Intel网卡:FW82546GB,双口千兆,PCI-X 133MHz接口,带宽1GB/s,支持多种Offload技术

ATI显卡

基于LSI 1078 RoC芯片的阵列卡,八口

缓存

Seagate Cheetah 15K.6硬盘,15000RPM,SAS 3Gb/s接口

 


AMD的Fiorano芯片组还没有完全准备好,不过已经有样品了


主板构造,实际板型号和上图稍有不同:AIC-7902W芯片位置是空的

MCP55Pro,也就是nForce Pro 3600,曙光这台服务器四个Istanbul组成了正方形的架构,并通过两个CPU同时引出两个芯片组来提供较多的IO能力

  nForce Pro 3600的作用是提供PCI-E总线、SATA/PATA、USB能力,连接集成显卡和键盘鼠标,而AMD8132芯片的主要作用是提供两条PCI-X 133总线,每路总线提供两个64位PCI-X 133插槽。

  在2009年秋我们IT168评测中心网络实验室搬迁到新的机房之后,我们又对实验室的服务器测试平台进行了大幅度的升级,先是将已有的Cisco Catalyst 4506千兆交换机升级到3个模块,达到了一共120个千兆网络端口,还新购买了30台DELL PowerEdge T100服务器,配合原有的30台DELL PowerEdge SC430服务器以及30台PC作为网络测试的客户端,可以提供非常充足的测试压力。


网络实验室控制台

网络实验室机房

Cisco Catalyst 4506千兆交换机,120个千兆铜口

部分Dell PowerEdge SC430服务器

  在新的测试环境下,我们进一步完善了服务器性能测试方案:

  • SPEC CPU 2006 v1.0.1

  SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。

  SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。

  SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。

  SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。

  我们在被测服务器中安装了当前最新版本的Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler这两款SPEC CPU 2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(假如只支持SSE3,则使用QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。

  和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64bit Windows Server 2008 Enterprise下完成,对于每个运算核心,最低配置1.5GB内存。

  • SiSoftware Sandra v2009

  SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。

  • CineBench R10

  CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,在服务器测试平台中显示子系统不重要,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。

  • ScienceMark 2.0

  ScienceMark 2.0可以用来评估测试对象在执行科学计算时的运算效能,这部分效能主要和处理器子系统和内存子系统相关。我们主要用来评估测试对象的内存子系统的性能。

  • Iometer 2006.7.27

  Iometer是一款功能非常强大的IO测试软件,它除了可以在本机运行测试本机的IO(磁盘)性能之外,还提供了模拟网络应用的能力。在这次的测试中,我们仅仅让它在本机运行测试服务器的磁盘性能。为了全面测试被测服务器的IO性能,我们分别选择了不同的测试脚本。

  • Max_throughput(read):文件尺寸为64KB,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取吞吐量

  • Max_IO(read):文件尺寸为512B,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取操作IO处理能力

  • Max_throughput(write):文件尺寸为64KB,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入吞吐量

  • Max_IO(write):文件尺寸为512B,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入操作IO处理能力

  • 系统功耗监测

  我们使用UNI-T UT71E智能数字万用表对于被测服务器系统的整体功耗进行了监测,利用随机附带的接口程序,我们可以记录被测服务器任意时间段内的功率变化。

 

测试平台、测试环境
测试分组
类别
Dawning A840r-H服务器
处理器子系统
处理器
四路AMD Istanbul
Opteron 8431
处理器架构
AMD 45nm Istanbul
处理器代号
Istanbul
处理器封装
Socket F 1207
处理器规格
六核
处理器指令集
MMX,3DNow!,SSE,SSE2,SSE3,SSE4A,x86-64
主频2.40GHz
处理器外部总线HTL:2400MHz
L1 D-Cache
6x 64KB
2路集合关联
L1 I-Cache
6x 64KB
2路集合关联
L2 Cache
6x 512KB
16路集合关联
L3 Cache
5MB
48路集合关联
主板型号
nForce PRO 3600
北桥芯片组(MCH)
NVIDIA nForce PRO 3600
北桥芯片特性-
内存控制器
CPU集成双通道DDR2-800
2GB R-ECC DDR2 667 SDRAM x16
系统磁盘子系统
磁盘控制器
LSI MegaRAID SAS Controller
磁盘控制器规格
SAS 3Gb/s
磁盘控制器设置
RAID 5
磁盘控制器驱动
LSI MegaRAID SAS
3.8.0.32
磁盘
Seagate
Cheetah 15K.5 *4
磁盘规格
15000RPM
147GB
SAS 6Gbps
16MB Cache
磁盘设置
SAS 6Gbps
50GB系统分区
网络子系统
NVIDIA nForce Pro 3600 integrated MAC with Marvell 88E1121 PHY GbE Controller x2
网卡设置
ForceWare Teaming
Load Balancing
网卡驱动
NVIDIA NIC/LAN v67.76.1
软件环境
操作系统
Microsoft
Windows Server 2008 R2 Datacenter Edition (64bit)

   对于一台四路服务器来说,曙光A840r-H的配置堪称主流,32GB内存容量看起来不少,但是考虑到服务器的24个核心,实际上单颗核心的内存占用并不多。磁盘性能和安全方面,曙光A840r-H提供了4块希捷Cheetah 15K.5 硬盘,通过阵列卡组建RAID 5阵列。软件方面我们使用了当前最新的64位Windows Server 2008 R2数据中心版。


系统架构如图所示:MCP55Pro,也就是nForce Pro 3600

  可以说,AMD的插槽策略还是不错的,例如,曙光这台服务器使用的旧Socket F 1207主板就能支持使用Istanbul。但是,这种完美的兼容性也暴露了主板/芯片组能力不足的弱点,如上图所示,缺点在于三处地方:

  首先是内存带宽,虽然由于AMD K8开始的处理器都集成了内存控制器的缘故,它和芯片组关系不大,但是目前为止,所有的主板上都只能支持到DDR2 667,尽管Shanghai/上海处理器就已经可以支持DDR2 800,然而笔者未见过有多少机器提供支持。CPU只能支持双通道内存也会对系统性能有一些限制,不过它倒是和芯片组彻底的没有关系。

  其次是HT Link带宽,HT Link连接四个Istanbul处理器,同时也连接着两个芯片组AMD8132和MCP55Pro,HTL刚出现时携带着直联架构相比之前的架构确实具有很明显的优势,然而时至今日服务器平台上HTL还保持着就和第一代差不多的频率、带宽就显得不妙了。HT影响着处理器间交换数据的效率,以及处理器和系统IO交换数据的效率,对于服务器特别是多路服务器来说,非常重要。


Intel QPI,连接处理器与芯片组以及连接处理器与处理器

  最后的一个问题比较复杂,就是在AMD架构上,通常会通过HT Link连接多个多个外部IO芯片组,如A840r-H上就同时连接了一个AMD8132和一个MCP55Pro,前者主要用于提供PCI-X接口,后者用于提供PCI-E接口以及连接低速设备,它们存在的问题就是,两边总线上的设备需要交换数据的时候,就需要经过两个CPU的接力。在竞争对手的平台上,其芯片组提供了非常强的连接能力,一方面提供了多个连接CPU或者其它芯片组的总线(如提供两条QPI),一方面提供了充足的IO总线(如36 PCIe 2.0 Lanes),前者可以避免CPU要经过某一个“大门”CPU才能访问IO设备,后者则可以避免了IO设备需要多个CPU接力导致路经过长情况。


AMD Fiorano平台

  至今犹抱琵琶半遮面的Fiorano平台可以解决大部分的问题,它可以提供非常充足的PCIE带宽(共42 PCIe 2.0 Lanes),并且使用HTL 3.0总线,唯一的缺点就是仍然只能同时链接一个CPU。

  SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。 

SiSoftware Sandra Pro Business 2009
测试对象
Dawning A840r-H服务器
四路AMD Istanbul
Opteron 8431
2.40GHz
Dawning I840-H服务器
四路Intel Dunnington
Xeon X7460
2.66GHz
Intel Nehalem-EP
双路Intel Gainestown
Xeon X5570
2.93GHz
Dawning A650
双路AMD Shanghai
Operton 2378
2.40GHz
Processor Arithmetic Benchmark
处理器架构测试
Dhrystone ALU
211695MIPS
292201MIPS
142977MIPS
63082MIPS
Dhrystone ALU vs SPEED
87.77MIPS/MHz
109.85MIPS/MHz
48.75MIPS/MHz
26.28MIPS/MHz
Whetstone iSSE3
167557MFLOPS
208685MFLOPS
124035MFLOPS
62993MFLOPS
Dhrystone iSSE3 vs SPEED
69.47MFLOPS/MHz
78.45MFLOPS/MHz
42.29MFLOPS/MHz
26.25MFLOPS/MHz
Processor Multi-Media Benchmark
处理器多媒体测试
Multi-Media Int x16 iSSE4.1
 753.51MPixel/s
296.85MPixel/s
 
Multi-Media Int x16 aSSE2
662.65MPixel/s  
 
Multi-Media Int x8 aSSE2
  
 
187.70MPixel/s
Multi-Media Float x8 iSSE2
406.78MPixel/s501.36MPixel/s
228.24MPixel/s
 
Multi-Media Float x4 iSSE2
  
 
81.53MPixel/s
Multi-Media Double x4 iSSE2
222.88MPixel/s260.18MPixel/s
125.88MPixel/s
 
Multi-Media Double x2 iSSE2
  
 
44.51MPixel/s
Multi-Core Efficiency Benchmark
Inter-Core Bandwidth
20.04GB/s12.88GB/s
75.61GB/s
6.54GB/s
Inter-Core Latency
(越小越好)
129ns110ns
16ns
128ns
.NET Arithmetic Benchmark
.NET架构测试
Dhrystone .NET
75897MIPS
75397MIPS
32904MIPS
12736MIPS
Whetstone .NET
78554MFLOPS
136088MFLOPS
78286MFLOPS
38737MFLOPS
.NET Multi-Media Benchmark
.NET多媒体测试
Multi-Media Int x1 .NET
101.29MPixel/s
119.30MPixel/s
62.28MPixel/s
24.48MPixel/s
Multi-Media Float x1 .NET
18.12MPixel/s
31.74MPixel/s
26.19MPixel/s
5.29MPixel/s
Multi-Media Double x1 .NET
57.83MPixel/s
58.72MPixel/s
51.45MPixel/s
21.31MPixel/s

  从SiSoftware的结果来看,Istanbul具有比较强劲的总体性能:四路,六核心。在和同样四路六核心的Dunnington对比的时候,由于频率稍低,最后性能也低一些,整数上Istanbul是Dunnington的72%,浮点是80%,可见AMD的K10架构在对比Dunnington的变异Core架构的时候还是浮点上要突出一些。在考虑频率因素之后,Istanbul架构效率略不如Dunnington,部分地是由于较老的芯片组,和我们测试Shanghai处理器的时候没有变化,内存规格也是。从多核心效率测试上也可以看出来,Istanbul的核间带宽高于通常的Core架构,但是远不及Nehalem。Fiorano快点出来吧……

 

SiSoftware Sandra Pro Business 2009
测试对象
Dawning A840r-H服务器
四路AMD Istanbul
Opteron 8431
2.40GHz
Dawning I840-H服务器
四路Intel Dunnington
Xeon X7460
2.66GHz
Intel Nehalem-EP
双路Intel Gainestown
Xeon X5570
2.93GHz
Dawning A650
双路AMD Shanghai
Operton 2378
2.40GHz
Memory Bandwidth Benchmark
内存带宽测试
Int Buff'd iSSE2 Memory Bandwidth
35.72GB/s
3.49GB/s
16.93GB/s
16.59GB/s
Float Buff'd iSSE2 Memory Bandwidth
35.68GB/s
3.50GB/s
16.90GB/s
16.58GB/s
Memory Latency Benchmark
内存延迟测试
Memory(Random Access) Latency
(越小越好)
104ns
 
81ns
106ns
Speed Factor
(越小越好)
81.60
 
61.40
83.80
Internal Data Cache
3clocks
 
4clocks
3clocks
L2 On-board Cache
16clocks
 
10clocks
16clocks
L3 On-board Cache
58clocks
 
48clocks
58clocks
Cache and Memory Benchmark
缓存及内存测试
Cache/Memory Bandwidth
226.67GB/s
 
143.24GB/s
77.08GB/s
Speed Factor
(越小越好)
46.30
 
20.90
36.00
Internal Data Cache
829.64GB/s
 
448.46GB/s
299.00GB/s
L2 On-board Cache
419.50GB/s
 
421.42GB/s
162.91GB/s
L3 On-board Cache
219.68GB/s
   

  四路Istanbul平台总共具有8个DDR2内存通道,使用的内存规格是DDR2 667,其带宽比双路Nehalem-EP的6个DDR3通道以及四路Dunnington的4个FBD DDR2都要高不少。在内存上,各个方面看,Istanbul和Shanghai都很相似。最后,我们发现,在Internal Data Cache性能上,Istanbul的成绩非常高,比其他平台都要高很多。

  CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,在服务器测试平台中显示子系统不重要,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。


Opteron 8431处理器测试成绩

CineBench R10
处理器Dawning A840r-H服务器
四路AMD Istanbul
Opteron 8431
Dawning I840-H服务器
四路Intel Dunnington
Xeon X7460
双路Intel Gainestown
Xeon X5570
双路AMD Shanghai
Operton 2378
显卡----
CPU Benchmark
Rendering (1 CPU)2774 CB-CPU3280 CB-CPU4410 CB-CPU1797 CB-CPU
Rendering (x CPU)25996 CB-CPU31144 CB-CPU28172 CB-CPU10734 CB-CPU
Multiprocessor Speedup9.37x9.50x6.39x5.97x
OpenGL Benchmark
OpenGL Standard137 CB-GFX193 CB-GFX224 CB-GFX98 CB-GFX

  这里我们主要观察处理器性能的差异。在单个CPU核心性能上,Istanbul比起Shanghai有了明显的进步,但是和Dunnington和Nehalem-EP都有一定差距。单核心Istanbul大概是Dunnington的85%左右,而频率上Istanbul是Dunnington的90%,因此效率上略有不及,和前面一样,系统架构要负上一定责任。

  我们使用了最新的Windows Server 2008 R2操作系统,它对NUMA架构的支持会更好,同时其内核在任务调度方面,以及系统网络堆栈方面都有了改进,更适合四路及多路NUMA架构的服务器使用。然而,在进行网络测试的时候,碰到了一个问题,A840r-H使用的是双82546GB网卡,如下图所示:


Intel网卡:FW82546GB,双口千兆,PCI-X 133MHz接口,带宽1GB/s,支持多种Offload技术

  这个网卡在较早期的驱动中不能支持在Windows Server 2008 R2下进行端口聚合,因此严重影响到网络性能测试,一直到最新的14.8.3驱动,才提供了端口聚合。


扩展槽从上到下:PCIE x16、PCIE x8、四条PCI-X 100/133

  在新驱动出来之前,笔者倒是想过使用我们备有的多块网卡,不过一看扩展槽:只有两个PCIE插槽,其中一个被SAS HBA卡占用了,而我们并没有双口的网卡,也没有PCI-X网卡,只能作罢。这个情况的出现表明了AMD老旧的服务器芯片组平台已经不合时宜了。

  NetBench 7.03 Ent_dm.tst测试脚本模拟的是企业级文件服务器应用,它不但要求被测服务器的磁盘子系统可以提供足够的吞吐量,还需要其具有较高的IO处理能力,并且需要较为平衡的读取能力和写入能力。

  不过,就现状来看,将四路服务器用作文件服务器并不多见,兼任倒是很有可能。就笔者接触的经销商来看,买四路服务器回去搭建虚拟化应用是很常见的,在这些虚拟化应用上,有可能跑一个文件服务器。

  从结果来看,其表现不错:峰值吞吐量达到了1536Mbps,也可以理解为192MB/s。

  Web服务器测试分为静态应用测试和动态应用测试,处理器计算能力、缓存内存效能则对于动态应用的性能有明显影响,而IO能力对于静态应用的性能有明显的影响。

  Web服务器使用了Windows Server 2008 R2自带的IIS 7.5。


动态处理能力

  动态页面更多的是消耗处理器资源,我们可以看出四路六核的优势,处理能力达到了17000 RPS,而我们的基准双路四核服务器只有不到7000。被测平台性能大致上是基准平台的三倍不到,和处理器核心数量的比值差不多。


静态处理能力

  静态页面则更多受限于网络带宽——它的处理比较不占CPU。测试结果差不多是考验网卡的能力,可以看到,A840r-H的性能比基准平台只高了一点。老实说,如果我们有PCI-X接口的独立82546GB网卡的话,A840r-H将可以提供很好的测试成绩。但是我们并没有这么老的产品……


AMD 六核心Istanbul/伊斯坦布尔处理器,可以用于最高八路处理器架构

  【IT168评测中心】从处理器架构来看,Istanbul/伊斯坦布尔就是一个增加了50%核心的Shanghai/上海处理器,并且可以直接兼容旧有的平台,可以进行无缝升级。此外还有一些小的改进。 


采用了六核心Istanbul/伊斯坦布尔处理器的曙光A840r-H

  一般的旧平台通过升级BIOS就可以支持Istanbul,这确实是一个优点,旧的服务器或者工作站可以很方便地提升不少性能。但是,我们也发现,虽然能使用旧平台是一件好事,不过旧平台也限制了新处理器的发挥,实际上,Shanghai/上海处理器推出时就受到了这个限制,并且到现在仍然存在。AMD迫切需要推出新的芯片组:Fiorano。


AMD Fiorano平台

 全国首发 AMD Shanghai/上海性能评测

曙光I840四路六核Dunnington服务器评测

2
相关文章