【IT168评测中心】在年中的时候(2009年6月1日,美国当地时间),AMD发布了其Shanghai/上海更新换代的产品:Istanbul/伊斯坦布尔,将核心数量从上海的四个全面升级到六个。到现在为止,Istanbul/伊斯坦布尔仍然是唯一的一个直联架构六核心服务器处理器。
虽然在国外Istanbul的现身很早,不过在国内仍然是非常迟的:直到现在才有正式的产品发布。10月底,我们拿到了DAWNING曙光推出的AMD六核心Istanbul服务器,型号为A840r-H。而在5月份的时候,我们就测试了同样是曙光推出的Intel六核心Dunnington服务器,型号为I840r-H,从型号上可见这两台机器有相当多的共同之处:它们都是四路八核心的服务器。
而在桌面领域,Nehalem架构的六核心处理器Gulftown也已经现身,不过,我们仍然要说,Istanbul/伊斯坦布尔仍然具有它的特色:唯一的直联架构六核心多路服务器处理器。Intel的Dunnington是四路六核心服务器处理器,而且其基于教老的Penryn架构,仍然是三个双核处理器粘合而来,而Gulftown毕竟是桌面处理器。Intel真正6核心服务器处理器是Westmere-EP,不过是双路平台,八路八核心的Nehalem-EX才是Istanbul对应的产品,然而要留待明年初才会有实物推出。
AMD 45nm Shanghai/上海 Opteron 2378,和Istanbul共享一个基础架构
Istanbul/伊斯坦布尔继承了AMD处理器采用F1方程式赛车赛道命名的传统,它仍然采用了45nm SOI制程工艺,并且基于Shanghai核心。和上一代的Shanghai相比,Istanbul最大的变化就是核心数量的提升,并继续提高了Shanghai处理器上出现的HT3.0总线的速度(当然现在的Shanghai处理器未能实现HT3.0——因为芯片组的缘故)。
虽然核心架构变化不大,不过核心数量有了50%的增长,Istanbul的性能提升将会比较明显,后面我们就可以知道它的性能,现在我们先来温习一下这款最新的六核心处理器的各种细节,再仔细看看曙光的这台四路六核Istanbul机器。
作为Shanghai的升级产品,Istanbul在架构/微架构方面都和上一代比较相似。
AMD Barcelona/巴塞罗那架构图
就图上看,很明显的一个提升是HT总线的速率:Shanghai是24GB/s,Istanbul是57.6GB/s,不过真实的情况是:Shanghai标的速率是基于HT 1.0,Istanbul是HT 3.0。Shanghai也能提供HT 3.0总线的支持,不过由于芯片组的缘故,只能使用HT 1.0。本来AMD打算Istanbul发布的时候同时推出新的芯片组,不过现在来看,提前发布的它也只能使用HT 1.0了。我们收到的A840r-H确实使用了NVIDIA的nForce 3600芯片组,而不是原定配合的AMD Fiorano芯片组。
Istanbul:原定路线图
Istanbul HT总线的速度是这样子的:频率为2.4GHz(Shanghai为2.0GHz,在HT 1.0的时候频率为1.0GHz),基于DDR(双倍数据速率)的情况下就是4.8GT/s(giga transfer per second),而HT总线位宽是16位,因此就是9.6GB/s;考虑到双向传输的话,Istanbul每条HT 3.0能提供19.2GB/s的带宽,三条总线就是57.6GB/s的最高双向传输总带宽。作为对比,Intel Nehalem-EP带有两条QPI总线,频率为3.2GHz,6.4GT/s,12.8GB/s单向、25.6GB/s双向,51.2GB/s总双向带宽,单条QPI总线比HTT要大一些,不过总的传输带宽低一点:Nehalem-EP面向的是双路平台;四路平台的Nehalem-EX具有四条QPI总线,从外部总线上,倒是Intel要胜上一筹。
AMD六核心Istanbul伊斯坦布尔架构猜想图,现实情况是,Istanbul具有5MB L3
缓存的变化:
Shanghai Opteron 2378缓存架构
Istanbul Opteron 8431缓存架构
值得一提的是Istanbul的缓存方面的变化,这个变化是在容量上。在架构上,Istanbul仍然是三层缓存,前面两层是独享,最后一层在所有核心中共享。
容量上,Istanbul显得比较反常,因为四核心的Shanghai是6MB L3,Istanbul只有5MB,这样分到每个核心上就不足1MB了,其他层的缓存容量和Shanghai一致。为什么会具有更少的缓存呢?或许是为了降低一点缓存同步的压力。
AMD Shanghai/上海晶圆超级大图(2560x1742),包括了4个完整的四核上海CPU
AMD 六核心Istanbul/伊斯坦布尔处理器
AMD 45nm Istanbul/伊斯坦布尔将会首先由GlobalFoundries公司生产,我们现在已经知道GlobalFoundries是AMD拆分出去的生产工厂成立的独立公司。拆分之后,AMD成为了一个Fabless的处理器设计公司。这个拆分应该有资产方面的因素,此外也有拓展生产工厂业务的考虑。现在GlobalFoundries的主顾除了AMD之外还有其他公司。
Computex 2009: GlobalFoundries展示的28nm SRAM Bulk, 32nm Test Chip SOI, 45nm Istanbul SOI
在之前举行的台湾Computex 2009上,GlobalFoundries展示了45nm Istanbul晶圆(同时也展出了多种可以向AMD之外的客户提供的其它工艺)。IT168也派出了报道团参加:
GlobalFoundries 45nm Istanbul SOI Wafer
GlobalFoundries 45nm Istanbul SOI Wafer,你可以数一数每个CPU上面的核心数量
Istanbul晶圆由德国的Dresden德累斯顿的Fab 1 Module 1生产。
据称在相同的功耗下提升了30%的性能,至于“完美的执行”看一下就算了
除了6个核心、双通道DDR2-800集成内存控制器和最多三条HT 3.0总线之外,Istanbul还提供了进化版的AMD-V 2.0,让“伊斯坦布尔”的虚拟化性能再度提升,并加入了新的AMD-P技术来更完美地控制处理器功耗,配合CoolCore和Smart Fetch技术可以限制内核功耗甚至关闭内核。
HyperTransport technology Assist (HT Assist):降低多个处理器之间的缓存探测,降低交通量,从而提升4路/8路服务器的性能,优化如数据库、虚拟化这样的缓存敏感应用以及计算密集型的应用。
缓存探测是什么?为了维护内容的一致性,在多个处理器共享的缓存内存必须要保持一致——也就是维持缓存一致性。在其中的一份页面被修改的时候,其他处理器通过“缓存探测”来检测到这个操作,从而进行维持一致性的举动。这个举动在不同的系统上可以不同,既可以是更新复制被修改过的的页面,也可以是使其他的副本无效。实际上,这个HT Assist和Intel 5000X芯片组上的Snoop Filter缓存功能是差不多的,只是它占用的是L3缓存,也因此在双路配置的时候,必须把HT Assist功能——通常BIOS里面叫做Probe Filter的选项关闭。
需要澄清的一点是,一些说法是使用HT Assist后四路系统内存带宽可以提升60%。不对,不是这样,只是在一些应用中具有这么高的提升,如图上所示的“STREAM Memory bandwidth,流操作内存带宽”。
Extended Migration扩展迁移:兼容所有的单核/双核/四核/六核处理器,允许虚拟机在不同系统之间进行自由迁移。
Intel VT-d:不是我不想用AMD的图,而是实在资料太少
AMD-Vi:I/O级别的虚拟化,允许多个虚拟机分别直接与I/O设备沟通(需要Fiorano平台:SR5690/SR5670芯片组),提供更好的设备隔离安全性和虚拟I/O性能。与Intel的VT-d有些类似,可以看这里:
功耗:在功耗上,Istanbul/伊斯坦布尔虽然多了50%的核心,然而通过工艺上的进步,以及电源管理技术上的改进,最后仍然维持了和Shanghai处理器一致的ACP平均功耗,当然,对于这点,我们期望后面的测试可以给出准确的数值。
远程电源管理界面APML:提供一个远程监视、控制平台功耗的界面,无需进入BIOS调整。对于大规模数据中心来说,逐台服务器进入BIOS调整电源管理参数是很麻烦的,APML就是个很方便的解决方法。
服务器系统需要一颗处理器和BMC(管理处理器)来支持APML,并需要相关管理软件,我们也随A840r-H机器收到了曙光研发的电源管理软件。
AMD Istanbul/伊斯坦布尔规格表 | |||||||
名称 | Opteron 2427 | Opteron 2431 | Opteron 2435 | Opteron 2439 SE | Opteron 8431 | Opteron 8435 | Opteron 8439 SE |
系列 | 双路 | 八路 | |||||
主频 | 2.2GHz | 2.4GHz | 2.6GHz | 2.8GHz | 2.4GHz | 2.6GHz | 2.8GHz |
HT频率 | 2.4GHz | ||||||
HT速率 | 9.8GB/s(单向) | ||||||
核心/线程 | 6/6 | ||||||
L2缓存 | 6x 512KB | ||||||
L3缓存 | 5MB | ||||||
ACP | 75W |
首先推出的Istanbul属两个系列:双路,以及八路(当然它们也能用于四路),型号分别是2427、2431、2435、2439 SE以及8431、8435、8439 SE,第一位数字表明面向多少路系统,第二位数字表明采用的插槽,虽然同样是Socket F 1207,不过规格和上一代23xx/83xx不同(如,支持DDR2 800等),最后两位数字代表着性能,更大的数字表示性能更强。额外的SE后缀是后来又推出的新版本,频率达到了2.8GHz。
Istanbul/伊斯坦布尔:AMD Opteron 8431处理器,频率2.4GHz,内置六个物理处理核心
我们手上的A840r-H服务器使用的是8431。
早期的规格表上并没有2439 SE和8439 SE
曙光A840r-H是一台5U高度的四路服务器。
每个Opteron 8431支持两个内存通道,主板实现上曙光A840提供每内存通道两个DIMM,也就是整台服务器支持16个DIMM,每个DIMM插2GB的话,系统内存容量就达到了32GB;曙光这台服务器支持最多128GB内存
AMD的Fiorano芯片组还没有完全准备好,不过已经有样品了
nForce Pro 3600的作用是提供PCI-E总线、SATA/PATA、USB能力,连接集成显卡和键盘鼠标,而AMD8132芯片的主要作用是提供两条PCI-X 133总线,每路总线提供两个64位PCI-X 133插槽。
在2009年秋我们IT168评测中心网络实验室搬迁到新的机房之后,我们又对实验室的服务器测试平台进行了大幅度的升级,先是将已有的Cisco Catalyst 4506千兆交换机升级到3个模块,达到了一共120个千兆网络端口,还新购买了30台DELL PowerEdge T100服务器,配合原有的30台DELL PowerEdge SC430服务器以及30台PC作为网络测试的客户端,可以提供非常充足的测试压力。
网络实验室控制台
网络实验室机房
Cisco Catalyst 4506千兆交换机,120个千兆铜口
部分Dell PowerEdge SC430服务器
在新的测试环境下,我们进一步完善了服务器性能测试方案:
SPEC CPU 2006 v1.0.1
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。
SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了当前最新版本的Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler这两款SPEC CPU 2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(假如只支持SSE3,则使用QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64bit Windows Server 2008 Enterprise下完成,对于每个运算核心,最低配置1.5GB内存。
SiSoftware Sandra v2009
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。
CineBench R10
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,在服务器测试平台中显示子系统不重要,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
ScienceMark 2.0
ScienceMark 2.0可以用来评估测试对象在执行科学计算时的运算效能,这部分效能主要和处理器子系统和内存子系统相关。我们主要用来评估测试对象的内存子系统的性能。
Iometer 2006.7.27
Iometer是一款功能非常强大的IO测试软件,它除了可以在本机运行测试本机的IO(磁盘)性能之外,还提供了模拟网络应用的能力。在这次的测试中,我们仅仅让它在本机运行测试服务器的磁盘性能。为了全面测试被测服务器的IO性能,我们分别选择了不同的测试脚本。
Max_throughput(read):文件尺寸为64KB,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取吞吐量
Max_IO(read):文件尺寸为512B,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取操作IO处理能力
Max_throughput(write):文件尺寸为64KB,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入吞吐量
Max_IO(write):文件尺寸为512B,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入操作IO处理能力
系统功耗监测
我们使用UNI-T UT71E智能数字万用表对于被测服务器系统的整体功耗进行了监测,利用随机附带的接口程序,我们可以记录被测服务器任意时间段内的功率变化。
测试平台、测试环境 | |
测试分组 | |
类别 | Dawning A840r-H服务器 |
处理器子系统 | |
处理器 | 四路AMD Istanbul Opteron 8431 |
处理器架构 | AMD 45nm Istanbul |
处理器代号 | Istanbul |
处理器封装 | Socket F 1207 |
处理器规格 | 六核 |
处理器指令集 | MMX,3DNow!,SSE,SSE2,SSE3,SSE4A,x86-64 |
主频 | 2.40GHz |
处理器外部总线 | HTL:2400MHz |
L1 D-Cache | 6x 64KB 2路集合关联 |
L1 I-Cache | 6x 64KB 2路集合关联 |
L2 Cache | 6x 512KB 16路集合关联 |
L3 Cache | 5MB 48路集合关联 |
主板型号 | nForce PRO 3600 |
北桥芯片组(MCH) | NVIDIA nForce PRO 3600 |
北桥芯片特性 | - |
内存控制器 | 每CPU集成双通道DDR2-800 |
2GB R-ECC DDR2 667 SDRAM x16 | |
系统磁盘子系统 | |
磁盘控制器 | LSI MegaRAID SAS Controller |
磁盘控制器规格 | SAS 3Gb/s |
磁盘控制器设置 | RAID 5 |
磁盘控制器驱动 | LSI MegaRAID SAS 3.8.0.32 |
磁盘 | Seagate Cheetah 15K.5 *4 |
磁盘规格 | 15000RPM 147GB SAS 6Gbps 16MB Cache |
磁盘设置 | SAS 6Gbps 50GB系统分区 |
网络子系统 | |
NVIDIA nForce Pro 3600 integrated MAC with Marvell 88E1121 PHY GbE Controller x2 | |
网卡设置 | ForceWare Teaming Load Balancing |
网卡驱动 | NVIDIA NIC/LAN v67.76.1 |
软件环境 | |
操作系统 | Microsoft Windows Server 2008 R2 Datacenter Edition (64bit) |
对于一台四路服务器来说,曙光A840r-H的配置堪称主流,32GB内存容量看起来不少,但是考虑到服务器的24个核心,实际上单颗核心的内存占用并不多。磁盘性能和安全方面,曙光A840r-H提供了4块希捷Cheetah 15K.5 硬盘,通过阵列卡组建RAID 5阵列。软件方面我们使用了当前最新的64位Windows Server 2008 R2数据中心版。
系统架构如图所示:MCP55Pro,也就是nForce Pro 3600
可以说,AMD的插槽策略还是不错的,例如,曙光这台服务器使用的旧Socket F 1207主板就能支持使用Istanbul。但是,这种完美的兼容性也暴露了主板/芯片组能力不足的弱点,如上图所示,缺点在于三处地方:
首先是内存带宽,虽然由于AMD K8开始的处理器都集成了内存控制器的缘故,它和芯片组关系不大,但是目前为止,所有的主板上都只能支持到DDR2 667,尽管Shanghai/上海处理器就已经可以支持DDR2 800,然而笔者未见过有多少机器提供支持。CPU只能支持双通道内存也会对系统性能有一些限制,不过它倒是和芯片组彻底的没有关系。
其次是HT Link带宽,HT Link连接四个Istanbul处理器,同时也连接着两个芯片组AMD8132和MCP55Pro,HTL刚出现时携带着直联架构相比之前的架构确实具有很明显的优势,然而时至今日服务器平台上HTL还保持着就和第一代差不多的频率、带宽就显得不妙了。HT影响着处理器间交换数据的效率,以及处理器和系统IO交换数据的效率,对于服务器特别是多路服务器来说,非常重要。
Intel QPI,连接处理器与芯片组以及连接处理器与处理器
最后的一个问题比较复杂,就是在AMD架构上,通常会通过HT Link连接多个多个外部IO芯片组,如A840r-H上就同时连接了一个AMD8132和一个MCP55Pro,前者主要用于提供PCI-X接口,后者用于提供PCI-E接口以及连接低速设备,它们存在的问题就是,两边总线上的设备需要交换数据的时候,就需要经过两个CPU的接力。在竞争对手的平台上,其芯片组提供了非常强的连接能力,一方面提供了多个连接CPU或者其它芯片组的总线(如提供两条QPI),一方面提供了充足的IO总线(如36 PCIe 2.0 Lanes),前者可以避免CPU要经过某一个“大门”CPU才能访问IO设备,后者则可以避免了IO设备需要多个CPU接力导致路经过长情况。
至今犹抱琵琶半遮面的Fiorano平台可以解决大部分的问题,它可以提供非常充足的PCIE带宽(共42 PCIe 2.0 Lanes),并且使用HTL 3.0总线,唯一的缺点就是仍然只能同时链接一个CPU。
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。
SiSoftware Sandra Pro Business 2009 | ||||
---|---|---|---|---|
测试对象 | Dawning A840r-H服务器 四路AMD Istanbul Opteron 8431 2.40GHz | Dawning I840-H服务器 四路Intel Dunnington Xeon X7460 2.66GHz | Intel Nehalem-EP 双路Intel Gainestown Xeon X5570 2.93GHz | Dawning A650 双路AMD Shanghai Operton 2378 2.40GHz |
Processor Arithmetic Benchmark 处理器架构测试 | ||||
Dhrystone ALU | 211695MIPS | 292201MIPS | 142977MIPS | 63082MIPS |
Dhrystone ALU vs SPEED | 87.77MIPS/MHz | 109.85MIPS/MHz | 48.75MIPS/MHz | 26.28MIPS/MHz |
Whetstone iSSE3 | 167557MFLOPS | 208685MFLOPS | 124035MFLOPS | 62993MFLOPS |
Dhrystone iSSE3 vs SPEED | 69.47MFLOPS/MHz | 78.45MFLOPS/MHz | 42.29MFLOPS/MHz | 26.25MFLOPS/MHz |
Processor Multi-Media Benchmark 处理器多媒体测试 | ||||
Multi-Media Int x16 iSSE4.1 | 753.51MPixel/s | 296.85MPixel/s | ||
Multi-Media Int x16 aSSE2 | 662.65MPixel/s | |||
Multi-Media Int x8 aSSE2 | 187.70MPixel/s | |||
Multi-Media Float x8 iSSE2 | 406.78MPixel/s | 501.36MPixel/s | 228.24MPixel/s | |
Multi-Media Float x4 iSSE2 | 81.53MPixel/s | |||
Multi-Media Double x4 iSSE2 | 222.88MPixel/s | 260.18MPixel/s | 125.88MPixel/s | |
Multi-Media Double x2 iSSE2 | 44.51MPixel/s | |||
Multi-Core Efficiency Benchmark | ||||
Inter-Core Bandwidth | 20.04GB/s | 12.88GB/s | 75.61GB/s | 6.54GB/s |
Inter-Core Latency (越小越好) | 129ns | 110ns | 16ns | 128ns |
.NET Arithmetic Benchmark .NET架构测试 | ||||
Dhrystone .NET | 75897MIPS | 75397MIPS | 32904MIPS | 12736MIPS |
Whetstone .NET | 78554MFLOPS | 136088MFLOPS | 78286MFLOPS | 38737MFLOPS |
.NET Multi-Media Benchmark .NET多媒体测试 | ||||
Multi-Media Int x1 .NET | 101.29MPixel/s | 119.30MPixel/s | 62.28MPixel/s | 24.48MPixel/s |
Multi-Media Float x1 .NET | 18.12MPixel/s | 31.74MPixel/s | 26.19MPixel/s | 5.29MPixel/s |
Multi-Media Double x1 .NET | 57.83MPixel/s | 58.72MPixel/s | 51.45MPixel/s | 21.31MPixel/s |
从SiSoftware的结果来看,Istanbul具有比较强劲的总体性能:四路,六核心。在和同样四路六核心的Dunnington对比的时候,由于频率稍低,最后性能也低一些,整数上Istanbul是Dunnington的72%,浮点是80%,可见AMD的K10架构在对比Dunnington的变异Core架构的时候还是浮点上要突出一些。在考虑频率因素之后,Istanbul架构效率略不如Dunnington,部分地是由于较老的芯片组,和我们测试Shanghai处理器的时候没有变化,内存规格也是。从多核心效率测试上也可以看出来,Istanbul的核间带宽高于通常的Core架构,但是远不及Nehalem。Fiorano快点出来吧……
SiSoftware Sandra Pro Business 2009 | ||||
---|---|---|---|---|
测试对象 | Dawning A840r-H服务器 四路AMD Istanbul Opteron 8431 2.40GHz | Dawning I840-H服务器 四路Intel Dunnington Xeon X7460 2.66GHz | Intel Nehalem-EP 双路Intel Gainestown Xeon X5570 2.93GHz | Dawning A650 双路AMD Shanghai Operton 2378 2.40GHz |
Memory Bandwidth Benchmark 内存带宽测试 | ||||
Int Buff'd iSSE2 Memory Bandwidth | 35.72GB/s | 3.49GB/s | 16.93GB/s | 16.59GB/s |
Float Buff'd iSSE2 Memory Bandwidth | 35.68GB/s | 3.50GB/s | 16.90GB/s | 16.58GB/s |
Memory Latency Benchmark 内存延迟测试 | ||||
Memory(Random Access) Latency (越小越好) | 104ns | 81ns | 106ns | |
Speed Factor (越小越好) | 81.60 | 61.40 | 83.80 | |
Internal Data Cache | 3clocks | 4clocks | 3clocks | |
L2 On-board Cache | 16clocks | 10clocks | 16clocks | |
L3 On-board Cache | 58clocks | 48clocks | 58clocks | |
Cache and Memory Benchmark 缓存及内存测试 | ||||
Cache/Memory Bandwidth | 226.67GB/s | 143.24GB/s | 77.08GB/s | |
Speed Factor (越小越好) | 46.30 | 20.90 | 36.00 | |
Internal Data Cache | 829.64GB/s | 448.46GB/s | 299.00GB/s | |
L2 On-board Cache | 419.50GB/s | 421.42GB/s | 162.91GB/s | |
L3 On-board Cache | 219.68GB/s |
四路Istanbul平台总共具有8个DDR2内存通道,使用的内存规格是DDR2 667,其带宽比双路Nehalem-EP的6个DDR3通道以及四路Dunnington的4个FBD DDR2都要高不少。在内存上,各个方面看,Istanbul和Shanghai都很相似。最后,我们发现,在Internal Data Cache性能上,Istanbul的成绩非常高,比其他平台都要高很多。
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,在服务器测试平台中显示子系统不重要,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
CineBench R10 | ||||
处理器 | Dawning A840r-H服务器 四路AMD Istanbul Opteron 8431 | Dawning I840-H服务器 四路Intel Dunnington Xeon X7460 | 双路Intel Gainestown Xeon X5570 | 双路AMD Shanghai Operton 2378 |
显卡 | - | - | - | - |
CPU Benchmark | ||||
Rendering (1 CPU) | 2774 CB-CPU | 3280 CB-CPU | 4410 CB-CPU | 1797 CB-CPU |
Rendering (x CPU) | 25996 CB-CPU | 31144 CB-CPU | 28172 CB-CPU | 10734 CB-CPU |
Multiprocessor Speedup | 9.37x | 9.50x | 6.39x | 5.97x |
OpenGL Benchmark | ||||
OpenGL Standard | 137 CB-GFX | 193 CB-GFX | 224 CB-GFX | 98 CB-GFX |
这里我们主要观察处理器性能的差异。在单个CPU核心性能上,Istanbul比起Shanghai有了明显的进步,但是和Dunnington和Nehalem-EP都有一定差距。单核心Istanbul大概是Dunnington的85%左右,而频率上Istanbul是Dunnington的90%,因此效率上略有不及,和前面一样,系统架构要负上一定责任。
我们使用了最新的Windows Server 2008 R2操作系统,它对NUMA架构的支持会更好,同时其内核在任务调度方面,以及系统网络堆栈方面都有了改进,更适合四路及多路NUMA架构的服务器使用。然而,在进行网络测试的时候,碰到了一个问题,A840r-H使用的是双82546GB网卡,如下图所示:
这个网卡在较早期的驱动中不能支持在Windows Server 2008 R2下进行端口聚合,因此严重影响到网络性能测试,一直到最新的14.8.3驱动,才提供了端口聚合。
扩展槽从上到下:PCIE x16、PCIE x8、四条PCI-X 100/133
在新驱动出来之前,笔者倒是想过使用我们备有的多块网卡,不过一看扩展槽:只有两个PCIE插槽,其中一个被SAS HBA卡占用了,而我们并没有双口的网卡,也没有PCI-X网卡,只能作罢。这个情况的出现表明了AMD老旧的服务器芯片组平台已经不合时宜了。
NetBench 7.03 Ent_dm.tst测试脚本模拟的是企业级文件服务器应用,它不但要求被测服务器的磁盘子系统可以提供足够的吞吐量,还需要其具有较高的IO处理能力,并且需要较为平衡的读取能力和写入能力。
不过,就现状来看,将四路服务器用作文件服务器并不多见,兼任倒是很有可能。就笔者接触的经销商来看,买四路服务器回去搭建虚拟化应用是很常见的,在这些虚拟化应用上,有可能跑一个文件服务器。
从结果来看,其表现不错:峰值吞吐量达到了1536Mbps,也可以理解为192MB/s。
Web服务器测试分为静态应用测试和动态应用测试,处理器计算能力、缓存内存效能则对于动态应用的性能有明显影响,而IO能力对于静态应用的性能有明显的影响。
Web服务器使用了Windows Server 2008 R2自带的IIS 7.5。
动态处理能力
动态页面更多的是消耗处理器资源,我们可以看出四路六核的优势,处理能力达到了17000 RPS,而我们的基准双路四核服务器只有不到7000。被测平台性能大致上是基准平台的三倍不到,和处理器核心数量的比值差不多。
静态处理能力
静态页面则更多受限于网络带宽——它的处理比较不占CPU。测试结果差不多是考验网卡的能力,可以看到,A840r-H的性能比基准平台只高了一点。老实说,如果我们有PCI-X接口的独立82546GB网卡的话,A840r-H将可以提供很好的测试成绩。但是我们并没有这么老的产品……
AMD 六核心Istanbul/伊斯坦布尔处理器,可以用于最高八路处理器架构
【IT168评测中心】从处理器架构来看,Istanbul/伊斯坦布尔就是一个增加了50%核心的Shanghai/上海处理器,并且可以直接兼容旧有的平台,可以进行无缝升级。此外还有一些小的改进。
一般的旧平台通过升级BIOS就可以支持Istanbul,这确实是一个优点,旧的服务器或者工作站可以很方便地提升不少性能。但是,我们也发现,虽然能使用旧平台是一件好事,不过旧平台也限制了新处理器的发挥,实际上,Shanghai/上海处理器推出时就受到了这个限制,并且到现在仍然存在。AMD迫切需要推出新的芯片组:Fiorano。