服务器 频道

全国首发 AMD Shanghai/上海性能评测

  【IT168评测中心】11月13日,AMD在美国正式发布了代号为"Shanghai"、“上海”的最新一代处理器,首先发布的是服务器产品线上的产品,在一个星期之后,这款AMD最新一代的CPU终于抵达了我们IT168评测中心


AMD 四核 Shanghai/上海架构图

  AMD Shanghai/上海,采用了45nm工艺制程(这也是AMD CPU第一次采用45nm),集成了7.05亿晶体管,拥有共享6M的三级缓存,增强的双通道内存控制器可以同时支持DDR2内存和DDR3内存,内置了4条Hyper Transport总线以支持组建大规模并行系统,“上海”还支持AMD的快速虚拟化索引(RVI)的AMD-V虚拟化技术,同时具备48位物理寻址能力,寻址空间可以达到(256TB)。“上海”还兼容Socket F(1207),旧有的系统只需要升级BIOS就可以支持新的CPU,从而可以保护用户的投资。

 


AMD 45nm Shanghai/上海 Opteron 2378实物照

   由于20天前,Shanghai就已经在国外发布了,因此在全球范围内已经有了一些零星的性能数据出现(例如一些国外的媒体上),然而完整的服务器性能评测尚未有见到,现在,我们IT168评测中心就带给你AMD Shanghai的实际性能表现。

  作为AMD从65nm工艺转向45nm工艺的首款产品,AMD Shanghai在架构方面和上一代处理器Barcelona很相似,其实,处理器新架构的研发无不耗资甚巨,因此一个长生命力的架构对整个生态圈都是有利的,例如K8架构就一直沿用到现在,NetBurst架构也顽强地存活了近十年。如此这般,AMD Shanghai的架构也是在上一代产品上进行的改进,使用更先进的工艺制程,提高性能并提供新的功能。


AMD Shanghai/上海架构图

   仔细看,上海的架构(上)与巴塞罗那的架构(下),是不是很有相似之处?

 
AMD Barcelona/巴塞罗那架构图

  Shanghai的重点放在提升制程方面而不是架构方面,AMD Shanghai的指导思想就是让客户可以用很低的成本从Barcelona平滑过渡到Shanghai,为了保护用户的投资,Shanghai还采用了和Barcelona一样的Socket F 1207插槽。由于包括TLB问题在内的各种困扰,Barcelona一路坎坷,Shanghai的推出就是为了挽回市场,因此必须很平易近人。从现在的资料来看,Shanghai的确做到了这一点:良好的兼容性、更好的性能、更低的功耗以及更低的价格


在同样的价格下,买到的Shanghai处理器的频率要比Barcelona要高,并且具有更强的性能


AMD 45nm Shanghai Opteron 2378实物照

  概括起来,AMD上海的改进有:
1、45nm沉浸式光刻技术,更低的功耗和更高的主频
2、更大的三级高速缓存,容量达到了6MB(上一代是2MB)
3、内存控制器的更新:支持DDR2-800, 比上一代DDR2-667的内存带宽提高10%。
4、AMD内存优化技术,增强的预取技术,2倍的核心探测带宽
5、支持HyperTransport 3.0总线,带宽增加到17.6GB/s(2.2GHz HT3,预计在2009年春)
6、增强的虚拟化技术:RVI,提升虚拟机切换速度并提供虚拟化迁移功能


AMD Shanghai/上海相对以往的创新

 


AMD 45nm Shanghai Opteron 2378实物照


AMD Shanghai/上海晶圆超级大图(2560x1742),包括了4个完整的四核上海CPU

  


AMD Shanghai核心区间划分,注意和上图CPU核心的方向刚好是左右相反的


AMD Shanghai/上海晶圆,注意和上图相比,L3缓存的面积有所降低

 

  AMD的45纳米制程工艺是联合IBM一同研发的。有趣的是,与英特尔的高-K金属栅极不同,AMD和IBM的技术是超低K电介质互联。而另两项相关技术分别是:多重增强晶体管应变技术和沉浸式平板印刷术。

  简单来说,多空、超低K电介质可以降低串联电容、降低写入延迟和能量消耗,从而明显提升性能功耗比;而沉浸式平板印刷术,实际上就是在激光蚀刻头的中间加入一种特殊的液体来修正光的折射,从而让其在晶圆上更好的刻录晶体管。用这种工艺设计生产的SRAM芯片可获得大约15%的性能提升。真正解决AMD在45纳米技术难题的是多重增强晶体管应变技术,AMD和IBM称,与非应变技术相比,这一新技术能将P沟道晶体管的驱动电流提高80%,将N沟道晶体管的驱动电流提高24%。

  AMD表示,这些技术不但可以用在45纳米领域,还是未来32纳米处理器制程的关键技术。


左:45nm Shanghai Opteron 2378
右:65nm Barcelona Opteron 2354


左:45nm Shanghai Opteron 2378
右:65nm Barcelona Opteron 2354


左:45nm Shanghai Opteron 2378
右:65nm Barcelona Opteron 2354

 


架构图:Intel Nehalem VS AMD Shanghai

AMD Shanghai VS AMD Barcelona VS Intel Nehalem
 
AMD ShanghaiAMD BarcelonaIntel Nehalem
工艺
45nm
65nm
45nm
晶体管数量7.05亿4.63亿7.31亿
核心数量4核4核4核
核心尺寸(宽x高)
13.7mm x 17.8mm-13.0mm x 18.9mm
核心面积
243mm2
283mm2
246mm2
每核心面积(不包括L2)
~15.3mm2-~24.4mm2
L2缓存

4 x 512KB

4 x 512 KB4 x 256 KB
L2缓存面积
4? x 3.75mm2
-
4 x 1.78mm2
L3缓存
6MB2MB8MB
L3缓存面积(不包括Tag)
45mm2-45.6mm2
内存控制器
双通道DDR2
533/667/800
双通道DDR3
双通道DDR2 533/667三通道DDR3
IO总线
3 x HT1.0
双向带宽8GB/s
未来会支持4x HT3.0
双向带宽17.6GB/s
3 x HT1.0
双向带宽8GB/s
未来会支持更多数量

2 x QPI
双向带宽25.6GB/s
未来会支持更多数量

  桌面版本的Nehalem处理器评测,我们已经有了不少的文章:再攀性能之巅 Intel全新酷睿i7深度评测性能大幅提升 Core i7 服务器应用测试

  一直以来,AMD平台在芯片组上面可以说是处于劣势,竞争对手Intel推行的平台策略,每当新的处理器推出的时候,总有成套的芯片组、主板推出,并不断地改进、优化,而AMD这方面一直依赖于第三方芯片组提供商(AMD自家也有服务器芯片组,不过很是少见)。


Tyan S2932-E双路Opteron主板,也是今次测试使用的主板

  很微妙地,在服务器市场,其芯片组都依赖于AMD在图形市场的竞争对手——NVIDIA的芯片组(还有ServerWorks也有相关芯片组产品;ServerWorks已被Broadcom收购)。虽然Opteron处理器已经集成了内存控制器,不过外部IO对于服务器来说是至关重要的,因此第三方芯片组主要扮演的是PCIE/PCI-X总线提供者,用来连接各种外部设备。比AMD Shanghai早些时候发布的Intel Nehalem架构里面采用的模块化设计已经可以将PCIE控制器、显卡等集成在处理器内部,这方面Intel的设计可以说是走在了AMD的前方——相对于直联架构、集成内存控制器这方面落后来说。

  然而Shanghai核心的服务器产品已经现身市场了,而Nehalem服务器版本仍然要等到2009年度,因此AMD仍然具有时间来进行同样的工作。


AMD支持四路Shanghai处理器的Fiorano平台,基于SR5690 IOH和SP6100南桥

  不管如何,在近几年内,AMD仍然需要使用芯片组,虽然目前存在的nForece Pro平台之需要进行一些Microcode升级就可以支持上海处理器,然而总是依赖于第三方芯片组也不现实,因此AMD将会在明年推行一个叫做Fiorano的平台解决方案,由SR5690 I/O Hub和SP6100南桥组成,每个SR5690通过HT3.0总线连接到一个Shanghai处理器,提供42条PCIE Lanes,并集成了IOMMU来提供I/O虚拟化功能。Fiorano平台包括了两个SR5690芯片,因此可以提供强大的I/O带宽。其实只要AMD愿意,它甚至可以每一个Shanghai Opteron配备一个SR5690芯片。

  Fiorano平台也不一定是4路的,最有可能也应该是最普及的应该是双路Shanghai服务器/工作站,在工作站配置下,可以配置两块SR5690芯片,总共提供4条PCIE x16插槽,图形工作站应该会采用这种配置。

  早在07年底AMD推Barcelona的时候,其路线图上就已经出现了Shanghai的身影,现在,路线图上Shanghai的下一代自然也就浮出水面了,它就是Magny-Cours马尼库尔、Sao Paulo圣保罗。在它们之间,将会有一款6核心的Shanghai处理器产品,名字就叫Istanbul伊斯坦布尔。和Barcelona巴塞罗那、Shanghai上海都是F1方程式赛车的赛道名一样,Magny-Cours马尼库尔在法国、Sao Paulo圣保罗则在巴西,而Istanbul伊斯坦布尔是位于土耳其(全称:土耳其共和国The Republic of Turkey)的一个海港。


预计明年推出的Istanbul将会采用6核心设计

  Istanbul同样也采用了45nm制程工艺,并且也会同样是基于Shanghai核心,提升核心数量是提升计算密度的一个常用、有效的方法。Istanbul将会实现当前Shanghai未能实现的HT3.0总线。当然现在的Shanghai处理器未能实现HT3.0也是因为芯片组的缘故,预计Istanbul面市的时候,AMD Fiorano平台已经准备好了。更大的连接带宽可以提升处理器之间的连接速率和处理器与IOH之间的连接速率,进一步提升处理器的性能。明年Q2的上海将可以提供HT3.0。


AMD六核心Istanbul伊斯坦布尔架构图


AMD六核心Istanbul伊斯坦布尔架构猜想图

  Intel也于前段时间推出了六核心的45nm Penryn产品,而Nehalem-EP也会具有6核心乃至8核心的版本。

  基于AMD保护用户投资的思想,现有的Opteron平台可以很容易地升级到Shanghai平台,当然,现在要使用Shanghai处理器,你也没有其他选择,Fiorano平台还没有出来。本次Shanghai评测基于一台曙光A650服务器,原配的是双路Barcelona Opteron 2350处理器,测试结果并会与我们IT168评测中心的DELL PowerEdge 2900 III服务器进行对比,测试对比平台的详细参数如下: 

测试平台、测试环境
测试分组
类别
Dawning A650服务器
双路AMD Shanghai
Opteron 2378
Dawning AS650服务器
双路AMD Barcelona
Opteron 2350
双路Xeon E5430基准平台
DELL PE2900 III服务器
处理器子系统
处理器
双路AMD Shanghai
Opteron 2378
双路AMD Barcelona
Opteron 2350
双路Intel Xeon E5430
处理器架构
AMD 45nm ShanghaiAMD 65nm BarcelonaIntel 45nm Penryn
处理器代号
ShanghaiBarcelonaHarpertown
处理器封装
Socket F 1207Socket F 1207Socke 771 LGA
处理器规格
四核四核四核
处理器指令集
MMX,3DNow!,SSE,SSE2,SSE3,SSE4A,x86-64MMX,3DNow!,SSE,SSE2,SSE3,SSE4A,x86-64MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,EM64T,VT
主频2.40GHz2.00GHz2.66GHz
处理器外部总线HTL:1000MHzHTL:1000MHz
 
FSB:1333MHz
L1 D-Cache
4x 64KB
2路集合关联
4x 64KB
2路集合关联
4x 32KB
8路集合关联
L1 I-Cache
4x 64KB
2路集合关联
4x 64KB
2路集合关联
4x 32KB
8路集合关联
L2 Cache
2x 512KB
16路集合关联
2x 512KB
16路集合关联
2x 6144KB
16路集合关联
L3 Cache
6MB
48路集合关联
2MB
32路集合关联
 
主板
主板型号
Tyan S2932-E
Tyan S2932-E
DELL PE2900 III
北桥芯片组(MCH)
NVIDIA nForce PRO 3600NVIDIA nForce PRO 3600Intel 5000X
北桥芯片特性--12MB Snoop Filter
内存控制器
每CPU集成双通道DDR2-800每CPU集成双通道DDR2-667北桥集成四通道FBD DDR2
内存
2GB R-ECC DDR2 667 SDRAM x42GB R-ECC DDR2 667 SDRAM x42GB FBD DDR2 667 SDRAM x4
系统磁盘子系统
磁盘控制器
LSI MegaRAID SAS Controller
LSI MegaRAID SAS 8208ELP Controller
DELL Perc 5/i RAID Controller
磁盘控制器规格
SAS 3GbpsSAS 3GbpsSAS 3Gbps
磁盘控制器设置
RAID 5
RAID 5
RAID 5
磁盘控制器驱动
LSI MegaRAID SAS
3.8.0.32
LSI MegaRAID SAS
3.8.0.32
LSI SAS
3.8.0.32
磁盘
Fujitsu
MBA3147RC x3
Fujitsu
MBA3147RC x3
Seagate
Cheetah 15K.5
ST314655SS x3
磁盘规格
15000RPM
147GB
SAS 3Gbps
16MB Cache
15000RPM
147GB
SAS 3Gbps
16MB Cache
15000RPM
146GB
SAS 3Gbps
16MB Cache
磁盘设置
SATA 3Gbps
30GB系统分区
SATA 3Gbps
30GB系统分区
SAS 3Gbps
20GB系统分区
网络子系统
网卡
NVIDIA nForce Pro 3600 integrated MAC with Marvell 88E1121 PHY GbE Controller x2NVIDIA nForce Pro 3600 integrated MAC with Marvell 88E1121 PHY GbE Controller x2Broadcom BCM5708C
PCI-E千兆网卡 x2
网卡设置
ForceWare Teaming
Load Balancing
ForceWare Teaming
Load Balancing
Broadcom NIC Teaming
Load Balancing
网卡驱动
NVIDIA NIC/LAN v67.76.1NVIDIA NIC/LAN v67.76.1Broadcom NetXtreme 2
11.04.01
软件环境
操作系统
Microsoft
Windows Server 2003 R2
Enterprise Edition SP2
Microsoft
Windows Server 2003 R2
Enterprise Edition SP2
Microsoft
Windows Server 2003 R2
Enterprise Edition SP2

   三个平台都同样为流行的双路四核配置,磁盘子系统也相仿,都是基于LSI的硬件阵列卡,三个15000RPM SAS硬盘组建RAID 5阵列。在测试的时候均使用了端口聚合功能来提升网络IO带宽。

  需要特别注明的一点是:Shanghai处理器支持R-ECC DDR2-800内存,而曙光A650服务器搭配的只是R-ECC DDR2-667内存,性能上会有所差异。尚不清楚Tyan S2932-E能否使用R-ECC DDR2-800内存。

   最后,还有两点不得不特别说明:首先,我们的基准平台基于Intel 5000X芯片组,带有12MB Snoop Filter缓存,它可以提升在内存密集型计算方面的效率,比起主流的Intel 5000P芯片组具有比较明显的优势。

  其次,曙光服务器的主板采用了NVIDIA nForce Pro 3600芯片组自带的网络控制器(Mac控制器 + Marvell 88E1121 PHY芯片),它的网卡Teaming功能非常不同凡响:


NVIDIA的网卡组合技术——也就是一般所说的网卡Teaming功能

  这个功能有时会因为提示网卡使用了VLAN而无法打开(当然这时候VLAN功能是已经关闭了),并且几经周折设置好了之后,它和通常的网卡Teaming表现不同:它居然没有增加新的虚拟聚合网卡!例如Intel、Marvell、Broadcom这样的网卡厂商,在使用端口聚合/Teaming功能之后,都会生成一个新的虚拟网卡,这个网卡就是可以设置IP地址等信息的管理所有流量的网卡。

  这两块NVIDIA的网卡不是这样,在设置网卡组合功能之后,系统设备完全没有变化——你需要在一块网卡上设置好IP地址、网关、子网掩码,同时保留另外一块网卡为自动获取IP,这样才能正常使用组合功能。希望用到这个功能的新用户看了之后可以不用再走我们走过的弯路。

 测试方法介绍

  •  ScienceMark v2.0 Membench

  ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。

  • CineBench R10

  CineBench是基于Cinem3D物理建模软件的一个测试程序,主要针对处理器子系统、内存子系统和显示子系统,可以完善地支持多核/多线程。对于服务器来说显示子系统并不重要,因此主要用它来测试处理器子系统和内存子系统。

  • SiSoftware Sandra 2009

  SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。我们使用了SiSoftware Sandra的2009版,它可以支持各种最新的CPU指令集,并能良好地支持多核、多线程,我们主要用其来评估平台的理论计算性能。

  • WebBench v5.0

  WebBench是针对服务器作为Web Server时的性能进行测试,我们在被测服务器上安装了IIS6.0组件,以提供测试所需的Web服务。在测试中我们开启了网络实验室中的56台客户端,分别使用了WebBench 5.0内置的动态CGI以及静态页面脚本对服务器进行了测试。

  静态测试是由客户端读取预先放置在服务器Web Server下的Web页面(wbtree),这项测试主要考察的是服务器磁盘系统以及网络连接性能。我们使用了实验室中的56台客户端,配合Static_mt.tst多线程静态脚本测试向被测服务器发送请求。

  动态测试偏重于对服务器CPU子系统的性能测试,它对于Web服务器提供了足够的负载。我们将一个C语言编写的CGI源文件Simcigi.c编译为Simcgi.exe,并将其作为动态测试中的CGI脚本。在测试过程中,每台安装了WebBench客户端软件的PC,会在300秒的时间内持续向服务器发送CGI请求,而控制台会纪录并汇总服务器所响应CGI请求的数据。CGI测试的成绩高低,主要取决于服务器处理器子系统性能的优劣。处理器子系统包括CPU、内存以及内存控制器,CPU频率、缓存以及内存容量大小和内存带宽,都会影响该项成绩。

  • NetBench v7.03

  NetBench是针对文件服务器的性能测试软件,影响NetBench性能的主要是服务器的磁盘子系统,服务器磁盘控制器、条带大小、读写缓存、硬盘类型、组建磁盘阵列模式、内存容量、网络拓朴结构等都会对测试结果有明显的影响。我们在被测服务器上设立了文件服务器,NetBench通过网络实验室中60个客户端来模拟网络中的PC向文件服务器所发出的文件传输请求,文件服务器则将存储在磁盘上的文件数据发送给相应的客户端。在测试过程中,客户端会以每四台一组的步进依次增加并且向服务器发送文件传输请求,测试结束后控制台收集数据并绘制出服务器的数据传输变化曲线。

  • Benchmark Factory 4.6

  大部分的服务器应用都同数据库有着密切的联系,因此在服务器测试当中这是一个很重要的测试。我们选择了Benchmark Factory 4.6软件和Microsoft SQL Server 2005来测试不同的硬件平台在数据库应用中的表现。

  我们选择了BF内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。


左:45nm Shanghai Opteron 2378
右:65nm Barcelona Opteron 2354 


AMD Shanghai Opteron 2378处理器,主频2.4GHz。HT总线频率1GHz


AMD 65nm Barcelona Opteron 2350处理器,主频2.0GHz。HT总线频率1GHz


Intel 45nm Harpertown Xeon E5430处理器,主频2.66GHz。FSB传输频率1333MHz
 

我们使用的曙光服务器的主板实际上就是Tyan S2932-E主板,基于nForece Pro 3600芯片组


Tyan S2932-E双路Opteron主板


Tyan S2932-E主板逻辑架构图


使用最新的BIOS以支持Shanghai处理器


Unganged双通道模式,Unganged就是未分组的意思,这种模式下两个内存通道独立工作。测试表明各方面性能和Ganged模式没有什么分别


8GB R-ECC DDR2 667 SDRAM

  SiSoftware Sandra Pro Business 2009

  SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从Sandra 2007开始支持SSE4指令集。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。

SiSoftware Sandra Pro Business 2009
测试对象
Dawning A650
双路AMD Shanghai
Opteron 2378
2.4GHz
Dawning A650
双路AMD Barcelona
Opteron 2350
2.0GHz
DELL PE2900 III
双路Intel Harptown
Xeon E5430
2.66GHz
Processor Arithmetic Benchmark
处理器架构测试
Dhrystone ALU
63082MIPS
51480MIPS
91006MIPS
Dhrystone ALU vs SPEED26.28MIPS/MHz25.74MIPS/MHz34.21MIPS/MHz
Whetstone iSSE3
62993MFLOPS
51400MFLOPS
78385MFLOPS
Dhrystone iSSE3 vs SPEED26.25MFLOPS/MHz25.70MFLOPS/MHz29.47MFLOPS/MHz
Processor Multi-Media Benchmark
处理器多媒体测试
Multi-Media Int x8 aSSE2
187.70MPixel/s
155.64MPixel/s
 
Multi-Media Int x8 iSSE4.1  199.33MPixel/s
Multi-Media Int x8 aSSE2 vs SPEED
78.21kPixels/s/MHz77.82kPixels/s/MHz 
Multi-Media Int x8 iSSE4.1 vs SPEED  74.94kPixels/s/MHz
Multi-Media Float x4 iSSE2
81.53MPixel/s
67.86MPixel/s
108.69MPixel/s
Multi-Media Float x4 iSSE2 vs SPEED
33.97kPixels/s/MHz33.93kPixels/s/MHz40.86kPixels/s/MHz
Multi-Media Double x2 iSSE2
44.51MPixel/s
37.15MPixel/s
55.75MPixel/s
Multi-Media Double x2 iSSE2 vs SPEED
18.55kPixels/s/MHz18.58kPixels/s/MHz20.96kPixels/s/MHz
Multi-Core Efficiency Benchmark
Inter-Core Bandwidth
6.54GB/s
2.91GB/s
20.54GB/s
Inter-Core Bandwidth vs SPEED
2.79MB/s/MHz1.49MB/s/MHz7.91MB/s/MHz
Inter-Core Latency
(越小越好)
128ns
185ns
90ns
Inter-Core Latency? vs SPEED
(越小越好)
0.05ns/MHz0.09ns/MHz0.03ns/MHz
Memory Bandwidth Benchmark
内存带宽测试
Int Buff'd iSSE2 Memory Bandwidth
16.59GB/s
7.12GB/s
6.13GB/s
Int Buff'd iSSE2 Memory Bandwidth vs SPEED
25.52MB/s/MHz10.94MB/s/MHz9.43MB/s/MHz
Float Buff'd iSSE2 Memory Bandwidth
16.58GB/s
7.13GB/s
6.13GB/s
Float Buff'd iSSE2 Memory Bandwidth vs SPEED
25.50MB/s/MHz10.96MB/s/MHz9.43MB/s/MHz
Memory Latency Benchmark
内存延迟测试
Memory(Random Access) Latency
(越小越好)
106ns
157ns108ns
Memory(Random Access) Latency vs SPEED
(越小越好)
0.16ns/MHz0.24ns/MHz0.16ns/MHz
Speed Factor
(越小越好)
83.80
103.4095.20
Internal Data Cache
3clocks
3clocks3clocks
L2 On-board Cache
16clocks
16clocks18clocks
L3 On-board Cache
58clocks
47clocks
 
Cache and Memory Benchmark
缓存及内存测试
Cache/Memory Bandwidth
77.08GB/s
51.17GB/s
68.88GB/s
Cache/Memory Bandwidth vs SPEED
32.89MB/s/MHz26.20MB/s/MHz26.52MB/s/MHz
Speed Factor
36.00
45.50
111.90
Internal Data Cache299GB/s244.31GB/s421.23GB/s
L2 On-board Cache162.91GB/s135.04GB/s122.68GB/s
.NET Arithmetic Benchmark
.NET架构测试
Dhrystone .NET
12736MIPS
9551MIPS
10562MIPS
Dhrystone .NET vs SPEED
5.31MIPS/MHz4.78MIPS/MHz3.97MIPS/MHz
Whetstone .NET
38737MFLOPS
31231MFLOPS
45399MFLOPS
Whetstone .NET vs SPEED
16.14MFLOPS/MHz15.62MFLOPS/MHz17.07MFLOPS/MHz
.NET Multi-Media Benchmark
.NET多媒体测试
Multi-Media Int x1 .NET
24.48MPixel/s
20.11MPixel/s
31.28MPixel/s
Multi-Media Int x1 .NET vs SPEED
10.20kPixels/s/MHz10.06kPixels/s/MHz11.76kPixels/s/MHz
Multi-Media Float x1 .NET
5.29MPixel/s
4.34MPixel/s
8.68MPixel/s
Multi-Media Float x1 .NET vs SPEED
2.20kPixels/s/MHz2.17kPixels/s/MHz3.26kPixels/s/MHz
Multi-Media Double x1 .NET
21.31MPixel/s
17.49MPixel/s
24.75MPixel/s
Multi-Media Double x1 .NET vs SPEED
8.88kPixels/s/MHz8.74kPixels/s/MHz9.30kPixels/s/MHz

SiSoftware Sandra对比,用蓝色标出了性能特出的项目

  和老的巴塞罗那相比,Multi-Core Efficiency Benchmark、Memory Bandwidth Benchmark、Memory Latency Benchmark、Cache and Memory Benchmark的成绩都得到了明显的提升,而且是在除以处理器主频的情况下,这表明处理器核心之间的Crossbar设计以及内存控制器的效率都得到了很大的改进,性能得到了成倍以上的提升。

  不过,我们注意到Shanghai L3缓存的延迟似乎要比Barcelona的要高一些,此外,在纯粹的整数/浮点运算性能还具有5%左右的提升。另外,SiSoftware Sandra通常看起来会偏向Intel处理器一些,因为它可以很好地支持Intel的SSE4指令集,而AMD Shanghai的SSE4A等指令集就没这么好运了,这也能表现出Intel在编译器方面做出的努力。

  详细的处理器运算效能,请期待我们的SPEC CPU 2006测试。这个测试要运行数天之久,调试也比较麻烦,因此本文未能包及。

  ScienceMark v2.0 Membench

  ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。


ScienceMark v2.0 Membench L1测试成绩


ScienceMark v2.0 Membench L2测试成绩


ScienceMark v2.0 Membench 内存测试成绩

  首先我们进行的是ScienceMark的测试,主要考察系统的缓存和内存子系统情况。L1/L2 Cache的成绩主要是跟处理器频率相关,因为目前的处理器当中L1 Cache都是和处理器核心同频率的,而L2 Cache基本上也是——当前的处理器L2都是全速的(放置在处理器内但不在同一个芯片上的Pentium II为半速L2,而Pentium之前的处理器L2则和处理器分离,速度更低)。越快的频率,L1/L2性能就越好。而内存带宽主要由两部分相关:比较大的部分是内存架构,小部分是内存操作指令(集),例如使用最新的SSE指令集比通常的ALU指令集会得到更大的吞吐量,而不同的SSE版本性能也有不同。

ScienceMark Membench

厂商DawningDawningDELL
产品型号AS650
AMD Shanghai
Opteron 2378
2.4GHz
AS650
AMD Barcelona
Opteron 2350
2.0GHz
PowerEdge 2900 III
Intel Harptown
Xeon E5430
2.66GHz
内存技术参数2GB R-ECC DDR2-667 SDRAM x42GB R-ECC DDR2-667 SDRAM x42GB FBD-ECC DDR2-667 SDRAM x4
L1带宽(MB/s)48167.8837069.9755376.16
L2带宽(MB/s)14314.3411523.4616757.55
内存带宽(MB/s)6672.765144.714485.09
L1 Cache Latency(ns)
32 Bytes Stride1.251.501.13
L1 Algorithm Bandwidth(MB/s)
Compiler34042.6328354.5825201.968
REP MOVSD34864.1028986.1425467.15
ALU Reg Copy12166.9410804.2613093.65
MMX Reg Copy25698.4720285.3725242.19
SSE PAlign48167.4037003.9952826.21
SSE2 PAlign48167.8837069.9755376.16
L2 Cache Latency(ns)
4 Bytes Stride1.251.131.13
16 Bytes Stride1.251.501.50
64 Bytes Stride3.754.514.51
256 Bytes Stride6.254.514.51
512 Bytes Stride6.254.894.89
L2 Algorithm Bandwidth(MB/s)
Compiler11609.578830.23118800.48
REP MOVSD12140.009964.3412536.88
ALU Reg Copy9273.717660.438577.86
MMX Reg Copy12042.459754.6113408.31
SSE PAlign14314.3411523.4616719.97
SSE2 PAlign14289.8811502.3816757.55
Memory Latency(ns)
4 Bytes Stride1.672.001.13
16 Bytes Stride5.008.004.89
64 Bytes Stride20.0031.0019.17
256 Bytes Stride34.5897.4959.77
512 Bytes Stride81.24107.9968.04
Memory Algorithm Bandwidth(MB/s)
Compiler2872.771826.243178.45
REP MOVSD2887.021851.433220.23
ALU Reg Copy2654.291606.582789.34
MMX Reg Copy2943.851882.102972.91
MMX Reg 3dNow6631.755028.88-
MMX Reg SSE6672.765106.973978.53
SSE PAlign5765.464720.154128.59
SSE PAlign SSE6611.105144.714390.48
SSE2 PAlign5766.874721.734326.42
SSE2 PAlign SSE6612.425144.154441.71
MMX Block 4kb4450.462940.434063.30
MMX Block 16kb4677.493201.034479.88
SSE Block 4kb4441.713087.784074.79
SSE Block 16kb4681.343245.744485.09
 

AMD 45nm Shanghai Opteron 2378的缓存架构,L3基于48路集合关联

AMD 45nm Shanghai Opteron 2378的缓存架构,L3基于32路集合关联,并且容量只有2MB

Intel 45nm Harptertown Xeon E5430的缓存架构,L3基于24路集合关联

  基本上,与处理器结合最紧密的L1,或L2(在有L3的情况下)的延迟总是跟处理器频率密集相关的(这让笔者想起了一个有趣的故事:有些时候Prescott的寄存器存取延迟甚至不如L1/L2的延迟),从总体测试结果来看,Shanghai的L1、L2设计要比Barcelona进步多了,同时其效能也比Intel的Harptertown要高,内存带宽方面,Shanghai处理器明显要比Barcelona要高出30~40%左右,刨去频率上的差异,同频Shanghai的缓存/内存性能要比Barcelona强约10%/20%,也比Intel Harptertown要强。从处理器架构上说,只有Nehalem才是Shanghai设计的对手。

  CineBench R10

  CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。


AMD Shanghai Opteron 2378测试成绩

CineBench R10
处理器
双路AMD Shanghai
Opteron 2378
双路AMD Barcelona
Opteron 2350
双路Intel Harpertown
Xeon E5430
显卡---
CPU Benchmark
Rendering (1 CPU)2188 CB-CPU1797 CB-CPU2931 CB-CPU
Rendering (x CPU)
13682 CB-CPU
10734 CB-CPU
16806 CB-CPU
Multiprocessor Speedup
6.25x
5.97x
5.73x
OpenGL Benchmark
OpenGL Standard
118 CB-GFX
98 CB-GFX
176 CB-GFX

 AMD Shanghai Opteron 2378测试成绩对比

   单处理器的渲染性能,Opteron 2378要比Opteron2350要高21.8%,频率上的差异则是20%,因此同频性能提升的很微弱。从频率效能来看,这方面仍然是Penryn Xeon架构要为好一些,得分超出了频率上的差异。

  在多处理器的渲染测试中,Shanghai性能比Barcelona高27.5%,超出了频率上的提升,也就是说Shanghai的多核心效率更高。Multiprocessor Speedup就体现了这个参数,Shanghai达到了6.25,这是笔者见过的最高值,明显地超出了Barcelona的5.97,也比Harpertown的5.73要高。顺便提一下,四核带超线程Core i7(Nehalem的桌面版本)的这个参数是4.24(因为超线程虚拟出来的处理器效能并不如真正的处理器),因此双路四核的Nehalem-EP估计能比Shanghai的效能高。

  WebBench v5.0

  WebBench是针对服务器作为Web Server时的性能进行测试,我们在被测服务器上安装了IIS6.0组件,以提供测试所需的Web服务。在测试中我们开启了网络实验室中的60台客户端,分别使用了WebBench 5.0内置的动态CGI以及静态页面脚本对服务器进行了测试。

  静态测试是由客户端读取预先放置在服务器Web Server下的Web页面(wbtree),这项测试主要考察的是服务器磁盘系统以及网络连接性能。我们使用了实验室中的60台客户端,配合Static_mt.tst多线程静态脚本测试向被测服务器发送请求。

  动态测试偏重于对服务器CPU子系统的性能测试,它对于Web服务器提供了足够的负载。我们将一个C语言编写的CGI源文件Simcigi.c编译为Simcgi.exe,并将其作为动态测试中的CGI脚本。在测试过程中,每台安装了WebBench客户端软件的PC,会在300秒的时间内持续向服务器发送CGI请求,而控制台会纪录并汇总服务器所响应CGI请求的数据。CGI测试的成绩高低,主要取决于服务器处理器子系统性能的优劣。处理器子系统包括CPU、内存以及内存控制器,CPU频率、缓存以及内存容量大小和内存带宽,都会影响该项成绩。


AMD Shanghai处理器 - WebBench静态页面性能

  静态页面性能实际上取决于网卡,一般的单口服务器受限于千兆网卡带宽,为18000左右。一般的双千兆网卡捆绑可以达到22000每秒处理请求数的性能,而nForce Pro 3600的双网卡达到了28000TPS。


AMD Shanghai处理器 - WebBench动态页面性能

  通常WebBench动态页面性能不主要依赖于网卡带宽而依赖于处理器性能、内存子系统性能,然而现在依靠着带宽强大的直联架构,AMD Shanghai/Barcelona平台在测试中大大强于,以至于它们达到了网卡的极限,导致三个平台的表现都很接近。

  NetBench v7.03

  NetBench 7.03 Ent_dm.tst测试脚本模拟的是企业级文件服务器应用,它不但要求被测服务器的磁盘子系统可以提供足够的吞吐量,还需要其具有较高的IO处理能力,并且需要较为平衡的读取能力和写入能力。

 
AMD Shanghai处理器 - NetBench吞吐量

  在所有外围条件都一致的情况下,Shanghai的吞吐量要比Barcelona高17%,主频在NetBench当中并不是主要因素,关于这一点可以看这里《评测机密:文件服务器性能提升N大要义》,更高的吞吐量是因为Shanghai的缓存-内存性能得到了明显提升的缘故

  Benchmark Factory 4.6

  我们在被测服务器上安装了Microsoft SQL 2005 SP1,按照测试要求建立了数据库。BF在测试之前会在数据库中生成9个表,其中包括4个500万行的表格,每行包括100字节的数据,因此每个表格容量大约是476MB,整个数据库容量为1.86GB。我们用60个客户端模拟1000个用户,在这个数据库中进行查询、添加、删除、修改等操作。

 

  从后台精确的测试数据来看两平台具体数值差异:AMD Shanghai平台的性能要比Barcelona强26%左右,比主频上的20%提升要高。最高TPS达到了60000。此外,AMD Shanghai Opteron 2378(2.4GHz)也要比频率高的Xeon E5430(2.66GHz)表现要强。

  【IT168评测中心】虽然现在的AMD Shanghai缺乏对应的芯片组支持,无法提供HT3.0总线连接,同时DDR2-667内存也部分拖累了性能,然而和上一代Barcelona巴塞罗那相比,Shanghai上海具备了更高的主频、更大更快的L3缓存、经过改进的内存子系统,内部架构也有一些改进,因此45nm Shanghai比起65nm Barcelona来具有了明显的进步,在环境一切不变的情况下IPC提升幅度约为10%左右,而且同样的价格下可以买到更高的频率,因此45nm Shanghai有望挽回65nm Barcelona由于种种原因延迟发布带来的负面影响,改善Opteron在当前主流服务器市场的处境。


AMD 45nm Shanghai/上海 Opteron 2378实物照

  和使用了FBD内存的Intel的Xeon平台相比,AMD Opteron具有功耗上的优势,我们的感觉是FBD内存就像一个电炉一样,而R-ECC DDR2内存则很凉爽。从纯粹的计算性能上看,双路条件下主流的E5400系列Xeon仍然要强于AMD Shanghai,不过我们看到直联架构具有多核计算效率较高的优势,在大规模并行系统上有望强于Xeon平台,同时通常的服务器应用能很好地适应AMD的NUMA架构以及内存直联架构,例如,在SQL Server数据库测试当中Shanghai的成绩就相当理想,比Xeon平台好上不少。


AMD Shanghai/上海晶圆超级大图(2560x1742),包括了4个完整的四核上海CPU

  由于采用了新的工艺,45nm Shanghai的功耗大为降低,虽然准确的测试结果还要留待下一篇SPEC CPU 2006的测试文章中,不过我们可以觉察得出这个趋势,同时企业级用户通常是需要就进行购买,不存在观望的做法,Shanghai对旧有系统的良好兼容可以让用户平滑地过渡,同时Shanghai的价格也更低,AMD的已有客户从现在起没有什么理由不直接选择Shanghai。


AMD支持四路Shanghai处理器的Fiorano平台,基于SR5690 IOH和SP6100南桥

  现在AMD Shanghai确实具有一个机会,它比陈旧的Xeon架构在性能功耗比上具有优势,假如AMD能尽快地推出HT3.0/Fiorano平台的话,在两路Nehalem出现之前,将可以扭转Barcelona Opteron在今年的表现。

0
相关文章