【IT168评测中心】11月13日,AMD在美国正式发布了代号为"Shanghai"、“上海”的最新一代处理器,首先发布的是服务器产品线上的产品,在一个星期之后,这款AMD最新一代的CPU终于抵达了我们IT168评测中心。
AMD Shanghai/上海,采用了45nm工艺制程(这也是AMD CPU第一次采用45nm),集成了7.05亿晶体管,拥有共享6M的三级缓存,增强的双通道内存控制器可以同时支持DDR2内存和DDR3内存,内置了4条Hyper Transport总线以支持组建大规模并行系统,“上海”还支持AMD的快速虚拟化索引(RVI)的AMD-V虚拟化技术,同时具备48位物理寻址能力,寻址空间可以达到(256TB)。“上海”还兼容Socket F(1207),旧有的系统只需要升级BIOS就可以支持新的CPU,从而可以保护用户的投资。
AMD 45nm Shanghai/上海 Opteron 2378实物照
由于20天前,Shanghai就已经在国外发布了,因此在全球范围内已经有了一些零星的性能数据出现(例如一些国外的媒体上),然而完整的服务器性能评测尚未有见到,现在,我们IT168评测中心就带给你AMD Shanghai的实际性能表现。
作为AMD从65nm工艺转向45nm工艺的首款产品,AMD Shanghai在架构方面和上一代处理器Barcelona很相似,其实,处理器新架构的研发无不耗资甚巨,因此一个长生命力的架构对整个生态圈都是有利的,例如K8架构就一直沿用到现在,NetBurst架构也顽强地存活了近十年。如此这般,AMD Shanghai的架构也是在上一代产品上进行的改进,使用更先进的工艺制程,提高性能并提供新的功能。
仔细看,上海的架构(上)与巴塞罗那的架构(下),是不是很有相似之处?
AMD Barcelona/巴塞罗那架构图
Shanghai的重点放在提升制程方面而不是架构方面,AMD Shanghai的指导思想就是让客户可以用很低的成本从Barcelona平滑过渡到Shanghai,为了保护用户的投资,Shanghai还采用了和Barcelona一样的Socket F 1207插槽。由于包括TLB问题在内的各种困扰,Barcelona一路坎坷,Shanghai的推出就是为了挽回市场,因此必须很平易近人。从现在的资料来看,Shanghai的确做到了这一点:良好的兼容性、更好的性能、更低的功耗以及更低的价格。
在同样的价格下,买到的Shanghai处理器的频率要比Barcelona要高,并且具有更强的性能
AMD 45nm Shanghai Opteron 2378实物照
概括起来,AMD上海的改进有:
1、45nm沉浸式光刻技术,更低的功耗和更高的主频
2、更大的三级高速缓存,容量达到了6MB(上一代是2MB)
3、内存控制器的更新:支持DDR2-800, 比上一代DDR2-667的内存带宽提高10%。
4、AMD内存优化技术,增强的预取技术,2倍的核心探测带宽
5、支持HyperTransport 3.0总线,带宽增加到17.6GB/s(2.2GHz HT3,预计在2009年春)
6、增强的虚拟化技术:RVI,提升虚拟机切换速度并提供虚拟化迁移功能
AMD 45nm Shanghai Opteron 2378实物照
AMD Shanghai/上海晶圆超级大图(2560x1742),包括了4个完整的四核上海CPU
AMD Shanghai核心区间划分,注意和上图CPU核心的方向刚好是左右相反的
AMD Shanghai/上海晶圆,注意和上图相比,L3缓存的面积有所降低
AMD的45纳米制程工艺是联合IBM一同研发的。有趣的是,与英特尔的高-K金属栅极不同,AMD和IBM的技术是超低K电介质互联。而另两项相关技术分别是:多重增强晶体管应变技术和沉浸式平板印刷术。
简单来说,多空、超低K电介质可以降低串联电容、降低写入延迟和能量消耗,从而明显提升性能功耗比;而沉浸式平板印刷术,实际上就是在激光蚀刻头的中间加入一种特殊的液体来修正光的折射,从而让其在晶圆上更好的刻录晶体管。用这种工艺设计生产的SRAM芯片可获得大约15%的性能提升。真正解决AMD在45纳米技术难题的是多重增强晶体管应变技术,AMD和IBM称,与非应变技术相比,这一新技术能将P沟道晶体管的驱动电流提高80%,将N沟道晶体管的驱动电流提高24%。
AMD表示,这些技术不但可以用在45纳米领域,还是未来32纳米处理器制程的关键技术。
左:45nm Shanghai Opteron 2378
右:65nm Barcelona Opteron 2354
左:45nm Shanghai Opteron 2378
右:65nm Barcelona Opteron 2354
左:45nm Shanghai Opteron 2378
右:65nm Barcelona Opteron 2354
架构图:Intel Nehalem VS AMD Shanghai
AMD Shanghai VS AMD Barcelona VS Intel Nehalem | |||||
AMD Shanghai | AMD Barcelona | Intel Nehalem | |||
工艺 | 45nm | 65nm | 45nm | ||
晶体管数量 | 7.05亿 | 4.63亿 | 7.31亿 | ||
核心数量 | 4核 | 4核 | 4核 | ||
核心尺寸(宽x高) | 13.7mm x 17.8mm | - | 13.0mm x 18.9mm | ||
核心面积 | 243mm2 | 283mm2 | 246mm2 | ||
每核心面积(不包括L2) | ~15.3mm2 | - | ~24.4mm2 | ||
L2缓存 | 4 x 512KB | 4 x 512 KB | 4 x 256 KB | ||
L2缓存面积 | 4? x 3.75mm2 | - | 4 x 1.78mm2 | ||
L3缓存 | 6MB | 2MB | 8MB | ||
L3缓存面积(不包括Tag) | 45mm2 | - | 45.6mm2 | ||
内存控制器 | 双通道DDR2 533/667/800 双通道DDR3 | 双通道DDR2 533/667 | 三通道DDR3 | ||
IO总线 | 3 x HT1.0 双向带宽8GB/s 未来会支持4x HT3.0 双向带宽17.6GB/s | 3 x HT1.0 双向带宽8GB/s 未来会支持更多数量 | 2 x QPI |
桌面版本的Nehalem处理器评测,我们已经有了不少的文章:再攀性能之巅 Intel全新酷睿i7深度评测、性能大幅提升 Core i7 服务器应用测试。
一直以来,AMD平台在芯片组上面可以说是处于劣势,竞争对手Intel推行的平台策略,每当新的处理器推出的时候,总有成套的芯片组、主板推出,并不断地改进、优化,而AMD这方面一直依赖于第三方芯片组提供商(AMD自家也有服务器芯片组,不过很是少见)。
Tyan S2932-E双路Opteron主板,也是今次测试使用的主板
很微妙地,在服务器市场,其芯片组都依赖于AMD在图形市场的竞争对手——NVIDIA的芯片组(还有ServerWorks也有相关芯片组产品;ServerWorks已被Broadcom收购)。虽然Opteron处理器已经集成了内存控制器,不过外部IO对于服务器来说是至关重要的,因此第三方芯片组主要扮演的是PCIE/PCI-X总线提供者,用来连接各种外部设备。比AMD Shanghai早些时候发布的Intel Nehalem架构里面采用的模块化设计已经可以将PCIE控制器、显卡等集成在处理器内部,这方面Intel的设计可以说是走在了AMD的前方——相对于直联架构、集成内存控制器这方面落后来说。
然而Shanghai核心的服务器产品已经现身市场了,而Nehalem服务器版本仍然要等到2009年度,因此AMD仍然具有时间来进行同样的工作。
AMD支持四路Shanghai处理器的Fiorano平台,基于SR5690 IOH和SP6100南桥
不管如何,在近几年内,AMD仍然需要使用芯片组,虽然目前存在的nForece Pro平台之需要进行一些Microcode升级就可以支持上海处理器,然而总是依赖于第三方芯片组也不现实,因此AMD将会在明年推行一个叫做Fiorano的平台解决方案,由SR5690 I/O Hub和SP6100南桥组成,每个SR5690通过HT3.0总线连接到一个Shanghai处理器,提供42条PCIE Lanes,并集成了IOMMU来提供I/O虚拟化功能。Fiorano平台包括了两个SR5690芯片,因此可以提供强大的I/O带宽。其实只要AMD愿意,它甚至可以每一个Shanghai Opteron配备一个SR5690芯片。
Fiorano平台也不一定是4路的,最有可能也应该是最普及的应该是双路Shanghai服务器/工作站,在工作站配置下,可以配置两块SR5690芯片,总共提供4条PCIE x16插槽,图形工作站应该会采用这种配置。
早在07年底AMD推Barcelona的时候,其路线图上就已经出现了Shanghai的身影,现在,路线图上Shanghai的下一代自然也就浮出水面了,它就是Magny-Cours马尼库尔、Sao Paulo圣保罗。在它们之间,将会有一款6核心的Shanghai处理器产品,名字就叫Istanbul伊斯坦布尔。和Barcelona巴塞罗那、Shanghai上海都是F1方程式赛车的赛道名一样,Magny-Cours马尼库尔在法国、Sao Paulo圣保罗则在巴西,而Istanbul伊斯坦布尔是位于土耳其(全称:土耳其共和国The Republic of Turkey)的一个海港。
Istanbul同样也采用了45nm制程工艺,并且也会同样是基于Shanghai核心,提升核心数量是提升计算密度的一个常用、有效的方法。Istanbul将会实现当前Shanghai未能实现的HT3.0总线。当然现在的Shanghai处理器未能实现HT3.0也是因为芯片组的缘故,预计Istanbul面市的时候,AMD Fiorano平台已经准备好了。更大的连接带宽可以提升处理器之间的连接速率和处理器与IOH之间的连接速率,进一步提升处理器的性能。明年Q2的上海将可以提供HT3.0。
AMD六核心Istanbul伊斯坦布尔架构图
Intel也于前段时间推出了六核心的45nm Penryn产品,而Nehalem-EP也会具有6核心乃至8核心的版本。
基于AMD保护用户投资的思想,现有的Opteron平台可以很容易地升级到Shanghai平台,当然,现在要使用Shanghai处理器,你也没有其他选择,Fiorano平台还没有出来。本次Shanghai评测基于一台曙光A650服务器,原配的是双路Barcelona Opteron 2350处理器,测试结果并会与我们IT168评测中心的DELL PowerEdge 2900 III服务器进行对比,测试对比平台的详细参数如下:
测试平台、测试环境 | |||||
测试分组 | |||||
类别 | Dawning A650服务器 双路AMD Shanghai Opteron 2378 | Dawning AS650服务器 双路AMD Barcelona Opteron 2350 | 双路Xeon E5430基准平台 DELL PE2900 III服务器 | ||
处理器子系统 | |||||
处理器 | 双路AMD Shanghai Opteron 2378 | 双路AMD Barcelona Opteron 2350 | 双路Intel Xeon E5430 | ||
处理器架构 | AMD 45nm Shanghai | AMD 65nm Barcelona | Intel 45nm Penryn | ||
处理器代号 | Shanghai | Barcelona | Harpertown | ||
处理器封装 | Socket F 1207 | Socket F 1207 | Socke 771 LGA | ||
处理器规格 | 四核 | 四核 | 四核 | ||
处理器指令集 | MMX,3DNow!,SSE,SSE2,SSE3,SSE4A,x86-64 | MMX,3DNow!,SSE,SSE2,SSE3,SSE4A,x86-64 | MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,EM64T,VT | ||
主频 | 2.40GHz | 2.00GHz | 2.66GHz | ||
处理器外部总线 | HTL:1000MHz | HTL:1000MHz | FSB:1333MHz | ||
L1 D-Cache | 4x 64KB 2路集合关联 | 4x 64KB 2路集合关联 | 4x 32KB 8路集合关联 | ||
L1 I-Cache | 4x 64KB 2路集合关联 | 4x 64KB 2路集合关联 | 4x 32KB 8路集合关联 | ||
L2 Cache | 2x 512KB 16路集合关联 | 2x 512KB 16路集合关联 | 2x 6144KB 16路集合关联 | ||
L3 Cache | 6MB 48路集合关联 | 2MB 32路集合关联 | |||
主板 | |||||
主板型号 | Tyan S2932-E | Tyan S2932-E | DELL PE2900 III | ||
北桥芯片组(MCH) | NVIDIA nForce PRO 3600 | NVIDIA nForce PRO 3600 | Intel 5000X | ||
北桥芯片特性 | - | - | 12MB Snoop Filter | ||
内存控制器 | 每CPU集成双通道DDR2-800 | 每CPU集成双通道DDR2-667 | 北桥集成四通道FBD DDR2 | ||
内存 | 2GB R-ECC DDR2 667 SDRAM x4 | 2GB R-ECC DDR2 667 SDRAM x4 | 2GB FBD DDR2 667 SDRAM x4 | ||
系统磁盘子系统 | |||||
磁盘控制器 | LSI MegaRAID SAS Controller | LSI MegaRAID SAS 8208ELP Controller | DELL Perc 5/i RAID Controller | ||
磁盘控制器规格 | SAS 3Gbps | SAS 3Gbps | SAS 3Gbps | ||
磁盘控制器设置 | RAID 5 | RAID 5 | RAID 5 | ||
磁盘控制器驱动 | LSI MegaRAID SAS 3.8.0.32 | LSI MegaRAID SAS 3.8.0.32 | LSI SAS 3.8.0.32 | ||
磁盘 | Fujitsu MBA3147RC x3 | Fujitsu MBA3147RC x3 | Seagate Cheetah 15K.5 ST314655SS x3 | ||
磁盘规格 | 15000RPM 147GB SAS 3Gbps 16MB Cache | 15000RPM 147GB SAS 3Gbps 16MB Cache | 15000RPM 146GB SAS 3Gbps 16MB Cache | ||
磁盘设置 | SATA 3Gbps 30GB系统分区 | SATA 3Gbps 30GB系统分区 | SAS 3Gbps 20GB系统分区 | ||
网络子系统 | |||||
网卡 | NVIDIA nForce Pro 3600 integrated MAC with Marvell 88E1121 PHY GbE Controller x2 | NVIDIA nForce Pro 3600 integrated MAC with Marvell 88E1121 PHY GbE Controller x2 | Broadcom BCM5708C PCI-E千兆网卡 x2 | ||
网卡设置 | ForceWare Teaming Load Balancing | ForceWare Teaming Load Balancing | Broadcom NIC Teaming Load Balancing | ||
网卡驱动 | NVIDIA NIC/LAN v67.76.1 | NVIDIA NIC/LAN v67.76.1 | Broadcom NetXtreme 2 11.04.01 | ||
软件环境 | |||||
操作系统 | Microsoft Windows Server 2003 R2 Enterprise Edition SP2 | Microsoft Windows Server 2003 R2 Enterprise Edition SP2 | Microsoft Windows Server 2003 R2 Enterprise Edition SP2 |
三个平台都同样为流行的双路四核配置,磁盘子系统也相仿,都是基于LSI的硬件阵列卡,三个15000RPM SAS硬盘组建RAID 5阵列。在测试的时候均使用了端口聚合功能来提升网络IO带宽。
需要特别注明的一点是:Shanghai处理器支持R-ECC DDR2-800内存,而曙光A650服务器搭配的只是R-ECC DDR2-667内存,性能上会有所差异。尚不清楚Tyan S2932-E能否使用R-ECC DDR2-800内存。
最后,还有两点不得不特别说明:首先,我们的基准平台基于Intel 5000X芯片组,带有12MB Snoop Filter缓存,它可以提升在内存密集型计算方面的效率,比起主流的Intel 5000P芯片组具有比较明显的优势。
其次,曙光服务器的主板采用了NVIDIA nForce Pro 3600芯片组自带的网络控制器(Mac控制器 + Marvell 88E1121 PHY芯片),它的网卡Teaming功能非常不同凡响:
NVIDIA的网卡组合技术——也就是一般所说的网卡Teaming功能
这个功能有时会因为提示网卡使用了VLAN而无法打开(当然这时候VLAN功能是已经关闭了),并且几经周折设置好了之后,它和通常的网卡Teaming表现不同:它居然没有增加新的虚拟聚合网卡!例如Intel、Marvell、Broadcom这样的网卡厂商,在使用端口聚合/Teaming功能之后,都会生成一个新的虚拟网卡,这个网卡就是可以设置IP地址等信息的管理所有流量的网卡。
这两块NVIDIA的网卡不是这样,在设置网卡组合功能之后,系统设备完全没有变化——你需要在一块网卡上设置好IP地址、网关、子网掩码,同时保留另外一块网卡为自动获取IP,这样才能正常使用组合功能。希望用到这个功能的新用户看了之后可以不用再走我们走过的弯路。
测试方法介绍
ScienceMark v2.0 Membench
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
CineBench R10
CineBench是基于Cinem3D物理建模软件的一个测试程序,主要针对处理器子系统、内存子系统和显示子系统,可以完善地支持多核/多线程。对于服务器来说显示子系统并不重要,因此主要用它来测试处理器子系统和内存子系统。
SiSoftware Sandra 2009
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。我们使用了SiSoftware Sandra的2009版,它可以支持各种最新的CPU指令集,并能良好地支持多核、多线程,我们主要用其来评估平台的理论计算性能。
WebBench v5.0
WebBench是针对服务器作为Web Server时的性能进行测试,我们在被测服务器上安装了IIS6.0组件,以提供测试所需的Web服务。在测试中我们开启了网络实验室中的56台客户端,分别使用了WebBench 5.0内置的动态CGI以及静态页面脚本对服务器进行了测试。
静态测试是由客户端读取预先放置在服务器Web Server下的Web页面(wbtree),这项测试主要考察的是服务器磁盘系统以及网络连接性能。我们使用了实验室中的56台客户端,配合Static_mt.tst多线程静态脚本测试向被测服务器发送请求。
动态测试偏重于对服务器CPU子系统的性能测试,它对于Web服务器提供了足够的负载。我们将一个C语言编写的CGI源文件Simcigi.c编译为Simcgi.exe,并将其作为动态测试中的CGI脚本。在测试过程中,每台安装了WebBench客户端软件的PC,会在300秒的时间内持续向服务器发送CGI请求,而控制台会纪录并汇总服务器所响应CGI请求的数据。CGI测试的成绩高低,主要取决于服务器处理器子系统性能的优劣。处理器子系统包括CPU、内存以及内存控制器,CPU频率、缓存以及内存容量大小和内存带宽,都会影响该项成绩。
NetBench v7.03
NetBench是针对文件服务器的性能测试软件,影响NetBench性能的主要是服务器的磁盘子系统,服务器磁盘控制器、条带大小、读写缓存、硬盘类型、组建磁盘阵列模式、内存容量、网络拓朴结构等都会对测试结果有明显的影响。我们在被测服务器上设立了文件服务器,NetBench通过网络实验室中60个客户端来模拟网络中的PC向文件服务器所发出的文件传输请求,文件服务器则将存储在磁盘上的文件数据发送给相应的客户端。在测试过程中,客户端会以每四台一组的步进依次增加并且向服务器发送文件传输请求,测试结束后控制台收集数据并绘制出服务器的数据传输变化曲线。
Benchmark Factory 4.6
大部分的服务器应用都同数据库有着密切的联系,因此在服务器测试当中这是一个很重要的测试。我们选择了Benchmark Factory 4.6软件和Microsoft SQL Server 2005来测试不同的硬件平台在数据库应用中的表现。
我们选择了BF内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。
左:45nm Shanghai Opteron 2378
右:65nm Barcelona Opteron 2354
AMD Shanghai Opteron 2378处理器,主频2.4GHz。HT总线频率1GHz
AMD 65nm Barcelona Opteron 2350处理器,主频2.0GHz。HT总线频率1GHz
Intel 45nm Harpertown Xeon E5430处理器,主频2.66GHz。FSB传输频率1333MHz
我们使用的曙光服务器的主板实际上就是Tyan S2932-E主板,基于nForece Pro 3600芯片组
Unganged双通道模式,Unganged就是未分组的意思,这种模式下两个内存通道独立工作。测试表明各方面性能和Ganged模式没有什么分别
8GB R-ECC DDR2 667 SDRAM
SiSoftware Sandra Pro Business 2009
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从Sandra 2007开始支持SSE4指令集。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。
SiSoftware Sandra Pro Business 2009 | |||
测试对象 | Dawning A650 双路AMD Shanghai Opteron 2378 2.4GHz | Dawning A650 双路AMD Barcelona Opteron 2350 2.0GHz | DELL PE2900 III 双路Intel Harptown Xeon E5430 2.66GHz |
Processor Arithmetic Benchmark 处理器架构测试 | |||
Dhrystone ALU | 63082MIPS | 51480MIPS | 91006MIPS |
Dhrystone ALU vs SPEED | 26.28MIPS/MHz | 25.74MIPS/MHz | 34.21MIPS/MHz |
Whetstone iSSE3 | 62993MFLOPS | 51400MFLOPS | 78385MFLOPS |
Dhrystone iSSE3 vs SPEED | 26.25MFLOPS/MHz | 25.70MFLOPS/MHz | 29.47MFLOPS/MHz |
Processor Multi-Media Benchmark 处理器多媒体测试 | |||
Multi-Media Int x8 aSSE2 | 187.70MPixel/s | 155.64MPixel/s | |
Multi-Media Int x8 iSSE4.1 | 199.33MPixel/s | ||
Multi-Media Int x8 aSSE2 vs SPEED | 78.21kPixels/s/MHz | 77.82kPixels/s/MHz | |
Multi-Media Int x8 iSSE4.1 vs SPEED | 74.94kPixels/s/MHz | ||
Multi-Media Float x4 iSSE2 | 81.53MPixel/s | 67.86MPixel/s | 108.69MPixel/s |
Multi-Media Float x4 iSSE2 vs SPEED | 33.97kPixels/s/MHz | 33.93kPixels/s/MHz | 40.86kPixels/s/MHz |
Multi-Media Double x2 iSSE2 | 44.51MPixel/s | 37.15MPixel/s | 55.75MPixel/s |
Multi-Media Double x2 iSSE2 vs SPEED | 18.55kPixels/s/MHz | 18.58kPixels/s/MHz | 20.96kPixels/s/MHz |
Multi-Core Efficiency Benchmark | |||
Inter-Core Bandwidth | 6.54GB/s | 2.91GB/s | 20.54GB/s |
Inter-Core Bandwidth vs SPEED | 2.79MB/s/MHz | 1.49MB/s/MHz | 7.91MB/s/MHz |
Inter-Core Latency (越小越好) | 128ns | 185ns | 90ns |
Inter-Core Latency? vs SPEED (越小越好) | 0.05ns/MHz | 0.09ns/MHz | 0.03ns/MHz |
Memory Bandwidth Benchmark 内存带宽测试 | |||
Int Buff'd iSSE2 Memory Bandwidth | 16.59GB/s | 7.12GB/s | 6.13GB/s |
Int Buff'd iSSE2 Memory Bandwidth vs SPEED | 25.52MB/s/MHz | 10.94MB/s/MHz | 9.43MB/s/MHz |
Float Buff'd iSSE2 Memory Bandwidth | 16.58GB/s | 7.13GB/s | 6.13GB/s |
Float Buff'd iSSE2 Memory Bandwidth vs SPEED | 25.50MB/s/MHz | 10.96MB/s/MHz | 9.43MB/s/MHz |
Memory Latency Benchmark 内存延迟测试 | |||
Memory(Random Access) Latency (越小越好) | 106ns | 157ns | 108ns |
Memory(Random Access) Latency vs SPEED (越小越好) | 0.16ns/MHz | 0.24ns/MHz | 0.16ns/MHz |
Speed Factor (越小越好) | 83.80 | 103.40 | 95.20 |
Internal Data Cache | 3clocks | 3clocks | 3clocks |
L2 On-board Cache | 16clocks | 16clocks | 18clocks |
L3 On-board Cache | 58clocks | 47clocks | |
Cache and Memory Benchmark 缓存及内存测试 | |||
Cache/Memory Bandwidth | 77.08GB/s | 51.17GB/s | 68.88GB/s |
Cache/Memory Bandwidth vs SPEED | 32.89MB/s/MHz | 26.20MB/s/MHz | 26.52MB/s/MHz |
Speed Factor | 36.00 | 45.50 | 111.90 |
Internal Data Cache | 299GB/s | 244.31GB/s | 421.23GB/s |
L2 On-board Cache | 162.91GB/s | 135.04GB/s | 122.68GB/s |
.NET Arithmetic Benchmark .NET架构测试 | |||
Dhrystone .NET | 12736MIPS | 9551MIPS | 10562MIPS |
Dhrystone .NET vs SPEED | 5.31MIPS/MHz | 4.78MIPS/MHz | 3.97MIPS/MHz |
Whetstone .NET | 38737MFLOPS | 31231MFLOPS | 45399MFLOPS |
Whetstone .NET vs SPEED | 16.14MFLOPS/MHz | 15.62MFLOPS/MHz | 17.07MFLOPS/MHz |
.NET Multi-Media Benchmark .NET多媒体测试 | |||
Multi-Media Int x1 .NET | 24.48MPixel/s | 20.11MPixel/s | 31.28MPixel/s |
Multi-Media Int x1 .NET vs SPEED | 10.20kPixels/s/MHz | 10.06kPixels/s/MHz | 11.76kPixels/s/MHz |
Multi-Media Float x1 .NET | 5.29MPixel/s | 4.34MPixel/s | 8.68MPixel/s |
Multi-Media Float x1 .NET vs SPEED | 2.20kPixels/s/MHz | 2.17kPixels/s/MHz | 3.26kPixels/s/MHz |
Multi-Media Double x1 .NET | 21.31MPixel/s | 17.49MPixel/s | 24.75MPixel/s |
Multi-Media Double x1 .NET vs SPEED | 8.88kPixels/s/MHz | 8.74kPixels/s/MHz | 9.30kPixels/s/MHz |
SiSoftware Sandra对比,用蓝色标出了性能特出的项目
和老的巴塞罗那相比,Multi-Core Efficiency Benchmark、Memory Bandwidth Benchmark、Memory Latency Benchmark、Cache and Memory Benchmark的成绩都得到了明显的提升,而且是在除以处理器主频的情况下,这表明处理器核心之间的Crossbar设计以及内存控制器的效率都得到了很大的改进,性能得到了成倍以上的提升。
不过,我们注意到Shanghai L3缓存的延迟似乎要比Barcelona的要高一些,此外,在纯粹的整数/浮点运算性能还具有5%左右的提升。另外,SiSoftware Sandra通常看起来会偏向Intel处理器一些,因为它可以很好地支持Intel的SSE4指令集,而AMD Shanghai的SSE4A等指令集就没这么好运了,这也能表现出Intel在编译器方面做出的努力。
详细的处理器运算效能,请期待我们的SPEC CPU 2006测试。这个测试要运行数天之久,调试也比较麻烦,因此本文未能包及。
ScienceMark v2.0 Membench
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
ScienceMark v2.0 Membench L1测试成绩
ScienceMark v2.0 Membench L2测试成绩
ScienceMark v2.0 Membench 内存测试成绩
首先我们进行的是ScienceMark的测试,主要考察系统的缓存和内存子系统情况。L1/L2 Cache的成绩主要是跟处理器频率相关,因为目前的处理器当中L1 Cache都是和处理器核心同频率的,而L2 Cache基本上也是——当前的处理器L2都是全速的(放置在处理器内但不在同一个芯片上的Pentium II为半速L2,而Pentium之前的处理器L2则和处理器分离,速度更低)。越快的频率,L1/L2性能就越好。而内存带宽主要由两部分相关:比较大的部分是内存架构,小部分是内存操作指令(集),例如使用最新的SSE指令集比通常的ALU指令集会得到更大的吞吐量,而不同的SSE版本性能也有不同。
ScienceMark Membench | |||
厂商 | Dawning | Dawning | DELL |
产品型号 | AS650 AMD Shanghai Opteron 2378 2.4GHz | AS650 AMD Barcelona Opteron 2350 2.0GHz | PowerEdge 2900 III Intel Harptown Xeon E5430 2.66GHz |
内存技术参数 | 2GB R-ECC DDR2-667 SDRAM x4 | 2GB R-ECC DDR2-667 SDRAM x4 | 2GB FBD-ECC DDR2-667 SDRAM x4 |
L1带宽(MB/s) | 48167.88 | 37069.97 | 55376.16 |
L2带宽(MB/s) | 14314.34 | 11523.46 | 16757.55 |
内存带宽(MB/s) | 6672.76 | 5144.71 | 4485.09 |
L1 Cache Latency(ns) | |||
32 Bytes Stride | 1.25 | 1.50 | 1.13 |
L1 Algorithm Bandwidth(MB/s) | |||
Compiler | 34042.63 | 28354.58 | 25201.968 |
REP MOVSD | 34864.10 | 28986.14 | 25467.15 |
ALU Reg Copy | 12166.94 | 10804.26 | 13093.65 |
MMX Reg Copy | 25698.47 | 20285.37 | 25242.19 |
SSE PAlign | 48167.40 | 37003.99 | 52826.21 |
SSE2 PAlign | 48167.88 | 37069.97 | 55376.16 |
L2 Cache Latency(ns) | |||
4 Bytes Stride | 1.25 | 1.13 | 1.13 |
16 Bytes Stride | 1.25 | 1.50 | 1.50 |
64 Bytes Stride | 3.75 | 4.51 | 4.51 |
256 Bytes Stride | 6.25 | 4.51 | 4.51 |
512 Bytes Stride | 6.25 | 4.89 | 4.89 |
L2 Algorithm Bandwidth(MB/s) | |||
Compiler | 11609.57 | 8830.23 | 118800.48 |
REP MOVSD | 12140.00 | 9964.34 | 12536.88 |
ALU Reg Copy | 9273.71 | 7660.43 | 8577.86 |
MMX Reg Copy | 12042.45 | 9754.61 | 13408.31 |
SSE PAlign | 14314.34 | 11523.46 | 16719.97 |
SSE2 PAlign | 14289.88 | 11502.38 | 16757.55 |
Memory Latency(ns) | |||
4 Bytes Stride | 1.67 | 2.00 | 1.13 |
16 Bytes Stride | 5.00 | 8.00 | 4.89 |
64 Bytes Stride | 20.00 | 31.00 | 19.17 |
256 Bytes Stride | 34.58 | 97.49 | 59.77 |
512 Bytes Stride | 81.24 | 107.99 | 68.04 |
Memory Algorithm Bandwidth(MB/s) | |||
Compiler | 2872.77 | 1826.24 | 3178.45 |
REP MOVSD | 2887.02 | 1851.43 | 3220.23 |
ALU Reg Copy | 2654.29 | 1606.58 | 2789.34 |
MMX Reg Copy | 2943.85 | 1882.10 | 2972.91 |
MMX Reg 3dNow | 6631.75 | 5028.88 | - |
MMX Reg SSE | 6672.76 | 5106.97 | 3978.53 |
SSE PAlign | 5765.46 | 4720.15 | 4128.59 |
SSE PAlign SSE | 6611.10 | 5144.71 | 4390.48 |
SSE2 PAlign | 5766.87 | 4721.73 | 4326.42 |
SSE2 PAlign SSE | 6612.42 | 5144.15 | 4441.71 |
MMX Block 4kb | 4450.46 | 2940.43 | 4063.30 |
MMX Block 16kb | 4677.49 | 3201.03 | 4479.88 |
SSE Block 4kb | 4441.71 | 3087.78 | 4074.79 |
SSE Block 16kb | 4681.34 | 3245.74 | 4485.09 |
AMD 45nm Shanghai Opteron 2378的缓存架构,L3基于48路集合关联
AMD 45nm Shanghai Opteron 2378的缓存架构,L3基于32路集合关联,并且容量只有2MB
Intel 45nm Harptertown Xeon E5430的缓存架构,L3基于24路集合关联
基本上,与处理器结合最紧密的L1,或L2(在有L3的情况下)的延迟总是跟处理器频率密集相关的(这让笔者想起了一个有趣的故事:有些时候Prescott的寄存器存取延迟甚至不如L1/L2的延迟),从总体测试结果来看,Shanghai的L1、L2设计要比Barcelona进步多了,同时其效能也比Intel的Harptertown要高,内存带宽方面,Shanghai处理器明显要比Barcelona要高出30~40%左右,刨去频率上的差异,同频Shanghai的缓存/内存性能要比Barcelona强约10%/20%,也比Intel Harptertown要强。从处理器架构上说,只有Nehalem才是Shanghai设计的对手。
CineBench R10
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
CineBench R10 | |||
处理器 | 双路AMD Shanghai Opteron 2378 | 双路AMD Barcelona Opteron 2350 | 双路Intel Harpertown Xeon E5430 |
显卡 | - | - | - |
CPU Benchmark | |||
Rendering (1 CPU) | 2188 CB-CPU | 1797 CB-CPU | 2931 CB-CPU |
Rendering (x CPU) | 13682 CB-CPU | 10734 CB-CPU | 16806 CB-CPU |
Multiprocessor Speedup | 6.25x | 5.97x | 5.73x |
OpenGL Benchmark | |||
OpenGL Standard | 118 CB-GFX | 98 CB-GFX | 176 CB-GFX |
AMD Shanghai Opteron 2378测试成绩对比
单处理器的渲染性能,Opteron 2378要比Opteron2350要高21.8%,频率上的差异则是20%,因此同频性能提升的很微弱。从频率效能来看,这方面仍然是Penryn Xeon架构要为好一些,得分超出了频率上的差异。
在多处理器的渲染测试中,Shanghai性能比Barcelona高27.5%,超出了频率上的提升,也就是说Shanghai的多核心效率更高。Multiprocessor Speedup就体现了这个参数,Shanghai达到了6.25,这是笔者见过的最高值,明显地超出了Barcelona的5.97,也比Harpertown的5.73要高。顺便提一下,四核带超线程Core i7(Nehalem的桌面版本)的这个参数是4.24(因为超线程虚拟出来的处理器效能并不如真正的处理器),因此双路四核的Nehalem-EP估计能比Shanghai的效能高。
WebBench v5.0
WebBench是针对服务器作为Web Server时的性能进行测试,我们在被测服务器上安装了IIS6.0组件,以提供测试所需的Web服务。在测试中我们开启了网络实验室中的60台客户端,分别使用了WebBench 5.0内置的动态CGI以及静态页面脚本对服务器进行了测试。
静态测试是由客户端读取预先放置在服务器Web Server下的Web页面(wbtree),这项测试主要考察的是服务器磁盘系统以及网络连接性能。我们使用了实验室中的60台客户端,配合Static_mt.tst多线程静态脚本测试向被测服务器发送请求。
动态测试偏重于对服务器CPU子系统的性能测试,它对于Web服务器提供了足够的负载。我们将一个C语言编写的CGI源文件Simcigi.c编译为Simcgi.exe,并将其作为动态测试中的CGI脚本。在测试过程中,每台安装了WebBench客户端软件的PC,会在300秒的时间内持续向服务器发送CGI请求,而控制台会纪录并汇总服务器所响应CGI请求的数据。CGI测试的成绩高低,主要取决于服务器处理器子系统性能的优劣。处理器子系统包括CPU、内存以及内存控制器,CPU频率、缓存以及内存容量大小和内存带宽,都会影响该项成绩。
AMD Shanghai处理器 - WebBench静态页面性能
静态页面性能实际上取决于网卡,一般的单口服务器受限于千兆网卡带宽,为18000左右。一般的双千兆网卡捆绑可以达到22000每秒处理请求数的性能,而nForce Pro 3600的双网卡达到了28000TPS。
AMD Shanghai处理器 - WebBench动态页面性能
通常WebBench动态页面性能不主要依赖于网卡带宽而依赖于处理器性能、内存子系统性能,然而现在依靠着带宽强大的直联架构,AMD Shanghai/Barcelona平台在测试中大大强于,以至于它们达到了网卡的极限,导致三个平台的表现都很接近。
NetBench v7.03
NetBench 7.03 Ent_dm.tst测试脚本模拟的是企业级文件服务器应用,它不但要求被测服务器的磁盘子系统可以提供足够的吞吐量,还需要其具有较高的IO处理能力,并且需要较为平衡的读取能力和写入能力。
AMD Shanghai处理器 - NetBench吞吐量
在所有外围条件都一致的情况下,Shanghai的吞吐量要比Barcelona高17%,主频在NetBench当中并不是主要因素,关于这一点可以看这里《评测机密:文件服务器性能提升N大要义》,更高的吞吐量是因为Shanghai的缓存-内存性能得到了明显提升的缘故。
Benchmark Factory 4.6
我们在被测服务器上安装了Microsoft SQL 2005 SP1,按照测试要求建立了数据库。BF在测试之前会在数据库中生成9个表,其中包括4个500万行的表格,每行包括100字节的数据,因此每个表格容量大约是476MB,整个数据库容量为1.86GB。我们用60个客户端模拟1000个用户,在这个数据库中进行查询、添加、删除、修改等操作。
从后台精确的测试数据来看两平台具体数值差异:AMD Shanghai平台的性能要比Barcelona强26%左右,比主频上的20%提升要高。最高TPS达到了60000。此外,AMD Shanghai Opteron 2378(2.4GHz)也要比频率高的Xeon E5430(2.66GHz)表现要强。
【IT168评测中心】虽然现在的AMD Shanghai缺乏对应的芯片组支持,无法提供HT3.0总线连接,同时DDR2-667内存也部分拖累了性能,然而和上一代Barcelona巴塞罗那相比,Shanghai上海具备了更高的主频、更大更快的L3缓存、经过改进的内存子系统,内部架构也有一些改进,因此45nm Shanghai比起65nm Barcelona来具有了明显的进步,在环境一切不变的情况下IPC提升幅度约为10%左右,而且同样的价格下可以买到更高的频率,因此45nm Shanghai有望挽回65nm Barcelona由于种种原因延迟发布带来的负面影响,改善Opteron在当前主流服务器市场的处境。
AMD 45nm Shanghai/上海 Opteron 2378实物照
和使用了FBD内存的Intel的Xeon平台相比,AMD Opteron具有功耗上的优势,我们的感觉是FBD内存就像一个电炉一样,而R-ECC DDR2内存则很凉爽。从纯粹的计算性能上看,双路条件下主流的E5400系列Xeon仍然要强于AMD Shanghai,不过我们看到直联架构具有多核计算效率较高的优势,在大规模并行系统上有望强于Xeon平台,同时通常的服务器应用能很好地适应AMD的NUMA架构以及内存直联架构,例如,在SQL Server数据库测试当中Shanghai的成绩就相当理想,比Xeon平台好上不少。
AMD Shanghai/上海晶圆超级大图(2560x1742),包括了4个完整的四核上海CPU
由于采用了新的工艺,45nm Shanghai的功耗大为降低,虽然准确的测试结果还要留待下一篇SPEC CPU 2006的测试文章中,不过我们可以觉察得出这个趋势,同时企业级用户通常是需要就进行购买,不存在观望的做法,Shanghai对旧有系统的良好兼容可以让用户平滑地过渡,同时Shanghai的价格也更低,AMD的已有客户从现在起没有什么理由不直接选择Shanghai。
AMD支持四路Shanghai处理器的Fiorano平台,基于SR5690 IOH和SP6100南桥
现在AMD Shanghai确实具有一个机会,它比陈旧的Xeon架构在性能功耗比上具有优势,假如AMD能尽快地推出HT3.0/Fiorano平台的话,在两路Nehalem出现之前,将可以扭转Barcelona Opteron在今年的表现。