优点
2U设计升级空间大
应用Shanghai处理器,较之前有明显提升
数据库应用性能突出
缺点
板载阵列卡规格单一
【IT168评测中心】2008年11月13日,AMD正式发布了“Shanghai”处理器,作为未来AMD在服务器产品中的主打产品。相比之前饱经坎坷的Barcelona来说,Shanghai到目前为止依然是一帆风顺。虽然相比Barcelona来说在架构上提升不大,但是Shanghai制程上的提升却提供了比Barcelona好得太多的性能。最近,我们收到了来自曙光送测的一款双路四核服务器,就是应用了Shanghai处理器,而服务器的型号为A620r-FX。
从型号来看,A620r-FX并不是曙光新推出的产品。在AMD发布Shanghai处理器之后,曙光也同时将自己的所有Barcelona服务器升级为Shanghai,为用户提供了更好的选择。相比Barcelona来说,Shanghai主要是在以下方面进行了提升:
Shanghai处理器架构图
Shanghai与Barcelona对比图
首先,Shanghai从Barcelona的65nm工艺提升到了45nm,工艺提升带来的好处就是提供了更低的功耗,进而也可以将处理器的主频提升得更高一些。其次,Shanghai处理器提供了容量为6MB的三级缓存容量,而Barcelona的三级缓存容量只有2MB,相比之下容量提升了三倍,进一步提升了处理器的效率。第三,相比Barcelona最高仅能够支持DDR2-667内存来说,Shanghai处理器最高可以支持到DDR2-800内存,比Barcelona提供的带宽高了20%,传输速度更快。第四,在Shanghai处理器中,AMD还是用了内存优化技术,增强了预读取技术,2倍的核心探测带宽。第五,之前Barcelona时代,仅能够支持HyperTransport 1.0总线,提供的带宽只有8GB/s;在升级到了Shanghai之后,可以提供HyperTransport 3.0总线,带宽也升级到了17.6GB/s(不过,最初一批发布的Shanghai处理器依然只支持HyperTransport 1.0总线)。最后,Shanghai处理器还提供了RVI功能(Rapid Virtualisation Indexing),提供了更快的虚拟地址转换速度,并提供虚拟化迁移功能。
诸多的更新给Shanghai处理器带来了新的特征,AMD也希望通过Shanghai扭转Barcelona目前的不利局面。之前,我们进行过Shanghai处理器在曙光A650r-FX服务器上的详细评测——全国首发 AMD Shanghai/上海性能评测,下面我们再来看看本次送测的曙光A620r-FX在测试中的表现究竟如何。
本次我们收到的曙光A620r-FX是一台2U规格的双路四核服务器,它的体积为87mm(高)×425mm(宽)×685mm(深)。A620r-FX是一款应用AMD处理器的服务器,在Shanghai处理器推出之后,曙光已经将其由原来的双路AMD Opteron 2350升级到了Opteron 2378。
服务器的正面设计得比较简单,我们可以看到它提供了6个3.5寸热插拔磁盘仓,同时还提供了一台DVD光驱。
在DVD光驱上方,有两个USB2.0接口,旁边是服务器状态指示灯,标明目前的服务器状态。接口下方是服务器开关和重启按键。
服务器背面的设计也很简单。我们看到了一个VGA接口、键盘和鼠标接口、一个电源接口和两个网络接口。曙光A620r-FX没有提供冗余电源。
值得一提的是曙光A620r-FX上盖还贴了一张简易安装/拆卸图,方便用户的操作。
按照服务器上的说明,我们打开了上盖。在服务器内部,我们可以直接看到4个风扇对机箱内部的整体进行散热。由于2U服务器的内部空间较大,曙光A620r-FX内部并没有使用任何导风罩。
服务器内部使用的泰安S2932-E主板
方便的开关和重启按钮
和我们之前测试的曙光A650r-FX服务器(测试文章:平滑过渡上海 曙光A650服务器性能评测)一样,A620r-FX内部也使用的是泰安S2932-E主板。这款主板使用的是nVIDIA nForce Pro 3600+NEC nPD720400+SMSC DME5017的芯片组搭配方式,支持双路AMD Opteron处理器,板载LSI 1068E控制芯片(支持RAID 0、RAID 1和RAID 1E阵列),支持双通道DDR2 800/667内存。
除了上面介绍的设备之外,曙光A620r-FX服务器还提供了两个PCI-E X8 (长度为PCI-E X16)插槽、三个PCI-X插槽和一个PCI插槽,为用户升级提供了可能。
这就是服务器中安装的AMD Opteron 2378处理器。它采用了45nm工艺制程,集成了7.05亿晶体管,拥有共享6M的三级缓存,主频为2.4GHz,AMD官方公布的ACP(处理器平均功耗)为75W。
服务器使用的三星内存
服务器中提供了8根编号为M393T2950EZA的三星1GB DDR2-667 REG ECC内存,使得服务器的内容总容量达到了8GB。测试过程中我们也开启了Shanghai处理器内部的内存控制提供了四个内存通道(每个处理器提供两个内存通道)。
在服务器上,我们发现安装了两块富士通MBA3147RC硬盘,硬盘的规格为146GB 15000rpm 16MB缓存容量。考虑到泰安S2932-E主板板载了LSISAS1068E芯片,我们测试过程中使用了RAID 0阵列,追求非常好的的性能表现。
服务器的显示芯片使用的是常见的ATI ES1000,具备了32MB DDR显存,提供了基本的图形性能。
板载的千兆网络芯片
这是服务器板载的网络芯片,型号为Marvell 88E1121的千兆芯片,为服务器提供了两个千兆网卡接口。
板载的NEC控制芯片提供了两个PCI-X 插槽(芯片左边白色的插槽)
最后,我们来看看曙光A620r-FX的供电部分。它所使用的是EMACS出品的电源,型号为P2M-6601P,最大输出功率为600W。由于在更换Shanghai处理器之后功率较之前有明显下降,加之服务器内部的磁盘和散热器数量不多,我们觉得600W的电源应用起来也不会有太大的问题。
测试平台、测试环境 | ||||
测试分组 | ||||
类别 | 曙光A620r-FX | |||
处理器子系统 | ||||
处理器 | 双路AMD Shanghai Opteron 2378 | |||
处理器代号 | Shanghai | |||
处理器封装 | Socket F 1207 | |||
处理器规格 | 四核 | |||
处理器指令集 | MMX,3DNow!,SSE,SSE2,SSE3,SSE4A,x86-64 | |||
主频 | 2.00GHz | |||
处理器外部总线 | HTL:1000MHz | |||
L1 D-Cache | 4x 64KB 2路集合关联 | |||
L1 I-Cache | 4x 64KB 2路集合关联 | |||
L2 Cache | 2x 512KB 16路集合关联 | |||
L3 Cache | 2MB 32路集合关联 | |||
主板型号 | Tyan S2932-E | |||
北桥芯片组(MCH) | NVIDIA nForce PRO 3600 | |||
北桥芯片特性 | - | |||
内存控制器 | 每CPU集成双通道DDR2-667 | |||
内存 | 1GB R-ECC DDR2 667 SDRAM x8 | |||
系统磁盘子系统 | ||||
磁盘控制器 | 板载LSISAS1068E | |||
磁盘控制器规格 | SAS 3Gbps | |||
磁盘控制器设置 | RAID 0 | |||
磁盘控制器驱动 | LSI MegaRAID SAS 3.8.0.32 | |||
磁盘 | Fujitsu MBA3147RC x2 | |||
磁盘规格 | 15000RPM 147GB SAS 3Gbps 16MB Cache | |||
磁盘设置 | SATA 3Gbps 50GB系统分区 | |||
网络子系统 | ||||
NVIDIA nForce Pro 3600 integrated MAC with Marvell 88E1121 PHY GbE Controller x2 | ||||
网卡设置 | ForceWare Teaming Load Balancing | |||
网卡驱动 | NVIDIA NIC/LAN v67.76.1 | |||
软件环境 | ||||
操作系统 | Windows Server 2008 Enterprise x64 Edition SP1 |
我们针对曙光A620r-FX服务器进行了详细的设置,除了安装必需的驱动之外,我们将两块磁盘组建RAID 0阵列,希望获得更好的磁盘性能。不过对于泰安S2932-E主板来说,由于使用了NVIDIA nForce Pro 3600芯片组自带的网络控制器(Mac控制器 + Marvell 88E1121 PHY芯片),在组建网卡Teaming功能的时候和常用的方式有些区别,具体的组建方法我们请看这里:nForce Pro 3600芯片组Teaming功能设置。
ScienceMark v2.0 Membench
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
SiSoftware Sandra Pro Business 2009
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从Sandra 2007开始支持SSE4指令集。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。
IOMeter 2006.07.27
IOMeter是一款功能非常强大的IO测试软件,它除了可以在本机运行测试本机的IO(磁盘)性能之外,还提供了模拟网络应用的能力。在这次的测试中,我们仅仅让它在本机运行测试服务器的磁盘性能。为了全面测试被测服务器的IO性能,我们分别选择了不同的测试脚本。
Max_IO(read):文件尺寸为512B,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取操作IO处理能力
Max_IO(write):文件尺寸为512B,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入操作IO处理能力
Max_throughput(read):文件尺寸为64KB,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取吞吐量
Max_throughput(write):文件尺寸为64KB,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入吞吐量
NetBench v7.03
NetBench是针对文件服务器的性能测试软件,影响NetBench性能的主要是服务器的磁盘子系统,服务器磁盘控制器、条带大小、读写缓存、硬盘类型、组建磁盘阵列模式、内存容量、网络拓朴结构等都会对测试结果有明显的影响。我们在被测服务器上设立了文件服务器,NetBench通过网络实验室中60个客户端来模拟网络中的PC向文件服务器所发出的文件传输请求,文件服务器则将存储在磁盘上的文件数据发送给相应的客户端。在测试过程中,客户端会以每四台一组的步进依次增加并且向服务器发送文件传输请求,测试结束后控制台收集数据并绘制出服务器的数据传输变化曲线。
Benchmarkfactory 4.6
大部分的服务器应用都同数据库有着密切的联系,因此我们今年开始着手在在服务器测试中加入对于数据库性能的测试。我们选择了Benchmark Factory 4.6软件和Microsoft SQL2005来测试不同的硬件平台在数据库应用中的表现。
我们选择了BF内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。
系统功耗监测
我们使用UNI-T UT71E智能数字万用表对于被测服务器系统的整体功耗进行了监测,利用随机附带的接口程序,我们可以记录被测服务器任意时间段内的功率变化。
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
ScienceMark Membench | |
厂商 | 曙光 |
产品型号 | A620r-FX |
内存技术参数 | 1GB REG ECC DDR2 667 *8 |
L1带宽 | 48158.43 |
L2带宽 | 14248.91 |
内存带宽(MB/s) | 6644.23 |
L1 Cache Latency(ns) | |
32 Bytes Stride | 1.25 |
L2 Cache Latency(ns) | |
4 Bytes Stride | 1.25 |
16 Bytes Stride | 1.25 |
64 Bytes Stride | 3.75 |
256 Bytes Stride | 6.25 |
512 Bytes Stride | 6.25 |
Memory Latency(ns) | |
4 Bytes Stride | 1.25 |
16 Bytes Stride | 5.00 |
64 Bytes Stride | 20.00 |
256 Bytes Stride | 34.58 |
512 Bytes Stride | 82.50 |
Algorithm Bandwidth(MB/s) | |
Compiler | 2847.53 |
REP MOVSD | 2875.50 |
ALU Reg Copy | 2650.25 |
MMX Reg Copy | 2934.70 |
MMX Reg 3dNow | 6470.09 |
MMX Reg SSE | 6644.23 |
SSE PAlign | 5791.58 |
SSE PAlign SSE | 6574.96 |
SSE2 PAlign | 5796.36 |
SSE2 PAlign SSE | 6575.78 |
MMX Block 4kb | 4319.52 |
MMX Block 16kb | 4555.56 |
SSE Block 4kb | 4303.42 |
SSE Block 16kb | 4561.81 |
首先我们进行的是ScienceMark的测试,主要考察系统的处理器和内存带宽情况。我们看到,在L1带宽和L2带宽的测试中,曙光A620r-FX的表现一般,这样的成绩和至强E5400系列处理器的成绩非常接近,相比上一代的Barcelona处理器来说有了很大的进步。不过在内存带宽的测试项目中,因为Shanghai处理器内部整合了内存控制器,加上我们使用8条内存满足了主板四通道的需求,它的内存带宽测试分数达到了6644分,成绩不错。而在接下来的指令(集)测试中,这个成绩也非常醒目,相比至强E5400系列处理器来说毫不逊色,个别项目还略有胜出。
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。我们使用了SiSoftware Sandra的2009版,它可以支持各种最新的CPU指令集,并能良好地支持多核、多线程,我们主要用其来评估平台的理论计算性能。
SiSoftware Sandra Pro Business 2009 | ||
测试对象 | 曙光A620r-FX 双路AMD Shanghai Opteron 2378 2.4GHz | |
Processor Arithmetic Benchmark 处理器架构测试 | ||
Dhrystone ALU | 71286MIPS | |
Dhrystone ALU vs SPEED | 29.93MIPS/MHz | |
Whetstone iSSE3 | 55586MFLOPS | |
Dhrystone iSSE3 vs SPEED | 23.16MFLOPS/MHz | |
Processor Multi-Media Benchmark 处理器多媒体测试 | ||
Multi-Media Int x16 aSSE2 | 219.21MPixel/s | |
Multi-Media Int x16 aSSE2 vs SPEED | 91.34kPixels/s/MHz | |
Multi-Media Float x8 iSSE2 | 135.26MPixel/s | |
Multi-Media Float x8 iSSE2 vs SPEED | 56.36kPixels/s/MHz | |
Multi-Media Double x4 iSSE2 | 74.23MPixel/s | |
Multi-Media Double x4 iSSE2 vs SPEED | 30.93kPixels/s/MHz | |
Multi-Core Efficiency Benchmark | ||
Inter-Core Bandwidth | 3.68GB/s | |
Inter-Core Bandwidth vs SPEED | 1.57MB/s/MHz | |
Inter-Core Latency (越小越好) | 121ns | |
Inter-Core Latency vs SPEED (越小越好) | 0.05ns/MHz | |
Memory Bandwidth Benchmark 内存带宽测试 | ||
Int Buff'd iSSE2 Memory Bandwidth | 17.15GB/s | |
Int Buff'd iSSE2 Memory Bandwidth vs SPEED | 26.36MB/s/MHz | |
Float Buff'd iSSE2 Memory Bandwidth | 17.15GB/s | |
Float Buff'd iSSE2 Memory Bandwidth vs SPEED | 26.36MB/s/MHz | |
Memory Latency Benchmark 内存延迟测试 | ||
Memory(Random Access) Latency (越小越好) | 116ns | |
Memory(Random Access) Latency vs SPEED (越小越好) | 0.174ns/MHz | |
Speed Factor (越小越好) | 91.80 | |
Internal Data Cache | 3clocks | |
L2 On-board Cache | 16clocks | |
L3 On-board Cache | 56clocks | |
Cache and Memory Benchmark 缓存及内存测试 | ||
Cache/Memory Bandwidth | 81.72GB/s | |
Cache/Memory Bandwidth vs SPEED | 34.87MB/s/MHz | |
Speed Factor | 32.20 | |
Internal Data Cache | 298.87GB/s | |
L2 On-board Cache | 162.65GB/s | |
.NET Arithmetic Benchmark .NET架构测试 | ||
Dhrystone .NET | 25057MIPS | |
Dhrystone .NET vs SPEED | 10.44MIPS/MHz | |
Whetstone .NET | 29678MFLOPS | |
Whetstone .NET vs SPEED | 12.37MFLOPS/MHz | |
.NET Multi-Media Benchmark .NET多媒体测试 | ||
Multi-Media Int x1 .NET | 34.16MPixel/s | |
Multi-Media Int x1 .NET vs SPEED | 14.23kPixels/s/MHz | |
Multi-Media Float x1 .NET | 6.10MPixel/s | |
Multi-Media Float x1 .NET vs SPEED | 2.54kPixels/s/MHz | |
Multi-Media Double x1 .NET | 19.50MPixel/s | |
Multi-Media Double x1 .NET vs SPEED | 8.12kPixels/s/MHz |
磁盘性能是我们考核服务器性能的重要方便,而且磁盘性能会对接下来的服务器应用测试造成很大的影响。在测试中,考虑到板载的LSISAS1068E芯片只能支持RAID 0、RAID1和RAID 1E三种模式,我们使用曙光A620r-FX提供的两块富士通146GB SAS磁盘组成了RAID 0阵列,追求更好的性能表现。
这是曙光A620r-FX的磁盘读写IOps曲线。在组建RAID 0阵列后,我们看到读取和写入两条曲线的走向绝大部分是一致的,除了最初出现的系列差别之外,两者最终都稳定在了30000-35000 IOps,这样的成绩对于双磁盘RAID 0来说不高,而出现这种情况的主要原因还是使用了板载阵列芯片,如果使用独立阵列卡的话相信会好很多。
在吞吐量测试的部分中,读写两条曲线则出现了明显的变化。读取吞吐量一如既往的稳定,保持在200-250 MBps之间,而写入吞吐量在32和128两个位置的时候出现了明显的降低。在之前的RAID 0测试中,也出现过随着队列深度的加大,写入性能明显降低的情况(参见:绿色IT概念 ASUS RS160-E5服务器评测、小身形高性能 DELL1950III服务器评测)。至于具体的下降幅度,则要看各款服务器所使用的阵列卡性能了。
NetBench 7.03 Ent_dm.tst测试脚本模拟的是企业级文件服务器应用,它不但要求被测服务器的磁盘子系统可以提供足够的吞吐量,还需要其具有较高的IO处理能力,并且需要较为平衡的读取能力和写入能力。
在刚才磁盘IOps的测试中,我们分析到曙光A620r-FX所使用的是板载阵列芯片,芯片功能也较为单一,因此测试结果不是很理想。而在文件服务器的测试中,我们看到最终的成绩只有700 Mbps出头,对于使用Server 2008 64bit的系统来说这样的成绩并不算高(因为我们测试同一台服务器,Server 2008相比Server 2003来说可以提升文件服务器测试性能8%-10%),看来结果依然与阵列卡有着很大的关系。
我们在被测的服务器上安装了Microsoft SQL 2005,按照测试要求建立了数据库。BF在测试之前会在数据库中生成9个表,其中包括4个500万行的表格,每行包括100字节的数据,因此每个表格容量大约是476MB,整个数据库容量为1.86GB。我们用60个客户端模拟1000个用户,在1-1000的区间内以100个为一组依次增加,在这个数据库中进行查询、添加、删除、修改等操作。
数据库性能是我们衡量一台服务器综合性能的重要因素之一,这里我们也对曙光A620r-FX服务器进行了数据库性能方面的测试。测试结果显示,在400个客户端的时候,服务器能够处理的数据达到了63972 Tps,这也是曙光A620r-FX的最大值。之后,随着客户端数量的不断增加,测试曲线出现了缓慢下降的趋势,最终维持在50000 Tps左右。应该说这样的测试成绩还是不错的,特别是考虑到RAID 0磁盘系统,我们觉得曙光A620r-FX用于中小企业的数据库还是能够满足需要的。
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
CineBench R10 | ||
处理器 | 双路AMD Barcelona Opteron 2378 | |
显卡 | ATI ES1000 | |
CPU Benchmark | ||
Rendering (1 CPU) | 2802 CB-CPU | |
Rendering (x CPU) | 16618 CB-CPU | |
Multiprocessor Speedup | 5.93x | |
OpenGL Benchmark | ||
OpenGL Standard | 136 CB-GFX |
从测试结果来看,在单处理器下曙光A620r-FX的测试得分为2802,多处理器下的得分为16618。而在我们之前的测试中,Opteron 2350处理器的两项测试成绩大概为1800和12000左右,相比之下Shanghai的性能要强出许多,这样的成绩和至强E5400系列差不多。
我们利用UNI-T UT71E智能数字万用表和相配套的软件对于对于被测服务器在几种不同的状态下的功耗进行了监测,主要包括如下项目:
P1:连接电源但不开机状态
P2:系统启动完毕,5分钟内无动作,但不休眠
P3:系统启动完毕,处理器满载(CPU占用率100%)工作
我们在三种情况下对于服务器在关机、待机和满载三种不同状态下的功耗进行了测试。结果显示,在加电关机状态下,服务器的功耗只有4.7W,属于比较低的范围。在开机无动作一段时间之后(不休眠),服务器的功耗为175.9W,在双路服务器中算是比较低的功耗。在满载状态下,曙光A620r-FX服务器的功耗也只有270.9W,在同级别服务器中并不高。综合来看,本次我们测试的曙光A620r-FX的功耗并不高,这一方面由于Shanghai处理器的应用在很大程度上降低了功耗,另一方面由于服务器内部仅仅使用了4个散热器,两块磁盘,因此用电量也不大。
在AMD发布45nm处理器Shanghai之后,曙光在第一时间将自己的全线AMD服务器也升级到了Shanghai处理器(当然这也需要主板BIOS版本的支持)。虽然目前的Shanghai处理器还只能够支持HT1.0总线,但是就性能提升来说,相比上一代65nm的Barcelona已经有了明显的进步。本次我们测试的曙光A620r-FX服务器在2U双路服务器中配置并不是最出色的,但是凭借Shanghai处理器依然表现出了不错的性能。
在我们的测试中,可以很明显的感觉到Shanghai处理器相比Barcelona来说在运算上的进步,无论是Sisoftware还是Cinbench测试软件都可以说明这一点。在磁盘数量较少和缺少独立阵列卡的情况下,曙光A620r-FX在磁盘系统的测试中表现尚可,在相关的文件处理器项目测试中也表现出了应有的水平,700 Mbps的成绩如果在独立阵列卡的支持下相信会有更大的进步。而在数据库测试中,曙光A620r-FX可圈可点,近64000的最大Tps非常突出,在双路服务器中能够有这样的表现已经是非常不错的了,我们相信这个成绩也得利于Shanghai处理器。
值得一提的是,在功耗测试中,没有使用任何硬件节能措施,也没有进行内部导风设计的A620r-FX表现突出,即便是在满负载的情况下功耗也只有270W,在双路服务器中这样的成绩很值得表扬,当然这和它使用了Shanghai处理器也有很大的关系。
总体来说,在更换为Shanghai处理器之后,曙光A620r-FX服务器的测试性能较同级别Barcelona产品来说有了明显的进步,相比至强E5400产品也毫不逊色;而且由于Shanghai处理器的功耗较低,在功耗测试中的表现也很好,对于中小企业来说比较适合用作数据库服务器。