时光荏苒,我们熟悉的HP ProLiant服务器已经进入了第七代,也就是我们常说的G7系列。作为惠普融合基础设施产品组合的一部分,G7系列通过提供标准化、模块化、集成化的高性能设计,将促进企业数据中心向融合架构发展。同时,G7系列也延续了ProLiant绿色节能的风潮。今天,我们就来介绍一款AMD四路机架式服务器——ProLiant DL585 G7。
惠普ProLiant DL585 G7服务器
本次,我们测试的惠普ProLiant DL585 G7服务器是一台四路机架式产品,更为特别的是它搭配了目前优异的12核心处理器Opteron 6172,这也使得它的核心数量达到了48个,是目前四路机架式产品中的旗舰机型。
惠普ProLiant DL585 G7服务器前面板及背面接口
我们看到,惠普ProLiant DL585 G7服务器一共可以支持8块2.5英寸SAS硬盘,本次送测的机器自带了5块硬盘。应对四路应用的需要,服务器提供了4个电源作为系统供电,互为冗余,保证了服务器运行的稳定性。
前端的处理器及内存部分
和我们常见的服务器不同,这款惠普ProLiant DL585 G7服务器的处理器、内存等大部分配件都被安放在服务器前端,使用的是热插拔的设计,可以方便技术人员随时更换硬件。
对于四路服务器来说,我们测试的频率并不高,而且由于厂商对于这种面向大中型企业的产品往往倾注了更多的精力,所以在这些产品上也经常可以看出厂商的设计能力。这里,我们接触的ProLiant DL585 G7就是一台与众不同的服务器。
ProLiant DL585 G7内部
四个高效能散热风扇
服务器内部的板载插槽
按照惯例,我们打开了ProLiant DL585 G7,却发现了一个奇怪的事实——我们只看到了一款扩展卡及少量的主板不见,真正重头的处理器和内存并非在机身内部。这是一个让人颇感奇怪的事情,它们究竟去哪了呢?
双层设计的处理器及内存插槽
正如我们前面所说,ProLiant DL585 G7的处理器和内存都安装在了机箱前部,而且是双层设计,这样才保证了在较小的空间内实现四路的高密度运行。
AMD 12核心马尼库尔处理器插槽
每颗处理器还搭配了12个内存插槽
应该说,ProLiant DL585 G7服务器的最大特点就是使用了12核心的AMD马尼库尔(Magny-Cours)处理器。虽然这颗处理器的并非是划时代的架构设计,但至少从核心来说Magny-Cours在目前的X86处理器中是远远领先的,Intel至今也只有8核心的处理器。为了能够更好的发挥处理器性能,特别是因为Magny-Cours处理器内置了四通道内存控制器,惠普在这里为每颗处理器搭配了12条内存插槽,最大支持到128
对于新款的马尼库尔(Magny-Cours)处理器,好多人都想一睹它的真容。虽然之前在许多照片上都能看到它,但是这次我们可以骄傲的说——终于看到活的了。
AMD皓龙6172处理器,也就是我们常说的马尼库尔
规格在这里看得一清二楚
送测的ProLiant DL585 G7服务器搭配了4颗Opteron 6172处理器,这款处理器使用的是G34接口,主频为2.1GHz,三级缓存为10MB。由于使用的是12核心,我们看到皓龙6172处理器的体积非常大,产品整体呈长方形,这是因为两颗Istanbul/伊斯坦布尔在封装之后虽然性能更强,但是体积也变大了。AMD最终还是没能摆脱“胶水”的命运,虽然它之前为了远离“胶水”而苦苦挣扎,但是在现实面前还是踏上了这条不归路。
三星4GB DDR3 1333内存,惠普一共提供了24条这样的内存
服务器使用的是MBD2147RC硬盘,一共5块组成阵列
测试中,我们使用的是5块富士通MBD2147RC硬盘组建的RAID5阵列。2.5英寸硬盘最大的特点是在同体积下较3.5英寸硬盘可以提供更好的IOps,这样对于我们提升服务器的I/O性能也大有帮助。
其实在ProLiant DL585 G7的机箱中,有一块多功能的扩展卡,这个卡上的芯片及其丰富,也就是下面我们要介绍的这款产品。
扩展卡接口
应该说,凡是服务器应有的芯片及高级管理芯片,这款扩展卡上都提供了,可谓是一应俱全。这也是为什么我们在ProLiant DL585 G7内部看到较大空间的原因,由此也看出了HP在设计上的特别之处。
这是一颗Reltec RTM880N-790频率发生器,它的主要用途是对频率的控制和调节都非常精确,相比一般的频率发生器提供了更多的频率及电压参数调整,主要是保证服务器的稳定运行
这是惠普P410i阵列卡的芯片,阵列卡内存为1GB
HP的iLO3芯片——高级远程管理模块
iLO3管理是ProLiant G7亮点,目前iLO 3是高级远程管理模块的最新版本,速度比上一代版本提升了8倍,提高了大部分企业管理人员的生产力并直接管理最大的运维成本中心。iLO 3管理软件支援通讯协定的SSL安全加密,连线速度上也因为传输优化而较G6采用的前一代iLo2提升了50%的速度。
Marvell Alaska 88E1240芯片
Marvell的Alaska 88E1240芯片,这款芯片产品最大支持8个千兆网口。88E1240具备低电源消耗、先进的省电模式以及高度整合等特性,能大幅降低高端口密度交换应用的系统成本并提高散热效率。
最大功率1200W的电源,服务器提供了4台的充分冗余
从我们刚刚介绍的内容来看,本次送测的惠普ProLiant DL585 G7服务器是一台面向高端企业级应用的4路48核心机架式服务器,它所提供的计算密度相当大,而且12核心的处理器也是当今的优异产品。对于这台服务器的性能,我们充满了期待与渴望。接下来,我们就要对它进行全方位的测试了。
在2009年秋我们IT168评测中心网络实验室搬迁到新的机房之后,我们又对实验室的服务器测试平台进行了大幅度的升级,先是将已有的Cisco Catalyst 4506千兆交换机升级到3个模块,达到了一共120个千兆网络端口,还新购买了30台DELL PowerEdge T100服务器,配合原有的30台DELL PowerEdge SC430服务器以及30台PC作为网络测试的客户端,可以提供非常充足的测试压力。
网络实验室控制台
在新的测试环境下,我们进一步完善了服务器性能测试方案:
SPEC CPU 2006 v1.1
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。
SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了Intel C++ 11.1.034 Compiler、Intel Fortran 11.1.034 Compiler这两款SPEC CPU 2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(假如只支持SSE3,则使用QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64位的Windows Server 2008 R2 Datacentere下完成,对于每个运算核心,最低配置1.5GB内存。
SiSoftware Sandra v2010
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3&SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一,SiSoftware Sandra 2010对NUMA架构以及最新的Windows 7/Windows Server 2008 R2提供了更好的支持,此外测试项目和测试结果也有了略微的变化。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。
Benchmark Factory for Databases 5.7.1g
我们选择了Benchmark Factory for Databases 5.7.1g软件来进行测试,它是我们之前使用的4.6的升级版本。
我们选择了BF内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。关系性数据库就是用二维表格结构来表示实体及实体之间联系模型的数据库形式。
BF通过一台独立的控制台控制我们的60台服务器充当的客户端产生数据库测试压力,由于客户端所有的资源都用来产生数据库操作,因此可以给服务器施加相当大的测试压力。
CineBench R11.5
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,在服务器测试平台中显示子系统不重要,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
本次评测的惠普ProLiant DL585 G7服务器配置的是四路AMD Opteron 6172处理器,这是目前的优异产品,性能非常强劲。测试对比平台的详细参数如下:
测试平台、测试环境 | |
测试分组 | |
类别 | 惠普ProLiant DL585 G7服务器 |
处理器子系统 | |
处理器 | 四路AMD Opteron 6172 |
处理器架构 | AMD 45nm Magny-Cours |
处理器代号 | Magny-Cours |
处理器封装 | Socket G34 |
处理器规格 | 12核 |
处理器指令集 | MMX,SSE,SSE2,SSE3,SSSE4 |
主频 | 2.1GHz |
处理器外部总线 | 2600MHz |
L1 D-Cache | 12x 64KB 2路集合关联 |
L1 I-Cache | 12x 64KB 2路集合关联 |
L2 Cache | 12x 512KB 16路集合关联 |
L3 Cache | 10MB 96路集合关联 |
主板型号 | ProLiant DL585 G7 |
芯片组 | AMD SR5690 AMD ID439D |
芯片特性 | - |
内存控制器 | 每CPU集成四通道Unganged DDR3 1333 |
4GB R-ECC DDR3 1333 SDRAM x24 | |
系统磁盘子系统 | |
磁盘控制器 | HP P410i/1GB |
磁盘控制器规格 | 8xSAS 6Gbps |
磁盘控制器设置 | RAID 5 |
磁盘控制器驱动 | LSI MegaSR 13.06.0212.2009 |
磁盘 | 富士通MBD2147RC x5 |
磁盘规格 | 15000RPM 147GB SAS 6Gbps 32MB Cache |
磁盘设置 | SAS 6Gbps 100GB系统分区 |
操作系统 | Microsoft Windows Server 2008 R2 Enterprise Edition x64 |
和往常的测试一样,我们在测试中选择了RAID5这种常见的阵列模式作为ProLiant DL585 G7的存储,同时使用了最新的Windows Server 2008R2操作系统。
Opteron 6172真身显现,虽然是45nm工艺,但却提供了12个核心,主频较低,只有2.1GHz
10MB共享三级缓存,太醒目了
现在,问题来了——在我们的印象及AMD的官方说明中,12核心的Opteron 6100系列都是12MB缓存的,但是这里为什么变成了10MB呢?是软件识别错误还是其他的什么原因?
在主板的设置选项中,有一个名为HT Assist的功能,全称为Hyper Transport(HT) Assist。HT Assist需要保留1MB三级缓存作为一个目录,用于跟踪系统其它地方使用的缓存行。这样,即使三级缓存只剩下了5MB,却省去了大量的探测传输,可以明显提升性能。而在本次评测的Opteron 6172主板上,我们又看到了这项功能。因为这项功能对于提升系统性能是大有帮助的,所以我们开启了它。
但是,开启之后的代价也是明显的。由于12核心的Magny-Cours源自6核心的Istanbul,事实上是将两颗Istanbul封装在一起而进行优化,所以当我们开启HT Assist功能的时候,每6MB三级缓存(也就是Istanbul的缓存)就要分配1MB给HT Assist,从而造成了12MB缓存只有10MB的局面。
一共有96GB的内存,这里只能显示出双通道
48个内存插槽,最大支持内存容量为512GB
一个屏幕已经显示不下处理器核心数量了
AMD K10系列主板
高达96GB的内存容量
这里显示主板的芯片型号为AMD RD890
内存控制器的相关信息
主板南桥,还是我们熟悉的SB系列
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。
SiSoftware Sandra Pro Business 2010 | |
测试对象 | HP ProLiant DL585 G7 |
Processor Arithmetic Benchmark 处理器架构测试 | |
Dhrystone ALU | 380.5GIPS |
Dhrystone ALU vs SPEED | 181.63MIPS/MHz |
Whetstone iSSE3 | 288.46GFLOPS |
Dhrystone iSSE3 vs SPEED | 137.69MFLOPS/MHz |
Processor Multi-Media Benchmark 处理器多媒体测试 | |
Multi-Media Int x16 aSSE2 | 1.17GPixel/s |
Multi-Media Float x8 iSSE2 | 700.2MPixel/s |
Multi-Media Double x4 iSSE2 | 384.4MPixel/s |
Multi-Media Int x16 aSSE2 vs SPEED | 556.67kPixels/s/MHz |
Multi-Media Float x8 iSSE2 vs SPEED | 334.23kPixels/s/MHz |
Multi-Media Double x4 iSSE2 vs SPEED | 183.48kPixels/s/MHz |
.NET Arithmetic Benchmark .NET架构测试 | |
Dhrystone .NET | 47GIPS |
Dhrystone .NET vs SPEED | 21.32MIPS/MHz |
Whetstone .NET | 148.1GFLOPS |
Whetstone .NET vs SPEED | 67.32MFLOPS/MHz |
.NET Multi-Media Benchmark .NET多媒体测试 | |
Multi-Media Int x1 .NET | 182.8MPixel/s |
Multi-Media Int x1 .NET vs SPEED | 83.09kPixels/s/MHz |
Multi-Media Float x1 .NET | 32.5MPixel/s |
Multi-Media Float x1 .NET vs SPEED | 14.77kPixels/s/MHz |
Multi-Media Double x1 .NET | 102.84MPixel/s |
Multi-Media Double x1 .NET vs SPEED | 46.74kPixels/s/MHz |
四路平台在这里表现出了强大的性能,这里的成绩与我们之前测试的至强5600系列产品比较接近。
SiSoftware Sandra缓存内存测试主要包括内存带宽、内存延迟等性能的测试。
SiSoftware Sandra Pro Business 2010 | |
测试对象 | HP ProLiant DL585 G7 |
Memory Bandwidth Benchmark 内存带宽测试 | |
Int Buff'd iSSE2 Memory Bandwidth | 35.54GB/s |
Int Buff'd iSSE2 Memory Bandwidth vs SPEED | 27.28MB/s/MHz |
Float Buff'd iSSE2 Memory Bandwidth | 35.58GB/s |
Float Buff'd iSSE2 Memory Bandwidth vs SPEED | 27.31MB/s/MHz |
Memory Latency Benchmark 内存延迟测试 | |
Memory(Random Access) Latency (越小越好) | 92ns |
Memory(Random Access) Latency vs SPEED (越小越好) | 0.07ns/MHz |
Speed Factor(越小越好) | 67.50 |
Internal Data Cache | 3clocks |
L2 On-board Cache | 16clocks |
L3 On-board Cache | 57clocks |
Cache and Memory Benchmark 缓存及内存测试 | |
Cache/Memory Bandwidth | 408.35GB/s |
Cache/Memory Bandwidth vs SPEED | 190.07MB/s/MHz |
Speed Factor(越小越好) | 27.90 |
Internal Data Cache | 1TB/s |
L2 On-board Cache | 697.76GB/s |
四通道内存的成绩非常不错,带宽达到了35.54GB/s。更让我们惊讶的是缓存与测试项目中的成绩,1TB/s的字样好醒目。
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
比较让人汗颜的成绩,Opteron 6172的单核心成绩只有0.63 pts,甚至低于桌面级的Core i7。不过它的MP Ratio达到了28.34x,这是一个非常高的成绩,体现出了12个物理核心的优势(超线程的虚拟核心在这里会有很大的影响)。
我们的测试服务器采用了5块富士通MBD2147RC硬盘组建了RAID 5阵列,使用的是服务器自带的P410i阵列卡。2.5英寸硬盘虽然在转速上并非是目前最快的,但是它却可以提供更好的IOps。
ProLiant DL585 G7服务器的成绩果然是很不错,我们看到它的读写IOps达到了12W的峰值成绩,这是依然非常激动人心的数字。而对于MBps来说,近800Mbps的读取速度和600Mbps的写入速度在服务器中并不多见,这都是得益于HP强大的阵列卡及2.5英寸硬盘的功劳。
本次我们测试的惠普ProLiant DL585 G7服务器是一款采用四路皓龙Opteron 6172处理器的新产品,也是惠普第七代服务器中的主力机型。本次,我们对于该服务器的基础性能进行了相关的测试,特别是考察了皓龙Opteron 6172处理器的表现能力。
惠普ProLiant DL585 G7服务器
经过初步评测,我们认为惠普ProLiant DL585 G7服务器是一台非常不错的产品,首先,它所采用的AMD皓龙6172处理器为系统提供了48个物理核心,这样从硬件规格上就让我们对其性能充满了期待。其次,它所采用的410i阵列卡和2.5英寸硬盘对性能也起到了很大的帮助,我们看到它的I/O性能也很棒。最后,由于采用了80PLUS标准的电源,使得机器的能耗控制达到了令人满意的地步,这也是G7系列服务器的特色之一。
总体来说,惠普ProLiant DL585 G7服务器是一台定位在大中型企业应用的四路服务器,性价比非常不错。