优点
-
支持双核Opteron 2000系列处理器
-
支持更低功耗的DDR2内存
-
良好的扩展性,支持多种主流扩展卡
-
板载SCSI控制器和双GbE网卡
缺点
-
暂无
【IT168评测中心】无论是Intel还是AMD的服务器厂商,今年都免不了忙活起来。Intel的动作很大而且频繁,先是发布了Bensley平台和双核Xeon 5000系列处理器,然后干脆用Core微架构取代了使用多年的Netburst微架构。近年在服务器市场上取得节节胜利的AMD也毫不放松,一口气更新了从单路到八路的全线产品:AMD Opteron 1000/2000/8000。
从外在形式上来看,新的Opteron处理器有两个方面做了明显的改变。首先是新系列的AMD Opteron处理器采用了新的命名方式,它采用了4个数字“XYZZ”,而之前的处理器则采用3个数字“XYZ”来表示。新的Opteron 1000/2000/8000系列处理器分别对应于之前的Opteron 100/200/800系列处理器。其中的Opteron 1000处理器主要用于单路服务器和工作站,2000和8000系列处理器分别用于双路配置的服务器/工作站和8路配置的服务器/工作站。
![]() |
| 图1-2:位于主板上的Socket F处理器底座 |
其次,新的Opteron处理器采用了新的封装或者接口。其中的1000系列处理器采用了同桌面处理器相同的Socket AM2接口,这同之前的Opteron 100采用Socket 939接口相似。2000和8000系列处理器则均采用了全新的Socket F接口(LGA 1207,35 x 35阵列)。
AMD在处理器接口上一直在“追随”Intel的策略很有意思。Pentium III时代时,Intel增经一度用Slot1取代使用多年的Socket接口,AMD也随即更新到了Slot A接口。Intel从Slot回归到Socket(Socket 478/603/604)之后,AMD也同样的跟随(Socket 939/940)。如今,Intel采用了LGA775/LGA771,AMD也用LGA1207附和。针锋相对?还是老片翻拍的崇敬致意?
不可否认的是,采用了LGA1207封装的Opteron处理器会比之前更加坚固,但是支持这种处理器的主板上的处理器底座损坏的几率却可能增加。这个问题,在Intel最初更换为LAG775的时候,也成为了关注的焦点。不过,使用了这么长时间之后,并没有看到Intel或者主板厂商采取什么特别措施来避免这些问题。
![]() |
| 图1-4 |
从内在来看,新双核Opteron依然沿用了AMD64技术,非常的适合目前IT部署从32bit向64bit过渡的阶段。具体到微架构的层面上,内部结构同之前的200/800系列处理器相比并没有太明显的区别,比如每个处理器核心都配置了64KB数据缓存、64KB指令缓存和1MB L2缓存。整数管线长度为12级,浮点管线长度为17级。主要的改进更体现在一些局部的地方:
直接连接架构(Direct Connect Architecture,DCA)是从Opteron诞生之日就出现的,它摒弃了前端总线结构(目前Intel依然坚持使用,并且公开表示前端总线尚未过时),这样处理器、内存控制器和I/O都可以直接以处理器同频的速度和处理器通讯,从而消除了前端总线有限带宽的瓶颈。HyperTransport技术和整合内存控制器是DCA的两个重要因素。
HyperTransport技术是一种采用高速双向传输的、低延迟、点对点通讯链路技术,它可以为处理器、I/O子系统和其它芯片之间提供可扩展的内部互联带宽。Opteron 2000/8000系列处理器最高支持3条cHT(coherent HyperTransport)链路,理论上每颗处理器有最高24GB/s的带宽。从目前AMD公布的资料来看,新的双核Opteron同之前的Opteron在这个方面并没有大的变动。
整合内存控制器设计不仅可以有效的降低了内存控制器的延迟,还能随着处理器数量的增加“线性”的扩展内存带宽。新的Opteron处理器整合了DDR2内存控制器,Opteron 1000最高可支持DDR2-800内存,理论上可以提供12.8GB/s的内存带宽,而Opteron 2000/8000处理器最高可支持DDR2-667内存,理论上可提供10.7GB/s的内存带宽。这相对于上一代Opteron是一个非常大的改进。
虚拟化已经是服务器应用中一个密不可分的部分了,它可以帮助解决“一个台服务器,一个应用”所造成的资源(计算能力、存储能力、电力等)的浪费。提供硬件辅助的AMD Virtualization™ (AMD-V™)技术结合直接连接架构可以改进虚拟化性能,使得更多的虚拟机运行在一台服务器上。其中的AMD-V则借助于部分专用电路降低截取客户机指令的开销,直接连接架构可使得客户机运行速度尽可能的接近于主机,处理器中所整合的内存控制器也支持虚拟化技术,因此可以提供更有效的虚拟机内存隔离。
根据应用的不同,新的Opteron处理器分为标准功率型、低功率型和性能优化型三种。从目前公布的产品中,Opteron 1000包括标准功率型(103W)和性能优化型(125W)两大类,Opteron 2000/8000包括标准功率型(95W)、低功率型(68W)和性能优化型(120W)三类。其中的标准功率型和低功率型均比Opteron 200(85/55W)略高一些。
具体到我们最关注的Opteron 2000系列,标准功率型包括2210、2212、2214、2216、2218,主频分别为1.8GHz,2.0GHz,2.2GHz,2.4GHz,2.6GHz。低功率型包括2212HE、2214HE、2216HE等,主频分别为2.0GHz,2.2GHz,2.4GHz。性能优化型只有一款2220SE,主频达到了2.8GHz。
从处理器本身的功耗情况来看,新Opteron系列处理器可能会比Xeon 5100系列略微逊色一些,但是考虑到内存部分,情况却变的大不一样了。新的Opteron不再采用DDR内存而是采用功耗更低的DDR2内存,内存方面的功耗理想状态下能降低30%左右,而Intel却采用了功耗极高的FBDIMM,处理器的功耗优势被内存抵消了。
曙光天阔A620r-F服务器
采用了Socket-F接口的新一代Opteron处理器发布之后,我们IT168评测中心就积极同AMD以及相关的厂商联系,希望能尽快的向用户展示基于新Opteron处理器服务器系统的性能。虽然,主板厂商ASUS(华硕)、TYAN(泰安)均推出了支持该系列处理器的产品,不过AMD公司却无法提供用于媒体测试的处理器。而大部分宣布会采用AMD处理器的服务器厂商,此时大部分都无法提供测试样品。这种局面同Intel发布Bensley平台之前就已经有多家服务器厂商送测产品形成了强烈的对比。
![]() |
| 图2-1:曙光A620r-F服务器外观 |
最后,AMD在国内重要的合作伙伴之一曙光(Dawning)提供给了我们可以运行的测试样机:天阔A620r-F机架式双路双核服务器。我们也要特意说明的是,这里展示的是曙光还在测试阶段的样品,因此今后用户在购买的时候,请以实物为准,本文所展示的图片仅供参考。
天阔A620r-F 2U机架式服务器可兼容目前的32位及64位应用,用户可在其基础上从32bit应用向64bit应用平滑过渡。A620r-F服务器主要定位于金融、税务、政府、军队、网站和学校等行业用户,可完全胜任Web、Firewall、Email、FTP、VOD、Database等关键应用。
![]() |
| 图2-2:曙光A620r-F服务器前面板 |
从外观上看,天阔A620r-F服务器同天阔A620r-E非常的相似。前面板上提供了6个可热插拔的SCSI硬盘扩展位,预装了一块日立Ultrastar HUS103014FL3800 SCSI硬盘(147GB万转)。在硬盘扩展位的右侧是5.25英寸光驱,其上方预留了安装软驱的位置。
![]() |
| 图2-3:前面板按钮、指示灯和接口 |
在前面板的最右端还设计了开机按钮、复位按钮、ID指示灯按钮,还提供了电源指示灯、磁盘状态指示灯、ID指示灯、两个网卡指示灯和两个前置USB接口。
![]() |
| 图2-4:曙光A620r-F服务器背部 |
从服务器的后部看到,送测样机采用了单电源供电,提供了PS/2键盘和鼠标接口、1个百兆以太网接口(RJ45)、2个USB接口、2个千兆以太网接口(RJ45)、1个串口(9pin)和1个VGA接口(15pin)。另外,还预留了7个PCI设备的扩展位置。特别再次提醒读者的是,这款样机的供电设计并未完全定案,正式上市的产品很可能会有变动。
![]() |
| 图2-5:曙光A620r-F服务器系统风扇 |
打开曙光A620r-F服务器的上盖可以看到系统风扇是4个平均转速在5000RPM左右的8cm风扇,它们产生的气流会依次经过处理器、内存模组、PCI扩展卡,然后离开服务器。两颗AMD Opteron 2000系列处理器均采用了主动式散热器,以进一步确保处理器稳定工作。
![]() |
| 图2-6:处理器和内存 |
曙光A620r-F服务器采用了TYAN Thunder h2000M (S3992)主板,这款主板基于Broadcom HT2000+HT1000芯片组设计,可以支持AMD最新的Opteron 2000系列处理器,在送测样机上安装了两颗uPGA 1207封装的双核Opteron 2210处理器,其主频为1.8GHz,整合了128KB L1缓存(64KB数据缓存和64KB指令缓存)和1MB x 2二级缓存,支持1GHz 16bit HyperTransport总线。
Opteron 2000系列处理器均整合了128bit内存控制器,目前可以支持Registered ECC DDR2 667MHz内存。从上图可以看出,每个处理器配置了8条240pin 1.8v DDR2插槽,理论上最大可支持64GB的内存——稳妥起见,曙光的文档中依然将最大内存容量标称为32GB。送测样机中配置了8条Ramaxel 1GB 2Rx8 PC2-4200R-444内存。
![]() |
| 图2-7:曙光A620r-F服务器扩展槽 |
曙光A620r-F服务器具有相当不错的扩展性,提供了2条PCI Express x016插槽(均为x8信号)、2条PCI-X 133/100插槽、1条PCI-X 100MHz插槽、1条PCI 32-bit/33MHz v2.3插槽和1条TYAN “TARO” SO-DIMM插槽。这些扩展插槽涵盖了目前主流的扩展卡类型,相信可以满足不同用户的需求。
![]() |
| 图2-8:曙光A620r-F服务器板载接口 |
TYAN Thunder h2000M (S3992)主板板载了adaptec AIC-7902W SCSI/RAID控制器,支持RAID 0/1/10模式,可低成本实现对于SCSI设备的支持。更可以选配诸如M7901/M7902 Ultra 320 SCSI TARO卡来升级到更高级的RAID模式。主板上还提供了4个SATA 1.5Gb/s接口,这是由HT1000所整合的SATA控制器所支持的,该控制器功能相当的强大,可支持NCQ,并提供了RAID 0/1/5/10等多种模式。
Broadcom HT-1000和HT-2000芯片组
TYAN Thunder h2000M (S3992)主板采用了Broadcom HT2000+HT1000芯片组,相对于我们经常接触的基于AMD8000或者NVIDIA nForce Pro芯片组显得有些陌生。但是如果提起Serverworks,大部分读者想必都会相当的了解,这个品牌曾经在英特尔架构的服务器/工作站芯片组领域风光无限。该厂商被Broadcom于2001年1月收购之后,转而成为了AMD的支持者。
![]() |
| 图3-1 |
HT-1000的全称是HT-1000 HyperTransport SystemI/O Controller with RAID5,芯片型号为BCM5785。这款芯片是具有较高扩展性系统I/O解决方案,可用于支持64bit/32bit处理器。
![]() |
| 图3-2:HT1000芯片,依然是ServerWorks的标识 |
因为支持HT总线,因此HT-1000可以做为一颗单芯片芯片组来使用,它可以直接连接CPU,并且可支持8x HT总线、PCI-X 64/133、SATA II、USB 2.0、32-bit PCI、LPC、IDE和SMBus。因此可用于生产和设计低成本的服务器、刀片或者桌面系统。
HT-1000最高支持8x HT端口(800MHz,3.2Gbps)。该芯片提供的PCI-X总线最多可支持5个主控制器,主板厂商可以根据需要设计不同速率和数量的PCI-X插槽,也非常的灵活。HT-1000还可支持4个SATA端口,每个端口均符合SATA 1.0规范。这些端口在XelCore软件的帮助下可以支持在线容量扩展、在线RAID组态迁移、控制器延展(Controller spanning)、镜像拆分、分布式冗余、在线阵列制作与删除、多种RAID级别、每驱动器多阵列组态、INT13控制、热交换和驱动器漫游、64bit I/O区块数量等等。
HT-1000在应用上相当的灵活,既可以单独使用,比如它以同HT-2000配合使用(如图3-1),最高提供4个PCI-Express控制器、1条PCI-X 64/133总线以及原生双GbE Broadcom控制器。因此OEM厂商可以根据客户的需求灵活的设计产品,可用于服务器、刀片甚至是桌面市场。
![]() |
| 图3-3 |
HT-2000定位于主流1-8路服务器市场,由于AMD Opteron处理器已经整合了内存控制器,因此这款芯片也主要是提供系统I/O,同HT-1000有类似的地方。利用一颗HT-1000芯片和一颗HT-2000芯片可构建双路服务器系统,而采用更多个HT-2000芯片则可以构建多路服务器(如图3-3)。更确切的说,HT-2000充当了HyperTransport到PCI/PCI-X桥和到PCIe桥的作用,也可以用于沟通两个HyperTransport端口。
HT-2000在I/O带宽、可配置性和可扩展性方面都相当的出色。HT-2000提供了16x HyperTransport端口,其运行频率可达1GHz DDR,双向数据传输带宽最高可达8GBps,这个水平的带宽已经可以满足处理器和其它设备通讯的需要了。这款芯片还提供了8x 800MHz DDR HyperTransport端口,双向带宽可达3.2 GBps——这已经完全可以满足同其它的HyperTransport I/O Hubs(比如HT-1000)通讯的需要了。
HT-2000提供的PCI-X总线最多可支持5个总线主控制器(Bus Master)和深度事务队列,服务器主板厂商可以根据产品定位或者提供更多数量但是每个速度较低的PCI-X插槽或者提供较少数量但是具有最高速度的插槽。
HT-2000对于下一代低延迟、高带宽I/O连接总线PCI-Express也提供了支持,它总共可提供17 Lanes PCI-E,可支持4个PCI-E主控制器,因此主板厂商可以提供x8 + x8 + x1或者x8 + x4 + x4 + x1或者x4 + x4 + x4 +x4或者x8 + x4 + x1等不同组合的PCI-E解决方案。HT-2000对于PCI-E设备的支持是非常灵活的。
HT-2000集成了两个服务器级GbE NIC端口(包括MAC + PHY + SerDes),并且提供了服务器级功能,比如链路聚合、VLAN标签、巨大帧、包过滤和分类,因此基于该芯片组的主板用很低的成本提供双网卡。这款芯片组还提供了UMP端口,可以同BMC通讯,处理来自GbE端口或者专用管理端口的指令。
曙光天阔A620r-F服务器BIOS功能
我们这次所测试的天阔620r服务器样机采用的是AMIBIOS,该系统功能丰富,支持多种主流规范,比如支持ACPI 2.0和SRAT、支持基于以太网的PXE、支持USB设备启动、遵循SMBIOS 2.3.1和BBS 1.1规范、支持远程访问、支持48-bit LBA等等
![]() |
| 图4-1 |
测试样机的BIOS版本为08.00.11(08/08/06),如上图所示,在Main界面上用户可以看到服务器内所安装的处理器型号、频率和内存容量。
![]() |
| 图4-2 |
Advanced设定界面包含了众多的重要功能,处理器、磁盘、软盘、日志、远程访问、USB、PCIE的配置都需要在这个界面提供的入口进入。
![]() |
| 图4-3 |
在“CPU Configuration”中,可以查看Module Version、AGESA Version、物理处理器数量和核心数量。上图显示,我们所安装的处理为双核AMD Opteron 2210处理器,主频为1800MHz,128KB L1,2048KB L2、倍频9x。
这个界面可配置的选项不多,只有GART Error Reporting、Runtime Legacy PSB和AMD PowerNow!三个选项,最后一项可以决定是否启用PowerNow!功能,启用之后Opteron处理器可以在不忙的时候进入更加节电的模式。
![]() |
| 图4-4 |
“Harware Health Configuration”界面中可以对于两个处理器温度、AMB温度、2个处理器风扇和6个系统风扇的转速进行监控。
![]() |
| 图4-5 |
在“Remote Access”配置界面,用户可以选择是否启用远程访问功能,可以指定串口、串口工作模式、流控方式、重定向方式、终端类型等参数。
![]() |
| 图4-6 |
所谓的“NorthBridge Chipset Configuration”主要是内存配置,因为实际上在Opteron系统中北桥的主要功能——内存控制器已经被集成在了Opteron中了。在上述的界面中可以查看每个CPU节电的内存配置情况,比如Memory CLK、CAS Latency、RAS/CAS Delay、Min Active RAS、Row Precharge Time、RAS/RAS Delay、Row Cycle和Asynchronous Latency等参数。
![]() |
| 图4-7 |
内存频率主要通过Memclock Mode来设定,选择Auto之后系统会自动调用内存模组SPD的设定,如果设定为Limit,则内存工作频率不会超过设定值,当然用户也可以进行全手动设定。
![]() |
| 图4-8 |
Opteron 2100系列处理器支持ECC校验,其中包括双bit侦错和单bit纠错(SEC/DED)。从上图可以看到,它还支持4-bit ECC模式,也就是我们熟悉的Chipkill技术,这项技术需要结合x4/x8/x16 DRAM芯片来使用,可以更好的解决现代服务器中内存密度、内存容量快速提升的而导致多位错误发生几率增高的问题。
测试平台和测试方法
|
曙光A620r-F服务器配置 | |
|
主板 |
TYAN Thunder h2000M (S3992) |
|
芯片组 |
Broadcom HT1000+HT2000 |
|
处理器 |
AMD Opteron 2210 x 2 |
|
主频 |
1.8GHz |
|
HTT |
1000MHz |
|
L2容量 |
1MB x 2 |
|
处理器设置 |
AMD Power Now! Disable |
|
内存 |
Ramaxel 1GB 2Rx8 PC2-4200R-444 x 8 |
|
磁盘控制器 |
板载adaptec AIC-7902W SCSI/RAID控制器 |
|
硬盘 |
日立Ultrastar 147GB万转SCSI硬盘(型号HUS103014FL3800) |
|
磁盘设置 |
磁盘分为两个分区,均为NTFS格式,系统默认簇,主分区20GB,其它分为扩展分区, 文件服务器、磁盘测试均在格式化后的扩展分区上进行 |
|
操作系统 |
Microsoft Windows Server2003,5.02.3790,SP1 |
|
网卡 |
Broadcom NetXtreme Gigabit Ethernet (BCM5780整合GbE) |
我们在上述配置的服务器上分别安装了Microsoft Windows 2003 SP1企业版,正确安装了各个硬件的驱动程序,确保服务器工作在非常好的的状态。
我们所使用的评测项目如下:
-
SPECCPU2000 v1.2
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU2000是SPEC组织推出的一套CPU子系统评估软件,它包括CINT2000和CFP2000两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能。计算系统中的处理器、内存和编译器都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2000的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了Intel C++ 8.1 Compiler、Intel Fortran 8.1 Compiler这两款SPEC CPU2000必需的编译器,另外安装了Microsoft Visual Studio 2003.net提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,可以满足Base测试。然后我们根据被测系统实际可同时处理的线程数量,设定用户数量,分别运行SPEC base和SPEC rate base测试的结果(其中SPEC base代表系统执行某个任务的速度,而SPEC base rate测试代表系统可以同时处理任务的能力)。
-
ScienceMark v2.0 Membench
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
-
IOMeter 2004.7.30
IOMeter是一款功能非常强大的IO测试软件,它除了可以在本机运行测试本机的IO(磁盘)性能之外,还提供了模拟网络应用的能力。在这次的测试中,我们仅仅让它在本机运行测试服务器的磁盘性能。为了全面测试被测服务器的IO性能,我们分别选择了不同的测试脚本。
-
Max_throughput(read):文件尺寸为64KB,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取吞吐量
-
Max_IO(read):文件尺寸为512B,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取操作IO处理能力
-
Max_throughput(write):文件尺寸为64KB,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入吞吐量
-
Max_IO(write):文件尺寸为512B,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入操作IO处理能力
-
SiSoftware.Sandra.Enterprise.v2007.5.10.98
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。今年该软件推出了2007版,该版本新增了4项基准测试,包括Power Management Efficiency、Memory Latency、Physical Disks和CD-ROM and DVD这四个项目。另外,它还对于原有的几个基准测试模块进行升级,比如在Arithmetic benchmarks中增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。
-
WebBench v5.0
WebBench是针对服务器作为Web Server时的性能进行测试,我们在被测服务器上安装了IIS6.0组件,以提供测试所需的Web服务。在测试中我们开启了网络实验室中的56台客户端,分别使用了WebBench 5.0内置的动态CGI以及静态页面脚本对服务器进行了测试。
静态测试是由客户端读取预先放置在服务器Web Server下的Web页面(wbtree),这项测试主要考察的是服务器磁盘系统以及网络连接性能。我们使用了实验室中的56台客户端,配合Static_mt.tst多线程静态脚本测试向被测服务器发送请求。
动态测试偏重于对服务器CPU子系统的性能测试,它对于Web服务器提供了足够的负载。我们将一个C语言编写的CGI源文件Simcigi.c编译为Simcgi.exe,并将其作为动态测试中的CGI脚本。在测试过程中,每台安装了WebBench客户端软件的PC,会在300秒的时间内持续向服务器发送CGI请求,而控制台会纪录并汇总服务器所响应CGI请求的数据。CGI测试的成绩高低,主要取决于服务器处理器子系统性能的优劣。处理器子系统包括CPU、内存以及内存控制器,CPU频率、缓存以及内存容量大小和内存带宽,都会影响该项成绩。
-
NetBench v7.03
NetBench是针对文件服务器的性能测试软件,影响NetBench性能的主要是服务器的磁盘子系统,服务器磁盘控制器、条带大小、读写缓存、硬盘类型、组建磁盘阵列模式、内存容量、网络拓朴结构等都会对测试结果有明显的影响。我们在被测服务器上设立了文件服务器,NetBench通过网络实验室中60个客户端来模拟网络中的PC向文件服务器所发出的文件传输请求,文件服务器则将存储在磁盘上的文件数据发送给相应的客户端。在测试过程中,客户端会以每四台一组的步进依次增加并且向服务器发送文件传输请求,测试结束后控制台收集数据并绘制出服务器的数据传输变化曲线。
-
Benchmarkfactory 4.6
大部分的服务器应用都同数据库有着密切的联系,因此我们今年开始着手在在服务器测试中加入对于数据库性能的测试。我们选择了Benchmark Factory 4.6软件和Microsoft SQL2000 SP4来测试不同的硬件平台在数据库应用中的表现。
我们选择了BF内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。
-
系统功耗监测
我们使用UNI-T UT71E智能数字万用表对于被测服务器系统的整体功耗进行了监测,利用随机附带的接口程序,我们可以记录被测服务器任意时间段内的功率变化。
|
对比服务器配置1:Opteron 270 | |
| 主板 | ASUS K8N-DRE |
| 芯片组 | NVIDIA nForce Professional 2200 |
| 驱动程序 | Ver 6.66 for 32bit WHQL |
| 处理器 | AMD Opteron 270 x 2 |
| 主频 | 2.0GHz |
| HTT | 200MHz |
| L2容量 | 1MB x 2 |
| 处理器设置 | Cool''n''Quiet Disable MPS 1.4 Enable |
| 驱动程序 | 1.2.2.0 |
| 内存 | Ramaxel 512MB DDR333 ECC REG x 4 |
| 内存时序 | 2.5-3-3-7 1CMD |
| 磁盘控制器 | nForce Pro 2200整合SATA控制器 |
| 硬盘 | WDC WD800 80GB SATA |
| 驱动程序 | 5.10.2600.534 |
| 磁盘设置 | 磁盘分为两个分区,均为NTFS格式,系统默认簇,鞣智?0GB,其它分为扩展分区 |
| 操作系统 | Microsoft Windows Server2003,Enterprise Edition |
| 网卡 | 板载Broadcom BCM5751千兆网卡 |
| 驱动程序 | 8.27.1.0 |
|
对比服务器配置2:Opteron 265 | |
|
主板 |
微星 MS-9245 |
|
芯片组 |
AMD8000 |
|
处理器 |
AMD Opteron 265(1.8GHz) x 2 |
|
内存 |
1GB REG ECC DDR400 x 4 |
|
硬盘控制器 |
板载LSI 1020/1020A控制器 |
|
存储 |
1个FUJITSU MAT3073NC 73GB硬盘 |
|
网络 |
Intel FW82504GB PCI-X双通道千兆网卡控制器 |
|
显示 |
集成ATI RageXL8M显示控制器 |
|
电源 |
AcBel API3FS10 |
|
光驱 |
Slim CD-ROM光驱 |
|
软驱 |
1.44M软驱 |
|
操作系统 |
Microsoft Windows 2000 Server Standard SP1 |
为了方便大家了解AMD Opteron 2000系列处理器的性能,我们引用了另外两个平台上的同处理器性能密切相关的测试结果。对比平台1采用的是AMD Opteron 270双核处理器(主频为2.0GHz),2GB DDR333内存,nForce Pro2200芯片组。对比平台2采用的而是AMD Opteron 265双核处理器(主频为1.8GHz),4GB DDR400内存,AMD8000系列芯片组——这个平台同曙光A620r-F采用的处理器Opteron 2210更有可比性。
处理器性能测试
|
SiSoftware.Sandra.Professional.2005.SR2a | |||
|
Processor Arithmetic | |||
| 平台 | Opteron 2210 | Opteron 265 | Opteron 270 |
| Dhrystone ALU(MIPS) | 30333 | 30368 | 33867 |
| Whetstone FPU(MFLOPS) | 11251 | 11347 | 12670 |
| Whetstone iSSE2(MFLOPS) | 14839 | 14847 | 16578 |
|
Processor Multi-Media | |||
| 平台 | Opteron 2110 | Opteron 265 | Opteron 270 |
| Integer x4 aEMMX/aSSE | 67712 | 68055 | 75872 |
| Floating x4(it/s) | 73663 | 73707 | 81996 |
由于测试周期较为紧张,我们暂时没有进行SPEC CPU2000的测试。这个部分通过Sisoftware Sandra Pro 2005和Sisoftware Sandra Pro 2007两个软件的处理器测试结果来初步了解不同的被测平台的计算能力。
从测试结果来看,主频均为1.8GHz的Opteron 2210处理器和Opteron 265处理器的性能非常的接近,无论是算数运算测试、浮点运算测试,还是多媒体测试。两个平台的内存容量虽然相差了一倍,但是在这个测试中无法体现之间的差异。Opteron 270各项测试结果均比Opteron 2210高出11-12%,这个性能差异正好是两者主频之间的性能差异:11.11%。
|
SiSoftware.Sandra.Enterprise.v2007.5.10.98 | ||
| Opteron 2210 | Opteron 270 | |
| Processor Arithmetic | ||
| Dhrystone ALU(MIPS) | 26019 | 29073 |
| Whetstone iSSE2(MFLOPS) | 21955 | 24515 |
| Processor Multi-Media | ||
| Integer x8 iSSE2(it/s) | 67557 | 75495 |
| Floating-Point x4(it/s) | 73295 | 81899 |
Sisoftware Sandra Enterprise 2007的测试结果显示Opteron 2210和Opteron 270两个平台之间的性能差异幅度为11.7%——上述4项的差异幅度均如此,这同样是因为主频的不同所带来的差异。
缓存内存性能测试
|
ScienceMark Membench | |||
| Opteron 2210 | Opteron 265 | Opteron 270 | |
|
内存带宽(MB/s) |
4532.81 | 4225.35 | 4243.7 |
|
L1 Cache Latency (ns) | |||
|
32 Bytes Stride |
1.67 | 1.67 | 1.5 |
|
L2 Cache Latency(ns) | |||
|
4 Bytes Stride |
1.67 | 1.67 | 1.5 |
|
16 Bytes Stride |
2.78 | 2.79 | 2.5 |
|
64 Bytes Stride |
9.47 | 9.47 | 8.5 |
|
256 Bytes Stride |
6.68 | 6.69 | 6.5 |
|
512 Bytes Stride |
7.24 | 7.24 | 6.5 |
|
Memory Latency(ns) | |||
|
4 Bytes Stride |
2.23 | 1.67 | 2 |
|
16 Bytes Stride |
7.24 | 7.24 | 7.5 |
|
64 Bytes Stride |
30.07 | 29.54 | 28 |
|
256 Bytes Stride |
72.96 | 53.00 | 69 |
|
512 Bytes Stride |
76.3 | 74.13 | 70.5 |
|
Algorithm Bandwidth(MB/s) | |||
|
Compiler |
2150.32 | 2033.02 | 1765.82 |
|
REP MOVSD |
2210.95 | 2060.88 | 1758.61 |
|
ALU Reg Copy |
2247.43 | 2051.71 | 1811.95 |
|
MMX Reg Copy |
2321.01 | 2137.96 | 1899.24 |
|
MMX Reg 3dNow |
4080.22 | 3836.07 | 3290.3 |
|
MMX Reg SSE |
4532.81 | 4222.72 | 3623.76 |
|
SSE PAlign |
3455.83 | 3350.08 | 2875.31 |
|
SSE PAlign SSE |
4530.49 | 4225.35 | 3624.98 |
|
SSE2 PAlign |
3456.07 | 3349.9 | 2876.13 |
|
SSE2 PAlign SSE |
4529.26 | 4222.67 | 3623.51 |
|
MMX Block 4kb |
3729.19 | 3898.09 | 3677.91 |
|
MMX Block 16kb |
4003.97 | 4167.31 | 4041.21 |
|
SSE Block 4kb |
3825.39 | 3769.51 | 3854.69 |
|
SSE Block 16kb |
4093.81 | 4008.02 | 4243.7 |
ScicenMark v2.0 Membench的测试结果显示Opteron 22210平台的内存带宽最高,达到了4.5GB/s,这应该同其采用了DDR2 533内存有关。不同算法带宽测试结果显示Opteron 2210平台也具有很明显的优势。
L1缓存延迟和L2缓存延迟测试结果显示Opteron 2210和Opteron 265处理器几乎是完全一样的。Opteron 270处理器则因为具有更高的频率而具有一定的领先优势。
内存延迟测试部分显示,Opteron 270平台和Opteron 265平台由于采用了不同的速率的内存,因此内存延迟略有不同。Opteron 2210平台则因为采用了DDR2内存,其内存延迟略有延长——但是对比基于单核Xeon和E7520/E7320芯片组使用DDR2平台的测试成绩,用户将将会发现Opteron 2210平台在256/512 Bytes Stride部分的优势非常明显。
|
SiSoftware.Sandra.Enterprise.v2007.5.10.98 | ||
| Opteron 2210 | Opteron 270 | |
| Memory Bandwidth | ||
| RAM Int Buff iSSE2(MB/s) | 10764 | 8425 |
| RAM Float Buff iSSE2(MB/s) | 10722 | 8406 |
| Memory Latency | ||
| Random Access | ||
| 1kB | 1.7 | 1.5 |
| 4kB | 1.7 | 1.5 |
| 16kB | 1.7 | 1.5 |
| 64kB | 1.7 | 1.5 |
| 256kB | 9.6 | 8.6 |
| 1MB | 12.2 | 11.2 |
| 4MB | 112.3 | 97.6 |
| 16MB | 119.3 | 102.4 |
| 64MB | 127.1 | 108.5 |
| Linear Access | ||
| 1kB | 1.7 | 1.5 |
| 4kB | 1.7 | 1.5 |
| 16kB | 1.7 | 1.5 |
| 64kB | 1.7 | 1.5 |
| 256kB | 9.6 | 8.6 |
| 1MB | 9.6 | 8.6 |
| 4MB | 30.6 | 28 |
| 16MB | 30.8 | 28 |
| 64MB | 30.7 | 28 |
| Cache and Memory(MB/s) | ||
| 2KB | 73233 | 81770 |
| 4KB | 70565 | 78787 |
| 8KB | 69892 | 77982 |
| 16KB | 72724 | 81218 |
| 32KB | 73363 | 81931 |
| 64KB | 71060 | 79351 |
| 128KB | 62404 | 69673 |
| 256KB | 56193 | 62682 |
| 512KB | 43541 | 48378 |
| 1MB | 35921 | 39154 |
| 4MB | 23093 | 21975 |
| 16MB | 9272 | 6607 |
| 64MB | 9177 | 6541 |
| 256MB | 8740 | 6225 |
| 1GB | 6990 | 4978 |
Sisoft Sandra 2007内存带宽测试结果显示Opteron 2210平台领先于Opteron 270大约27%,提升幅度相当的大。但是,Opteron 2210平台内存延迟均比Opteron 270平台长,这一点同之前的ScienceMark所反映出来的趋势是相同的。
Cache and Memory测试项目中,小于1MB的数据包测试显示Opteron 270平台占据一定的优势,处理器主频和内存延迟都是促进因素,而大于4MB的数据包测试则是Opteron 2210占优(对比之前Bensley平台的测试数据,我们会发现Opteron 2210在这个部分的数据具有明显的优势)。
磁盘子系统测试
|
IOMeter 2004.7.30 | |
|
读取IO性能(IOps) | |
| Queue Depth | |
| 1 | 9580.28 |
| 2 | 6796.16 |
| 4 | 3809.06 |
| 8 | 4172.12 |
| 16 | 4278.33 |
| 32 | 1704.75 |
| 64 | 2688.57 |
| 128 | 3261.50 |
| 256 | 3274.84 |
|
读取吞吐量(MBps) | |
| Queue Depth | |
| 1 | 5.46 |
| 2 | 15.41 |
| 4 | 74.43 |
| 8 | 76.97 |
| 16 | 75.75 |
| 32 | 76.95 |
| 64 | 75.09 |
| 128 | 75.08 |
| 256 | 74.91 |
|
写入IO性能(IOps) | |
| Queue Depth | |
| 1 | 176.77 |
| 2 | 1472.96 |
| 4 | 448.70 |
| 8 | 681.87 |
| 16 | 1075.95 |
| 32 | 2364.98 |
| 64 | 3610.23 |
| 128 | 3292.15 |
| 256 | 3606.44 |
|
写入吞吐量(MBps) | |
| Queue Depth | |
| 1 | 65.32 |
| 2 | 35.64 |
| 4 | 26.14 |
| 8 | 38.75 |
| 16 | 37.68 |
| 32 | 48.56 |
| 64 | 59.57 |
| 128 | 60.91 |
| 256 | 62.92 |
曙光A620r-F服务器板载了Adaptec AIC-7902W SCSI/RAID控制器,以实现对于SCSI设备的支持。送测样机配置了一块日立Ultrastar HUS103014FL3800 147GB 万转SCSI硬盘。从IOMeter的测试结果来看,这个磁盘子系统的性能比较一般,无论是读取测试还是写入测试,其IO处理能力平均水平只有3000-4000 IOps,读取吞吐量可以在不同Queue Depth条件下,大都可以达到74MB/s的水平,这基本上是单磁盘子系统的最大能力了。该磁盘子系统的写入吞吐量可以达到60MB/s的水平,不过不同测试条件,性能并不稳定。
需要补充说明的是,我们这次测试的曙光A620r-F服务器依然是工程样机。更重要的是,磁盘子系统的配置取决于用户对于服务器的总投入,投入越高当然可以获得更高的性能、更大的容量。
网卡性能测试
![]() |
| 图9-1 |
在HT-2000芯片组中整合了两个GbE网卡,安装驱动程序之后,在系统中可以看到两个名称为Broadcom NetXtreme Gigabit Ethernet的千兆网卡。我们对于其中任意一个端口的性能进行了测试,在传输不同容量文件的时候,平均吞吐量均在888-902Mbps之间。
Web服务器性能测试
![]() |
| 图10-1 |
我们利用60个客户端向被测服务器发送静态页面请求,基于曙光A620r-F服务器的峰值处理能力为18266.5 Requests/s,被测服务器的静态请求处理能力主要受到了千兆网卡吞吐量的限制。
![]() |
| 图10-3 |
在进行动态CGI测试时,吞吐量远没有达到被测服务器网卡的吞吐量上限,因此测试结果可以反映处理器、内存等部分的性能。Opteron 2210平台的动态请求处理能力达到了6224 Requests/s;Opteron 265平台的数据是在我们网络实验室升级之前测试到的,不过峰值也达到了6447 Requests/s;Opteron 270平台的性能则更高,峰值动态请求处理能力达到了6614 Requests/s。
数据库性能测试
![]() |
| 图11-1 |
我们在被测服务器上安装了Microsoft SQL 2000 SP4,按照测试要求建立了数据库。BF在测试之前会在数据库中生成9个表,其中包括4个500万行的表格,每行包括100字节的数据,因此每个表格容量大约是476MB,整个数据库容量为1.86GB。我们用60个客户端模拟800个用户,并且以8个一组依次增加,在这个数据库中进行查询、添加、删除、修改等操作。在测试期间,数据的吞吐量很小,因此磁盘吞吐量和网络吞吐量都不会成为瓶颈。
整个测试需要耗费大约13个小时,需要整个被测服务器系统保持足够的稳定。测试曲线显示,峰值出现在360个虚拟用户接入被测服务器的时候,达到了35596 Tps。在300个虚拟用户之后,服务器的处理能力均维持在35000 Tps的水平上。
系统功率
|
|
我们主要对于被测服务器在几种不同的状态下的功耗进行了监测,主要包括如下项目:
-
未加电至加电状态
-
加电不开机状态
-
系统启动过程
-
系统启动完毕,无动作
-
系统启动完毕,处理器满载、硬盘工作
我们利用UNI-T UT71E智能数字万用表和相配套的软件对于曙光A620r-F服务器的整个系统的功率进行监测,整个监测过程近1个小时,每秒钟采样一次。我们挑选了其中的30点来形成了上面的图标。
![]() |
| 图12-2 |
S1-S5点是曙光A620r-F服务器连接在电源上时的功耗,大约在6.5瓦特左右。S6-S14是曙光A620r-F服务器在启动过程中几个典型的功耗,在60-280瓦特之间。而系统启动成功之后,没有任何动作,也不进入休眠状态下功率大约在216瓦特左右(S15-S19)。随后我们同时启动了SPEC CPU2000和IOMeter,让CPU处于满载状态,磁盘处于尽可能活动的状态,此时整个系统的功率为314瓦左右(S19-S24)。
IT168评测中心观点
曙光A620r-F服务器采用了配置灵活同时又极具扩展性的Broadcom HT1000+HT2000服务器芯片组,使得服务器本身也具有了这些优势。曙光A620r-F服务器不仅可以支持最新的AMD双核Opteron 2000系列处理器,还配置了16条DDR2 DIMM,最高可配置32GB内存。这款服务器还提供了2条PCI Express x016插槽(均为x8信号)、2条PCI-X 133/100插槽、1条PCI-X 100MHz插槽、1条PCI 32-bit/33MHz v2.3插槽和1条TYAN “TARO” SO-DIMM插槽。这些扩展插槽涵盖了目前主流的扩展卡类型,使得服务器本身具有极好的可扩展性和灵活性。
曙光A620r-F服务器工程样机测试结果显示,AMD Opteron 2000系列处理器的性能相对于上一代Opteron 200系列处理器变化不大。该服务器使用了更高频率的DDR2内存,因此系统的内存带宽更高,但是由于DDR2本身的特性所影响,其内存延迟还是略有增加。在Web服务器、数据库服务器等应用测试中,曙光A620r-F服务器表现出来了不错的性能。
附录A:AMD 1000/2000/8000系列处理器规格表
| 系列名称 | 1000 Series | 2000 Series | 8000 Series |
| 用途 | 1-way | Up to 2-way | Up to 8-way |
| 接口 | Socket AM2 | Socket F (1207) | Socket F (1207) |
| 标准功率型 | |||
| 最大CPU功率 | 103W | 95W | 95W |
| 主频 | Model Numbers | ||
| Next-Generation 1.8GHz | Model 1210 | Model 2210 | - |
| Next-Generation 2.0GHz | Model 1212 | Model 2212 | Model 8212 |
| Next-Generation 2.2GHz | Model 1214 | Model 2214 | Model 8214 |
| Next-Generation 2.4 GHz | Model 1216 | Model 2216 | Model 8216 |
| Next-Generation 2.6GHz | Model 1218 | Model 2218 | Model 8218 |
| 低功率型 HE | |||
| 最大CPU功率 | - | 68W | 68W |
| 主频 | Model Numbers | ||
| Next-Generation 2.0GHz | - | Model 2212 HE | Model 8212 HE |
| Next-Generation 2.2GHz | - | Model 2214 HE | Model 8214 HE |
| Next-Generation 2.4 GHz | - | Model 2216 HE | Model 8216 HE |
| 性能优化型 SE | |||
| 最大CPU功率 | 125W | 120W | 120W |
| 主频 | Model Numbers | ||
| Next-Generation 2.8 GHz | Model 1220 SE | Model 2220 SE | Model 8220 SE |
| AMD Virtualization (AMD-V) | Yes | Yes | Yes |
| Tagged TLB support | Yes | Yes | Yes |
| Virtualization-aware memory controller | Yes | Yes | Yes |
| AMD PowerNow!™ technology with OPM | Yes | Yes | Yes |
| Supported power states | Up to 5 | Up to 5 | Up to 5 |
| Direct Connect Architecture | Yes | Yes | Yes |
| Integrated DDR2 memory controller | Yes | Yes | Yes |
| DDR2 Memory type supported | Unbuffered | Registered | Registered |
| DDR2 Memory controller width | 128-bit | 128-bit | 128-bit |
| DDR2 Memory Max Frequency | DDR2-800 | DDR2-667 | DDR2-667 |
| DDR2 Memory Max DIMM support/CPU | 4 @ DDR2-667 | 8 @ DDR2-533 | 8 @ DDR2-533 |
| On-Line spare RAS support | Yes | Yes | Yes |
| ECC DRAM protection | Yes | Yes | Yes |
| HyperTransport™ 技术 | Yes | Yes | Yes |
| HyperTransport technology links (total/coherent) | 1/0 | 3/1 | 3/3 |
| HyperTransport technology link width | 16 bits x 16 bits |
16 bits x 16 bits |
16 bits x 16 bits |
| HyperTransport bus frequency | 1GHz | 1GHz | 1GHz |
| AMD64 | Yes | Yes | Yes |
| Simultaneous 32 & 64-bit computing | Yes | Yes | Yes |
| L1 Cache Size (data/instruction) | 64KB/64KB | 64KB/64KB | 64KB/64KB |
| L2 Cache Size | 1MB | 1MB | 1MB |
| Pipeline stages (integer/floating point) | 12/17 | 12/17 | 12/17 |
| L1/L2 data cache protection | ECC | ECC | ECC |
| L1/L2 instruction cache protection | Parity | Parity | Parity |
| Global History Counter Entries | 16K | 16K | 16K |
| L1 TLB entries (data/instruction) | 40/40 | 40/40 | 40/40 |
| L1 TLB associativity (data/instruction) | Full/Full | Full/Full | Full/Full |
| L2 TLB entries (data/instruction) | 512/512 | 512/512 | 512/512 |
| L2 associativity (data/instruction) | 4-way/4-way | 4-way/4-way | 4-way/4-way |
| SIMD指令支持 | SSE, SSE2, SSE3 | SSE, SSE2, SSE3 | SSE, SSE2, SSE3 |
| 生产工艺 | 90 nanometer SOI | 90 nanometer SOI | 90 nanometer SOI |
| 产地 | Fab 30, Dresden, Germany |
Fab 30, Dresden, Germany |
Fab 30, Dresden, Germany |
附录B:AMD Opteron 200系列处理器和Opteron 2000系列处理器规格对比
| 系列名称 | 2000 Series | 200 Series |
| 接口 | Socket F (1207) | Socket 940 |
| 标准功率型 | ||
| 最大CPU功率 | 95W | 85W |
| 型号 | 2210/2212/2214/2216/2218 | 265/270/275/280/285 |
| 主频 | 1.8/2.0/2.2/2.4/2.6 | 1.8/2.0/2.2/2.4/2.6 |
| 低功率型 HE | ||
| 最大CPU功率 | 68W | 55W |
| 型号 | 2212HE/2214HE/2216HE | 260HE/265HE/270HE/275HE |
| 主频 | 2.0/2.2/2.4 | 1.6/1.8/2.0/2.2 |
| 性能优化型 SE | ||
| 最大CPU功率 | 120W | - |
| 型号 | 2220 SE | - |
| 主频 | 2.8 | - |
| AMD Virtualization (AMD-V) | 支持 | 否 |
| Tagged TLB support | 支持 | 否 |
| Virtualization-aware memory controller | 支持 | 否 |
| AMD PowerNow!™ technology with OPM | 支持 | 支持 |
| Supported power states | Up to 5 | 不详 |
| Direct Connect Architecture | 支持 | 支持 |
| Integrated memory controller | DDR2 | DDR |
| Memory type supported | Registered | Registered |
| Memory controller width | 128-bit | 128-bit |
| Memory Max Frequency | DDR2-667 | DDR-400 |
| Memory Max DIMM support/CPU | 8 @ DDR2-533 | 8 |
| On-Line spare RAS support | Yes | 不详 |
| ECC DRAM protection | 支持 | 支持 |
| HyperTransport™ 技术 | 支持 | 支持 |
| HyperTransport technology links (total/coherent) | 3/1 | 3/1 |
| HyperTransport technology link width | 16 bits x 16 bits |
16 bits x 16 bits |
| HyperTransport bus frequency | 1GHz | 1GHz |
| AMD64 | 支持 |
支持 |
| Simultaneous 32 & 64-bit computing | 支持 |
支持 |
| L1 Cache Size (data/instruction) | 64KB/64KB |
64KB/ 64KB |
| L2 Cache Size | 1MB |
1MB |
| Pipeline stages (integer/floating point) | 12/17 |
12/17 |
| L1/L2 data cache protection | ECC |
ECC |
| L1/L2 instruction cache protection | Parity |
Parity |
| Global History Counter Entries | 16K |
16K |
| L1 TLB entries (data/instruction) | 40/40 |
40/40 |
| L1 TLB associativity (data/instruction) | Full/Full |
Full/Full |
| L2 TLB entries (data/instruction) | 512/512 |
512/512 |
| L2 associativity (data/instruction) | 4-way/4-way |
4-way / 4-way |
| SIMD指令支持 | SSE, SSE2, SSE3 |
SSE, SSE2, SSE3 |
| 生产工艺 | 90 nanometer SOI |
90nm |
| 产地 | Fab 30, Dresden, Germany |
Fab 30, Dresden Germany |
