英特尔Bensley平台
优点
-
平衡的双处理器平台
-
支持FB-DIMM内存,最高支持4通道,64GB内存寻址
-
进一步扩展了I/O能力的6311/6321ESB芯片
-
支持英特尔I/O加速技术
-
支持英特尔虚拟化技术
联想T280服务器
优点
-
采用英特尔最新的Bensley平台
-
自动开机诊断技术
-
五重硬盘防护设计
-
万全慧眼增强版服务器监控管理系统
-
良好的扩展性
Intel Xeon 5000处理器
【IT168评测中心】2006年5月23日英特尔公司如期发布了“Bensley”平台,该平台包括代号为Dempey的双核Xeon DP处理器和代号为Blackford的芯片组。Dempsey处理器将会启用新的命名方式,被称之为Xeon 5000系列,根据主频、前端总线、缓存容量等进一步细分为不同的型号,Blackford芯片组的名称也相应被命名为Intel 5000芯片组,也是根据功能、规格分为P、V、Z等不同的型号。
![]() |
| 联想在国内率先发布了应用了英特尔双核Xeon平台的服务器T280 |
不仅仅是对于英特尔,对于英特尔的紧密合作伙伴也一样,Dempsey出现的意义重大——这意味着英特尔阵营终于有了真正可以同AMD Opteron双核心处理器相抗衡的产品线。其实早在2006年英特尔春季信息技术峰会上,英特尔发布了很多关于Bensley平台乃至下一代Xeon平台的技术细节,这同以往英特尔在发布新品之前三缄其口的态度大相径庭。显然,近一年的时间里,英特尔承受的来自竞争对手的巨大压力同这种迫不及待的态度是有着密切关系的。我们曾经在《Intel新纪“率”:淡化频率 强化效率 降低功率——Intel双路服务器平台最新技术与趋势》一文中对于英特尔新Xeon平台有了较为详尽的报道,本文将会根据英特尔正式公布的资料向读者公布更多更确切的细节。
![]() |
根据英特尔目前的规划,双核Intel Xeon 5000系列处理器将会是它最后一个沿用NetBurest架构的系列产品,它将两颗NetBurst微架构的处理器封装在一起,可用于32bit/64bit双路服务器和工作站。
自从Netburst微架构发布以来,英特尔每一款基于该微架构的产品都会被或多或少的进行修改、优化。这次的Xeon 5000系列处理器也不例外,它们在保持对于传统IA-32软件兼容的同时,对于NetBurst微架构进行了进一步的优化——主要涉及到超管线技术(Hyper Pipelined Technology)和执行追踪缓存(Execution Trace Cache)。其超管线技术支持多级管线深度,可以允许处理器工作在更高的频率上。
| 型号 | 5080 | 5070 | 5060 | 5063(MV) | 5050 | 5040 | 5030 | 5020 |
| sSpec | SL968 | SL969 | SL96A | SL96B | SL96C | SL96D | SL96E | SL96F |
| 主频 | 3.73GHz | 3.46GHz | 3.2GHz | 3.2GHz | 3.0GHz | 2.83GHz | 2.66GHz | 2.5GHz |
| CPUID string | 0F64 | 0F64 | 0F64 | 0F64 | 0F64 | 0F64 | 0F64 | 0F64 |
| 封装类型 | 771pin | 771pin | 771pin | 771pin | 771pin | 771pin | 771pin | 771pin |
| 核心电压 | 1.25-1.40 | 1.25-1.40 | 1.25-1.40 | 1.25-1.40 | 1.25-1.40 | 1.25-1.40 | 1.25-1.40 | 1.25-1.40 |
| 总线速度 | 1066MHz | 1066MHz | 1066MHz | 1066MHz | 667MHz | 667MHz | 667MHz | 667MHz |
| Thermal Guideline | 130W | 130W | 130W | 95W | 95W | 95W | 95W | 95W |
| Core stepping | C1 | C1 | C1 | C1 | C1 | C1 | C1 | C1 |
| Thermal Spec | 78℃ | 78℃ | 78℃ | 68℃ | 68℃ | 68℃ | 68℃ | 68℃ |
| L2 Cache Size | 4MB | 4MB | 4MB | 4MB | 4MB | 4MB | 4MB | 4MB |
| L2 Cache Speed | 3.73GHz | 3.46GHz | 3.2GHz | 3.2GHz | 3.0GHz | 2.83GHz | 2.66GHz | 2.5GHz |
| Manufacturing Technology | 65nm | 65nm | 65nm | 65nm | 65nm | 65nm | 65nm | 65nm |
| Bus/Core Ratio | 14 | 13 | 12 | 12 | 18 | 17 | 16 | 15 |
英特尔此次一共发布了Xeon 5080、Xeon 5070、Xeon 5060、Xeon 5063、Xeon 5050、Xeon 5040、Xeon 5030和Xeon 5020等8款处理器,这些处理器均配置了4MB L2缓存,其中每个核心独享2MB L2缓存,其前端总线为1066MHz或者667MHz,可以提供8.5GB/s或者5.3GB/s的传输带宽。
我们还记得英特尔曾经于去年10月份发布一款基于Paxville DP核心的双核处理器,它同样是将两个Netburst微架构的处理器封装在一起,每核心2MB L2缓存,800MHz FSB前端总线,具有6.4GB/s的带宽,看上去会比5050/5040/5030/5020等FSB667处理器更“高级”。实际上Intel 5000系列芯片组采用了双独立总线架构(DIB),因此每颗处理器同芯片组之间采用一条1066MHz或者667Mhz总线通讯,总带宽达到了17GB/s或者10.6GB/s,新的Xeon系统将会更加平衡。
Xeon 5000系列处理器不再采用Socket604封装,而是采用了类似现在桌面处理器LGA775的封装形式:FCLGA6 LGA771。新的封装形式更利于功率传导,更加符合高主频的处理器的需求。65nm制程也终于应用到了Xeon DP处理器中,这可以在一定程度上抑制英特尔处理器持续走高的发热量。不过在实际使用中Xeon 5000系列处理器发热量依然偏高。
从上面的表格,我们可以了解到前端总线为1066MHz的处理器的TDP大都为130W,前端总线为667MHz的处理器的TDP均为95W,同之前的Nocona核心的Xeon处理器基本持平。其中的Xeon 5063比较特别,它的前端总线为1066MHz,但是TDP为95W,而并非130W。Xeon 5000强化了热量和功率管理,主要包括TM1(Thermal Monitor)和EIST(Enhanced Intel SpeedStep technology)。应用于企业环境的双路服务器将会从这些技术中受益。TM1可以在高温环境小有效的降低处理器温度,EIST则为服务器和工作站提供了有效的功率管理能力。
这个系列的处理器依然支持超线程技术(Hyper-Threading Technology),这样每个核心可以处理2个线程,每颗双核心处理器可以并行处理4个线程,双路配置的处理器则能可以同时处理8个线程。下一代的Xeon处理器将会采用Core微架构,代号Woodcrest的Xeon处理器将不再支持超线程技术。
当然,这款处理器依然会沿袭Netburst微架构处理器的一些功能,比如高级动态执行机制(Advanced Dynamic Execution)、高级传输缓存(Advanced Transfer Cache)、增强浮点和多媒体单元和SSE3。
Xeon 5000系列处理器同样支持英特尔扩展64位技术(Intel EM64T),从而可以运行利用了64位扩展技术的优势的操作系统和应用程序。此外,这个系列的处理器也支持XDbit技术(Execute Disable Bit),通过对于内存标记为可执行状态或者非可执行状态,放置某些通过内存溢出错误来破坏系统的病毒——这个功能是需要操作系统支持的。
Xeon 5000系列处理器支持英特尔虚拟化技术(Intel Virtualization Technology)。虚拟化并非新技术,比如很多VMware、Xeon等产品的用户早已经在PC或者服务器上实现了虚拟化,英特尔虚拟化技术强调的是通过专门的硬件更好的支持虚拟化应用。
Intel 5000系列芯片组
英特尔发布了三款芯片组用于支持双核Xeon 5000系列处理器,它们是Intel 5000P、Intel 5000V和Intel 5000X,其中的前两者主要定位于服务器应用,而后者是定位于工作站应用。我们将会在本章节主要了解Intel 5000P、Intel 5000V这两款芯片组。
![]() |
Intel 5000P、Intel 5000V这两款芯片组的关系就如同现在的Intel E7520和Intel E7320芯片组的关系,Intel 5000P定位相对较高,Intel 5000V定位略低。Intel 5000P和Intel 5000V芯片组的主要区别在于MCH芯片,它们均可以搭配新的6321ESB芯片或者6700PXH芯片。相对于上一代芯片组E7520/E7320,Intel 5000 MCH芯片在处理器和内存方面做了重大的改进。
![]() |
| Intel 5000P芯片组功能示意图 |
![]() |
| Intel 5000V芯片组功能示意图 |
Intel 5000系列芯片组通过独立的点对点系统总线支持两个处理器,完全不同于之前的芯片组采用的共享总线的方式,这被英特尔称之为双独立总线(DIB)。每条总线运行频率为266MHz(1066MTS),那么安装了FSB1066处理器的系统的前端总线的总带宽最高可达17GB/s,安装了FSB667处理器的系统的前端总线的总带宽为10.6GB/s。其实从规格表上,我们可以看出Intel 5000芯片组已经为FSB1333做好准备,下一代的Woodcrest核心的处理器可以在现有平台上平滑升级。
![]() |
| 英飞凌FB-DIMM内存模组 |
![]() |
三星FB-DIMM内存模组
近年来从并行向串行转变的趋势非常明显,FB-DIMM内存技术也是其中之一,它采用了多条并联的串行线,将内存模组上的每个芯片同AMB芯片连接,然后整个内存通道中的所有内存模组也是串接在一起,这样的设计方式可以系统更加容易获得大容量、高频率的内存系统。Intel 5000系列芯片组开始支持FB-DIMM(fully buffered DIMM)内存,英特尔计划让这种新型的内存全面取代现有的ECC Register DIMM,因此在新的Intel 5000系列MCH的datasheet中我们发现它并不兼容现有的内存规范。
Intel 5000P MCH支持36bit寻址能力,总共可支持64GB物理内存。MCH支持4个FB-DIMM内存通道,每个通道最高支持4个双bank FB-DIMM DDR DIMM。因此在非镜像模式下,MCH最高可支持16 DIMM或者最大64GB物理内存,在镜像模式下最大可以支持32GB物理内存。Intel 5000V MCH则仅支持2个FB-DIMM内存通道,每个通道最高可支持4 DIMMs,总共可支持8 DIMM,那么最高内存容量可达16 GB。目前主流的E7520 MCH最高可支持16GB DDR2内存或者32GB DDR266内存。
每个安装了DDR533 FB-DIMM内存的FB-DIMM通道的读取带宽为4.25 GB/s,所以4个通道最高可以提供17GB/s的内存带宽,这正好同FSB1066 DIB总线的带宽相匹配。FB-DIMM采用了非对称设计,其上行信号线为10bit,下行信号线为14bit,此时4通道FB-DIMM可以提供8.5GB/s的写入带宽。在双通道配置的Intel 5000V平台上,这些数字都将减半,读取带宽为8.5GB/s,写入带宽为4.25GB/s。
Intel 5000P MCH和Intel 5000V MCH另外一个重要区别是对于PCI-Express总线的支持,5000P MCH支持3个x8 PCI-Express通道,每通道可以进一步配置为2个x4通道,其中1个x8通道(或者配置为2个x4通道)将用于同ESB2通讯。5000V MCH则仅提供1个x8(或者配置为2个x4通道)将用于同ESB2通讯。5000P MCH对于PCI-Express总线的支持同现有的E7520是相似的。
| 6321ESB | 6311ESB | |
| 1st x 4 PCI-Express | yes | yes |
| 2nd x 4 PCI-Express | yes | yes |
| 2 x 1 PCI Express(1st pair) | yes | yes |
| 2 x 1 PCI Express(2nd pair) | yes | yes |
| PCI-X | yes | yes |
| 6SATA | yes | yes |
| Dual GbE | yes | no |
| Intel I/O AT | yes | no |
| SERDES | yes | no |
英特尔还发布了新的I/O控制器Hub芯片Intel 6311ESB/6321ESB,这两款芯片相对于6300ESB进一步强化了高带宽连接总线,它可以提供2个64bit/133MHz PCI-X通道,而6300ESB则只能支持1个64bit/66MHz PCI-X通道。
Intel 6311ESB和6321ESB最大的区别在网络方面,6321ESB整合了双千兆网卡控制器,主板厂商只要再为其配置PHY芯片即可实现低成本的双千兆网卡输出。而且6321ESB还支持最新的Intel I/O加速技术,它可以进一步降低网络运行时对于处理器资源的占用。
Intel 6311ESB/6321ESB芯片通过带宽为2GB/s的ESI(Enterprise South Bridge Interface)总线同MCH通讯,ESI总线的本质也是PCI-Express技术。前面我们也提及到,MCH和ESB之间除了ESI总线之外,还会通过1条x8 PCI-Express进行辅助通讯,以确保南北桥之间的通讯畅通。Intel 6311ESB/6321ESB芯片还另外提供3个独立的x4 PCI Express通道,其中的一个用于LAN控制器,另外两个可以被配置为2x4或者1x8。
Intel 6311ESB/6321ESB都整合了一个Ultra ATA 100控制器、六个SATA控制器端口、一个EHCI控制器、四个UHCI控制器(可提供8个USB 2.0端口)、LPC接口控制器和一个Flash BIOS接口控制器。为了确保各种系统接口的运行效率,保证整个系统的性能,Intel 6311ESB/6321ESB提供了数据缓冲和接口仲裁功能。
Intel 6311ESB/6321ESB兼容ACPI规范,可以支持Full-on、Stop Grant、休眠到内存、挂起到磁盘和软件关机电源管理状态。利用整合的LAN功能,Intel 6311ESB/6321ESB也支持用于远程管理的ASF规范。
我们将Intel 5000系列芯片组主要规格整理为下表:
![]() |
热量管理
随着处理器技术的变化,或者说随着处理器发热量越来越大,在构建服务器系统的时候,热量管理的重要性越来越突出。只有保持一个适当热量环境,系统才能长时间、可靠的运行。一个完全的解决方案包括部件级热量管理和系统级热量管理。比如CPU所使用的主动或者被动式散热器就是部件级热量管理解决方案,系统风扇、导流设计等方面则属于系统级热量解决方案。
| 处理器型号 | TDP(W) | Minimum TCASE(°C) |
Maximum TCASE (°C)@TDP |
| 5080 | 130 |
5 |
Profile A:69
Profile B:78 |
| 5060 | |||
| 5063 | 95 |
5 |
67 |
| 5050 | 95 |
5 |
Profile A:61
Profile B:67 |
| 5030 |
英特尔对于对于构建基于适用于Xeon 5000的系统给出了基本的要求,对于最低Tcase温度的要求是相同的,都是5 °C,主要的区别在于对于最高Tcase温度。5080和5060这两款TDP为130W的处理器,其Tcase温度不能超过69 °C(或者78 °C)。而5050和5030这两款TDP为95W的处理器,其Tcase温度不能超过61 °C(或者67 °C)。其中的Profile A和ProfileB代表不同的应用环境。
除了对于处理器的外部运行环境提出了要求之外,英特尔还通过热量监测功能(Thermal Monitor 1)来进一步确保Xeon 5000系列处理器的安全。TM1功能并非英特尔处理器的新功能,我们在这里再次介绍一下。
TM1功能主要是在处理器达到最大运行温度的时候通过热量控制电路(TCC,Thermal Control Circuit)控制处理器温度。TCC可以控制处理器内部的核心时钟,在处理器过热的时候对于时钟信号进行调制,主要方法是通过交替的关闭和打开时钟来限制处理器的工作从而减少发热,以尽快的把温度降低到安全范围内。TM1机制是处理器内部的自我保护机制之一,并不能通过BIOS等方式进行配置和调节,也不需要处理器之外的硬件、软件驱动程序或者中断等操作的支持。在正常的情况下,总线流量处于监听状态,当TCC被激活之后,中断请求则会被锁定。另外,英特尔还提供了一个辅助机制允许系统软件强制处理器按照12.5%的幅度降低或者升高其功耗,这被称为“On-Demand(按需)”模式,读者应该区分它同TM1功能的不同。
![]() |
随着CPU、内存、外部设备的性能越来越高,芯片组的负载也在不断的提升,其发热量也越来越不容忽视。在我们目前收到的送测服务器产品来看,其芯片组也均安装了被动式散热器。上图中是联想T280服务器中所使用的Intel 5000V芯片组的散热片。
Intel 5000 MCH整合了热量传感器,系统可以通过软件对于其状态进行监控,如果MCH出现过热的情况,那么它可以通过控制各种接口(比如FSB、I/O)的流量控制其温度。其温度传感器包括一个热量二极管和8bit精度的逐次近似计算法A/D转换电路,可以用于测量范围在0-127.5 °C的温度。
Dempsey核心的处理器的功耗并没有明显的降低,新引入的FB-DIMM却是一个发热大户,在运行期间其AMB芯片的表面温度接近於百摄氏度是属于“正常”的。对于服务器厂商来说,需要更加精心的进行系统级散热设计。
英特尔虚拟化技术
近年来,英特尔也频频的提及虚拟化技术,特别是2006年英特尔春季信息技术峰会上设置了专门的展区来演示基于英特尔平台的虚拟化技术。那么虚拟化可以带给我们什么?
![]() |
虚拟化可以将你的IT环境改造成为更加强大、更具弹性、更富有活力的架构。比如它可以通过把多个操作系统整合到一台高性能服务器上,最大化利用硬件平台的所有资源,让你用更少的投入实现更多的应用,还可以简化IT架构,降低管理资源的难度,避免IT架构的非必要扩张。你还可以单个服务器上复制多个运行相同应用的虚拟机,这样当所某个虚拟机上所运行的程序出现问题的时候,可以快速的用另外一个虚拟机来代替,最大化保持业务的持续性,而不用增加太多的硬件平台的投入。软件开发者可以在同一个硬件平台上的不同虚拟机上测试不同版本的软件,虚拟技术通过通过复制环境而轻易的帮助用户达成了节约成本的目的。
应该说虚拟化并不算一项新的技术,借助于多家软件厂商已经推出的成熟的软件解决方案,它已经应用到从个人电脑到数据中心多年。英特尔利用自己在硬件设计方面的技术优势,将虚拟化应用进一步“普及”到了X86服务器和工作站上,并将其称为英特尔虚拟化技术(Intel Virtualization Technology)。
![]() |
操作系统被设计用来直接访问硬件平台的资源;它们一般不会共享对于硬件的控制。虚拟化技术则是在真正的硬件平台和操作系统之间插入一个VMM(虚拟机监视器)层,它来模拟不同的硬件设备,使得每个虚拟机(VM)中的操作系统都认为自己在同硬件通讯,而实际上是VMM负责中断、资源的调配。具体的说,VMM主要的作用包括以下的4个方面:
-
模拟完整的硬件环境,这是虚拟机最主要的也是必要的功能,理想的状态下,操作系统和应用程序对于自己究竟是同真正的硬件通讯还是同虚拟机通讯并不知情
-
隔离,不同的虚拟机位于不同的分区上,一个虚拟机上的错误不会波及到另外一个虚拟机,因此隔离的作用可以提供一个较高安全水平和可用性的虚拟环境。用户可以对每个分区进行单独的控制,可以关闭或者停止某个虚拟机而不会影响平台上的其它虚拟机。
-
分配平台资源(进程、内存、I/O、存储等等)
-
封装软件栈(包括操作系统和状态信息),使得它们可以被方便的拷贝并且传输到新的虚拟机上
在IA-32架构上,所有的软件运行在不同的层上(Ring-0 到 Ring-3)。操作系统运行在Ring-0上,而独立的应用程序则一般运行在Ring-3上,这个层受到的约束较多。当在硬件平台上运行虚拟机的时候,VMM必须具有对硬件资源的控制权,因此通常的做法是让VMM运行在Ring-0,而客户操作系统运行在Ring-1或者Ring-3。但是,当今的操作系统已经被设计是运行在Ring-0上,所以VMM需要解决的是如何让这些操作系统如何其控制。
一种方式是VMM实时的监控硬件资源和客户操作系统(GUEST OS)的运行情况,确保客户操作系统不会接收到错误的指令。可想而知,这种方式会占用大量的系统资源,虚拟机的性能会受到明显的影响。另外一种方法是对于操作系统进行静态的修改,但是这需要操作系统厂商的配合,厂商即便是修改了,那么结果是运行在物理平台上的操作系统和运行在虚拟机上的操作系统有诸多的不同,向虚拟机移植的过程依然可能会产生不少问题。
英特尔虚拟化技术的核心是通过提供一定程度的硬件支持,从而消除使用纯软件解决方案的诸多问题。首先,它依然允许客户操作系统和应用程序运行在最初所设计的层上,这样这些程序就无需进行修改,然后给予VMM更高的权限。其次,通过硬件支持VMM和客户操作系统之间的过渡(Hardware-Based Transitions),这大大降低了虚拟机运行过程对于系统资源的占用。最后,提供基于硬件的内存保护,VMM、每个客户操作系统的状态系统都被保存在专用的内存空间内,从而有效的确保了不同的进程的完整性。
除此之外,英特尔虚拟化技术支持64bit软件——包括64bit操作系统和运行其上的软件。
更重要的是,英特尔正在试图利用自己在业界的影响力,协同操作系统厂商(Microsoft)、虚拟机软件开发商(Microsoft、VMware、XenSource)通过英特尔虚拟化技术将虚拟解决方案标准化,这样可以大大降低IT架构的复杂性,从而提升运行效率。
英特尔I/O加速技术
目前有几种技术在试图提升网络应用的效能,降低网络应用对于系统处理器资源的占用。TOE(TCP Offload Engine,TCP卸载引擎)通过网卡上的专用处理器处理部分或者全部的封包,借此来降低对于系统处理器资源的占用,不过这种解决方案也只是对于具有某些特征的数据包有效;RDMA(Remote Direct Memory Access,远程直接内存访问)是发送端系统直接将有效数据送至目的系统的指定的内存中,无需移动数据包的时间消耗,因此大大提升了网络传输的效率。但是这种技术需要专用的网卡,应用程序也需要进行修改,甚至还增加了一个RDMA层的封装过程,而且这种操作风险较高,因此目前看来还并非一个吸引人的解决方案;Onloading技术将系统处理器作为处理网络流量的第一引擎,尽可能的提升CPU处理器网络数据包的效率,这种思想已经被英特尔I/O加速技术借鉴。
![]() |
上图显示了客户端从服务器请求数据的一个典型过程,在这个过程中影响应用程序响应时间的因素很多,封包必须经过接收、识别和处理才能将其中的数据提供给应用程序使用,应用程序根据所接收的指令向存储设备发送请求,要求获得指定的数据,这些数据还要被分解为TCP/IP包传回到客户端。这个过程中解包、封装包的过程对于处理器而言并不是一个复杂的过程,但是却是会占用处理器的时间,特别是现在的千兆网络应用越来越普及的今天。
英特尔I/O加速技术除了从网络设备本身方面进行优化之外,在整个系统的多个方面都进行了与之配套的优化,同已经较为广泛使用的TOE技术有较多的不同:
-
CPU方面:专门为Intel架构优化网络堆栈,从而可以降低处理器计算负载
-
MCH方面:整合了数据移动引擎(Data movement engine)
-
LAN方面:在MAC层实现硬件加速
-
OS方面:Microsoft Windows 2003 Server已经提供支持,Liunx将会提供支持
在芯片组部分章节中,我们已经介绍过英特尔同时发布的6311/6321ESB I/O芯片,其中的6321ESB支持英特尔I/O加速技术。我们在联想T280服务器上安装了Windows server 2003操作系统,安装INF驱动程序滞后,设备管理器中发现一个名称为“Base System Device”的未知设备,这是启用I/O AT功能的重要设备。
![]() |
![]() |
我们在微软网站下载了系统补丁KB912222-x86-enu.exe并且进行了安装,然后升级“Base System Device”设备的驱动程序,它会在支持I/O AT技术的网卡驱动包中找到自己的驱动,这个设备最后被识别为Intel 5000 Series Chipsets Integrated Device-1A38
![]() |
在查看该设备的属性,会发现一个名称为“Setting”的标签,在这里用户可以选择是否启用英特尔I/O加速技术。
我们分别在启用和关闭英特尔I/O加速技术的情况下运行一定的网络相关测试,然后记录其处理器负载情况:
![]() |
| 未开启I/O AT功能时处理器负载 |
![]() |
开启I/O AT功能时处理器负载
| 启用I/O AT | 关闭I/O AT | 处理器负载降幅 |
| 12.5% | 15.3% | 22.4% |
联想T280服务器
在英特尔发布Bensley平台的同时,联想也正式推出了其基于双路双核Xeon处理器的T280/R280服务器,其中的T280是一款塔式服务器,R280则是一款5U高度的塔式服务器。这两款服务器因具有多种创新特性获得了2006年美国IDF创新大奖。
![]() |
联想T280服务器主板采用了Intel 5000V MCH和6321ESB芯片组,可以支持英特尔Xeon 5000系列处理器,送测样机配置了两颗Xeon 5050处理器,其主频为3.0GHz,667MHz前端总线,2x2MB L2缓存。
这款服务器支持最新的FB-DIMM内存技术,其提供了6个FB-DIMM内存插槽,可配置为双通道模式,最高可以安装24GB的内存。另外还支持内存冗余、内存RAID、x4 SDDC、ECC等技术。送测样机配置了4条英飞凌FB-DIMM 533MHz DDR2内存,每条容量512MB,配置为双通道模式,最高可以提供8.7GB/s的内存带宽。
服务器主板板载了Adaptec Ultra 320 SCSI控制器,可支持HostRAID 0/1/1E等磁盘阵列模式。我们收到的送测样机还配置了LSI MegaRAID 320-0 零通道RAID卡,并且配置了三块FUJITSU MAT3073NC硬盘,我们在测试期间用它们组建了RAID 5磁盘阵列。
![]() |
英特尔6321ESB芯片整合了双千兆网卡控制器,配合主板板载的Intel 82563EB双PHY芯片,实现了双千兆网卡的功能。正确的安装驱动程序之后,在硬件管理器中这款网卡的名称是Intel Pro/1000EB Network Connection with I/O Acceleration。
T280的前面板上部安装了一个52倍速光驱和一个软驱,另外还预留了一个3.5英寸扩展位。在上部的一侧是电源开关、复位开关、系统指示灯、磁盘指示灯、网卡指示灯和故障指示灯。前面板的下半部分是硬盘舱,可以安装4块SCSI硬盘,它们下方的空间还可以再安装一个相同的硬盘舱,因此这款服务器最高可安装8块硬盘。服务器的前面板上还设计了前置VGA输出和2个USB端口,方便服务器维护。
![]() |
T280机箱内部的空间非常的宽敞,所以只是使用了1组系统风扇,它们位于系统I/O面板的上方,同与主要的发热源处理器和内存位于一条轴线上,这样结合处理器主动散热器产生的气流可以有效的给这两个关键部件降温。在芯片组、板载SCSI控制器芯片上都覆盖了被动式散热片,这些芯片的发热量也已经到了不可忽视的地步。
在T280内部还有一个并不显眼的设计,就是“五重硬盘防护技术”,这项技术通过应用材料技术,分别用不同的材质设计硬盘舱、硬盘导轨、硬盘支架来尽量的降低震动,再结合系统设计时进行的震动模态分析,尽可能的避免硬盘与机箱的共振。
![]() |
![]() |
万全慧眼服务器监控管理系统做为可选配件在也包括在了送测样品,这款软件可以帮助用户远程管理多台万全服务器,比如可以远程开关机、重新启动系统、监控服务器系统信息、对于服务器硬件故障进行预警。配合SureEyes远程管理卡,可以实现带外管理。
测试平台和测试方法
今年我们对于IT168网络实验室的服务器测试平台进行了大幅度的升级,为思科Catalyst4500千兆交换机(WS-X4013+ Supervisor Engine II-Plus和WS-X4548-GB-RJ45)增加了一个思科全千兆24口模块WS-X4424-GB-RJ45,可同时连接72个千兆铜缆设备和2个光缆设备。另外,我们还购置了29台Dell PowerEdge SC430塔式服务器和原来的32台主流配置PC一起为服务器测试平台的提供负载。
![]() |
| Catalyst4500千兆交换机 |
![]() |
| 新增的部分Dell PowerEdge SC430服务器 |
被测服务器联想T280的具体配合和配置情况如下表所示:
|
联想T280服务器 | |
|
主板 |
Lenovo DPX1066 |
|
芯片组 |
Intel 5000V+ESB2 |
|
驱动程序 |
INF 7.3.1.1013 |
|
处理器 |
Intel Xeon 5050 |
|
主频 |
3.0GHz |
|
FSB |
667MHz DIB |
|
L2容量 |
2 x 2MB |
|
处理器设置 |
XDbit Disable |
|
内存 |
英飞凌HYS72T64000 |
|
内存时序 |
444-10 |
|
磁盘控制器 |
LSI MegaRAID 320-0 零通道RAID卡 |
|
硬盘 |
FUJITSU MAT3073NC x 3 |
|
驱动程序 |
6.43.2.32(3/16/2004) |
|
磁盘设置 |
三块硬盘配置为RAID 5模式,磁盘分为两个分区,均为NTFS格式,系统默认簇,主分区20GB,其它分为扩展分区,共享文件夹、磁盘测试均在格式化后的扩展分区进行 |
|
操作系统 |
Microsoft Windows Server2003,5.02.3790,SP1 |
|
网卡 |
Intel Pro/1000EB Network Connection with I/O Acceleration |
|
驱动程序 |
9.3.28.0(1/23/2006) |
我们在上述配置的服务器上分别安装了Microsoft Windows 2003 SP1企业版(简体中文、32bit),正确安装了各个硬件的驱动程序,确保服务器工作在非常好的的状态。
我们所使用的评测软件如下:
-
SPECCPU2000 v1.2
-
ScienceMark v2.0 Membench
-
IOMeter 2004.7.30
-
Sisoft Sandra 2005 Pro SR2
-
WebBench v5.0
-
NetBench v7.03
SEPCCPU2000可以评估服务器系统中处理器的整数性能和浮点性能,我们进行的是SPECint_base2000和SPECfp_base2000两个项目的测试。ScienceMark v2.0一款用于评估处理器科学计算能力的软件,它提供了评估被测系统内存带宽的功能,这款软件可以很好的支持多线程。WebBench在服务器评估中被普遍使用,侧重于服务器CPU子系统的性能评估。另外,我们还利用Sisoft Sandra 2005 Pro这款普通读者都熟悉的软件对于整个系统进行测试。
|
客户端配置 | |
|
主板 |
Dell OM9873 |
|
芯片组 |
E7230+ICH7R |
|
驱动程序 |
INF 7.2.0.1004 |
|
处理器 |
Intel Celeron 326(2.53GHz) |
|
前端总线 |
533MHz FSB |
|
L2容量 |
256KB |
|
内存 |
Micron PC4300 256MB |
|
内存时序 |
4-4-4-12 1CMD |
|
磁盘控制器 |
ICH7R |
|
硬盘 |
WDC WD800JD 80GB SATA |
|
分区 |
硬盘分为两个分区,均为NTFS格式,系统默认簇,主分区20GB,其它分为扩展分区 |
|
驱动程序 |
5.1.2535.0 |
|
操作系统 |
Microsoft Windows XP Pro |
|
板载网卡 |
Broadcom NetXtreme Gigabit Ethernet |
|
网卡驱动程序 |
8.22.1.0 |
|
客户端配置 | |
|
主板 |
Gigabyte |
|
芯片组 |
i845GL+ICH4 |
|
驱动程序 |
5.10.1006 |
|
处理器 |
Intel Celeron 1.7GHz |
|
前端总线 |
400MHz FSB |
|
L2容量 |
128KB |
|
内存 |
Kingston 256MB DDR333 |
|
内存时序 |
2.5-3-3-7 1CMD |
|
磁盘控制器 |
ICH4 |
|
硬盘 |
Seagate 7200.7 40GB |
|
分区 |
硬盘分为两个分区,均为NTFS格式,系统默认簇,主分区20GB,其它分为扩展分区 |
|
驱动程序 |
2.3.0.2160 |
|
操作系统 |
Microsoft Windows XP Pro |
|
板载网卡 |
Realtek RTL8139 |
|
网卡驱动程序 |
5.396.530.2001 |
对比平台包括两个,一个是双路Xeon 3.0平台,该测试结果来自去年12月份我们对于华硕RS160-E2 1U服务器的评测数据。另外一个平台双核Xeon 2.8GHz(Paxville DP),其数据来自对于华硕PVL-D/SCSI主板的测试。为了便于叙述,在以下的测试结果我们用以下的名称代表:
-
双路Xeon5050,代表被测服务器联想T280的测试成绩
-
双路Paxville DP,代表基于华硕PVL-D/SCSI主板和双核Xeon 2.8GHz处理器构建的对比服务器平台的测试结果
-
单路Paxville DP,上述平台上配置了一颗双核Xeon 2.8GHz处理器的测试结果
-
双路Xeon 3.0,代表对比平台华硕RS160-E2服务器的评测数据
|
对比服务器配置:双路Paxville DP | |
|
主板 |
ASUS PVL-D/SCSI |
|
芯片组 |
E7520 + 6700PXH x2 + ICH5R |
|
驱动程序 |
INF 7.3.1.1013 |
|
处理器 |
Intel Xeon 2.8GHz(Paxville DP核心) |
|
主频 |
2.8GHz |
|
FSB |
800MHz |
|
L2容量 |
2 x 2MB |
|
处理器设置 |
XDbit Disable |
|
内存 |
三星 512MB 1Rx8 PC2-3200R-333-12-A3 x 4 |
|
内存时序 |
3-3-3-7 1CMD |
|
磁盘控制器 |
板载AIC-7902 PCI-X Dual U320 SCSI控制器 |
|
硬盘 |
Seagate Cheetah 10k.7 ST373207LW x 2 |
|
驱动程序 |
Adaptec AIC-7902 HostRaid 1.2.63.0 |
|
磁盘设置 |
两款硬盘组建为RAID 1模式,磁盘分为两个分区,均为NTFS格式,系统默认簇,主分区20GB,其它分为扩展分区,共享文件夹、磁盘测试均在格式化后的扩展分区进行 |
|
操作系统 |
Microsoft Windows Server2003,5.02.3790,SP1 |
|
网卡 |
板载Broadcom BCM5721千兆网卡 |
|
驱动程序 |
8.27.1.0 |
|
对比服务器配置:双路Xeon3.0平台 | |
|
处理器 |
Intel Xeon 3.0GHz x 2 |
|
内存 |
512MB REG ECC DDRII400 x 4 |
|
硬盘控制器 |
板载Adaptec AIC-7902W控制器 |
|
存储 |
2个Cheetach 73GB硬盘 |
|
网络 |
BROADCOM BCM5721 PCIE千兆网卡控制器 |
|
显示 |
集成ATI RageXL8M显示控制器 |
|
电源 |
AcBel API3FS43 |
|
光驱 |
Slim CD-ROM光驱 |
|
软驱 |
1.44M软驱 |
|
操作系统 |
Microsoft Windows 2000 Server Standard SP1 |
处理器性能测试
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的标准性能评估组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU2000是SPEC组织推出的一套CPU子系统评估软件,它包括CINT2000和CFP2000两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能。计算系统中的处理器、内存和编译器都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2000的影响非常的小。
我们在被测服务器中安装了Intel C++ 8.1 Compiler、Intel Fortran 8.1 Compiler这两款SPEC CPU2000必需的编译器,另外安装了Microsoft Visual Studio 2003.net提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,可以满足Base测试。
| 双路Xeon 5050平台 (Throughput) | |||
|---|---|---|---|
|
SPECfp |
SPECint | ||
|
开启线程数量 |
8 |
开启线程数量 |
8 |
|
168.wupwise |
61.8 |
164.gzip |
60.1 |
|
171.swim |
30.7 |
175.vpr |
39.5 |
|
172.mgrid |
27.7 |
176.gcc |
83.7 |
|
173.applu |
29.3 |
181.mcf |
25.5 |
|
177.mesa |
59.3 |
186.crafty |
53.1 |
|
178.galgel |
61.8 |
197.parser |
65.7 |
|
179.art |
40.1 |
252.eon |
87.7 |
|
183.equake |
25.7 |
253.perlbmk |
71.2 |
|
187.facerec |
46.4 |
254.gap |
61.6 |
|
188.ammp |
32.6 |
255.vortex |
104 |
|
189.lucas |
30.5 |
256.bzip2 |
48.4 |
|
191.fma3d |
33.8 |
300.twolf |
54.3 |
|
200.sixtrack |
33.7 |
总分 |
59.2 |
|
301.apsi |
49.7 | ||
| 总分 | 38.4 | ||
| 双路Paxville DP平台 (Throughput) | |||
|---|---|---|---|
|
SPECfp |
SPECint | ||
|
开启线程数量 |
8 |
开启线程数量 |
8 |
|
168.wupwise |
57.6 |
164.gzip |
56.6 |
|
171.swim |
22.6 |
175.vpr |
38.2 |
|
172.mgrid |
21.0 |
176.gcc |
80.1 |
|
173.applu |
21.7 |
181.mcf |
23.1 |
|
177.mesa |
57.7 |
186.crafty |
50.0 |
|
178.galgel |
53.5 |
197.parser |
63.1 |
|
179.art |
34.4 |
252.eon |
81.9 |
|
183.equake |
24.6 |
253.perlbmk |
67.6 |
|
187.facerec |
41.9 |
254.gap |
56.3 |
|
188.ammp |
33.6 |
255.vortex |
105.0 |
|
189.lucas |
22.4 |
256.bzip2 |
49.2 |
|
191.fma3d |
28.5 |
300.twolf |
50.7 |
|
200.sixtrack |
32.3 |
总分 |
56.4 |
|
301.apsi |
45.4 |
||
| 总分 |
33.3 | ||
| 单路Paxville DP平台 (Throughput) | |||
|---|---|---|---|
|
SPECfp |
SPECint | ||
|
开启线程数量 |
4 |
开启线程数量 |
4 |
|
168.wupwise |
44.5 |
164.gzip |
28.9 |
|
171.swim |
21.7 |
175.vpr |
23.2 |
|
172.mgrid |
20.3 |
176.gcc |
44.3 |
|
173.applu |
20.6 |
181.mcf |
23.4 |
|
177.mesa |
28.7 |
186.crafty |
25.3 |
|
178.galgel |
43.3 |
197.parser |
33.0 |
|
179.art |
33.9 |
252.eon |
40.9 |
|
183.equake |
23.0 |
253.perlbmk |
35.4 |
|
187.facerec |
34.5 |
254.gap |
37.4 |
|
188.ammp |
21.7 |
255.vortex |
54.6 |
|
189.lucas |
21.6 |
256.bzip2 |
28.8 |
|
191.fma3d |
22.5 |
300.twolf |
29.6 |
|
200.sixtrack |
16.3 |
总分 |
32.6 |
|
301.apsi |
26.2 | ||
| 总分 | 25.9 | ||
| 双路Xeon 3.0GHz平台(Throughput) | |||
|---|---|---|---|
|
SPECfp |
SPECint | ||
|
开启线程数量 |
4 |
开启线程数量 |
4 |
|
168.wupwise |
47.0 |
164.gzip |
30.8 |
|
171.swim |
22.4 |
175.vpr |
21.3 |
|
172.mgrid |
18.5 |
176.gcc |
41.2 |
|
173.applu |
21.9 |
181.mcf |
19.4 |
|
177.mesa |
31.2 |
186.crafty |
27.2 |
|
178.galgel |
41.2 |
197.parser |
33.4 |
|
179.art |
29.8 |
252.eon |
44.3 |
|
183.equake |
23.1 |
253.perlbmk |
36.4 |
|
187.facerec |
35.2 |
254.gap |
38.2 |
|
188.ammp |
19.1 |
255.vortex |
56.4 |
|
189.lucas |
21.9 |
256.bzip2 |
26.9 |
|
191.fma3d |
24.0 |
300.twolf |
25.2 |
|
200.sixtrack |
17.3 |
总分 |
31.9 |
|
301.apsi |
25.7 | ||
| 总分 |
25.8 | ||
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
“Throughput”测试结果显示了被测平台并行处理多个浮点任务或者整数任务的能力。双路Xeon 5050平台的性能相对于双路Xeon平台有了明显的提升,其中浮点性能有了48%的提升,而整数性能提升幅度更是高达85%。同英特尔去年10月发布的Paxville DP相比,Xeon 5050的浮点性能和整数性能的增长分别为15%和5%(如果考虑到两个平台的处理器主频的差异,可能实际的差异会更小)。
由此可以推断,新的平台的性能提升主要得益于双核处理器技术。双独立总线技术、新的内存技术使得整个系统更加平衡,对于性能的提升也有一定的促进作用。
| 双路Xeon 5050平台 (Speed) | |||
|---|---|---|---|
|
SPECfp_base2000 |
SPECint_base2000 | ||
|
开启线程数量 |
8 |
开启线程数量 |
8 |
|
168.wupwise |
2010 |
164.gzip |
1009 |
|
171.swim |
1730 |
175.vpr |
940 |
|
172.mgrid |
1227 |
176.gcc |
1638 |
|
173.applu |
1195 |
181.mcf |
1393 |
|
177.mesa |
1268 |
186.crafty |
1099 |
|
178.galgel |
2916 |
197.parser |
1204 |
|
179.art |
2865 |
252.eon |
1848 |
|
183.equake |
1481 |
253.perlbmk |
1586 |
|
187.facerec |
1233 |
254.gap |
1511 |
|
188.ammp |
916 |
255.vortex |
2252 |
|
189.lucas |
1241 |
256.bzip2 |
981 |
|
191.fma3d |
1129 |
300.twolf |
1444 |
|
200.sixtrack |
590 |
总分 |
1361 |
|
301.apsi |
1030 | ||
| 总分 | 1364 | ||
| 双路Paxville DP平台 (Speed) | |||
|---|---|---|---|
|
SPECfp_base2000 |
SPECint_base2000 | ||
|
开启线程数量 |
8 |
开启线程数量 |
8 |
|
168.wupwise |
1499 |
164.gzip |
738 |
|
171.swim |
2064 |
175.vpr |
777 |
|
172.mgrid |
810 |
176.gcc |
1184 |
|
173.applu |
976 |
181.mcf |
1419 |
|
177.mesa |
854 |
186.crafty |
749 |
|
178.galgel |
1980 |
197.parser |
892 |
|
179.art |
2627 |
252.eon |
1150 |
|
183.equake |
1556 |
253.perlbmk |
971 |
|
187.facerec |
1109 |
254.gap |
1053 |
|
188.ammp |
780 |
255.vortex |
1521 |
|
189.lucas |
1408 |
256.bzip2 |
804 |
|
191.fma3d |
926 |
300.twolf |
1065 |
|
200.sixtrack |
436 |
总分 |
999 |
|
301.apsi |
810 | ||
| 总分 | 1146 | ||
| 双路Paxville DP平台 (Speed) | |||
|---|---|---|---|
|
SPECfp_base2000 |
SPECint_base2000 | ||
|
开启线程数量 |
4 |
开启线程数量 |
4 |
|
168.wupwise |
2222 |
164.gzip |
930 |
|
171.swim |
2153 |
175.vpr |
973 |
|
172.mgrid |
1242 |
176.gcc |
1592 |
|
173.applu |
1300 |
181.mcf |
1630 |
|
177.mesa |
1230 |
186.crafty |
1034 |
|
178.galgel |
2932 |
197.parser |
1159 |
|
179.art |
3699 |
252.eon |
1727 |
|
183.equake |
1965 |
253.perlbmk |
1499 |
|
187.facerec |
1603 |
254.gap |
1532 |
|
188.ammp |
1035 |
255.vortex |
2333 |
|
189.lucas |
1790 |
256.bzip2 |
1017 |
|
191.fma3d |
1246 |
300.twolf |
1357 |
|
200.sixtrack |
556 |
总分 |
1348 |
|
301.apsi |
1053 | ||
| 总分 | 1544 | ||
| 双路Xeon 3.0GHz平台(Speed) | |||
|---|---|---|---|
|
SPECfp_base2000 |
SPECint_base2000 | ||
|
开启线程数量 |
4 |
开启线程数量 |
4 |
|
168.wupwise |
2332 |
164.gzip |
999 |
|
171.swim |
2192 |
175.vpr |
906 |
|
172.mgrid |
1290 |
176.gcc |
1643 |
|
173.applu |
1372 |
181.mcf |
1301 |
|
177.mesa |
1321 |
186.crafty |
1110 |
|
178.galgel |
2401 |
197.parser |
1166 |
|
179.art |
2854 |
252.eon |
1856 |
|
183.equake |
1991 |
253.perlbmk |
1577 |
|
187.facerec |
1665 |
254.gap |
1641 |
|
188.ammp |
910 |
255.vortex |
2299 |
|
189.lucas |
1839 |
256.bzip2 |
969 |
|
191.fma3d |
1310 |
300.twolf |
1139 |
|
200.sixtrack |
593 |
总分 |
1329 |
|
301.apsi |
1012 | ||
| 总分 | 1522 | ||
在“Speed”测试中主要反映的是不同的平台处理完毕某个任务的快慢,这项测试的结果同处理器主频、内存容量的关系比较密切,多核技术、乃至超线程技术对于最后的测试结果影响不大。因此上面的测试结果显示,新的平台的优势不在于完成单个任务的速度,而在于同时处理多个任务的能力,
缓存内存性能测试
|
ScienceMark Membench | ||||
| 双路Xeon 5050 |
双路Paxville DP |
单路Paxville DP |
双路Xeon 3.0GHz | |
|
内存带宽(MB/s) |
2283.58 |
3703.52 |
4016.83 |
4091.74 |
|
L1 Cache Latency (ns) | ||||
|
32 Bytes Stride |
1.34 |
1.43 |
1.07 |
1.03 |
|
L2 Cache Latency(ns) | ||||
|
4 Bytes Stride |
1.34 |
2.21 |
2.14 |
2.00 |
|
16 Bytes Stride |
2.67 |
4.64 |
4.26 |
4.67 |
|
64 Bytes Stride |
9.02 |
10.36 |
9.64 |
9.00 |
|
256 Bytes Stride |
8.69 |
10.36 |
9.29 |
8.67 |
|
512 Bytes Stride |
8.35 |
10.00 |
8.57 |
8.33 |
|
Memory Latency(ns) | ||||
|
4 Bytes Stride |
1.67 |
3.21 |
2.14 |
2.00 |
|
16 Bytes Stride |
6.68 |
5.71 |
5.00 |
5.00 |
|
64 Bytes Stride |
27.07 |
16.78 |
16.78 |
16.33 |
|
256 Bytes Stride |
179.11 |
128.21 |
126.42 |
125.66 |
|
512 Bytes Stride |
189.8 |
134.63 |
132.85 |
131.33 |
|
Algorithm Bandwidth(MB/s) | ||||
|
Compiler |
1771.21 |
1914.36 |
2255.71 |
2113.73 |
|
REP MOVSD |
1796.07 |
1950.86 |
2286.97 |
2140.7 |
|
ALU Reg Copy |
1751.59 |
1746.1 |
2127.93 |
1885.35 |
|
MMX Reg Copy |
1794.26 |
1903.61 |
2214.51 |
2031.39 |
|
MMX Reg 3dNow |
- |
- |
- |
- |
|
MMX Reg SSE |
2283.58 |
2712.14 |
3402.06 |
3396.47 |
|
SSE PAlign |
2272.72 |
3066.42 |
3533.77 |
3537.47 |
|
SSE PAlign SSE |
2281.81 |
3012.8 |
3480.59 |
3525.52 |
|
SSE2 PAlign |
2271.43 |
3066.15 |
3542.22 |
3539.02 |
|
SSE2 PAlign SSE |
2280.69 |
3010.93 |
3468.71 |
3527.03 |
|
MMX Block 4kb |
3163.14 |
3098.21 |
3619.55 |
3770.11 |
|
MMX Block 16kb |
2212.04 |
3622.71 |
4016.49 |
4091.74 |
|
SSE Block 4kb |
2174.46 |
3292.47 |
3613.15 |
3800.00 |
|
SSE Block 16kb |
2204.89 |
3703.52 |
4016.83 |
4078.21 |
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
Xeon 5050处理器的每个核心配置了12K追踪缓存和16K数据缓存以及2M二级缓存(英特尔称之为高级传输缓存),它们均为8-way并联结构,64字节线宽,同之前的单核心的Netburst架构Xeon处理器并没有太大的差异。不过,在英特尔的文档中明确的说明对于Execution Trace Cache进行了改进和优化,但是我们并没有更多的资料显示这种改变的细节。
从这个部分的测试结果可以看出,Xeon 5050处理器的L1缓存的延迟并不太理想,但是L2缓存的延迟有了明显的改进。三个使用DDR2内存的平台内存测试结果比较相近,但是使用了更高频率的FD-DIMM的Xeon 5050丝毫没有显示出来任何优势,内存延迟时间很长,增长了30%以上,因此其内存带宽测试结果最低也容易分析其原因了。
根据以往的经验来看,ScienceMark MemBenchmark的测试结果同SPEC CPU2000 Speed测试结果符合的很好。从我们测试结果可以很容易的知道为什么双路Xeon 5050平台和双核Paxville DP为什么低于双路Xeon平台了,前者受累于“漫长”的内存延迟,后者则是L2缓存延迟太长。
![]() |
我们还使用了Sisoft Sandra 2005 Pro程序中的Cache & Memory Benchmark测试子项目进行了测试。这个程序的算法同ScienceMark的非常不同,以前在单核心Xeon平台的测试结果显示它会明显的受到处理器数量或者可并行处理线程数量的影响。不过,近期我们对于Paxville DP平台的测试结果并不符合这个规律,其结果明显的偏低。新的Xeon 5050平台最高可并行处理8个线程,但是测试曲线同双路Xeon 3.0GHz平台几乎吻合,它也没有因为支持更多的线程而在这个环节受益。
磁盘性能测试
IOMeter是一款功能非常强大的IO测试软件,它除了可以在本机运行测试本机的IO(磁盘)性能之外,还提供了模拟网络应用的能力。在这次的测试中,我们仅仅让它在本机运行测试服务器的磁盘性能。为了全面测试被测服务器的IO性能,我们分别选择了不同的测试脚本。
-
Max_throughput(read):文件尺寸为64KB,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取吞吐量
-
Max_IO(read):文件尺寸为512B,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取操作IO处理能力
-
Max_throughput(write):文件尺寸为64KB,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入吞吐量
-
Max_IO(write):文件尺寸为512B,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入操作IO处理能力
![]() |
联想T280安装了LSI MegaRAID320-0零通道扩展卡和三块FUJITSU MAT7073NC万转SCSI硬盘,我们将其配置为RAID 5磁盘阵列模式。测试结果显示其最大读取IO能力可达36370 IOs/s,最大写入IO能力可达31022 IOs/s,此时CPU占用率并不高,只有11%左右。从IO处理能力来看,这个磁盘系统表现较好。
![]() |
联想T280的磁盘子系统的读取吞吐量最高为69 MB/s,最大写入吞吐量最高为42 MB/s,这样的测试成绩对于使用ZCR卡的RAID 5磁盘系统而言并不理想。
Web服务器性能测试
WebBench是针对服务器作为Web Server时的性能进行测试,我们在被测服务器上安装了IIS6.0组件,以提供测试所需的Web服务。在测试中我们开启了网络实验室中的56台客户端,分别使用了WebBench 5.0内置的动态CGI以及静态页面脚本对服务器进行了测试。
![]() |
静态测试是由客户端读取预先放置在服务器Web Server下的Web页面(wbtree),这项测试主要考察的是服务器磁盘系统以及网络连接性能。我们使用了实验室中的56台客户端,配合Static_mt.tst多线程静态脚本测试向被测服务器发送请求。
这项测试同处理器的性能有密切的关系,也同网络吞吐量或者磁盘吞吐量有关。上面的图表显示在有40个以上的客户端同时访问被测服务器的时候,服务器响应请求的速率基本上稳定在16000-17000 Requests/s,此时吞吐量一般会达到100MB/s以上,基本上达到了网络吞吐量的上限。
不过,联想联想T280的峰值只是在14000 Requests/s左右,此时吞吐量仅达到了80MB/s,距离千兆网卡的吞吐量还有较大的距离,结合IOMeter的测试结果我们推断是磁盘系统拖了整个系统的后腿。
![]() |
动态测试偏重于对服务器CPU子系统的性能测试,它对于Web服务器提供了足够的负载。我们将一个C语言编写的CGI源文件Simcigi.c编译为Simcgi.exe,并将其作为动态测试中的CGI脚本。在测试过程中,每台安装了WebBench客户端软件的PC,会在300秒的时间内持续向服务器发送CGI请求,而控制台会纪录并汇总服务器所响应CGI请求的数据。
当WebBench测试开始后,客户端会以每四台一组依次连接到服务器并发送CGI请求。当测试结束后,控制台会收集数据并绘制出服务器CGI响应数的变化曲线。CGI测试的成绩高低,主要取决于服务器处理器子系统性能的优劣。处理器子系统包括CPU、内存以及内存控制器,CPU频率、缓存以及内存容量大小和内存带宽,都会影响该项成绩。
双路Xeon 5050平台最高动态处理能力达到了5319 Requests/s,而双路Paxville DP平台的最高动态处理能力则是4862,双路Xeon 3.0GHz平台的最高动态处理能力也达到了3914 Requests/s(这个成绩是在32个客户端下测试得到的,实际应该会更高一些)。双路Xeon 5050领先双路Paxville DP平台幅度大约9%,同前面SPEC CPU2000“Throughput”测试结果相近。
文件服务器性能测试
NetBench是针对文件服务器的性能测试软件,影响NetBench性能的主要是服务器的磁盘子系统,服务器磁盘控制器、硬盘类型、组建磁盘阵列模式、内存容量、网络拓朴结构等都会对测试结果有明显的影响。我们在被测服务器上设立了文件服务器,NetBench通过网络实验室中32个客户端来模拟网络中的PC向文件服务器所发出的文件传输请求,文件服务器则将存储在磁盘上的文件数据发送给相应的客户端。同Webbench测试一样,NetBench测试开始后客户端会以每四台一组依连接到服务器并发送文件传输请求。测试结束后控制台收集数据并绘制出服务器能够达到的数据传输变化曲线。
|
操作类型 |
百分比 |
| Open File | 6.22% |
| Read | 39.66% |
| Write | 31.13% |
| Lock File | 0.67% |
| Unlock File | 0.66% |
| Close | 5.90% |
| GetFileAttributes | 7.16% |
| SetFileAttributes | 0.01% |
| Rename File | 0.22% |
| Delete File | 0.86% |
| Create File | 1.05% |
| FindOpen | 1.73% |
| FindNext | 1.38% |
| FindClose | 0.79% |
| GetFileTime | 0.88% |
| SetFileTime | 0.40% |
| FlushFileBuffers | 0.36% |
| GetDiskFreeSpace | 0.86% |
![]() |
测试结果显示在企业级文件服务器应用中,T280服务器最高吞吐量可以达到774 Mbps(24个和28个客户端时)。在整个测试过程中,进行的操作类型有18种,基本上囊括了实际应用中的常用操作。所操作的文件尺寸也大小不一,因此我们会发现它的测试结果往往同IOMeter这类测试的结果不完全一致。
![]() |
![]() |
我们利用内置的NIC.tst测试脚本,对于被测服务器千兆网卡的吞吐量和响应时间进行了测试。联想T280服务器使用了Intel Pro/1000EB 千兆网卡,我们为其安装了带有I/O加速功能的驱动程序,测试结果显示无论是在传输小数据包还是大数据包的情况下,其吞吐量都维持在900Mbps左右,表现非常的优秀。
FTP服务器性能测试
我们首先采用了在被测服务器上安装了应用广泛的Serv-U 6.2.0.1 FTP服务器软件,在FTP根目录下放置了测试所需要的文件夹。然后我们启用了网络实验室中的60台客户端和eTesting Labs FTP Test Tool 1.0来产生FTP流量,从而实现对于被测服务器的FTP应用的性能进行测试。测试脚本是基于内置的ftpget.tst测试脚本修改得到的,具体设置如下表。
|
FTP测试脚本配置 | |
| 客户端数量 | 1-56 个 |
| 每客户端引擎数量 | 3 个 |
| Ramp Up时间 | 30 秒 |
| Ramp Down时间 | 30 秒 |
| 测试时间 | 300 秒 |
| Delay时间 | 0 秒 |
| Think时间 | 0 秒 |
| Number of Retries | 5 次 |
| Retry Interval | 100 ms |
| GET connect timeout | 1 ms |
|
负载脚本基本配置 | |
| 比例 | 文件容量 |
| 20% | 32KB、64KB |
| 40% | 256KB、1MB |
| 40% | 4MB |
| 比例 | 指令 |
| 100% | get |
| 0% | put |
![]() |
这是我们第一次在服务器测试中引入FTP性能测试,如上图表所示最高吞吐量仅为257 Mbps。这个测试结果距离网络传输性能上限、磁盘子系统传输性能上限都很远,此时服务器处理器占用率也只有不到20%。
IT168评测中心观点
经历了2005年的“无双之苦”之后,英特尔的双核Xeon如期而至。Xeon 5000系列依然沿用Netburst微架构,继续做了优化,不过发热量等问题依然没有解决,它更多的是充当双核Xeon开路先锋的角色,今年下半年转向Core微架构的Woodcrest才是英特尔的真命天子。
我们认为Bensley平台的核心在于其Intel 5000系列芯片组,采用了双独立总线结构的它让Xeon平台更趋于平衡——之前的双Xeon要共享一条FSB800总线,而现在即便是定位相对低端的Intel 5000V芯片组也能为双路Xeon提供比原来更加宽敞的通道了。
Intel 5000芯片组在内存方面的革命性相当彻底,它们甚至没有提供兼容现有的DDR2内存,让全线产品全部迈进了FB-DIMM的大门。这样的做法肯定是有风险,但是未必会重蹈Rambus的覆辙。首先,FB-DIMM仅仅是针对服务器平台,不像Rambus还试图囊括PC市场。另外,FB-DIMM是在现有内存技术上的优化,不会涉及内存芯片厂商的问题,据服务器厂商介绍其成本比DDR2贵30%左右。
英特尔通过硬件的方式对于虚拟化技术提供了支持,并且得到了包括Microsoft、VMware、XenSource等厂商的支持,双核服务器的应用会比原来更广泛也更灵活。
