【IT168评测中心】新型微架构在英特尔产品线中有条不紊的推进着,而且基本上从中低端应用到高端应用有步骤的演进。比如Xeon DP系列处理器经历了Paxville DP(双核,Netburst)、Dempsey(双核,Netburst,Benlsey平台)、Woodcrest(双核,Core,Benlsey平台)和Clovertown(四核,Core,Benlsey平台)这样的一个历程。

英特尔全线服务器产品线路图
Xeon MP处理器也会经历一个相似的过程,先是Paxville(双核,Netburst,Truland平台)、然后是Tulsa(双核,Netburst,Truland平台)、现在是Tigerton(四核,Caneland平台)。虽然Tulsa处理器一直是英特尔Xeon MP蓝图上的一员,但是去年8月30日英特尔依然坚持发布这款基于Netburst微架构的处理器,还是让我们感觉有些意外,毕竟去年的5月份英特尔刚刚把Xeon DP处理器升级到了Core微架构,而且为Xeon服务器平台带来了显著的性能提升。

代号Tulsa,基于Netburst微架构的Xeon 7100处理器
孤独的Xeon MP,从去年8月30日到今年9月6日期间,成为了英特尔主流处理器产品线中唯一一款使用Netburst微架构的处理器产品。今天(9月6日),Xeon MP平台终于挥别了Netburst微架构,进入了Core微架构的怀抱。
从2003年开始,英特尔率先在移动领域推行其平台化概念,迅驰平台如今已经升级到第四代。Bensley是英特尔推出的第一个双路Xeon服务器平台的名称,如今已经可以支持四核处理器。Truland平台是目前四路Xeon服务器的主流平台,今天是它谢幕的日子,全新的Caneland平台将会取而代之。
国内著名的服务器厂商浪潮在第一时间推出了基于Caneland平台的四路系列服务器,我们IT168评测中心第一时间收到了其中的两款样机,并且对于其中的一款NF520D2进行了全面的评测。相信通过本文,读者可以对于Caneland平台的方方面面(比如处理器、芯片组、内存、网络技术、虚拟化)都会有更深入的认识。
| 平台和平台技术 |
| 平台化是英特尔最近几年来推广产品的一个重要思想,它把CPU、芯片组、网络模块等相关的部件包装成为一个“平台”的概念,从系统级别上提升自身产品的性能、稳定性和兼容性,合作厂商可以用更低的成本、更快的速度开发相关的产品。
为了提升整个平台的效能或者功能,英特尔还推出了一系列技术,比如虚拟化技术、I/O加速技术,这些技术的实现不仅和处理器有关,还会涉及到芯片组、网络控制器等多个方面,因此称其为“平台技术”更加贴切。 |
第一代酷睿微架构的Xeon MP处理器
虽然平台化概念获得了成功,英特尔也更喜欢被称为平台厂商,但究其根本还是处理器,因此解析Caneland平台的第一步当然是处理器。
![]() |
| Tigerton分为四核和双核两个版本 |
此次随Caneland平台一起发布的有两个系列的处理器:Xeon 7300四核处理器和Xeon 7200双核处理器,代号分别为Tigerton-QC和Tigerton-DC。从上图可以看出,这两个系列的处理器均是将两个DIE封装在一起,每个DIE均有4MB L2缓存。其中Tigerton-DC的设计非常有意思,它没有采用单个DIE双核的设计——英特尔称这种设计可以在现有条件下让双核处理器具有更大容量的缓存,适于某些高性能计算和财务服务等有较大缓存需求的应用。
| 处理器型号 | 主频 | L2缓存 | FSB | TDP | 按需配电(DBS) | 封装 |
| X7350 | 2.93GHz | 8MB | 1066MT/s | 130瓦 | 是 | FC-mPGA6 |
| L7345 | 1.86GHz | 8MB | 1066MT/s | 50瓦 | 否 | FC-mPGA6 |
| E7340 | 2.40GHz | 8MB | 1066MT/s | 80瓦 | 是 | FC-mPGA6 |
| E7330 | 2.40GHz | 6MB | 1066MT/s | 80瓦 | 是 | FC-mPGA6 |
| E7320 | 2.13GHz | 4MB | 1066MT/s | 80瓦 | 是 | FC-mPGA6 |
| E7310 | 1.6GHz | 4MB | 1066MT/s | 80瓦 | 否 | FC-mPGA6 |
| E7220 | 2.93GHz | 8MB | 1066MT/s | 80瓦 | 是 | FC-mPGA6 |
| E7210 | 2.40GHz | 8MB | 1066MT/s | 80瓦 | 是 | FC-mPGA6 |
Xeon 7300系列处理器包括6款产品,其中4款E系列主频在1.6GHz-2.4GHz之间,4-8MB L2缓存,1066MT/s,TDP均为80瓦,适用于机架式/刀片式服务器;L系列只有一款L7345,主频为1.86GHz,8MB L2缓存,TDP为50瓦,适用于高密度机架式/刀片式服务器;X系列的也只有一款X7350,主频高达2.93GHz,TDP也达到了130瓦,适用于高性能应用。
Xeon 7200/7300扩容了二级缓存去掉了三级缓存,因此我们估计Tigerton的复杂程度并不会明显的增加,所以功耗的降低主要来自频率的降低和65nm制程的进一步改进。Xeon 7200/7300处理器支持TM1、TM2功能,利用英特尔智能功率控制技术可单独控制每个核心的功率状态。
| 系列名称 | 代号 | 型号 | 主频范围 | L2缓存 | L3缓存 | FSB | TDP范围 | DC/QC | 制程 |
| Xeon 7000 | Paxville | 7041、7040、7030、7020 | 2.66-3.0GHz | 2x(1-2)MB | 0 | 667-800MT/s | - | DC | 90nm |
| Xeon 7100 | Tulsa | 7110N/M-7150N | 2.5-3.5GHz | 2x1MB | 4-16MB | 667-800MT/s | 95-150瓦 | DC | 65nm |
| Xeon 7200 | Tigerton-DC | E7210、E7220 | 2.4-2.93GHz | 2x(2-4)MB | 0 | 1066MT/s | 50-80-130瓦 | DC | 65nm |
| Xeon 7300 | Tigerton-QC | E/L/X三个系列,共6款 | 1.6-2.93GHz | 2x4MB | 0 | 1066MT/s | 80瓦 | QC | 65nm |
Tulsa相对于Paxville在微架构上并没有改进,最大的改变是开始采用65nm制程,为了进一步的提升性能,只有在主频和L3缓存上打主意。弃用Netburst微架构,采用高效能的Core微架构(内置WDEE,宽位动态执行引擎)并且升级到四核是Xeon 7200/7300系列处理器相对于之前的Xeon 7000/7100系列处理器最大的不同。此外,Xeon 7200/7300还扩容了二级缓存(从2x1MB升级到了2x4MB,支持智能缓存和智能内存访问),去掉了三级缓存(也不排除今后为了提升性能再增加),同时前端总线升级为1066MT/s,按照英特尔Xeon DP路线图来看,今后Xeon MP处理器的FSB升级到1333MT/s甚至1600MT/s也是可能的。
在《透过DP变迁看MP性能趋势 Caneland预览》一文,我们曾经对比了同频率的四核Clovetown和双核Dempsey的性能,整数性能提升了150%,浮点性能提升了80%。因此我们在该文中预计,从Tulsa到Tigerton的这次升级,将会带来明显的提升飞跃——这次的评测结果也证实了这一点。

代号Tigerton,基于Core微架构的Xeon 7300处理器
所有的Xeon 7200/7300都支持EM64T、EIST、EDbit、VT等技术,提供丰富的功能来满足多种应用的需求。
平衡系统的基础,Intel 7300芯片组解析代号为Clarksboro的Intel 7300系列芯片组相对于上一代Intel E8500/8501芯片组有了很多方面的改变,这包括处理器总线、内存控制器、PCI-E总线。另外,还对于英特尔平台技术VT-x、I/OAT2、TPM 1.2、DSB、EM64T也提供了支持。
![]() |
Intel 5000系列芯片组包括P/V/X三种,Intel 7300芯片组很可能只有一款,毕竟需要这个级别服务器的用户对于性能和功能都有很高的要求,对于芯片组的任何简化都会导致系统的不平衡。
Intel 7300芯片组有4条1066MT/s专用高速互联前端总线(DHSI,Dedicated High-Speed Interconnects),每颗Xeon 7200/7300处理器独享一条带宽为8.5GB/s的DHSI,总体带宽为34GB/s。之前的Truland平台的E8500/8501芯片组则只有两条667或800MT/s的FSB,总带宽不过12.8GB/s。同时我们还注意到,Truland平台每条FSB要供4个核心使用,而Caneland平台的每条FSB也要供4个核心使用,进一步提升FSB的工作频率还是非常有必要的。
![]() |
在Intel 7300芯片组 MCH中集成了64MB Snoop Filter(探听过滤器),这并不是第一次出现在Intel服务器芯片组中,但是英特尔在多种场合提及Caneland平台时总是会着重强调一下。探听过滤器是位于MCH中的高速缓存标记功能模块,它用于追踪高速缓存中的高速缓存线的标签和状态,过滤不必要的远程总线的探听,从而提升了FSB的实际效率,所有的I/O密集型应用都会从这个功能中自动获益,而无需改变源代码或者重新编译。

Caneland平台终于也引入了FB-DIMM(全缓冲内存)内存技术,Intel 7300芯片组MCH内集成了4通道内存控制器(如上图所示,Channel 0-3,每两个Channel组成一个Branch)。每个通道支持一个Riser,每个Riser最多可安装8条FB-DIMM内存,如果使用8GB FB-DIMM(2Gbit x 4,stacked DRAM芯片),那么最高可提供256GB的系统内存,比Truland平台(最大可支持128GB内存容量)整整提升了一倍。
|
Intel 7300芯片组MCH支持内存类型 |
||||
| 芯片容量 | 组织结构 | 每DIMM芯片数量 | 内存容量 | Rank |
| 512Mb | 16M x 8 x 4bks | 8 | 512MB | 单 |
| 16M x 8 x 4bks | 16 | 1GB | 双 | |
| 32M x 4 x 4bks | 16 | 1GB | 单 | |
| 32M x 4 x 4bks | 32 | 2GB | 双 | |
| 1Gb | 32M x 8 x 8bks | 8 | 1GB | 单 |
| 32M x 8 x 4bks | 16 | 2GB | 双 | |
| 64M x 4 x 8bks | 16 | 2GB | 单 | |
| 64M x 4 x 8bks | 32 | 4GB | 双 | |
| 2Gb | 64M x 8 x 8bks | 8 | 2GB | 单 |
| 64M x 8 x 8bks | 16 | 4GB | 双 | |
| 128M x 4 x 8bks | 16 | 4GB | 单 | |
| 128M x 4 x 8bks | 32 | 8GB | 双 | |
| 内存延迟 | 533MT/s | 4-4-4, 5-5-5 | ||
| 667MT/s | 5-5-5 | |||
每个FBD通道包括24 lane数据总线(14北向——读取、10条南向——写入),也就是每时钟北向数据帧长度为144bits(16字节数据和2字节ECC)。如果使用FB-DIMM DDR2-533/667内存,那么每通道读取带宽为4.3GB/s或者5.3GB/s,4通道则为17.2GB/s或者21.2GB/s。写入带宽为读取带宽的一半,因此每通道为2.1GB/s或者2.7GB/s,4通道为8.4GB/s或者10.8GB/s。理论上,Intel 7300芯片组的内存带宽可达到32GB/s,基本同前端总线带宽持平。
32GB/s是一个理论上的数字,用户实际使用时所使用的内存条数量、内存容量、总线利用率、各个子系统的延迟都会最终影响内存子系统的带宽。
提到FB-DIMM内存,我们不得不再提及其功耗和发热量。单条FB-DIMM内存的功耗在10-12瓦之间,远远高于DDR2内存的2-3瓦。可以推算出一个配置了32条FB-DIMM内存的系统中,仅仅内存功耗就在300瓦以上。据悉,英特尔正在积极的改进FB-DIMM内存发热量过大的缺点,但目前并没有一个可以看到的时间表。
为此,FB-DIMM内存的AMB(Advanced Memory Buffer)芯片中内置了温度传感器可实现内存节流(DIMM throttling)功能。也就是当FB-DIMM内存的稳定达到正常温度上限时,内存节流功能会通过降低FB-DIMM带宽的方式来降低工作负载,从而冷却下来。
|
特性 |
优势 |
| 内存ECC | 检测并纠正一位错误 |
| 增强型内存ECC | 重试双位纠错 |
| 内存备件 | 预测故障 DIMM 并将数据复制到备用内存 DIMM上,同时 保持服务器的可用性和正常运行时间 |
| 内存镜像 | 数据写入系统内存中的两个位置,以便在 DRAM 设备出现故障时,镜像内存可支持连续运行和数据可用性。 |
| 内存CRC | 地址和命令传输在发生瞬时错误时可自动重试 |
| 对称访问所有CPU | 如果主处理器出现故障,可支持系统重启并继续运行 |
Intel 7300芯片组MCH支持内存ECC、增强型内存ECC、内存备件、内存镜像、内存CRC和对称访问所有CPU功能,确保了系统的可靠性。
Intel 7300芯片组还进一步强化了I/O接口部分。它提供了28lane PCIe 1.0总线,主板厂商可根据情况灵活的组合。比如我们所测试的浪潮520D-2四路服务器的主板上有2个PCIe x8接口,3个PCIe x4接口(其中的1个PCIe x4接口协同ESI接口同ESB2E南桥芯片通讯,另外一个用于板载双端口千兆网卡,第三个则设计为扩展卡口)。每个PCIe x8接口又可以通过PCIe扩展卡支持更多的PCIe设备。ESB2E南桥芯片除了提供一个PCIe x4接口同MCH通讯之外,还能额外提供一个PCIe x4接口——一般这个接口会用于板载SAS控制器。
ESB2E也具有很高的I/O扩展能力。它提供了Kumeran接口,用于连接符合改接口标准的千兆网卡控制器芯片。TPM芯片则通过LPC总线同其通讯。ESB2E提供了6个SATA接口、6个USB 2.0端口。显示芯片则通过PCI 32bit/33MHz总线同其通讯。
平台虚拟化和I/O虚拟化
一般认为服务器整合、测试和开发、动态负载平衡和灾难恢复都是虚拟化应用最擅长的领域。利用虚拟化实现服务器整合,可以明显降低供电和散热的成本,硬件投入、软件投入和管理成本都会下降;在测试和开发过程易于复制环境,提升工作效率;动态负载平衡应用中可以提升业务连续性和运行效率;虚拟化还能提供高可用性和高生产力。
根据IDC六月份终端用户调查报告显示,2007新购买的x86服务器中有40%被用于了虚拟化应用,还预计今年部署了虚拟化应用的服务器会占所有服务器数量的10%,到2010年的时候可能会接近20%。英特尔认为具有卓越的性能、高度的可靠性平台将会有助于推动虚拟化应用的进一步普及。
![]() |
英特尔将其虚拟化战略分为三步走。用于X86架构的VT-x和用于安腾架构的VT-i都是基于CPU的虚拟化技术,它们都是在CPU中增加了专门的硬件辅助电路,帮助提升虚拟化的效率。VT-d虚拟化技术则着眼于整个平台,芯片组和相关的I/O设备也加入了进来。第三步则是在I/O层面上的虚拟化,I/OAT2技术已经初步的实现了部分功能。
![]() |
在英特尔没有推出虚拟化技术之前,所有虚拟机VM的各种请求(比如逻辑处理器、逻辑I/O设备)都需要经过VMM软件的转换和维护,这个过程是纯软件的过程,因此占用系统资源高,效率低下。更要命的是,所有的内存存取都经过VMM控制会有安全隐患,产生错误的几率也会增加,影响了虚拟化的隔离性和可靠性。
![]() |
在VT-x技术中增加了两个全新的执行模式VMX Root模式(用于VMM)和No-Root模式(用于Guest OS),这样可以让虚拟机上的操作系统直接运行在Ring 0上。此外还增加了VM Entry和VM Exit两种转换模式。VM Entry进程包括从VMM向Guest传输指令或者数据,进入到Non-Root模式,从VMCS载入Guest状态和VM Exit条件。VM Exit进程包括从Guest向VMM传输指令或者数据,进入到Root模式,在VMCS保存Guest状态并且重新载入Guest状态。这些功能的实现主要借助基于硬件的VMCS(VM Control Structure)来实现。
VT-d则是在平台层面上实现了I/O虚拟化(主要体现在整合于芯片组内的专用电路),它定义了一个用于DMA重映射的架构,可直接将I/O设备分配给未经修改的VMs或者半虚拟化VMs。不仅Caneland平台会支持VT-d,未来更多的英特尔服务器平台都会支持这些功能。
![]() |
支持EPT的芯片组中增加了由VMM控制的一个新的页表结构,它可以存储所有虚拟机内存页表的状态,虚拟机可以直接查找、修改自己的页表,在这个过程中无需执行VM Exit转换,减少了由此引发的页面错误等问题,从而提升隔离性。当然这个功能还需要处理器的支持,未来的Nehalem会支持,Tigerton目前尚未明确支持该功能。
![]() |
因此比较理想的虚拟化应该是如上图所示的状态,隶属于不同虚拟机的逻辑处理器、I/O设备均可在基于硬件机制的VMM控制下高效的访问物理内存。Caneland平台可以对于上述大部分功能提供支持。
I/OAT2终现身,I/OAT3露端倪
英特尔计划在2007年将会全面升级DP和MP服务器平台,无论是定位于嵌入式应用的Cranberry Lake平台、还是定位于主流双路处理器的Stoakley平台、或者是定位于多路处理器的Caneland平台,都将会支持新一代的I/OAT2技术(代号Crystal Beach2)。
I/OAT2有两个主要的设计目的,第一个是进一步增强数据中心网络I/O能力,第二个继续保持英特尔I/OAT的无状态架构优势。同样,I/OAT2依然是一个平台级的I/O优化方案,涉及到了CPU、芯片组、网卡控制器、等多个方面。
![]() |
第一代的I/OAT通过增强软件接口、软件预取到CPU、优化数据流等措施,实现对于TCP协议栈的优化处理。新一代的I/OAT2利用DCA(Direct Cache Access,直接高级缓存访问)技术,进一步降低频繁存取内存对系统性能所造成的负面影响。I/OAT2通过芯片组支持QuickData技术,该技术通过直接将网络数据放入内存中无需处理器参与,从而加速了标准网络数据的传送过程。英特尔在此基础上增加了DCA和MSI-X等功能,以提升数据传输和复制的效率。
支持IOAT2的网卡控制器不仅支持无状态卸载,TCP分配&效验和卸载,优化多队列&数据流,分离头部/有效负载等功能,还通过增加对于DCA、MSI-X、中断快速响应、头部分离/复制等功能的支持,提升IO效能。
![]() |
可以看到DCA和MSI-X两个功能是此次IOAT2所带来的主要改进。DCA(Direct Cache Access,直接高级缓存访问)基本工作原理是使得CPU高速缓存中的数据可以被网络控制器优先访问,一方面充分利用缓存中的数据,另外一个方面利用高速缓存低延迟的特性,来避免CPU频繁的访问内存,降低系统开销。DCA有两种基本的工作模式,当处理小型I/O任务的时候,甚至不需要芯片组中QuickData引擎的参与,只有当处理大型I/O任务的时候才需要。
MSI-X(Extended Message Signaled Interrupts,扩展消息信号中断)是MSI(消息信号中断)的增强版本,是PCIe 1.1规范中增加的新特性,可以将PCIe总线中的数据封包进行更灵活的分割,满足不同应用的需求。在I/OAT2中结合了直接内存访问、选择性中断行为的流量区别等功能,提供了更快的中断速度。
I/OAT2还支持头部分离/复制这一新特性。头部分离是TCP/IP协议处理过程中一个必不可少的过程,I/OAT2将来自数据/有效负载的TCP、IP头部放入不同的内存缓冲中。头部复制动作则是将头部进行拷贝并放置于不同的缓冲中,然后将整个数据包放入另一个缓冲中。头部复制可用于处理更长的头部。
![]() |
在服务器虚拟化应用中,由于多个VMs共享一个网口,会由于VMM软件的开销影响而导致I/O性能损失非常的大。支持I/OAT2的平台会在平台和网卡硬件上都进行相应的改进,可提供更高效的网络数据传输,比如VM、VMM网络协议栈处理效率均可受益,该技术还可以加速数据从网络NIC硬件队列到虚拟NIC的移动。此外还利用了VMDq(NIC使用多硬件队列给VMM软交换机加速)来提升虚拟化应用的效能。
![]() |
VMDq通过排序和分类封包来提升虚拟机应用中共享网卡的效率。如上图所示,在发送数据的时候,实行轮叫发送队列服务,确保公平发送,防止出现线头阻塞(Head-of-line blocking, HOL)现象。在接收数据的时候,VMDq部分将属于不同VMs的封包分类,然后由VMM成组的发送到VM,从而减少VMM交换机代码执行的次数,以获得较高的效率。
经过了1年多的推广,I/OAT技术已经得到了业界广泛的支持,比如MS Server 2003 SNP、Linux Kernel 2.6.18、SuSE Enterprise Linux Server 10、Redhat Enterprise Linux 5.0都已经支持I/OAT技术,VMWare也计划在下半年推出的VMWare ESX Server 3.5中增加对这一功能的支持。
| 功能 | IOAT1(Bensley) | IOAT2(Stoakley/Caneland) | IOAT3(Next Gen Platform) |
| Intel QuickData Tech(Data Movement engine)BW | 2GB/s | 2GB/s | 4GB/s |
| DMA通道数量 | 4 | 4 | 8 |
| LAN stateless offloads (Header/data split, Receive Side Scaling, TX/RX checksums, TCP segmentation) | 支持 | 支持 | 支持 |
| Message Signaled Interrupts | MSI | MSI-X | MSI-X |
| Direct Cache Access | 支持 | 支持 | |
| Low Latency Interrupt | 支持 | 支持 | |
| Optimized Header-Splitting / Replication | 支持 | 支持 | |
| Multi-VM Direct Assignment of Data Movement Engine | 支持 | ||
| Required LAN Si | IOAT1 | IOAT2 | IOAT3 |
| Gilgal Dual GbE PHY | 支持 | ||
| Zoar Dual GbE MAC/PHY | 支持 | 支持 | 支持 |
| Kawela(Adoram) Dual GbE MAC/PHY | 支持 | 支持 | 支持 |
| Oplin Dual 10 GbE MAC | 支持 | 支持 | 支持 |
| Niantic(Hadar) Dual 10 GbE MAC | 支持 | 支持 | 支持 w/RSC |
英特尔最近还放出了关于I/OAT3技术的一些信息,它将DMA通道数量从4个增加到8个,并增加了为多个虚拟机直接分配DME的功能,届时I/OAT3将会在虚拟化应用中网络I/O瓶颈将会被进一步缓解。
英特尔可信执行技术
可信执行技术(Trusted Platform Module,简称TPM)是一个基于硬件的安全设备,主要用于解决启动进程完整性验证和提供更好的数据保护。
![]() |
TPM能够保护系统启动进程,并且只有在确保启动进行没有受到干扰之后才会把控制权释放给操作系统。TPM设备能够为数据提供一个受保护的存储,比如安全密钥和密码。此外,TPM设备还具有加密和Hash功能。
一般支持这个功能的服务器都会把TPM芯片固定在主板上,然后通过LPC总线同南桥通讯。在Caneland平台上,则是TPM芯片通过LPC总线同ESB2E南桥芯片通讯。这种设计既可以防止外部软件的攻击,也能防止物理破坏。
![]() |
TPM还可以用于虚拟化应用中并且可以根据业务段需求管理并保护企业数据。
此次推出的浪潮英信NF520D2四路服务器产品,基于全新的Intel Caneland平台设计,同时支持最新的Xeon 7200和Xeon 7300两系MP全线产品,四路的高性能配置加上稳定的系统设计,适用于含电信、金融、石油、化工、交通、教育等在内的各行业关键应用。
![]() |
浪潮英信NF520D2采用4U规格设计,为整体硬件系统的高性能扩展提供了强大支持。
![]() |
浪潮NF520D2上,最引人注目的当属两个占据前面板一半面积的大排量风扇,强劲的冷却系统保障了整机的恒温。
![]() |
NF520D2的左上角,配置了一个DVD ROM,并可选Comb配件,为整系统关键应用的外部存储提供了很大的方便;中间偏下的位置,嵌入了8块2.5寸热插拔SAS硬盘位,为系统内部存储提供了足够的空间。
![]() |
![]() |
服务器前面板的右上角位置,除了电源开关与重启按键外,还可以看见许多重要部件的工作状态指示灯,包括电源指示灯、主板集成网卡指示灯、系统状态指示灯、硬盘活动指示灯、系统ID指示灯等。按钮与指示灯的左边,同时嵌入了一个前置VGA接口与三个USB接口。所有这些设计,为整系统排障以及日常操作提供了很大的方便。
![]() |
另外,NF520D2的中上位置预留出一个盘位的空间,为存储的进一步扩展和特殊应用扩展提供了便利。
![]() |
![]() |
NF520D2的后背板,分布左右两边的强力后拉风扇与机箱前的大排量风扇前后贯通,为整机系统环境提供了良好的温控支持。
![]() |
后背板中间位置,与主板结合的7个扩展位与配合本机主板额外配置的专用64位网卡设计,4个网口同时支持网络唤醒、网络冗余与负载均衡等网络高级特性,所有这些都贴近关键应用的系统整合需求。
![]() |
分布两风扇之下的是2个USB接口、后置VGA接口、后置9针公串口、集成双千兆网卡、USB接口,为服务器的前后两方位维护提供了更多的选择。
主板位置之下是1+1的1570W热插拔冗余电源,这一设计同样切合服务器关键应用持续与稳定的电力支持需求。
![]() |
浪潮NF520D2内部布局设计
浪潮在NF520D2的内部系统设计上,各个配件环节都体现出维护更加方便的免安装理念。
![]() |
免工具安装的配件以蓝绿双色标明
在每个服务器处理器之上,都覆盖1块以4根铜管串接起来的高效散热器,高性能运算核心的温控得以支撑。
![]() |
NF520D2服务器的4块散热器之下,一字排开代号Tigerton、标志MP Xeon的四路四核处理器在产生强大性能震撼力之余,也彰显出Intel与浪潮两公司高高在上的技术实力。
![]() |
![]() |
服务器平台拓扑图可见其典型的Core核心架构
本次评测的NF520D2配备了8条1G FBD内存,从上文中NF520D2的整体内部图,我们可以看见其配备了4条总线内存插槽,不过由于此次送测需求急切,而送测过程各环节的协调都进行地非常仓促,浪潮仅为这8G内存准备了1块内存盒,而8条内存只通过一条总线传输,对于目前通过总线处理数据的Intel系服务器来说,性能难免有所抑制。
在主要性能的设计之外,浪潮NF520D2同时配备了7个X8规格的PCI-E插槽,其中并有两条支持热插拔,这些均与后背板的7条扩展接口相呼应。
![]() |
根据浪潮厂商提供的资料,NF520D2还可选配1个光纤通道,这也把NF520D2推进高端存储系统部署需求的环节中。
浪潮英信NF520D2系统整合管理
浪潮英信NF520D服务器提供了高级光路诊断技术和智能管理系统可协助系统管理员快速了解系统健康状况,并能及时判断硬件错误位置,借助于智能管理系统监控服务器系统的管理事件并且把它们记录到指定的存储器中。
![]() |
高级光路诊断技术目前已经被很多主流的服务器厂商所应用,浪潮英信NF520D服务器也利用这种技术来提升产品的可管理性,降低排查硬件故障的难度,缩短设备维护时间。系统管理员可以通过前面板的指示灯大致了解系统目前是否有故障发生,如果有的话则可以打开机箱盖来观察,在系统风扇、XMB扩展模组、磁盘控制器、VRM模块、系统电源上都设计有指示灯,利用这些指示灯所提供的信息,系统管理员可以快速的缩小故障范围。
这款服务器还配置了浪潮高级服务器管理模块,该模块支持IPMI1.5、IPMI2.0、WfM2.0、EMP等协议,可提供远程管理和远程诊断功能,结合浪潮睿捷管理套件,可以更加方便的进行系统管理和维护。
浪潮睿捷管理套件包括蓝海豚系统智能安装软件和猎鹰管理软件。蓝海豚系统智能软件可以帮助用户安装主流的操作系统(比如 Windows 2003 Server和Red hat Enterprise Linux),它不但明显降低了部署操作系统部的难度,而且可以提高大规模部署服务器操作系统的效率。这次测试所试用的蓝海豚系统智能安装相对于去年的蓝海豚导航软件最明显的改进是彻底放弃了软驱。
蓝海豚系统智能软件可以引导没有安装操作系统的服务器进入到Linux图形界面。用户在这个界面可以制作驱动程序软盘,查看光盘可提供的常用软件和系统补丁,浏览详细的系统主要部件的信息,阅读机型介绍等等。
浪潮猎鹰服务器管理软件是浪潮服务器软件研发项目专为浪潮服务器产品开发的一款专业的管理软件,目前的最新版本是V3.2。它可对Windows和Linux服务器节点状态进行实时监控和资源管理,为系统管理员提供了一个统一的、集中的、可视化的和跨平台的管理工具。
![]() |
浪潮猎鹰服务器管理软件由三个组成部分:主控制台、事件接收器、代理监测。安装了主控制台和事件接收器的管理控制台可以对于受控Windows和Linux平台进行统一管理,负责整个网络系统配置、管理和监控。受控端的各种信息由代理监测采集并且传送给事件接受器,而管理控制台发送的指令也是由前两者来传递信息的。这套软件兼容WMI、IPMI、SNMP等规范,可以同第三方的网管软件结合使用。
利用猎鹰软件,管理员可以对于被管理服务器进行分组管理,可以以组为单位执行注销、重新启动、关机和网络唤醒都等操作。为了避免多台服务器同时关闭或者开启时对于供电电路的冲击,用户还可以设定两个操作之间的延时。
猎鹰软件还可以查看某一台服务器的具体参数,比如CPU、内存、磁盘、网络适配器以及SCSI等硬件设备的状态;操作系统的主要的参数以及安装的软件的状态;磁盘占用率、CPU以及内存占用率和网络性能;对于每台服务器所运行的进程、服务以及日志和端口进行管理。
这款软件还提供了多种报警方式,它可以播放用户指定的WAV文件或者直接启动蜂鸣器;弹出对话框、跳出气球提示,同时还会把这一切记录在日志上。如果实现设定好了SMTP服务器以及拨号设定,它还可以通过电子邮件或者拨打电话来发出警告。
猎鹰软件可以分别记录管理员日志、告警日志、ASF事件日志,用户可以按照组、服务器名称以及日志类型快速的检索,同时还提供了日志备份功能。
之前我们曾经评测过浪潮推出的基于Truland平台的NF520D服务器,所以这次测试我们将新的基于Caneland平台的NF520D服务器的测试成绩同其进行对比,我们将能够看到Caneland平台上的服务器有哪些提升?
|
浪潮英信NF520D2服务器配置 |
|
| Intel S7000FC4UR | |
|
处理器 |
Intel Xeon 7340 x 4 |
|
主频 |
2.40GHz |
|
FSB |
1066MHz |
|
L2容量 |
4MB x 2 |
| L3容量 | 无 |
|
处理器设置 |
XDbit Disable |
|
Ramaxel 1GB 2Rx8 pc2-4200r-444 FB-DIMM |
|
| 总容量 | 1GB x 16(4通道) |
|
磁盘控制器 |
LSI Logic MegaRAID SAS 8408E RAID Controller |
| Seagate ST973402SS,2.5寸 | |
|
磁盘设置 |
3块硬盘组建为RAID 5模式,磁盘分为两个分区,均为NTFS格式,系统默认簇,主分区20GB,其它分为扩展分区,共享文件夹、磁盘测试均在格式化后的扩展分区上进行 |
|
Microsoft Windows 2003 Enterprise Server R2 5.02.3790 (Service Pack 1) |
|
|
Intel(R) PRO/1000 EB Network Connection with I/O Acceleration,双网卡负载 |
|
|
浪潮英信NF520D服务器配置 |
|
|
主板 |
Intel SE8500HW4 |
|
处理器 |
Intel Xeon 7130 x 4 |
|
主频 |
3.20GHz |
|
FSB |
800MHz |
|
L2容量 |
1MB x 2 |
| L3容量 | 8MB(共享) |
|
处理器设置 |
XDbit Disable |
|
内存 |
Ramaxel 1GB 2Rx8 pc2-4200r-444 FB-DIMM |
| 总容量 | 1GB x 4(4条) x 4(4通道) |
|
磁盘控制器 |
LSI LOGIC LSI5030 RAID Controller |
|
硬盘 |
FUJISU MAU3073NC,3.5寸 |
|
磁盘设置 |
3块硬盘组建为RAID 5模式,磁盘分为两个分区,均为NTFS格式,系统默认簇,主分区20GB,其它分为扩展分区,共享文件夹、磁盘测试均在格式化后的扩展分区上进行 |
|
操作系统 |
Microsoft Windows 2003 Enterprise Server R2 5.02.3790 (Service Pack 1) |
|
网卡 |
Broadcom BCM5704 NetXtreme Gigabit Ethernet,单网卡 |
| NF520D | NF520D2 | |
| 处理器型号 | Xeon 7130N | Xeon E7340 |
| 主频 | 3.2GHz | 2.4GHz |
| FSB | 800MT/s | 1066MT/s |
| 系统FSB总带宽 | 12.8GB/s | 34GB/s |
| L2缓存 | 1MB x 2(每处理器) | 4MB x 2(每处理器) |
| L3缓存 | 8MB | 0 |
| 内存类型 | DDR2 400 | FBD DDR2 533 |
| 总带宽 | 12.8GB/s | 17+8.5 GB/s |
| 总容量 | 16GB | 16GB |
这两款服务器最大的区别在处理器和内存子系统上,其它的部分比如磁盘子系统虽然有较大的不同,但是对于我们所选择进行的测试项目并没有明显的影响。
![]() |
需要说明的是这两款处理器的定位并不完全对等。在主频上Xeon 7130N比Xeon E7340高800MHz,幅度高达33%,Xeon 7130N比较“占便宜”。但是在市场定位上,Xeon 7340略微高于Xeon 7130N。
我们在上述配置的服务器上分别安装了Microsoft Windows 2003 Enterprise Server R2 5.02.3790 (Service Pack 1),正确安装了各个硬件的驱动程序,并进行必要的单机系统与网络环境基础优化措施,确保服务器工作在非常好的的状态。
浪潮NF520D测试方法
由于本次的评测过程比较紧急,而为了尽快让大家了解配备新架构MP处理器Xeon 7300的浪潮英信NF520D2性能,我们此次仅挑选了最重要的处理性能、内存缓存性能、数据库网络应用辅以基本测试环节进行。具体测试项目如下:
-
SPECCPU2000 v1.2
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU2000是SPEC组织推出的一套CPU子系统评估软件,它包括CINT2000和CFP2000两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能。计算系统中的处理器、内存和编译器都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2000的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了Intel C++ 8.1 Compiler、Intel Fortran 8.1 Compiler这两款SPEC CPU2000必需的编译器,另外安装了Microsoft Visual Studio 2003.net提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,可以满足Base测试。然后我们根据被测系统实际可同时处理的线程数量,设定用户数量,分别运行SPEC base和SPEC rate base测试的结果(其中SPEC base代表系统执行某个任务的速度,而SPEC base rate测试代表系统可以同时处理任务的能力)。
-
ScienceMark v2.0 Membench
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
-
SiSoftware.Sandra.SP1 v2007
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。今年该软件推出了2007版,该版本新增了4项基准测试,包括Power Management Efficiency、Memory Latency、Physical Disks和CD-ROM and DVD这四个项目。另外,它还对于原有的几个基准测试模块进行升级,比如在Arithmetic benchmarks中增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。
-
Benchmarkfactory 4.6
大部分的服务器应用都同数据库有着密切的联系,因此我们今年开始着手在在服务器测试中加入对于数据库性能的测试。我们选择了Benchmark Factory 4.6软件和Microsoft SQL2000 SP4来测试不同的硬件平台在数据库应用中的表现。
我们选择了BF内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。
我们分别运行SPEC base和SPEC rate base测试,其中SPEC base代表系统执行某个任务的速度(一般称之为Speed测试),而SPEC base rate测试代表系统可以同时处理任务的能力(一般称之为throughput测试)。
整数性能测试中包括11个C程序和1个C++程序(252.eon),它们分别代表数据压缩(164、256)、电路布线(175)、C编译器(176)、 最低成本网络流解算机(181)、象棋模拟程序(186)、自然语言处理(197)、光线追踪(252)、Perl应用(253)、计算机群论(254)、面向对象的数据库应用(255)等应用。
浮点性能测试中包含了14个程序,分别代表量子色动力学(168)、浅水模型(171)、3D势场多栅格解算器(172)、抛物/椭圆偏微分方程(173)、3D图形库(177)、流体动力学(178)、神经元网络(179)、有限元模拟:地震模型(183)、面部识别(187)、计算化学(188)、数论(189)、有限元模拟:碰撞(191)、粒子加速器(200)、污染物扩散(301)。
| SPECint_base2000 [IT168评测中心]Speed |
|||
|---|---|---|---|
| 对比平台 | NF520D | NF520D2 | 增长幅度 |
| 开启线程数量 | 16 | 16 | - |
| 164.gzip | 1080 | 1469 | 36% |
| 175.vpr | 1096 | 1673 | 52% |
| 176.gcc | 1818 | 2434 | 34% |
| 181.mcf | 2150 | 1994 | -7% |
| 186.crafty | 1170 | 1711 | 46% |
| 197.parser | 1357 | 1873 | 38% |
| 252.eon | 1968 | 2377 | 21% |
| 253.perlbmk | 1734 | 2460 | 42% |
| 254.gap | 1588 | 1964 | 24% |
| 255.vortex | 2674 | 3332 | 25% |
| 256.bzip2 | 1216 | 1738 | 43% |
| 300.twolf | 1420 | 2490 | 75% |
| 总分 | 1544 | 2074 | 34% |
| SPECfp_base2000 [IT168评测中心]Speed |
|||
|---|---|---|---|
| 对比平台 | NF520D | NF520D2 | 增长幅度 |
| 开启线程数量 | 16 | 16 | - |
| 168.wupwise | 1219 | 2124 | 74% |
| 171.swim | 1846 | 1506 | -18% |
| 172.mgrid | 835 | 1268 | 52% |
| 173.applu | 1201 | 1253 | 4% |
| 177.mesa | 1001 | 2221 | 122% |
| 178.galgel | 1684 | 5721 | 240% |
| 179.art | 2752 | 8694 | 216% |
| 183.equake | 1544 | 1292 | -16% |
| 187.facerec | 1284 | 2241 | 75% |
| 188.ammp | 1164 | 1633 | 40% |
| 189.lucas | 1434 | 1564 | 9% |
| 191.fma3d | 1026 | 1284 | 25% |
| 200.sixtrack | 514 | 946 | 84% |
| 301.apsi | 1041 | 1362 | 31% |
|
总分 |
1234 | 1879 | 52% |
SPEC CPU2000 Speed测试显示采用了Caneland平台的浪潮NF520D2服务器整数应用运行速度提升了34%,浮点应用运行速度提升了52%。在INT测试中,175、300两项增幅超过了50%,在fp中,178和179两项的增幅甚至超过了200%!新的酷睿微架构的高效的确让Xeon MP平台获益良多。
| SPECint_rate_base2000 [IT168评测中心] |
|||
|---|---|---|---|
| 对比平台 | NF520D2 | NF520D | 增长幅度 |
| 开启线程数量 | 16 | 16 | - |
| 164.gzip | 221 | 126 | 75% |
| 175.vpr | 101 | 95.2 | 6% |
| 176.gcc | 253 | 182 | 39% |
| 181.mcf | 37.2 | 93.4 | -60% |
| 186.crafty | 315 | 110 | 186% |
| 197.parser | 189 | 149 | 27% |
| 252.eon | 439 | 187 | 135% |
| 253.perlbmk | 368 | 151 | 144% |
| 254.gap | 69.5 | 126 | -45% |
| 255.vortex | 308 | 223 | 38% |
| 256.bzip2 | 130 | 134 | -3% |
| 300.twolf | 456 | 141 | 223% |
| 总分 | 192 | 138 | 39% |
SPEC CPU2000 throughput测试结果显示,采用了Caneland平台的浪潮NF520D2服务器整数应用的并行处理能力提升了40%!
由于处理器微架构的不同,浪潮NF520D服务器采用的Xeon 7130N处理器和NF520D-2服务器采用的Xeon E7340处理器的缓存结构有着明显的不同,容量配置上也有明显的差异。Xeon 7130N处理器每核心有16KB L1数据缓存和12k追踪缓存,每核心配置了1MB L2缓存,每个处理器总共有1MB x 2 L2缓存,每颗处理器还有8MB L3缓存。Xeon E7340处理器每核心有32KB L1数据缓存和32KB L1指令缓存,每DIE有4MB L2缓存,每颗处理器有4MB x 2 L2缓存,无L3缓存。
|
SiSoftware.Sandra.Enterprise.SP1 v2007
Cache and Memory
|
||
|
|
NF520D2 | NF520D |
| Speed Factor | 107892 | 68754 |
| Speed Factor | 453.9 | 79.6 |
| 2kb | 569400 | 389624 |
| 4kb | 537248 | 391622 |
| 8kb | 647432 | 405148 |
| 16kb | 1004501 | 305540 |
| 32kb | 1096246 | 298434 |
| 64kb | 1140554 | 290690 |
| 128kb | 1126753 | 263676 |
| 256kb | 1072711 | 214869 |
| 512kb | 841141 | 214218 |
| 1MB | 334593 | 205152 |
| 4MB | 318272 | 168360 |
| 16MB | 249076 | 53114 |
| 64MB | 4650 | 7579 |
| 256MB | 3155 | 6360 |
| 1GB | 2513 | 5088 |
|
Core微架构的优势无疑是非常明显的,在测试数据块小于16KB的时候,Xeon E7340的缓存带宽是Xeon 7130N的1.5-3倍,而在数据块小于1MB的时候,Xeon E7340的缓存带宽优势最大达到了5倍!即便是测试数据块继续增大到16MB,Xeon E7340依然是7130N的1.6-1.8倍。
我们在被测服务器上安装了Microsoft SQL 2000 SP4,按照测试要求建立了数据库。BF在测试之前会在数据库中生成9个表,其中包括4个500万行的表格,每行包括100字节的数据,因此每个表格容量大约是476MB,整个数据库容量为1.86GB。我们用60个客户端模拟800个用户,并且以8个一组依次增加,在这个数据库中进行查询、添加、删除、修改等操作。
![]() |
当虚拟终用户超过300个时,NF520D处理数据库请求的性能已经非常稳定,而NF520D2的曲线依然保持着上升趋势。
当1000-1600个虚拟用户接入时,两台服务器的曲线基本趋于稳定,我们取这些结果的平均值。NF520D数据库请求的响应平均数为52085TPS,而NF520D2数据库请求的响应平均数为59925TPS,即采用Intel新Caneland平台处理器的NF520D2,其整机数据库网络性能有15%的提升。
![]() |
最后需要补充说明的是,即便是在1600个虚拟用户的时候,我们测试环境所使用的60个客户端负载只有50-60%,而NF520D-2服务器的负载也只有70-80%(此时网络成为了整个测试系统的瓶颈,但是由于送测服务器没有配送足够数量的网卡,使得我们无法消除这个瓶颈),因此我们预计这台服务器的稳定的数据处理能力有望达到65-70k TPS,因此新老平台的数据性能差异应该会在25-30%之间。
【IT168评测中心】在中高端商务计算市场推广中,浪潮一向引以为傲的就是被誉为“智能之星”的NF520D系服务器。
作为NF520D系列的第二代产品,浪潮英信NF520D2保持了一代产品可贵的优良传统:各种常用部件热插拔技术的涉入、各重要配件的免工具安装、256GB的大容量内存扩展、8SAS+预留空盘位的海量存储支持、强力温控系统的到位、不间断稳定运行的冗余电源保护、集团内强大的系统与软件整合能力后援……
经过近1周的紧张测试,我们对于基于Caneland平台的浪潮NF520D2服务器有了较多的了解。其处理器浮点性能和整数性能都有了大幅度的提升,在数据库应用测试中,新一代的NF520D2比上一代NF520的性能高出了15%,如果进一步解决网络瓶颈的话,有望提升30%的性能。
Caneland,膨胀虚拟化“野心”的平台
英特尔每一次发布新平台,带来性能的大幅度提升是毋庸置疑的事情,集成更多的功能也是顺理成章的。如何把新服务器平台的性能充分的发挥出来,如何有机的让这些新功能聚合在一起发挥更大的作用?这就是英特尔此次发布Caneland平台之初努力强调虚拟化应用的原因所在。
![]() |
首先,Caneland平台采用了高效的Core微架构四核Xeon MP处理器。我们的测试显示市场定位相当的平台对比,并行处理能力提升了40%。新的平台还采用了FB-DIMM内存,最高可提供34GB/s的读写带宽,并且服务器的内存容量可扩容至256GB,是上一代平台的1倍。因此理论上Caneland可以支持更多数量的VMs,这也就意味着在同一台服务器中可以整合更多的应用,从而明显降低供电和散热的成本,同时软件投入和管理成本都会下降。
英特尔推出的诸多平台技术都为虚拟化应用做了优化。比如支持直接缓存访问功能的第二代I/OAT技术,专为VM迁移做了优化,VMDq功能可以对于不同VMs的封包进行分类处理,提升VMM软交换机的效率。英特尔可信执行技术(TPM)也为虚拟化应用优化,它可以根据业务段需求管理并保护企业数据。
|
特性 |
优势 |
英特尔Xeon平台 | 其它X86平台 |
| 内存ECC | 检测并纠正一位错误 | 支持 | 支持 |
| 增强型内存ECC | 重试双位纠错 | 支持 | - |
| 内存备件 | 预测故障 DIMM 并将数据复制到备用内存 DIMM上,同时 保持服务器的可用性和正常运行时间 | 支持 | - |
| 内存镜像 | 数据写入系统内存中的两个位置,以便在 DRAM 设备出现故障时,镜像内存可支持连续运行和数据可用性。 | 支持 | - |
| 内存CRC | 地址和命令传输在发生瞬时错误时可自动重试 | 支持 | - |
| 对称访问所有CPU | 如果主处理器出现故障,可支持系统重启并继续运行 | 支持 | - |
人们对于虚拟化应用最大的担心就是所有的鸡蛋都在一个篮子中,因此英特尔在服务器可靠性方面做了很多工作,比如如上表格所示内存方面的功能。英特尔还宣称有超过4000万台应用了Xeon技术的服务器被部署在全世界,经过了广泛且长时间的考验。
![]() |
英特尔的“野心”不至于此,明年下半年代号Dunnington的处理器将会被应用于Caneland平台上,这将是第一款应用了45nm High-k制程Xeon MP处理器,理论上它可以具有更多的核心、更低的功耗、更大容量的缓存。为了能够尽早的推进I/OAT3和输入输出级虚拟化,我们也不排除到时候,英特尔会对整个平台进行再次的升级。