【IT168评测中心】据美国Alliance to Save Energy节能联盟的资料显示,以现在的增长速度来看,如果数据中心的能效不做提升的话,那么它们的用电需求将不停提高,不到10年的时间就可以翻倍,而全球数据中心的电费也将每年再增加2亿~3亿美元。同时,市场研究公司Gartner也预言,在接下来的几年中,世界上一半左右的数据中心将受到电力和空间的约束,能耗会占到IT部门三分之一左右的预算,IT组织在能耗方面的花费将达到硬件花费的四分之一。
而且,大量的IT基础设施(除了服务器之外、还有网络、冷却等设备)所消耗的不仅仅是电力,产生这些电力的能源消耗所带来的环境污染更加令人担忧。因此,在这样的大背景下,以节能、环保、高效为核心价值的绿色IT产品与技术的发展,也就成为了新一代IT产品的创新重点。
现在,IT行业整个范围内,包括从芯片、服务器、存储到网络设备厂商,都希望在自身的产品上做更优化的设计,力图在提升产品性能的同时,推出更为节能的产品。可以说,绿色节能、高效计算已经成为了整个IT界的产品趋势。下面我们就从数据中心的重要组成部分:服务器来对绿色高效计算进行探讨。
早在上一年10月的时候,英特尔发布了使用了45nm工艺制程的Penryn系列处理器。基于Tick-Tock战略,它和上一代65nm的Conroe相比,微架构上的变化并不大,同时依靠于SSE4等变化,性能也可以有比较明显的提升,最明显的地方是由于制程上的大进步,功耗得到了极大的降低。
Tick-Tock战略
按照Tick-Tock规划,Conroe面市1年后的今天,Intel将会推出45nm工艺、基于Core微架构改良的处理器产品,也就是我们熟知的代号为Penryn的新一代Core 2 处理器家族。Penryn家族将基于全新45纳米High-K金属闸极(High-K Metal Gate) 技术,配合经过改良的微架构设计,达成Intel目标每年推出具备增强微架构或全新微架构处理器产品的承诺。
Intel 45nm Penryn处理器
除了Intel已经普遍使用的45nm Penryn之外,AMD也开始将其产品转移到45nm工艺——就在我们的横评进行期间,送来采用65nm AMD Operton处理器的两个厂商浪潮Inspur和戴尔DELL表示他们现在就可以提供代号为Shanghai的45nm Operton处理器,仅需要升级BIOS,就可以完成升级工作,大幅度提升性能。
AMD Shanghai/上海,采用了45nm工艺制程(这也是AMD CPU第一次采用45nm),集成了7.05亿晶体管,拥有共享6M的三级缓存,增强的双通道内存控制器可以同时支持DDR2内存和DDR3内存,内置了最多4条Hyper Transport总线以支持组建大规模并行系统,“上海”还支持AMD的快速虚拟化索引(RVI)的AMD-V虚拟化技术,同时具备48位物理寻址能力,寻址空间可以达到(256TB)。
工艺的进步影响最大的就是功耗,根据我们的测试,Intel的65nm到45nm的工艺转变有着接近30%~40%的功耗降低(《性能提升 功耗剧降 45nm至强处理器测试》),AMD的65nm到45nm工艺转变也是有着相似的数字(《AMD Shanghai SPEC CPU运算效能评测》,虽然题目是SPEC测试,不过这一页中进行了简单的功率测试)。制程带来的功耗降低可以让厂商们通过直接提升处理器们的L2/L3缓存来提高性能,同时功耗仍然保持在较低的水平,可以说,对能效比这个概念来说是很有意义的。
高分辨率45nm Penryn核心图片,如同在《2008年度评测报告:深入Nehalem微架构》中所说的一样,Nehalem之前的Core架构仍然是基于双核设计的
从65nm到45nm的转变,不仅仅是当前芯片设计在体积上的缩小。此类处理器中还增加了许多新的特性,如全新的英特尔SIMD流指令扩展4(SSE4),可通过47条全新指令加快包括视频编码在内的工作负载的处理速度,从而支持高清晰度画质和照片处理,以及重要的HPC和企业应用。
较高端的X5460处理器,后来Intel还发布了频率更高的X5482处理器
和上一代Clovertown相比,Harpertown处理器将2 x 4MB的L2缓存提升到了2 x 6MB L2缓存,每两个核心共享6MB缓存。Harpertown处理器将不再使用旧的1066MHz FSB,而开始支持更高的1333MHz/1600MHz FSB。由于采用了45nm High-k制程技术,四核Harpertown的功耗依然保持同现有的双核大致相当的水平,TDP为80瓦、120瓦和150瓦,并且频率规格也有所提高,最高端的Xeon X5492处理器可以达到3.4GHz,而上一代Xeon X5365只有3.00GHz。
45nm Penryn的增强Core架构主要基于5大方面的改进
除了采用了更新的45nm工艺,Xeon 5400在微架构方面也做了大量的改进,主要包括以下5个方面:
- Intel Wide Dynamic Execution(Intel宽动态执行)方面的改进着实从处理器基础架构上提升了处理器的运算性能,它包括快速16进制除法器、更快速的操作系统基础支持、增强的Intel虚拟化技术三个部分。与桌面平台相关的主要是16进制除法器,而服务器则可以从所有的改进内容中获益。
- Faster Radix-16 Divider(快速Radix-16除法器)
虽然除法也可以用乘法来代替,不过单独的除法指令、除法运算器部件显然可以提升效能,Penryn架构搭载了新的16进制除法部件,可以提供目前最优异的除法性能。传统的2进制或者4进制除法只能在每个时钟处理1位或者2位数据(2个位就能表示4个数,也就是4进制的意思),而Penryn 16进制除法器可以每个时钟处理4位数据(4个位就能表示16个数),可以大大提升包括整数、浮点在内的除法性能,并大大优化了平方根的运算,而且Penryn的除法器的Early-out构造可以以极低的延迟输出结果,最小值需要6个时钟周期。除法器的性能提升几乎涉及到了所有的应用程序。
- Faster OS Primitive Support(更快速的操作系统原语支持)
Primitive原语是指一些基本的操作语义,Penryn增强了操作系统的同步原语,通过提升中断遮罩控制以及时间戳计数器的性能,从而达到提升操作系统同步性能的目的。通常的多任务操作系统中,需要通过大量的硬件/软件中断请求来驱动设备、处理时分多任务,这些中断请求处理需要CPU不断地在多个线程之间切换,这些线程的上下文切换将会带来巨大的开销。Penryn的微架构通过减少流水线停顿的方法来增强多线程切换的性能(线程上下文切换会很容易引起流水线停顿)。此外,在繁忙的操作系统中,不同程序中大量的定时器/计数器需要不停地查询时间戳计数器,通过2倍于原来速度的CLI/STI/RDTSC指令执行速度,Penryn架构大大提升了这些应用的性能,例如数据中心、事务处理等应用都可以从中获得明显的提升,这有点像现代芯片组中新增加的精确时钟技术,这个技术可以比较明显地提升繁忙的服务器的性能表现。
- Enhanced Intel Virtualization Technology(增强的Intel虚拟化技术)
作为当前的热点,也是Intel当前专注的部分,虚拟化技术也没有被忽略,这个持续发展中的技术也获得了改进:VM Exit/VM Entry性能获得了25%~75%的提升,在虚拟化应用中,虚拟机切换是很频繁的,VM Exit/VM Enry的执行也就很是频繁,这方面的改进可以明显地改进虚拟机(特别是多虚拟机)下的性能。
- Intel Advanced Smart Cache(Intel先进智能缓存)则进一步提升了缓存性能,以符合未来多核心的趋势,其包括了更大容量的缓存以及更多路的缓存关联,服务器对L2缓存的利用效率是非常高的。
Intel Advanced Smart Cache其实就是L2缓存方面的改进,Penryn处理器家族的L2缓存容量得到了提升,双核心版本将拥有最多6MB、四核心将拥有最多12MB的L2缓存,比上一个版本增大了50%。并且在容量提升的基础上,Penryn还把L2 Cache的Associativity关联性由上一代的16路提升到了24路,令L2缓存存取的平均潜伏期得到了进一步的下降。
- Intel Smart Memory Access(Intel智能内存存取)提升了装载数据的速度,包括强化的存储转发结构和更高的总线带宽设计。
除了更快的1600MT/s总线可以提供更高的存取速度之外,Penryn架构还提供了Improved Store Forwarding强化存储转发特性,通过新的64位载入指令,提升了内存之间、核心之间等的存储转发性能。
- Intel Advanced Digital Media Boost(Intel先进数字媒体增强)则是对数字媒体的一系列优化、增强,包括了SSE4指令集的加入,以及全新的Super Shuffle Engine超级传送引擎,这一点留待下一节介绍。
- Intel Intelligent Power Capability(Intel智能电源特性)则是充分发挥新制程的特点,降低总体能源的消耗,包括了深层关机技术和增强的Intel动态加速技术(该项改进主要针对移动平台)。
Bensley平台仍然是主流,Stoakley平台形踪难觅
Intel于06年年初发布的Bensley平台在最近的几年内得到了服务器厂商广泛采用。这个平台包括了三款芯片组它们是Intel 5000P、Intel 5000V和Intel 5000X,其中的前两者主要定位于服务器应用,而后者是定位于工作站应用——当然,也可以应用于服务器。为了支持全系列Xeon 5400处理器,Intel在08年还推出了两个新的芯片组系列产品:Intel 5400芯片组和Intel 5100芯片组。
45nm High-K Xeon 5400 DP处理器与采用了Intel 5000芯片组家族的Bensley服务器平台保持了较好的兼容,除了不能支持1600FSB Xeon 54x2处理器之外,可以很好的支持其它的1333FSB Xeon 5400处理器。这对于服务器厂商来说的确是一件好事,他们可以不必放弃已经经过2年市场考验的成熟系统,直接将现有产品升级到Xeon 5400即可得到一款“新产品”了。这也就是我们为什么现在看到的几乎所有服务器都依然固守在Bensley平台上的主要原因。
Intel 5000P、Intel 5000V这两款芯片组的关系就如同以往的Intel E7520和Intel E7320芯片组的关系,Intel 5000P定位相对较高,Intel 5000V定位略低。Intel 5000P和Intel 5000V芯片组的主要区别在于MCH芯片,它们均可以搭配新的6321ESB芯片(又叫ESB2,Enterprise South Bridge 2)或者6700PXH芯片。
Intel 5000系列芯片组通过独立的点对点系统总线支持两个处理器,完全不同于之前的芯片组采用的共享总线的方式,这被英特尔称之为双独立总线(DIB)。每条总线运行频率为333MHz(1333MT/s),那么安装了FSB1333处理器的系统的前端总线的总带宽最高可达21.2GB/s。
Intel 5000系列芯片组开始支持FB-DIMM(Fully Buffered DIMM)内存,英特尔计划让这种新型的内存全面取代现有的ECC Register DIMM。Intel 5000P MCH支持36bit寻址能力,总共可支持64GB物理内存。MCH支持4个FB-DIMM内存通道,每个通道最高支持4个Dual-Bank FB-DIMM DDR DIMM。因此在非镜像模式下,MCH最高可支持16 DIMM或者最大64GB物理内存,在镜像模式下最大可以支持32GB物理内存。Intel 5000V MCH则仅支持2个FB-DIMM内存通道,每个通道最高可支持4 DIMMs,总共可支持8 DIMM,那么最高内存容量可达16 GB。而Intel 5100则是采用通常DDR2解决方案的产品,也许是Intel观察到了FBDIMM具有昂贵、发热量较大的缺点。5100芯片组确实是面向比较廉价解决方案的产品,它只支持最多双通道内存,而且采用了源自桌面平台的ICH9R南桥芯片组。
每个安装了DDR667 FB-DIMM内存的FB-DIMM通道的读取带宽为5.33 GB/s,所以4个通道最高可以提供21.2GB/s的内存带宽,这正好同FSB1333 DIB总线的带宽相匹配。在双通道配置的Intel 5000V/5100平台上,这些数字都将减半,总带宽为10.6GB/s。
Intel 5000P MCH和Intel 5000V MCH另外一个重要区别是对于PCI-Express总线的支持,5000P MCH支持3个x8 PCI-Express通道,每通道可以进一步配置为2个x4通道,其中1个x8通道(或者配置为2个x4通道)将用于同ESB2通讯。5000V MCH则仅提供1个x8(或者配置为2个x4通道)将用于同ESB2通讯。
崭新的Stoakley平台由45nm Harpertown处理器和5400芯片组组成
Stoakley平台主要在于新的5400芯片组(应用5400芯片组的产品现在仍然不是很多)。Intel 5400 MCH芯片代号为Seaburg,它依然采用了DIB前端总线,工作模式为1066/1333/1600MT/s,可提供17-25.6GB/s的数据传输带宽——可很好的支持Intel Xeon 54x2处理器。为了保证双路四核系统的效能,Seaburg整合了容量高达24MB的Snoop Filter(探听过滤器)缓存。
在以前的5000X芯片组上,我们就已经看到了Snoop Filter缓存的存在,现在Seaburg将5000X的12MB容量扩展的更大。探听过滤器是位于芯片组中的高速缓存标记结构,它可追踪处理器中的高速缓存的高速缓存线状态——只是包括其标签和状态,不包括数据,过滤不必要的SNOOP侦听操作(Snoop操作就是一个处理器核心不时看看其他处理器核心有没有对自己掌握的huancun页面进行了修改),有助于减少处理器的前端总线发生数据堵塞的情况,帮助多个处理器核心更好的协作,以提升多路处理器系统的工作效率。Snoop Filter的容量要大于或等于每个CPU二级缓存容量之和才能发挥非常好的的作用,5400系列处理器的二级缓存从5300系列的8MB增加到12MB,相应的5400芯片组中Snoop Filter也由5000X的16MB增加到24MB(两个处理器)。
Seaburg整合了4通道FB-DIMM 533/667MHz内存控制器,最高可提供21GB/s的内存带宽。当然,我们不排除细分市场的需要,会有双通道版本的Seaburg(虽然现在还没有看到)。Seaburg所整合的内存控制器最高寻址范围为38bit(128GB),是上一代MCH的一倍。
从Intel各代芯片组的变迁来看,除了需要对相应的处理器提供支持所做的必需改进之外,Intel芯片组最大的改变就是内存控制器。从本页最后的表格可以看出,目前Intel 5000、Intel 5100和Intel 5400系列芯片组均可支持Intel Xeon 5100/5200/5300和5400中的大部分处理器。只有Intel 5100系列芯片组支持DDR2,而其余的Intel 5000X/P/V和Intel 5400系列芯片组均支持FBD内存。但是在RASUM相关的功能中,Intel 5000X/P和Intel 5400芯片组是相同的,而Intel 5000V和Intel 5100芯片组是相同的,它们均不支持Memory RAID和 Memory mirroring功能。
Intel 5100 | Intel 5000X | Intel 5000P | Intel 5000V | Intel 5400 | |
名称 | 5100芯片组 | 5000X芯片组 | 5000P芯片组 | 5000V芯片组 | 5400芯片组 |
目标应用 | 入门服务器 | 服务器/工作站 | 主流服务器/工作站 | 入门服务器 | 服务器/工作站 |
处理器 | 四核/双核Intel Xeon 5000系列 | 四核/双核Intel Xeon 5000系列 | 四核/双核Intel Xeon 5000系列 | 四核/双核Intel Xeon 5000系列 | 四核/双核Intel Xeon 5000系列 |
处理器数量 | 1-2 | 1-2 | 1-2 | 1-2 | 1-2 |
系统总线 | 1066/1333MHz | 1066/1333MHz | 1066/1333MHz | 1066/1333MHz | 1067/1333/1600 MHz |
MCH 封装 | 1432 FC-BGA | 1432 FC-BGA | 1432 FC-BGA | 1432 FC-BGA | 1520 FC-BGA |
内存类型 | DDR2 | FBDIMM | FBDIMM | FBDIMM | FBDIMM |
内存规格 | DDR2 533/667 | DDR2 FBDIMM 533/667 | DDR2 FBDIMM 533/667 | DDR2 FBDIMM 533/667 | DDR2 FBDIMM 533/667/800 |
最高内存容量 | 32 GB(发布时) 48GB(2008年) | 64 GB | 64 GB | 32 GB | 128 GB |
内存通道 | 2xDDR2通道,每通道最多支持3 DIMM(总共最多6 DIMM) | 4xFBD通道,每通道4 DIMM | 4xFBD通道,每通道4 DIMM | 2xFBD通道,每通道4 DIMM | 4xFBD通道,每通道8 DIMM |
内存芯片Mbit支持 | 256 Mb,512 Mb,1 Gb and 2 Gb | 256 Mb,512 Mb,1 Gb and 2 Gb | 256 Mb,512 Mb,1 Gb and 2 Gb | 256 Mb,512 Mb,1 Gb and 2 Gb | 256 Mb,512 Mb,1 Gb and 2 Gb |
ECC/Parity | 支持 | 支持 | 支持 | 支持 | 支持 |
ICH搭配 | ICH9R | 6321ESB | 6321ESB | 6321ESB | 6321ESB |
ICH 封装 | 676 FC-BGA | 1284 FC-BGA | 1284 FC-BGA | 1284 FC-BGA | 1284 FC-BGA |
PCI-X支持 | N/A | 两个独立64-bit/133 MHz PCI-X段 | 两个独立64-bit/133 MHz PCI-X段 | 两个独立64-bit/133 MHz PCI-X段 | 两个独立64-bit/133 MHz PCI-X段 |
PCI | 4 PCI (此外,MCH提供6个PCI-E 1.0a x4端口,并且可根据情况配置为x4,x8 or x16,ICH9R可提供6个PCI-E x1端口) | 6 | 6 | 6 | 6 |
IDE | N/A | 双通道UltraATA 100 | 双通道UltraATA 100 | 双通道UltraATA 100 | 双通道UltraATA 100 |
Serial ATA | 6个SATA 3Gbps端口 | 6个SATA 3Gbps端口 | 6个SATA 3Gbps端口 | 6个SATA 3Gbps端口 | 6个SATA 3Gbps端口 |
USB端口/控制器 | 12 USB 2.0端口 | 6 USB 2.0端口 | 6 USB 2.0端口 | 6 USB 2.0端口 | 6 USB 2.0端口 |
LAN MAC | 整合10/100/1000 | N/A | N/A | N/A | N/A |
RASUM | DIMM sparing Patrol and Demand Scrubbing ECC and SDDC a memory location can be poisoned | DIMM sparing Memory RAID Memory mirroring x4 SDDC Memory ECC HUB interface ECC DMA | DIMM sparing Memory RAID Memory mirroring x4 SDDC Memory ECC HUB interface ECC DMA | DIMM sparing Patrol and Demand Scrubbing ECC and SDDC a memory location can be poisoned | DIMM sparing Memory RAID Memory mirroring x4 SDDC Memory ECC HUB interface ECC DMA |
I/O管理 | SMBus 2.0支持/GPIO | SMBus 2.0支持/GPIO | SMBus 2.0支持/GPIO | SMBus 2.0支持/GPIO | SMBus 2.0支持/GPIO |
PCI-X控制器 | 6700 PXH 64-bit PCI Hub | 6700 PXH 64-bit PCI Hub | 6700 PXH 64-bit PCI Hub | 6700 PXH 64-bit PCI Hub | 6700 PXH 64-bit PCI Hub |
WSE 封装 | 567 FC-BGA | 567 FC-BGA | 567 FC-BGA | 567 FC-BGA | 567 FC-BGA |
WSE PCI | 最多支持3个PXH 64-bit hub组件,每个最大带宽可达4 GB/s | 最多支持3个PXH 64-bit hub组件,每个最大带宽可达4 GB/s | 最多支持3个PXH 64-bit hub组件,每个最大带宽可达4 GB/s | 最多支持3个PXH 64-bit hub组件,每个最大带宽可达4 GB/s | 最多支持3个PXH 64-bit hub组件,每个最大带宽可达4 GB/s |
WSE PCI Masters | 每个PXH包含两个独立的64-bit PCI/PCI-X接口,最大PCI接口总线速度:66 MHz;最大PCI-X接口总线速度:133 MHz | 每个PXH包含两个独立的64-bit PCI/PCI-X接口 | 每个PXH包含两个独立的64-bit PCI/PCI-X接口 | 每个PXH包含两个独立的64-bit PCI/PCI-X接口 | 每个PXH包含两个独立的64-bit PCI/PCI-X接口,最大PCI接口总线速度:66 MHz;最大PCI-X接口总线速度:133 MHz |
2007年下半年,AMD终于推出了代号Barcelona的四核处理器——第三代Opteron处理器目前包括了6款产品,主频从1.7GHz到2.2GHz不等。AMD利用处理器主频和整合内存控制器频率来提供差异化的Opteron产品。
AMD坚持采用“纯四核”设计,它将四个核心整合在单颗硅片,确保核到核之间的通信畅通。
如上图所示,每个核心配置了64K L1数据缓存和64K L1指令缓存(每个周期可以载入两个128位指令,是上一代Opteron处理器的1倍),每个核心还具有512K L2 高速缓存,4个核心还共享容量为2MB的L3高速缓存。
同样,每颗Barcelona处理器中整合了一个128bit内存控制器(两个64bit独立内存通道),相对于前一代Opteron所整合的内存控制器,它做了多个方面的改进:
- 更大的内存缓冲有助于提高吞吐量
- 写突发以最小化读/写迁移,有助于提高吞吐量
- 优化的DRAM页式算法,有助于提高吞吐量
- DRAM预取器可智能地预测和检索主内存所需的数据
- 核心预取器能直接从 L1 高速缓存中获取数据以减少延时和释放 L2 带宽
AMD宽浮点加速器是Barcelona最新加入的功能,其128bit SSE浮点处理单元每个时钟周期内最多可同时执行4个浮点操作,是上一代Opteron处理器的4倍,有利于提升计算密集型应用程序的性能。为了充分发挥128bit SSE浮点处理单元的性能,Barcelona的取指令(Instruction fetch)带宽、数据缓存带宽、内存控制器到缓存带宽相对于上一代Opteron均提升了1倍。
Barcelona处理器支持DDPM(双动态电源管理,Dual Dynamic Power Management)功能,这个功能允许多处理器系统中的处理器乃至多个核心根据负载情况运行在不同的频率和电压下。同时,即便某个处理器或者某个核心处于低速状态,其内存控制器依然可以保持在高速状态下。此外AMD ColCore技术还可以通过关闭处理器中不使用的部分来节电。比如,内存控制器在执行读取操作的时候,可以关闭写电路。这个功能内嵌于处理内部,不需要驱动程序或者BIOS的支持。每次开关的最小单位是一个时钟周期,因此这个功能并不会影响性能。 AMD通过一系列的同功率有关的技术来确保处理器子系统和内存子系统具有更好的能效比。
AMD Virtualization (AMD-V™)技术允许虚拟机直接管理内存,从而尽可能的提升虚拟化的效率,降低不必要的开销。Barcelona中增加了带有快速虚拟化索引功能(Rapid Virtualization Indexing),它可以缩短仲裁时间,使得虚拟机(VMs)之间切换更快,从而在一台服务器上部署更多的虚拟机。
Barcelona处理器因为延迟发布以及后来的TLB问题经历了一些坎坷之后,在08年初站稳了脚跟,而AMD也正面了Barcelona架构存在的一些问题,并在08年末发布了AMD从65nm工艺转向45nm工艺的首款产品:AMD Shanghai,其在架构方面和上一代处理器Barcelona很相似,封装也完全一样,这个特性可以说是Operton一脉相承的,它和Barcelona,和再上一代Opteron完全兼容,因此对于服务器厂商而言推出新产品是非常简单的,只要在原有的产品型号的基础上升级处理器(和主板BIOS)既可达成。这个可以说确实是AMD用户的优势。
概括起来,AMD上海的改进有:
1、45nm沉浸式光刻技术,更低的功耗和更高的主频
2、更大的三级高速缓存,容量达到了6MB(上一代是2MB)
3、内存控制器的更新:支持DDR2-800, 比上一代DDR2-667的内存带宽提高10%。
4、AMD内存优化技术,增强的预取技术,2倍的核心探测带宽
5、支持HyperTransport 3.0总线,带宽增加到17.6GB/s(2.2GHz HT3,预计在2009年春)
6、增强的虚拟化技术:RVI,提升虚拟机切换速度并提供虚拟化迁移功能
从中可以看出,性能的提升和功耗的降低,也是制程转换的直接结果。
左:45nm Shanghai Opteron 2378
右:65nm Barcelona Opteron 2354
左:45nm Shanghai Opteron 2378
右:65nm Barcelona Opteron 2354
架构图:Intel Nehalem VS AMD Shanghai
AMD Shanghai VS AMD Barcelona VS Intel Nehalem | |||||
AMD Shanghai | AMD Barcelona | Intel Nehalem | |||
工艺 | 45nm | 65nm | 45nm | ||
晶体管数量 | 7.05亿 | 4.63亿 | 7.31亿 | ||
核心数量 | 4核 | 4核 | 4核 | ||
核心尺寸(宽x高) | 13.7mm x 17.8mm | - | 13.0mm x 18.9mm | ||
核心面积 | 243mm2 | 283mm2 | 246mm2 | ||
每核心面积(不包括L2) | ~15.3mm2 | - | ~24.4mm2 | ||
L2缓存 | 4 x 512KB | 4 x 512 KB | 4 x 256 KB | ||
L2缓存面积 | 4? x 3.75mm2 | - | 4 x 1.78mm2 | ||
L3缓存 | 6MB | 2MB | 8MB | ||
L3缓存面积(不包括Tag) | 45mm2 | - | 45.6mm2 | ||
内存控制器 | 双通道DDR2 533/667/800 双通道DDR3 | 双通道DDR2 533/667 | 三通道DDR3 | ||
IO总线 | 3 x HT1.0 双向带宽8GB/s 未来会支持4x HT3.0 双向带宽17.6GB/s | 3 x HT1.0 双向带宽8GB/s 未来会支持更多数量 | 2 x QPI |
一直以来,AMD平台在芯片组上面可以说是处于劣势,竞争对手Intel推行的平台策略,每当新的处理器推出的时候,总有成套的芯片组、主板推出,并不断地改进、优化,而AMD这方面一直依赖于第三方芯片组提供商(AMD自家也有服务器芯片组,不过很是少见)。本次横评中的两台AMD服务器就采用了NVIDIA的芯片组。
某台样机使用的Tyan S2932-E双路Opteron主板的架构图,可以清晰表现出AMD的直联架构
很微妙地,在服务器市场,其芯片组都依赖于AMD在图形市场的竞争对手——NVIDIA的芯片组(还有ServerWorks也有相关芯片组产品;ServerWorks已被Broadcom收购)。虽然Opteron处理器已经集成了内存控制器,不过外部IO对于服务器来说是至关重要的,因此第三方芯片组主要扮演的是PCIE/PCI-X总线提供者,用来连接各种外部设备。比AMD Shanghai早些时候发布的Intel Nehalem架构里面采用的模块化设计已经可以将PCIE控制器、显卡等集成在处理器内部,这方面Intel的设计可以说是走在了AMD的前方——相对于直联架构、集成内存控制器这方面落后来说。
MCP55 Pro是现在AMD双路Opteron最常用的芯片
由于AMD的直联架构集成了内存控制器以及处理器互联,选择处理器就基本上确定了内存的支持,因此AMD Opteron的主板芯片组主要扮演了一个IO Hub的角色,也因此从较早期的nForce Pro 2200到现在的nForce Pro 3600,变化并不是很大。主流的MCP55 Pro提供了一条到CPU的HTLink 1.0的连接,双向带宽4GB/s,并不高。到了09年推出的Shanghai处理器将会使用带宽要高得多的HTLink 3.0链接,届时将可以大为提升多处理器的协同执行效率。
随着Shanghai的发布,AMD也准备了一个新的平台,这就是Fiorano。AMD计划在其中提供更高的I/O带宽(包括HT 3.0)、I/O虚拟化功能,还有对抗iAMT的APML远程管理技术。Fiorano平台由Shanghai处理器、SR5690 IOH和SP6100南桥组成。
AMD支持四路Shanghai处理器的Fiorano平台,基于SR5690 IOH和SP6100南桥
每个SR5690通过HT3.0总线连接到一个Shanghai处理器,提供42条PCIE Lanes,并集成了IOMMU来提供I/O虚拟化功能。Fiorano平台包括了两个SR5690芯片,因此可以提供强大的I/O带宽。其实只要AMD愿意,它甚至可以每一个Shanghai Opteron配备一个SR5690芯片。
虽然从计划图上看,Fiorano平台画成了四路平台,然而它也不一定是4路的,未来最有可能也应该是最普及的应该是双路Shanghai服务器/工作站,在工作站配置下,可以配置两块SR5690芯片,总共提供4条PCIE x16插槽,图形工作站应该会采用这种配置。当然,只采用一块SR5690芯片应该是更为常见的。
工艺改进最直接的表现通常是能耗降低,我们先来看看Intel的45nm High-k工艺技术,当然45nm Xeon上的历史来看,这个工艺已经算是很“老”了,相信大家都有所耳闻:
在Penryn中,使用High-K半导体技术,可以在晶圆尺寸变化不大的情况下增加两倍晶体管从而提升CPU的性能。而High-K也时晶体管的开关速度有20%的提升。最为重要的是,在与目前酷睿2 CPU同等共号线,Penryn肯定可以提供更好的性能。下面我们来看Penryn在其他方面的改进和特点。
除了工艺进步带来的效果之外,Intel处理器还主要通过几个手段来实现处理器电源管理以达到节能的目的,可以猜想,它们都属于动态地调节处理器主频和电压来降低非满负荷工作时不必要的能耗。
C1E & EIST(图上为Intel SpeedStep选项)
C1E Enhanced Halt State
C1E Enhanced Halt State取代了传统x86处理器中常用的C1 Halt State。C1 Halt State和C1 Enhaned Halt Stat都是由操作系统发出的HLT命令触发,然后处理器就会进入到低功耗的挂起状态(Halt State)。老的C1 Halt State只是让处理器在相关时钟周期内出于挂起状态,而C1 Enhanced Halt State则会通过调节倍频来逐级的降低处理器的主频,以及同时降低电压来降低功耗、节约能源。
Enhanced Intel SpeedStep Technology
SpeedStep是一个根据处理器负载来调节主频和电压的模块,不过它的触发机制同C1E Halt State是不同的。C1E Enhanced Halt State通过操作系统的HLT指令触发,而EIST须要主板、BIOS、操作系统的全面支持,操作系统通过ACPI进行调节控制。SpeedStep提供了更多的CPU频率和电压调节级别,因此可以比C1E Enhanced Halt State更加精确的调节处理器的状态。技术。
Deep Power Down Technology深层关机技术
我们对C1E、EIST等技术已经熟知能详了,Deep Power Down Technology深层关机技术在先前架构的基础上再引入了一个被称为C6的深层关机状态(当然,还有一个C5,不过这不是重点)。在以往的状态中,休眠的处理器最低可切换到C4状态,此时核心电压会略微降低(EIST的功能),核心时钟和PLL始终都会进行关闭,L2缓存的数据会部分地写入到外部存储器,而L1缓存则会完全地写入外部存储器而处于休眠状态,而在新的深层关机状态中,核心电压会降得更低,L1、L2缓存电路会完全地关闭,此时处理器的功率会降低到一个前所未有的高度,大大地降低了待机能耗。
当然,对于服务器来说,尽可能地让它多干活才是主要的,因此DPDT技术相对在桌面和移动领域更受关注一些。对于服务器CPU而言,EIST和C1E是主要的手段。
虽然AMD的45nm Shanghai处理器在横评结束前就已经到达了我们测试实验室,然而就横评的宗旨——对比2008年市场上的主要服务器——来看,将Shanghai处理器计入横评就不太合适。因此我们对AMD的考量仍然是基于65nm的Barcelona处理器。
Barcelona处理器支持DDPM(双动态电源管理,Dual Dynamic Power Management)功能,这个功能允许多处理器系统中的处理器乃至多个核心根据负载情况运行在不同的频率和电压下。同时,即便某个处理器或者某个核心处于低速状态,其内存控制器依然可以保持在高速状态下。此外AMD ColCore技术还可以通过关闭处理器中不使用的部分来节电。比如,内存控制器在执行读取操作的时候,可以关闭写电路。这个功能内嵌于处理内部,不需要驱动程序或者BIOS的支持。每次开关的最小单位是一个时钟周期,因此这个功能并不会影响性能。 AMD通过一系列的同功率有关的技术来确保处理器子系统和内存子系统具有更好的能效比。
L(Low Voltage)系列的Xeon处理器相信大家都很少接触,Intel还有UL等几个功耗更低也更加少见的系列
除了EIST这些处理器内置的节能功能之外,一些厂商还通过特别的途径来达到节能的目的:低电压处理器,浪潮英信NF285E就采用了这样的产品,和通常的处理器相比,功耗更低。不过价格应该是稍微高一点。
Intel Xeon L5420处理器,2.50GHz,架构和E5420是一模一样的。L5400是Intel的第二代低电压处理器(L5300是第一代),L5420的TDP为50W,E5420的TDP则为90W(再说一次,TDP不是功耗)
除了在物理手段(降低工作电压、频率等)对控制处理器功耗之外,一些厂商还通过一些技术来提高能耗比,从而提供了另一条降低功耗的路径:多线程技术(Multi-Threading)。和通常的多核心技术不同,多线程技术不需要大规模增加相应的电路,从而功耗轮倍提升,多线程技术只需要增加规模很少的部分线路(通常,约2%)就可以提升处理器的总体处理器能力,可以很简单地提升相关应用的性能。处理器设计上可以相应地减少物理核心,从而降低了功耗。
Sun UltraSPARC T1处理器,8核心,每核4个线程
FMT——Fine-Grained MultiThreading随时可以在每个时钟周期内切换多个线程,以追求最大的输出能力——当然,随时可以切换也是有代价的,它拉长了每个执行线程的平均执行时间。Fine-Grained MultiThreading有时也叫Interleaved MultiThreading交错多线程或者Pre-emptive MultiThreading抢先多线程。Sun UltraSPARC T1处理器就采用了这样的技术。
IBM Power6处理器,双核,每核两个线程
SMT和CMT(Coarse-Grained MultiThreading,粗粒度多线程)和FMT这两种多线程技术都不同——那两种技术被称之为TMT时间多线程。SMT——Simultaneous MultiThreading具有多个执行单元,可以同时运行多条指令,因此才叫做“同步多线程”!SMT起先源自充分挖掘超标量架构处理器的潜力——超标量的意思就是可以同时执行多个不同的指令。因此SMT具有最大的灵活性和资源利用率,然而实现也最复杂(当然比起多核结构来说就是小意思了)。
这些多线程技术都可以明显地提升服务器应用的性能同时却并没有增加功耗,因此就功耗来说,要达到同样的性能表现,可以采用更少的处理器核心数量来降低能耗。Sun的单处理器64线程的UltraSPARC T1处理器就不支持多处理器(直到T2才开始支持),Sun倡导的叫做“绿色”芯片技术。
同样,在Nehalem-EP(服务器版本的Nehalem)上也搭载了超线程技术(属于SMT),在我们的测试当中,单个Nehalem桌面版本就能和双Xeon平台打个不分上下:《性能大幅提升 Core i7 服务器应用测试》(Core i7属于桌面版Nehalem)。关于多线程更多的细节,可以看这里:《机密揭露:Intel超线程技术有多少种?》。
一般而言,在一台服务器当中,处理器、硬盘、电源一起占据了功耗的大部分,剩下的则主要由散热风扇和内存占据,不过散热风扇和电源稍有不同:散热风扇将大部分的能量转化为了流动的空气——风的动能,电源则除了将大部分的能量转化为合适的直流输出之外将小部分的能耗转化为动能、并消耗了剩下的大部分。一台服务器是否节能,主要是看这些部件对能源的利用程度。
在前面说过处理器的节能手段之外,我们再来看看一个重要的部件:电源。
电源掌管着服务器所有的能源输入,由于总功率较大,因此电源的转换效率参数可以较明显地影响到整台机器的功耗。一台标准配置的45nm 双路四核服务器,通常空载总功耗在250W左右,满载则有可能达到300~400W,在65nm Xeon时代,达到500W也不出奇。而在以往,通常的电源转换效率在60%~70%(通常负荷越高,转换效率也就越高),也就是说,满载时有30%的能源转化为了电源的热量(以及电源风扇导致的风能增加,当然,我们忽略了噪声带走的能量……),有100W多的功被浪费掉了,可见电源的转换效率的重要性。
ASUS RS160-E4采用的FSP全汉80Plus服务器电源,80Plus是指在各种负载下电源的转换效率都在80%以上
因此近年电源界随着绿色概念的流行开始出现了80Plus标准,简单来说80Plus是指在各种负载下电源的转换效率都在80%以上,通过转换效率的提升,电源本身耗费的电能可以得到明显的降低(低功率的服务器都有40W以上,对比的电源满载效率70%——一个比较高的数值)。最近,80Plus图案又分成金、银、铜三个子等级,这可能是受到2008北京奥运的影响(笑)。
通过80Plus认证电源的主要技术:同步整流技术,可以参看这里:《超绿色节能 航嘉300W多核R80电源评测》
除了转换效率之外,功率因数也是一个很重要的指标。功率因数的高低,关乎国家电网系统的节能。低功率因数的负载,可以明显地提升电网传输的电流需求,从而提升电网系统的能源传输损耗。国家通过的CCC强制认证确保国内销售的电源都配备PFC(功率因数校正)电路来达到基本的功率因数要求。采用被动PFC电路的电源,功率因数可以达到0.8,而采用主动PFC电路的电源,功率因数可以达到0.9以上,有的甚至高达0.99,比起无PFC电路的0.6左右提升明显。关于主动PFC电路可以看笔者多年前的作品:《台达洪涛660/T350电源详尽解析》。
冷却也是能耗的一大重要组成部分,据悉,我国在2007年用于服务器电源和冷却的总开支达到了惊人的19亿美元,仅在北京和广东两个地区,这部分的投入就达到3.2亿美元和3.6亿美元。IT电力消耗在东南沿海地区则更为惊人。
整体来说,冷却主要包括了数据中心的空调、通风,而对于服务器内部而言,冷却就意味着通过散热风扇将服务器内部的整体部件散发的所有热量都转移到服务器外部。
就服务器内部而言,散热风扇的能耗也不容忽视,一般机架服务器的散热风扇全速运转时的功耗可能达到100W以上,此时发出的噪声姑且不计,这个能耗确是非常惊人的(可能达到20%~25%总功耗)。相对来说,假如内在部件功耗不高,那么散热风扇的能耗也就相应地下降,机房的空调冷却需求也可以降低,因此而因此对于服务器来说,部件的能耗降低可以带有意料之外的效果。
除了服务器产品以外,随着全球数据量的大幅增长,存储设备的部署总量也在大幅增加,而据IDC的数据显示,存储在数据中心中的能耗总量将在2008年超过服务器。存储是极为耗电的部件,现在存储系统每消耗1瓦的电能就需要额外消耗1到1.5瓦的电力用于散热。
15000RPM转速的硬盘带来高性能的同时也带来了较高的能耗
和上面的相比,10000RPM 2.5英寸硬盘的功耗会低一些,性能也低一些。不过这么多的数量仍然不容忽视(功耗和性能都是)
多个小盘组成阵列是必须:小盘的好处是在相同的体积下可以提供更高的IOps
7x24长时间运转的磁盘系统电力消耗不容忽视,目前已经有一些解决方案:MAID(Massive Arrays of Idle Disks,大规模非活动磁盘阵列)通过在有需要时才将部分磁盘开机运转,其他磁盘通常处于断电状态的方式来节约电能,减少不必要的电力消耗。
重复数据删除技术曾获IT168年度技术卓越奖
重复数据删除技术的含义就是存储数据时,检查和比较已存在的数据。如果它们是相同的,那就过滤掉这部分数据的备份,然后通过指针引用已存在的数据。重复数据删除技术对备份这样的应用是非常突出的,同时也产生了大量重复数据删除技术的副产品。这些应用都是重复数据删除技术首选的目标。
在存储系统方面,虚拟化、重复数据删除等技术成为了各家存储厂商推出“绿色”存储产品时的宣传重点。重复数据删除可以节约存储资源,同时提升了备份的速度及可用性,并降低了企业异地灾备的成本。一些厂商认为,重复数据删除技术是让存储产品实现“绿色”的最关键因素。
07年浪潮第一时间推出了支持Intel四核处理器的服务器产品,目前其NF系列和NL系列产品都可以运行Xeon 5400系列处理器,当然浪潮也依然采用的是Intel 5000系列芯片组,在08年,浪潮面向中小型企业专门推出了一个“绿色计算”为主的服务器系列,就是Inspure NF285E,最主要的特色就是采用了低电压版的Xeon处理器:L5420。
L(Low Voltage)系列的Xeon处理器相信大家都很少接触,Intel还有UL等几个功耗更低也更加少见的系列
Intel Xeon L5420处理器,2.50GHz,架构和E5420是一模一样的。L5400是Intel的第二代低电压处理器(L5300是第一代),L5420的TDP为50W,E5420的TDP则为90W(再说一次,TDP不是功耗)
风道就靠电源具有的风扇以及中央位置的三组热插拔风扇建立。在主部件(处理器、内存)上,具有一个集中风力散热的风罩
NF285E的机箱风扇并不多,功率也不高,这也是低功耗服务器的优势:功耗低,导致冷却系统的能耗也低
Seagate的Savvio 10K.2,型号ST937402SS,转速10000RPM,容量73.4GB,功耗相对比15000RPM硬盘低,当然性能也低一点。Inspur NF285E可以最多配置8个硬盘,因此也可以提供很强的性能和很大的容量
在台北Computx 2008中,华硕所参展的产品中有六项产品以杰出的创新科技设计赢得了展会的非常好的选择奖,其中有一款是服务器产品,这就是华硕的第五代绿色服务器RS160-E5。
ASUS RS160-E5服务器也是一款1U机架服务器
华硕RS160-E5是话说服务器在“绿色、节能”的2008年整体策略下精心研发,推出的省电、高效、环保、静音的绿色服务器典范之作。Computx 2008评选委员会相关评审表示,华硕第五代绿色服务器RS160-E5以80+高效率的服务器电源的搭载、PWM (Power Management) 风扇的配备、加之SAS硬盘升级套件PIKE等独特设计,对绿色进行了全方位的完美诠释,为用户带来大幅度的节约效益,也因此得到了评审们的一致青睐。
一般的评估服务器都采用RASUM评价体系或者RUMA评介体系,两者的内容非常的相似,RASUM为Reliability(可靠性)、Availability(可用性)、Scalability(可扩展性)、Usability(易用性)、Manageability(可管理性)的缩写,RUMA为Scalability(可扩展性),Usability(易用性),Manageability(易管理性),Availability(可用性)。这些评估准则均是从长期的实践中总结出来的,符合这些准则的服务器产品可以更好的为用户服务。我们依据这些基本的准则结合我们的实际测试环境对于服务器的以下几个方面进行了评估。
一、性能评估
2005年度服务器横评之后,我们认为当时的网络实验室无法满足今后继续发展的服务器测试的需要。所以,2006年我们IT168评测中心又斥资几十万对于IT168网络实验室的服务器测试平台进行了大幅度的升级,为思科Catalyst4500千兆交换机(WS-X4013+ Supervisor Engine II-Plus和WS-X4548-GB-RJ45)增加了一个思科全千兆24口模块WS-X4424-GB-RJ45,可同时连接72个千兆铜缆设备和2个光缆设备。另外,我们还购置了29台Dell PowerEdge SC430塔式服务器和原来的32台主流配置PC一起为服务器测试平台的提供负载。2007年,我们又采购性能更强的部分客户端,来确保为新一代的服务器提供足够的测试负载。
Catalyst4500千兆交换机
部分Dell PowerEdge SC430服务器
在新的测试环境下,我们进一步完善了服务器性能测试方案:
SPECCPU2006 v1.0.1
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。
SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了当前最新版本的Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler这两款SPEC CPU2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(对于SSE3,使用的是QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64bit Windows Server 2008 Enterprise下完成,每台待测试服务器至少配置12GB内存。
IOMeter 2006.7.27
IOMeter是一款功能非常强大的IO测试软件,它除了可以在本机运行测试本机的IO(磁盘)性能之外,还提供了模拟网络应用的能力。在这次的测试中,我们仅仅让它在本机运行测试服务器的磁盘性能。为了全面测试被测服务器的IO性能,我们分别选择了不同的测试脚本。
Max_throughput(read):文件尺寸为64KB,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取吞吐量
Max_IO(read):文件尺寸为512B,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取操作IO处理能力
Max_throughput(write):文件尺寸为64KB,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入吞吐量
Max_IO(write):文件尺寸为512B,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入操作IO处理能力
SiSoftware Sandra v2009
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。
NetBench v7.03
NetBench是针对文件服务器的性能测试软件,影响NetBench性能的主要是服务器的磁盘子系统,服务器磁盘控制器、条带大小、读写缓存、硬盘类型、组建磁盘阵列模式、内存容量、网络拓朴结构等都会对测试结果有明显的影响。我们在被测服务器上设立了文件服务器,NetBench通过网络实验室中60个客户端来模拟网络中的PC向文件服务器所发出的文件传输请求,文件服务器则将存储在磁盘上的文件数据发送给相应的客户端。在测试过程中,客户端会以每四台一组的步进依次增加并且向服务器发送文件传输请求,测试结束后控制台收集数据并绘制出服务器的数据传输变化曲线。
Benchmarkfactory 4.6
大部分的服务器应用都同数据库有着密切的联系,因此我们今年开始着手在在服务器测试中加入对于数据库性能的测试。我们选择了Benchmark Factory 4.6软件和Microsoft SQL2000 SP4来测试不同的硬件平台在数据库应用中的表现。
我们选择了BF内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。
系统功耗监测
我们使用UNI-T UT71E智能数字万用表对于被测服务器系统的整体功耗进行了监测,利用随机附带的接口程序,我们可以记录被测服务器任意时间段内的功率变化。
二、主要规格和技术验证
这个部分主要对于送测服务器的物理特性、硬件配置等等进行考察、评估,比如服务器机箱架构、规格尺寸、处理器型号/数量/主频、芯片组、内存型号和容量、磁盘控制器、硬盘型号、磁盘阵列、网卡型号和接口类型、散热设备、供电、扩展槽、IO接口、托架数量等等。此外还对于处理器技术(SMP技术、HT技术、EMT64、Dual Core)、内存技术(DDR、DDRII、FB-DIMM、双/多通道、内存镜像、内存热备、内存侦错/纠错)、磁盘接口技术(SATA、IDE、SCSI、SAS)、磁盘阵列技术(RAID 0、RAID 1、RAID 10、RAID 5)等等进行了全面的考查和验证。
2008-2009年度服务器横评参测产品 | ||||||||||
厂商 | Aisino 航天联志 | ASUS华硕 | ASUS华硕 | Dawning曙光 | Dawning曙光 | Dell戴尔 | Dell戴尔 | Inspur 浪潮 | Lenovo联想 | 五舟 |
型号 | 6501R-8 | RS160-E5 | RS162-E4 | A650-FX | I650-F | PowerEdge 1950 III | PowerEdge R805 | 英信NF285E | 完全R525 | 5105 |
评测文章 | 强力存储 航天联志6501R-8服务器评测 | 绿色IT概念 ASUS RS160-E5服务器评测 | 极致性能 华硕RS162-E4服务器性能评测 | 平滑过渡上海 曙光A650服务器性能评测 | 性能特别出色 曙光I650-F服务器评测 | 小身形高性能 DELL1950III服务器评测 | 大家风范 DELL PE R805机架服务器评测 | 绿色节能 浪潮英信NF285E服务器评测 | 优异性能配置 联想万全R525服务器评测 | 性价比之选 五舟5105机架式服务器评测 |
主板 | Intel S5000VSA | ASUS DSAN-DX | ASUS DSBF-DR12/SAS | Tyan S2932-E | Gigabyte GA-7BESH-RH | DELL PE 1950 III | DELL | Supermicro X7DBR-3 | Lenovo DPX1333RK | MSI-9638 |
芯片组 | Intel 5000V Intel 6321ESB | Intel 5100 Intel ICH9R | Intel 5000P Intel 6321ESB | nVIDIA nForce Pro 3600 | Intel 5000P Intel 6321ESB | Intel 5000X Intel 6321ESB | NVIDIA nForce Pro 3600 | Intel 5000P Intel 6321ESB | Intel 5000P Intel 6321ESB | Intel 5000V Intel 6321ESB |
处理器 | Xeon E5410 (Harpertown) | Xeon E5410 (Harpertown) | Xeon X5460 (Harpertown) | Opteron 2350 (Barcelona) | Xeon E5430 (Harpertown) | Xeon E5420 (Harpertown) | Opteron 2354 (Barcelona) | Xeon L5420 (Harpertown) | Xeon E5450 (Harpertown) | Xeon E5420 |
主频 | 2.33GHz | 2.33GHz | 3.16GHz | 2.0GHz | 2.66GHz | 2.50GHz | 2.20GHz | 2.50GHz | 3.00GHz | 2.50GHz |
FSB | 1333MTs | 1333MTs | 1333MTs | 1000MTs | 1333MTs | 1333MTs | 1000MTs | 1333MTs | 1333MTs | 1333MTs |
L2容量 | 2 x 6MB | 2 x 6MB | 2 x 6MB | 4 x 512KB | 2 x 6MB | 2 x 6MB | 4 x 512KB | 2 x 6MB | 2 x 6MB | 2 x 6MB |
L3容量 | - | - | - | 2MB | - | - | 2MB | - | - | - |
内存 | A-DATA AD2667002GMF(HY4PE1B18) FB DDR2-667 | Transcend DDR2-667 | Transcend FB DDR2-667 | Samsung M395T5750CZ4 | Hyundai HYMP512F72BP8D2-Y5 | Ramaxel RMP1291EGN38D7W667 | Ramaxel RMP1291EGN38D7W667 | Samsung M395T5750CZ4-CE61 | Transcend TS256MFB72V6U-T | Transcend FB DDR2-667 |
总容量 | 8GB | 8GB | 8GB | 8GB | 8GB | 8GB | 16GB | 8GB | 24GB | 8GB |
磁盘控制器 | LSI MegaRAID SAS 8708ELP RAID Controller | ASUS PIKE1064E SAS Controller | LSI 1068ESAS Controller | LSI Logic MegaRAID SAS 8208ELP RAID Controller | LSI MegaRAID SAS 8708ELP RAID Controller | DELL PERC 6/i Integrated RAID Controller | DELL SAS 6/iR HBA | LSI MegaRAID SAS 8708ELP RAID Controller | LSI MegaRAID SAS 8708ELP RAID Controller | LSI 1068E SAS Controller |
硬盘 | Seagate Cheetah 15k.5 SAS ST3146855SS x4 | Seagate Cheetah 15k.5 SAS ST373455SS x4 | Seagate Cheetah 15k.5 SAS ST373455SS x4 | Fujitsu MBA3147C x4 | Fujitsu MBA3147RC x3 | Fujitsu MBA3073RC x2 | Seagate Savvio 10K.2 SAS ST973402SS x1 | Seagate Savvio 10K.2 SAS ST973402SS x4 | Seagate Savvio 10K.2 SAS ST9146802SS x12 | Seagate Cheetah 15k.5 SAS ST3146855SS x1 |
磁盘设置 | RAID5 | RAID0 | RAID0 | RAID5 | RAID5 | RAID0 | 单硬盘 | RAID5 | RAID5 | 单硬盘 |
网卡 | Intel PRO/1000 EB Network Connection with I/O Acceleration x2 | Broadcom BCM5721 10M/100M/1000M PCI-E NIC x2 | Intel PRO/1000 EB Network Connection with I/O Acceleration x2 | NVIDIA nForce Pro 3600 integrated MAC with Marvell 88E1121 PHY GbE Controller x2 | Intel PRO/1000 EB Network Connection with I/O Acceleration x2 | Broadcom BCM5708C 10M/100M/1000M PCI-E NIC x2 | Broadcom BCM5708C 10M/100M/1000M PCI-E NIC x4 | Intel PRO/1000 EB Network Connection with I/O Acceleration x2 | Intel PRO/1000 EB Network Connection with I/O Acceleration x2 | Intel PRO/1000 EB Network Connection with I/O Acceleration x2 |
操作系统 | Microsoft Windows Server 2003 R2 Enterprise Edition SP2 |
如上表所示,本次横向评测活动共征集了7个厂商的10款主流双路四核服务器,其中包括了八台Intel Xeon服务器和两台AMD Opteron服务器。
AMD Opteron 2350
在这10款产品中有两款服务器采用了AMD Opteron 2300处理器——代号为Barcelona的处理器,这是AMD在07年发布的主力产品。曙光A650-FX采用的是2350,DELL PowerEdge R805采用的是2354,它们的区别只是频率不同,2350频率是2.0GHz,2354频率是2.2GHz,此外它们的参数都一样,每个核心有512KB L2缓存,并且共享总容量为2MB的L3缓存。
较高端的X5460处理器,后来Intel还发布了频率更高的X5482处理器
另外的八款产品均采用了Intel 45nm Xeon四核处理器。ASUS RS162-E4(3.16GHz Xeon X5460)和Lenovo R525(3.0GHz Xeon E5450)的频率比较高,它们明显不以省电为目的。排在第三的是Dawning I650-F(2.66GHz Xeon E5430),再后有三台机器采用了2.50GHz的Xeon,只不过DELL PowerEdge 1950 III和五舟5105采用的是通常的E5420,而Inspur NF285E采用的是低电压版本L5420,在其它完全一样的情况下,电压/功耗得到了降低。频率最低的是Aisino 6501R-8和ASUS RS160-E5,采用的是2.33GHz Xeon E5410,这几乎就是频率最低的45nm Xeon了,更低的只有2.0GHz的5405。
所有10款服务器中,AMD平台都采用了NVIDIA nForce Pro 3600(MCP55 Pro)芯片组,Intel平台则都采用了Intel的芯片组,不过型号各不相同,有四款采用了5000P芯片组,占了一半,两款采用了5000V,占25%,剩下的两款一款是5000X,一款是5100。无人采用最新的5400芯片组。
出于部分测试项目的需要,此次横评我们要求厂商为其送测产品配置了较大容量的内存,要求在8GB以上——实际测试的时候,需要的是12GB。在10款产品中,DELL PowerEdge R805和Lenovo万全R525令人瞩目,前者配置了16GB内存,后者配置了24GB内存,巨大容量的内存会在重负荷的科学运算和数据库应用中得到好处。
SAS接已经非常普及,在本次参测的10款产品全部采用了SAS接口硬盘。关于磁盘子系统的详细对比,可以查看本文的第16页。
网络子系统上,在这10款服务器产品中,Aisino 6501R-8、ASUS RS162-E4、Dawning I650-F、Inspur NF285E、Lenovo万全R525、五舟5105共6款产品均采用了Intel的PRO/1000 EB解决方案(巧的是,上一年也是60%的机器采用了这样的方案),对于Intel I/OAT技术提供了完全的支持。剩下的4款产品中,两款AMD平台产品自然不会使用Intel的解决方案,一款用的是nForce Pro 3600主板芯片组自带的MAC功能配合一个Marvell 88E1121 PHY芯片形成双NVIDIA千兆网卡(Dawning A650-FX),另一款用的是比较流行的Broadcom BCM5708解决方案(DELL PowerEdge R805),同样适用5708的还有Intel平台的DELL PowerEdge 1950 III。DELL喜欢使用Broadcom BCM5708网络芯片。最后的一款产品使用的是相对少见的Broadcom BCM5721(ASUS RS160-E5)。可见Intel的解决方案占据了主流,剩下来的几乎就是Broadcom了。
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。
有一点需要说明的是,Sandra的处理器架构性能测试是根据处理器所能支持的所有指令集中选择进行的,不同的处理器支持的指令集不同,测试使用到的指令集也就不同。例如,Nehalem在这个测试当中就可以使用SSE4.2,而Penryn就只能使用SSE4.1,而Opteron可能就只能使用SSE3了。一般而言,由于可以使用SSE4,Intel的处理器理论性能会比较好。
处理器架构性能测试分为整数和浮点两个部分,AMD的处理器两个成绩分值很接近,而Intel的处理器整数分值则要比浮点分值高出不少,这可以从两个方面解释:第一,这是因为AMD的处理器架构和Sandra的基准测试平台架构很接近;第二,这是因为AMD的处理器可以每时钟周期运行相同的整数/浮点指令(都是三条),而Intel的Penryn处理器不是(整数是三条,浮点是两条)。关于这部分的一些资料,可以参看这里:《2008年度评测报告:深入Nehalem微架构》,其中Nehalem在这一点上和Penryn是一样的。
华硕RS162-E4采用的两个Xeon X5460 ES工程样品处理器,频率高达3.16GHz,TDP热设计功耗也更高,E系列为80W,而X系列为120W
ASUS RS162-E4(Xeon X5460,3.16GHz)、Lenovo万全R525(Xeon E5450,3.0GHz)、由于采用了最高频率的两个处理器,因此在性能上取得了最高的分值,而AMD的两款服务器由于较低的频率(2GHz和2.2GHz)和指令集方面的原因,在这个测试上得分比较低。
多媒体性能可以说是Intel的强项,而各种SSE扩展指令集也对多媒体测试助力甚大,这方面的测试结果仍然和处理器架构性能测试一样。
缓存/内存上,AMD的Opteron和Intel的Xeon基本上是采用了两个策略:AMD Opteron采用了直联架构,处理器独立拥有L1/L2,所有核心共享L3,每一个处理器都直接访问RAM和另外的处理器;Intel Xeon则采用了传统的MCH架构,4核心处理器中,独立拥有L1,每两个核心共享一个L2,没有L3,此外所有的处理器通过FSB互通,以及通过FSB再通过MCH访问RAM。相对来说,在处理器大架构上,AMD的无疑更为先进一些。此外,AMD的L1尺寸(64K+64K)也比Xeon的(32K+32K)要大,不过其L2/L3(256K/2M)要比Xeon的L2(12MB)小。关于处理器架构上的一些额外信息,仍然可以看这里:《2008年度评测报告:深入Nehalem微架构》,在这方面上,Nehalem架构和Opteron很接近。
无论AMD还是Intel,目前的内存架构仍然是读取和写入对称:速度都一样。毫无疑问,虽然不同的应用具有不同的读写比,不过在大多数情况下都应该是读需求远高于写需求的,未来可能会采用特别为读取优化的不对称内存读写架构。
如上一段所述,AMD的直联架构比较占优势,因此采用Opteron的两款机器:Dawning A650-FX、DELL PowerEdge R805的内存带宽非常之高——远比Intel平台的高,其中DELL的11.42GB/s又比Dawning的7.13GB/s要高一些,这部分是由于其处理器频率更高,部分则应该是主板优化的缘故。
AMD 65nm Barcelona Opteron 2354处理器,频率2.20GHz,内置内存控制器让其内存性能表现突出
在余下8个基于Intel平台的服务器,由于需要先经过FSB到达MCH,再通过MCH存取内存,因此受到更多因素的影响。基于不同的处理器频率(因此FSB带宽也不同)和不同的MCH配置(主流的5000系列可以支持四通道,而5100只支持双通道),因此成绩也各有不同,采用了四通道5000芯片组和高频率处理器的ASUS RS162-E4和Lenovo 万全R525再一次名列前茅。
Cache and Memory测试部分通过对于被测系统的缓存性能和内存性能进行测试并且给出一个综合指数得分。就微架构详细分析中来看,主流的Opteron、Xeon(包括Nehalem)都具有相同数量的Load/Store单元,因此L1性能主要就跟其频率相关,而L2和L3更是直接相关,因此从测试结果来看,代表L2/L3与内存之间带宽的Cache/Memory Bandwidth项目就主要和处理器频率相关,AMD的直联架构的优势部分地被指令集等因素抵消了。代表处理核心与L1之间带宽的Internal Data Cache测试上,Intel处理器的高频率挺有效。
从2007年开始,我们已经逐渐地将SEPC CPU2000测试过渡到SPEC CPU 2006,在本次横评中我们利用这款软件测试了所有参测服务器。SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了当前最新版本的Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler这两款SPEC CPU2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(对于SSE3,使用的是QxT编译参数)。我们另外安装了Microsoft Visual Studio 2005 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
需要说明的是,SPEC CPU测试是在64位Windows Server 2008 Enterprise下进行的,它可以比较完全地发挥出处理器的优势。
就接过来看,测试得分和Sandra的有共通之处:处理器架构性能测试分为整数和浮点两个部分,AMD的处理器两个成绩分值很接近,而Intel的处理器整数分值则要比浮点分值高出不少。如前面所述,这可以从两个方面解释:第一,这是因为AMD的处理器架构和SPEC CPU 2006的基准测试平台(一台古老的64位Digital Alpha工作站,我们要知道,AMD Opteron处理器和Alpha处理器具有很深的渊源)架构很接近;第二,这是因为AMD的处理器可以每时钟周期运行相同的整数/浮点指令(都是三条),而Intel的Penryn处理器不是(整数是三条,浮点是两条)。比较有趣的是,同样基于Opteron处理器而只是频率不同,Dawning的A650-FX和DELL R805具有不同的整数/浮点倾向,这应该是由于处理器之外的原因。
我们先从一般的应用操作来看,它们多基于整数性能,这方面采用高频率处理器(3GHz以上)的ASUS RS162-E4和Lenovo万全R525再次名列前茅,而采用频率略输一筹的Dawning I650-F(2.66GHz)则跟在后面,其他频率更低的服务器依次排列。
一般的三维内容创作、科学计算则多基于浮点性能,这方面来看Opteron处理器效率非常高(每时钟周期三条浮点指令毕竟强于每时钟周期两条),采用2.2GHz Opteron的DELL R805得分最高,2.0GHz Opteron(Dawning A650-FX)则比3.xGHz Xeon(ASUS RS162-E4、Lenovo万全R525)要低一点。
华硕RS162-E4采用了Xeon X5460处理器,主频高达3.16GHz。在闲置的时候,它会自动降低到2G运行,并会降低相应的电压等参数来降低功耗
总体来看,频率最高的ASUS RS162-E4自然拥有计算性能上的优势。Intel平台中,仅配置双通道内存的几台机器排在了后面,不过同样是双通道内存,5000P芯片组(Inspure NF285E)仍然比其他采用5000V/5100的强一些。
在参测服务器主要规格一览中,我们介绍过,在本次参测的10款全部都采用了SAS接口的硬盘。没有再采用SATA硬盘的服务器。当然企业级SATA硬盘市场仍然是逐渐变大的,只不过在主流的服务器中,SAS接口是统治者(SAS技术获得了2007年的IT168技术卓越奖)。
在SAS/RAID控制器上,LSI无疑是最大的赢家,老牌SCSI厂商Adaptec现在已经谈出了控制卡生产市场,转向以软件、服务为主。10款横评服务器中全部都使用了LSI的SAS或者RAID控制卡,只有DELL是采用自己的RAID卡形式而不是独立的LSI控制卡的形式(它也是基于LSI的芯片)。这些服务器当中,ASUS RS162-E4、ASUS RS160-E5、DELL PowerEdge R805、五舟5105四款使用的是SAS控制卡,其余六款使用的是阵列卡,而且当中有四款使用的是LSI MegaRAID SAS 8708ELP阵列卡(Aisino 6501R-8、Dawning I650-F、Inspure NF285E、Lenovo R525),8端口500MHz ARM引擎,当中剩下的两款服务器一款是LSI MegaRAID SAS 8208ELP(Dawning A650-FX),一款就是DELL的PERC 6/i IR。
服务器型号 | 磁盘控制器型号 | 磁盘型号 | 使用磁盘数量 | 磁盘接口 | 转速 | 阵列模式 |
Aisino 6501R-8 | LSI Logic MegaRAID SAS 8708ELP RAID Controller | Seagate Cheetah 15k.5 ST3146855SS | 4 | SAS | 15k | RAID5 |
ASUS RS160-E5 | ASUS PIKE1064E SAS Controller | Seagate Cheetah 15k.5 ST373455SS | 4 | SAS | 15k | RAID0 |
ASUS RS162-E4 | LSI Logic 1068E SAS Controller | Seagate Cheetah 15k.5 ST373455SS | 4 | SAS | 15k | RAID0 |
Dawning A650-FX | LSI Logic MegaRAID SAS 8208ELP RAID Controller | FUJITSU MBA3147RC | 4 | SAS | 15k | RAID5 |
Dawning I650-F | LSI Logic MegaRAID SAS 8708ELP RAID Controller | FUJITSU MBA3147RC | 3 | SAS | 15k | RAID5 |
DELL PowerEdge 1950 III | DELL PERC 6/i Integrated RAID Controller | FUJITSU MBA3073RC | 2 | SAS | 15k | RAID0 |
DELL PowerEdge R805 | DELL PERC 6/iR SAS Controller | Seagate Savvio 10K.2 ST973402SS | 1 | SAS | 10K | - |
Inspur NF285E | LSI Logic MegaRAID SAS 8708ELP RAID Controller | Seagate Savvio 10K.2 ST973402SS | 4 | SAS | 10K | RAID5 |
Lenovo R525 | LSI Logic MegaRAID SAS 8708ELP RAID Controller | Seagate Savvio 10K.2 ST9146802SS | 12 (测试使用4个) | SAS | 10K | RAID5 |
五舟5105 | LSI Logic 1068E SAS Controller | Seagate Cheetah 15k.5 ST3146855SS | 1 | SAS | 15k | - |
阵列方面,50%的机器使用了RAID 5阵列,只有三款服务器采用了RAID 0(DELL 1950 III是因为磁盘只有两个,无法RAID 5,两台华硕则是因为SAS控制卡不支持RAID 5),剩下的两款则是单硬盘,无RAID配置。
总而言之,由于磁盘子系统在各种因素上具有较大的选择性,因此最终的性能表现也各有不同。大部分情况下,读IO和写IO都差不多,不过如ASUS RS162-E4、DELL R805、五舟5105这三台比较特别,因为他们中,第一款是4个硬盘RAID 0,后面两款是单硬盘。他们都是采用了1068E芯片SAS控制卡,不过同样是SAS控制卡,华硕RS160-E5的读写就均衡一点:它是1064E芯片。
Inspur采用的LSI MegaRAID 8708E硬件阵列卡,通过LSISAS 1078E RoC芯片提供8个SAS 3Gbps接口,并提供了硬件RAID 5/6能力,NF285E样机采用的板载256MB ECC内存
Inspur采用了4个2.5英寸Seagate Savvio 10K.2 SAS硬盘
写性能前三名是Inspur NF285E(93984IOps)、Aisino 6501R-8(88846IOps)、Lenovo万全R525(88667IOps),它们都采用了LSI Logic MegaRAID SAS 8708ELP RAID Controller。读性能前三名则是Aisino 6501R-8(92245IOps)、Dawning A650-FX(84248IOps)、Lenovo万全R525(79605IOps),也均是采用了8708ELP阵列卡。总体而言,采用8708ELP的性能都处在前列(这也是笔者自行购买了一块的原因)。
吞吐量和IOps两个指标的倾向各不相同,DELL 1950 III的读取很猛,写入则比较糟糕,它是两个硬盘+硬件阵列卡组RAID 0的方式。同样是RAID 0的两台华硕服务器读取性能也很强,不过ASUS RS162-E4不同于RS160-E5的地方是写入比较糟糕(1068vs1064!可见不是数字大就越好……),8708ELP阵列卡们的表现都不是非常显眼——足够使用。吞吐量指标对于服务器来说通常不如IOps重要。
我们利用NetBench 7.03和Ent_dm.tst测试脚本模拟企业级文件服务器应用,通过60个客户端读写被测服务器的共享目录来考查被测服务器做为文件服务器时的表现。
影响这项测试的因素比较多,磁盘子系统性能(IO处理能力和吞吐量)、网络连通能力等等,在这项测试中DELL PowerEdge 1950 III(PERC 6/i R硬件RAID 0)在平均值和峰值中都取得了第一,再接下去比较显眼的是Dawning I650-F(8708ELP硬件RAID 5),同样RAID 0,基于HostRAID的两台华硕就没有这么高的性能——8708ELP配置为RAID 0的话性能会更高,不过对于保存资料的文件服务器而言,RAID 0看起来不是个好主意。
DELL PowerEdge 1950 III常用的DELL PERC 6/i Integrated SAS RAID Controller,硬件RAID 5/6/50/60阵列卡,256MB内存,两个4x宽端口(每口四个SAS设备)
DELL PERC 6/i IR可以支持RAID 5/6/50/60,然而DELL PowerEdge 1950 II仅配置了两个3.5英寸SAS,因此只能组建RAID 0或者RAID 1阵列。硬件RAID 0的性能从测试结果可见一斑
我们在被测服务器上安装了Microsoft SQL 2005,按照测试要求建立了数据库。BF在测试之前会在数据库中生成9个表,其中包括4个500万行的表格,每行包括100字节的数据,因此每个表格容量大约是476MB,整个数据库容量为1.86GB。我们用60个客户端模拟了最多1000个用户,在这个数据库中进行查询、添加、删除、修改等操作。
数据库测试同时考验了处理器、缓存-内存、磁盘以及网络。我们作为参考的是测试数据的平均值。从上表可以看出,前三名分别是ASUS RS162-E4(3.16GHz Xeon X5460)、DELL PowerEdge 1950 III(2.50GHz Xeon E5420)、Lenovo万全R525(3.0GHz Xeon E5450),采用了3GHz以上Xeon的两款机器处理能力高很容易理解,不过频率较低的DELL 1950 III能获得比较高的性能就需要特别说明了:首先,它采用了5000X芯片组,带有12MB Snoop Filter缓存,在频繁的内存页面操作上效率较高,其次它的硬件RAID 0性能也比较好。
我们综合了SPEC CPU2006、文件服务器性能测试和微软SQL2005性能测试得到了服务器的综合性能表现。
综合性能得分以SPEC CPU2006性能测试、文件服务器性能测试和微软SQL2005性能测试的得分为基础,分别占据40%、20%、40%的分值,并以我们配置了Xeon E5430处理器的平台:DELL PowerEdge 2900 III为基准,基准得分定为100。
处理器频率最高的ASUS RS162-E4的综合性能取得了第一名的成绩。这款服务器采用的是Xeon X5460处理器(Harpertown核心,主频3.16GHz,2x6MB L2缓存),5000P芯片组和8GB FBD内存,磁盘子系统因为采用了4块15000RPM硬盘做RAID 0也很特出,因此综合性能较高也很容易理解。RS162-E4的SPEC CPU 2006性能和SQL2005性能都是最强的,不过由于是SAS控制卡做的HostRAID,并非是纯的“硬”RAID,因此RS162-E4的文件服务器性能并不是最强。
稍后的是DELL PowerEdge 1950 III,虽然处理器频率不高(Xeon E5420,2.50GHz),不过它具有两个优点:首先是采用了5000X芯片组,具有16MB Snoop Filter缓存,可以提升处理器的协作效率,其次是采用了硬件RAID 0模式(使用PERC 6/i IR和两个15000RPM硬盘),磁盘性能比较好,因此在综合性能也很出色(主要是文件服务器性能很不错,缺点是RAID 0的可靠性稍有不足)。
联想万全R525服务器
在90分附近的还有Lenovo万全R525和Dawning I650-F,万全R525的配置非常高:3.0GHz Xeon E5450,16GB FBD内存和LSI Logic MegaRAID SAS 8708ELP控制器,以及12个2.5英寸SAS磁盘,不过在测试中只使用了4个的缘故,因此有些影响到了其文件服务器性能(10000RPM 2.5英寸SAS盘的单盘性能也有些不足),请相信,满配置的R525将是非常强劲的机器。Dawning I650-F采用了2.66GHz Xeon E5430,也采用了LSI Logic MegaRAID SAS 8708ELP控制器,不过使用的是三个15000RPM 3.5英寸SAS硬盘RAID 5的方式,因此文件服务器性能要好一些,整体也能取得较好的成绩。
我们通过测试得到了服务器的功耗数据:
在综合性能上处于前列的四台机器:ASUS RS162-E4、DELL PowerEdge 1950 III、Lenovo万全R525、Dawning I650-F的功耗上则不占据优势。功耗上表现最好的是ASUS RS160-E5,空载功耗(149.1)和满载功耗(241.8)都达到了最低,这符合了其提倡的绿色IT概念符合,它采用了较低频率的处理器(2.33GHz Xeon E5410),采用了高效率的80Plus电源,因此功耗表现良好。
ASUS RS160-E5服务器
功耗在相近水平的还有DELL PowerEdge R805和Inspur NF285E,前者是由于仅采用了单个10000RPM 2.5英寸的小SAS硬盘,以及功耗较低的DDR2内存,在功耗较低的同时性能也不高。而Inspur NF285E是真正的以绿色计算理念设计的服务器,采用了低电压版处理器(2.50GHz的Xeon L5420), 在功耗表现良好的情况下提供了很不错的性能。
其实,从性能得分的分值范围就可以看出最终能效比的结果:性能得分相差不算太大,最高的101.72分,最低的80.05分,波动远没有功耗的波动来的大(功耗最高的接近功耗最低的两倍)。
可见在能耗比方面,低功耗是占主要因素的,低功耗化不仅是计算部件功耗变低,而且散热/冷却能耗也得以降低,因此比提升性能更为有效,这也是SPEC Power排行榜中的榜首由一台低频率的单路CPU服务器占据的原因之一。
能耗比得分就是直接将性能总分除以功耗数值得到的一个无量纲的系数,仅用于互相对比,其绝对值没有什么意义。使用空载(零负载)功率和满负载功率得到的数字各有不同,然而,从它们连接的线段中,我们可以很容易地看出其整体能耗比的高低。
从能效比得分来看,有四台机器超过了我们的基准平台:(得分从高到低排列)ASUS RS160-E5、DELL PowerEdge 1950 III、Inspur NF285E、DELL PowerEdge R805,其中采用了Barcelona Operton的DELL R805仅配置了单硬盘,因此功耗较低,然而磁盘性能也不高。我们主要将目光投向另外三台产品,它们的得分都很相似,可以说:各有所长,各有特色。
ASUS RS160-E5服务器
能效比最高的ASUS RS160-E5是以绿色IT为理念而设计的第五代节能服务器,它通过种种方法来达到节能的目的:80Plus电源、双通道DDR2内存、较低频率的处理器(2.33GHz Xeon E5410),特别是考虑到其配置了4个15000RPM转速硬盘的情况下,RS160-E5的节能设计效果不错。
我们开头说功率低的机器占优势大,不过情况并不是一成不变的,DELL PowerEdge 1950 III偏向于较强的性能上,而功耗则处在较低而不是最低的水平。它配置了比其它两款频率高一些的处理器(2.50GHz的Xeon E5420)和5000X芯片组以及硬件RAID 0阵列,性能较为出色,最终的能效比也很不错。
Inspur NF285E也是以绿色计算为理念特别设计的系列节能服务器,它通过搭配低功耗处理器(2.50GHz的Xeon L5420,功率比通常的E5420要低不少)降低总体功耗,并合理配置散热风扇和风道,以较小的能耗代价就满足了整台机器的散热,而且并没有牺牲性能/扩展能力,Inspur NF285E配置的LSI MegaRAID SAS 8708ELP阵列卡和最多达到8个的SAS硬盘位可以提供比其他节能服务器更好的磁盘能力,最终获得了很不错的综合表现。
ASUS RS160-E5属于华硕第五代绿色服务器,它特别搭配80Plus高转换效率的绿色服务器电源,在测试中获得了最低的功耗表现。RS160-E5是一台1U高度的服务器,非常低的部件功耗让其在散热方面消耗很低,反过来又降低了总体能耗。RS160-E5采用的双路Xeon E5410处理器、Intel 5100芯片组、SAS硬盘升级套件PIKE等也提供了合适的性能和可扩展性独特,华硕也提供了完善的监控、管理软件。在本次横评中,ASUS RS160-E5取得了最出色的能耗比表现,对“绿色”进行了非常好的诠释。
编辑推荐奖:DELL PowerEdge 1950 III服务器
DELL PowerEdge 1950 III服务器是戴尔1950系列服务器的第三代,对第一代产品进行了组件升级换代,凭借着优秀的性能获得了较高的能效比,它配置了2.50GHz的双路Xeon E5420处理器和带有16MB Snoop Filter缓存的Intel 5000X芯片组以及DELL PERC 6/i IR硬件阵列卡,数据库性能非常出色,科学计算性能和文件服务器也表现良好,同时功耗控制非常合理。DELL提供的管理软件和技术支持也非常完善。
《绿色节能 浪潮英信NF285E服务器评测》
Inspur NF285E是浪潮特别为中小型企业提供的绿色服务器产品,它通过采用众多绿色组件合理搭配来提供了出色的功耗表现和性能表现。Inspur NF285E特别采用了Intel低电压版处理器:Xeon L5420,并对机箱整体设计进行了改进以充分降低功耗。NF285E采用了主流的5000P芯片组以及LSI MegaRAID SAS 8708ELP硬件阵列卡提供了良好的性能和出色的扩展性,同时仍然维持了很低的功耗。