【IT168评测中心】一个月前,2010年3月17日,Intel发布了Nehalem-EP处理器的继任者Westmere-EP,也就是Xeon 5600系列处理器。我们对其进行了全面的解析并使用了多款常见的软件对其进行了测试。
Xeon 5600:Westmere-EP
32nm 六核心:Intel Westmere-EP晶圆图
Westmere的特点就是六核心。对于桌面应用来说,并没有太大的帮助,也因此,在桌面领域Westmere只有一款型号为Core i7 980X的Gulftown。而在企业级市场,则一口气发布了十数款产品。对于服务器应用来说,多核心对性能提升很有帮助。下面我们就将揭示新一代Westmere-EP处理器的数据库处理性能。
一般而言,数据库在大型IT架构中处于后端部分,通常的Web服务器处于前端部分。Web服务器通过调用来获取数据库上的信息。
在2009年秋我们IT168评测中心网络实验室搬迁到新的机房之后,我们又对实验室的服务器测试平台进行了大幅度的升级,先是将已有的Cisco Catalyst 4506千兆交换机升级到3个模块,达到了一共120个千兆网络端口,还新购买了30台DELL PowerEdge T100服务器,配合原有的30台DELL PowerEdge SC430服务器以及30台PC作为网络测试的客户端,可以提供非常充足的测试压力。
网络实验室控制台
网络实验室机房
Cisco Catalyst 4506千兆交换机,120个千兆铜口
部分Dell PowerEdge SC430服务器
同时,我们也对数据库服务器的测试环境进行了改进:
Benchmark Factory for Databases 5.7.1g
我们选择了Benchmark Factory for Databases 5.7.1g软件来进行测试,它是我们之前使用的4.6的升级版本。
我们选择了BF内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。关系性数据库就是用二维表格结构来表示实体及实体之间联系模型的数据库形式。
BF通过一台独立的控制台控制我们的60台服务器充当的客户端产生数据库测试压力,由于客户端所有的资源都用来产生数据库操作,因此可以给服务器施加相当大的测试压力。
Benchmark Factory 运行报告
我们选择了BF内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。关系性数据库就是用二维表格结构来表示实体及实体之间联系模型的数据库形式。
最后,我们使用的是SQL Server 2005 x64个版本
显然,所有的测试都是在同一台主机上进行测试,只是需要更换几次处理器。
测试平台、测试环境 | ||||||
测试分组 | ||||||
类别 | 双路Intel Nehalem-EP Xeon X5570 | 双路Intel Westmere-EP Xeon X5670 | 双路Intel Westmere-EP Xeon X5680 | |||
处理器子系统 | ||||||
处理器 | 双路Intel Xeon X5570 | 双路Intel Xeon X5670 | 双路Intel Xeon X5680 | |||
处理器架构 | Intel 45nm Nehalem | Intel 32nm Westmere-EP | Intel 32nm Westmere-EP | |||
处理器代号 | Gainestown (Nehalem-EP) | ? (Westmere-EP) | ? (Westmere-EP) | |||
处理器封装 | Socket 1366 LGA | Socket 1366 LGA | Socket 1366 LGA | |||
处理器规格 | 四核 | 六核 | 六核 | |||
处理器指令集 | MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,SSE4.2,EM64T,VT | MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,SSE4.2,EM64T,VT AES | MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,SSE4.2,EM64T,VT AES | |||
主频 | 2.93GHz | 2.93GHz | 3.33GHz | |||
Turbo Boost主频 (多核) | 3.20GHz(+266MHz) | 3.20GHz(+266MHz) | 3.46GHz(+133MHz) | |||
Turbo Boost 主频 (单/双核) | 3.333GHz(+400MHz) | 3.333GHz(+400MHz) | 3.60GHz(+266MHz) | |||
处理器外部总线 | 2x QPI 3200MHz 6.40GT/s 单向12.8GB/s(每QPI) 双向25.6GB/s(每QPI) | 2x QPI 3200MHz 6.40GT/s 单向12.8GB/s(每QPI) 双向25.6GB/s(每QPI) | 2x QPI 3200MHz 6.40GT/s 单向12.8GB/s(每QPI) 双向25.6GB/s(每QPI) | |||
L1 D-Cache | 4x 32KB 8路集合关联 | 6x 32KB 8路集合关联 | 6x 32KB 8路集合关联 | |||
L1 I-Cache | 4x 32KB 4路集合关联 | 6x 32KB 4路集合关联 | 6x 32KB 4路集合关联 | |||
L2 Cache | 4x 256KB 8路集合关联 | 6x 256KB 8路集合关联 | 6x 256KB 8路集合关联 | |||
L3 Cache | 8MB @ 2668.7MHz 16路集合关联 | 12MB @ 2668.7MHz 16路集合关联 | 12MB @ 2668.7MHz 16路集合关联 | |||
主板 | ||||||
主板型号 | ASUS Z8PS-D12-1U | ASUS Z8PS-D12-1U | ASUS Z8PS-D12-1U | |||
芯片组 | Intel Tylersburg-EP IOH:Intel 5520(Tylersburg-36D) ICH:Intel 82801JR(ICH10R) | Intel Tylersburg-EP IOH:Intel 5520(Tylersburg-36D) ICH:Intel 82801JR(ICH10R) | Intel Tylersburg-EP IOH:Intel 5520(Tylersburg-36D) ICH:Intel 82801JR(ICH10R) | |||
芯片特性 | 2x QPI 36 PCI Express Gen2 Lanes VT-d Gen 2 | 2x QPI 36 PCI Express Gen2 Lanes VT-d Gen 2 | 2x QPI 36 PCI Express Gen2 Lanes VT-d Gen 2 | |||
内存控制器 | 每CPU集成三通道R-ECC DDR3 1333 | 每CPU集成三通道R-ECC DDR3 1333 | 每CPU集成三通道R-ECC DDR3 1333 | |||
内存 | 4GB R-ECC DDR3 1333 SDRAM x6 | 4GB R-ECC DDR3 1333 SDRAM x6 | 4GB R-ECC DDR3 1333 SDRAM x6 | |||
软件环境 | ||||||
操作系统 | Microsoft Windows Server 2008 R2 Datacenter Edition | Microsoft Windows Server 2008 R2 Datacenter Edition | Microsoft Windows Server 2008 R2 Datacenter Edition |
测试时使用的内存容量是24GB
Nehalem-EP X5570
Westmere-EP X5670
Westmere-EP X5680
可见,所有的处理器在闲置的时候都运行在1.6GHz下。处理器的家族都为6,不过Model从A变化到了C,Ext. Model从1A变化到了2C。
所有的测试都基于最新的BIOS……0701
X5670和X5680的Uncore频率仍然运行在2.667GHz(图上的NB Frequency)
解读:w/HTT的意思是with HTT,也就是“在超线程状态下”,w/o HTT意思是without HTT,也就是“不在超线程状态下”,TB则是Turbo Boost睿频技术。依此类推。
Westmere-EP Xeon X5670 2.93GHz
Westmere-EP Xeon X5680 3.33GHz
解读:w/HTT的意思是with HTT,也就是“在超线程状态下”,w/o HTT意思是without HTT,也就是“不在超线程状态下”,TB则是Turbo Boost睿频技术。依此类推。
带超线程但是不开Turbo Boost的测试,这个也会比较常见,因为Windows Server 2008/2008 R2需要修改默认的电源配置才能启用Turbo Boost
可见,在各种配置下,Westmere-EP随着用户增长而性能下降的幅度都比Nehalem-EP要小。在关闭超线程下,600~700个用户下各个平台都达到了峰值,而打开超线程之后,Nehalem-EP的峰值延迟到700~800用户,Westmere-EP则延迟到1000个用户。开关超线程的影响很大。
解读:w/HTT的意思是with HTT,也就是“在超线程状态下”,w/o HTT意思是without HTT,也就是“不在超线程状态下”,TB则是Turbo Boost睿频技术。依此类推。
和上一幅图相同的数据,只是排列方式不同
选择同频率的X5570和X5670作为对比,X5670在超线程和睿频技术状态下的性能增幅达到了33.7%,和核心数量50%的增加非常接近。
数据库性能对比:X5570 vs X5670 | |||
Nehalem-EP X5570 | Westmere-EP X5670 | 增幅 | |
w/o HTT | 121291.08 | 162654.58 | 34.1% |
w/HTT | 181098.41 | 231372.42 | 27.8% |
w/HTT & TB | 188701.28 | 252272.42 | 33.7% |
可以看出,关闭超线程时Westmere-EP具有相对Nehalem-EP较大的增幅,打开超线程之后,Westmere-EP相对Nehalem-EP的性能增幅相对小一点,这应该是越来越多的逻辑处理器对没有变化的Uncore、RAM、QPI施加的压力变大而造成的影响。
数据库性能对比:开关超线程 | |||
w/o HTT | w/HTT | 增幅 | |
X5570 w/o TB | 121291.08 | 181098.41 | 49.3% |
X5670 w/o TB | 162654.58 | 231372.42 | 42.24% |
X5680 w/o TB | 172013.97 | 246024.27 | 43.0% |
同样,四个核心的Nehalem-EP在打开超线程上的获益最大,达到了49.3%,而六个核心的Westmere-EP的获益只有42~43%左右。总的来说,差距不是很大,不过也略为体现了旧的Uncore架构在应对越来越多核心时遇到的压力,也导致了八核心的Nehalem-EX采用了新的Uncore架构:X86巅峰 Intel Nehalem-EX架构深入解析。
数据库性能对比:开关Turbo Boost | |||
w/o TB | w/TB | 增幅 | |
X5570 | 181098.41 | 188701.28 | 4.2% |
X5670 | 231372.42 | 252272.42 | 9.03% |
X5680 | 246024.27 | 265013.41 | 7.7% |
无疑,Westmere-EP首Turbo Boost的影响更大,为什么这样呢?因为Westmere-EP可以在两个核心重负荷的情况下达到Turbo Boost的上限,而Nehalem-EP只能在单个核心重负荷的情况下达到最大的Turbo Boost,在超过两个核心/单个核心的情况下,这两个处理器都只能小幅度的Turbo Boost。
【IT168评测中心】显然,目前在处理器业界或者说半导体业界,都是在往多处理核心的方向上前进,为什么呢?因为处理器的功耗是与时钟频率的平方成正比,而只与核心的数量成正比,这还是不考虑多核心共享电路的情况,在考虑多个核心可以公用同一套如Uncore这样的电路之后,多核心的功耗表现将会更好。一个很明显的例子是,显卡的处理单元数量非常多,但是运行频率都很低。
在我们的测试当中,Westmere-EP新增加的50%的核心达到了34%的性能增益,这不能说不明显,在功耗变化不大的情况下。我们的测试还发现了,开关超线程带来的影响可以达到40~50%,这也是多处理核心对数据库应用非常有用的一个证明,虽然超线程技术增加的只是“逻辑处理器”,比起物理核心来性能要低一些。