服务器 频道

内存中的真相 惠普Z600工作站性能研究

  【IT168 评测中心】在我们的印象中,工作站多是用来处理3D图形,因此显卡的性能是我们日常衡量的关键。事实上,与我们日常使用的电脑一样,无论是视频压缩还是3D渲染,影响工作站性能的因素都是多样的,处理器与内存更是影响系统性能发挥的关键。今天,我们就来谈论内存对于工作站日常应用的影响。这里我们所说的内存,不仅仅是通常意义上的内存容量,还包括了内存通道等内容。

内存优先or通道优先?

  从Nehalem-EP架构开始,Intel就在处理器中整合了三通道内存控制器,包括内存与缓存之间的关系也进行了相关的调整。正如上图所呈现的那样,Nehalem/Core的L1I Cache(L1指令缓存)和L1D Cache(L1数据缓存)都是32KB,不过Nehalem的L1I Cache从以往的8路集合关联降低到了4路集合关联,L1 DTLB也从以往的256条目降低到64条目(64个小页面TLB,32个大页面TLB),并且L1 DTLB是在两个多线程之间动态共享的(L1 ITLB的小页面部分则是静态分区,也就是64条目每线程,是Core 2每线程128条目的一半;每个线程还具有7个大页面L1I TLB)。

  使用高频率DDR3内存,访问本地内存的延迟大约为60个时钟周期,而通过QPI总线访问远端的处理器并返回数据大约需要90个时钟周期。QPI的就是Core架构为了使用服务器市场而做出的进化,它可以建立一个庞大的可扩展的解决方案。

  除了提供更高的带宽(每链路25.6GB双向带宽)之外,QPI总线还让多处理器系统更有效率:处理器之间可以直接连接。如上图,每个CPU都可以直接和其他三个CPU通信。这样一来,Nehalem-EP所实现的内存控制相比之前的处理器来说有了明显的提升,更重要的是QPI的加入为得内存控制器提供了更大的带宽,前端总线的瓶颈不存在了,性能大幅度跃进。

  从Nehalem-EP过渡到Westmere-EP,Intel继续保持了内存控制器的存在,新款的至强5600系列在内存控制器上有了进一步的性能提升。这也是我们本次测试的根源——从内存容量到内存通道,谁才是影响最终性能的关键?

 

  为了更好的观察容量与通道数量的关系,我们为本次评测准备了一台惠普Z600工作站,这是目前行业内的终端产品,其搭配的至强X5660处理器是新系列的高端性能。而在进行测试之前,我们先来看一下本次惠普Z600工作站的详细规格:

惠普Z600工作站
处理器子系统
处理器型号双路Intel Xeon X5660
处理器架构Intel 32nm Westmere
代号Westmere
核心/线程数量6/12
主频2.8GHz 
处理器指令集MMX,SSE,SSE2,SSE3,SSSE3,
SSE4.1,SSE4.2,EM64T,VT
外部总线2x QPI
3200MHz
6.40GT/s
单向12.8GB/s(每QPI)
双向25.6GB/s(每QPI)
L1 Code Cache6x 32KB
8路集合关联
L1 Data Cache6x 32KB
4路集合关联
L2 Cache6x 256KB
8路集合关联
L3 Cache12MB
16路集合关联
主板
主板型号HP
芯片组Intel 5520
北桥芯片特性2xQPI
VT-d Gen 2
内存控制器CPU集成三通道R-ECC DDR3 1333
配置内存类型4GB R-ECC DDR3 1333 SDRAM x2
图形子系统
显卡型号NVIDIA Quadro 2000
核心代号Fermi
显存容量1GB RAM
驱动程序NVIDIA Quadro 259.81 WHQL for Windows 7
存储子系统
磁盘控制器Intel ICH10R SATA AHCI Controller
磁盘控制器规格6x SAS 3Gb/s
AHCI w/ NCQ
RAID 0/1
磁盘控制器驱动Intel Matrix Storage Manager 8.8.0.1009
硬盘Seagate
Barracuda 7200.12
ST3250318AS
硬盘规格7200RPM
250GB
SATA 3Gb/s
NCQ
16MB Cache
网络连通性
网卡Broadcom BCH5764MKMLG
网卡驱动Broadcom博通NetXtreme II系列网卡驱动14.2.11.1
软件环境
操作系统Microsoft Windows 7 Ultimate x64

  我们本次测试的Z600工作站选择的是Windows 7操作系统。之前因为测试软件的原因,诸多测试软件在Win7系统下均无法运行。本次,我们升级了测试软件,使其能够在Win7系统下流畅运行。

  在测试中,我们会分别采用6GB三通道和8GB双通道内存进行试验。由于内存容量的规格限定,我们不可能让两套测试平台的内存容量完全相同,而这样的模式则可以更好看出容量与通道数量的关系。而且对于单路工作站来说,6-8GB 已经是目前应用中的主流容量,这样的测试具备了广泛的代表性。

HP Z600:CPU-Z软件检测信息
测试服务器只搭配了一颗至强X5660处理器,6核心12线程
HP Z600:CPU-Z软件检测信息
处理器提供了12MB三级缓存
HP Z600:CPU-Z软件检测信息
主板没有变化,还是Intel 5520芯片组的产品

  以上是惠普Z600工作站的相关信息,从这些内容来看,搭载的至强X5660处理器为系统提供了较高的性能,这样避免了处理器成为我们计算的瓶颈,同时6核心12线程的存在可以帮助我们更好的看到不同平台下的性能差异。

HP Z600:CPU-Z软件检测信息
HP Z600:Everest软件芯片组信息
双通道4GB DDR3 1333内存
测试平台CPU-Z软件检测信息
测试平台CPU-Z软件检测信息
三通道8GB DDR 1333内存

  测试中,我们尽可能为两套平台选择了同样频率的内存条,其中双通道平台使用的是三星内存,而三通道平台使用的是华硕送测的产品。

  测试内存的软件很多,我们首先选择的是大家熟悉的SiSoftware Sandra,应用的是它的缓存与内存测试。缓存内存测试主要包括内存带宽、内存延迟等性能的测试。

SiSoftware Sandra Pro Business 2010
测试对象双通道8GB内存三通道4GB内存
Memory Bandwidth Benchmark
内存带宽测试
Int Buff'd iSSE2 Memory Bandwidth16GB/s21GB/s
Float Buff'd iSSE2 Memory Bandwidth16GB/s21GB/s
Memory Latency Benchmark
内存延迟测试
Memory(Random Access) Latency
(越小越好)
88ns85ns
Speed Factor(越小越好)62.9060.90
Internal Data Cache4clocks4clocks
L2 On-board Cache10clocks10clocks
L3 On-board Cache55clocks55clocks
Cache and Memory Benchmark
缓存及内存测试
Cache/Memory Bandwidth76.6GB/s87.2GB/s
Cache/Memory Bandwidth vs SPEED26.80MB/s/MHz30.51MB/s/MHz
Speed Factor(越小越好)41.5028.50
Internal Data Cache353.77GB/s352.81GB/s
L2 On-board Cache240.1GB/s242.37GB/s

  很明显大家看到,在同样处理器下,三通道内存可以提供21GB/s的内存带宽,而双通道只有16GB/s的带宽,两者的差距在30%左右。这就是三通道所带来的性能优势。在延迟测试中我们看到三通道内存依然领先,但是并非是由于通道数量造成的,更多来源于内存个体的不同。在缓存及内存测试中,前三个项目三通道内存都有着明显的领先优势,而在缓存的测试中,可以看到两款平台基本相同。

  ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。

ScienceMark-缓存内存子系统性能测试
双通道8GB内存测试
ScienceMark-缓存内存子系统性能测试
三通道6GB内存测试

ScienceMark Membench

内存技术参数双通道8GB三通道6GB
内存带宽(MB/s)12553.0412522.79
L1 Cache Latency(ns)
32 Bytes Stride1.070.72
L2 Cache Latency(ns)
4 Bytes Stride1.071.07
16 Bytes Stride1.071.07
64 Bytes Stride2.862.86
256 Bytes Stride2.862.86
512 Bytes Stride2.512.51
Memory Latency(ns)
4 Bytes Stride1.071.07
16 Bytes Stride1.791.79
64 Bytes Stride8.236.09
256 Bytes Stride30.0730.07
512 Bytes Stride34.0135.09
Memory Algorithm Bandwidth(MB/s)
Compiler10891.1911993.67
REP MOVSD12392.4512330.84
ALU Reg Copy7735.178697.18
MMX Reg Copy8168.649448.48
MMX Reg 3dNow------
MMX Reg SSE12151.9212123.33
SSE PAlign12553.0412116.56
SSE PAlign SSE12174.2812552.79
SSE2 PAlign10721.7510914.08
SSE2 PAlign SSE11509.9611631.62
MMX Block 4kb8842.029069.89
MMX Block 16kb9721.929517.99
SSE Block 4kb9305.239077.87
SSE Block 16kb9167.119406.33

  ScienceMark的是一款非常老的软件,因此从结果看来双通道与三通道并没有看到明显的差距。而在指令集测试中,可以看到三通道系统在许多项目中还是领先的。从Nehalem-EP开始,由于内置了内存控制器,许多老款软件都遇到了测试环境的瓶颈,看来ScienceMark也到了快退役的时候了。

  CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。

CineBench R10性能测试
双通道8GB测试成绩
CineBench R11.5性能测试
三通道6GB测试成绩

CineBench R11.5
平台类型双通道8GB三通道6GB
CPU Benchmark
Rendering (1 CPU)1.10 pts1.07 pts
Rendering (x CPU)7.58 pts7.59 pts
MP Ratio6.91x7.12x
OpenGL Benchmark
OpenGL Standard38.62 fps37.22 fps

  CinBench R11.5测试主要考察处理器及显卡内容,本来与内存没什么大的关联,但是在测试过程中,一定会受到内存的影响。从结果来看,只有MP Ratio中可以看到两者的差距比较大,说明三通道内存在其中也发挥了一定的作用。

  对于工作站来说,大家关注的重点还在于它的3D处理器能力,内存的影响对于3D处理有多大呢?我们特别准备了权威的Specviewperf 11软件进行测试。

  Specviewperf 11是工作站用专业图形综合测试软件,新版本的主要变化是采用了新的图形测试界面,以及增加了用于测试的新款专业级3D应用程度片段。SPECviewperf 11采用的新GUI图形界面令首次使用这款软件的新人也能很容易上手运行测试,读取测试成绩以及获取帮助信息等,此外,Windows和Linux操作系统下均使用同样的测试脚本,保证了不同平台下测试结果的可比性。

SPECviewperf 11

  新版SPECviewperf 11中包含有8个不同的测试环节,每个环节都能模拟一款CAD/CAM软件,某些测试场景中甚至包含有超过6000万个顶点数据,能够充分测试出参测系统的整体性能与显卡的OpenGL性能。 

SPECviewperf 11软件测试

1920*1080分辨率下的测试(上面为双通道,下面为三通道)
SPECviewperf 11软件测试

1600*1200分辨率下的测试
SPECviewperf 11软件测试

1280*1024分辨率下的测试

  综合看看三种分辨率下的SPECviewperf 11软件测试成绩,双通道与三通道的差异非常下,在高倍抗锯齿下或许有细微的差别,但是我们认为这些差别属于误差范围之外,总体来看两套平台在这个项目中的表现趋于一致。

  【IT168评测中心】就规格来说,从Nehalem到Westmere,虽然在微架构上仍然是基于Core,然而做出了多方面的改进。从大架构上:崭新的IMC集成内存控制器、QPI点对点连接总线都是Intel的招牌技术,而对于我们本次测试的内存通道来说,内存控制器的整合与三通道内存的出现都为工作站应用带来了巨大的改变。

IT168评测中心观点

  我们本次测试了三通道与双通道,不同内存容量下的系统性能与内存带宽、3D图形制作之间的关系。从测试项目来看,三通道内存可以提供更大的带宽容量,21GB/s与16GB/s的差距非常明显,达到了30%以上。但是同时,内存容量也对于我们的测试有着深刻的影响。

  从3D测试项目来看,SPECviewperf 11软件中我们并未发现不同通道数量对于性能的影响,由此可以认为这款软件对于内存容量与通道数量并不敏感,它更多侧重于工作站或绘图卡本身性能的测试。

  不过面对日常应用来说,在内存容量接近的情况下(比如本次我们测试的6GB与8GB),内存通道的作用要更大一些,因为工作站往往还要进行某些视频压缩的应用,这时候三通道所实现的QPI可以有效的缩短时间。

0
相关文章