【IT168 评测中心】在我们的印象中,工作站多是用来处理3D图形,因此显卡的性能是我们日常衡量的关键。事实上,与我们日常使用的电脑一样,无论是视频压缩还是3D渲染,影响工作站性能的因素都是多样的,处理器与内存更是影响系统性能发挥的关键。今天,我们就来谈论内存对于工作站日常应用的影响。这里我们所说的内存,不仅仅是通常意义上的内存容量,还包括了内存通道等内容。
从Nehalem-EP架构开始,Intel就在处理器中整合了三通道内存控制器,包括内存与缓存之间的关系也进行了相关的调整。正如上图所呈现的那样,Nehalem/Core的L1I Cache(L1指令缓存)和L1D Cache(L1数据缓存)都是32KB,不过Nehalem的L1I Cache从以往的8路集合关联降低到了4路集合关联,L1 DTLB也从以往的256条目降低到64条目(64个小页面TLB,32个大页面TLB),并且L1 DTLB是在两个多线程之间动态共享的(L1 ITLB的小页面部分则是静态分区,也就是64条目每线程,是Core 2每线程128条目的一半;每个线程还具有7个大页面L1I TLB)。
使用高频率DDR3内存,访问本地内存的延迟大约为60个时钟周期,而通过QPI总线访问远端的处理器并返回数据大约需要90个时钟周期。QPI的就是Core架构为了使用服务器市场而做出的进化,它可以建立一个庞大的可扩展的解决方案。
除了提供更高的带宽(每链路25.6GB双向带宽)之外,QPI总线还让多处理器系统更有效率:处理器之间可以直接连接。如上图,每个CPU都可以直接和其他三个CPU通信。这样一来,Nehalem-EP所实现的内存控制相比之前的处理器来说有了明显的提升,更重要的是QPI的加入为得内存控制器提供了更大的带宽,前端总线的瓶颈不存在了,性能大幅度跃进。
从Nehalem-EP过渡到Westmere-EP,Intel继续保持了内存控制器的存在,新款的至强5600系列在内存控制器上有了进一步的性能提升。这也是我们本次测试的根源——从内存容量到内存通道,谁才是影响最终性能的关键?
为了更好的观察容量与通道数量的关系,我们为本次评测准备了一台惠普Z600工作站,这是目前行业内的终端产品,其搭配的至强X5660处理器是新系列的高端性能。而在进行测试之前,我们先来看一下本次惠普Z600工作站的详细规格:
惠普Z600工作站 | |
处理器子系统 | |
---|---|
处理器型号 | 双路Intel Xeon X5660 |
处理器架构 | Intel 32nm Westmere |
代号 | Westmere |
核心/线程数量 | 6/12 |
主频 | 2.8GHz |
处理器指令集 | MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,SSE4.2,EM64T,VT |
外部总线 | 2x QPI 3200MHz 6.40GT/s 单向12.8GB/s(每QPI) 双向25.6GB/s(每QPI) |
L1 Code Cache | 6x 32KB 8路集合关联 |
L1 Data Cache | 6x 32KB 4路集合关联 |
L2 Cache | 6x 256KB 8路集合关联 |
L3 Cache | 12MB 16路集合关联 |
主板 | |
主板型号 | HP |
芯片组 | Intel 5520 |
北桥芯片特性 | 2xQPI VT-d Gen 2 |
内存控制器 | 每CPU集成三通道R-ECC DDR3 1333 |
配置内存类型 | 4GB R-ECC DDR3 1333 SDRAM x2 |
图形子系统 | |
显卡型号 | NVIDIA Quadro 2000 |
核心代号 | Fermi |
显存容量 | 1GB RAM |
驱动程序 | NVIDIA Quadro 259.81 WHQL for Windows 7 |
存储子系统 | |
磁盘控制器 | Intel ICH10R SATA AHCI Controller |
磁盘控制器规格 | 6x SAS 3Gb/s AHCI w/ NCQ RAID 0/1 |
磁盘控制器驱动 | Intel Matrix Storage Manager 8.8.0.1009 |
硬盘 | Seagate Barracuda 7200.12 ST3250318AS |
硬盘规格 | 7200RPM 250GB SATA 3Gb/s NCQ 16MB Cache |
网络连通性 | |
网卡 | Broadcom BCH5764MKMLG |
网卡驱动 | Broadcom博通NetXtreme II系列网卡驱动14.2.11.1 |
软件环境 | |
操作系统 | Microsoft Windows 7 Ultimate x64 |
我们本次测试的Z600工作站选择的是Windows 7操作系统。之前因为测试软件的原因,诸多测试软件在Win7系统下均无法运行。本次,我们升级了测试软件,使其能够在Win7系统下流畅运行。
在测试中,我们会分别采用6GB三通道和8GB双通道内存进行试验。由于内存容量的规格限定,我们不可能让两套测试平台的内存容量完全相同,而这样的模式则可以更好看出容量与通道数量的关系。而且对于单路工作站来说,6-8GB 已经是目前应用中的主流容量,这样的测试具备了广泛的代表性。
测试服务器只搭配了一颗至强X5660处理器,6核心12线程
处理器提供了12MB三级缓存
主板没有变化,还是Intel 5520芯片组的产品
以上是惠普Z600工作站的相关信息,从这些内容来看,搭载的至强X5660处理器为系统提供了较高的性能,这样避免了处理器成为我们计算的瓶颈,同时6核心12线程的存在可以帮助我们更好的看到不同平台下的性能差异。
双通道4GB DDR3 1333内存
三通道8GB DDR 1333内存
测试中,我们尽可能为两套平台选择了同样频率的内存条,其中双通道平台使用的是三星内存,而三通道平台使用的是华硕送测的产品。
测试内存的软件很多,我们首先选择的是大家熟悉的SiSoftware Sandra,应用的是它的缓存与内存测试。缓存内存测试主要包括内存带宽、内存延迟等性能的测试。
SiSoftware Sandra Pro Business 2010 | ||
---|---|---|
测试对象 | 双通道8GB内存 | 三通道4GB内存 |
Memory Bandwidth Benchmark 内存带宽测试 | ||
Int Buff'd iSSE2 Memory Bandwidth | 16GB/s | 21GB/s |
Float Buff'd iSSE2 Memory Bandwidth | 16GB/s | 21GB/s |
Memory Latency Benchmark 内存延迟测试 | ||
Memory(Random Access) Latency (越小越好) | 88ns | 85ns |
Speed Factor(越小越好) | 62.90 | 60.90 |
Internal Data Cache | 4clocks | 4clocks |
L2 On-board Cache | 10clocks | 10clocks |
L3 On-board Cache | 55clocks | 55clocks |
Cache and Memory Benchmark 缓存及内存测试 | ||
Cache/Memory Bandwidth | 76.6GB/s | 87.2GB/s |
Cache/Memory Bandwidth vs SPEED | 26.80MB/s/MHz | 30.51MB/s/MHz |
Speed Factor(越小越好) | 41.50 | 28.50 |
Internal Data Cache | 353.77GB/s | 352.81GB/s |
L2 On-board Cache | 240.1GB/s | 242.37GB/s |
很明显大家看到,在同样处理器下,三通道内存可以提供21GB/s的内存带宽,而双通道只有16GB/s的带宽,两者的差距在30%左右。这就是三通道所带来的性能优势。在延迟测试中我们看到三通道内存依然领先,但是并非是由于通道数量造成的,更多来源于内存个体的不同。在缓存及内存测试中,前三个项目三通道内存都有着明显的领先优势,而在缓存的测试中,可以看到两款平台基本相同。
ScienceMark v2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1 Cache延迟、L2 Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
双通道8GB内存测试
三通道6GB内存测试
ScienceMark Membench | ||
内存技术参数 | 双通道8GB | 三通道6GB |
内存带宽(MB/s) | 12553.04 | 12522.79 |
L1 Cache Latency(ns) | ||
32 Bytes Stride | 1.07 | 0.72 |
L2 Cache Latency(ns) | ||
4 Bytes Stride | 1.07 | 1.07 |
16 Bytes Stride | 1.07 | 1.07 |
64 Bytes Stride | 2.86 | 2.86 |
256 Bytes Stride | 2.86 | 2.86 |
512 Bytes Stride | 2.51 | 2.51 |
Memory Latency(ns) | ||
4 Bytes Stride | 1.07 | 1.07 |
16 Bytes Stride | 1.79 | 1.79 |
64 Bytes Stride | 8.23 | 6.09 |
256 Bytes Stride | 30.07 | 30.07 |
512 Bytes Stride | 34.01 | 35.09 |
Memory Algorithm Bandwidth(MB/s) | ||
Compiler | 10891.19 | 11993.67 |
REP MOVSD | 12392.45 | 12330.84 |
ALU Reg Copy | 7735.17 | 8697.18 |
MMX Reg Copy | 8168.64 | 9448.48 |
MMX Reg 3dNow | --- | --- |
MMX Reg SSE | 12151.92 | 12123.33 |
SSE PAlign | 12553.04 | 12116.56 |
SSE PAlign SSE | 12174.28 | 12552.79 |
SSE2 PAlign | 10721.75 | 10914.08 |
SSE2 PAlign SSE | 11509.96 | 11631.62 |
MMX Block 4kb | 8842.02 | 9069.89 |
MMX Block 16kb | 9721.92 | 9517.99 |
SSE Block 4kb | 9305.23 | 9077.87 |
SSE Block 16kb | 9167.11 | 9406.33 |
ScienceMark的是一款非常老的软件,因此从结果看来双通道与三通道并没有看到明显的差距。而在指令集测试中,可以看到三通道系统在许多项目中还是领先的。从Nehalem-EP开始,由于内置了内存控制器,许多老款软件都遇到了测试环境的瓶颈,看来ScienceMark也到了快退役的时候了。
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
双通道8GB测试成绩
三通道6GB测试成绩
CineBench R11.5 | ||
平台类型 | 双通道8GB | 三通道6GB |
CPU Benchmark | ||
---|---|---|
Rendering (1 CPU) | 1.10 pts | 1.07 pts |
Rendering (x CPU) | 7.58 pts | 7.59 pts |
MP Ratio | 6.91x | 7.12x |
OpenGL Benchmark | ||
OpenGL Standard | 38.62 fps | 37.22 fps |
CinBench R11.5测试主要考察处理器及显卡内容,本来与内存没什么大的关联,但是在测试过程中,一定会受到内存的影响。从结果来看,只有MP Ratio中可以看到两者的差距比较大,说明三通道内存在其中也发挥了一定的作用。
对于工作站来说,大家关注的重点还在于它的3D处理器能力,内存的影响对于3D处理有多大呢?我们特别准备了权威的Specviewperf 11软件进行测试。
Specviewperf 11是工作站用专业图形综合测试软件,新版本的主要变化是采用了新的图形测试界面,以及增加了用于测试的新款专业级3D应用程度片段。SPECviewperf 11采用的新GUI图形界面令首次使用这款软件的新人也能很容易上手运行测试,读取测试成绩以及获取帮助信息等,此外,Windows和Linux操作系统下均使用同样的测试脚本,保证了不同平台下测试结果的可比性。
新版SPECviewperf 11中包含有8个不同的测试环节,每个环节都能模拟一款CAD/CAM软件,某些测试场景中甚至包含有超过6000万个顶点数据,能够充分测试出参测系统的整体性能与显卡的OpenGL性能。
1920*1080分辨率下的测试(上面为双通道,下面为三通道)
1600*1200分辨率下的测试
1280*1024分辨率下的测试
综合看看三种分辨率下的SPECviewperf 11软件测试成绩,双通道与三通道的差异非常下,在高倍抗锯齿下或许有细微的差别,但是我们认为这些差别属于误差范围之外,总体来看两套平台在这个项目中的表现趋于一致。
【IT168评测中心】就规格来说,从Nehalem到Westmere,虽然在微架构上仍然是基于Core,然而做出了多方面的改进。从大架构上:崭新的IMC集成内存控制器、QPI点对点连接总线都是Intel的招牌技术,而对于我们本次测试的内存通道来说,内存控制器的整合与三通道内存的出现都为工作站应用带来了巨大的改变。
我们本次测试了三通道与双通道,不同内存容量下的系统性能与内存带宽、3D图形制作之间的关系。从测试项目来看,三通道内存可以提供更大的带宽容量,21GB/s与16GB/s的差距非常明显,达到了30%以上。但是同时,内存容量也对于我们的测试有着深刻的影响。
从3D测试项目来看,SPECviewperf 11软件中我们并未发现不同通道数量对于性能的影响,由此可以认为这款软件对于内存容量与通道数量并不敏感,它更多侧重于工作站或绘图卡本身性能的测试。
不过面对日常应用来说,在内存容量接近的情况下(比如本次我们测试的6GB与8GB),内存通道的作用要更大一些,因为工作站往往还要进行某些视频压缩的应用,这时候三通道所实现的QPI可以有效的缩短时间。