【IT168 评测中心】今年四月,Intel对外发布了最新的基于Sandy Bridge微架构的32nm至强处理器——E3系列。虽然这并非是Intel第一次发布基于Sandy Bridge微架构的产品,虽然E3仅仅面向单路应用而生,但不管怎么说,E3的出现的确标志着Intel在至强处理器发展中迈出了重要的一步,也是Tick-Tock战略中重要的内容(Tock)。对于E3系列产品,分为10多个型号,之前我们也曾为大家介绍过E3-1270处理器的测试内容。下面,我们介绍的是当前E3系列的最高端产品,E3-1280处理器。
Intel发布Sandy Bridge微架构32nm至强处理器
桌面级Sandy Bridge处理器大家已经非常熟悉,而就企业应用的至强系列来说,同样的核心架构在性能上又会带来哪些改变?究竟E3系列处理器都有哪些型号呢?
本次我们拿到的测试产品是E3系列中的优异产品——E3 1280。前者是E3系列中的高端产品,主频为3.4GHz,支持超线程技术,TDP为80W;后者是E3系列标准版中的最低规格,主频仅为3.1GHz,不支持超线程技术。其中,整合GPU的处理器命名统一以5结尾。
在最初Intel发布的E3处理器中,E3-1280凭借着主频及功能的优势成为了优异产品。不过在随后的产品中,更高频的E3-1290也出现了,它与E3-1280的区别仅仅是主频提升了0.1GHz。从这个角度来看,我们本次测试的E3-1280可以说是代表了E3系列的最高水品——32nm,3.5GHz的主频,4核心8县城,8MB三级缓存,5GT/s和95W的TDP都表现出了它的高端特色。那么接下来,我们就要对这款处理器进行详细的测试了。
其实,想拿到这样一款优异的E3处理器还是很有难度的,即便是在厂商的支持下,也很难保证整体平台配置完全符合要求。在我们近期的评测中,恰好有一台来自惠普的Z210工作站选择了E3-1280处理器,我们也仅能依据送测产品的配置为大家进行详细的评测。具体工作站的配置参数如下:
工作站平台信息 | |
产品名称 | 惠普Z210工作站 |
平台类型 | 单路Intel Xeon E3-1280 |
处理器子系统 | |
---|---|
处理器型号 | Intel Xeon E3-1280 |
处理器架构 | Intel 32nm Sandy Bridge |
代号 | Sandy Bridge |
处理器封装 | Socket 1155 LGA |
核心/线程数量 | 4核/4线程 |
主频 | MMX,SSE,SSE2,SSE3,SSSE3, SSE4.1,SSE4.2,EM64T,VT |
处理器指令集 | 3.5GHz |
外部总线 | - |
L1 Code Cache | 4x 32KB 8路集合关联 |
L1 Data Cache | 4x 32KB 4路集合关联 |
L2 Cache | 4x 256KB 8路集合关联 |
L3 Cache | 8MB |
工作站主板 | |
主板型号 | HP Z210 |
主板芯片组 | Intel C206 |
北桥芯片特性 | 2x QPI 24 PCI Express Gen2 Lanes VT-d Gen 2 |
内存子系统 | |
内存控制器 | 集成双通道R-ECC DDR3 1333 |
内存类型 | 2GB ECC DDR3 1066 SDRAM x4 |
存储子系统 | |
磁盘控制器 | Intel RAID Controller |
磁盘控制器规格 | 6x SATA 3Gb/s MatrixRAID 0/1/3/5 |
控制器驱动 | SATA 3Gb/s AHCI w/NCQ |
硬盘型号数量 | Intel Matrix Storage Manager 8.8.0.1009 x64 |
硬盘规格 | 7200RPM 250GB SATA 6Gbps 16MB Cache |
软件环境 | |
操作系统 | Windows Server 2008 R2 Enterprise Edition SP1 x64 |
本次测试我们选择了常见的Windows Server 2008 R2 Enterprise Edition SP1 x64操作系统作为平台,对于服务器测试来说显卡是无关紧要的,所以这里我们给予忽略。
对于服务器的测试,我们主要从产品满足用户应用的角度出发,分功能和性能两个方面来考察。其中性能测试主要体现的是服务器在提供特定服务时的具体的事务处理能力,而在功能上,主要反映的是服务器的可靠性、可扩展性以及易用性等方面的特征。另外,由于不论是最终用户还是处理器厂商,大家对于服务器的能耗问题都给以了很高的重视,为此,我们也继续将能耗作为考察服务器使用成本的重要指标。
▲网络测试环境
贴近应用的性能测试
在实际的应用中,不同的应用条件对于服务器子系统性能的要求也有一定的偏重,因此同一服务器在不同应用中所表现出的性能状况常会出现较大差异。为了能准确反映出服务器的性能状况,我们选择了Web、文件服务器和数据库等三种较为普遍的应用作为测试重点。之所以选用以上三种应用作为性能测试点,这几项应用相对较为普遍是原因之一,此外我们也考虑到这三种应用对于服务器子系统的要求也各有偏重,这样可以更全面的考察服务器各子系统的性能状况。
讲求实用的功能测试
可靠性、可扩展性和易用性同样也是用户关心的内容,但不同的用户对这三方面的需求会有所不同。比如一些中高端服务器产品,在应用中多采用专用机房或托管方式,这时其易用性中的可管理性方面就显得非常重要,远程管理会让工程师及时了解服务器工作状况,实现及时有效的管理和维护。而对于入门级服务器来说,由于很多用户会随着业务的增长会对其处理能力、存储容量有进一步的要求,这时其可扩展性就显得更为重要。可靠性是服务器的一个关键特性,它反映了服务器在应用过程中系统能否确保长时间正常工作,这也是服务器与普通PC之间的重要区别。对于以上三个方面,我们都制定了详细项目进行逐一考察。
兼顾使用成本的能效测试
服务器的售价反映的它是一次性的购买成本,而后期的使用成本是一个不容小视的问题,作为一个要求7×24连续工作的设备,它所产生的电费将是一笔不小的开销。实际上在评判服务器的运算能力时,一定不能将功耗问题视而不见,性能功耗比是衡量服务器运算效能的一个重要指标,测试中我们利用功率分析仪对服务器在加电关机、开机空载以及满负载三种状态下的功耗进行测定,为服务器的能效以及使用成本的估算提供数据支持。
对于服务器性能方面的考察,我们主要分为子系统测试和应用性能测试。在子系统测试中我们按处理器、内存以及磁盘等各个子系统进行了分项测试,当然各子系统的测试成绩也是相辅相成,也需要其它子系统的支持,并非是完全独立的,只是对考察的子系统有所偏重而已。
处理器子系统测试
对服务器处理器子系统的考察,我们主要采用的是业界公认的SPEC CPU 2006测试,该项测试通过对数十个典型应用程序的运行,来测试系统处理器子系统在应用中的整、浮点运算效率。SPEC CPU 2006测试具有很好的开放性,因此在业界为广大用户所接受,可以利用这一公开的测试结果进行系统间运算性能的比较。
此外SiSoftware Sandra也有测试子项可用于处理器运算性能测试,其结果通常以每秒完成的指令数来表现。也可以用作不同处理器间运算效率的比较。
SPEC CPU 2006 v1.1
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。
SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了Intel C++ 11.1.034 Compiler、Intel Fortran 11.1.034 Compiler这两款SPEC CPU 2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(假如只支持SSE3,则使用QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64位的Windows Server 2008 R2 下完成,对于每个运算核心,最低配置1.5GB内存。
内存子系统测试
对于内存子系统的考察,也是利用SiSoftware Sandra来实现,在该软件中有相应组件可进行内存带宽、内存延迟等方面的测试。
SiSoftware Sandra v2011
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3&SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一,SiSoftware Sandra 2010对NUMA架构以及最新的Windows 7/Windows Server 2008 R2提供了更好的支持,此外测试项目和测试结果也有了略微的变化。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。
我们首先使用常见的CPU-Z作为测试工具,看看这款至强E3-1280处理器与普通酷睿产品的区别。
至强E3-1280处理器,主频为3.5GHz
处理器缓存规格
主板使用C206芯片组
双通道8GB DDR3内存
主板内存插槽
大家注意到一个问题。虽然E3-1280采用的是4核心8线程的产品,但是由于配套的内存容量有限——只有8GB,所以这里我们只开启了4核心4线程。并非线程开启得越高越好,在配套的硬件没有达标的情况下,开启过多的线程反映会影响系统的表现。在下面的SPEC CPU测试中,我们可以看到这种差异的明显。
主板北桥,事实上就是整合在处理器中的内存控制器
处理器信息,只开启了4个线程
内存容量为8GB
SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。
首先我们看到的是浮点预算的测试成绩,这里首先声明一个问题——E3-1280测试的时候我们使用的是4核心4线程,这一点大家通过前面的介绍已经知道了。而E3-1275的测试使用的是4核心8线程。看看测试结果,两款处理器的成绩基本持平,但是这其中相差了4个线程,也就是4个虚拟的处理器。用3.5GHz对比3.4GHz,在缺少一半线程的情况下性能还可以持平,充分说明主频对于测试的重要性。
SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。
整数运算的成绩趋势与浮点运算相同,具体的原因我们之前已经介绍了,这里就不多说了。
刚刚我们看到的是不同状态下E3两款处理器的对比,成绩基本持平。如果同样的情况,它们的性能会有多大的差别呢?
SiSoftware Sandra Lite 2011 | ||
产品名称 | 至强E3-1280(关闭) | 至强E3-1275(关闭) |
平台类型 | 单路Sandy Bridge | 单路Sandy Bridge |
Processor Arithmetic Benchmark 处理器算术运算测试 | ||
---|---|---|
Dhrystone ALU | 109.75 GIPS | 106.77GIPS |
Dhrystone ALU vs SPEED | 28.21 MIPS/MHz | 28.86MIPS/MHz |
Whetstone iSSE3 | 51.68 GFLOPS | 49.57 GFLOPS |
Dhrystone iSSE3 vs SPEED | 13.28 MFLOPS/MHz | 13.40MFLOPS/MHz |
Processor Multi-Media Benchmark 处理器多媒体测试 | ||
Multi-Media Int x16 iSSE4.1 | 168MPixel/s | 163.79MPixel/s |
Multi-Media Int x16 iSSE4.1 vs SPEED | 65.33 kPixels/s/MHz | 63.69kPixels/s/MHz |
Multi-Media Float x8 iSSE2 | 114.27MPixel/s | 111.37 MPixel/s |
Multi-Media Float x8 iSSE2 vs SPEED | 44.44 kPixels/s/MHz | 43.3kPixels/s/MHz |
Multi-Media Double x4 iSSE2 | 62MPixel/s | 60.16MPixel/s |
Multi-Media Double x4 iSSE2 vs SPEED | 24.13 kPixels/s/MHz | 23.4kPixels/s/MHz |
Multi-Core Efficiency Benchmark 处理器效能测试 | ||
Inter-Core Bandwidth | 9 GB/s | 8.84GB/s |
Inter-Core Bandwidth vs SPEED | 2.38MB/s/MHz | 2.45MB/s/MHz |
Inter-Core Latency(越小越好) | 43.1ns | 40.2ns |
Inter-Core Latency vs SPEED(越小越好) | 0.11ns/MHz | 0.11ns/MHz |
.NET Arithmetic Benchmark .NET算术运算测试 | ||
Dhrystone .NET | 16.67GIPS | 15.81GIPS |
Dhrystone .NET vs SPEED | 4.28 MIPS/MHz | 4.16MIPS/MHz |
Whetstone .NET | 30GFLOPS | 29.34GFLOPS |
Whetstone .NET vs SPEED | 7.72MFLOPS/MHz | 7.72MFLOPS/MHz |
.NET Multi-Media Benchmark .NET多媒体测试 | ||
Multi-Media Int x1 .NET | 30MPixel/s | 29.17MPixel/s |
Multi-Media Int x1 .NET vs SPEED | 7.70 MPixel/s | 7.68kPixels/s/MHz |
Multi-Media Float x1 .NET | 8.24MPixel/s | 8.16MPixel/s |
Multi-Media Float x1 .NET vs SPEED | 2.21 kPixels/s/MHz | 2.15kPixels/s/MHz |
Multi-Media Double x1 .NET | 16.57MPixel/s | 16.24MPixel/s |
Multi-Media Double x1 .NET vs SPEED | 4.26kPixels/s/MHz | 4.27kPixels/s/MHz |
刚刚看到的SPEC CPU测试主要是针对处理器的硬件能力,也就是说处理器本身的性能而进行的,这个测试除了要求内存容量之外,对于其他内容的要求不高。而这次我们测试的Sisofeware则依托于平台整体进行,因此整机性能对于测试成绩也有很大的影响。
从测试中我们发现,2款测试平台的成绩基本是持平的,不过由于所使用的内存规格略有差别,在内存选项中的成绩有所差距,E3-1280平台还略处下风。整体看来,E3-1280的领先优势并不明显,这完全可以解释为两款处理器在主频上只有0.1GHz的差距。
接下来同样是开启与关闭超线程下的内存/缓存系统测试。
SiSoftware Sandra Lite 2011 | ||
产品名称 | 至强E3-1280(关闭) | 至强E3-1275(关闭) |
平台类型 | 单路Sandy Bridge | 单路Sandy Bridge |
Memory Bandwidth Benchmark 内存带宽测试 | ||
---|---|---|
Int Buff'd iSSE2 Memory Bandwidth | 17.55 GB/s | 17.78GB/s |
Float Buff'd iSSE2 Memory Bandwidth | 17.53GB/s | 17.78GB/s |
Memory Latency Benchmark 内存延迟测试 | ||
Memory(Random Access) Latency (越小越好) | 74.4 ns | 73.2ns |
Speed Factor (越小越好) | 71.30 | 68.30 |
Internal Data Cache | 4clocks | 4clocks |
L2 On-board Cache | 11clocks | 11clocks |
L3 On-board Cache | 35clocks | 35clocks |
Cache and Memory Benchmark 缓存及内存测试 | ||
Cache/Memory Bandwidth | 96.69GB/s | 100.55GB/s |
Cache/Memory Bandwidth vs SPEED | 25.45 MB/s/MHz | 27.09MB/s/MHz |
Speed Factor (越小越好) | 44.50 | 39.10 |
Internal Data Cache | 435.5GB/s | 424.22GB/s |
L2 On-board Cache | 364.87GB/s | 355.42GB/s |
正如我们刚才谈到的,E3-1280平台的软肋在于内存,所以在这个项目中可以看到内存带宽和延迟方面E3-1280都处于下风,这也说明了内存体质对于系统性能的影响。而通过缓存与内存的测试,特别是在缓存测试中(最后2项),可以看到并非是E3-1280处理器本身的问题,差距依然是由内存差异所导致的。不过从这些微小的差距也看出,在主频接近的情况下,两款平台的性能的确是在伯仲之间。
下面我们进行的是CineBench项目的测试。CineBench测试中有一个处理器核心能效比的内容,我们相信这个项目更可以看出开关超线程之后的性能差距。
CineBench R10 | ||
产品名称 | 至强E3-1280(关闭) | 至强E3-1275(关闭) |
平台类型 | 单路Sandy Bridge | 单路Sandy Bridge |
CPU Benchmark | ||
---|---|---|
Rendering (1 CPU) | 6348 CB-CPU | 6188 CB-CPU |
Rendering (x CPU) | 21192 CB-CPU | 20886 CB-CPU |
Multiprocessor Speedup | 3.34x | 3.38x |
OpenGL Benchmark | ||
OpenGL Standard | 335 CB-GFX | 336 CB-GFX |
CineBench R11.5 | ||
产品名称 | 至强E3-1280(关闭) | 至强E3-1275(关闭) |
平台类型 | 单路Sandy Bridge | 单路Sandy Bridge |
CPU Benchmark | ||
---|---|---|
Rendering (1 CPU) | 1.52 pts | 1.42 pts |
Rendering (x CPU) | 6.84 pts | 5.59 pts |
MP Ratio | 4.51x | 3.95x |
OpenGL Benchmark | ||
OpenGL | - | - |
虽然内存性能对E3-1280平台造成了细小的影响,不过从成绩来看凭借着主频的优势E3-1280已然是取得了一点点领先。
NetBench 7.03 Ent_dm.tst测试脚本模拟的是企业级文件服务器应用,它不但要求被测服务器的磁盘子系统可以提供足够的吞吐量,还需要其具有较高的IO处理能力,并且需要较为平衡的读取能力和写入能力。
NetBench吞吐量测试成绩
IO相应时间测试成绩
看过了许多对比,我们来看看这款E3系列的优异产品在实际应用中的表现如何。首先是文件服务器测试,这个测试对于服务器应用为FTP或者其他文件存储设备具备较大的指导意义,从这些数据上我们可以分析出服务器能够承受的最大吞吐量及用户数量。
需要说明的是,本次E3-1280的测试平台使用的是单块千兆网卡,这势必对性能造成一定的影响。从结果来看,当用户数量达到16个的时候,服务器可以实现300Mbps的吞吐量,实际上也就是不到40MB/s。而看看相应时间,随着人数的增加,相应时间成为一条直线,在面对动辄几十万的IO时,这样的超过1ms的相应时间都会对用户带来漫长的等待。
从这个分析中可以看出,即便是优异的E3处理器,已然是为单路服务器而设定的,只能应对小型应用的需要,人数的增加会使处理器的负荷加倍,基本上E3并不适合应用做FTP或者其他文件服务器使用。
我们在被测服务器上安装了Microsoft SQL 2005 SP1,按照测试要求建立了数据库。BF在测试之前会在数据库中生成9个表,其中包括4个500万行的表格,每行包括100字节的数据,因此每个表格容量大约是476MB,整个数据库容量为1.86GB。我们用60个客户端模拟1500个用户,在这个数据库中进行查询、添加、删除、修改等操作。
SQL2005数据库性能测试
数据库测试是一个综合性的测试,我们看带E3-1280的峰值成绩可以达到105000 TPS左右,之后随着人数的增加稳定在100000 TPS。这样的成绩对于E3处理器来说还是不错的,起码比刚才的文件服务器测试要强许多。毕竟这样的成绩已经超越了单路的X3400系列或者是Nehalem-EP系列,直逼Westmere-EP的结果。
【IT168 评测中心】Tick-Tock战略的出现,使Intel避免了在同一年更新制程和微架构,有效的规避了新平台、新制程出现所带来的商业风险。而将新品首先试水桌面平台,进而在推广到服务器平台也是非常明智的举措,这次Sandy Bridge处理器就充分说明了这个问题。事实上,由于配套芯片组的问题,Sandy Bridge处理器在推广之初就遭遇挫折,幸好Intel的反应够快,在服务器平台上我们并没有发现这样的问题。而随着至强Sandy Bridge处理器的推出,也标志着Intel在桌面和服务器两个平台上全面转向了新的微架构,Tock时代终于到来了。
至强Sandy Bridge处理器终于现身了
Sandy Bridge处理器相比上一代的产品有了非常大的改进,包括AVX指令集、环形总线架构、全新System Agent系统助手、革命性的整合GPU等内容。事实上,Sandy Bridge最大的特征在于全32nm整合CPU和GPU,但对于服务器来说,GPU作为多媒体工具来说并没有实际的用处,除非可以通过GPU加速运算。
我们再来看看性能。至强E3系列在性能上有了大幅度的提升,相比上一代的X3400甚至是双路应用的Nehalem-EP来说都有着不少的性能优势。不过在我们本次的对比中发现,主频已然是处理器赖以生存的命脉,同样规格的处理器,主频的差异决定了性能差异。
对于至强系列来说,E3仅仅是低端的入门版本,因此在网络测试中,特别是NetBench测试中我们并没有看到E3有明显的表现,这种面对小型企业开发的单路处理器仅仅能够应付小范围的部门应用。不过俗子和未来E5系列,也就是双路Sandy Bridge处理器的出现,我们相信,在服务器领域可以看到越来越多的、性能更为出色的产品。