服务器 频道

云底层的智能 解析英特尔至强E5处理器

  【IT168 技术】按照著名的Tick-Tock战略,英特尔在3月初发布了至强E5-2600/1600系列处理器。一代的至强E5-2600系列还是沿用了之前单路至强E3所采用的SandyBridge架构,但是因为E5是面向双路应用的产品,所以在命名上叫做“SandyBridge-EP”。作为英特尔的主力产品,至强E5-2600/1600系列处理器的主要方向就是提供更好的云服务及高性能计算环境。下面,我们就从技术及应用的角度介绍一下至强E5处理器作为云计算平台计算的基础所具备的种种优势特性。

  四大技术革新助力云计算基础架构

  对于云计算应用来说,强大的性能是保证有效应用的关键。本次英特尔至强E5系列处理器的推出正是大幅度提升了处理器计算能力,从而实现了更快的运行速度和更大的处理能力。具体说来,至强E5系列处理器相比上一代的至强5600系列来说主要有以下4方面的改进。


至强E5-2600处理器架构介绍

  图中为我们传达了4个重要的信息——8核心、QPI 8.0GT/S通道、DDR3高频内存的支持、PCI-E 3.0互联互通。下面我们就一一来解释这4个要素。

  8核心处理器——在上一代的Westmere-EP处理器中,某些高端的型号采用的是6核心架构,这也是英特尔在双路处理器中提供的优异核心数量。当然借助于超线程的支持,这个核心数量的数字可以翻一番,但是从物理的角度来说英特尔在E5-2600之前一直是以6核心的产品担当重任。

  如今发展到了E5-2600系列,处理器的核心增加到了8个。这个不仅仅是简单的数量提升,要知道在同样适用SandyBridge架构的E3处理器中,核心数量只有4个。更多的物理核心可以提供更好的计算性能,当然对于时下流行的虚拟化来说,多核心的优势更为明显。

  第二条QPI通道——同样对比上一代的Westmere-EP处理器,英特尔自从在Nehalem-EP中增加了QPI这个概念之后,对于性能提升有了极大的飞跃。而这次在E5-2600中,通道的数量增加到了2条,而且带宽也提升到了8GT/s,之前是6.4GT/s。换句话说,同样是基于SandyBridge架构,双路的产品比单路产品增加了更多的处理器互通功能,这会使得两个或多个处理器之前的协调更为顺畅,言外之意就是性能也会随之提升。

  DDR3高频内存的支持——从Nehalem-EP开始,英特尔支持三通道的DDR3内存,那时候的频率还是1066MHz。到了Westmere-EP这代,三通道的内存支持没有变,但是频率提升到了1333MHz。如今,至强E5-2600这代产品出现了变化。首先是对于内存频率的支持达到了1600MHz,这还不是最重要的——至强E5-2600系列支持4通道内存,最大内存插槽数量也从原来的18条增加到了24条。从数量来说,3*6和4*6的看起来是多了不少,但是能够实现的通道组数量是相同的。当然,在这一代的内存上也有了明显的变化,这一点我们随后会提到。

  PCI-E 3.0互联——英特尔在至强E5处理器中增加了对于PCI-E 3.0规范的支持,但是这一代的主板还仅能提供PCI-E 2.0的接口。在可以预见的下一代IvyBridge处理器中,英特尔将全面支持PCI-E 3.0规格。这部分我们在后面会有详细的解释,这里先给大家留下一个印象。

${PageNumber}

  刚刚我们看过了至强E5-2600系列处理器的新改进,这还远远不够。我们需要了解的是E5-2600处理器是如何运行的,具体来说就是如何与其他的设备相沟通。这部分我们来看看下面的一张图。

Romley平台构建云应用大本营
至强E5-2600处理器是如何运行的

  首先来解释一个名词——Romley。Romley是本次至强E5处理器的平台名称,是围绕着至强E5处理器而开发的芯片组、主板以及相关技术组成的解决方案平台。因此,这里我们就可以看到这个平台在运行中的一些特性。

  基本上处理器部分包括了我们刚刚介绍的内容,我们可以从图示中清楚的看到处理器所提供的40条PCI-E 3.0通道之外,在第二颗处理器上还有1条PCI-E 2.0的通道(黄色部分),第一颗处理器有粉色部分都与芯片组相连。

  另外我们看到了两个英特尔一直力推的内容,Node Manager节点管理器和Data Center Manager数据中心管理软件。对于云应用来说,在数据中心中管理成千上万台服务器可不是那么容易的事情。这两款软件可以帮助系统维护人员尽可能降低维护难度,节省维护成本和时间。

${PageNumber}

  刚刚我们看到的还是以处理器为主,包括如何与外部互通的内容。那么处理器内部是如何通信的呢?这里我们就不得不提及它的核内与核外架构。

双向环形总线与核内外架构
至强E5-2600处理器核内与核外架构

  这里我们又看到了“圆环套圆环”的设计,也就是从SandyBridge开始的环形总线。与至强E3所提供的类似,这次的环形总线还是分为内外两条,在核心数量上增加到了8个。图中剪刀的部分就是至强E5相比E3来说增加的4个核心。

  和E3处理器类似,Ring Bus环形总线更能够较好的展示出Sandy Bridge的真实性能。通过上图大家可以看到,Ring Bus环形总线连接各个CPU核心、LLC缓存(L3缓存)、融合进去的GPU以及System Agent(系统北桥)等部分。

  Ring Bus环形总线由四条独立的环组成,分别是数据环Data Ring、请求环Request Ring、响应环Acknowledge Ring和侦听环Snoop Ring。借助于环形总线,CPU与GPU可以共享LLC缓存,将大幅度提升GPU性能。

  在这个环形总线上,分布着多个Ring Stop,也就是俗称的“站台”。这个“站台”在每个CPU/LLC块上具有两个连接点。环形总线的存在,可以大大减少核心访问三级缓存的周期。在以往的产品中,多个核心共享一个三级缓存,需要访问的话必须先经过流水线发送请求,在进行优先级排序之后才能进行。新的环形总线将三级缓存分割成了若干部分,借助于每个站台,核心可以快速的访问LLC。

${PageNumber}

  在至强E5中,还沿用了SandyBridge架构的256位指令集。这部分其实在单路至强E3中就已经谈过,相比原来的128位指令集来说,256位指令集在性能上更为出色。有关这部分的内容我们可以看看E3处理器中是如何介绍的。

深度优化的AVX指令集
256bit指令集,让好事变得更好

  Sandy Bridge的AVX将向量化宽度扩展到了256位,原有的16个128位XMM寄存器扩充为256位的YMM寄存  器,可以同时处理8个单精度浮点数和4个双精度浮点数。换句话说,Sandy Bridge的浮点吞吐能力可以达到前代的两倍。不过现在,AVX的256位向量还仅仅能够支持浮点运算。不过AVX的特别之处在于,它可以应用128位的SIMD整数和SIMD浮点路径。

  AVX指令集是和Sandy Bridge微架构紧密结合的,因此,微架构的浮点寄存器也要从128位扩展到256位,此外,Load单元也要适应一次载入256位的能力,Sandy Bridge没有直接扩展原有Load单元的位宽,而是通过增加了一个Load单元来达到256bit Load的能力。

  在进行新性能扩展的同时,AVX指令集的出现对于原有的X86指令集也进行了优化与重新组合——这主要源于AVX指令集新的操作码编码方式。AVX指令集的编码方式叫做VEX(Vector Extension),其主要用途是缩短指令长度,降低无谓的代码冗余,并且也降低了对解码器的压力,实现的方式也很特别——压缩各式各样的Prefix前缀,集中到一个比较固定的字段中,从而达到了精简指令集的目的。

${PageNumber}

  刚刚我们在介绍E5-2600的时候,曾经提到过它的2个重大改进,就是双QPI通道和PCI-E 3.0支持。下面,我们就来详细介绍一下这两部分内容是怎么回事儿。

QPI增大带宽、PCI-E 3.0提供直连
双QPI通道示意图

  这里我们看到的是两个QPI管理模块。通过这两个模块,我们可以看到数据实现了同时互通,QPI具备了20条通道,同时可以动态分配10条通道。QPI通过环形总线与外界互通,达到了传输指令和数据的目的。

QPI增大带宽、PCI-E 3.0提供直连
PCI-E 3.0示意图

  我们可以看到,处理器的核外结构部分提供了PCI-E 3.0的功能,而相比上一代的PCI-E 2.0来说,它可以实现带宽数量的双倍提升,从4GT/s提升到8GT/s。更重要的是,这些通道之间可以随意组合,我们看到在PCI-E 3.0提供的40个通道中,每16个通道可以实现2个X8或者4个X4功能,这样对于有效分配带宽非常有帮助,因为并非所有的设备都需要X16通道才能支持。

  由此看来,PCI-E 3.0提供了一种灵活的模式,大大增加了带宽的利用率。这就使得所有的PCI-E设备都可以实现高速互联,同时也让之前难以普及的PCI-E外界设备得到了更大的发展空间(比如PCI-E SSD固态硬盘)。我们在这里也看到了PCI-E 2.0的身影,作为低速通道,它更大的作用是实现一种补充,而且也只有X4一种规格。

${PageNumber}

  俗话说好马配好鞍,刚刚我们介绍了许多处理器相关的内容,现在我们将视角转移到芯片组上来,看看SandyBridge-EP的芯片组有哪些变化。这次至强E5-2600搭载的芯片组名称为C600。

至强E5系列处理器的豪华座驾
英特尔C600芯片组示意图

  我们来看看C600芯片组的支持设备图。首先我们发现,它通过PCI-E 2.0与处理器相连,其次就是我们看到了PCI-E 2.0的字样,同样这也是作为PCI-E 3.0的补充而存在的。

  除了上面介绍的2内容之外,还有一个内容也是要注意的。在磁盘方面,C600芯片组提供了SATA接口下3Gbps和6Gbps两种磁盘的支持,但是板载的SAS接口却只能支持到最大8个3Gbps接口。如今许多SAS磁盘都是基于6Gbps接口的,也就是说用户需要使用额外的阵列卡才行。

${PageNumber}

  虽然没有提供SAS 6Gbps的支持,但是本次发布的E5-2600系列在I/O方面也有独到之处。它有一个名为Data Direct I/O的特色技术(以下简称为DDIO),这项技术可以帮助处理器更快速、更智能的选择最短路线来读写数据,从而提升I/O性能。

DDIO功能大幅提升I/O速度DDIO功能大幅提升I/O速度

  通过进出两个方向的对比,我们惊奇的发现如今数据的读写已经不需要像以前那样经过内存才能完成。从LLC可以直接传输到核心中,这样就节省了繁琐的操作步骤,提供了更短的相应时间。之前需要4-5步的操作如今可以简化到3步完成,流水线少了一环,自然也更加快捷。

${PageNumber}

  如今节能是大家都在谈论的话题,而且数据中心应用的能耗是巨大的,因此在这一代的至强E5-2600系列中特别谈到了如何节能的问题。我们先来看看英特尔有什么兼顾性能和节能的解决办法。

至强E5系列处理器帮助数据中心更节能
动态调整性能

  在E5-2600系列中,英特尔提出了一个观点,就是如何使得兼顾性能的同时保证节能。这里有一个动态开关的概念。我们看到图中的3条线,绿色代表了非常好的性能、蓝色代表了均衡性能(提供动态开关),而黄色代表了均衡性能(不提供动态开关)。

  在开启了动态开关之后,我们会发现之前处于下风的均衡性能会有一个明显的提升,其吞吐量最终与非常好的性能重合了。也就是说动态开关可以保证服务器即便在非最高性能运行的情况下,还可以实现高可用性,这在之前是没有的,也是一个新的突破。

至强E5系列处理器帮助数据中心更节能
LR内存运行示意图

  另外一个是又第三方内存厂商提供的。如今在强调虚拟化的同时,用户也在不断增加内存,这势必对服务器来说也是不小的能耗负担。LR内存的出现就是为了解决这一问题,它本身是低能耗的内存,而且相比传统的R-ECC内存来说我们可以明显的看到它通过一个缓存芯片实现了更快速的数据读写方式,这也是它性能提升的原因所在。

  结合高速计算与更低能耗,至强E5-2600/1600系列处理器提供了硬件与软件多方面的改进。硬件上更快速的SandyBridge核心帮助服务器实现更大的性能,而动态开关和低功耗内存的支持帮助服务器可以实现更低的功耗。而在数据中心层面,英特尔节点管理器和数据中心管理器都可以帮助云应用实现更高效和更节能。总结我们谈到的至强E5系列处理器诸多特点,我们发现它实现了更高的性能和更低的功耗,作为新一代的产品来说实现了真正实现了对于上一代的替代,为当今数据中心及云应用环境提供了平台基础。

0
相关文章