服务器 频道

SNB跨入双路时代 至强E5服务器4大猜想

        【IT168 技术】如今距离英特尔发布下一代至强处理器整整还有1个月的时间。作为万众期待的产品,至强E5面向双路及四路市场,恰巧迎合了主流用户的消费。对比上一代的Westmere-EP和去年发布的单路产品E3,至强E5目前已知采用了SandyBridge架构,代号为SandyBridge-EP。从血缘上看,至强E5与至强E3的关系会更近一些,相比之下Westmere-EP架构已经被完全放弃了。因此,本次我们也将结合至强E3的一些新特征,猜测这款即将发布的双路产品会有怎样的规格趋势。

Intel至强Sandy Bridge处理器首发评测
Intel Sandy Bridge微架构32nm至强处理器

  至强E3处理器规格介绍:从至强E3来看,至强Sandy Bridge处理器的最大变化就是采用了环形总线架构,这也是Intel在继Nehalem和Westmere之后继续使用环形总线的架构。

至强E3新特性:Sandy Bridge架构解析新一代的环形总线,不一样的核外架构
Sandy Bridge核外架构图

  Sandy Bridge处理器使用了新的环形总线设计。事实上从之前的Nehalem开始,Intel就转向了融合核心的理念。在Nehalem当中,Intel将内存控制器融入其中,而在接下来的Westmere当中,GPU也作为融入的对象而出现(只是那时候的GPU还仅仅使用的是45nm工艺)。在之前的8核心Nehalem-EX上,我们就看到了环形总线的身影,不过当时的产品在性能和功耗上并没有表现出明显的优势。

新一代的环形总线,不一样的风景

  本次Sandy Bridge使用的是重新设计的核外结构,全新的Ring Bus环形总线更能够较好的展示出Sandy Bridge的真实性能。通过上图大家可以看到,Ring Bus环形总线连接各个CPU核心、LLC缓存(L3缓存)、融合进去的GPU以及System Agent(系统北桥)等部分。

  环形总线的存在,可以大大减少核心访问三级缓存的周期。在以往的产品中,多个核心共享一个三级缓存,需要访问的话必须先经过流水线发送请求,在进行优先级排序之后才能进行。新的环形总线将三级缓存分割成了若干部分,借助于每个站台,核心可以快速的访问LLC。LLC小容量缓存的延迟优势与核心频率一致性在这里也就体现了出来,这就使得Sandy Bridge的周期相比以往产品有所缩减,从原来的35-40个缩减到了26-31个。同时,由于每个核心与LLC之间可以提供若干带宽,使得Sandy Bridge的整体带宽也提升了4倍。

  至强E5平台猜想:既然至强E5依然延续了Sandy Bridge的架构,所以在规格上相比E3来说可能不会有太多的变化。但由于定位的问题,至强E3不存在与其他处理器互通的压力(单路处理器),而至强E5则需要考虑到这个问题,因此在内部设计上或许会有细节上的不同。同时,出于多处理器及其他部件交互的考虑,它们之间通信方式和带宽也成为了瓶颈,原有的QPI总线或许还会进一步提升,从现有的6.4GT/s提升到更多也是有可能的。

  至强E3处理器规格介绍:至强E3另外一个重大改进要算是增加了全新的AVX指令集——Advanced Vector Extensions,高级矢量扩展。这个指令集的增加是X86处理器中的重要内容,不仅仅是提供了更为良好的性能,同时也是对现有指令集的整合与优化。

新加入AVX指令集,256位向量计算

  介绍AVX指令集之前,先要引入一个向量的概念。所谓向量,就是多个标量的组合,通常意味着SIMD(单指令多数据),就是一个指令同时对多个数据进行处理,达到很大的吞吐量。早在1996年,Intel就在X86架构上应用了MMX(多媒体扩展)指令集,那时候还仅仅是64位向量。到了1999年,SSE(流式SIMD扩展)指令集出现了,这时候的向量提升到了128位。

新加入AVX指令集,256位向量计算

  随着E3处理器的出现,Sandy Bridge的AVX将向量化宽度扩展到了256位,原有的16个128位XMM寄存器扩充为256位的YMM寄存器,可以同时处理8个单精度浮点数和4个双精度浮点数。换句话说,Sandy Bridge的浮点吞吐能力可以达到前代的两倍。不过现在,AVX的256位向量还仅仅能够支持浮点运算。不过AVX的特别之处在于,它可以应用128位的SIMD整数和SIMD浮点路径。

新加入AVX指令集,256位向量计算

   AVX指令集是和Sandy Bridge微架构紧密结合的,因此,微架构的浮点寄存器也要从128位扩展到256位,此外,Load单元也要适应一次载入256位的能力,Sandy Bridge没有直接扩展原有Load单元的位宽,而是通过增加了一个Load单元来达到256bit Load的能力。

新加入AVX指令集,256位向量计算
新加入AVX指令集,256位向量计算

   在进行新性能扩展的同时,AVX指令集的出现对于原有的X86指令集也进行了优化与重新组合——这主要源于AVX指令集新的操作码编码方式。AVX指令集的编码方式叫做VEX(Vector Extension),其主要用途是缩短指令长度,降低无谓的代码冗余,并且也降低了对解码器的压力,实现的方式也很特别——压缩各式各样的Prefix前缀,集中到一个比较固定的字段中,从而达到了精简指令集的目的。

  至强E5平台猜想:AVX指令集是一个非常重要的内容,同时也是SandyBridge的精华所在。在提升到256bit之后,增加的向量位宽能够更好的帮助处理器运行。因此在新一代的至强E5当中,这部分指令集或许还会得到进一步的优化,比如推出V2.0版本之类。

  至强E3处理器规格介绍:Sandy Bridge核一个特色的改进在于整合GPU。作为Tioc-Tock时钟式的重要内容,其实从Wesrtmere 32nm处理器开始,Intel就在处理器中整合了GPU,不过仅仅是将二者封装在一个Die上。因为45nm的GPU与32nm的CPU在制程上不一致,最重要的是关键的内存控制器被放在了45nm的GPU当中,造成了32nm Westmere性能并没有想象的那么出色。而在Tock中,Sandy Bridge的出现解决了这一问题,特别是将GPU整合在了环形总线之内,实现了二者真正的融合。

革命性的整合GPU,32nm终成正果革命性的整合GPU,32nm终成正果

  SandyBridge GPU有自己的电源岛和时钟域,也支持Turbo Boost技术,可以独立加速或降频,并共享三级缓存。显卡驱动会控制访问三级缓存的权限,甚至可以限制GPU使用多少缓存。将图形数据放在缓存里就不用绕道去遥远而“缓慢”的内存了,这对提升性能、降低功耗都大有裨益。

  至强E5平台猜想:整合GPU是至强E3的一大特色,真正的原生GPU从这里开始出现。

 

至强E5服务器猜想之三:整合GPU

  不过从至强E3的规格来看,已经有整合GPU的处理器出现,结尾数字为5的型号都是整合GPU的产品。因此在本次E5处理器中,虽然主要面向的是服务器应用,但难免会有专业工作站的产品。而从Intel一贯的做法来看,至强Nehalem-EP系列的至强W5580也是面向工作站的应用,因此本次我们预测E5系列中依然会有整合GPU的产品出现,但看起来至强E3也只有2款产品,看来E5所提供的型号也不会很多。

  至强E3处理器规格介绍:从至强E3处理器开始,Intel使用了一个全新的概念——System Agent(系统助手)。事实上,System Agent也就是我们之前所说的核外架构,而在以往的名称中,我们亲切的称之为系统北桥。

比智能更智能SandyBridge架构全解析
系统助手

  System Agent包含了比以往产品更为丰富的功能,包括整合内存控制器、支持16条PCIE2.0通道的PCIE控制器、图形处理器(GPU)、电源控制单元(PCU)以及DMI总线的IO接口。

  至强E5平台猜想:刚刚在谈到环形总线的时候,我们预测E3与E5并不会有太大的变化,但是核外架构方面,受限于双路或多路处理器的影响,在对外互联的时候可能会增加额外的总线或者处理单元,这样才能保证处理器随时实现高效的运行。而在E3中,因为只是单路应用,这部分内容会相应的简化。

  本次,我们针对即将推出的至强E5平台进行了4点大胆的猜想,这些猜想都基于已有的E3系列完成。我们认为,至强E5在规格上与E3并不会有太大的出入,但因为面向的市场不同,双路甚至多路应用需要处理器之间更好的协调,因此E5的特性也将保持在这些方面。

  今天,距离英特尔发布至强E5已经剩下刚好1个月的时间。回顾之前的几代至强产品,其逐渐强大的性能和逐步降低的功耗让我们对至强刮目相看,同时也充满了信心。如今的RISC与X86的大战更是说明X86架构,特别是英特尔的产品已经具备了相当的实力与RISC抗衡。在这样的情况下,新款至强E5又将带来怎样的惊喜呢?我们拭目以待。

  2012年3月7日,至强SandyBridge-EP,it's coming!

1
相关文章