服务器 频道

ISSCC 2010:Nehalem-EX的环状总线架构

编者:一年一度的IEEE(Institute of Electrical and Electronics Engineers,国际电气电子工程师学会)ISSCC(International Solid-State Circuits Conference,国际固体电路会议)是全球半导体业界的盛会,被誉为集成电路行业的奥林匹克大会,在国际学术、产业界都受到极大关注,大会上的发布内容通常代表了未来半导体业界3~6年内的发展方向。在会上,半导体业界的巨头们会竞相登台展示自己正在研发的新技术。

  【IT168评测中心】本次ISSCC 2010上,除了Westmere-EP处理器的《Westmere: A Family of 32nm IA Processors》论文之外,Intel也给出一篇关于Nehalem-EX处理器的《A 1.2 TBs On-Chip Ring Interconnect for 45nm 8-Core Enterprise Xeon® Processor》,笔者曾经撰写过关于Nehalem-EX的《透视八核心至强Nehalem-EX处理器解析》,它实际上基于ISSCC 2009上的《A 45nm 8-Core Enterprise Xeon® Processor》论文。


ISSCC 2010

  人们已经熟知,Nehalem-EX将会是x86历史上第一个具有八个核心的处理器,比起家族的老大,要多出整整一倍,比起将要早几天推出的Westmere-EP,也要多出两个核心上。此外,Nehalem-EX是一个“多路”处理器,具备了建立四路、八路乃至更多路计算机系统的能力,最后,Nehalem-EX具备了通常x86系统所不具有的RAS(可靠性、可用性、稳定性)特性,总的来说,和以往的x86处理器都不相同,这也是它作为一个45nm处理器,却要略晚于32nm Westmere-EP、晚一年于45nm Nehalem-EP发布的原因。


来源:ISSCC2009 A 45nm 8-Core Enterprise Xeon® Processor

  《A 1.2 TBs On-Chip Ring Interconnect for 45nm 8-Core Enterprise Xeon® Processor》顾名思义就是《45nm八核心企业级至强处理器的1.2TB片内环状互联架构》,它说的是Nehalem-EX在处理器架构上和传统Nehalem所不相同的地方。Nehalem-EP和Westmere-EP都没有采用这种设计,下面我们就来看看这个架构。


Nehalem-EX处理器晶圆图

 

  和其他Nehalem都一样,Nehalem-EX的生产工艺也是45nm CMOS工艺,采用了金属栅极High-K电介质晶体管以及9层铜互联技术,总晶体管数量则为2.3 Billion——23亿,是4核心Bloomfield的三倍以上。此外,虽然晶体管数量剧增,Nehalem-EX的面积却只提升了约2.4倍左右。除了核心数量是Bloomfield的两倍之外,额外加入的晶体管被用在了更多数量的L3上,QPI/IMC以及中央系统逻辑(Hub和Router等)的变化不算太大。

  除了核心数量及配套L3、QPI等的增加之外,和Nehalem相比,Nehalem-EX特别应用了一个环状互联架构,它是用来干什么的呢?它用来连接多个Core/L3缓存块,以及连接到内存控制器和QPI总线。如下图所示,通常的Nehalem使用的是Uncore总线,它是一种类似交叉开关的结构:


Nehalem Microarchitecture,经笔者整理,右上角的Arbiter to Uncore就是连接到处理器中央的交叉开关

  在核心数量逐渐提升的情况下,处理器对存储的压力也越来越大,特别是带超线程的Nehalem-EX,将会有16个硬件线程同时存取共享的L3,以及内存。使用通常的交叉开关总线的话,不同硬件线程存取操作的冲突会很明显,这会增加存取的延迟,影响系统的工作效率(这也是Xeon版Nehalem的Uncore工作频率要比桌面版Core i7要高的缘故),并且在核心数量越来越多的情况下,使用交叉开关将会变得非常昂贵(开关的数量以平方数增长)。增加通常的Uncore工作频率对此有一定效果,不过Uncore频率也不是可以无限制地提升的,在架构上解决这个问题是最好的是:使用其他的总线架构。


Nehalem-EX:Ring Interconnet

  新的总线架构同时改变了Nehalem-EX的L3架构,在传统Nehalem上,CPU核心通过交叉开关来连接L3,但是Nehalem-EX上,这个交叉开关变成了一个环状总线,而同时L3缓存块和CPU核心的连接也更加紧密,通过bypass结构,可以实现0延迟的访问L3(当然,是指Core - L3无延迟)。Nehalem-EX的环状总线由十个节点(Ring Stop)组成,其中8个是连接到Core/L3 Cache的节点,叫做Cbox,还有两个是Sbox,用来连接内存控制器和外部的QPI总线,这个环状总线是双向的,运行在Uncore频率,数据从一个节点传输到邻近节点只需要一个Uncore时钟周期,总带宽可以达到1.2TB(0.8TB/s数据信号,0.4TB/s控制信号)。环状总线的优点是到不同区域具有预知的、恒定的延迟,到达最远的节点只需要5个时钟周期。

  在设计上,Nehalem-EX晶圆基本上是有水平和垂直两条对称轴的,这样可以降低布线的复杂程度。

  和QPI一样,Nehalem-EX的环状总线并不是一个串行总线,它们是并行的,在每一个环站上,大约有近1000个信号在传输,峰值信号带宽可以达到3TB/s,1.2TB/s属于持续的带宽。


处在M7层的纵向信号线具有较低的电容值以提升传输速率,这些信号线具有1.5倍的宽度,两个环的间距是通常布线的3倍,与地线的距离也是通常的1.5倍


纵向数据通道使用的双端口寄存器文件允许同时对CPU核心和L3 Cache的写入操作


为了降低功耗,数据环使用了Clock Gating技术,只有传输数据的时候才有时钟产生,这可以大为降低总线的闲置功耗


为了弥补Clock Gating只能在闲置时生效的缺点,Nehalem-EX还是用编码解码技术,可以在大中负荷下具有适中的能耗节约

  总的来说,为了面对多核心、多路CPU环境下的L3、内存和QPI同步压力,Nehalem-EX使用了和Nehalem-EP等不同的片内互联架构,通过使用环状总线,提供了一个高带宽、低延迟、低功耗的解决方案。对于Nehalem-EX的更进一步的架构信息,请继续关注我们计划在Nehalem-EX发布当天的文章:)

透视八核心至强Nehalem-EX处理器解析/《A 45nm 8-Core Enterprise Xeon® Processor

ISSCC 2010:深入32nm Westmere处理器/《Westmere: A Family of 32nm IA Processors

ISSCC 2010:Intel 8T SRAM晶体管技术/《PVT-and-Aging Adaptive Wordline Boosting for 8T SRAM Power Reduction

0
相关文章