在核心数量逐渐提升的情况下,处理器对存储的压力也越来越大,特别是带超线程的Nehalem-EX,将会有16个硬件线程同时存取共享的L3,以及内存。使用通常的Crossbar交叉开关总线的话,不同硬件线程存取操作的冲突会比较明显,这会增加存取的延迟,影响系统的工作效率(这也是Xeon版Nehalem的Uncore工作频率要比桌面版Core i7要高的缘故),并且在核心数量越来越多的情况下,使用交叉开关将会变得非常昂贵(开关的数量以平方数增长)。增加通常的Uncore工作频率对此有一定效果,不过Uncore频率也不是可以无限制地提升的,在架构上解决这个问题是最好的是:使用其他的总线架构。
Nehalem-EX多个核心/L3块之间的互联通过一个环形总线来完成,而通常的Nehalem处理器则是通过传统的Crossbar来进行,在Intel 32nm Westmere-EP处理器首发评测中我们对Westmere-EP进行的测试结果表明, 六核Westmere-EP比四核Nehalem-EP的L3缓存内存潜伏期有所上升,内存带宽也下降了,这表现了传统架构在核心数量变多、访问冲突增加之后的效应。要想达到8个或者更多的核心数量,最好是:使用其他的总线架构,就像Nehalem-EX这样。
新的总线架构同时改变了Nehalem-EX的L3架构,在传统Nehalem上,CPU核心通过交叉开关来连接L3,但是Nehalem-EX上,这个交叉开关变成了一个环状总线,而同时L3缓存块和CPU核心的连接也更加紧密,通过bypass结构,可以实现0延迟的访问L3(当然,是指Core - L3无延迟)。Nehalem-EX的环状总线由十个节点(Ring Stop)组成,其中8个是连接到Core/L3 Cache的节点,叫做Cbox,还有两个是Sbox,用来连接内存控制器和外部的QPI总线,这个环状总线是双向的,运行在Uncore频率,数据从一个节点传输到邻近节点只需要一个Uncore时钟周期,总带宽可以达到1.2TB(0.8TB/s数据信号,0.4TB/s控制信号)。环状总线的优点是到不同区域具有预知的、恒定的延迟,到达最远的节点只需要5个时钟周期。
在设计上,Nehalem-EX晶圆基本上是有水平和垂直两条对称轴的,这样可以降低布线的复杂程度
和QPI一样,Nehalem-EX的环状总线并不是一个串行总线,它们是并行的,在每一个环站上,大约有近1000个信号在传输,峰值信号带宽可以达到3TB/s,1.2TB/s属于持续的带宽。
处在M7层的纵向信号线具有较低的电容值以提升传输速率,这些信号线具有1.5倍的宽度,两个环的间距是通常布线的3倍,与地线的距离也是通常的1.5倍
纵向数据通道使用的双端口寄存器文件允许同时对CPU核心和L3 Cache的写入操作
为了降低功耗,数据环使用了Clock Gating技术,只有传输数据的时候才有时钟产生,这可以大为降低总线的闲置功耗
为了弥补Clock Gating只能在闲置时生效的缺点,Nehalem-EX还使用编码解码技术,可以在大中负荷下具有适中的能耗节约