服务器 频道

Intel 32nm Westmere-EP处理器首发评测

  在ISSCC(International Solid-State Circuits Conference,国际固体电路会议)上,Intel的《Westmere: A Family of 32nm IA Processors》还披露了更多关于Westmere处理器技术——前面的32nm工艺更接近于物理技术,而ISSCC这篇论文更接近于半倒体电路技术。概括起来,本页值得关注的特性有三点:

1、Westmere扩展的Power Gating功率门限技术可以应用到Uncore/L3上,降低了功耗
2、Westmere的L3使用了DECTED(三位错误检测-双位错误恢复)ECC技术,提高了成品率(Yield)和可靠性(Reliability)
3、Westmere新的内存驱动单元可以支持1.50V/1.35V的低电压内存,同时降低CPU以及内存子系统的功耗 


Westmere-EP晶圆图


Westmere-EP晶圆图

  首先,和Nehalem相比,Westmere改进了Power Gates技术,Westmere的Power Gates不仅仅限于关闭处理器核心,它还扩展到了可以关闭L3缓存以及Uncore上的全局队列(Westmere晶圆上正中央下方的部分)。在所有核心都被Power Gate之后,L3缓存将会被部分刷新并且Uncore部分的供电将会线形地降低,L3/Uncore的漏电楼将得到降低。在最限制的情况下,L3缓存和全局队列将会全部刷新并Power Gated关闭,只有一块附属于L3的SRAM会用来保持所有核心的关键状态。

  和Nehalem一样,Westmere也使用了Long-Le晶体管(Long Channel长沟道晶体管)技术,Nehalem-EX和Dunnington也有使用,只是“分量”有些不同。Westmere有60%的核心部分使用了长沟道晶体管,Uncore部分则同时使用了超低漏电晶体管和长沟道晶体管。Nehalem则是58%的核心部分使用了长沟道晶体管。Westmere的漏电功耗大约是总功耗的23%。Nehalem上这个数值是16%。


样表:沟道长度(横坐标)与漏电流(纵坐标)的关系,请自行理解(越低的延迟,越高的漏电电流)

  长沟道晶体管:在IC设计当中通常需要根据不同的情况使用不同沟道长度的晶体管,非时序关键(non-timing-critical)的线路可以使用性能略差的长沟道MOSFET晶体管以减少亚阈值漏电。亚阈值漏电:subthreshold leakage,MOSFET的subthreshold亚阈值特性被广泛利用在低电压线路上。


封装和我们平常用的LGA 1136处理器完全一样

  同针脚的Westmere的外观和Nehalem没什么两样, 封装技术也一样。Westmere处理器使用了使用了14层基板(5-4-5)的flip-chip(C4)翻转封装,基于树脂的基板厚度40mil(1密耳=千分之一英寸,40mil=1.016mm),最后加上一个金属散热盖组成了常见的LGA(land-grid-array,连接格阵)封装。处理器背面的矩形方腔放置了Core、Uncore和IO的去耦电容,部分IO使用了片内去耦电容。为了防止击穿,片内DDR IO去耦使用了堆叠电容。为了降低Jitter抖动,DDR时钟驱动单元由片内LC滤波器组成的电源供电。


IO反谐振电路

  为了达到QPI总线需求的严格电源噪声标准,处理器模拟电源和数字电源是独立输入的,并使用了一个反谐振电路(Anti-resonant Circuit)来实现两个恒定、独立的QPI供电。


双核和六核Westmere晶圆图,并根据供电标注了区域

  Core与Uncore部分分成了独立的供电区域,因为Core部分工作在较低的电压并且电压和频率都会根据负载调整,而Uncore部分则是工作在相对较为固定的电压。每核心独享的256KB L2缓存由0.275um2密度的6T晶体管SRAM单元组成,Active Vmin是700mV,所有核心共享的12MB L3缓存则由0.171um2密度的6T晶体管SRAM单元组成,Active Vmin是900mV,极限保留至和Uncore协同的700mV。除了一个全局的Power Gating FET控制Core部分和对应的L3-Uncore部分之外,L3内的解码器(decoders)和子阵列(sub-arrays)还拥有本地Power Gates用来进一步降低主动功耗。L3的SRAM单元在空闲时还会将电压降低到750mV以降低漏电功耗。

  根据L3存取粒度的不同,本地Power Gates会具有显著的效果。在12MB L3的情况下,每一个L3存取仅会激活2%的解码器和0.5%的SRAM单元。Uncore的全局Power Gate同时还像一个线形调压器一样可以将Uncore部分的工作电压线形调节最低至750mV。


纵坐标:良率减损,不使用任何修复方法制造无缺陷的大容量缓存是不可能的

   Westmere的L3使用了DECTED(double-error-correcting triple-error-detecting,三位错误检测-双位错误恢复)ECC技术来提高成品率(Yield)和可靠性(Reliability),顾名思义,DECTED可以检测到一个缓存线(cache line,64位)中出现的三位错误并可以恢复二位的错误。上图展示了传统的冗余修复方法和DECTED ECC的对比。对于正常工作时的软错误,DECTED ECC也提供了数量级级别的提升。换句话说,Westmere的L3将会非常稳定。

  在时钟信号方面,和前任相似,Westmere使用了一个外部的133MHz时钟,并使用FPLL倍频至266MHz和533MHz发送至四个PLL产生各种高参考时钟频率。高参考时钟频率允许高频率的交换并降低了跨域时钟脉冲相位差和远距Jitter因而降低了FIFO队列的延迟。为了对抗电压跌落,PLL实现了一个AFS(adaptive frequency system,适应性频率系统)以保持频率的稳定,并使用DCC(Duty-Cycle corrector,占空比校正)来对抗工艺波动和老化引起的退化。

  Westmere的分布时钟使用了多种方式来平衡性能和功耗。Core时钟是虚拟格栅水平/垂直脊柱拓扑(pseudo-grid horizontal/vertical spines topology),Uncore时钟则将点对点H-tree(point-point H-tree)用于轻负荷区域,将脊柱拓扑(spine topology)用于中/重负荷区域。QPI发送时钟是虚拟差分(pseudo-differential)而接收时钟是低摆幅全差分(low-swing fully differential),为了获得更健壮的QPI/DDR时钟还使用了如抖动抑制(jitter-attenuating)DLL等技术。

  和2.5V的DDR2工作电压相比,DDR3的工作电压已经降低到了1.65V,Westmere进一步引入了对DDR3-LV(low voltage)的支持,低压DDR3需要内存控制器支持1.5V/1.35V的低工作电压,这进一步降低了CPU和内存的功耗。同时也能支持上一代Nehalem所支持的1.65V标准DDR3。


使用了一个推挽电压模式驱动器(push-pull voltage-mode driver)的DDR3输出驱动单元

  QPI的实现包括了一个适应性电路架构来应对工艺上的挑战。QPI发送器包括了一个支持500mV到150mV Tx电压摆幅的电流源线路驱动器,在全局范围的终端电阻和线路驱动器上通过一个闭环补偿单元来应对工艺波动,在接收器局部,每一个lane信道都具有独立的闭环补偿单元来应对设备工作波动。

  总的来说,处理器当中有许多电路用来对应日常的软错误,可以经受住电压、温度波动乃至年月老化的考验,一个计算机中正常使用最不容易坏的电子部件大概就是CPU了。对工艺和电路技术的介绍就到这里,下面开始将是正宗的处理器特性介绍:)

0
相关文章