服务器 频道

ISSCC 2010:深入32nm Westmere处理器

编者:一年一度的IEEE(Institute of Electrical and Electronics Engineers,国际电气电子工程师学会)ISSCC(International Solid-State Circuits Conference,国际固体电路会议)是全球半导体业界的盛会,被誉为集成电路行业的奥林匹克大会,在国际学术、产业界都受到极大关注,大会上的发布内容通常代表了未来半导体业界3~6年内的发展方向。在会上,半导体业界的巨头们会竞相登台展示自己正在研发的新技术。

  【IT168评测中心】按照惯例,每年的ISSCC都会在2月份举行。ISSCC 2009于2月8日在San Fransico旧金山召开,Intel在会上报告的其中一篇论文是《A 45nm 8-Core Enterprise Xeon® Processor》,实际上说的就是八核心Nehalem-EX处理器,笔者为此写过一篇文章,可以察看这里:透视八核心至强 Nehalem-EX处理器解析


ISSCC 2009


ISSCC 2010:老地方,老日期

  ISSCC 2010举行的日期依然(当地时间),今次,Intel带来了共16篇论文(包括参与的),其中处理器领域,首发的就是《Westmere: A Family of 32nm IA Processors》,显然,它说的就是Intel今年Tick-Tock策略的主体:Westmere,这是一个基于32nm工艺的整个CPU家族。前段日子新推出的Core i5/i3就属于这个家族。

09秋季IDF:32nm服务器CPU Westmere-EP


32nm处理器:Westmere


Westmere桌面版本Gulftown,对应的服务器版本代号Westmere-EP


下一代服务器处理器平台:Westmere-EP

  接下来我们就来看看这篇《Westmere: A Family of 32nm IA Processors》的内容,需要注意的是,ISSCC是半导体业界的盛会,因此这篇论文和本篇文章都是偏向于电子电路,和通常的“IT文章”不太一样。

 


双路六核服务器版本和双核客户版本Westmere处理器配置

  Westmere处理器家族是Nehalem处理器家族的下一代,关于Nehalem处理器(特别地,Nehalem-EP处理器),可以查看这里:Intel Nehalem-EP处理器首发深度评测,Nehalem基于45nm制程,Westmere则基于32nm制程,它们都使用了high-κ metal-gate(高K金属栅极)工艺,在微架构上,Westmere就是Nehalem的增强版本。


Intel High-k Metal Gate晶体管,这两个技术都是为了增强晶体管的场效应和降低其漏电

  除了工艺之外,Westmere最大的特点就是最高集成了6个处理器核心,包括12MB L3缓存,共多达11.7亿晶体管,四核心的Nehalem包括8MB L3缓存则有7.31亿晶体管,而这两者具有接近的核心面积(Westmere的还要小一点)。


双核和六核Westmere晶圆图

  和Nehalem一样,Westmere也实现了Power Gates技术,和Nehalem不同的是,Westmere的Power Gates不仅仅限于关闭处理器核心,它还扩展到了可以关闭L3缓存以及Uncore上的全局队列(Westmere晶圆上正中央下方的部分)。在所有核心都被Power Gate之后,L3缓存将会被部分刷新并且Uncore部分的供电将会线形地降低,L3/Uncore的漏电楼将得到降低。在最限制的情况下,L3缓存和全局队列将会全部刷新并Power Gated关闭,只有一块附属于L3的SRAM会用来保持所有核心的关键状态。

  和Nehalem一样,Westmere也使用了Long-Le晶体管(Long Channel长沟道晶体管)技术,Nehalem-EX和Dunnington也有使用,只是“分量”有些不同。Westmere有60%的核心部分使用了长沟道晶体管,Uncore部分则同时使用了超低漏电晶体管和长沟道晶体管。Nehalem则是58%的核心部分使用了长沟道晶体管。

  最后,Westmere的漏电功耗大约是总功耗的23%。Nehalem上这个数值是16%。

什么是长沟道晶体管技术呢?


样表:沟道长度(横坐标)与漏电流(纵坐标)的关系,请自行理解(越低的延迟,越高的漏电电流)

Intel Nehalem-EP处理器首发深度评测

  在IC设计当中通常需要根据不同的情况使用不同沟道长度的晶体管,非时序关键(non-timing-critical)的线路可以使用性能略差的长沟道MOSFET晶体管以减少亚阈值漏电。亚阈值漏电:subthreshold leakage,MOSFET的subthreshold亚阈值特性被广泛利用在低电压线路上。


Westmere桌面版本Gulftown,对应的服务器版本代号Westmere-EP

  同阵脚的Westmere的外观和Nehalem没什么两样, 封装技术也一样。Westmere处理器使用了使用了14层基板(5-4-5)的flip-chip(C4)翻转封装,基于树脂的基板厚度40mil(1密耳=千分之一英寸,40mil=1.016mm),最后加上一个金属散热盖组成了常见的LGA(land-grid-array,连接格阵)封装。处理器背面的矩形方腔放置了Core、Uncore和IO的去耦电容,部分IO使用了片内去耦电容。为了防止击穿,片内DDR IO去耦使用了堆叠电容。为了降低Jitter抖动,DDR时钟驱动单元由片内LC滤波器组成的电源供电


IO反谐振电路

  为了达到QPI总线需求的严格电源噪声标准,处理器模拟电源和数字电源是独立输入的,并使用了一个反谐振电路(Anti-resonant Circuit)来实现两个恒定、独立的QPI供电。


双核和六核Westmere晶圆图,并根据供电标注了区域

  Core与Uncore部分分成了独立的供电区域,因为Core部分工作在较低的电压并且电压和频率都会根据负载调整,而Uncore部分则是工作在相对较为固定的电压。每核心独享的256KB L2缓存由0.275um2密度的6T晶体管SRAM单元组成,Active Vmin是700mV,所有核心共享的12MB L3缓存则由0.171um2密度的6T晶体管SRAM单元组成,Active Vmin是900mV,极限保留至和Uncore协同的700mV。除了一个全局的Power Gating FET控制Core部分和对应的L3-Uncore部分之外,L3内的解码器(decoders)和子阵列(sub-arrays)还拥有本地Power Gates用来进一步降低主动功耗。L3的SRAM单元在空闲时还会将电压降低到750mV以降低漏电功耗。

  根据L3存取粒度的不同,本地Power Gates会具有显著的效果。在12MB L3的情况下,每一个L3存取仅会激活2%的解码器和0.5%的SRAM单元。Uncore的全局Power Gate同时还像一个线形调压器一样可以将Uncore部分的工作电压线形调节最低至750mV。


纵坐标:良率减损,不使用任何修复方法制造无缺陷的大容量缓存是不可能的

   Westmere的L3使用了DECTED(double-error-correcting triple-error-detecting,三位错误检测-双位错误恢复)ECC技术来提高成品率(Yield)和可靠性(Reliability),顾名思义,DECTED可以检测到一个缓存线(cache line,64位)中出现的三位错误并可以恢复二位的错误。上图展示了传统的冗余修复方法和DECTED ECC的对比。对于正常工作时的软错误,DECTED ECC也提供了数量级级别的提升。换句话说,Westmere的L3将会非常稳定。

  和前任相似,Westmere使用了一个外部的133MHz时钟,并使用FPLL倍频至266MHz和533MHz发送至四个PLL产生各种高参考时钟频率。高参考时钟频率允许高频率的交换并降低了跨域时钟脉冲相位差和远距Jitter因而降低了FIFO队列的延迟。为了对抗电压跌落,PLL实现了一个AFS(adaptive frequency system,适应性频率系统)以保持频率的稳定,并使用DCC(Duty-Cycle corrector,占空比校正)来对抗工艺波动和老化引起的退化。

  Westmere的分布时钟使用了多种方式来平衡性能和功耗。Core时钟是虚拟格栅水平/垂直脊柱拓扑(pseudo-grid horizontal/vertical spines topology),Uncore时钟则将点对点H-tree(point-point H-tree)用于轻负荷区域,将脊柱拓扑(spine topology)用于中/重负荷区域。QPI发送时钟是虚拟差分(pseudo-differential)而接收时钟是低摆幅全差分(low-swing fully differential),为了获得更健壮的QPI/DDR时钟还使用了如抖动抑制(jitter-attenuating)DLL等技术。

  和2.5V的DDR2工作电压相比,DDR3的工作电压已经降低到了1.65V,Westmere进一步引入了对DDR3-LV(low voltage)的支持,低压DDR3需要内存控制器支持1.5V/1.35V的低工作电压,这进一步降低了CPU和内存的功耗。同时也能支持上一代Nehalem所支持的1.65V标准DDR3。


使用了一个推挽电压模式驱动器(push-pull voltage-mode driver)的DDR3输出驱动单元

  QPI的实现包括了一个适应性电路架构来应对工艺上的挑战。QPI发送器包括了一个支持500mV到150mV Tx电压摆幅的电流源线路驱动器,在全局范围的终端电阻和线路驱动器上通过一个闭环补偿单元来应对工艺波动,在接收器局部,每一个lane信道都具有独立的闭环补偿单元来应对设备工作波动。


500mV-150mV摆幅、6.4GT/s QPI的接收器眼图

  对于《Westmere: A Family of 32nm IA Processors》就简单介绍到这里,关于ISSCC 2010和Westmere处理器还有不少内容,请继续期待IT168评测中心的后续文章。

Intel Nehalem-EP处理器首发深度评测

透视八核心至强 Nehalem-EX处理器解析

09秋季IDF:32nm服务器CPU Westmere-EP

0
相关文章