【IT168 技术】时间越来越近了,后天英特尔将发布最新一代的双路处理器——至强E5,当然也已经是公开的秘密。新一代的产品在性能上比上一代的双路Westmere-EP有了大幅提升,同时在能耗的控制上也更为出色。除了英特尔之外,各个合作伙伴也将在现场展示最新一代平台产品,之前惠普和戴尔两家已经率先发布了自己新系列的产品——惠普Gen8系列和戴尔12G。
网上传言的E5处理器规格
至强E5的确凝聚了太多的期待,因为相比上一次发布Westmere-EP已经过去了2年的时间。为此,有国外媒体已经率先提供了E5全系列产品型号及规格,当然更为细节的测试成绩及规格等内容还是要等到发布之后才能放出,毕竟敢捋英特尔这一大根虎须的人还不多。
Intel Sandy Bridge微架构32nm至强处理
当然,至强E5也不是我们今天想要介绍的内容。借着至强E5发布的契机,我们愿意同大家一起回顾一下英特尔多年以来在至强平台中的产品,它们曾为我们的数据中心立下汗马功劳,现在也改歇歇了。
首先登场的是至强5000系列处理器,它基于“Bensley”平台。英特尔公司公布的“Bensley”平台包括代号为“Dempsey”的双核Xeon DP处理器和代号为“Blackford”的Intel 5000系列芯片组,另外还有一系列的新技术,比如I/O AT技术、FBD内存技术、更新的安全特性等等。
英特尔当时一共发布了8款基于“Dempsey”核心的处理器:Xeon 5080、Xeon 5070、Xeon 5060、Xeon 5063、Xeon 5050、Xeon 5040、Xeon 5030和Xeon 5020。这些处理器依然采用了NetBurest微架构,它们将会是最后一个采用该微架构的Xeon系列产品。在Xeon 5000系列处理器中整合了两个完整的NetBurst微架构处理器,并且对于NetBurst微架构进行了进一步的优化——主要涉及到超管线技术(Hyper Pipelined Technology)和执行追踪缓存(Execution Trace Cache)。每个处理器拥有独立的2MB二级缓存,其前端总线为1066MHz或者667MHz,可以提供8.5GB/s或者5.3GB/s的传输带宽。
Xeon 5000系列处理器采用了65nm制程,这对于有效的抑制Xeon处理器的发热量具有至关重要的作用。采用90nm制程的Irwindale核心的单核Xeon处理器TDP在130瓦左右,而Xeon 5000系列双核处理器TDP也只有135瓦甚至更低。Xeon 5000系列处理器不再采用Socket604封装,改用了FC-LGA6 LGA771封装,可进一步改进处理器的电气性能,更利于功率传导。
这个系列的处理器依然支持超线程技术(Hyper-Threading Technology),这样每个核心可以处理2个线程,每颗双核心处理器可以并行处理4个线程,双路配置的处理器则能可以同时处理8个线程。另外,这个系列的处理器支持EIST、EM64T、VT、XDbit等技术,对于TM1功能也提供了支持。
基于Woodcrest核心的至强5100
英特尔目前已经发布了7款基于Woodcrest核心的Xeon 5100处理器,它们是Xeon 5160、Xeon 5150、Xeon 5148、Xeon 5140、Xeon 5130、Xeon 5120和Xeon 5110。
Xeon 5100系列处理器的主频变化很大,他们没有延续上一代产品的主频,已经发布的处理器中主频最低是1.6GHz,而最高的也只有3.0GHz。Xeon 5000系列处理器的最低主频为2.5GHz,最高则达到了3.73GHz。处理器主频的大幅度下降帮助Xeon 5100处理器明显的降低了功耗,在7款处理器中只有5160的TDP为80瓦,5150/5140/5130/5120/5110等五款处理器TDP为65瓦,Xeon 5148的TDP只有40瓦。
Xeon 5100系列处理器(Xeon 5160/5150/5148/5140/5130)增加了对于1333MHz前端总线的支持,该总线实际运行频率为333MHz,可以4倍于其频率的速率传输数据,因此理论上每秒可传输10.66 GB的数据。而部分低端的处理器(Xeon 5120/5110)则支持1066 MHz前端总线,此时其系统时钟频率为266MHz,带宽为8.5 GB/s。之前的Xeon 5000系列处理器中则有4款产品采用了1066MHz前端总线,还有4款产品采用了667MHz前端总线。前端总线的技术并没有明显地的改变,依然利用了分离传输(split-transaction)、延迟应答协议(deferred reply protocol)和地址和数据的源同步传输(Source-Synchronous Transfer,SST)等技术。
从英特尔公布的文档来看,Xeon 5100系列处理器还进一步改进了热量和功率管理能力,它除了支持原有的TM1和EIST技术之外,还增加了对于TM2的支持——它主要增加了调节处理器电压的作用。另外,双核英特尔Xeon 5100系列处理器也支持EDBit(Execute Disable Bit)功能和英特尔虚拟化技术(Intel VT)。不过超线程技术并没有应用在Xeon 5100系列处理器上。
Quad-core Xeon 5300系列处理器是定位于双路服务器/工作站应用的处理器,代号为Clovertown,它将两个双核核心整合在一个处理器基板上,率先向市场上推出了四核双路处理器。
英特尔首先发布了5款处理器X5355、E5345、E5335、E5320和E5310,随后又陆续发布了L5335、X5365等处理器。这些处理器均采用了65纳米制程和LGA6封装(LGA771),配置了8MB L2缓存(每颗处理器4MB L2缓存),主频分别为最高达到了3.0GHz。型号最后一位是“5”的FSB频率为1333MHz,传输带宽可达10.6GB/s,型号最后一位是“0”的FSB频率为1066MHz,传输带宽可达8.5GB/s。
四核Xeon 5300系列的TDP提升到了一个新的水平,X5355/X5365处理器TDP为120瓦,E系列的四款均为80瓦,L系列为50瓦。双核Xeon 5100系列处理器中,Xeon 5160的TDP为80瓦,Xeon 5148 LV的TDP为40瓦,其余的均为65瓦。从英特尔公布的这些TDP数据来看,虽然四核处理器是两颗双核处理器的“简单整合”,但是其功率应该并非两个双核处理器的功率之和。
上图显示的是Xeon 5320处理器的基本信息:Intel Xeon 5320处理器,主频为1.86GHz,前端总线频率为1066MHz,每个核心配置有32KB L1数据缓存,32KB L1代码缓存,每个DIE则整合有4MB L2缓存(也就是两个核心共享4MB L2缓存),整个处理器总共具有8MB L2缓存。总的来说,Xeon 5100所有的特性,Xeon 5300全都具有,最大的改变无非是核心的数量从2个增加到了4个。但是,毫无疑问的是四核处理器的出现使得计算资源的密度大幅度提升,而功耗基本保持不变,这对于寸土寸金的IDC而言绝对是有重大意义的。
Intel严格的按照其“Tick-Tock”战略,在2007年的11月份推出了基于45nm制程的四核处理器,代号Harpertown。相对于上一代65nm Clovertown核心的产品,Harpertown进一步优化了微架构,添加了功能并且升级了主要规格。
Xeon E5430处理器,2.66GHz,12M缓存,1333MHz FSB,具有适中的性能、功耗及价格
从65nm到45nm的转变,不仅仅是当前芯片设计在体积上的缩小。此类处理器中还增加了许多新的特性,如全新的英特尔SIMD流指令扩展4(SSE4),可通过47条全新指令加快包括视频编码在内的工作负载的处理速度,从而支持高清晰度画质和照片处理,以及重要的HPC和企业应用。
较高端的X5460处理器,后来Intel还发布了频率更高的X5482处理器
和上一代Clovertown相比,Harpertown处理器将2 x 4MB的L2缓存提升到了2 x 6MB L2缓存,每两个核心共享6MB缓存。Harpertown处理器将不再使用旧的1066MHz FSB,而开始支持更高的1333MHz/1600MHz FSB。由于采用了45nm High-k制程技术,四核Harpertown的功耗依然保持同现有的双核大致相当的水平,TDP为80瓦、120瓦和150瓦,并且频率规格也有所提高,最高端的Xeon X5492处理器可以达到3.4GHz,而上一代Xeon X5365只有3.00GHz。
对于Intel的Tick-Tock战略已经是老生常谈了;从另一方面讲,这标明了Tick-Tock战略的成功之处,一个简单、明晰、有序和易于理解的发展计划,对合作厂商、用户和投资者都是极为有利的。TIck-Tock战略简而言之就是Intel处理器在奇数年进行制程转换(Tick),例如2005年的65nm和2007年的45nm,而在偶数年进行处理器的架构更新(Tock),Nehalem架构发布的2008年轮换到了Tock,也就是处理器的架构更新。
Nehalem作为Intel用以取代Penryn微架构的新一代处理器架构,和Penryn相比,Nehalem的微架构并非是全新的,不过,架构上则是一个很大的飞跃:Nehalem采用了直联架构。除此之外,Nehalem还具有一个鲜明的设计理念,就是采用了可扩展的模块化设计,它将处理器划分为两个部分:Core核心和Uncore非核心(或者叫“核外”),所有产品线的Nehalem处理器,其Core核心部分都是一样的,只是Uncore部分可能不同,以满足Intel对其提出的动态可扩展的要求。Nehalem满足了这个要求,它的内核具有可扩展的高可伸缩架构。
由于共处在一个Tick-Tock上,因此Nehalem和Penryn都同样属于45nm工艺,从65nm工艺转变到45nm工艺带来的巨大能耗降低已经无法再次重现,因此Nehalem就不再注重于能耗的降低,而是注重于性能的提升,这样的设计理念,带来了处理器架构的巨大变化,这些变化均面向性能的提高,也即是说,我们可以期望Nehalem具有着强大的性能。
双路六核服务器版本和双核客户版本Westmere处理器配置
Westmere处理器家族是Nehalem处理器家族的下一代,Nehalem基于45nm制程,Westmere则基于32nm制程,它们都使用了high-κ metal-gate(高K金属栅极)工艺,在微架构上,Westmere就是Nehalem的增强版本。
Intel High-k Metal Gate晶体管,这两个技术都是为了增强晶体管的场效应和降低其漏电
除了工艺之外,Westmere最大的特点就是最高集成了6个处理器核心,包括12MB L3缓存,共多达11.7亿晶体管,四核心的Nehalem包括8MB L3缓存则有7.31亿晶体管,而这两者具有接近的核心面积(Westmere的还要小一点)。
和Nehalem一样,Westmere也实现了Power Gates技术,和Nehalem不同的是,Westmere的Power Gates不仅仅限于关闭处理器核心,它还扩展到了可以关闭L3缓存以及Uncore上的全局队列(Westmere晶圆上正中央下方的部分)。在所有核心都被Power Gate之后,L3缓存将会被部分刷新并且Uncore部分的供电将会线形地降低,L3/Uncore的漏电楼将得到降低。在最限制的情况下,L3缓存和全局队列将会全部刷新并Power Gated关闭,只有一块附属于L3的SRAM会用来保持所有核心的关键状态。
和Nehalem一样,Westmere也使用了Long-Le晶体管(Long Channel长沟道晶体管)技术,Nehalem-EX和Dunnington也有使用,只是“分量”有些不同。Westmere有60%的核心部分使用了长沟道晶体管,Uncore部分则同时使用了超低漏电晶体管和长沟道晶体管。Nehalem则是58%的核心部分使用了长沟道晶体管。
最后,Westmere的漏电功耗大约是总功耗的23%。Nehalem上这个数值是16%。
型号 | 制程 | 缓存 | 主频 | 前端总线 | TDP | SMP | 双核心 | 超线程 |
7150N | 65 nm | 16 MB L3 2x1 MB L2 | 3.50 GHz | 667 MHz | 150W | MP | 支持 | 支持 |
7140M | 65 nm | 16 MB L3 2x1 MB L2 | 3.40 GHz | 800 MHz | 150W | MP | 支持 | 支持 |
7140N | 65 nm | 16 MB L3 2x1 MB L2 | 3.33 GHz | 667 MHz | 150W | MP | 支持 | 支持 |
7130M | 65 nm | 8 MB L3 2x1 MB L2 | 3.20 GHz | 800 MHz | 150W | MP | 支持 | 支持 |
7130N | 65 nm | 8 MB L3 2x1 MB L2 | 3.10 GHz | 667 MHz | 150W | MP | 支持 | 支持 |
7120M | 65 nm | 4 MB L3 2x1 MB L2 | 3 GHz | 800 MHz | 95W | MP | 支持 | 支持 |
7120N | 65 nm | 4 MB L3 2x1 MB L2 | 3 GHz | 667 MHz | 95W | MP | 支持 | 支持 |
7110M | 65 nm | 4 MB L3 2x1 MB L2 | 2.60 GHz | 800 MHz | 95W | MP | 支持 | 支持 |
7110N | 65 nm | 4 MB L3 2x1 MB L2 | 2.50 GHz | 667 MHz | 95W | MP | 支持 | 支持 |
7041 | 90 nm | 2x2 MB | 3 GHz | 800 MHz | N/A | MP | 支持 | 支持 |
7040 | 90 nm | 2x2 MB | 3 GHz | 667 MHz | N/A | MP | 支持 | 支持 |
7030 | 90 nm | 2x1 MB | 2.8 GHz | 800 MHz | N/A | MP | 支持 | 支持 |
7020 | 90 nm | 2x1 MB | 2.66 GHz | 667 MHz | N/A | MP | 支持 | 支持 |
采用Paville核心的Xeon MP处理器属于Xeon 7000系列,而采用Tulsa核心的Xeon MP处理器属于Xeon 7100系列。Xeon 7100系列处理器主频范围在2.5GHz到3.5GHz之间,前端总线分为667MHz和800MHz两种,型号后缀为N的前端总线为667MHz,型号后缀为M的前端总线为800MHz。Xeon 7000利用处理器主频和前端总线频率来区隔不同型号的产品(Xeon 5000/5100系列处理器也是如此),而Xeon 7100则不仅利用主频、前端总线还利用L3缓存来区隔不同型号的产品。
每个Xeon 7100处理器均包含两个完整的核心,每核心均配置了1MB L2缓存,这仅是Xeon 7030/7040处理器L2缓存容量的一半。不过,Xeon 7100的两个核心可以共享“新增”的L3缓存,比如7110和7120均配置了4MB L3缓存,7130配置了8MB L3缓存,而7140和7150都配置了16MB L3缓存,因此缩减了L2缓存容量并不一定会牺牲处理器整体性能。特别需要说明的是,7140和7150的L3缓存容量达到了16MB,仅次于Intel于今年发布的双核Itanium 2 9000处理器24MB L3缓存的容量。但是增加L3缓存并非创新,从Xeon MP的历史来看,这样的“改变”仅仅是一次回归而已。
65纳米制程的应用使得Tulsa处理器得以集成更大容量的缓存。不过即便如此,Tulsa核心面积依然达到了424平方毫米,而之前的单核Potomac核心面积为354平方毫米,Paville的核心面积也只有299平方毫米。如果处理器复杂程度变化不大,从90纳米制程升级到65纳米制程则意味着同样尺寸的晶圆可以切出更多的芯片,从而大幅度降低成本,但是Tulsa集成度远远高于前两代产品,因此其成本不会因此有明显降低。
同样,因为集成度的提高(Xeon 7100处理器内包含13亿个晶体管),Tulsa的功耗的绝对值也维持着较高的水平。Xeon 7110/7120的TDP为95W,而7130、7140和7150则均达到了150W。考虑到Xeon 7100系列处理器主频更高,而且整合了L3缓存,其相对于Paxville处理器在能耗控制上还是取得了很大的进步的。
随Caneland平台一起发布的有两个系列的处理器:Xeon 7300四核处理器和Xeon 7200双核处理器,代号分别为Tigerton-QC和Tigerton-DC。这两个系列的处理器均是将两个DIE封装在一起,每个DIE均有4MB L2缓存。其中Tigerton-DC的设计非常有意思,它没有采用单个DIE双核的设计——英特尔称这种设计可以在现有条件下让双核处理器具有更大容量的缓存,适于某些高性能计算和财务服务等有较大缓存需求的应用。
Xeon 7300系列处理器包括6款产品,其中4款E系列主频在1.6GHz-2.4GHz之间,4-8MB L2缓存,1066MT/s,TDP均为80瓦,适用于机架式/刀片式服务器;L系列只有一款L7345,主频为1.86GHz,8MB L2缓存,TDP为50瓦,适用于高密度机架式/刀片式服务器;X系列的也只有一款X7350,主频高达2.93GHz,TDP也达到了130瓦,适用于高性能应用。
Xeon 7200/7300扩容了二级缓存去掉了三级缓存,因此我们估计Tigerton的复杂程度并不会明显的增加,所以功耗的降低主要来自频率的降低和65nm制程的进一步改进。Xeon 7200/7300处理器支持TM1、TM2功能,利用英特尔智能功率控制技术可单独控制每个核心的功率状态。
Tulsa相对于Paxville在微架构上并没有改进,最大的改变是开始采用65nm制程,为了进一步的提升性能,只有在主频和L3缓存上打主意。弃用Netburst微架构,采用高效能的Core微架构(内置WDEE,宽位动态执行引擎)并且升级到四核是Xeon 7200/7300系列处理器相对于之前的Xeon 7000/7100系列处理器最大的不同。此外,Xeon 7200/7300还扩容了二级缓存(从2x1MB升级到了2x4MB,支持智能缓存和智能内存访问),去掉了三级缓存(也不排除今后为了提升性能再增加),同时前端总线升级为1066MT/s,按照英特尔Xeon DP路线图来看,今后Xeon MP处理器的FSB升级到1333MT/s甚至1600MT/s也是可能的。
Dunnington采用其后来者Nehalem一样的45nm CMOS工艺,采用了金属栅极High-K电介质晶体管以及9层铜互联技术,总晶体管数量则为1.9 Billion——19亿,已经和Nehalem-EX的23亿很接近了,新增加的核心和大容量的L3都需要占据很多的晶体管。Dunnington的核心面积为503.2mm2。
六核心45nm Penryn Dunnington——Xeon X7460的结构图,和其他Penryn不同,是一整块“原生”的核心
来源:ISSCC2009 Over 1 Million TPC-C with a 45nm 6-Core Xeon CPU
对于一款处理器来说,除了外部平台的架构之外,处理器内部架构和处理器微架构都是对性能有很大影响的主要因素。如图所示的Dunnington属于规格不凡的一款,型号是X7460(曙光I840-H就采用了这款处理器),架构上具有6个Penryn核心,每个核心带有64KB L1缓存(32KB L1-I,2KB L1-D),每两个处理核心共享3MB的L2缓存(果然还是带有“粘”的性质),三对处理器内核就总共带了9MB容量的L2,每个核心通过一条128Bytes的缓存线联结L2。Intel宣称不同的一对核心之间的L2是具有其他互通界面的(被命名为Advanced Transfer Cache Architecture),不过语焉不详。其他的四核45nm Penryn也具有这个高级缓存传输架构。X7460的核心频率为2.66GHz,不算太高。Dunnington里面最高主频就是2.93GHz。
7400系列处理器的规格,注意7400系列处理器里面也有4核心的型号
重点来了,除了上面这些传统的架构之外,Dunnington特别的地方是多了一个Uncore结构,这个结构包括了容量达到了16MB的L3缓存,所有的处理核心经过L2联结到中央系统逻辑,如下图所示,标明为Uncore的中央电路联结着所有的核心以及16MB L3缓存,并通过一个传统的FSB总线与处理器外部通信,由于所有处理内核是通过新的总线与Uncore联结,而与以往的“粘结产品”使用FSB互联不同,大部分的交通都发生在内部,从而可以大为节约处理器的FSB带宽。Xeon X7460的FSB频率为1066MHz,提供8.5GB/s的带宽,现在的Xeon MP都支持MIB(Multiple Independent Bus,多重独立总线,Xeon DP的DIB的进阶版本),每一个处理器都通过独立的FSB与MCH联结,因此效率上还可以。
"Uncore"是六核心45nm Penryn至强Dunnington的重要部分
代号为Nehalem-EX的服务器处理器是x86架构中第一个具有8个核心的产品,Nehalem-EX拥有8个CPU核心,配置了24MB的L3。我们知道Intel的x86服务器产品线通常分为两个层次:2个Socket以及2个Socket以上,如Nehalem-EP就是用于2个及以下Socket,Nehalem-EX就是用于4个或4个以上Socket。台式机产品线的Nehalem处理器:Core i7(Bloomfield)在2008年11月发布,Nehalem-EP则预计在2009年3月中发布,Nehlam-EX若无意外则会是在下半年的晚些时候。由于竞争对手AMD的6核心Operton Istanbul就目前来看也就和Nehalem-EP打个不分上下,因此提前推出的“意外”应该很难发生。
此次Nehalem-EX是由位于California加利福尼亚州Santa Clara研发中心推出的。一般认为该研发中心担任Itanium处理器的研发工作。顺便提一下,Pentium Pro、Pentium 4处理器都是出自Hillsboro研发中心,HTT超线程技术也是,因此Nehalem和Pentium Pro这么相像、Nehalem上搭载Pentium 4上的超线程改良版也就顺理成章、容易理解了——现在大家清楚为什么Pentium 4、Nehalem有超线程而Cornoe没有超线程了吧?
来源:ISSCC2009 A 45nm 8-Core Enterprise Xeon® Processor
上图是Intel在ISSCC09 "A 45nm 8-Core Enterprise Xeon® Processor"论文当中给出的Nehalem-EX核心分布图,基本构成是处理器核心分布在四个角落,所有核心共享的L3缓存则居于内核中部,在内核正中央则具有两个Hub集线器和一个Router路由器来负责所有核心的数据共享,管理内存、QPI以及L3缓存之间的数据流向。Nehalem-EX在核心正上面具有4个QPI——QuickPath Interconnect总线,核心正下方则是两个内存界面,总共有4个DDR3内存通道。下图是另一个形式的核心分布图,带有一些猜测性质:
众所周知,Nehalem-EX的生产工艺和其他Nehalem都一样,都是45nm CMOS工艺,采用了金属栅极High-K电介质晶体管以及9层铜互联技术,总晶体管数量则为2.3 Billion——23亿,是4核心Bloomfield的三倍以上,和Tukwila Itanium处理器一样,然而Tukwila不断跳票,因此Nehalem-EX有幸成为现在Intel晶体管数量最多的处理器。此外,虽然晶体管数量剧增,Nehalem-EX的面积却只提升了约2.4倍左右。除了核心数量是Bloomfield的两倍之外,额外加入的晶体管被用在了更多数量的L3上,QPI/IMC以及中央系统逻辑(Hub和Router)的变化不算太大。