服务器 频道

透视六核心至强 Dunnington处理器解析

  【IT168评测中心】相信很多人都知道,Core微架构是以移动处理器为目标而开发的,基础架构是双核,四核产品就是采用两颗双核“粘结”起来,可能很多人因此认为Dunnington这款六核心45nm Penryn Xeon也是一样,只不过是由三个双核“粘结”起来。


四核心45nm Penryn Harpertown——也就是Xeon 5400系列处理器的艺术照


四核心65nm Conroe Clowertown——也就是Xeon 5300系列处理器

  笔者原先也以为Dunnington——六核心45nm Penryn至强和之前同属7000系列的7300处理器一样,也是“粘”起来的产品,结果资料到手一看,没这么简单:


六核心45nm Penryn Dunnington——Xeon 7400系列处理器


六核心45nm Penryn Dunnington——Xeon X7460的结构图,和其他Penryn不同,是一整块“原生”的核心
来源:ISSCC2009 Over 1 Million TPC-C with a 45nm 6-Core Xeon   CPU

  Dunnington的架构和普通45nm Penryn处理器大有不同。上图来自Intel在ISSCC 2009上一共发布的四篇论文的其中一篇。这四篇论文除了讲Nehalem-EX的《A 45nm 8-Core Enterprise Xeon® Processor》之外,还有一篇专门说Dunnington的《Over 1 Million TPC-C with a 45nm 6-Core Xeon®  CPU》,这个结构图就来自这篇论文。在论文里面提到了很多Dunnington与普通45nm Penryn处理器很不相同的地方,实际上,它带有很多Nehalem处理器的特色,作为45nm Penryn架构Xeon的最后一款处理器,它就像是45nm Penryn与45nm Nehalem之间的杂合物,关于Nehalem架构,可以参阅笔者的《2008年度评测报告:深入Nehalem微架构》,下面我们来看看Dunnington是如何与众不同。


ISSCC上Intel发布的四篇论文,包括了Nehalem-EX(45nm Nehalem Xeon MP)、Tukwila(45nm Itanium 2)、Dunnington(45nm Penryn Xeon MP)三个大系列的处理器


为什么这篇论文要叫《Over 1 Million TPC-C with a 45nm 6-Core Xeon®  CPU》呢?就是因为一台8路Dunnington服务器在测试当中获得了超过1 million(一百万)的破纪录(Xeon而言)TPC-C成绩,TPC-C是一种衡量数据库性能的标准的其中一个测试

  可以说,Dunnington和Nehalem-EX是都属于同一产品线的产品,只不过一个基于45nm Penryn架构,另一个则属于下一代的45nm Nehalem架构。它们都处于4个或以上Socket的Xeon MP产品线。Dunnington已经在2008年9月发布,按照Tick-Tock战略,Nehalem-EX则要等到2009年下半年。


Intel至强处理器路线图


Xeon DP、Xeon MP处理器对比,左上是双路四核Xeon DP,右上是四路四核Xeon MP,最下方则是四路六核Dunnington,和Nehalem-EX一起,都属于Xeon MP产品线

  《Over 1 Million TPC-C with a 45nm 6-Core Xeon®  CPU》由Intel的数位来自India印度Bangalore班加罗尔的工程师主讲,这里又有一个故事……和Nehalem-EX、Tukwila以及QPI相关——话说,按照Intel的计划,首款被称为Whitefield的Xeon MP四核心至强应该是配合Itanium 2(四核心Tanglewood,也就是后来的Tukwila)一起引入CSI总线(Common System Interconnect,通用系统互联)实现“通用”的“处理器系统”的“互相连接”的,但是,Tanglewood因重新设计,被推迟到2007年,还因为商标纠纷被迫改名为Tukwila,并之后继续推迟到2008年。而Intel在印度开发的Whitefield则由于各式各样的问题被取消了,随后位置被Tigerton代替——Tigerton仍然使用了FSB总线,并且是两个Cornoe内核“粘”在一起,作为Tigerton的后继,Dunnington的任务就是将Tigerton的“粘结”架构改进为现在的类似Nehalem的架构,你看,这个工作就是Whitefield的原班人马做的——就是位于India印度Bangalore班加罗尔的设计团队。

  从下图(及上图),我们可以很容易地看出,Dunnington和其他的四核Penryn Xeon处理器是完全不同的,从结构来看,Dunnington从Nehalem里面借鉴了"Uncore"这个结构,从而增添了新的一层L3缓存,以及互相联结所有部件的中央系统逻辑——就是Nehalem里面的Router和Hub类似的东西:


来源:ISSCC2009 Over 1 Million TPC-C with a 45nm 6-Core Xeon   CPU

  Dunnington采用与Nehalem一样的45nm CMOS工艺,采用了金属栅极High-K电介质晶体管以及9层铜互联技术,总晶体管数量则为1.9 Billion——19亿,已经和Nehalem-EX的23亿很接近了,新增加的核心和大容量的L3都需要占据很多的晶体管。Dunnington的核心面积为503.2mm2


来源:ISSCC2009 Over 1 Million TPC-C with a 45nm 6-Core Xeon   CPU
LLC是Last Level Cache的意思,在这里就是L3缓存

  如图所示的Dunnington属于规格不凡的一款,型号是X7460,具有6个Penry核心,每个核心带有64KB L1缓存(32KB L1-I,2KB L1-D),每两个处理核心共享3MB的L2缓存(果然还是带有“粘”的性质),三对处理器内核就总共带了9MB容量的L2,每个核心通过一条128Bytes的缓存线联结L2。Intel宣称不同的一对核心之间的L2是具有其他互通界面的(被命名为Advanced Transfer Cache Architecture),不过语焉不详。其他的四核45nm Penryn也具有这个高级缓存传输架构。X7460的核心频率为2.66GHz。


7400系列处理器的规格,注意7400系列处理器里面也有4核心的型号


7400系列处理器的缓存架构细节

  重点来了,除了上面这些传统的架构之外,Dunnington特别的地方是多了一个Uncore结构,这个结构包括了容量达到了16MB的L3缓存,所有的处理核心经过L2联结到中央系统逻辑,如下图所示,标明为Uncore的中央电路联结着所有的核心以及16MB L3缓存,并通过一个传统的FSB总线与处理器外部通信,由于所有处理内核是通过新的总线与Uncore联结,而与以往的“粘结产品”使用FSB互联不同,大部分的交通都发生在内部,从而可以大为节约处理器的FSB带宽。Xeon X7460的FSB频率为1066MHz,提供8.5GB/s的带宽,现在的Xeon MP都支持MIB(Multiple Independent Bus,多重独立总线,Xeon DP的DIB的进阶版本),每一个处理器都通过独立的FSB与MCH联结,因此效率上还可以。


"Uncore"是六核心45nm Penryn至强Dunnington的重要部分 


来源:ISSCC2009 Over 1 Million TPC-C with a 45nm 6-Core Xeon   CPU

  Dunnington所有核心共享的16MB L3缓存分成了4块,每块4MB,7400系列处理器当中也有12MB的型号,这样就是3个L3缓存块。和Nehalem一样,这些缓存块都可以设置为关闭模式以节约能耗。Dunnington的每个4MB缓存块有4096组缓存线,16路组关联(或,集合关联),缓存线为64字节——Dunnington最多允许所有内核进行32个缓存线存取。Dunnington具有两个TAG缓存,每个容量为1.5MB——总共就是3MB。

  L3缓存被划分成多个子阵列:1MB每个,总共就是16个子阵列,子阵列架构和Nehalem-EX一样,如下图:每一个访问只有整体阵列的3.125%加电,从而降低了耗电量。数据阵列使用0.3816um2的单元并使用DECTED(Inline double-error correction and triple-error-detection,双位纠错三位检测)ECC进行保护,具有可变的访问延迟;Tag索引阵列则使用了0.54um2的单元并使用SECDED(Inline single-error-correction and double-error detection,单位纠错双位检测)ECC进行保护,并具有固定的访问延迟。数据阵列具有行冗余和列冗余,Tag阵列则只有列冗余,这些特征都和Nehalem-EX完全一样。


Nehalem-EX的L3缓存Slice结构

  仍然和Nehalem-EX类似,Dunnington按时钟分为三个部分:核心、核外(L3和系统逻辑)和IO部分(就是FSB),这三个部分的频率关系没有Nehalem-EX那么复杂,对于Xeon X7460而言,核心频率GCLK就是2.66GHz,核外(Uncore)的SCLK则是GCLK的一半(不过,貌似L3仍然是全速的),IO的ZCLK则是1066MHz。

 
来源:ISSCC2009 Over 1 Million TPC-C with a 45nm 6-Core Xeon   CPU

  在电压上,Dunnington也没有Nehalem-EX处理器这么复杂,它的核心、Uncore核外(L3和系统逻辑)共用一组输入,I/O部分和模拟电路(热感应器)部分则共用另外一组输入。

  热感应器上Dunnington也比Nehalem-EX少一些,Nehalem-EX是每个核心一个热感应器,而Dunnington所有核心共用一个叫做Proc-hot Sensor的过程热感应器来监控温度,并通过Thermal Management Protocol来执行如C1E、EIST以及风扇控制(不过,机架式服务器通常没有独立的CPU风扇)这样的工作。除了测温感应器之外,Dunnington每两个处理核心还共用一个称为Catastrophic Trip Sensor的应急保护感应器用于在对应处理核心对过热的时候切断供电,总共就是三个这样的热感应器。

  可以说,晶体管方面,Dunnington完全使用了和Nehalem-EX一样的工艺。Dunnington也使用了Static CMOS线路:


为了降低能耗,Nehalem架构将以往应用的Domino线路更换为Static CMOS线路,速度有所降低,但是能源效率提升了。Dunnington也采用了这样的做法

  在《透视八核心至强 Nehalem-EX处理器解析》提到Nehalem-EX使用了Long Channel长沟道晶体管元件,Dunnington上也有使用,只不过“分量”有些不同。Nehalem-EX核心部分的58%和核外部分(不包括缓存阵列)的85%都使用了更长沟道晶体管,最后其漏电功率被控制到总功耗的16%,付出的代价是Nehalem的L1-D延迟由上一代的3时钟周期上升到4时钟周期。Dunnington则是核心部分的65%和核外部分(不包括缓存阵列)的90%都使用了省电的长沟道晶体管,可见同样的45nm工艺,Dunnington做得比Nehalem-EX好一些,因为Nehalem-EX的运行速度更高,Uncore、QPI等的频率都要求用较多的高性能高漏电的短沟道晶体管。

  不过,Nehalem架构设计上就具有PCU(Power Control Unit,电源控制单元)可以彻底关闭不需要用到的核心、缓存,因此其闲置功耗表现将会好一些。可以做一个直观的比较,6核心、2.66GHz的Xeon X7460和8核心、约更高频率的Nehalem-EX的TDP都同样为130W。


左:一般工艺,右:Dunnington的低漏电工艺

  在使用Long Le(长沟道晶体管)技术之后,和同样45nm的其他Penryn架构处理器(如Harpertown等)相比,漏电降低了约1/3(一般45nm处理器漏电占总功耗的46%),降低到22%。如此这般,在增加了内核数量的情况下,Dunnington的功耗并没有上升,在使用较低的供电电压情况下,6核心的Dunnington甚至可以做到65W的TDP。


L7455——低电压版本的6核Dunnington Xeon的TDP只有65W

  和通常的Xeon DP不同,Xeon MP不采用LGA 771封装。Dunnington采用的是Flip Chip Micro Pin Grid Array(FC-mPGA8)封装,使用的接口叫做Socket mPGA604,PGA和LGA具有明显的区别,一个是针脚,一个是圆接触点。


六核心45nm Penryn至强Dunnington使用的是Socket mPGA604接口


Xeon X7460的背面:FC-mPGA8封装,对应Socket mPGA604插槽

  本来按照原计划,Dunnington的前辈(Tigerton)的前身Whitefield应该会实现与Tukwila Itanium的插槽共享的,不过由于前面说过的种种原因,计划搁浅,最后Dunnington仍采用了mPGA604插槽和FSB总线……Nehalem-EP/EX的LGA1567会不会成为未来IA架构的服务器处理器的通用插槽?尚未可知。

  你们有福了,和Nehalem-EX不同,这次的Dunnington我们IT168评测中心获得了实物——处理器来自一台由曙光Dawning送来的I840四路六核Dunnington服务器。搭载了四个六核心的Dunnington Xeon X7460,总共就具有24个处理核心!

 


曙光Dawning I840四路Dunington服务器内部:左侧就是4个六核心Dunington处理器


六核心45nm Penryn至强Dunnington Xeon X7460,顺手放上一个AMD Barcelona Operton 2350


Xeon X7460的背面:FC-mPGA8封装,对应Socket mPGA604插槽

  要克制:更多的图片,请等待我们曙光I840的测试报告!。


CPU-Z 1.49认不出Dunington Xeon X7460的准确型号,而显示为Xeon EX


CPU-Z 1.50也认不出,我们顺便来看看缓存架构和主板……

 
24个CPU核心,64GB内存,面对这样任务管理器面板你会有什么感觉?


64GB:32条2GB FBD DDR2-667内存条,光是系统内存就显示了好长一列,不过Everest可以正确地认出Dunnington的型号规格:Xeon X7460


处理器温度和内存条温度


处理器温度和内存条温度

  【IT168评测中心】从前面我们可以看到,虽然六核心至强Dunnington内部仍然是基于Penryn架构,然而,在更高的架构层次上Dunnington借鉴了Nehalem-EX非常多的内容,如Uncore结构,L3 Cache的引入,Long-Le晶体管技术等,让Dunnington具有更多的处理核心、更高性能的同时功耗并没有升高,从而确实提升了能效比。Dunnington看起来像是Penryn和Nehalem之间的半代处理器产品。

四核向左六核向右 解读Intel六核处理器

透视八核心至强 Nehalem-EX处理器解析

2008年度评测报告:深入Nehalem微架构

性能大幅提升 Core i7 服务器应用测试

再攀性能之巅 Intel全新酷睿i7深度评测

机密揭露:Intel超线程技术有多少种?

[IDF08]基辛格演讲:Nehalem集群演示


Intel Xeon 7400——Dunnington处理器

  我们IT168评测中心手上的6核心Dunnington来自一台曙光的I840服务器,型号为Xeon X7460,频率为2.66GHz,集成9MB L2和16MB共享L3,采用了和Penryn、Nehalem一样的45nm CMOS工艺,采用了金属栅极High-K电介质晶体管以及9层铜互联技术,总晶体管数量达到了19亿,使用了Nehalem中才开始使用了的Static CMOS线路和长沟道晶体管元件,设计功耗仍然维持在4核心的130W的水平。很多人感兴趣的是,Nehalem-EP就要出现的现在,Dunnington是否还有存在意义,Xeon X7460的性能比之如何呢?敬请继续期待我们IT168评测中心的报告。

 


Intel Xeon与AMD Operton——硝烟弥漫


Intel Dunnington Xeon

1
相关文章