服务器 频道

AMD十二核心Magny-Cours处理器深度解析

  【IT168评测中心】早在2009年,在Istanbul刚发布不久的时候,AMD就在美国斯坦福大学举办的Hot Chip 21上发布了再下一代服务器平台的情况,这就是预计在2010年发布的12核心处理器:Magny-Cours,马尼库尔,这是首款具备了12个核心的x86处理器。直到今天为止,Intel的Nehalem处理器才步入8核心。


2010年3月30日:12核心即将到来


Magny-Cours:多种改进


Magny-Cours:45nm SOI、十二核心、4x 6.4GT/s总线、4x DDR3 1333内存

  本质上来说,Magny-Cours其实是其上一代Istanbul的改进版本,采用的处理器微架构并没有大幅度的变化。AMD下一代的处理器微架构大约会在2011年登场,叫做Bulldozer(推土机)。那么,Magny-Cours是如何从Istanbul的六核心一跃达到十二个核心呢?

双线程还是双核?AMD推土机处理器简析

*关于Magny-Cours,我们已经有了不少资料,因此这里就说一些之前没说过或者说的不够清楚的地方

  和Istanbul一样,Magny-Cours仍然是基于45nm SOI工艺,实际上,它就是将两个Istanbul封装在了一起,并做了一些改进,这个工艺就是业界常见得MCM(Multi Chip Module,多芯片模块)封装。


比原来显得更细长了,接口也从老的Socket F 1207变更为G34


Magny-Cours晶圆图

  核心 方面也必须做出改变,为了核心能直接连接,要额外多设计些HT总线才成,因此,每一个Magny-Cours核心的HT总线从Istanbul的3条增加到了4条:


HT0、HT1、HT2、HT3,一共四条

  整个12核心CPU对外的HT总线条数也是4条,不过,和人们通常想的不太一样,Magny-Cours并不是使用了两个HT总线进行内部互联,它使用了1.5条HT总线。具体如下面两幅图所示:


内部架构图一(应该很接近或者就是真实情况)


官方给出的内部架构图(可见,P0是上一个图的Die 1,P1是上一个图的Die 0,刚好反过来)

  笔者整理如下:
P0:5个HT链接,一个外部的x16 cHT和一个x8 cHT,还有一个x16弃而不用(NC:No Connection),一个内部的x16 cHT和一个x8 cHT连接到P1
P1:5个HT链接,和P0一样,只是P0弃而不用的x16 cHT现在引出
整个处理器内部:2个HT链接,其中一个x16 cHT链接,一个x8 cHT链接
整个处理器外部:5个HT链接,其中三个x16的全链接,一个由P0提供,两个由P1提供;最后是两个x8的半链接,每个核心模块提供一个

  这样组装起来的话,Magny-Cours倒是提供了4个x16的cHT总线链接,不过其中一个是由两个核心模块提供的x8拼起来的。Magny-Cours这种内部不对称外部也不对称的总线方式颇为令人费解,还有,cHT是什么?请看下一页。

  尽管在桌面市场上,HT 2.0、HT 3.0已经得到了广泛的应用,但是在服务器平台上,AMD受限于自己没有主板芯片组,因此一直被局限在HT 1.0上,各种版本的HT总线性能对比如下所示,目前最新的版本是3.1:


HT总线之路


历代HT总线对比;Istanbul支持HT 3.0,但是由于平台的缘故通常达不到

   HT 3.1将时钟频率提升到了3.2GHz,而服务器平台之前的只有800MHz,带宽从12.8GB/s提升到了51.2GB/s,提升幅度达到了300%,跨度非常之大,预计对多路服务器性能的具有很大的正面作用。作为对比,竞争对手的单个QPI目前提供的是25.6GB/s的总带宽。除了巨大的带宽之外,HT 3.1还提供了一个Link Spliting(un-gangling)的技术,笔者将其翻译为链路分割(拆分)模式,它意味着每一个HT链接可以分割为两个半链接,只拥有一般的带宽但是具有完整的连接作用。HT 1.x和HT 2.x都没有这个功能。


HT链路分割技术可以用于构建大规模的的SMP系统

  通过HT链路分割技术,Magny-Cours不仅实现了内部通过1.5个全链接互联的结构,还可以将4个外部全链接分割为8个半链接,从而形成一个8路96核心、包含8个I/O芯片的大型SMP系统,如上图所示。HT 3.1还提供了热插拔、AC/DC自动操作转换、动态链路时钟/位宽调整、DirectPackets数据流、PCI Express映射等增强功能,总的来说,进步非常大。


2路与4路Magny-Cours系统


4路Magny-Cours系统

   最后,每一个Magny-Cours处理器可以支持达4通道的DDR3 1333内存,比起上一代的Istanbul(双通道800)也是一个不小的飞跃。

  MCM多核心和HT 3.1总线是Magny-Cours的最大特点(内存系统从DDR2升级到DDR3也算一个),此外,Magny-Cours搭载的HT Assist技术也是一个比较重要的技术之一,这个技术在Istanbul上已经出现,但是它对于核心更多的Magny-Cours来显得更为重要。


Cache Coherence,缓存一致性;Cache Coherence NUMA(ccNUMA)是目前多路处理器系统的主流架构

  HT Assist就是Probe Filter,作用是用来提升多路处理器系统维持缓存一致性的效率,在前面我们提到的cHT,就是指缓存一致性的HT总线系统。HT Assist是用一个Probe Filter部件来侦测、缓存并加速HT总线上的缓存一致性操作:


HT Assist技术就是增加的Probe Filter部件

  HT Assist实际上借用了L3缓存的一部分。在关闭HT Assist时,每个Magny-Cours可以获得12MB的L3缓存容量,而打开HT Assist之后,将会只剩下10MB的L3,以及2MB的HT Assist缓存容量。要记住Magny-Cours里面是两个CPU模块,每个模块是5MB的L3和1MB的HT Assist缓存。


HT Assist工作原理

  通过侦测本地缓存线上的操作,避免了原有情况下,一个CPU需要获得远端缓存页面需要进行广播并导致多个核心中断并响应的情况。在HT Assist下,只需要很少的操作就可以完成,并且不会打扰无关的处理器,节约了总线带宽。


1MB的HT Assist缓存可以覆盖16MB的L3缓存 

    【IT168评测中心】其实,3月30日是一个非常特别的日期,不仅仅是AMD Magny-Cours的发布日,也是Intel Nehalem-EX的发布日。Nehalem-EX是一个面向多路系统的8核心处理器,Magny-Cours同样面向多路系统,但是拥有更多的处理器核心:12个。然而Nehalem-EX具有超线程技术,可以提供16个逻辑处理器。总的来看,似乎它们是半斤八两。


十二核:狭长的CPU


G34插槽,AMD总算要换平台了


据说功耗和Istanbul维持一致


搭配的AMD SR5690芯片组

  相比Istanbul,Magny-Cours在功耗没有明显增加的情况下提升整整一倍的处理器核心数量确实是比较难得。尽管在微架构上Magny-Cours并没有什么改进,然而Nehalem-EX和Nehalem相比也没有太多的改进……限于AMD整个平台已经有好一段时间未有大变动了,Magny-Cours带来的架构变化称得上是非常之大,性能应该也会有明显的增长。它有望拉近目前AMD服务器处理器与Intel服务器处理器之间的性能差距。

  Magny-Cours和Nehalem-EX这一对同日发布的高端x86处理器到底谁更强一些呢?或许你们各自有不同的看法,或者你们也猜到了笔者的看法,无论如何,请继续关注我们IT168评测中心未来的Nehalem-EX和Magny-Cours的测试给出的最终答案。

双线程还是双核?AMD推土机处理器简析

六核时代 AMD最新伊斯坦布尔处理器解析

AMD六核Istanbul 曙光四路服务器评测

ISSCC 2010:Nehalem-EX的环状总线架构

Intel 32nm Westmere-EP处理器首发评测

0
相关文章