服务器 频道

从超龙计划谈龙芯未来 揭秘8核实测性能

  揭秘龙芯8核性能 能效比大胜x86处理器

  从前文我们对龙芯产品路线图的拆解,可以看出目前性能最强的龙芯处理器是面向服务器的龙芯3A——凭借65nm工艺制程,原生四核架构,主频1GHz,内含两条HT超传输总线和两个DDR2/3内存控制器,使其架构上不输于任何主流的x86架构处理器。

  下图给出更多关于龙芯3A处理器的细节,这里只提一下GS464处理器核的意思是Godson464计算核心(Godson是龙芯的开发代号,玩笑称龙芯“狗剩”也是这么来的)。在上一篇文章中我们队龙芯3A做了一些讲解(详情请见:CB50-A龙芯刀片服务器内部设计结构详解),这里不在赘述。

  对于即将于今年6月~7月流片(试制)的龙芯3B八核处理器,这里要详细介绍一下:该处理器采用65纳米工艺,主频1GHz,片内集成了8个龙芯GS464处理器内核(后面我们会说它是如何做的),双精度浮点能力达到128GFlops(四核龙芯3A的双精度浮点只有16GFlops)。根据目前的资料,龙芯3B的八个内核会共享4MB L2缓存(这里要多说两句:由于龙芯是MIPS架构,与x86架构执行原理不同,因此并没有大容量的缓存设计(如x86处理器动辄10来兆的缓存等)。总之,别用缓存多少判断不同架构的处理器性能,感兴趣的同学可以自行研究一下);而内存控制器和HT超传输总线仍然保持与四核龙芯3A一样的规格,处理器的设计功耗小于25瓦。

  处于保密考虑,我们并没有获得龙芯3B八核处理器的晶圆图和内部结构图。但是,我们可以通过龙芯3B和未来16核龙芯3C处理器的规格推测其大致架构。

  如上图所示,龙芯3A的结构我们已经了解。而龙芯3B的封装似乎是两个龙芯3A通过MCM技术(MCM是一种由两个或两个以上裸芯片或者芯片尺寸封装(CSP)的IC组装在一个基板上的模块,模块组成一个电子系统或子系统)封装在一起得到的——让人想起了英特尔早期的双核/四核处理器以及AMD最新的“马尼库尔”12核处理器(将两个6核“伊斯坦布尔”封装在一起)。实际上,这种做法在半导体行业非常普遍,所要解决的问题也很常规——两个封装的处理器如何保持低延迟通讯和协同工作——龙芯的答案很简单:用Hypertransport超传输总线直连。

  在龙芯3A中,两条HT总线的分工是:其一负责HT总线的调度,另一个负责缓存以及MC;那么到了龙芯3B,一主一从两个内核如何互联呢?我们来参考一下12核“马尼库尔”的互联吧:


马尼库尔用了1条半HT总线连接两个Die——DCA 2.0直连架构2.0的优势之一就是单条HT总线可以拆一半

  可以看出,马尼库尔每个内核有4条超传输总线,因此各分出了1条用于两者之间的互联通讯,那么从八核龙芯3B对外只有2条HT总线来看,可以推测两个3A内核各分出一条HT总线用于通讯,形成了前图所示的封装结构——当然,这只是猜测,具体细节我们不得而知。

  展望一下16核龙芯3C,四个龙芯3A模块通过MCM技术“简单的”封装在一起——如果仍然保持现在的HT总线规格,那么显然是不够的(每个模块的两个HT总线要分别和其他两个相邻模块通讯)。所以,可以肯定的是,HT总线条数会增多,以应对复杂的内部通讯,而如果只是实现相邻内核模块间的直连,也未免太落后了(要知道16核龙芯3C直接跨越了45nm和32nm工艺,到了28nm)。因此,龙芯3C大致会像“马尼库尔”一样用多条HT总线将每个内核之间的通讯时间减少到“一跳”。目前,我们也只能从性能提升幅度来观摩龙芯3C的设计——384GFlops的双精度浮点速度。

  我们来揭晓一组实测数据,包括了4核心龙芯3A,8核心龙芯3B,英特尔上一代面向多路的至强7460,Nehalem架构的至强X5570,还有上一代安腾处理器,AMD的皓龙8384“上海”,以及IBM的Power 6+处理器,主要体现的是其双精度浮点运算性能、功耗、以及效能比(每瓦功耗的实际计算性能Gflops):

  可以看出龙芯处理器的优势了——超高能效比。4核龙芯3A的功耗只有10瓦,而8核龙芯3B的功耗也只有20瓦,与之强大的双精度浮点运算性能相比,其能效达到了1.6Gflops/Watt和6.4Gflops/watt。相比之下,英特尔和AMD的x86处理器普遍不具竞争力——同样是四核的情况下,其产品性能均超过龙芯3A,但代价是功耗居高不下。在面向数据中心和高性能计算的环境中,单一处理器的性能并不是首选,用户更看重功耗带来的运营费用,因此能效比方面龙芯拥有巨大优势。而作为RISC小型机的主力Power 6+,受制于核心过少(只有2个),因此即便主频高达4.7GHz,也没有得到更高的双精度性能,能耗也在120W,自然比不了龙芯。

  可惜的是,这张实测图因为时间关系,没有加入英特尔最新至强5600,至强7500系列处理器,AMD十二核“马尼库尔”,IBM Power 7处理器做比较,相信这些处理器的效能比会超过龙芯3A,但能否达到龙芯3B强悍的6.4Gflops/Watt,则是一个问号。我们将在今后对比这些新款处理器的实测数据来验证。

  最后,读者大概有一个疑问:为什么龙芯多核的效率会如此高?4核还是16GFlops,8核就到了128GFlops,16核到了384GFlops——核心数量翻倍,理论上由于多核通讯的延迟和执行效率,实际性能达不到翻倍,而龙芯3A到3B再到未来的3C,计算性能有革命性的提升。其实,这不仅仅是多核心带来的效率,还有架构和制程带来的改善——与x86架构不同,MIPS这类架构在并行计算上具有双精度优势,且由于对I/O读写的要求低(x86指令集决定了其70%的时间在做I/O操作),因此龙芯在“胶水”出多核的时候,就没有x86处理器碰到的I/O瓶颈那么严重,实际计算效率都要高的多。

    预报:请关注IT168服务器频道近期推出的“龙腾芯跃”电子杂志,汇总有关龙芯最详尽的产品解读,战略分析和规格揭秘——往期请看: 《企业计算e周刊》2010年第9期

0
相关文章