从超龙计划谈龙芯未来揭秘8核实测性能-服务器专区

从超龙计划谈龙芯未来揭秘8核实测性能

作者：IT168 孟庆编辑：孟庆 2010-04-28 23:11 来源：IT168�

　　揭秘龙芯8核性能能效比大胜x86处理器

　　从前文我们对龙芯产品路线图的拆解，可以看出目前性能最强的龙芯处理器是面向服务器的龙芯3A——凭借65nm工艺制程，原生四核架构，主频1GHz，内含两条HT超传输总线和两个DDR2/3内存控制器，使其架构上不输于任何主流的x86架构处理器。

　　下图给出更多关于龙芯3A处理器的细节，这里只提一下GS464处理器核的意思是Godson464计算核心(Godson是龙芯的开发代号，玩笑称龙芯“狗剩”也是这么来的)。在上一篇文章中我们队龙芯3A做了一些讲解(详情请见：CB50-A龙芯刀片服务器内部设计结构详解)，这里不在赘述。

　　对于即将于今年6月~7月流片(试制)的龙芯3B八核处理器，这里要详细介绍一下：该处理器采用65纳米工艺，主频1GHz，片内集成了8个龙芯GS464处理器内核(后面我们会说它是如何做的)，双精度浮点能力达到128GFlops(四核龙芯3A的双精度浮点只有16GFlops)。根据目前的资料，龙芯3B的八个内核会共享4MB L2缓存(这里要多说两句：由于龙芯是MIPS架构，与x86架构执行原理不同，因此并没有大容量的缓存设计(如x86处理器动辄10来兆的缓存等)。总之，别用缓存多少判断不同架构的处理器性能，感兴趣的同学可以自行研究一下);而内存控制器和HT超传输总线仍然保持与四核龙芯3A一样的规格，处理器的设计功耗小于25瓦。

　　处于保密考虑，我们并没有获得龙芯3B八核处理器的晶圆图和内部结构图。但是，我们可以通过龙芯3B和未来16核龙芯3C处理器的规格推测其大致架构。

　　如上图所示，龙芯3A的结构我们已经了解。而龙芯3B的封装似乎是两个龙芯3A通过MCM技术(MCM是一种由两个或两个以上裸芯片或者芯片尺寸封装(CSP)的IC组装在一个基板上的模块，模块组成一个电子系统或子系统)封装在一起得到的——让人想起了英特尔早期的双核/四核处理器以及AMD最新的“马尼库尔”12核处理器(将两个6核“伊斯坦布尔”封装在一起)。实际上，这种做法在半导体行业非常普遍，所要解决的问题也很常规——两个封装的处理器如何保持低延迟通讯和协同工作——龙芯的答案很简单：用Hypertransport超传输总线直连。

　　在龙芯3A中，两条HT总线的分工是：其一负责HT总线的调度，另一个负责缓存以及MC;那么到了龙芯3B，一主一从两个内核如何互联呢?我们来参考一下12核“马尼库尔”的互联吧：

马尼库尔用了1条半HT总线连接两个Die——DCA 2.0直连架构2.0的优势之一就是单条HT总线可以拆一半

　　可以看出，马尼库尔每个内核有4条超传输总线，因此各分出了1条用于两者之间的互联通讯，那么从八核龙芯3B对外只有2条HT总线来看，可以推测两个3A内核各分出一条HT总线用于通讯，形成了前图所示的封装结构——当然，这只是猜测，具体细节我们不得而知。

　　展望一下16核龙芯3C，四个龙芯3A模块通过MCM技术“简单的”封装在一起——如果仍然保持现在的HT总线规格，那么显然是不够的(每个模块的两个HT总线要分别和其他两个相邻模块通讯)。所以，可以肯定的是，HT总线条数会增多，以应对复杂的内部通讯，而如果只是实现相邻内核模块间的直连，也未免太落后了(要知道16核龙芯3C直接跨越了45nm和32nm工艺，到了28nm)。因此，龙芯3C大致会像“马尼库尔”一样用多条HT总线将每个内核之间的通讯时间减少到“一跳”。目前，我们也只能从性能提升幅度来观摩龙芯3C的设计——384GFlops的双精度浮点速度。

　　我们来揭晓一组实测数据，包括了4核心龙芯3A，8核心龙芯3B，英特尔上一代面向多路的至强7460，Nehalem架构的至强X5570，还有上一代安腾处理器，AMD的皓龙8384“上海”，以及IBM的Power 6+处理器，主要体现的是其双精度浮点运算性能、功耗、以及效能比(每瓦功耗的实际计算性能Gflops)：

　　可以看出龙芯处理器的优势了——超高能效比。4核龙芯3A的功耗只有10瓦，而8核龙芯3B的功耗也只有20瓦，与之强大的双精度浮点运算性能相比，其能效达到了1.6Gflops/Watt和6.4Gflops/watt。相比之下，英特尔和AMD的x86处理器普遍不具竞争力——同样是四核的情况下，其产品性能均超过龙芯3A，但代价是功耗居高不下。在面向数据中心和高性能计算的环境中，单一处理器的性能并不是首选，用户更看重功耗带来的运营费用，因此能效比方面龙芯拥有巨大优势。而作为RISC小型机的主力Power 6+，受制于核心过少(只有2个)，因此即便主频高达4.7GHz，也没有得到更高的双精度性能，能耗也在120W，自然比不了龙芯。

　　可惜的是，这张实测图因为时间关系，没有加入英特尔最新至强5600，至强7500系列处理器，AMD十二核“马尼库尔”，IBM Power 7处理器做比较，相信这些处理器的效能比会超过龙芯3A，但能否达到龙芯3B强悍的6.4Gflops/Watt，则是一个问号。我们将在今后对比这些新款处理器的实测数据来验证。

　　最后，读者大概有一个疑问：为什么龙芯多核的效率会如此高?4核还是16GFlops，8核就到了128GFlops，16核到了384GFlops——核心数量翻倍，理论上由于多核通讯的延迟和执行效率，实际性能达不到翻倍，而龙芯3A到3B再到未来的3C，计算性能有革命性的提升。其实，这不仅仅是多核心带来的效率，还有架构和制程带来的改善——与x86架构不同，MIPS这类架构在并行计算上具有双精度优势，且由于对I/O读写的要求低(x86指令集决定了其70%的时间在做I/O操作)，因此龙芯在“胶水”出多核的时候，就没有x86处理器碰到的I/O瓶颈那么严重，实际计算效率都要高的多。

预报：请关注IT168服务器频道近期推出的“龙腾芯跃”电子杂志，汇总有关龙芯最详尽的产品解读，战略分析和规格揭秘——往期请看：《企业计算e周刊》2010年第9期

第1页：从科研到“超龙计划” 龙芯未来用三条腿走路第2页：揭秘龙芯8核性能能效比大胜x86处理器

关注我们

从超龙计划谈龙芯未来 揭秘8核实测性能

从超龙计划谈龙芯未来揭秘8核实测性能