新年展望：令人期待的Nehalem-EP处理器-服务器专区

新年展望：令人期待的Nehalem-EP处理器

作者：赵效民编辑：洪钊峰 2009-02-06 16:20 来源：ITPUB.n

　　【IT168 资讯】2008年11月17日，英特尔新一代处理器架构随着Core i7的发布而正式走向前台。这个全新架构的代号就是Nehalem，Core i7只是这个家族的先行者，代号Bloomfield。在新的一年中，我们将会看到Nehalem新军不断涌现，它们将覆盖上到高端服务器，下到移动电脑的广阔领域。而对于服务器市场，2009年3月即将上市的，代号为Nehalem-EP的Xeon 5500系列处理器无疑是令人期待的。

　　其实，进入2008年以来，有关于Nehalem的介绍就有很多了，到Core i7发布时，业界对其架构的变化已经了如直掌，然而Nehalem-EP相对于Bloomfield仍然有一些细节的不同，另外，相对于上一代45nm的Xeon 5400（代号Harpertown），还有不少人不太清楚其具体的区别。在辞旧迎新之际，我们在此做一梳理，希望能对大家有所帮助。

英特尔的TICK-TOCK战略

　　在介绍Nehalem-EP之前，我们有必要回顾一下英特尔在处理器方面的发展策略，这非常有助于我们掌握英特尔的CPU发展脉搏，并对其产品的交接换代有一个清晰的认识。简而言之，英特尔的CPU发展战略就是TICK-TOCK。

　　有人可能不太明白TICK-TOCK的意思，在英特尔的解释中，如果一座钟代表时间的发展与时代的进步，那么钟摆就为我们呈现出了一个时间的节奏，你可以把TICK-TOCK想像成钟摆左一下右一下的“嘀哒”声，那么对于英特尔的CPU发展来说，每一个声音都代表了相应层次上的进步。

　　英特尔认为对于处理器最重要的是其内部的架构，这个架构的好坏直接关系到了处理器的交通，其次就是生产工艺，它关系到了处理器的成本与能耗，并将为下一代处理器架构提供新的研发基础。所以英特尔TICK-TOCK战略与架构/生产工艺相挂钩，一年一年的交替进行，从而推动处理器的整体发展。

　　英特尔的TICK-TOCK战略示意图，你可以简单的理解为TICK年为生产工艺进步年，TOCK年为处理器架构革新年，而一个生产工艺将会跨越两代处理器架构，而每一个处理器架构将会跨越两代生产工艺

　　以这个发展战略的视角再去看Nehalem，就可以知道它是TOCK产物，为今后两年的英特尔处理器树立了发展方向。在2009年3月，Nehalem-EP就将闪亮登场，而在这一年中，延用Nehalem架构，但采用下一代32nm生产工艺的Westmere将会发布，2010年年底采用新一代处理架构的Sandy Bridge将成为Nehalem的接班人。

　　下面我们就简要回顾一下Nehalem－EP的新亮点，由于以前已经有很多文章介绍了Nehalem，我们在此只是把相关的重点变化再过一遍。

Nehalem-EP新亮点：High-K 45nm工艺为日后打好基础

　　High-K就是高介电材料的简称，在半导体工艺不断进步中，伴之而来的就是晶体管越来越小，但个体的效能如何保证则越来越成问题，因此有必要采用新的高介电材料来制作晶体管中的栅级介电薄膜，以保证更好的电气性能，并为未来的晶体管密度扩展打下良好基础。

　　传统的65和45nm工艺仍然基于传统的硅材料制作晶体管的栅级，用二氧化硅做栅级的绝缘材料，当制程进一步提升时，漏电控制与互间干扰的问题将会越来越大，从而影响整体效能的进一步提升

　　英特尔的High-K 45nm工艺采用全新的金属栅级与铪基绝缘体薄膜

　　作为英特尔的第二代45nm工艺产品，Nehalem就采用了新的High-K材料，它不仅让CPU内部的电气性能更为优秀，也保证了未来发展的潜力，这与Nehalem架构所强调的模块化发展思路正好相符。未来英特尔可以更灵活的调整CPU内的晶体管数量，并把它们用在更需要的地方，比如增加大三级缓存，比如增加新的UnCore功能模块等等。

Nehalem-EP新亮点：QPI与IMC让对手的优势消失

　　从架构上讲，Nehalem-EP相对于Core i7最大的变化就是多了一条QPI总线。

　　Core i7（上）与Nehalem-EP的内部架构图，从中可以看出来，两者最大的变化是后者多了一条QPI总线，用于和另一颗Nehalem-EP互联，而这也就意味着，Nehalem-EP仅面向双路服务器市场

　　QPI（Quick Path Interconnect）点对点总线应该算是Nehalem架构相对于上一代“酷睿”架构的两个最主要变化之一，另一个就是集成了DDR3内存控制器（IMC，Integrated Memory Controller），而这两点也是AMD长期以来的骄傲，但从Nehalem时代起，AMD则要开始在这两方面追赶英特尔了（笔者将另外撰文进行分析探讨）。

　　QPI使CPU之间的对话无需经过传统的北桥（Nehalem架构下的北桥已经演化成为I/O控制器），这种点对点的方式将非常有利于多路服务器主板的设计从而有效降低成本。而且此次英特尔一出手，即把AMD的HyperTransport（HT）总线落在了后面，传输率提升至了6.4GTs/s，远高于现在的HT 3.0（5.2GTs/s)传输率，而且位宽定了在34bit双向（每向17bit，16bit传输数据，1bit传输CRC校验数据），也明显高于AMD Opteron现在所使用的16bit双向（每向8bit位宽）HT总线。

　　这个图很明白的告诉我们Nehalem-EP在CPU互联及I/O带宽、内存控制方面的特点，它已经把竞争对手甩在了后面

　　QPI的新颖之处在于CRC数据由专用通道传输，从而可以较传统的串行总线占用更少的传输周期，而且CRC等级更高

　　Nehalem-EP的另一个强项就是三通道DDR3-1333内存，可以为CPU提供32GB/s的带宽，这也是一个创纪录的数值，远高于目前所采用4通道FB-DIMM（与此相关的分析请见本人早前的专文《英特尔用Nehalem为FB-DIMM送行》）。而DDR3在提供更高带宽的同时，由于工作电压比DDR2进一步降低了0.3V，因此在节能方面也将有更好的表现。相较之下，它将让仍在使用最高800MHz传输率和1.8V工作电压的DDR2内存的对手，明显感受到强大的压力。

Nehalem-EP新亮点：SMT让线程处理数量翻番

　　经历过Pentium4时代的人应该还记得超线程技术（HT，Hyper-Threading），由于后来英特尔采用了移动处理器开发团队的Pentium M设计而诞生了酷睿，但这个Pentium M并不具备HT，所以我们可以看到在酷睿的整个产品线中，都没有HT的身影。而此次的Nehalem在设计之初就将HT考虑在内，毕竟Pentium4的教训并不是HT而是其超长的流水线架构，HT仍然有其可取之处。不过，此次HT的回归，名字变成了并发多线程（SMT，Simultaneous Multi-Threading）。

　　上图为传统的酷睿架构，每个内核只处理一个线程，而下图则是Nehalem的SMT工作示意图，可以看出它可以让每个内核在同一时间处理两个线程

　　与HT一样，SMT技术并不是增加完整的处理单元，而是最大限度利用了现有的内核资源，所以不能像增加物理内核那样大幅度提升系统性能。但根据英特尔的测试结果，它至少可以提升10%的系统性能，最多可达30%。同时，SMT并不需要CPU在架构上做什么改动，且不用大规模增加晶体管数量，那么对于Nehalem设计师而言，让HT回归何乐而不为呢？

　　SMT的加入，让4核的Nehalem-EP在系统里看起来是8核的，但其实这是指线程，所以在英特尔的一些介绍中，可以看到4C/8T的描述，C即代表核（Core），T即代表线程（Threading）。

Nehalem-EP新亮点：三级包容式缓存减少CPU等待

　　在上一代面向双路服务器的45nm处理器Harpertown（Xeon 5400）中并没有三级缓存，但这次Nehalem-EP加上了，而且还是全包容式，这样做的好处在于它将加速缓存的查询效率，尤其是在双路系统中，节省CPU的轮询时间将非常有必要。

　　传统的共享式3级缓存，其内部存储的数据是独占的，所谓独占，是指全新的数据，并不存在于二级缓存中，当要进行数据查询时，CPU将先查找三级缓存（也就是最后一级缓存），如果没有所需的数据，还要再依次查找各处理内核的二级缓存，如果各内核的二级缓存没有目标数据，CPU才开始访问内存，这里外里耗费了5个处理周期

　　包容式三级缓存的“包容”是指CPU中每个处理内核的二级缓存数据都会在三级缓存中建立一个副本，如果进行数据查询，只需查找三级缓存即可，如果没有，则可以肯定该数据也不存在于各处理内核的二级缓存中，因此可以立即访问内存从而相较传统的共享缓存节省了4个处理周期

　　不过包容式缓存也有自己的缺点，那就是可缓存的新数据量将受到影响，以Nehalem-EP为例，其4个内核的2级缓存容量共1MB，也就是说它三级缓存的新数据量最多只有7MB，这也就意味着将降低三级缓存数据的命中概率，但凡事都有利有弊，包容式缓存在多路CPU轮询时的好处，将更是英特尔所看重的，况且三级缓存的容量日后还有扩展的余地，可查询机制则是一个根本问题。

Nehalem-EP新亮点：SSE 4.2指令集为企业IT加速

　　这个部分，是很多早前介绍文章所忽略的，但笔者通过研究发现，其对于企业IT来说有着重要的意义。

　　Nehalem所采用的新一代SSE 4.2指令集的构成与说明

　　其实SSE 4.2指令集相较SSE 4.1只增加了7条指令，这7条指令面向了两大领域，分别是字串与字符处理用的新指令（STTNI，STring and Text New Instruction)和面向具体应用的加速处理（ATA，Application Targeted Accelerators）。

　　这其中，STTNI是一个亮点，它对XML处理进行了很好的优化。我们知道，现在企业IT的SOA化趋势明显，负责企业应用之间沟通的中间件系统大多采用XML体系，这也就意味着，在这类的企业应用中，如果针对SSE 4.2指令集进行优化，那么SOA的效率也将得到进一步提升。

　　在上面这个英特尔给出的示范中，在XML解析方面，SSE 4.2指令集节省了108个的解析步骤

　　英特尔表示，采用SSE 4.2指令集后，XML的解析速度最高将是原来的3.8倍，而指令周期节省将达到2.7倍。此外，在ATA领域，SSE 4.2指令集对于大规模数据集中处理和提高通信效率都将发挥应有的作用，这些对于企业IT应用显然是有帮助的。当然，SSE 4.2指令集只有在软件对其支持后才会生产效果，但现在距离Nehalem-EP上市还有3个月的时间，相信相关的优化与升级届时就会出现。

总结：Nehalem-EP值得期待

　　通过以上的介绍，我们看出Nehalem-EP相对于上一代Harpertown（Xeon 5400）来说有了本质的变化，下面就将双方来对比一下。

　　Nehalem-EP与Harpertown（Xeon 5400）的规格各部分对比，可以看出在I/O带宽、内存带宽有了明显提高

　　根据英特尔的计划，Nehalem-EP将在2009年3月份发布并上市，现在已经相当多的OEM厂商正在进行内部测试，而根据部分已经透露出来的成绩，我们也有理由对Nehalem-EP抱以很高的期望。至少可以这么认为，以现有的架构，Harpertown都与对手周旋得不落下风，那么新一代的Nehalem-EP又将带给对手怎样的冲击呢？

　　著名的企业IT软件厂商SAP所进行的内部基准测试成绩，其中Xeon 5570隶属Nehalem-EP家族，AMD最新的“上海”45nm Opteron 8384（目前的最高主频型号）也参与了比较，而紧随Nehalem-EP的是采用4颗AMD上一代Barcelona 4核加强版处理器Opteron 8360 SE的系统，而Xeon 5570则仅是两路服务器

　　从目前所透露的成绩中，我们可以看出Nehalem-EP的强大实力，当然其竞争对手AMD也有着不小的能量，第四季度“上海”的发布，让AMD面对Harpertown与Tigerton（Xeon 7300）、Dunnington（Xeon 7400）时底气更足，并将在一定程度上进行反超。这也将预示着，AMD与英特尔之间在企业级领域的竞争将更加激烈。笔者将于近期撰写专文分析双方在2009年的竞争态势，届时英特尔的Nehalem-EX、Lynnfield、Havendale与AMD的Shanghai、Istanbul、Sao-Paulo等将悉数登场，敬请各位关注。

关注我们