服务器 频道

新一代45nm Penryn/Nehalem微架构分析

  2007年11月,Intel英特尔将会发布一系列新处理器产品,其中将会包括用于双路服务器的Xeon系列处理器和用于高端PC的处理器,它们均采用了目前非常先进的采用了45nm制程技术,戈登•摩尔先生给予了这项技术极高的评价:“采用高-k栅介质和金属栅极材料,是自上世纪60年代晚期推出多晶硅栅极金属氧化物半导体(MOS)晶体管以来,晶体管技术领域里最重大的突破!”我们将通过一系列的文章帮助读者提前了解这一技术和相关的产品。

  【IT168评测中心】2006年Intel正式发布了新一代的Core微架构,并很快取代了市面上疲态已露的NetBurst微架构,成功地令Intel重新站上x86处理器产品的领导地位,并最终让Intel的Tick-Tock微架构发展战略站到了人们的面前。这个Tick-Tock微架构发展战略就是每一年都推出新处理器技术时,都会具备改良的微架构,或者是全新设计的微架构,从而能不断维持微架构的更新,推动技术乃至市场的进步。

  Tick-Tock就是时钟的“嘀嗒”的意思,一个嘀嗒代表着一秒,而在Intel的处理器发展战略上,每一个嘀嗒代表着2年一次的工艺制程进步。每个Tick-Tock中的“Tick”,代表着工艺的提升、晶体管变小,并在此基础上增强原有的微架构,而Tick-Tock中的“Tock”,则在维持相同工艺的前提下,进行微架构的革新,这样在制程工艺和核心架构的两条提升道路上,总是交替进行,一方面避免了同时革新可能带来的失败风险,同时持续的发展也可以降低研发的周期,并可以对市场造成持续的刺激,并最终提升产品的竞争力。

  按照Tick-Tock规划,Conroe面市1年后的今天,Intel将会推出45nm工艺、基于Core微架构改良的处理器产品,也就是我们熟知的代号为Penryn的新一代Core 2 处理器家族。Penryn家族将基于全新45纳米High-K金属闸极(High-K Metal Gate) 技术,配合经过改良的微架构设计,达成Intel目标每年推出具备增强微架构或全新微架构处理器产品的承诺。

  新的45nm Penryn家族包含了3个产品线共7名成员,包括有双核心桌面处理器Wolfdate、四核心桌面处理器Yorkfield、双核心移动处理器 Penryn、双核心Xeon DP处理器 Wolfdate DP、四核心 Xeon DP处理器Harpertown、双核心 Xeon MP处理器Dunnington DC及四核心Xeon MP处理器Dunnington QC。

  根据Intel的处理器规划,首颗发布的45nm处理器将会是桌面处理器:四核心Yorkfield,它预定于2007年11月份正式面市,紧接着登场的则是桌面双核心Wolfdate,预计2008年上半年,按照我们的消息,这个首发Penryn处理的准确型号应该是Core 2 Extreme QX9650。

  移动处理器方面,45nm的Penryn将于2008年第一季上阵,首季出货比重将占整体移动处理器产品的20%,而在第二季推出全新Centrino平台Montevina后,45nm处理器由于能耗方面的独特优势,在移动处理器中的比重将会超过50%,并迅速完成世代交替。

  最后在服务器处理器方面,Xeon DP四核心Harpertown将于2007年11月与桌面四核心同步登场,Xeon DP双核心Wolfdale-DP则要晚上一季,与桌面双核心Wolfdate同时于2008年首季发表,而Xeon MP双核心Dunnington-DC及四核心Dunnington-QC,则规划于2008年下半年现身。

  到了2008年度之后,保持45nm工艺而架构全面革新的Nehalem将会登场,其加入动态管理内核设计等许多令人振奋的全新设计,在后面我们将会对其进行简单的分析。

  如前面说述,Penryn是45nm工艺的第一个处理器产品线,因此其在核心架构上的变化不会太大,实际上它就是在Core微架构上进行改进的产品。然而就算是这样,Penryn的改动也不小。

  从架构上看,除了45nm工艺带来的电气改进之外新的Penryn微架构主要有5方面的改进:

Intel Wide Dynamic Execution(Intel宽动态执行)方面的改进着实从基础上提升了处理器的运算性能,包括快速16进制除法器、更快速的操作系统基础支持、增强的Intel虚拟化技术三个部分。

Intel Advanced Smart Cache(Intel先进智能缓存)则进一步提升了缓存性能,以符合未来多核心的趋势,其包括了更大容量的缓存以及更多路的缓存关联。

Intel Smart Memory Access(Intel智能内存存取)提升了装载数据的速度,包括强化的存储转发结构和更高的总线带宽设计。

Intel Advanced Digital Media Boost(Intel先进数字媒体增强)则是对数字媒体的一系列优化、增强,包括了SSE4指令集的加入,以及全新的Super Shuffle Engine超级传送引擎。

Intel Intelligent Power Capability(Intel智能电源特性)则是充分发挥新制程的特点,降低总体能源的消耗,包括了深层关机技术和增强的Intel动态加速技术。

  这些部分的改进具体包含什么样的内容呢?效能如何呢?下面我们就一一观看。

  包含在Intel宽动态执行改进之内的改进属于运算架构基础的改进,这种基层的改进通常可以不需要任何改动就可以感受到明显(或者不明显)的进步,这方面的改进包括了Faster Radix-16 Divider(快速16进制除法器)、Faster OS Primitive Support(更快速的操作系统基础支持)、Enhanced Intel Virtualization Technology(增强的Intel虚拟化技术)三个部分。

Faster Radix-16 Divider(快速Radix-16除法器)

  虽然除法也可以用乘法来代替,不过单独的除法指令、除法运算器部件显然可以提升效能,Penryn架构搭载了新的16进制除法部件,可以提供目前最优异的除法性能。传统的2进制或者4进制除法只能在每个时钟处理1位或者2位数据(2个位就能表示4个数,也就是4进制的意思),而Penryn 16进制除法器可以每个时钟处理4位数据(4个位就能表示16个数),可以大大提升包括整数、浮点在内的除法性能,并大大优化了平方根的运算,而且Penryn的除法器的Early-out构造可以以极低的延迟输出结果,最小值需要6个时钟周期。

  如此执行除法的时候,我们可以获得可观的性能提升,最终可以得到平均2倍的除法器性能,除法器的性能对什么应用有益呢?科学运算,3D应用程序等等都可以获益,如Half-Life这样的游戏使用了大量的除法、平方根运算,应该可以获得很大的提升,我们以后会对这个结论进行检验。

Faster OS Primitive Support(更快速的操作系统基础支持)

  Penryn通过提升中断遮罩控制以及时间戳计数器的性能,从而达到提升操作系统同步性能的目的。通常的多任务操作系统中,需要通过大量的中断请求来分配处理器资源给各个部件,而在繁忙的操作系统中,不同程序中大量的定时器/计数器需要不停地查询时间戳计数器,通过2倍于原来速度的CLI/STI/RDTSC指令执行速度,Penryn架构大大提升了这些应用的性能,例如数据中心、事务处理等应用都可以从中获得明显的提升,这有点像现代芯片组中新增加的精确时钟技术。

Enhanced Intel Virtualization Technology(增强的Intel虚拟化技术)

  作为当前的热点,也是Intel当前专注的部分,虚拟化技术也没有被忽略,这个持续发展中的技术也获得了改进:VM Exit/VM Entry性能获得了25%~75%的提升,在虚拟化应用中,虚拟机切换是很频繁的,VM Exit/VM Enry的执行也就很是频繁,这方面的改进可以明显地改进虚拟机(特别是多虚拟机)下的性能。关于Intel VT技术的发展,可以参看:从VT-x到VT-d Intel虚拟化技术发展蓝图

Intel Advanced Smart Cache(Intel先进智能缓存)

  Intel Advanced Smart Cache其实就是L2缓存方面的改进,对Intel的处理器来说,L2缓存对性能的影响是很大的,Penryn处理器家族的L2缓存容量得到了提升,双核心版本将拥有最多6MB、四核心将拥有最多12MB的L2缓存,比上一个版本增大了50%。并且在容量提升的基础上,Penryn还把L2 Cache的Associativity关联性由上一代的16路提升到了24路,令L2缓存存取的平均潜伏期得到了进一步的下降。

Intel Smart Memory Access(Intel智能内存存取)

  除了更快的1600MT/s总线可以提供更高的存取速度之外,Penryn架构还提供了Improved Store Forwarding强化存储转发特性,通过新的64位载入指令,提升了内存之间、核心之间等的存储转发性能。

  Intel Advanced Digital Meida Boost(Intel先进数字媒体增强)是Core架构以来特别强调的部分,主要包括了多媒体指令集SSE系列的更新,现在Penryn处理器包含了新的SSE4指令集(准确来说是SSE4.1),以及新的Super Shuffle Engine超级传送引擎。

  Penryn搭载的47条SSE4.1特别为多媒体而优化,在相关应用方面可以提升100%多的性能(DivX 6.6 Alpha编码测试),在图形、图像方面也有着不小的提升。关于SSE4指令集的比较详细的分析,可以参看:IA32多媒体指令集革命 Intel SSE4前瞻

Super Shuffle Engine超级传送引擎

  Super Shuffle Engine其实是加速SSE相关数据的传输转移过程,包括打包、解压、对齐、宽进位等操作,都可以通过Super Shuffle Engine来加速,从而可以在每个时钟周期内完成128位的操作。这个加速是完全硬件的,不需要软件的变动。

  Super Shuffle Engine是和SSE应用息息相关的,SSE应用需要应用到大量数据的运输、处理,因此Super Shuffle Engine可以最终让SSE数据转移的速度提升到原来的两倍,对SAD、混合、分布创作等运算都能起到增强性能的作用,从而最终提升多媒体程序的运行速度。

   从65nm进程进化到45nm进程,很明显地晶体管的大小就降低了,如上图所示,采用45nm工艺、具有8.2亿晶体管的Intel Harpertown Xeon 5400只具有107平方毫米的面积,而65nm工艺、只具有3.82亿晶体管的Intel Clovertown Xeon 5300的面积达到了143平方毫米,晶体管密度几乎提升到了原来的3倍!晶圆面积的缩小带来的就是能源的降低,关于这部分的详细信息,可以参看:40年大突破 英特尔45nm晶体管技术解析,我们现在分析的是Penryn架构带来的两项移动处理器专用电源管理技术。

Deep Power Down Technology深层关机技术

  我们对C1E、EIST等技术已经熟知能详了,DPDT深层关机技术在先前架构的基础上再引入了一个被称为C6的深层关机状态(当然,还有一个C5,不过这不是重点)。在以往的状态中,休眠的处理器最低可切换到C4状态,此时核心电压会略微降低(EIST的功能),核心时钟和PLL始终都会进行关闭,L2缓存的数据会部分地写入到外部存储器,而L1缓存则会完全地写入外部存储器而处于休眠状态,而在新的深层关机状态中,核心电压会降得更低,L1、L2缓存电路会完全地关闭,此时处理器的功率会降低到一个前所未有的高度,大大地降低了待机能耗。

  此外,Penryn的Deep Power Down Technology还提升了状态切换的速度,可以很快地在各种状态切换的速度,从而可以更多地进入各种低能耗的状态。

Enhanced Intel Dynamic Acceleration Technology增强Intel动态加速技术

  Enhanced Dynamic Acceleration Technology增强动态加速技术其实是一个超频技术,和我们的超频不同的是,Intel需要保证这个功能的正常运作。Enhanced Dynamic Acceleration Technology增强动态加速技术用于提升多核系统在休眠状态下的性能——这听起来很怪,不过它确实可以降低一些能耗,同时通过提升单个核心的频率提供足够的性能,用来避免两个核心的负载都不充足时带来的能耗。

  其实,Core 2 Extreme QX9650的消息也已经流传比较多了,作为至尊系列的优异CPU,Core 2 Extreme QX9650具有着4个3GHz的45nm Penryn核心,而起功耗仅为130W,和当前的相同等级CPU一致,而性能从则会大大胜出,我们预计11月初Intel将会正式发布这款CPU,届时我们IT168评测中心也将会对这款处理器进行详尽的测试,察看其改进的架构是否体现到了性能上的提升。

  好马配好鞍,好的处理器也要配好的芯片组,虽然X38芯片组推出有一些时日了,不过Intel之前一直对X38芯片组采取按兵不动的姿势,一方面用户从P35升级的欲望不大,另一方面配合处理器推新芯片组,才是Intel的平台思想的体现。X38芯片组最大的特点是支持双PCI Express 2.0规范的PCIE x16接口,可以完美地搭建SLI/CrossFire多显卡平台,同时支持的内存传输频率也上升到了1333MHz,新的ICH10南桥也带来了不少的新特性。

   在服务器平台方面,45nm Penryn将会继续应用当前的Stoakley平台和Caneland平台:

  关于服务器的Stoakley平台和Caneland平台,可以查看我们IT168的精彩专题:提升100%?透视英特尔Caneland四路平台

  从前面可以看出,45nm Penryn架构的改动并不算是太多,不过基于新工艺带来的频率提升,以及SSE4的应用,Penryn还能具有着明显的性能增强,那45nm Nehalem呢?

  45nm Nehalem处理器预计在08年第四季度推出,因此关于它仍然具有一些变数,例如其内核的准确结构就无法得知。然而根据资料,我们还是可以得出一些有用的信息:

  Nehalem将会是一种注重Scalability可伸缩性的架构,一方面它可以根据需要动态地管理核心、线程,另一方面它的架构可以根据需要变得很复杂,可以满足高性能计算的要求。Nehalem还增强了缓存的共享性以及能源管理特性,并再次提供了超线程技术。

  Nehalem最令人印象深刻的就是可扩展性了,这个特性由两部分组成:Intel QuickPath Architecture快速路径架构和Integrated Memory Controller集成内存控制器。从上图可以看出,两个Nehalem处理器可以具有两套内存系统,处理器之间、处理器和北桥之间都具有直接的通道,如此数据的交通速度得以大大地提升,还记得双路/多路Xeon共享古老的FSB引起的指责么?

  假如双路系统的表现还不够明显的话,那么四路系统就很直观了:每个CPU之间都具有专用的直通通道,共4组的内存提供了大容量支持以及高带宽,更多的IOH可以连接更多的外部设备。

  8路乃至更多路的时候QuickPath架构的威力就会得以完全体现,每个CPU可以提供4个QPI(QuickPath Interface),我们可以看到8个CPU组成了一个典型的超立方体结构——这是超级计算机组织CPU的其中一种形式,特点是处理器之间通信的延迟随着处理器的数量提升成缓慢的对数关系,可以组建很大的处理器阵列,从这方面可以看出,x86架构在高性能计算方面的种种野心。

 

  工艺的进步和架构的改进,这些都集中在更高的性能和更低的能耗上面来,45nm Penryn的推出,将会继续稳固Intel在桌面处理器的领导地位,同时在服务器对抗竞争对手AMD的Barcelona处理器上可以获得有力的支撑。一个清晰、明了的战略的成功,可以同时增强投资者和用户的信心,Intel的Tick-Tock微架构发展战略无疑就是这样的例子。在不提升价格的同时持续地提升每瓦特性能比参数,提升功耗与效能表现,同时提供各种令人兴奋的新特性,这就是用户将真正地获得的益处。

0
相关文章