服务器 频道

从IDF看英特尔服务器平台新趋势

    【IT168 专稿】在一年两次的IDF大会上,英特尔总是会给业界带来不少惊喜。虽然今年初在北京举办的春季IDF上,英特尔已经谈到了很多新东西,但随着时间的推移,于9月18日至20日在美国旧金山举办的英特尔IDF2007秋季信息技术峰会上,英特尔进一步透露了关于45纳米处理器Penryn、下一代双路服务器平台Stoakley、下一代CPU微架构Nehalem及32纳米技术等方面的更多、更新的细节信息。

    如果想找到一个可以理清诸多新信息的出发点的话,我们不妨先来看看英特尔的Tick-Tock产品创新战略。根据这一战略,英特尔会在第一年推出新一代的制程工艺技术,第二年则会推出新的微处理器架构,如此交替进行每年都有创新,从而不断提升处理器和芯片的性能和每瓦特性能,进而带动整个行业的创新。

 

英特尔每两年为一周期的Tick-Tock产品创新战略

45纳米Penryn处理器将于11月推出

    英特尔在此次IDF上透露,计划在11月12日发布45纳米处理器产品(Penryn),英特尔的OEM合作伙伴已经开始测试Penryn桌面版和服务器版芯片。为了满足多样计算的需求,英特尔会在今年年底推出15款全新的针对服务器和高端PC的45纳米处理器,到明年第一季度会推出另外20款处理器,包括一些针对笔记本电脑的产品。

    Penryn将是全球先进款主流的采用45纳米工艺制程的CPU,含有4.1亿个晶体管——当前的Core 2和至强系列处理器都是基于65纳米制程,这一工艺于2005年开始采用,更早的90纳米芯片是2003年推出的——采用更精细的工艺后,同样面积的芯片中可以放更多的晶体管。据称Penryn处理器已经为英特尔赢得了超过750项设计成果。英特尔的对手AMD 要等到2008年下半年的某个时候才能提供45纳米的产品。

    跟65纳米处理器相比,45纳米工艺一般意味着芯片更小,用电量更少,生产成本也会更低。更重要的是,Penryn芯片有望在改进功耗效率的同时,获得20%的性能提升。英特尔将Penryn芯片性能提升归结于采用45纳米工艺和高-k金属栅极晶体管技术,这可以将漏电量减少多达10倍。Penryn CPU采用了增强型酷睿微架构,会集成英特尔的SSE4指令集,支持1600 MHz系统总线,它的L2缓存将达到12MB(对四核芯片),处理器主频有望超过3GHz。虽然Penryn仍然采用酷睿微处理器架构,不过在某些方面进行了创新,包括:快速Raidix-16除法器、增强型虚拟化技术、更大的高速缓存、分离负载高速缓存增强、更高的总线速度、英特尔SSE4指令、超级Shuffle引擎、深层关机技术、增强型动态加速技术、插槽兼容等。

 

英特尔和AMD处理器微架构特性对比

    在桌面领域,英特尔会先发布高端四核Core 2 Extreme系列,其特点表现为12MB二级缓存,起始主频高达3 GHz,明年年初会把全线的四核桌面处理器升级到Penryn。在服务器领域,相应的Penryn至强处理器和芯片组也会在11月12号发布。四核Harpertown至强和双核Wolfdale-DP至强处理器的核心频率会更高,最高主频突破了3GHz,达到3.33GHz;L2缓存也会更大,以加快系统数据访存速度,降低延迟,其中双核Wolfdale-DP的L2缓存为6MB,四核Harpertown的L2缓存为2x6MB;另外针对编译器、图形图像和视频应用提供了全新的SSE4指令,这尤其会有利于图形工作站应用;四核Harpertown按功耗可分为120W、80W、50W等三大类别。

 

英特尔至强处理器路线图

    自2008年起,英特尔45纳米处理器和65纳米芯片组将使用无卤封装技术,加上无铅封装和高-k金属栅极晶体管技术,英特尔的下一代处理器不仅能效更高而且将更加环保。

    另外,这些至强CPU将会采用一个新的系统平台,代号Stokley,支持两个四核CPU和多达4个PCI Express x16图形卡。Intel还展示了一个针对该平台的相应的水冷系统,代号为Skulltrail。据称,Skulltrail系统有望在今年底或明年初发布。

Stoakley双路平台带来了什么?



新一代双路服务器平台Stoakley

     在一场分论坛中,英特尔SPG TME Linh Phan透露了更多关于至强DP处理器和Stoakley平台的细节信息。据了解,新一代双路服务器平台(Stoakley)主要包括以下几个方面的创新:一是支持下一代基于45纳米的四核英特尔至强DP处理器(Harpertown)和下一代双核英特尔至强DP处理器(Wolfdale-DP);二是双独立前端总线,总线频率由1333MHz提升到了1600MHz;三是支持PCI-E 2.0,以提升IO带宽和可扩展性;四是支持直接I/O的虚拟化技术(Intel VT-d),让IO设备可以直接分配给虚拟机,支持I/OAT2技术;五是在Intel 5400芯片组(代号Seaburg)中集成24MB侦听过滤器和主动通路管理功能,提高CPU和内存间的前端总线效率;六是跟Intel 5000x/v芯片组相比,内存容量提高两倍,最大容量可达128GB FBD;七是进一步增强节能和降低噪音的效果。下表具体列出了Stoakley与上一代Bensley平台的比较情况:

 

    可见,英特尔希望通过这几方面的创新,让双路平台的计算、内存和I/O更具平衡性,促进虚拟化发展,进一步提高每瓦特性能。值得注意的是,由于SSE4指令集、PCI-E等新特性尤其对图形图像和视频应用更有直接效果,因此,不难理解此番英特尔在IDF上主要强调了下一代平台对工作站的价值。如下图所示,从定位来看,到2008年,针对双路市场可能会存在三个平台,强调工作站应用的Stoakley,针对普通双路服务器的Bensley-VS以及针对嵌入式应用的Cranberry Lake——英特尔再次为用户提供了多样化的选择! 不过,虽然Stoakley和Bensley会共存一段时间,但相信未来Stoakley平台会取代Bensley平台,否则很多新特性都用不上。

 

    注意,Cranberry Lake平台定位于服务器级嵌入式应用,支持酷睿架构,跟用户现有的至强平台能够完全兼容,其最大特色可能在于在节能,如支持功耗较低的DDR2内存等,以满足高密度、嵌入式应用环境对低功耗的苛刻要求。

1)从PCI-E 1.0到PCI-E 2.0

    在多核驱动下,CPU的计算能力越来越强,为了保证系统的平衡性,必然要求其它部件的速度也要跟上,如新平台会支持PCI-E 2.0,到2010年还会支持带宽更高的PCI-E 3.0。这特别对于图形图像处理、动画渲染、视频编辑等领域有较大帮助,如图形工作站及高计算能计算集群中的图形计算节点等。Intel Xeon 5400服务器芯片组和X38 Express台式机芯片组都将会支持PCI-E 2.0、双PCI-E x16显卡,最高速度由2.5GHz提升至5GHz,其带宽是PCI-E 1.0的两倍,具有广泛的IHV支持。到2010年,英特尔还会推出PCI-E 3.0,其带宽将是PCI-E2.0的两倍,而且还会带有更多新特性,如数据复用(Data Reuse)、动态功耗管理(Dynamic Power Management)、Atomic Operaions以及支持符合工业标准的加速卡。当前已经有包括显卡、Infiniband、PCIe等网络和存储厂商开始在Intel 5400平台上测试5GHz的全新PCIe板卡。

 

下一代平台支持PCI-E 2.0

2)I/O虚拟化与I/O加速

    在I/O加速方面,无论是定位于嵌入式应用的Cranberry Lake平台、还是定位于主流双路处理器的Stoakley平台、或者是定位于多路处理器的Caneland平台,都将会支持新一代的I/OAT2技术(代号Crystal Beach2)。I/OAT2有两个主要的设计目的,第一个是进一步增强数据中心网络I/O能力,第二个继续保持英特尔I/OAT的无状态架构优势。同样,I/OAT2依然是一个平台级的I/O优化方案,涉及到了CPU、芯片组、网卡控制器等多个方面。

    另外,I/O虚拟化问题也日益得到重视。这几年,X86虚拟化技术不断得到发展,从最初的CPU指令的虚拟化,到对内存和I/O的虚拟化,而在这一过程中,英特尔扮演了非常关键的角色。基本来看,英特尔虚拟化战略分为三步,第一步是处理器级的虚拟化,包括用于X86架构的VT-x和用于安腾架构的VT-i,它们在CPU中增加了专门的硬件辅助电路,帮助提升虚拟化的效率;第二步是平台级的VT-d,把芯片组和相关的I/O设备也加入了进来;第三步是在I/O层面上的虚拟化,I/OAT2技术已经初步的实现了部分功能。

    Stoakley平台将支持VT-d,该技术在平台层面上实现了I/O虚拟化(主要体现在整合于芯片组内的专用电路),它定义了一个用于DMA重映像的架构,可直接将I/O设备分配给未经修改的VMs或者半虚拟化VMs,从而有助于提升虚拟化性能。

 

VT-d帮助直接将I/O设备分配虚拟机

3)24MB探听过滤器缓解FSB压力

    探听过滤器这一技术早期出现在IBM自已开发的X3芯片组中,对于基于前端总线架构的系统,可以在一定程度上缓解CPU和芯片组之间的前端总线的通信压力,从而明显地改善系统性能。

    跟上一代芯片组相比,Intel 5400中集成了24MB Snoop filter(探听过滤器)——针对多路平台的Clarksboro芯片组集成了64MB Snoop filter。作为一种特别的是缓冲器,Snoop Filter中储存了缓存Tag结构。由于使用了MESI协议,为确保多核平台中缓存的一致性,每一颗处理器必须时刻注意另一颗处理器的总线情况,而使用Snoop Filter将有助于减少处理器总线发生数据堵塞情况的发生。

    当出现高速缓存未中时,Snoop Filter将增加到发起的CPU总线上。随后,Snoop Filter拦截探听,并确定是否必须将探听传递到4核中的另一个总线线段上。如果读取请求同一总线上的另一个处理器得到满足,则取消探听过滤器访问;如果没有得到满足,Snoop Filter访问的结果将确定是否进行下一个操作。当然,也有可能在读取请求过程中丢失探听过滤器,此时就直接从内存返回数据,进入下一个循环。

 

配备24MB侦听过滤器

    配合探听过滤器,Intel 5400芯片组还带有主动通路管理(active way management)的功能,由处理器基于本地缓存的情况来主动向芯片组提供通路地址线索,这显然要比仅仅依靠芯片组中的探听过滤器要准确得多,从而能够降低缓存不中的可能性,提高总线利用率,减少负载延迟,改进平台的每瓦特性能。

 

主动通路管理

    全新平台还对节能降噪方面做了许多工作,如芯片组上的热传感器可用于控制风扇转速,带有16组throttling register,通过AMB热传感器控制温度,内存动态刷新优化,改善内存带宽算法等等。

    通过上面的介绍,我们不难看出,无论是45纳米的四核处理器Penryn,还是下一代双路平台Stoakley,都是非常值得期待的。

Nehalem:2008年革命性的微架构

     Penryn之后是什么呢?英特尔公司的首席技术官Patrick Gelsinger向业内人士详细透露了更多Nehalem处理器的信息。根据英特尔的tick/tock策略,Penryn采用的是45纳米工艺和增强的酷睿架构,那么下一步,英特尔会推出一个全新架构的CPU内核,代号Nehalem,可以支持4个以上的内核,当然,也是基于45纳米制程,含有7.31亿晶体管。首批Nehalem测试芯片三周前已从工厂中生产出来。英特尔此番还演示了运行Windows的基于45纳米Nehalem芯片的系统。该公司预计在2008的下半年开始发运首款Nehalem处理器。

    作为英特尔第一款真正实现设计可扩充性的动态微体系结构,Nehalem采用模块化设计,可以动态地配置和调整芯片功能模块,如内核、缓存、内存、线程和I/O,从而使性能、功能可根据能效和不同应用领域进行动态扩充。

 

    如上图所示,45纳米的Nehalem可以从技术和市场两个层面进行动态扩展,从而满足不同用户的差异化需求。一是可按需动态扩充能效的特性,包括:动态管理内核、线程、高速缓存、界面和功率;充分利用4项发布的英特尔酷睿微体系结构技术;同时进行多线程处理(类似于英特尔超线程(HT)技术),可提升性能和能效;添加了创新的英特尔SSE4和ATA指令集架构;出色的多级共享高速缓存,能够充分利用英特尔智能高速缓存技术;居于领先地位的系统和内存带宽;性能增强型动态电源管理。
    二是针对不同市场领域进行优化的特性,体现在:面向下一代英特尔处理器和平台的全新系统架构,包括QuickPath直连架构;可扩充的性能,利用1-8个(以上)内核,处理1-16条(以上)线程 ;可扩充和可配置特性,如高速缓存容量、互连技术以及集成式内存控制器;面向客户端优化的高性能集成式显卡引擎。

     Nehalem处理器的指令集也是专业人士比较关注的问题,因为AMD在不久前刚刚提出了SSE5指令集。但英特尔表示,目前英特尔的Penryn处理器中将加入47条SSE4指令集,Nehalem处理器将不会支持AMD的SSE5指令集,但是会在SSE4指令集中加入另外的7条全新设计的指令,这7条SSE4指令集是非常有针对性的,将能够在一定程度上对芯片进行优化,并提供更好的性能,其中包括对CRC-32、POP Counts、XML等应用的支持,并且新的设计将会让Nehalem处理器的指令执行效率更高,能够实现256条指令的并行执行,这样的话将会达到目前普通处理器的3倍以上。

 

四路系统中的QuickPath直连架构

    QuickPath直连架构也将是Nehalem处理器最出色的设计之一,QuickPath将包括集成的内存控制器技术以及改善的系统组件间通信链路,从而大幅提升整体系统性能——在QuickPath直连架构下,每颗处理器都可以与其它处理器直接相连,而无需绕过北桥芯片。不过英特尔表示将会把QuickPath直连架构首先应用在高端的处理器和优异的桌面平台上,中低端的桌面平台则还将依靠前端总线的提升来改善性能。

 

Nehalem将是一款具体革命性意义的芯片

    从目前的资料来看,Nehalem将是一款具体革命性意义的芯片,这不仅仅是体现在Nehalem会把产业带入8核时代,而是它采用了可扩展的模块化设计以及跟以往不同的系统架构,如改良前端总线架构,开始集成内存控制器,集成图形处理器,采用QuickPath直连总线技术——英特尔似乎正在向AMD靠拢——后者在2003年推出皓龙处理器时就采用了类似架构:直连架构、超传输(HT)总线、集成内存控制器,现在也正在进行在CPU中集成GPU的项目。不过,英特尔声称,Nehalem新架构的峰值内存带宽将会是当前系统和AMD系统的三倍之多。

2009年朝32纳米挺进

    半导体制造工艺的发展对CPU和显示芯片的性能起相当重要的作用。从1995年以来,芯片制造工艺的技术变革十分迅速,先后从0.5微米、0.35微米、0.25微米、0.18微米、0.09微米一直发展到目前应用的0.065微米,整整花费了10年时间。而每次新制程的引入,都对处理器技术发展动态、处理器性能、处理器功耗有着至关重要的影响。

    虽然现在45纳米处理器还没有上市,但此番英特尔还公布了它在32纳米制程方面的进展——到2009年,英特尔会通过使用32纳米工艺技术来进一步提供处理器的性能和能源效率。全新的32纳米芯片会基于2008年的Nehalem架构,采用第二代高-k与金属栅极晶体管技术。会上展示的32纳米测试芯片采用逻辑和静态随机存取存储器(SRAM),集成晶体管数量超过19亿个。在此次IDF上,Intel总裁和CEO Paul Otellini就展示了世界上第一款使用下一代32纳米制程技术制造的300毫米晶圆。



Intel总裁兼CEO Paul Otellini世界上第一款使用32纳米制程技术制造的300毫米晶圆

    英特尔推动芯片设计和制造技术向前发展,所带来的性能提高不仅体现在计算领域,还实现了更加生动的娱乐和更加逼真的图形处理。英特尔表示未来将更加注重使用其处理器推动关键技术的发展,例如可视计算和图形处理。

    其实,英特尔并非是第一个宣称32纳米芯片技术的厂商。在今年5月份,IBM领导的一个芯片制造商组织就达到协议要继续合作,共同开发32纳米半导体工艺技术,该联盟成员还包括Freescale半导体、Chartered 半导体、Infineon和三星电子。

[编者按]让技术和应用齐步走

    在Tick-Tock战略的指引下,英特尔的产品创新不仅速度快,而且很有规律。新工艺和新架构每年轮流转,加上英特尔自身在从传统的芯片厂商向平台厂商转变,如此一来,新产品新技术就层出不穷了,IDF大会也自然是一年比一年热闹。不过,我们也经常听到另一种声音:技术发展太快,应用跟不上。当然,这里面有很多原因,有国情的原因,把世界上非常先进的技术拿到中国来,消化吸收自然有一个过程;有厂商自身发展和竞争的需要,X86芯片领域里的竞争尤为激烈,促使厂商不得不加快创新速度;有产业链上下游配合不力的原因,如软件如何更有效地并行地利用多核,软件厂商在多核计算与虚拟化情景下如何发放许可证等问题还没有得到很好的解决;也有用户自己的原因,也许是业务发展缓慢,需求没到那一步,也许是预算不足,也许是不愿冒风险等等。在这里我们也提出两个建议:一是厂商慢一点,用户快一点,让技术和应用齐步走;二是虽然世界是平的,但也是多元化的,厂商有责任尽自己的努力去满足用户多样化、有差异的需求。就第二点来说,从产品线和平台的丰富程度来看,英特尔无疑正在努力——并存的双核/四核、针对不同应用的平台、可扩展的微架构设计……

0
相关文章