服务器 频道

IDF2010:新一代服务器CPU Nehalem-EX

  【2010年IDF报道】由英特尔主办的全球IT界高水平的技术论坛活动——2010英特尔信息技术峰会(Intel Developer Forum, IDF),将于4月13至14日在北京国家会议中心举行。这是IDF连续第4年在中国首发。本届IDF以“智领先机,共创明天”为主题,旨在抓住智能计算和个性化互联网时代机遇,揭示产业发展脉动,携手合作伙伴引领创新,抢占复苏增长之先机。


点击查看IT168关于2010IDF专题报道

  在IDF2010的13日的技术讲座上,Intel在309B课室介绍了其最新一代的服务器处理器:Nehalem-EX。


智能型可扩展高端英特尔服务器平台,代号为Nehalem-EX


这个课程主要是介绍Nehalem-EX的架构,实际上和笔者之前的多个文章内容很相似:

X86巅峰 Intel Nehalem-EX架构深入解析

面向关键任务 Nehalem-EX RAS特性详解

  总结一下,Nehalem-EX具有以下特点:
原生45nm 8核心16线程Nehalem微架构处理器
24MB共享L3缓存(每核心3MB,Nehalem-EP/Westmere-EP是每核心2MB)
23亿晶体管(六核Westmere-EP是11.7亿)
两个内存控制器,支持最多4个内存通道共16个DIMM(Nehalem-EP/Westmere-EP是3个内存通道共9个DIMM)
四路系统支持64个DIMM,内存容量达1TB(Nehalem-EP/Westmere-EP内存上限是144GB/288GB)
4个6.4GT/s QPI总线(Nehalem-EP/Westmere-EP是两个QPI)
扩展性可以从2路到256路系统(Nehalem-EP/Westmere-EP最多双路)
TDP和普通处理器一致:95W、105W、130W
高级RAS特性(Nehalem-EP/Westmere-EP只拥有基本的RAS特性)

  讲座首先介绍了Nehalem-EX的架构,接下来介绍了Nehalem-EX在RAS(Reliability, Availability, Serviceability:可靠性、可用性、稳定性)特性方面的改进。RAS特性是让Nehalem-EX显得和通常x86处理器不同的地方,它让Nehalem-EX进入了“关键任务”市场,下面我们也这样分两页来介绍Nehalem-EX。

  Nehalem-EX的内部使用了环状总线来连接8个核心和8个L3缓存块。

   和普通的Nehalem不同,Nehalem-EX的L3缓存容量达到了24MB,每个核心可以分到3MB,比Nehalem-EP/Westmere-EP的2MB要更大。大容量缓存在大型系统下是相当有必要的。此外,Nehalem-EX的L3缓存真的是分成了8个3MB的Slice(块),每一个L3块在每一个时钟周期可以同时进行4个存取操作,这样Nehalem-EX在同一个时钟周期就可以同时进行32个L3缓存操作,并且经过哈希计算,可以将操作分散到多个L3 Slice上,避免了热区效应(hot-spot)。通常的处理器中,共享的LLC缓存只会有一个端口,同时只能进行数个操作。

  Nehalem-EX提供了两个SMI可扩展内存接口,SMI接口是一个串行界面,因此它需要连接到一个叫做Scalable Memory Buffer(SMB)的芯片才能联接到并行的DIMM上(久远的Pentium 4使用的RIMM则是串行的),这个芯片就和以前FBD内存上的AMB芯片一样,用来将串行界面转换为并行界面,只是在Nehalem-EX上,这个SMB可以集成在主板上而不是集成在内存条上,兼容性远非FBD架构可比。每个SMI接口支持两个SMB芯片。

  每个SMB芯片支持两个DDR3内存通道,每个内存通道最多支持2个DIMM,这样一个Nehalem-EX处理器就能提供最多8个内存通道、16个DIMM、256GB的内存容量支持。目前Nehalem-EX只支持DDR3 1066,Intel表示其未来可以支持到DDR3 1333规格。Nehalem-EX支持8个内存通道,这确实和通常想象的不太一样。很多人曾以为它支持的是4个内存通道。

  内存访问延迟约是108ns,距离一跳的远程内存访问延迟约是161ns,比使用DDR3 1333的Nehalem-EP/Westmere-EP要高,即使是Nehalem-EX以后达到DDR3 1333的规格下也应该是如此,这是使用了SMB的代价,作为交换,Nehalem-EX获得了增强的内存RAS特性,以及更高的带宽和更大的容量支持。

  RAS(Reliability, Availability, Serviceability:可靠性、可用性、稳定性)特性是提高系统可靠性的一堆特性的综合。

  要提高RAS,首先,就要在硬件层保障信号传输的正确性,Nehalem-EX建立了一个CMCI(Corrected Machine Check Interrupts)架构,以保证纯硬件的数据纠错:

  当发生硬件无法完全纠正的错误的时候,Nehalem-EX进而提供了一系列需要联合OS/firmware进行的错误隔离以及错误恢复:


对无法纠正的数据,使用一个Poison(毒药)标记,OS/firmware可以知道这些数据在硬件层次上无法恢复,从而可以决定进行Retry或者丢弃

  这些特性形成了一个完整的MCA架构(Machine Check Architecture):


Recoverable MCA系统可以在多个椭圆、方块表示的多个状态之间切换,并不会宕机

   MCA是一个原来只在IA64架构处理器上才有的功能,MCA功能可以在不关机的情况下检查和纠正处理器、内存或者IO中的错误,在OS配合的情况可以对系统进行热维护,保障系统的不间断运行。据表示,包括微软Windows Server、RedHat、SUSELinux以及VMware等平台都已经支持这一功能。

0
相关文章