服务器 频道

英特尔Nehalem-EX处理器常见问题解答

  Nehalem-EX/至强7500在RAS特性方面能否与RSIC小型机抗衡?

  和双路平台不同,多路平台不仅要求更高的性能,也要有更强的稳定性。一直以来,X86服务器在同RISC小型机竞争时,在RAS(Reliability可靠性、Availability 可用性和Serviceability可服务性)方面往往处于下风,这也是一些关键领域的小型机用户迟迟不敢向X86/Linux开放平台迁移的重要原因之一。

  Nehalem-EX的出现,将X86系统的RAS特性提高到了一个全新的水平,这些技术多达22条,集中解决三个方面的问题:一是数据保护,可以诊断哪些数据出错,利用CRC、ECC校验来纠正错误,如果不能纠正,可以把这些坏的数据进行隔离,以保证不影响其他数据,避免系统的重启和宕机。二是高可用设计,包括QPI Link之间的互备和热切换,内存和CPU的热切换、故障预警机制等等,以保证系统的高可用。三是降低系统计划内的宕机时间,包括系统分区管理技术、CPU和内存的热添加和热移除等。具体如下表所示:

Nehalem-EX处理器的22项RAS特性
方面
功能
技术
数据保护
l         减少关键级的错误
l         全系统数据错误检测
l         限制错误所产生的影响
1.       Parity checking and ECC 寄偶检验与ECC
2.       Memory Themal Throttling 内存热量分流
3.       Memory demand & patrol scrubbing 内存需求与巡视清除
4.       Corrupt data containment 计算数据防泄漏
5.       QPI viral mode QPI防病毒模式
6.       QPI rolling CRC QPI卷动CRC检验
高可用
l         恢复失效的数据连接
l         从失效的CPU与内存上迁移工作负载
l         从无法修正的错误中恢复
l         帮助进行故障预测
1.       Intel SMI Lane Failover 内存控制器(SMI)通道容错
2.       Intel SMI Clock Fail Over 内存控制器时钟容错
3.       Intel SMI & QPI Packet Retry 内存控制器与QPI包重试
4.       QPI Clock Fail Over QPI时钟容错
5.       QPI Self-Healing QPI自我修复
6.       SDDC plus random bit error recovery 单设备失效代码与随机位错误恢复
7.       Memory Mirroring 内存镜像
8.       Memory DIMM and Rank Spaning 内存DIMM与列(RANK)广度
9.       Dynamic CPU and memory migration CPU与内存动态迁移
10.    MCA-recovery with OS support 操作系统支持MCA恢复
减少计划内宕机时间
l         维护模块化分区而非整个系统
l         预先替换将失效的组件
1.       Static system partitioning 静态系统分区
2.       MCA error logging(CMCI) with OS predictive failure analysis 基于操作系统预知失效分析的MAC错误记录
3.       Physical Memory Board Hot Add/remove 物理内存卡热添加与移除
4.       Dynamic/OS Memory On-lining(capacity change) 动态/OS内存在线(容量变更)
5.       Physical CPU Board Hot Add/remove 物理CPU卡添加/移除
6.       OS CPU on-lining(capacity change)OS处理器在线(容量变更)

  这里特别值得一提的就是,Nehalem-EX增加了原来只在安腾处理器上才有的MCA(Machine Check Architecture)机器校验恢复功能。这个功能可以在不关机的情况下检查和纠正处理器、内存或者IO中的错误,这对于虚拟化环境非常重要。在虚拟化环境中,要关机查找和修复故障意味着必须迁移所有的虚拟机,如采用机器检查恢复功能,这个故障可以隔离,不必迁移所有的虚拟机。目前,包括微软Windows Server、Redhat、SuseLinux以及VMware都已经支持这一功能。

  可以说,Nehalem-EX已经拥有X86系统里较高级别的RAS特性,而且与小型机相比,差距也已经不大。但需要注意的是,这些RAS特性的最终实现需要系统厂商和软件厂商的支持。目前,在操作系统和虚拟化方面,Novell、Redhat、微软和VMware都已经做好准备,为至强7500中的高级RAS特性提供支持,以保证可以将这些功能提供给上层的应用软件使用。另一方面,虽然至强7500提供了20多个RAS功能,但并不是所有服务器厂商都需要或者有能力去实现这些功能,比如硬件分区、CPU热添加/热删除、内存板的热添加/热移除,不同厂商会有各自的考虑。这些都需要用户在方案选型时加以考虑。

0
相关文章