服务器 频道

面向关键任务 Nehalem-EX RAS特性详解

  【IT168评测中心】在上一篇文章中,我们分析了Nehalem-EX处理器相对于通常的Nehalem处理器的不同:面向多路平台。由于定位不同,Nehalem-EX的内部架构也和普通处理器不同,此外,Nehalem-EX和通常的x86处理器很不同的一个地方是,它面向Mission Critical(关键任务)市场,相对于性能,这些市场上更加重要的是平台的可靠性。Nehalem-EX增加了相当多的RAS(Reliability, Availability, Serviceability:可靠性、可用性、稳定性)特性来满足关键任务计算的需求:

  传统的x86处理器难以进入关键领域的原因,就在于其RAS特性不足,可靠性不够,用户不敢在上面跑相关应用。Nehalem-EX的出现,将x86系统的可靠性带到了一个全新的水平,如图上所示,这些RAS特性非常多,大致总结如下:

 

Nehalem-EX RAS Features
类别功能特性说明
数据保护降低关键级别错误
全系统数据错误检测
限制错误所致影响
Parity checking and ECC
奇偶校验与ECC
 
Memory Themal Throttling
内存热量监控
防止内存过热
Memory demand & patrol scrubbing
内存按需/轮询检查
提高全系统数据可靠性
Corrupt data containment
污染数据隔离
限制错误数据造成的影响
QPI viral mode
QPI病毒模式
标记为Viral的数据包将被限制在QPI总线内而不会发送到设备上
QPI rolling CRC
QPI持续CRC校验
QPI CRC校验扩展到两个连续的包
高可用性恢复失效数据链接
从失效部件迁移
从不可修正错误中恢复
故障预测
Intel SMI Lane Failover
串行内存接口信道容错
 
Intel SMI Clock Failover
串行内存接口时钟容错
 
Intel SMI & QPI Packet Retry
SMI & QPI包重发
 
QPI Clock Failover
QPI时钟容错
 
QPI Self-Healing
QPI自愈
 
SDDC plus random bit error recovery
内存SDDC纠错与任意位错误恢复
 
Memory Mirroring
内存镜像
 
Memory DIMM and Rank Sparing
内存DIMM和Rank热备
 
Dynamic CPU and memory migration
CPU/内存动态迁移
需要操作系统支持
MCA-recovery with OS support
MCA恢复
需要操作系统支持
计划宕机时间最小化分区模块化
替换失效组件
Static System partitioning
静态系统分区
需要操作系统支持
MCA error logging (CMCI) with OS predictive failure analysis
用于操作系统失效分析预测的MCA错误记录
 
Physical Memory Board Hot Add/remove
物理内存卡热添加/热移除
 
Dynamic/OS Memory On-lining(capacity change)
动态内存在线(容量变更)
需要操作系统支持
Physical CPU Board Hot Add/remove
物理CPU卡热添加/热移除
需要操作系统支持
OS CPU on-lining(capacity change)
动态CPU在线(容量变更)
需要操作系统支持

  在Intel正式宣传的文档中,提到的RAS特性就是上面22条,集中解决三个方面的问题:一是数据保护,利用CRC、ECC等硬件机制来对传输的数据进行校验、纠错,如果无法纠正,就将损坏的数据进行隔离,以保证不造成更大的数据,避免系统的重启和宕机。二是高可用性,包括各种主要部件的备、镜像和热切换等,以保证系统的高可用性。三是计划宕机时间最小化,包括系统分区管理技术、CPU和内存的热添加和热移除等,将系统维护时间降低到最小。

  要提高RAS,首先,就要在硬件层保障信号传输的正确性,Nehalem-EX建立了一个CMCI(Corrected Machine Check Interrupts)架构,以保证纯硬件的数据纠错:

  当发生硬件无法完全纠正的错误的时候,Nehalem-EX进而提供了一系列需要联合OS/firmware进行的错误隔离以及错误恢复:


对无法纠正的数据,使用一个Poison(毒药)标记,OS/firmware可以知道这些数据在硬件层次上无法恢复,从而可以决定进行Retry或者丢弃

  这些特性形成了一个完整的MCA架构(Machine Check Architecture):


Recoverable MCA系统可以在多个椭圆、方块表示的多个状态之间切换,并不会宕机

   MCA是一个原来只在IA64架构处理器上才有的功能,MCA功能可以在不关机的情况下检查和纠正处理器、内存或者IO中的错误,在OS配合的情况可以对系统进行热维护,保障系统的不间断运行。据表示,包括微软Windows Server、RedHat、SUSELinux以及VMware等平台都已经支持这一功能。

0
相关文章