在前面,笔者分析了Nehalem-EX处理器内部架构相对于通常的Nehalem处理器的不同,此外,Nehalem-EX和通常的x86处理器很不同的一个地方是,它面向Mission Critical(关键任务)市场,相对于性能,这些市场上更加重要的是平台的可靠性。Nehalem-EX增加了相当多的RAS(Reliability, Availability, Serviceability:可靠性、可用性、稳定性)特性来满足关键任务计算的需求:
简单来说,RAS大约体现了系统的健壮性;Intel的安腾平台就带有很多RAS特性
传统的x86处理器难以进入关键领域的原因,就在于其RAS特性不足,可靠性不够,用户不敢在上面跑相关应用。Nehalem-EX的出现,将x86系统的可靠性带到了一个全新的水平,如图上所示,这些RAS特性非常多,大致总结如下:
Nehalem-EX RAS Features | ||||||
类别 | 功能 | 特性 | 说明 | |||
数据保护 | 降低关键级别错误 全系统数据错误检测 限制错误所致影响 | Parity checking and ECC 奇偶校验与ECC | ||||
Memory Themal Throttling 内存热量监控 | 防止内存过热 | |||||
Memory demand & patrol scrubbing 内存按需/轮询检查 | 提高全系统数据可靠性 | |||||
Corrupt data containment 污染数据隔离 | 限制错误数据造成的影响 | |||||
QPI viral mode QPI病毒模式 | 标记为Viral的数据包将被限制在QPI总线内而不会发送到设备上 | |||||
QPI rolling CRC QPI持续CRC校验 | QPI CRC校验扩展到两个连续的包 | |||||
高可用性 | 恢复失效数据链接 从失效部件迁移 从不可修正错误中恢复 故障预测 | Intel SMI Lane Failover SMI内存接口信道容错 | ||||
Intel SMI Clock Failover SMI内存接口时钟容错 | ||||||
Intel SMI & QPI Packet Retry SMI & QPI包重发 | ||||||
QPI Clock Failover QPI时钟容错 | ||||||
QPI Self-Healing QPI自愈 | ||||||
SDDC plus random bit error recovery 内存SDDC纠错与任意位错误恢复 | ||||||
Memory Mirroring 内存镜像 | ||||||
Memory DIMM and Rank Sparing 内存DIMM和Rank热备 | ||||||
Dynamic CPU and memory migration CPU/内存动态迁移 | 需要操作系统支持 | |||||
MCA-recovery with OS support MCA恢复 | 需要操作系统支持 | |||||
计划宕机时间最小化 | 分区模块化 替换失效组件 | Static System partitioning 静态系统分区 | 需要操作系统支持 | |||
MCA error logging (CMCI) with OS predictive failure analysis 用于操作系统失效分析预测的MCA错误记录 | ||||||
Physical Memory Board Hot Add/remove 物理内存卡热添加/热移除 | ||||||
Dynamic/OS Memory On-lining(capacity change) 动态内存在线(容量变更) | 需要操作系统支持 | |||||
Physical CPU Board Hot Add/remove 物理CPU卡热添加/热移除 | 需要操作系统支持 | |||||
OS CPU on-lining(capacity change) 动态CPU在线(容量变更) | 需要操作系统支持 |
在Intel正式宣传的文档中,提到的RAS特性就是上面22条,集中解决三个方面的问题:一是数据保护,利用CRC、ECC等硬件机制来对传输的数据进行校验、纠错,如果无法纠正,就将损坏的数据进行隔离,以保证不造成更大的数据,避免系统的重启和宕机。二是高可用性,包括各种主要部件的备、镜像和热切换等,以保证系统的高可用性。三是计划宕机时间最小化,包括系统分区管理技术、CPU和内存的热添加和热移除等,将系统维护时间降低到最小。