Nehalem-EX/至强7500在RAS特性方面能否与RSIC小型机抗衡?
和双路平台不同,多路平台不仅要求更高的性能,也要有更强的稳定性。一直以来,X86服务器在同RISC小型机竞争时,在RAS(Reliability可靠性、Availability 可用性和Serviceability可服务性)方面往往处于下风,这也是一些关键领域的小型机用户迟迟不敢向X86/Linux开放平台迁移的重要原因之一。
Nehalem-EX的出现,将X86系统的RAS特性提高到了一个全新的水平,这些技术多达22条,集中解决三个方面的问题:一是数据保护,可以诊断哪些数据出错,利用CRC、ECC校验来纠正错误,如果不能纠正,可以把这些坏的数据进行隔离,以保证不影响其他数据,避免系统的重启和宕机。二是高可用设计,包括QPI Link之间的互备和热切换,内存和CPU的热切换、故障预警机制等等,以保证系统的高可用。三是降低系统计划内的宕机时间,包括系统分区管理技术、CPU和内存的热添加和热移除等。具体如下表所示:
Nehalem-EX处理器的22项RAS特性 | ||
方面 | 功能 | 技术 |
数据保护 | l 减少关键级的错误 l 全系统数据错误检测 l 限制错误所产生的影响 | 1. Parity checking and ECC 寄偶检验与ECC |
2. Memory Themal Throttling 内存热量分流 | ||
3. Memory demand & patrol scrubbing 内存需求与巡视清除 | ||
4. Corrupt data containment 计算数据防泄漏 | ||
5. QPI viral mode QPI防病毒模式 | ||
6. QPI rolling CRC QPI卷动CRC检验 | ||
高可用 | l 恢复失效的数据连接 l 从失效的CPU与内存上迁移工作负载 l 从无法修正的错误中恢复 l 帮助进行故障预测 | 1. Intel SMI Lane Failover 内存控制器(SMI)通道容错 |
2. Intel SMI Clock Fail Over 内存控制器时钟容错 | ||
3. Intel SMI & QPI Packet Retry 内存控制器与QPI包重试 | ||
4. QPI Clock Fail Over QPI时钟容错 | ||
5. QPI Self-Healing QPI自我修复 | ||
6. SDDC plus random bit error recovery 单设备失效代码与随机位错误恢复 | ||
7. Memory Mirroring 内存镜像 | ||
8. Memory DIMM and Rank Spaning 内存DIMM与列(RANK)广度 | ||
9. Dynamic CPU and memory migration CPU与内存动态迁移 | ||
10. MCA-recovery with OS support 操作系统支持MCA恢复 | ||
减少计划内宕机时间 | l 维护模块化分区而非整个系统 l 预先替换将失效的组件 | 1. Static system partitioning 静态系统分区 |
2. MCA error logging(CMCI) with OS predictive failure analysis 基于操作系统预知失效分析的MAC错误记录 | ||
3. Physical Memory Board Hot Add/remove 物理内存卡热添加与移除 | ||
4. Dynamic/OS Memory On-lining(capacity change) 动态/OS内存在线(容量变更) | ||
5. Physical CPU Board Hot Add/remove 物理CPU卡添加/移除 | ||
6. OS CPU on-lining(capacity change)OS处理器在线(容量变更) |
这里特别值得一提的就是,Nehalem-EX增加了原来只在安腾处理器上才有的MCA(Machine Check Architecture)机器校验恢复功能。这个功能可以在不关机的情况下检查和纠正处理器、内存或者IO中的错误,这对于虚拟化环境非常重要。在虚拟化环境中,要关机查找和修复故障意味着必须迁移所有的虚拟机,如采用机器检查恢复功能,这个故障可以隔离,不必迁移所有的虚拟机。目前,包括微软Windows Server、Redhat、SuseLinux以及VMware都已经支持这一功能。
可以说,Nehalem-EX已经拥有X86系统里较高级别的RAS特性,而且与小型机相比,差距也已经不大。但需要注意的是,这些RAS特性的最终实现需要系统厂商和软件厂商的支持。目前,在操作系统和虚拟化方面,Novell、Redhat、微软和VMware都已经做好准备,为至强7500中的高级RAS特性提供支持,以保证可以将这些功能提供给上层的应用软件使用。另一方面,虽然至强7500提供了20多个RAS功能,但并不是所有服务器厂商都需要或者有能力去实现这些功能,比如硬件分区、CPU热添加/热删除、内存板的热添加/热移除,不同厂商会有各自的考虑。这些都需要用户在方案选型时加以考虑。