众多RAS特性通过CPU、芯片组的配合来达,首先,硬件通过Parity/ECC/CRC等手段尽量保障运行信号传输的正确性。
Boxboro的RAS特性
在硬件无法纠正所有错误的时候错,平台通过CMCI(Corrected Machine Check Interrupts)特性向软件报告,因为即使是硬件错误,也有些是可以接受的,例如,一些定时备份结果的计算只需要从最近的某一阶段重新开始计算即可,不需要因为某个硬件错误就程序崩溃,关键是软件需要知道这个错误的详细信息以进行判断:
Nehalem-EX平台提供了一系列需要联合OS/firmware进行的错误隔离以及错误恢复:
对无法纠正的数据,使用一个Poison(毒药)标记,OS/firmware可以知道这些数据在硬件层次上无法恢复,从而可以决定进行Retry或者丢弃
这些特性形成了一个完整的MCA架构(Machine Check Architecture):
Recoverable MCA系统可以在多个椭圆、方块表示的多个状态之间切换,并不会宕机
MCA是一个原来只在IA64架构处理器上才有的功能,MCA功能可以在不关机的情况下检查和纠正处理器、内存或者IO中的错误,在OS配合的情况可以对系统进行热维护,保障系统的不间断运行。据表示,包括微软Windows Server、RedHat、SUSELinux以及VMware等平台都已经支持这一功能。