要提高RAS,首先,就要在硬件层保障信号传输的正确性,Nehalem-EX建立了一个CMCI(Corrected Machine Check Interrupts)架构,以保证纯硬件的数据纠错:
当发生硬件无法完全纠正的错误的时候,Nehalem-EX进而提供了一系列需要联合OS/firmware进行的错误隔离以及错误恢复:
对无法纠正的数据,使用一个Poison(毒药)标记,OS/firmware可以知道这些数据在硬件层次上无法恢复,从而可以决定进行Retry或者丢弃
这些特性形成了一个完整的MCA架构(Machine Check Architecture):
Recoverable MCA系统可以在多个椭圆、方块表示的多个状态之间切换,并不会宕机
MCA是一个原来只在IA64架构处理器上才有的功能,MCA功能可以在不关机的情况下检查和纠正处理器、内存或者IO中的错误,在OS配合的情况可以对系统进行热维护,保障系统的不间断运行。据表示,包括微软Windows Server、RedHat、SUSELinux以及VMware等平台都已经支持这一功能。