eX5创新之四:IBM OnForever的可靠性
对于企业级服务器而言,无论是跑数据库、ERP等关键业务,还是用来做虚拟化整合,可靠性、可用性都是系统的生命。据介绍,IBM的eX5架构在这方面的价值主要体现在三个层面:
一是预测性故障告警,涉及CPU、内存、硬盘、风扇、电源和QPI线缆,通过监控分析这些部件的运行数据,将出错的风险扼杀在摇篮里。
二是多重内存保护技术,包括Chipkill内存(能够在DRAM模块发生故障后有效恢复正常运行)、Memory Protexion(在 Chipkill的基础上,还能纠正 DIMM上更多的位错误,以便提高数据的完整性)、内存镜像和内存备份(能够在发生不可纠正的内存或内存插槽错误时维护数据内容)、内存擦洗(通过内存梳理及时检测并恢复数据错误,提高系统的正常运行时间)。
IBM工程师在介绍x3850 X5上的内存单元
三是Node FailOver技术,两块刀片或两个机架服务器组成一台多路系统,可以扩展性能,当其中一块刀片或机架宕机,另一个系统可以接管应用负载,避免了节点层面的单点故障。