服务器 频道

IBM POWER7服务器开启小型机新纪元

  本文的开头曾经讲过,在很多场合小型机所宣扬的优势中,高RAS特性是必不可少的。也因此,虽然x86处理器的性能追上来的很快,很多应用也都有x86平台的版本,可在RAS方面,却一直是小型机的绝对强项。因此,在那些需要高RAS特性的应用场合,小型机仍然不可替代。从某种角度上讲,RAS特性已经成为了小型机与x86服务器之间的分水岭。x86如果想继续上位,就必须具备,而小型机如果想继续自己的好日子,就必须更上一层楼。

  不过,说到RAS特性,并不仅仅是CPU或是硬件的事情,其实就一个应用本身来讲,RAS贯穿全局,CPU只占其中一部分。比如操作系统就是一个很重要的RAS节点,所以小型机的RAS体系并不是那么很容易就可复制的,它是成系统并成体系的,所以在谈POWER7的RAS特性之前,有必要看看硬件以外的对比。

  从服务顺操作系统层面来看,IBM的AIX操作系统的宕机时间最少

  根据美国Yankee Group在2007-2008年所做的服务器操作系统的评估调查,来自27年国家的400多个企业的反馈显示,IBM的AIX操作系统的宕机时间最少,显示出了高可靠与高稳定性。这对于企业应用中的整体RAS表现显然很重要。这其中可以看出SUSE的Linux系统也很可靠,而它也能应用于x86系统,那么以整体的平台来看RAS又如何呢?

  从整体的系统层面来看,IBM的Power系统全年宕机时间最少,HP-UX/RISC的系统其次,x86/Windows平台最高

  在《网络世界》于2009年7月14日发布的服务器操作系统系统可靠性调查中,发现Power+AIX的组合表现最为稳定可靠,在可用性方面是Windows系统的10倍,是UNIX友商的2.3倍,在可靠性方面,每年Power+AIX只有不到一次的非计划内的中断服务,在可维护性方面,11分钟即可完成补丁的升级。综合来看,Power+AIX系统在RAS方面有着良好的传统和优异的表现纪录。

  POWER7的高可靠与高可用设计,毕竟对于CPU来说,并不涉及高可维护性,后者是对整体系统而言

  回到本文的主题,POWER7在高可靠与高可用性方面,包括了以下主要的设计:

  动态双振荡器:有两个振荡器为处理器提供基准时钟(OSC0和OSC1)的失效备援

  高可靠的处理器与节点总线接口:具有ECC保护与节点热添加与修复功能的Fabric架构总线接口,用于连接其他的处理器或节点

  处理核心恢复:检测各主要寄存器的错误,并进行清除与重试,增加堆栈闭锁功能以改善软件错误率(SER)

  后备处理器恢复:核心检查停止时进行分区隔离

  L3 eDRAM缓存:具备ECC保护功能、特殊的无法修正的错误(SUE,Special Uncorrectable Error)应急处理、缓存行删除以及备用的行与列寻址功能

  GX IO总线:用于与IO集线器相连接,具备ECC保护以及热添加

  高能内存功能:具备标准的ECC/Chip Kill内存技术;可允许两个内存芯片失效;SUE应用处理;选择性的内存镜像功能用以在DIMM失效时进行分区恢复;PowerVM虚拟化管理器也具备全DIMM失效时的保护功能

  从中我们可以看到,有些RAS特性已经与相应的软件相结合,比如PowerVM虚拟化管理器,而在虚拟化已经基本成为小型机主要的应用模式之后,虚拟化RAS显然也必须提到台面上来,在这方面Power小型机显然走在了前面。

0
相关文章