服务器 频道

稳定就是生命 动车事故警醒双机服务器

    【IT168 评论】甬温线动车事故牵动了全国人民的心。对于事故原因,有很多的说法,有说雷击的,也有说信号控制错误的,也许真正的原因还有待有关部门最终的调查结果。但有一点事实,故障造成了无法挽回的损失,逝去的生命已经无法挽回,教训是非常惨痛的。

  为什么总在一些原则性的问题上跌倒?这不仅指铁道部门,在IT应用中,也经常有这样的事情发生。在需要可靠性保障的关键业务应用场合,为了保障业务连续性,国内用户常常选择双机冗余的方案,而不是选择容错机。但在国外,用户一定会选择容错机。

  对于国内用户为什么不选择容错机,很重要的一个理由就是价格贵,资金预算有限。目前容错机的价格大体分为高中低档,价格为60万、40万和20万不等。这相当于多路服务器的报价,较之双路服务器高出很多。在这种情况下,用户常常选择双机冗余方案来提升可靠性。

  从技术上看,双机冗余所解决的是故障后的业务恢复问题,也就是说,在一定的时间段内,恢复系统运行,来保障业务的连续性。这就意味着,系统会有一定的中断时间。对很多业务而言,这种业务中断是可以的,例如邮件系统、保险下单系统等。但是对于有些业务,这种中断是不能够承受的,例如证券交易、银行交易以及工业控制系统等,业务中断就意味巨大损失,据统计,金融企业每次宕机损失平均为1000万美元。

  也许会有用户认为,双机冗余系统能够做到零中断切换,当系统故障时,自动切换到冗余的服务器。这只是一首好听的歌,实际上根本无法实现。原因很多,有监控问题,也有系统的同步问题。所谓零切换,也就是在演示阶段,实际上很难实现。究其原因,双机冗余的设计目的,并不是系统不中断,而是系统中断后,业务的连续性问题。

  解决系统不中断,保持业务连续可用,就只有采用容错机的方案。在国外,这几乎是用户的一种共识。要想系统不中断,可行的办法就是消除故障的隐患,就硬件层面而言,这种故障可能来自处理器,也可能来自缓存、内存、总线和I/O,那么容错机,通过锁步技术,销售了硬件故障的可能性,从而为系统提供所需要的可靠性。

  也许有用户会说,如今软件系统的故障大大高于硬件,采用容错机的意义不大。的确,软件故障大于硬件故障,对于软件故障,可以做的是打补丁升级,硬件无法解决软件的故障。但是对于用户来说,为什么会选择双机冗余,其目的就是克服硬件故障,从这个意义上说。选择容错机,要远远好于双机冗余方案,除非用户已经想明白了,其业务系统可以承受一定程度的中断,否则,双机冗余的选择就是一个绝对的错误。

  让“甬温线”事故再也不要发生!

0
相关文章