服务器 频道

浪潮天梭M13:发现问题比解决问题更重要

  【IT168 资讯】天梭M13关键主机的众多高可用技术之一—FMS故障管理系统,FMS故障管理系统是一套完整的服务器软硬件健康管理容错保护系统,为客户提供故障定位、诊断、预测等服务,保证客户关键业务长久安全稳定运行。

  天梭M13关键应用主机是浪潮自主研制的在线交易处理性能最强的单机服务器系统,面向对稳定性和可用性极高的银行、政府、大企业的超大型数据库应用设计,具备比肩大型机的处理性能。要持续支撑如此强悍的业务处理能力绝非易事,浪潮汇聚在服务器研发、维护领域多年成功经验,为天梭M13主机配备了各项尖端RAS技术,助力客户业务长久稳定运行。RAS特性中的R“Reliability”高可用性对于大型关键应用主机来说尤为关键,其作用体现在及时应对突发故障以及警示维护人员规避故障风险上,可以显著延长服务器整系统平均无故障时间,维持客户关键应用持续稳定运行。完备的高可用性是服务器达到“五个9”的重要衡量指标之一,本文介绍天梭M13关键主机的众多高可用技术之一—FMS故障管理系统。

  快速准确找到问题已成为一个问题

  如今随着客户业务类型及业务量的不断攀升,生产系统所产生的故障信息也越来越多。为了保证系统的正常运行,很多数据中心都会实时监控系统产生的消息,希望能够及时发现系统中存在的潜在问题。然而,随着交易数量的不断增加,大量消息的产生,让人应接不暇,监控系统也变得越来越困难。对于一个庞大的系统来说,一旦问题出现,想从浩如烟海的故障消息中去定位这个问题是一件异常困难的事。对于一些大型的业务系统,一天所产生的日志量可能达到几十个G的数量级。 要在这些数据中去寻找问题出现的根源,无疑是一项重大挑战。因此,急需一种能够方便监控系统和定位的问题的工具。FMS 就是在这样的需求下,应运而生的。

  如何找到问题——FMS自动化定位,预测、容错

  FMS故障管理系统是一套完整的服务器软硬件健康管理容错保护系统,是为浪潮服务器打造的“健康卫士360”,具有故障自动化定位,预测、容错和自动化故障处理的功能,支持多层级故障管理架构自主扩展,自动故障诊断及智能故障预测,同时通过浪潮服务故障诊断数据库,建立了故障的数据化分析和科学预测的平台。

  不同于集群或单机服务器监控软件,FMS故障管理系统采取轻量级故障信息捕获技术,对于大部分故障事件的处理采用主动通知方式,当故障发生时主动报告给故障管理系统,无故障发生时不消耗系统资源。机器正常运行状态下,FMS故障管理系统对于正在运行的业务不产生任何干扰,故障管理系统CPU占用不超过1%,内存占用低于5M,对系统性能没有任何影响。

  如何处理问题——FMS的实战服务器故障规则库

  浪潮多年服务器销售、维护经验,搭建了一整套基于实战的服务器故障规则库,积累了丰富的故障判断规则和处理经验。庞大的故障诊断规则数据库,支持BMC、CPU、内存、磁盘、网络、XFS、PCIE、MD、死锁、内核等多设备故障检测诊断,每条规则都经过了严格的测试来验证其准确性,确保其在生产环境中稳定可靠。经由这些规则可以诊断检测出机器设备或系统的故障问题,并划分故障严重等级,及时给出处理方案。

  如何提前预警——FMS学习模型

  涵盖CPU,内存,网卡,文件系统等服务器硬件软件各个层次的故障信息。能够对磁盘进行故障预测:通过大数据的积累分析,建立学习模型,实现提前预测并预警磁盘故障,提示客户在故障发生前进行妥当的维护处理。支持节点高可用方式,节点发生故障,无法登陆界面的时候,可以利用其它机器分析故障机器的信息。例如:当一个内存条(内存页面)上,24小时发生 10个“Memory write error”故障的话,就将该内存页面离线并报告该内存条的具体位置,通知管理员及时更换内存条。

  如何降低运维难度——FMS健康状态评估系统

  FMS故障管理系统提供整体健康状态评估系统,周期性的全方深度检查服务器的每一个角落,为客户直观展示服务器各组成部件的健康状态、故障情况以及可能产生的安全隐患。与故障管理工具相互配合,对检查出来的故障和隐患进行自助修复、隔离,若有硬件级别无法处理的故障,则会提示联系厂家进行维修和更换,这种提示的定位可以精确到主板的某一个槽位上,对于天梭M13这种庞大的系统,硬件级别的精准故障定位极大程度降低了运维人员的维护难度。

浪潮天梭M13:发现问题比解决问题更重要

  浪潮天梭M13系统不但能提前预测、预警,又能快速自动化定位,找到问题,处理问题,为客户关键应用持续稳定运行保驾护航。

0
相关文章