登录 / 注册
IT168服务器频道
IT168首页 > 服务器 > 服务器评论 > 正文

您服务器的私人医生:FDM智能故障管理引擎

2018-05-23 09:20    it168网站原创  作者: 陶然 编辑: 陶然

  【IT168 评论】俗话说:人吃五谷杂粮没有不生病的,大家多多少少都跟医院打过交道。我们都希望在检查、缴费时流程更简捷;在诊断、分析时病因更准确。人是如此,机器也同样如此。服务器尤如一个有生命的机体,在“生病”的时候,也需要得到快速且正确的“治疗”。

  传统的故障诊断流程

  众所周知,服务器的硬件种类很多、故障原因复杂,时不时的报警与宕机更是让人摸不着头脑。许多时候,当系统发生严重故障时,由于OS不支持等原因没有记录下产生的MCE码,因此进行故障信息收集、定位分析等问题就显得愈加困难。

  传统方式下,服务器系统宕机后,运维人员会先通过网口或串口来收集信息,在没有收到有价值信息时,还需要在OS上植入一些代码抓取系统堆栈信息。但故障的复现,是一种让人非常期待和煎熬的等待;如果故障是在CPU、PCH、内存等核心部件上,通过OS收集信息的方式会完全失去作用,也就是无法真正找到病根。

服务器的私人医生:FDM智能故障管理引擎

  就算有数据收集驱动,故障也很难复现,我们还需要人工收集更多的数据进行人工分析服务器故障,在这种情况下,OS的内核已经挂死,无法调用任何进程,同时也大大耗费了人力资源,因此维护人员往往是换掉整机这种高成本的处理方式。

  华为FDM诊断流程

  华为服务器针对诊断场景独创一个以带外系统为中心的智能故障管理系统FDM。FDM由多位高端技术专家经过多年的时间,与多个部件/芯片供应商进行技术研究与合作,从BMC、BIOS等各类部件Frimware上做定制化开发,旨在系统地解决服务器架构下的各类硬件故障定位,大幅提升和扩展x86架构的RAS特性。

  相比系统报警来说,OS信息记录或许是一个比较好的方式,不过更多时候这个应用的效果表现在事后的复查当中,而且由于系统已经宕机,这时候信息或报告能否被100%保存下来并不确定。因此对于有效的运维来说,仅仅依靠这两套方案是完全不够的。

服务器的私人医生:FDM智能故障管理引擎

  华为FDM的做法可为业界提供一个新的思路。按照FDM的计划,除了行业通用的以OS为中心的故障处理系统之外,华为的服务器中还会新增一套带外(不依赖于OS)故障处理系统,解决现有OS在严重故障系统死机无法抓取故障数据的技术难题。

  这样一来,就能够快速有效解决OS故障的记录问题,从而使得问题得以回溯,让运维人员能够察觉到真正的问题所在,并予以解决。

  FDM的能力体现:全、智、准

  

  在监控与故障管理方面,故障诊断与管理(FDM)是iBMC一系列诊断技术和工具的总称。FDM对服务器各类部件进行全面的监控,实现服务器关键部件的深度故障诊断和故障预测机制,同时FDM还提供了系列的故障辅助定位工具,为最终运维人员分析定位故障,带来极大的便利。

  全部件监控:FDM打通了包括CPU内存、存储、PCIe、主板、板级电源、链路、电源模块、风扇等部件故障数据收集通路,当部件产生故障时,BMC可以收集到故障相关数据,作为诊断和预告警的输入数据;BMC通过带外通道来回传故障数据,即使系统处于宕机的状态,带外的链路也能够正常工作保证数据链路的通畅。

  

  在智慧能耗管理方面,动态能耗管理技术(DEMT)是一组根据CPU负载、环境温度等多种输入参数,动态实时智能调节各部件的功耗的技术集合,通过动态能耗管理技术和休眠技术,使设备节能管理更加高效,平均可节约耗电15%~30%。结合服务器端到端的散热设计,可增加服务器在线服务时长30%以上。

  数据自动收集,专家库解析,智能诊断:故障产生后,如果系统宕机后,BMC能够全自动的从带外链路收集故障数据;收集回来的数据经华为多年积累的X86故障诊断专家库进行解析和诊断,精确输出故障部件位置并且给出合理的处理建议。

  

  诊断准确:华为FDM智能故障管理系统,独家深度诊断专利技术,针对引发系统宕机的CATEER/IERR等严重故障诊断成功率达93%。在故障预警方面,FDM能够针对各个部件进行健康监控分析,部件属于亚健康状态则FDM将给出告警。在故障隔离方面,针对故障的部件,FDM能够根据不同的部件进行隔离,防止错误进一步影响业务。

  下面给大家分享两个真实案例,某客户数据中心陆续出现某厂商多台服务器大面积宕机。OS未记录任何日志信息,BMC也未能记录任何有效信息,经过半年多时间定位,也未能给出故障原因。

  而在同样情况下,华为V3服务器通过FDM,快速在BMC日志中明确了是由于CPU故障导致的黑屏宕机。英特尔也出具了定位报告确认是CPU故障,根因为CPU Cache个例失效。该客户根据根因,对CPU进行了更换,问题迅速得以解决。

  无独有偶,某客户使用华为H2288 V3设备,通过分析告警和日志,在web页面和sel日志中有上报得NIC1故障,现场更换NIC1部件后故障恢复,使用FDM可精确上报故障部件。

  综上所述,FDM智能故障管理系统可以帮助客户更好的完成故障信息(带内/带外)收集与解析、尽快的实现故障诊断定位、前瞻性的提供故障预告警,从而大大简化运维步骤,解决时间与人力成本。

  写在最后,华为FDM智能故障管理系统的出现,正是为这些服务器提供了坚强的运维后盾,就尤如服务器的私人医生一样,“身体”感到不适后,FDM可以实现快速定位,并成功更换故障部件,帮助您的企业快速恢复业务,药到病除确保业务连续性。

标签: 华为
  • IT168企业级IT168企业级
  • IT168文库IT168文库

扫码送文库金币

编辑推荐
系统架构师大会
系统架构师大会
点击或扫描关注
IT168企业级微信关注送礼
IT168企业级微信关注送礼
扫描关注
首页 评论 返回顶部