服务器 频道

反思阿里云宕机:良性预警机制需完善

  【IT168 评论】今天下午,阿里云阿里云部分服务器于出现短暂无法访问情况,致使其科技博客ifanr等网站无法访问。阿里云方面称,该故障的发展原因在于出现电力故障,已在维护恢复中。对于此次事故,阿里云声明如下:

  尊敬的阿里云用户:

  非常抱歉,由于电力故障,导致阿里云部分服务器于10月30日下午出现短暂无法访问情况,目前正在逐步恢复中,给您造成的不便,敬请谅解!

  阿里云遵循金牌服务承诺,为此次电力故障受影响的用户提供百倍赔偿。请用户尽快按照服务流程提交工单,我们会尽快为您处理!

  百倍赔偿说明:

  1、因阿里云故障导致客户服务器无法使用,按照故障时间100倍/台赔偿,赔偿总额不超过支付的云服务器费用总额;

  2、故障时间=故障解决时间-故障开始时间;

  3、百倍赔偿仅限时间的补偿,无法折算现金及代金券。

  4、服务流程:发现故障→ 客户提交工单 →阿里云排查解决→阿里云百倍赔偿→客户控制台查看

  阿里云计算

  2012年10月30日

  【编辑微评】服务器宕机当下见怪不怪了。有的因为安全措施没做到位,有的是因为冗余电源没配置,有的是因为人为失误,等等。而服务器一旦出现问题,追究原因对用户而言无济于事,事后的损失赔偿似乎显得苍白无力。如何做到预警,如何做好工作负载的技术支持,如何实现冗余保障……当下谈论服务器持续7X24的智能响应技术已不计其数,然而频繁出现服务器故障、服务器宕机又是何故?服务商该思考了。在此,笔者鄙陋,列举几种减少服务器宕机的方法,仅供服务商参考:

  ·选购合适的服务器产品

  在琳琅满目的服务器产品中,企业选择服务器产品不能人云亦云,应该在购买前,对自身员工数量、业务类别、业务规模、机房空间、服务对象性质、管理能力等进行彻底大清查之后,再进行比对,选择适合自己的服务器产品。

  ·建构良性服务器机房

  机房是服务器赖以生存空间,机房整洁度、布线合理性、通风情况如何,冷却温度如何将直接影响身处其中的服务器。“系统在过热、过湿、灰尘过多的环境下也许仍可以运行,但是它们绝对达不到应有的使用寿命,而且较之于在建议的环境状况下运行,更容易受到环境条件的影响,因而频出故障。”来自TERiX计算机服务公司的营销专员Joe Guenther这样说道。

  ·运行服务器实时监控机制

  服务器每天在运行的过程中,企业应该运行服务器实时监控机制。监控机制包括两部分:员工实时检查和网络实时监测。企业部署相关员工对服务器运行数据进行按日分析,并整理出服务器工作日志,以便第一时间处理异常现象;同时对服务器机房进行按日检查,避免人为诸如机房乱堆放杂物、有灰尘等情况干扰服务器正常运行。另一方面,企业应该选择一套服务器监控解决方案,对服务器从内在质上进行实时监控,以便及时发出警报,及时安排相关技术人员进行整修。

  ·制定宕机灾难修复计划

  既然服务器出现宕机的可能性随时存在,在部署服务器时,企业需要邀请相关IT专家进行讨论,分析该企业可能出现宕机情况,并就这些情况分析结果形成意见,思考宕机情况出现时的解决策略,制定一套宕机灾难修复计划,以便服务器在出现宕机时减少慌乱,及时应对。

0
相关文章