【IT168 专稿】经过一个季度的整合与改造,现在的公司机房已经大变样了。作为北京一家商务网站的CIO,刘鑫深感公司的数据中心变的更加智能,更加稳定。"最主要的是省心,很多时候自动化管理软件可以自行解决出现的故障,再也不用像过去一样到处忙着'救火'了。"
早先数据中心面对的问题
刘鑫表示,之所以感触很大,是因为以前公司的数据中心基本靠人来监控和维护。"最早是人工检测,我们有一大堆的温度和湿度传感器,在屏幕上显示着很多的温度数据,一旦有高温的情况出现,就必须调整空调系统,加强制冷。" 忆苦思甜,刘鑫笑着回忆以前的日子,"且不说每天盯着花花绿绿的数字头晕,单说你平时要检查那些传感器的灵敏度,要去相应的位置查看高温原因--有时候可能是空调故障。我们30多个机柜,300多台服务器,每天都会出现各种各样的问题。这种工作量一方面繁琐,另一方面也难以应对业务的成长。"
"不单单是温度,我们还要时刻注意是否有机器宕机。"刘鑫摇头苦笑,"业务中断不能超过10分钟,虽然重要的业务都有热备,但仍然要人工监控来切换业务所在的服务器。监控人员就必须要时刻保持精力集中,那会儿就想要是全自动的该多好。"
除了监控不够智能,刘鑫认为最让他头疼的就是数据中心巨大的能耗问题。"那会儿的机房空调系统是集中式机房制冷,一个机架高温,整个机房的空调都需要开足马力,功耗一下子就上去了。我们机房那会儿每年光电力开支就达到90多万元,占到运营成本的四分之一还多。"
智慧星球带来智慧的数据中心方案
不论是温度监控、容灾管理还是功耗控制,都面临着消耗大量人力、财力成本的问题。"那时,我们意识到急需一个智能化的数据中心整体解决方案。"刘鑫表示,"然后我们发现IBM的智慧星球中就有对于数据中心的全套智能化方案。"
智慧星球提供的数据中心方案里,可以运用一套智能监控软件,极大程度的代替管理人员来对数据中心的温度、负载状况、空调设备进行实时监控。"我们那时非常惊讶的发现这套系统的温度监控可以精确到单个机架,甚至是单个机架中的某个节点。而一旦发现温度异常,管理程序会自动的将该机架附近的空调制冷功率提高,实施精确打击。"刘鑫形象的比喻,"从原先的整体空调的控制,到现在只针对异常区域提升空调功率,这节省下来的成本非常可观。"
另一方面,智能的数据中心在遇到服务器宕机的情况时,可以自动将业务迁移到热备的服务器中,甚至是最新的虚拟机热备和迁移也是可以支持的。"最主要的是,数据中心可以在整体业务量不大的时候,进入休眠状态,等高负荷任务来了再唤醒。"刘鑫表示,一般情况下,公司的数据中心有2/3的机器处于低负载状态,如果可以运用上述智能化的负载管理来休眠大部分服务器,将节省一大笔运维费用。
腾出精力优化数据中心 智能化管理是未来
正说着,控制台前的液晶屏幕上的监控画面出现了红字的提示。"没什么,是温度预警而已,一会儿它自己就好了。"刘鑫解释道:"发出报警的是一套智能管理软件,它可以综合分析机房的负载、空调负荷、机房温度分布,并对可能出现的温度变化作出预测,刚才它就根据这个机柜中一个节点的温度提升做出了警报。"刘鑫非常欣慰的看着屏幕,"现在警报解除了,温度下去了,可以看到中间的屏幕上,软件自动提高了那个机架位置的空调功率,温度正在下降。"
现在刘鑫所管理的数据中心已经具有了高度的智慧,除了拥有以上自动监控和控制功能外,还能对一段时间内数据中心的状态进行统计和评估。刘鑫举例称,智能化管理程序在监控各个节点温度的同时,还会分析其负载和正在跑的应用,之后作出统计图表,方便我们总结数据中心内负载、功耗、温度等因素之间的关系和规律。刘鑫认为,这种统计和分析非常有用:"这在以往是难以想象的,以往我们像救火队员一样的处理一个个安全隐患;现在智能管理系统让我们可以腾出手来从宏观数据上来分析整个数据中心的运行情况,从而调整管理策略。"
刘鑫表示,随着数据中心智能化改造的深入,未来公司里数据中心出现问题,智能化程序会自动将问题概要和几个解决策略发短信告诉他,因此即便他在外地也只需要回复一个短信即可解决。
如果说计算机是将人从繁琐的计算工作中解放出来,互联网将人从繁杂的信息收集过程中解放出来,那么智能化的数据中心就是让人彻底摆脱"救火员"的角色,真正将精力用在优化管理策略上,而不是重复的解决问题。