可扩展的监控能力
可扩展的机群监控能力,与可扩展的硬件控制能力一样重要,是机群自动化管理的有用工具。尽管有些企业软件提供错误检查和响应的能力,机群管理软件提供一种内建的用户可定制的监控还是很有用的。整个机群中一些需要监控的指标包括:节点上线和下线(对管理机群负载的软件有用)、内存使用、文件系统空间使用、处理器空闲时间、网卡吞吐量以及系统日志。下面列出一些重要的扩展点:
- 用户可自定义增加对系统或应用的一些特殊指标的监控,以及象SNMP和CIM这样的标准基础应用的监控,这些监控指标有些系统本身可能没有提供。
- 用户可针对发生的状况在本地或整个机群自定义需要运行的脚本。
- 可把监控到的事件转发给其它一些不同的企业监控软件如Tivoli企业控制台、CA Unicenter或HP OpenView。
目前,Ganglia、Nagios、Big Brother、Scali Manage、Clusterworx和CSM都具备可扩展的监控能力。