单一映像的机群操作管理系统
单一系统映象管理是集群系统的关键技术,这种技术可以将系统中所有分布资源组织成一个整体进行统一管理和使用。深腾1800的操作管理系统LCOMS是用B/S架构实现的图形化、单一系统映像的集群操作管理工具,包含集群管理、作业调度、远程控制、信息监视和告警管理5个功能模块,可以统一对深腾1800的硬件、软件、应用进行管理。
机群管理模块
- 对整个机群系统进行单一映象管理
- 向机群系统或选中结点并行发送系统管理命令
- 访问控制、用户管理、NIS配置、时钟同步等
作业调度模块
在机群系统的使用过程中,如何统一管理机群系统中各种软硬件资源?如何方便用户提交和管理作业?如何合理分配资源和调度作业?如何提高整个机群系统的资源利用率和吞吐率?……这是影响机群系统实际使用价值的一系列关键问题。LCOMS中的作业调度模块LJRS有效解决了上述问题:
- 支持多种作业类型,用户能够以批处理和交互式向LJRS提交运行串行和并行作业
- 作业调度策略:FIFO、Reservation和Backfilling等
- 资源管理策略:公平共享、独占以及负载均衡等
- 用户管理策略:使用资源配额、作业提交配额等
- web方式操作:基于web编写作业脚本并提交作业
- 图形化的作业运行状态监控管理
信息监视模块
- 监视硬件健康信息(如CPU个数、主频等、主板风扇转速、主板温度等)
- 操作系统运行信息(如CPU利用率、内存使用情况、进程信息等)
远程控制模块
- 可进行带外远程操作功能,如设备ID灯控制、远程开机、远程关机、远程重启、和SEL清除等
- 可以将本地IDE设备虚拟成远程服务器的IDE设备,并通过IPMIv2.0定义的SOL(Serial over LAN)功能远程接管服务器的开机过程,使用户有机会进行远程的服务器诊断和修复
告警管理模块
- 预设告警阀值,当系统发生告警时,能够及时并以多种方式通知给系统管理员
- 支持丰富的告警信息,如服务器连接状态、硬件健康信息告警、进程CPU利用率超门限告警等