联想集群作业调度模块LJRS
在集群系统的使用过程中,如何方便用户提交和管理作业?如何合理分配资源和调度作业?如何提高整个集群系统的资源利用率和吞吐率?……这是影响集群系统实际使用价值的一系列关键问题。LCOMS中的作业调度模块LJRS是建立在操作系统与用户程序之间、用于统一管理和调度集群系统中作业与资源的系统软件。它能够控制用户提交作业,充分地利用集群硬软件资源及CPU时间。
LJRS包括提交结点(支持用户通过图形化界面或命令行方式提交命令)、用户服务器Server、作业调度器Sched、作业执行器Execd。
- 用户命令可分为普通用户、操作员和管理员三级,均可以通过命令行或图形用户界面方式运行,是用户和系统管理员进行作业提交、作业监控和系统管理配置的接口。
- 用户服务器Server负责管理集群中的作业和资源信息,维护着集群中的结点、队列、作业和用户权限信息的表,负责接收客户端发出的各种请求,来管理作业、队列、结点和资源等对象。作业调度器Sched根据执行结点反馈的信息作出调度决策然后下达给用户服务器。
- 作业调度器Sched通过从用户服务器Server收集集群中所有结点上的作业和资源信息,从执行结点Execd获取负载状态,根据一定的作业调度和负载平衡结点选择策略,决定在哪些执行结点上运行。作业调度器Sched并不直接给执行结点Execd下达指令。
- 作业执行器Execd主要实现三个功能:
- 一是根据用户服务器Server的指令,运行作业、建立资源限制、监测作业占用的资源、通知用户服务器作业运行结束等;
- 二是资源管理功能,响应Sched的资源监测请求,如作业的运行状态和可用内存等;
- 三是和运行作业的其他结点上的Execd通信,确保并行作业的正常加载和结束。
LJRS提供了先入先出(First In First Out)、资源预留和回填(Reservation and Backfill)、负载均衡等作业调度策略。
- LJRS对系统级、队列级和用户作业级实现了不同的负载均衡结点选择策略。
- 对于系统级来说,每个队列有一种结点选择策略。
- 对于队列级,不同的队列都可以由系统管理员设置不同的策略。
- 对于用户级,用户可以为自己的作业设置一个结点选择策略。
- 对于结点分配策略,该系统提供了公平共享和独占两种策略。通过对不同的系统、不同的作业配置不同的负载均衡策略和结点选择策略,可以更好的提升系统的利用率,同时也提高了作业的执行效率。
- 资源预留和回填作业调度技术能确保大型作业不被延迟的前提下,允许小作业在这些预留的CPU上运行,这充分利用了大型并行作业期间的预约资源,提升了深腾1800服务器的利用率。
LJRS可支持MPI、PVM和OpenMP等作业,能批处理和交互式方式运行并行作业,也能运行串行作业。
LJRS提供了基于Web页面的中文图形化操作界面,显著提升了深腾1800服务器的易用性。在其配置界面中主要包括以下三个功能模块:
- 系统基本配置界面,提供了对系统和队列配置的查看和更改,对结点分配策略和资源的配置修改;
- 结点配置界面,提供了结点配置信息的查看和更改;
- 作业管理界面,提供对作业的提交、作业脚本web编写、属性的更改、监控、查询等操作,同时实时的显示作业的执行状态;
- 命令行操作界面,提供用户在web界面中使用命令行操作。