【IT168 专稿】在"作业管理"中,可以监视和管理提交到群集的作业。在作业列表中,每一行列出一个作业,各列分别显示作业属性、作业状态和指标值。作业列表提供了向下钻取到作业详细信息和对一个或多个作业执行操作的起点。
HPC 群集管理器提供了几个图表和报告,用于跟踪群集的作业统计信息。
配置计划策略
计划策略确定了队列中作业的运行顺序。当配置 HPC 作业计划程序服务时,可以设置计划策略(例如抢先和回填)、错误处理和作业历史记录选项。通过创建自定义的作业提交筛选器和作业激活筛选器,可以强制执行站点特定的作业提交策略和作业激活策略。
查看作业和任务
作业列表显示有关群集中作业的信息。您可以对作业列表进行筛选和排序,还可以选择要在列表中显示的作业属性和指标值。单击作业列表中的作业时,有关该作业的详细信息会出现在"详细信息窗格"中。在"详细信息窗格"中,可以查看作业中的任务、任务状态、作业详细信息和作业的活动日志。还可以查看作业和任务结果。
1、配置 HPC 作业计划程序服务
HPC 作业计划程序服务可以对作业和任务进行排队、分配资源、为计算节点分派任务,以及监视作业、任务和节点的状态。
计划策略确定了队列中作业的运行顺序。当配置 HPC 作业计划程序服务时,可以设置计划策略(例如抢先和回填)、错误处理和作业历史记录选项。您也可以指定自定义作业激活和提交筛选器程序。
配置 HPC 作业计划程序服务
在"选项"菜单中,单击"作业计划程序配置"。
使用"作业计划程序配置"对话框设置计划选项。
完成此操作后,单击"应用"保存更改,或单击"确定"保存并退出该对话框。
2、了解激活和提交筛选器
通过创建自定义筛选器,可以强制应用特定于站点的作业提交策略和作业激活策略。它们称为"作业提交筛选器"和"作业激活筛选器"。
作业提交筛选器
作业提交筛选器是在每次提交作业时可从运行 HPC 作业计划程序服务的群集的头节点访问的程序(.exe 或 .cmd 文件)。作业提交筛选器可以拒绝、接受或更改用户提交到群集的作业。作业提交筛选器将分析作业说明文件,以检查其中是否有被禁止的选项或是否未包括必需的选项。例如,您可能想禁止默认运行时值为 Infinite。这可以通过一个提交筛选器来实现,该提交筛选器可以检查作业说明文件中是否有"Infinite",如果有,则将它更改为有限值。
注意
提交筛选器允许仅更改作业属性值。不能使用提交筛选器来更改任务属性选项。
在另一个示例中,您可能想要求有一个通过编辑作业架构创建的新作业选项。它们称为扩展选项,并且计划程序不检查它们。因此,如果要强制应用要求,并且在找不到选项时阻止作业进入队列,则必须使用提交筛选器。
作业激活筛选器
作业激活筛选器是一个程序(.exe 或 .cmd 文件),每次作业准备好启动并可以延迟或允许作业启动时,都可以从运行 HPC 作业计划程序服务的群集的头节点访问此程序。作业激活筛选器将检查排队作业中是否有如果激活作业则会导致作业失败的因素,比如许可证不可用或超过提交用户的使用时间。如果筛选器检测到此情况,则它会阻止作业激活。
3、对作业列表进行筛选和排序
在 HPC 群集管理器中,您可以监视提交到群集的作业。在作业列表中,每一行列出一个作业,各列分别显示作业属性、作业状态和指标值。您可以对作业列表进行筛选和排序。
可以使用"导航窗格",按作业状态或按用于提交作业的作业模板来筛选作业列表。也可以在视图窗格中使用筛选字段,按"作业名称"、"所有者"、"提交时间"或"项目名称"来筛选作业。
可以单击列标题按特定属性对列表进行排序。通过选择要显示哪些列,可以自定义作业列表视图。例如,可以添加"已排队的任务"、"正在运行的任务"和"已完成的任务"列,以显示这些状态下的任务计数。在工具栏中,单击"查看",然后单击"列选择器"。
对作业列表进行筛选和排序
为演示如何对作业列表进行筛选和排序,以下过程说明了如何查看今天提交的失败作业,然后按已分配的节点对结果进行排序。
查看今天提交的失败作业并按已分配的节点对结果进行排序
在"作业管理"的"导航窗格"中的"所有作业"下,单击"失败"。
在视图窗格的"提交时间"下拉列表中单击"今天",然后单击筛选按钮。
右键单击任何列标题,然后单击"列选择器"。
在"列选择器"对话框的"可用列"中,单击"已分配的节点",然后单击"添加"。
在"显示的列"中,单击"已分配的节点",然后单击"上移",直到"已分配的节点"靠近列表顶部。
单击"确定"关闭该对话框。
在视图窗格中,单击"已分配的节点"列标题对作业列表进行排序。
4、查看作业或任务
在 HPC 群集管理器中,可以随时查看群集作业的作业或任务属性、状态和结果。若要查看作业详细信息和任务,您必须有管理权限,或者是提交用户。
查看作业属性和结果
在"查看作业"对话框中,可以看到作业详细信息、作业中的任务列表、所选资源、许可证、作业的结果和统计信息以及作业中失败任务的详细信息和结果等信息。
查看作业
在"作业管理"的"导航窗格"中,单击"所有作业"。群集中的所有作业的列表将出现在视图窗格中。
在作业列表中,右键单击作业,然后单击"查看作业"。
"查看作业"对话框将显示作业和任务属性、状态和结果。
查看任务属性和结果
如果任务不指定"标准输出"和"标准错误"文件,则结果将转到 HPC 作业计划程序服务数据库,并在"任务属性"对话框中作为任务的输出字段出现。数据库为每个任务最多存储 4 KB 数据。超过 4 KB 的任何额外数据将截断。如果任务指定"标准输出"和"标准错误"文件,则任务输出将转到这些位置。
查看任务属性和结果
在"作业管理"的"导航窗格"中,单击"所有作业"。
在作业列表中,单击某个作业。所选作业的任务列表将出现在"详细信息窗格"中。
右键单击任务,然后单击"查看任务"以显示任务属性和任务结果。
5、取消作业或任务
在 HPC 群集管理器中,可以随时取消一个或多个活动的作业或任务。取消操作会停止作业,并释放其资源。被取消的作业可以重新排队。还可以将其保存到作业说明文件,并从说明文件重新提交。
取消作业
在"作业管理"的"导航窗格"中,单击"所有作业"。
在作业列表中,选择一个或多个作业。
右键单击所选项,并单击"取消作业"。
取消任务
在"作业管理"的"导航窗格"中,单击"所有作业"。
在作业列表中,单击某个作业。"详细信息窗格"会显示该作业的任务列表。
在任务列表中,选择一个或多个任务。
右键单击所选项,并单击"取消任务"。
6、对作业或任务进行重新排队
对作业或任务进行重新排队会将其插入回作业队列。要对作业或任务进行重新排队,您必须拥有管理权限,或者是提交用户。您可以对"已取消"的作业或任务进行重新排队,在某些情况下,还可以对"失败"的作业或任务进行重新排队。
对作业和任务进行重新排队的指南:
如果对作业进行重新排队,则会对作业中所有未完成的任务进行重新排队。
对任务进行重新排队时,包含该任务的作业必须处于"正在运行"状态。否则,必须对作业自身进行重新排队才能重新运行任务。
无法对"已完成"的作业和任务进行重新排队。您可以创建"已完成"的作业或任务的副本来重新运行它。
对作业进行重新排队
在"作业管理"的"导航窗格"中,单击"所有作业"。
在作业列表中,选择一个或多个作业。
右键单击所选项,并单击"对作业进行重新排队"。
对任务进行重新排队
在"作业管理"的"导航窗格"中,单击"所有作业"。
在作业列表中,单击某个作业。该作业的任务列表将出现在"详细信息窗格"中。
在任务列表中,选择一个或多个任务。
右键单击所选项,并单击"对任务进行重新排队"。
7、复制作业或任务
要按原样或在进行了更改后再次运行作业,可以创建并提交作业的副本。要复制作业,您必须拥有管理权限,或者是提交用户。通过复制作业,您可以再次运行已完成的作业,或将以前提交的作业的属性设置用作新作业的模式。
同样,在单个作业中,可以创建任务的副本。这样您便可以高效地创建具有相似属性的多个任务。
复制作业
在"作业管理"的"导航窗格"中,单击"所有作业"。
在作业列表中,右键单击作业,然后单击"复制作业"。
在"复制作业"对话框中,根据需要对作业进行修改,然后单击"提交"。
复制任务
在 HPC 群集管理器中,用于复制任务的选项位于"新建作业"、"修改作业"和"复制作业"对话框中。作为示例,以下过程描述了如何在"新建作业"对话框中复制任务。
复制任务
在"作业管理"的"操作"窗格中,单击"新建作业"。
在"新建作业"对话框的左窗格中,单击"任务列表"。
添加任务,并根据需要设置属性。任务将显示在任务列表中。
在任务列表中,单击已创建的任务,然后单击"复制"。任务的副本将显示在任务列表中。
在任务列表中,单击复制的任务。在"任务属性"下,可以修改任务的属性,或单击"编辑"打开"任务详细信息和 I/O 重定向"对话框。
8、将作业或任务保存到文件
在 HPC 群集管理器中,将作业或任务保存到文件意味着将作业或任务规范导出到 XML 文件。这样便可以将作业或任务保留为将来提交的模式。从 XML 说明文件创建新作业,或从 XML 任务文件将任务添加到作业时,可以修改作业或任务的任何属性,然后再提交。要保存作业或任务,您必须拥有管理权限或是提交用户。
保存作业
在"新建作业"对话框中,可以单击"作业另存为"保存作业,然后再提交。还可以保存部分创建的作业,以便以后再完成。
可以随时保存已提交的作业。以下过程说明了如何保存已提交的作业。
将已提交的作业保存为说明文件
在"作业管理"的"导航窗格"中,单击"所有作业"。
在作业列表中,右键单击作业,然后单击"导出作业"。
出现提示时,输入 XML 文件的名称。
注意
虽然说明文件名称和作业名称可能相同,但它们是独立的实体。这样您可以为作业分配特定名称,而为说明文件分配通用名称。
保存任务
在"新建作业"对话框中,您可以选择将个别任务保存到文件,然后再提交作业(在"任务列表"中单击一个任务,然后单击"导出到文件")。
可以随时保存已提交的任务。以下过程说明了如何保存已提交的任务。
将已提交的任务保存为任务文件
在"作业管理"的"导航窗格"中,单击"所有作业"。
在作业列表中,单击某个作业。该作业的任务列表将出现在"详细信息窗格"中。
右键单击任务,然后单击"导出任务"。
出现提示时,输入 XML 文件的名称。
注意
虽然说明文件名称和任务名称可能相同,但它们是独立的实体。这样您可以为任务分配特定名称,而为说明文件分配通用名称。
9、修改作业
在 HPC 群集管理器中,您可以修改作业队列中的作业的属性。要修改作业或任务,您必须拥有管理权限,或是提交用户。
修改作业和任务的指南:
对于处于"已排队"状态的作业,可以更改其所有属性。
对于处于"正在运行"状态的作业,只能更改下列属性:
运行时间 (dd:hh:mm)
一直运行,直到取消
项目名称
可以修改处于"已取消"和"失败"状态的作业,然后对其重新排队。
不能修改"已完成"的作业。要按原样或在进行了更改后再次运行作业,请参阅复制作业或任务。
可以将任务添加到活动作业(即处于"正在配置"、"已排队"或"正在运行"状态的作业)。
关于使用 HPC 群集管理器的信息,请参阅 HPC 群集管理器概述。
修改作业
在"作业管理"的"导航窗格"中,单击"所有作业"。
在作业列表中,右键单击作业,然后单击"修改作业"。
适当更改属性值。
单击"修改"以应用更改。如有必要,请对作业重新排队。