服务器 频道

Win2008 HPC群集之作业失败疑难解答

  【IT168 专稿】在Windows HPC Server 2008群集中,作业和任务可能会因多种原因失败。

  作业失败疑难解答

  检查作业错误消息

  在"导航窗格"中的"我的作业"下,单击"失败"。

  双击一项作业(或右键单击一项作业,然后单击"查看作业")可查看作业详细信息。

  在"查看作业"对话框中,单击"结果和统计信息"。

  检查"错误消息"字段以获取有关作业失败原因的信息。

  作业失败的常见原因

  作业中一项或多项任务失败。这是最常见的作业失败原因。这表明一项或多项任务无法运行或未能成功完成。查看任务级别错误消息以调查该类型的作业失败。在"查看作业"对话框中,单击"查看失败的任务"。

  无法联系分配到作业的节点。对于因无法联系节点而失败的作业,系统会自动重试特定的次数,但如果问题继续存在,作业最终会失败。如果收到此错误消息,请联系您的群集管理员。

  作业的运行时间已过期。作业计划程序服务会取消到达运行时间界限的作业。如果可能,请修改作业的运行时间,然后对作业进行重新排队。详细信息,请参阅修改作业 和对作业或任务进行重新排队。

  无法在一个已分配节点上启动作业。此类型失败的最常见原因是与作业关联的用户名或密码无效。可以使用 job modify 命令行命令更新附加到作业的凭据,然后尝试进行重新排队。有关使用命令行命令的详细信息,请参阅 http://go.microsoft.com/fwlink/?LinkID=120724.

  任务失败疑难解答

  检查任务错误消息

  在"导航窗格"中,单击"我的作业"。

  单击一项作业。"详细信息窗格"会显示有关任务的信息。

  在"详细信息窗格"中,单击"任务"选项卡,然后双击一项任务(或右键单击一项任务,然后单击"查看任务")可查看任务详细信息。

  在"任务属性"对话框中,单击"结果"选项卡。

  验证是否选择了正确的任务,然后检查"错误消息"字段以获得有关任务失败原因的信息。

  任务失败的常见原因

  任务在执行期间失败。此类型的错误发生于应用程序自身。查看输出和错误文件以获得详细信息。如果没有为任务指定标准输出和错误文件,请检查"任务属性"对话框中的"输出"和"错误"字段。

  注意:该消息表明任务的命令行返回了一个非零的退出代码,作业计划程序服务将此解释为失败。但是,某些应用程序即使成功运行,也可能返回一个非零的退出代码。

  任务的运行时间已过期。作业计划程序服务会取消到达运行时间界限的任务。您可以新建一个具有更长运行时间的任务副本,然后尝试对作业进行重新排队。

  无法访问任务需要的文件位置。任务失败的一个常见原因是无法访问需要的文件位置,包括标准输入、输出和错误文件以及工作目录的位置。请查看以下可能的原因:

  权限问题阻止了任务访问指定的文件。

  网络问题阻止了从指定计算节点访问文件。

  工作目录、输入文件或输出文件位置不存在。

  无法联系分配到任务的节点。对于因无法联系节点而失败的任务,系统会自动重试特定的次数,但如果问题继续存在,任务最终会失败。如果收到此错误消息,请联系您的群集管理员。
 

0
相关文章