服务器 频道

故障转移群集中的Win2008 HPC管理攻略

  【IT168 专稿】本文介绍如何在故障转移群集中管理 Windows HPC Server 2008,并且提供了一些非常好的做法。

  您具有两个可供选择的管理控制台,即"故障转移群集管理"管理单元和"HPC 群集管理器"管理单元。

  故障转移过程

  当前作为头节点的服务器出现故障时,管理和网络服务将开始在故障转移群集中的其他服务器上运行。

  故障转移和故障回复的步骤为:

  检测:检测到故障。

  故障转移:头节点将故障转移到故障转移群集中的其他服务器。

  客户端重新连接:作业计划程序客户端将重新连接到现在作为头节点的服务器上的作业计划程序。

  故障回复:修复有故障的服务器后,服务将被返回并开始在该服务器上再次运行。

  头节点故障检测

  故障转移群集将通过定期心跳监视故障转移群集中的服务器上的进程。如果服务器错过五次心跳,则认为通信已失败。故障转移群集还可以监视服务,以确保它们处于运行状态。

  您可以在"故障转移群集管理"管理单元中配置将服务器视为故障时的阈值。

  对于复制的管理服务,没有任何故障转移检测。如果复制的服务在故障转移群集中的某个服务器上失败,则故障转移群集中的其他服务器上的服务将继续服务于所有客户端。

  头节点故障操作

  如果故障转移群集检测出头节点提供的服务出现了故障,它会在故障转移群集中的其他服务器上启动作业计划程序服务和 SDM 管理服务。该管理服务可以继续在最初启动时所在的服务器上运行,现有的管理客户端将继续在此处与其进行连接。新的管理客户端将连接到在其他服务器上运行的管理服务。

  如果所有的服务(包括管理服务)都执行故障转移,则客户端将连接至它们当前运行的服务器上的服务。

  客户端重新连接

  作业计划程序客户端断开连接时,客户端将重试连接,直到可以重新连接到运行作业计划程序服务的服务器为止。该服务的实际位置(在故障转移群集中的服务器上)不重要,因为它对于客户端来说采用一致的名称(由故障转移群集提供)。管理客户端将重试,直到它们可以重新连接到管理服务为止。

  修复头节点和故障回复

  故障转移后,您可以修复或替换有问题的服务器,然后通过"故障转移群集管理"管理单元将这些服务还原(故障回复)至该服务器。

 

0
相关文章