服务器 频道

Win2008 HPC群集之诊断入门

  【IT168 专稿】Windows HPC Server 2008 提供一组常用诊断测试。可以使用这些测试帮助验证部署、解决故障、检测性能降级和检查软件更新。

  1、了解诊断测试

  Windows HPC Server 2008 提供一组常用诊断测试。可以使用这些测试帮助验证部署、解决故障以及检测性能降级。

套件

测试

说明

计划程序

作业提交测试

使用 clusrun 命令将简单作业提交到 HPC 作业计划程序服务。此测试验证 HPC 作业计划程序服务是否可以在一组用户指定的计算节点上接受和运行作业。

服务

所有正在运行的服务

验证 Windows HPC Server 2008 服务是否正在所选节点上运行。期望的服务由目标节点的角色(头节点、计算节点或 WCF 代理节点)确定。

连接

DNS 名称解析

验证用户选择的计算节点之间的域名系统 (DNS) 名称解析,并报告节点对之间的不匹配。在测试期间,每个节点都会尝试使用 DNS 来解析群集中其他每个节点的名称,并将该名称与 HPC 管理服务记录进行比较。HPC 管理服务记录由运行于测试节点上的代理进行动态更新,以确保测试发生在 DNS 所记录的地址与节点的实际物理 IP 地址之间。

域连接

验证节点和每个域控制器之间的连接。该操作通过利用简单轻型目录访问协议 (LDAP) 查询查找 Active Directory RootDSE 对象来执行。

节点间连接

通过在所选组中每个节点与所有其他节点之间执行 Ping 测试,验证计算节点之间的网络连接。

系统配置

应用程序配置报告

报告所选节点的应用程序配置。

防火墙配置报告

报告所选节点的防火墙配置。

已安装软件更新报告

报告已在每个所选节点上安装的更新(修补程序)。此测试可能需要较长时间。

网络配置报告

报告所选节点的网络配置。

挂起软件更新

提供对所有节点可用的更新的全面列表以及对每个节点可用的更新的列表。此测试报告被 Windows Server Update Services (WSUS) Microsoft Update (MU) 标识为关键更新的更新(修补程序)。

如果不在计算节点上设置 winhttp 代理,则此测试失败。运行 netsh winhttp show proxy 命令,确定计算节点上是否已设置代理服务器。

服务配置报告

报告在每个所选节点上配置的服务。

需要软件更新

将在计算节点上安装的更新与在节点模板中指定的更新进行比较。此报告指示任何计算节点是否未能满足在模板中指定的必需更新级别。

SOA

SOA 模型滞后时间

验证网络连接,并测量在用户选择的节点或节点组上的 HTTP NetTCP 网络滞后时间。此测试将报告在 HTTP NetTCP 绑定上未成功启动面向服务应用程序 (SOA) 会话的任何节点。此测试还将节点划分成三个滞后时间响应类别:小于 5 毫秒 5 10 毫秒之间大于 10 毫秒

SOA 服务配置报告

报告所选节点的 SOA 服务配置。此测试显示服务名称、服务程序集的位置、服务和合同类型、体系结构(x86 x64)以及环境变量。如果服务注册文件已安装在由 CCP_SERVICEREGISTRATION_PATH 环境变量指定的文件共享上,并且此文件共享可由每个人读取,则此服务将在所有计算节点上显示为已安装。

性能

MPI Ping Pong:轻型吞吐量

提供每个节点与其两个邻居之间的网络吞吐量的快速测量方式。与滞后时间测量不同,吞吐量测量着重强调群集的网络通信交换能力。此测试报告平均吞吐量、标准偏差、非常好的链路(具有最高测量吞吐量和吞吐量值的节点对)、最坏链路(具有最低测量吞吐量和吞吐量值的节点对)、可变性速率(在整个群集范围内的吞吐量一致性的定性指示)以及柱状图数据(在几个吞吐量范围内的每一个中所测量的网络链路数)。给定节点对的吞吐量按平均值(超过 16 次迭代)数据传输率进行计算,单位是 Mbytes/秒。

MPI Ping Pong:快速检查

提供对群集中每个节点对之间的网络滞后时间的快速测量方式。此测试报告平均滞后时间、标准偏差、非常好的链路(具有最低测量滞后时间和滞后时间值的节点对)、最坏链路(具有最高测量滞后时间和滞后时间值的节点对)、可变性速率(在整个群集范围内的滞后时间一致性的定性指示)以及柱状图数据(在几个滞后时间范围内的每一个中所测量的网络链路数)。给定节点对的滞后时间按一半全程时间的平均值(超过 1024 次迭代)进行计算,单位是微秒。

如果必须进行高度准确的测量,则可以使用 Windows HPC Server 2008 附带的 MPI Ping Pong 的命令行版本 (mpipingpong.exe) 在每个链路上以串行方式进行滞后时间测量。

 

  2、运行诊断测试

  HPC 群集管理器提供了一种运行诊断测试的系统化方式。运行诊断测试有三种方法:

  在配置了头节点并将所有计算节点添加到群集后,可以运行诊断测试来验证群集功能以及解决任何配置问题。在"任务列表"中,单击"验证群集"。在"运行诊断"对话框中,可以选择所有功能测试,也可以选择单个测试。

  在"列表"或"热图"视图中可以选择一个或多个节点,然后对所选节点运行单个测试或所有功能测试。

  要对一个或多个节点运行一组特定的诊断测试,可以从"诊断"运行测试。在"导航窗格"中,单击"测试",在查看窗格中选择一个或多个测试,右键单击所选项,然后单击"运行"。在"运行诊断"对话框中,可以选择要测试的一组特定的节点。

  运行诊断测试

  在"节点管理"的"导航窗格"中,单击"节点"。

  在"列表"或"热图"视图中,选择一个或多个节点。

  右键单击所选项,然后单击"运行诊断"。

  在"运行诊断"对话框中,在下拉列表中选择一个测试,或选择"运行所有功能测试"单选按钮。

  单击"运行"。

  查看测试结果:在"诊断"的"导航窗格"中,单击"测试结果"。已运行的诊断或正在运行的诊断将出现在查看窗格中。
 

  3、了解测试结果

  下表显示诊断测试结果及其含义。

测试结果

说明

正在运行

测试当前正在运行。若要跟踪测试的进度,请在视图窗格中选择测试实例,并在操作窗格中单击测试进度

成功

测试成功,或者配置或功能测试返回了期望的结果。

警告

测试未失败,但有节点管理员可能需要调查的问题。仅挂起修补程序测试使用此结果以指示找到可以应用于节点的更新。

失败

测试已经失败,或者配置或功能测试所产生的结果不是健康系统所期望的结果。若要解决故障,请在详细信息窗格中检查测试结果。

未能运行

测试未能运行,并且没有产生结果。所遇到的错误或异常将显示在测试运行的详细信息窗格中。

完成

测试已运行并完成。使用此状态的测试(比如配置报告)没有成功或失败。可以查看测试报告以看到当前系统配置。

  注意:"警告"、"失败"或"未能运行"的测试结果将导致警告图标出现在"节点管理"列表视图中失败节点的旁边。诊断测试结果将在三天之后存档,并在六个月之后删除。存档结果会在"测试结果"视图中列出,但不会导致警告符号显示在节点旁边。

  4、查看和保存测试结果

  在 HPC 群集管理器的"诊断"中,可以查看群集的诊断测试结果的列表。对于每次诊断运行,可以在"详细信息窗格"中显示结果摘要,或双击以在单独窗口中打开摘要。

  可以将测试结果摘要保存到 HTML 文件。很多 HTML 文件都包含从测试得到的数据表。在 Microsoft Office Excel 中打开这些文件时,这些表将自动转换成电子表格表。

  使用"导航窗格"可以按结果类型筛选测试结果。还可以在视图窗格中使用筛选字段按"测试套件"、"失败节点"或"最后更新时间"筛选结果。

  筛选、查看和保存测试结果

  为了演示如何筛选、查看和保存测试结果,以下过程说明如何查看在最后 12 小时内未能运行的连接诊断,然后保存结果。

  查看并保存在最后 12 小时内未能运行的连接诊断的结果

  在"诊断"的"导航窗格"中的"测试结果"下,单击"FailedToRun"。

  在视图窗格的"测试套件"下拉列表中,单击"连接"。

  在"最后更新时间"下拉列表中,单击"最后 12 小时",然后单击筛选按钮。

  在视图窗格中,单击测试以便在"详细信息窗格"中显示结果摘要,或双击以在单独窗口中打开摘要。

若要保存测试结果摘要,请在"操作"窗格中单击"导出"。
 

  5、解决和清除诊断警报

  如果存在阻止诊断测试运行的障碍或者需要您注意的其他问题,则在诊断测试结果旁边将出现警报图标。您可以解决问题,然后清除警报。

  解决并清除诊断警报

  在"诊断"的"导航窗格"中,单击"测试结果"。

  在视图窗格中,选择有警报图标的诊断测试结果。

  在"详细信息窗格"中,查看结果摘要,以确定问题是什么,并解决它。

  例如,对于"需要软件更新"诊断,如果节点没有与它关联的修补程序任务,则诊断过程不能确定哪些更新是必需的,因此发出警报。在添加修补程序任务之后,可以清除警报,并重新运行诊断。

  选择诊断测试结果,并在"操作"窗格中单击"清除警报"。

  在"操作"窗格中单击"重新运行测试",以检查是否已经解决问题。如果没有解决,则测试结果将再次显示警报。
 

0
相关文章