服务器 频道

Win2008 HPC群集之诊断入门

  【IT168 专稿】Windows HPC Server 2008 提供一组常用诊断测试。可以使用这些测试帮助验证部署、解决故障、检测性能降级和检查软件更新。

  1、了解诊断测试

  Windows HPC Server 2008 提供一组常用诊断测试。可以使用这些测试帮助验证部署、解决故障以及检测性能降级。

套件

测试

说明

计划程序

作业提交测试

使用 clusrun 命令将简单作业提交到 HPC 作业计划程序服务。此测试验证 HPC 作业计划程序服务是否可以在一组用户指定的计算节点上接受和运行作业。

服务

所有正在运行的服务

验证 Windows HPC Server 2008 服务是否正在所选节点上运行。期望的服务由目标节点的角色(头节点、计算节点或 WCF 代理节点)确定。

连接

DNS 名称解析

验证用户选择的计算节点之间的域名系统 (DNS) 名称解析,并报告节点对之间的不匹配。在测试期间,每个节点都会尝试使用 DNS 来解析群集中其他每个节点的名称,并将该名称与 HPC 管理服务记录进行比较。HPC 管理服务记录由运行于测试节点上的代理进行动态更新,以确保测试发生在 DNS 所记录的地址与节点的实际物理 IP 地址之间。

域连接

验证节点和每个域控制器之间的连接。该操作通过利用简单轻型目录访问协议 (LDAP) 查询查找 Active Directory RootDSE 对象来执行。

节点间连接

通过在所选组中每个节点与所有其他节点之间执行 Ping 测试,验证计算节点之间的网络连接。

系统配置

应用程序配置报告

报告所选节点的应用程序配置。

防火墙配置报告

报告所选节点的防火墙配置。

已安装软件更新报告

报告已在每个所选节点上安装的更新(修补程序)。此测试可能需要较长时间。

网络配置报告

报告所选节点的网络配置。

挂起软件更新

提供对所有节点可用的更新的全面列表以及对每个节点可用的更新的列表。此测试报告被 Windows Server Update Services (WSUS) Microsoft Update (MU) 标识为关键更新的更新(修补程序)。

如果不在计算节点上设置 winhttp 代理,则此测试失败。运行 netsh winhttp show proxy 命令,确定计算节点上是否已设置代理服务器。

服务配置报告

报告在每个所选节点上配置的服务。

需要软件更新

将在计算节点上安装的更新与在节点模板中指定的更新进行比较。此报告指示任何计算节点是否未能满足在模板中指定的必需更新级别。

SOA

SOA 模型滞后时间

验证网络连接,并测量在用户选择的节点或节点组上的 HTTP NetTCP 网络滞后时间。此测试将报告在 HTTP NetTCP 绑定上未成功启动面向服务应用程序 (SOA) 会话的任何节点。此测试还将节点划分成三个滞后时间响应类别:小于 5 毫秒 5 10 毫秒之间大于 10 毫秒

SOA 服务配置报告

报告所选节点的 SOA 服务配置。此测试显示服务名称、服务程序集的位置、服务和合同类型、体系结构(x86 x64)以及环境变量。如果服务注册文件已安装在由 CCP_SERVICEREGISTRATION_PATH 环境变量指定的文件共享上,并且此文件共享可由每个人读取,则此服务将在所有计算节点上显示为已安装。

性能

MPI Ping Pong:轻型吞吐量

提供每个节点与其两个邻居之间的网络吞吐量的快速测量方式。与滞后时间测量不同,吞吐量测量着重强调群集的网络通信交换能力。此测试报告平均吞吐量、标准偏差、非常好的链路(具有最高测量吞吐量和吞吐量值的节点对)、最坏链路(具有最低测量吞吐量和吞吐量值的节点对)、可变性速率(在整个群集范围内的吞吐量一致性的定性指示)以及柱状图数据(在几个吞吐量范围内的每一个中所测量的网络链路数)。给定节点对的吞吐量按平均值(超过 16 次迭代)数据传输率进行计算,单位是 Mbytes/秒。

MPI Ping Pong:快速检查

提供对群集中每个节点对之间的网络滞后时间的快速测量方式。此测试报告平均滞后时间、标准偏差、非常好的链路(具有最低测量滞后时间和滞后时间值的节点对)、最坏链路(具有最高测量滞后时间和滞后时间值的节点对)、可变性速率(在整个群集范围内的滞后时间一致性的定性指示)以及柱状图数据(在几个滞后时间范围内的每一个中所测量的网络链路数)。给定节点对的滞后时间按一半全程时间的平均值(超过 1024 次迭代)进行计算,单位是微秒。

如果必须进行高度准确的测量,则可以使用 Windows HPC Server 2008 附带的 MPI Ping Pong 的命令行版本 (mpipingpong.exe) 在每个链路上以串行方式进行滞后时间测量。

 

0
相关文章