了解节点状态、运行状况和操作

更新时间: 2014年1月

应用到: Microsoft HPC Pack 2008 R2, Microsoft HPC Pack 2012, Microsoft HPC Pack 2012 R2, Windows HPC Server 2008 R2

“节点状态”反映节点的部署状态,以及管理员是否希望节点可用作群集作业的资源。管理员可将节点设置为“联机”状态,以指示节点应接受作业或客户端请求。

“节点运行状况”指示是否存在任何警告或错误,表明 HPC 服务在该节点上可识别。如果节点的节点运行状况值为“错误”,则该节点无法接受作业或客户端请求,即使节点状态为“联机”也是如此。

在正常操作期间,节点的节点运行状况值为“正常”。以下列表描述了正常节点状态值:

  • 头节点的节点状态值为“脱机”。如果头节点的作用也与计算节点或 WCF 代理节点相同,或者如果已为实现高可用性而安装了头节点,则其正常节点状态值为“联机”。

  • 计算节点和 Windows Communication Foundation (WCF) 代理节点的节点状态值为“联机”。

  • 按照可用性策略,工作站节点的节点状态值可以为“联机”或“脱机”。

监视和维护群集运行状况过程的一部分工作是发现是否有与正常节点状态和运行状况的偏离,以及监视群集操作的状态。

本主题中的各个部分介绍以下各项的值:

节点状态反映节点的部署状态,以及管理员是否希望节点可用作群集作业的资源。

当头节点第一次在网络上检测到某个节点时,该节点会以“未知”状态出现。当管理员通过分配节点模板将某个节点添加到群集时,该节点会转到“正在设置”状态。当该节点成功加入群集时,会转到“脱机”状态。

管理员可以将节点设置为“联机”状态,或将节点设置为“脱机”状态,以指示节点是否应接受和运行群集作业。HPC 作业计划程序服务将仅尝试在处于“联机”状态的节点上启动新作业。为了使节点不可用于新作业,管理员可以将节点设置为“脱机”。节点必须处于“脱机”状态才能运行某些管理操作,如“重新映像”或“维护”。

可以使用节点列表视图来显示每个节点的状态并按节点状态筛选计算节点。

下表描述了节点状态值:

 

节点状态 说明

联机

此状态指示节点应接受并运行群集作业。HPC 作业计划程序服务将仅尝试在处于“联机”状态的节点上启动新作业。

节点必须处于“联机”节点状态且正常运行,才能运行作业。如果节点运行状况为“错误”,则作业将无法在该节点上启动。

脱机

此状态允许群集管理员在节点上运行脚本、安装软件以及执行其他任务。当群集管理员已经批准在群集中包括计算节点或 WCF 代理节点之后,这是此节点的默认状态。这还是头节点的默认状态(除非它是为高可用性而安装的)。

如果节点在运行作业时转入脱机,它将首先通过“正在排出”状态。如果管理员选择立即强制进行节点脱机,则任何正在运行的任务都将被取消,并在其作业中重新排队。

未知

此状态指示节点不是群集的一部分,或者设置操作在该节点上失败了。

若要将某个节点加入到群集,请对该节点应用“分配节点模板”操作。

在高可用性群集中,在第一个头节点上运行安装程序之后,第二头节点将处于“未知”状态,直到在该节点上运行安装程序。运行安装程序之后,第二头节点转到“联机”状态。

正在设置

此状态指示正在将节点配置为群集节点。“分配节点模板”、“重新镜像”和“维护”操作也会使节点转到“正在设置”状态。在设置完成之后,节点转到“脱机”状态。

正在启动

此状态指示节点正在从“脱机”模式转换到“联机”模式。

正在排出

此状态指示计算节点已经脱机,并且正在转换到“脱机”状态。在转到“脱机”状态之前,节点将完成当前正在运行的作业。“正在排出”节点不接受新作业。

正在删除

此状态指示正在从头节点上的 HPC 节点管理服务数据库中删除有关节点的信息。“删除”操作将使节点转入此状态。已删除的节点本身没有任何更改。

如果节点尝试重新加入群集,则系统会在数据库中为该节点创建一个新条目,并且该节点将以“未知”状态出现。

拒绝

此状态指示节点被群集管理员拒绝。

^页面顶部

“节点运行状况”指示是否存在任何警告或错误,表明 HPC 服务在该节点上可识别。

可以使用节点列表视图来显示每个计算节点的运行状况并按节点运行状况筛选节点。如果节点运行状况为“错误”或“警告”,请查看“节点运行状况”选项卡上的信息以了解其他详细信息。可以查看“详细信息窗格”(在列表视图中)中的“节点运行状况”选项卡,也可以通过双击某个节点来查看其运行状况。

下表描述了节点运行状况值:

 

节点运行状况 说明

正常

HPC 服务不能识别节点的任何问题。

警告

此值可能指示以下情况:

  • 群集管理员已在节点上运行了诊断测试,并且一个或多个测试返回了“失败”或“未能运行”的结果。管理员可以手动清除诊断警报(请参阅解决和清除诊断警报)。

  • 一个或多个节点操作处于“失败”、“已恢复”或“已取消”状态。阅读操作日志以调查该问题。

请查看“节点运行状况”选项卡中的信息,以开始调查该问题。

错误

此值可能指示以下情况:

  • 节点不可访问,由检测信号选项确定。

  • 设置失败。

  • 节点已被群集管理员拒绝。(如果您决定将节点加入群集,则可以分配节点模板。)

请查看“节点运行状况”选项卡中的信息,以开始调查该问题。

过渡

此值指示节点正在执行群集管理员已启动的操作,如:

  • “分配节点模板”、“重新映像”或“维护”(在这种情况下,“节点状态”为“正在设置”)。

  • “联机”(在这种情况下,“节点状态”为“正在启动”)。

  • “脱机”(在这种情况下,“节点状态”为“正在排出”)。

请查看“节点运行状况”选项卡,以了解其他信息或取消相应操作。

未批准

该节点已被头节点检测到,但该节点不是群集的一部分。分配节点模板以将该节点加入群集。另请参阅向群集添加节点

^页面顶部

有关如何查看操作日志的信息,请参阅阅读操作日志

下表描述操作状态值:

 

操作状态 说明

已存档

此状态指示操作超过 24 小时,或者诊断测试已被清除。当操作存档时,将从其他状态报告中删除它。

已提交

此状态指示操作已成功完成。

正在执行

此状态指示操作正在进行。

失败

此状态指示操作未能执行、正在恢复或未能恢复。

已恢复

此状态指示在失败或取消之后操作已恢复。

^页面顶部

显示: