单一副本群集的恢复行为
适用于: Exchange Server 2007 SP3, Exchange Server 2007 SP2, Exchange Server 2007 SP1, Exchange Server 2007
上一次修改主题: 2007-10-26
单一副本群集 (SCC) 为用于访问数据的服务提供冗余。通过服务冗余,可以在主机节点出现故障时快速恢复,并且不会丢失数据。因为 SCC 将包含数据库的存储作为故障转移服务的一部分传递到新节点,所以,应在不损失任何数据的情况下还原服务。
但在 SCC 中,存储子系统是单一故障点。存储子系统的完全失败通常会造成一天的中断,平均丢失 12 个小时的数据。这一结果是假定每天进行完全备份的情况。此外,与另一种 Exchange 群集解决方案群集连续复制 (CCR) 相比,SCC 解决方案的存储配置通常在安装和操作方面会更加复杂。有关 CCR 的详细信息,请参阅群集连续复制。
SCC 恢复行为可以分为以下两种中断:
计划中断 计划中断由管理员发起。使用计划中断可以从监视系统检测到的故障中恢复,或执行某些管理任务(例如硬件维护、安装软件或安装软件更新)。
非计划中断 非计划中断由系统发起,作为恢复检测到的故障的操作。Windows 群集服务检测到这些中断并触发它们的恢复。
下表描述了对各种故障需要执行的恢复操作。有些故障要求管理员发起恢复,有些故障则由 Windows 群集服务自动处理。
计划中断和非计划中断尽管触发的方式不同,但是都会激活被动节点并装入数据库(假定已成功地转换了共享磁盘)。如果共享磁盘无法正确地转换(可能由于配置错误),操作行为仍相同。不会装入受影响的数据库。
注意: |
---|
在任意的指定时间,被动节点上只能激活一个群集邮箱服务器。如果节点已驻留主动群集邮箱服务器,则无法使其他服务器联机。 |
注意: |
---|
与先前版本的 Exchange 不同,Microsoft Exchange Server 2007 不会因为数据库故障而触发 SCC 自动非计划中断(故障转移)。 |
恢复故障的操作
故障说明 | 操作 | 注释 |
---|---|---|
操作系统停止错误;操作系统停止响应;节点电源完全中断;处理器芯片、母板以及底板不可恢复的故障;或节点的通信完全失败 |
自动故障转移到被动节点(如果可用)。数据库在存储联机时装入。 |
要使被动节点可用,必须能够在出现故障之后建立仲裁。这意味着剩余节点必须能够访问仲裁。 |
主动节点上的总存储故障 |
存储故障会报告给监视系统并通过监视系统报告。管理员可以恢复存储或必须使用备份进行恢复。 自动故障转移到被动节点(如果可用)。数据库在存储联机时装入。 |
要使被动节点可用,必须能够在出现故障之后建立仲裁。这意味着剩余节点必须能够访问仲裁。 |
总存储故障 |
存储故障会报告给监视系统并通过监视系统报告。管理员可以恢复存储或必须使用备份进行恢复。 |
该故障报告为群集(及其所有资源)的故障,因为无法访问仲裁和数据库。 |
数据中心故障 |
没有第三方复制解决方案则不支持自动故障转移。 |
如果从动态数据复制,则复制必须是同步的。 |
操作系统驱动器故障 |
不执行自动恢复操作。除非操作系统出现故障,否则,Exchange 不会检测到该故障。对该故障的检测基于明显的故障而不是根本原因。 |
操作系统驱动器故障由操作系统监视服务报告,可能会使操作系统出现故障。 |
操作系统驱动器空间不足 |
自动故障转移到被动节点(如果可用)。数据库在存储联机时装入。 |
该故障会报告给监视服务并通过监视系统报告。如果自动故障转移不会或者不能发生,此方案的恢复操作将由管理员确定。 |
主动节点上群集公用网络的故障 |
恢复操作与电源完全中断的情况相同。 |
不检测在用于主动节点和被动节点之间进行通信的硬件和软件以外的公用网络运行状况。Exchange 2007 将不提供对实际客户端连接的验证。 |
群集的公用网络发生完全故障 |
不执行自动恢复操作。 |
如果公用网络断开,IP 地址资源将进入失败状态。公共网络问题得到解决后,资源即可重新联机。 |
丢失群集仲裁 |
群集邮箱服务器和群集仲裁脱机。 |
如果无法形成仲裁,此情况将导致无法提供服务。 |
信息存储故障 |
自动重新启动信息存储资源。 |
如果出现重复故障,管理员可以尝试手动将群集邮箱服务器移动到被动节点,尝试使其联机。 |
应用程序(二进制文件)驱动器故障 |
不执行自动恢复操作。 |
通常,此方案将导致其他故障,这些故障会报告给监视服务并通过监视服务报告,管理员可以处理这些故障。此方案的恢复操作由管理员确定。 |
应用程序(二进制文件)驱动器空间不足 |
不执行自动恢复操作。 |
监视服务将报告此情况。此方案的恢复操作由管理员确定。 |
数据库或存储组完全丢失,或数据库完全失败 |
自动尝试重新装入受影响的数据库。如果该尝试失败,数据库仍处于失败状态,但是不会对群集邮箱服务器进行任何故障转移。 |
存储组或数据库或者由于软件故障或损坏而被卸除,或由于硬件故障而出现故障。例如,存储组在其日志目录不可用时强制卸除所有数据库。管理员确定更正操作。恢复可以是激活被动节点的计划中断。 |
存储组部分故障或数据库部分故障,某些数据不可用或初始数据库装入失败 |
不执行自动恢复操作。 |
部分故障意味着某些损坏已报告,但损坏不会强制卸除存储组或数据库。如果在启动时不装入数据库,则不执行任何操作,并且监视服务会报告该故障。检测到监视服务可以报告时,邮箱服务器将生成相应事件。监视服务还将检测并报告已卸除的数据库。 |
检测到存储组的损坏日志 |
不执行自动恢复操作。 |
监视服务将报告此情况。 |
数据库或事务日志驱动器空间不足 |
不执行自动恢复操作。将卸除存储组中的数据库。 |
通过监视系统报告可用驱动器空间不足的情况。管理员确定更正操作。 |