切换和故障转移
**适用于:**Exchange Server 2010
**上一次修改主题:**2009-12-07
切换和故障转移是 Microsoft Exchange Server 2010 中的两种中断形式。“切换”**是数据库或服务器的计划中断,由管理员明确启动,通常是为执行维护操作而做的准备。在切换过程中,管理员将主动邮箱数据库副本移至数据库可用性组 (DAG) 中的其他服务器。
“故障转移”**是指导致服务和/或数据不可用的意外事件。在故障转移过程中,系统将激活被动邮箱数据库副本,使之成为主动邮箱数据库副本,从而从故障中自动恢复。
Exchange 2010 中的高可用性平台是为处理切换和故障转移而设计的。
若要了解与高可用性和站点弹性相关的管理任务,请参阅管理高可用性和站点恢复。
切换
Exchange 2010 中有三种类型的切换:
- 数据库切换
- 服务器切换
- 数据中心切换
数据库切换
“数据库切换”**是单个主动数据库切换到另一个数据库副本(被动副本)的过程,此被动数据库副本将成为新的主动数据库副本。数据库切换在数据中心内及数据中心之间都可进行。通过使用 Exchange 管理控制台 (EMC) 或 Exchange 命令行管理程序均可执行数据库切换。无论使用哪个界面,切换过程都是相同的:
- 管理员启动数据库切换,以将当前主动邮箱数据库副本移至其他服务器。使用 Move-ActiveMailboxDatabase cmdlet 或“激活数据库副本”向导均可启动切换。
- 用于此任务的客户端会对 DAG 成员上的 Microsoft Exchange 复制服务进行 RPC 调用。
- 如果 DAG 成员不具有主要活动管理器 (PAM) 角色,则 DAG 成员会将此任务转至 PAM。
- 此任务对 PAM 上的 Microsoft Exchange 复制服务进行 RPC 调用。
- PAM 读取并更新存储在 DAG 群集数据库中的数据库位置信息。
- PAM 与 DAG 成员上的 Microsoft Exchange 复制服务联系,此成员的被动副本将激活为新的主动邮箱数据库副本。
- 目标服务器上的 Microsoft Exchange 复制服务查询其他所有 DAG 成员上的 Microsoft Exchange 复制服务以确定数据库副本的最佳日志源。
- 数据库从当前服务器卸除,目标服务器上的 Microsoft Exchange 复制服务将其余日志复制到目标服务器。
- 目标服务器上的 Microsoft Exchange 复制服务请求装入数据库。
- 目标服务器上的 Microsoft Exchange 信息存储服务重播日志文件,并装入数据库。
- 所有错误代码返回至目标服务器上的 Microsoft Exchange 复制服务。
- PAM 更新 DAG 群集数据库中的数据库副本状态信息。
- 目标服务器上的 Microsoft Exchange 复制服务将所有错误代码返回至 PAM 上的 Microsoft Exchange 复制服务。
- PAM 上的 Microsoft Exchange 复制服务将所有错误返回至调用任务的管理界面。
- 远程 PowerShell 将操作结果返回至调用管理界面。
有关如何执行数据库切换的详细步骤,请参阅激活邮箱数据库副本。
服务器切换
服务器切换是将 DAG 成员上的所有主动数据库在一个或多个其他 DAG 成员上激活的过程。与数据库切换一样,服务器切换在数据中心内及数据中心之间都可进行,通过 EMC 和命令行管理程序均可启动。无论使用哪个界面,切换过程都是相同的:
- 管理员启动服务器切换,以将当前所有主动邮箱数据库副本移至一个或多个其他服务器。使用 Move-ActiveMailboxDatabase cmdlet 或切换服务器 UI 均可启动切换。
- 按照本主题之前描述的数据库切换步骤,任务将对当前服务器上的每个主动数据库执行相同的步骤(步骤 2 到 4)。
- PAM 读取并更新存储在 DAG 群集数据库中的数据库位置信息。
- PAM 与每个被动副本已激活的 DAG 成员上的 Microsoft Exchange 复制服务联系。
- 目标服务器上的 Microsoft Exchange 复制服务查询其他所有 DAG 成员上的 Microsoft Exchange 复制服务以确定数据库副本的最佳日志源。
- 数据库从当前服务器卸除,每个目标服务器上的 Microsoft Exchange 复制服务复制其余日志。
- 每个目标服务器上的 Microsoft Exchange 复制服务请求装入数据库。
- 每个目标服务器上的 Microsoft Exchange 信息存储服务重播日志文件,并装入数据库。
- 所有错误代码返回至目标服务器上的 Microsoft Exchange 复制服务。
- PAM 更新 DAG 群集数据库中的数据库副本状态信息。
- 目标服务器上的 Microsoft Exchange 复制服务将所有错误代码返回至 PAM 上的 Microsoft Exchange 复制服务。
- PAM 上的 Microsoft Exchange 复制服务将所有错误返回至调用任务的管理界面。
- 远程 PowerShell 将操作结果返回至调用管理界面。
有关如何执行服务器切换的详细步骤,请参阅执行服务器切换。
数据中心切换
数据中心或站点故障的管理方式不同于可能引起服务器或数据库故障转移的故障类型的管理方式。在高可用性配置中,自动恢复将由系统启动,故障通常会使邮件系统处于全功能状态。相比之下,数据中心故障被认为是灾难恢复事件,因此,必须手动执行和完成恢复才可还原客户端服务并结束中断。您所执行的过程称为“数据中心切换”**。与很多灾难恢复方案一样,数据中心切换的前期规划和准备工作可简化恢复过程并缩短中断的持续时间。
有关数据中心切换的详细信息,包括执行数据中心切换的详细步骤,请参阅数据中心切换。
故障转移
故障转移是一个自动激活过程,可发生在数据库或服务器级别上。故障转移是对影响单个数据库的故障(例如,隔离存储损失)或整个服务器的故障(例如,主板故障或断电)的响应。
DAG 和邮箱数据库副本可提供数据以及提供数据访问权限的服务的完整冗余,因此可快速恢复。下表列出了针对各种故障需要执行的恢复操作。有些故障需要管理员启动恢复,有些则由系统自动处理。
说明 | 自动激活 | 自动修复操作 | 修复过程中的状态:主动 | 修复过程中的状态:被动 | 修复操作 | 注释 |
---|---|---|---|---|---|---|
可扩展存储引擎 (ESE) 数据库软故障:存储数据库的驱动器在若干读取操作后返回错误(例如,-1018 错误)。 |
可能发生短时间中断。 可能执行自动故障转移。 |
对问题页进行自动修补。 |
手动切换、自动故障转移或联机修复。 |
失败 |
RAID 重建,数据库和数据库副本修复、还原并运行恢复,然后进行页面修补或者从副本进行页面修补。 |
另外,还可能有其他数据库软故障代码。 不包括 NTFS 文件系统块故障。 执行故障转移或者切换后,主机服务器将更新。 |
ESE“semi-soft”数据库故障:存储数据库的驱动器在若干写入操作后返回错误。 |
自动故障转移期间短时间中断。 |
可能需要替换驱动器,然后卷/磁盘自动重建。 |
如果无法恢复,则卸除。 |
失败 |
RAID 重建可能会解决此问题。 复制和修复,还原和运行恢复,或者在可能的替换后重建卷/磁盘。 |
ESE semi-soft 写入错误意味着某些写入是成功的。 不包括 NTFS 块故障。 |
ESE“semi-soft”日志故障:存储日志数据的驱动器在若干读取或写入操作后返回非恢复错误。 |
自动故障转移期间短时间中断。 |
可能需要替换驱动器,然后卷/磁盘自动重建。 |
如果无法恢复,则卸除。 |
失败 |
RAID 重建可能会解决此问题。 复制和修复,还原和运行恢复,或者在可能的替换后重建卷/磁盘。 |
ESE semi-soft 读取/写入错误意味着某些读取/写入是成功的。 如果数据库发生故障,则先进行自动恢复,然后开始日志数据恢复处理。 |
ESE 软件错误或资源耗尽:ESE 终止实例时出错(例如,事件 ID 1022,检查点深度太深)。 |
自动故障转移期间短时间中断。 |
无。 |
如果无法恢复,则卸除。 |
失败 |
修复基本资源问题。 |
此故障可能是其他情况导致的表面错误。 |
NTFS 块故障:存储数据库或日志的驱动器对 NTFS 控制结构进行读写时出错。 |
自动故障转移期间短时间中断。 |
可能需要替换驱动器,然后完全重建卷。 |
如果无法恢复,则卸除。 |
失败 |
RAID 重建可能会解决此问题。NTFS 实用程序可能会解决 NTFS 问题。可能需要执行 Exchange 恢复。 |
在未使用 RAID 的情况下更可能发生此类故障。如果这影响主动日志卷,则一些最近的日志文件将会丢失。 不包括由 NTFS 或其基础软件或硬件堆栈自动更正的错误。 |
数据库或日志驱动器故障:存储数据库或日志的驱动器已彻底发生故障且无法访问。 |
自动故障转移期间短时间中断。 |
重新格式化或替换驱动器,然后完全重建卷。 |
如果无法恢复,则卸除。 |
失败 |
替换驱动器后可能需要重建 RAID。 替换驱动器后完全重建卷。 完全重建卷。 |
不适用。 |
数据库或日志卷故障:因 NTFS 或较低级别的卷问题导致卷出现故障。 |
自动故障转移期间短时间中断。 |
重新格式化或替换驱动器。 |
如果无法恢复,则卸除。 |
失败 |
替换驱动器后可能需要重建 RAID。 替换驱动器后完全重建卷。 完全重建卷。 |
不适用。 |
数据库或日志卷空间不足:包含数据库或日志文件的 NTFS 文件系统空间不足。 |
如果其他副本未处于类似的状态,将执行自动故障转移。 |
无。 |
卸除。 |
失败 |
运行完整或增量备份,手动删除日志,经过一段时间后,恢复数据库副本或者修复发生故障的数据库副本。 |
不适用。 |
管理员卸除错误的数据库。 |
如果管理员未阻止自动故障转移,将会发生短时间中断。 如果阻止了自动故障转移,将会发生中断,直至卸除数据库。 |
无。 |
卸除。 |
不适用 |
管理员更正错误。 |
不适用。 |
管理员挂起错误的数据库副本。 |
根据配置和受影响的副本,自动恢复可能会被阻止。 |
无。 |
不适用。 |
已挂起 |
管理员更正错误。 |
不适用。 |
管理员卸除数据库以对存储、NTFS 或卷进行维护。 |
如果管理员未阻止自动故障转移,将会发生短时间中断。 如果阻止了自动故障转移,将会发生中断,直至管理员完成任务。 |
无。 |
卸除。 |
不适用 |
管理员完成任务。 |
不适用。 |
管理员挂起数据库副本以对存储、NTFS 或卷进行维护。 |
根据配置和受影响的副本,自动恢复可能会被阻止。 |
无。 |
不适用。 |
已挂起 |
管理员完成操作。 |
不适用。 |
管理员卸除数据库以对数据库进行脱机维护。 |
修复之前一直中断。 |
无。 |
卸除。 |
已挂起 |
管理员完成操作。 |
主动数据库副本和被动数据库副本是不同的。 管理员必须挂起副本。 |
存储区域网络 (SAN)、磁盘或存储控制器故障。 |
自动故障转移期间短时间中断。 |
无。 |
卸除。 |
任意 |
修复硬件。 |
被动数据库副本的状态将与系统发生故障时所处状态相同。 |
服务器硬件维护。 |
自动故障转移期间短时间中断(除非管理员阻止自动故障转移)。 |
无。 |
卸除。 |
任意 |
完成操作。 |
被动数据库副本的状态将与系统关闭时所处状态相同。 |
服务器软件维护。 |
自动故障转移期间短时间中断(除非管理员阻止自动故障转移)。 |
无。 |
卸除。 |
任意 |
完成操作。 |
被动数据库副本的状态将与系统关闭时所处状态相同。 |
Microsoft Exchange 信息存储服务停止或暂停。 |
自动故障转移期间短时间中断(除非管理员阻止自动故障转移)。 |
无。 |
卸除。 |
任意 |
重新启动 Microsoft Exchange 信息存储服务。 |
被动数据库副本的状态将与服务停止时所处状态相同。 |
Microsoft Exchange 信息存储服务失败;操作系统仍在运行。 |
自动故障转移期间短时间中断。 |
服务控制管理器重新启动 Microsoft Exchange 信息存储服务。 |
卸除。 |
任意 |
手动或自动重新启动 Microsoft Exchange 信息存储服务。 |
被动数据库副本的状态将与 Microsoft Exchange 信息存储服务失败时所处状态相同。 |
Microsoft Exchange 信息存储服务部分失败;Exchange 存储部分停止工作,但未标识为完全失败。 |
自动故障转移期间可能发生短时间中断。 |
无。 |
已装入而且仅有部分正常工作。 |
任意,但可能仅有部分正常工作 |
重新启动服务器、操作系统或 Microsoft Exchange 信息存储服务。 |
不适用。 |
服务器故障:服务器因下列原因之一而发生故障:
|
自动故障转移期间短时间中断。 |
重新启动计算机。 |
卸除。 |
任意 |
恢复电源,更改操作系统设置,更改硬件设置,替换硬件,重新启动操作系统,维修操作系统,维修硬件或修复通信问题。 |
不适用。 |
DAG 遇到仲裁故障。 |
修复之前一直中断。 |
无。 |
卸除。 |
任意 |
修复失败的仲裁,分配新的仲裁或者还原导致仲裁失败的网络。 |
被动数据库副本的状态将与系统发生故障时所处状态相同。 |
MAPI 网络通信故障:服务器在 MAPI 网络上不再可用。 |
自动故障转移期间短时间中断;肯定无损失。 |
无。继续尝试通信。 |
卸除。 |
任意 |
通过更正硬件或软件问题修复通信问题。 |
不适用。 |
复制网络通信故障:服务器无法通过发生故障的复制网络接收检测信号、日志副本或种子。 |
工作负荷切换到其他网络时可能发生短时间的复制或种子设定中断。 |
无。继续尝试通信。 |
无。 |
任意 |
通过更正硬件或软件问题修复通信问题。 |
故障会影响恢复能力。 |
多网络通信故障:服务器无法通过多个网络接收检测信号、日志副本或种子。 |
自动故障转移期间短时间中断;肯定无损失。 |
无。继续尝试通信。 |
卸除。 |
任意 |
通过更正硬件或软件问题修复通信问题。 |
至少有一个网络仍然可用。 |
一个或多个网络出现部分故障:网络出现高错误率。 |
未检测到故障;无操作。 |
无。 |
已装入,但可能发生性能问题。 |
任意 |
通过更正硬件或软件问题修复通信问题。 |
网络出现高于正常的错误率。 |
未检测到的操作系统挂起:操作系统停止响应,但监控或群集未检测到。 |
无。 |
无。 |
任意。 |
任意 |
重新启动或终止不响应的资源。 |
未检测到挂起,因此未执行任何操作。 某些功能也许可用。 |
操作系统驱动器发生故障。 |
自动故障转移期间短时间中断。 |
无。 |
卸除。 |
任意 |
替换驱动器并重建服务器或使用 RAID 重建卷。 |
不适用。 |
操作系统驱动器空间不足。 |
自动故障转移期间短时间中断。 |
无。 |
卸除。 |
任意 |
手动释放卷上的空间。 |
不适用。 |
包含 Exchange 二进制文件的驱动器发生卷或驱动器故障。 |
自动故障转移期间短时间中断。 |
无。 |
卸除。 |
任意 |
替换驱动器并重新安装应用程序或使用 RAID 重建卷。 |
不适用。 |
包含 Exchange 二进制文件的驱动器空间不足。 |
自动故障转移期间短时间中断。 |
无。 |
卸除。 |
任意 |
手动释放卷上的空间。 |
不适用。 |
检测到无效的新日志:日志序列被现有文件破坏。 |
自动故障转移期间短时间中断;假定其他副本不存在同一问题。 |
无。 |
卸除。 |
失败 |
确定源之后删除问题日志。 |
问题日志不应进行复制。 |
连续复制过程中检测到无效的日志:在复制或重播过程中重播检测到不当日志。 |
不适用。 |
丢弃日志。 |
不适用。 |
失败 |
丢弃无效日志;移动产生影响的日志流。 |
不适用。 |
数据库故障转移
数据库故障转移发生在主动数据库副本无法再保持主动状态的情况下。在数据库故障转移过程中将发生以下情况:
- Microsoft Exchange 信息存储服务检测到数据库故障。
- Microsoft Exchange 信息存储服务将失败事件写入 crimson 通道事件日志。
- 包含故障数据库的服务器上的活动管理器检测到失败事件。
- 活动管理器向存放数据库副本的其他服务器请求数据库副本状态。
- 其他服务器向发出请求的活动管理器返回所请求的数据库副本状态。
- PAM 启动操作,将活动数据库移至 DAG 中的其他服务器。
- PAM 更新群集数据库中的数据库装入位置,以指向所选的服务器。
- PAM 向所选服务器上的活动管理器发送请求,请求成为数据库主机。
- 所选服务器上的活动管理器请求 Microsoft Exchange 复制服务尝试从先前的服务器复制最后生成的日志并且为数据库设置可装入标记。
- Microsoft Exchange 复制服务通过查询每个响应方最近的日志生成编号,在其他服务器之间确定最佳日志源。
- 每个活动服务器以日志生成编号进行响应。
- Microsoft Exchange 复制服务从先前拥有数据库主动副本的服务器上复制日志。
- 活动管理器从群集数据库读取最大的日志生成编号。
- Microsoft Exchange 信息存储服务装入新的活动数据库副本。
服务器故障转移
当 DAG 成员无法再为 MAPI 网络提供服务,或者 DAG 成员上的群集服务无法再与其余 DAG 成员联系时,会发生服务器故障转移。在服务器故障转移过程中将发生以下情况:
- PAM 上的群集服务因以下两种情况之一向 PAM 发送通知:
- 节点关闭 服务器可以访问,但无法参与 DAG 操作。
- MAPI 网络关闭 服务器无法通过 MAPI 网络联系,因此无法参与 DAG 操作。
- 如果可以访问服务器,PAM 将联系受影响服务器上的活动管理器,请求立即卸除所有数据库。
- 对于每个受影响的数据库副本:
- PAM 向 DAG 中所有服务器请求数据库副本状态。
- PAM 收到所有可访问的活动 DAG 成员的响应。
- PAM 尝试通过查询每个响应方最近的日志生成编号,在所有响应的服务器中确定最佳日志源。
- 每个服务器以日志生成编号进行响应。
- PAM 从群集数据库中检索当前搜索索引编录状态。
- 根据每个数据库副本的日志生成编号和编录运行状况,PAM 选择最佳副本进行激活。
- PAM 更新群集数据库中的数据库装入位置。
- PAM 与一个或多个其他服务器上的活动管理器进行通信,以此来启动数据库故障转移。
- 所选服务器上的活动管理器请求 Microsoft Exchange 复制服务尝试从先前的服务器复制最后生成的日志并设置可装入标记。
- 如果数据库可装入,服务器上的活动管理器将装入数据库。
有关活动管理器最佳复制选择过程的详细信息,请参阅了解活动管理器。