Site Resilience Configurations

 

适用于: Exchange Server 2007 SP3, Exchange Server 2007 SP2, Exchange Server 2007 SP1, Exchange Server 2007

上一次修改主题: 2007-10-29

在最近几年,越来越多的企业意识到邮件服务对业务的成功至关重要。对许多组织来说,邮件系统是商业连续性规划不可或缺的一部分,而且邮件服务部署在设计时必须考虑站点弹性。基本上,许多站点弹性解决方案都涉及在另一个数据中心中部署备份硬件。这经常就需要考虑下列基本问题:

  • 主数据中心出现故障后,需要什么级别的服务?

  • 用户是否仅需要数据或邮件服务?

  • 急需数据的程度怎样?

  • 必须支持多少用户?

  • 用户如何访问自已的数据?

  • 备份数据中心激活服务级别协议 (SLA) 是什么?

  • 服务如何移回主数据中心?

  • 资源是否专用于站点弹性解决方案?

回答这些问题时,您实际就已经开始构建站点弹性邮件解决方案的大致框架。对从站点故障恢复的核心要求是:创建解决方案,将必要的邮件数据放到承载邮件服务的备份数据中心。

本主题详细介绍了 Microsoft Exchange Server 2007 正式发布 (RTM) 版和 Exchange 2007 Service Pack 1 (SP1) 的多个站点弹性配置。在开始考虑站点弹性解决方案之前,我们建议您首先熟悉下列术语:

  • 扩展群集   也称为地理位置分散的群集,是群集节点存在于多个数据中心的群集配置。

  • 数据可移植性   允许邮箱在主机数据库移动后重定目标到其他服务器的管理任务。

  • 扩展的 Active Directory 站点   包含来自多个数据中心的计算机的 Active Directory 目录服务站点(例如,跨多个物理位置的 Active Directory 站点)。

  • Active Directory 站点成员身份   特定 Active Directory 站点(基于计算机的主 IP 地址)的成员。更改 IP 地址或更改包含该 IP 地址的 Active Directory 站点,可更改该计算机的 Active Directory 站点成员身份。

  • 产品数据中心   承载服务的主动服务器及与其关联的基础结构的数据中心。

  • 热备份数据中心   能实时准备获取服务所有权并继续传递服务的备份数据中心。在该位置上运行服务无需特殊的配置。

  • 温备份数据中心   具有可获取产品数据中心的服务所有权的服务器的备份数据中心。在该数据中心激活服务需要手动干预。

  • 冷备份数据中心   具有获取服务所有权所需的能力和潜在基础结构的备份数据中心。使服务在该数据中心运行需要执行相当多的工作。

  • 专用   被指定为仅用于支持主数据中心用户的服务器。

  • 非专用   用于支持主数据中心用户及其他位置用户的服务器。

可将“产品”、“温”、及“专用”等术语一起使用来描述站点弹性部署。例如,由专用的大型配置备份数据中心所备份的产品数据中心将称为“产品:温(专用)”。

支持站点弹性的功能

有多种 Exchange 2007 功能可用作站点弹性解决方案的构造块。如下:

  • 扩展群集,可用于复制数据或简化备份数据中心的激活过程。

  • 数据可移植性,可用于激活复制的数据。

  • 扩展的 Active Directory 站点,可用于支持扩展的群集或启用备份数据中心。

  • 更改计算机的 Active Directory 站点成员身份可作为备份数据中心激活过程的一部分来执行。

  • 与非现场存储有关的定期磁带备份,可用于在备份数据中心恢复邮箱数据。

此外,第三方产品提供了数据复制功能,可用于将数据传输到备份数据中心。这些产品可同独立服务器、恢复群集或扩展的单一副本群集 (SCC) 一起使用。在这些配置中,来自主服务器或群集的数据被复制到另一个数据中心的另一个服务器或群集配置中。当站点发生故障时,手动激活另一个数据中心的群集或服务器。

在 Exchange 2007 SP1 中,已添加了一项称为备用连续复制 (SCR) 的新功能,专门为站点弹性方案而设计。顾名思义,SCR 是专门为使用或允许使用备用恢复服务器的方案而提供的。SCR 扩展了 Exchange 2007 RTM 中现有的连续复制功能,并使新数据可用性方案可用于运行 Exchange 2007 SP1 的邮箱服务器。SCR 使用与本地连续复制 (LCR) 和群集连续复制 (CCR) 相同的日志传送和重播技术,以提供更多的部署选项和配置。

SCR 实现了高可用性(包含服务可用性和数据可用性)与站点弹性的分离。例如,SCR 可以与 CCR 结合使用,以在主数据中心本地复制存储组(使用 CCR 实现高可用性),并在辅助数据中心或备份数据中心远程复制存储组(使用 SCR 实现站点弹性)。辅助数据中心可以在 SCR 目标所在的故障转移群集中包含一个被动节点。这种类型的群集称作备用群集,因为它并不包含任何群集邮箱服务器,但是可以在恢复方案中为其快速设置一个替代群集邮箱服务器。如果主数据中心发生故障或丢失数据,可以在备用群集上快速激活驻留在该备用群集中的 SCR 目标。

有关 SCR 的详细信息,请参阅备用连续复制

获得站点弹性的解决方案

组织可考虑采用若干个站点弹性解决方案。该主题的剩余部分提供了有关下列站点弹性解决方案的信息:

  • 产品:冷(专用)

  • 产品:温(专用)

  • 包含两个 Active Directory 站点的产品:温(非专用)

  • 包含一个 Active Directory 站点的产品:产品(非专用)

本主题介绍的解决方案假设:如果产品数据中心发生故障,邮件基础结构即丧失全部功能。备份数据中心必须具有承载 Exchange 所需的 Internet 连接及所有必要服务。此外,应为激活过程编写脚本并定期测试该过程。

产品:冷(专用)

最基本的邮件站点弹性解决方案是:组织的硬件和设备合同已经到位,但不具有活动备份数据中心。所有邮箱数据都会定期备份并从站点中移走。以相似的方法处理 Active Directory 数据。激活站点弹性解决方案要求获取并部署硬件。为了缩短整个中断时间,组织可快速向硬件供应商交付合同以获取关键的硬件。

该解决方案的一种变化形式是:与可从其维护的池中获取硬件的灾难恢复供应商建立关系。此种类型的关系可以允许在供应商位置维护备份数据,从而缩短恢复时间。供应商位置上的专用存储可用作邮箱和 Active Directory 数据的复制目标。

为了简便起见,部署的配置最终将与生产环境相似或至少与部分生产环境相似。在类似这样的恢复过程中,最好使用尽可能熟悉的技术和依存关系。

产品:温(专用)

在产品:温(专用) 恢复模型中,产品数据中心具有指定的带有专用设备的备份数据中心。当产品数据中心不可用时,可使用专用设备。正如先前提到的,备份数据中心不自动激活。管理员必须手动触发其激活。触发激活后,该激活会重新配置专用备份设备和基础结构来提供邮件服务。下图显示了产品:温(专用) 配置。

产品:温(专用) 部署的示例

生产:热部署(专用)

上图显示承载边缘传输、集线器传输、客户端访问和邮箱服务器角色的产品数据中心 (A)。温备份数据中心 (B) 针对每一个角色和 Active Directory 都具有专用备份服务器。该图说明所有服务器角色(邮箱服务器角色除外)均使用了简单冗余。由群集或具有适当复制解决方案的备份服务器配置处理邮箱冗余。

可能的邮箱冗余解决方案如下:

  • 扩展群集配置中的群集连续复制 (CCR)   CCR 使用日志传送创建和管理邮箱数据的另一个副本。因此,CCR 的双节点群集在每个数据中心中都有一个节点。在该配置中,Windows 群集服务需要在这两个位置间扩展的子网。通过扩展群集,群集邮箱服务器只需在其他数据中心中的节点上重新注册分配给它的 IP 地址,即可进行故障转移。

  • 具有同步伙伴复制功能的单一副本群集 (SCC)   通过伙伴复制功能,系统可拥有邮箱服务器数据的两个副本。同 CCR 一样,为成功进行群集故障转移,要求使用扩展的子网。

  • 具有伙伴复制功能的备份群集   邮箱数据被复制到备份数据中心中的另一个群集,并使用服务器灾难恢复过程还原服务。复制可以是同步的,也可以是异步的。如果未要求群集处理,那么也不要求扩展的子网。

  • 具有伙伴复制功能的备份服务器   邮箱数据被复制到备份数据中心中的另一个服务器,并使用数据库可移植性或服务器灾难恢复过程还原服务。复制可以是同步的,也可以是异步的。如果未要求群集处理,那么也不要求扩展的子网。

  • 在另一数据中心承载另一副本的本地连续复制 (LCR)   这并非首选解决方案,但对某些组织来说,可以满足要求了。在该配置中,使用基于 Internet SCSI (iSCSI) 的存储来存储数据的被动副本。网络的连接特征必须允许被动副本与主动副本保持合理的一致。在该配置中,由于网络延迟和带宽可能不支持客户端访问,所以 LCR 不可用于快速本地激活。

上图演示了一种群集解决方案的用法。这是因为邮箱服务器显示在产品数据中心的 Active Directory 站点中。在群集解决方案中,群集中的每个节点上的网络必须在同一子网上。在非群集解决方案中,并不要求单一子网,但建议使用单一子网。如有必要,可以使用不同的子网。

假设使用群集解决方案,一般操作过程如下所示:

  1. 所有传入 Internet 邮件将流经数据中心 A 中的边缘传输服务器。

  2. 发往 Active Directory 站点 Redmond-Prod 中的邮箱服务器的所有邮件将由 Redmond-Prod 中的集线器传输服务器处理。

  3. Active Directory 站点 Redmond-Prod 中的群集邮箱服务器将驻留在数据中心 A 或数据中心 B 中已配置的节点上。节点 A 和节点 B 是 Redmond-Prod 的一部分,由 Redmond-Prod 集线器传输服务器和客户端访问服务器为它们提供服务。

  4. 由于 CCR 支持两个节点,所以第二个节点必须在数据中心 B 中。这表示数据中心 A 中的主动节点故障强制群集邮箱服务器移到数据中心 B;在这种情况下,仍由数据中心 A 中的集线器传输服务器和客户端访问服务器为该节点提供服务。

  5. 可配置带有三个服务器和两个数据副本的 SCC,这样,故障将导致群集邮箱服务器保留在数据中心 A 中,而不是故障转移到数据中心 B。但是,如果故障是因为存储引起的,那么仍需要在数据中心 B 中激活被动节点。

两个数据中心间的网络带宽要求有三个驱动因素:

  • 群集服务延迟要求   群集服务要求两个群集节点间的往返时间不超过半秒钟。

  • 复制的带宽要求   由于 CCR 复制基于日志传送而非数据库复制,所以 CCR 要求的带宽比大多数第三方复制解决方案要求的带宽小。CCR 解决方案要求的带宽取决于多种因素,通常每种环境所依赖的因素是特定的,并且这些带宽要求中涉及下列活动所需要的带宽:

    • 日志传送

    • 文件系统通知,通过这种方式,Microsoft Exchange 复制服务可以获知是否有新的日志文件准备好进行传送

    • 目录服务器通信

    • 客户端通信,如果客户端与群集邮箱服务器未处于同一物理位置

    • 群集检测信号通信

    • 群集数据库更新

    • 使用该网络的其他应用程序

  • 集线器传输服务器和客户端访问服务器要求在本身与其服务的邮箱服务器间进行 LAN 通信   对于客户端访问服务器,因为要服务于联机用户,所以这个要求格外重要。对域控制器的邮箱访问可通过广域网 (WAN) 连接进行,并且该访问的延迟会影响联机 MAPI 访问。

部署非群集解决方案后,可减少延迟和带宽要求。复制的网络要求保持不变,并且很重要。但是,除非您预想在不导致数据中心 A 完全失败的情况下激活备份邮箱服务器,否则,其他大多数的要求都不需要。

当产品数据中心发生故障时,管理员可通过下列某项操作还原邮件流和邮件服务:

  • 将备份数据中心中的邮箱服务器移到 Active Directory 站点 Redmond-DR。

  • 将备份数据中心中的集线器传输服务器、客户端访问服务器和目录服务器移到 Active Directory 站点 Redmond-Prod。

另一个选择就是建议的策略,因为它减少了对环境其他部分的影响。例如,任何分支机构中的 Exchange 服务器都不需要更改队列邮件的感知路由。当正确的服务器启动并且可用时,它们将直接进行连接。

激活数据中心 B 时会采用下列高级步骤:

  1. 使网络基础结构进入联机状态。

  2. 使 Active Directory 基础结构进入联机状态。

  3. 使剩余邮箱服务器进入联机状态。此步骤可能涉及强制群集与单一剩余服务器进入联机状态。

  4. 使用 Redmond-DR 中的集线器传输服务器、客户端访问服务器和目录服务器的 IP 地址更新 Active Directory 站点 Redmond-Prod。

  5. 使用数据中心 B 中的边缘传输服务器的 IP 地址更新组织域的 MX 记录。

  6. 将新移动的客户端访问服务器添加到网络负载平衡 (NLB) 配置。

  7. 在数据中心 B 中还原数据中心 A 的邮件服务。

当数据中心 A 可用时,可使用下列高级步骤取消激活数据中心 B:

  1. 使数据中心 A 的各个服务器进入联机状态。这些服务器将参与提供服务,直到手动停止或禁用 Exchange 服务。往回迁移时,允许数据中心 A 的各个服务器进入联机状态。

  2. 允许数据中心 B 中的集线器传输服务器处理完其队列,然后使这些服务器进入脱机状态。

  3. 从 NLB 配置中清除数据中心 B 中的客户端访问服务器。这样,客户端将通过数据中心 A 中的服务器进行连接。

  4. 使用数据中心 A 中的边缘传输服务器的 IP 地址更新组织域的 MX 记录。

  5. 执行要求的网络基础结构更新。

  6. 将群集邮箱服务器移到数据中心 A。

  7. 使用在激活期间移动的服务器的 IP 地址更新 Active Directory 站点 Redmond-DR。

  8. 还原数据中心 A 的邮件服务。

同任何站点故障解决方案一样,应该定期为激活产品和备份数据中心编写脚本并进行测试。使用邮箱服务器的群集解决方案可减少备份数据中心的激活次数。其他解决方案可能需要某些域名系统 (DNS) 和 Active Directory 复制,它们可影响邮件流恢复和客户端可访问其邮箱的时间。

“产品:温(专用)”解决方案具有如下优点:专用计算机提供可预测的服务级别。

包含两个 Active Directory 站点的产品:温(非专用)

在“产品:温(专用)”配置中,备份数据中心中的边缘传输服务器、集线器传输服务器和客户端访问服务器专用作数据中心 A 的备用资源。该配置表示有未充分利用的重大硬件投资。下图中显示了另一个模型。

产品:温(非专用)部署的示例

示例生产:热部署(非专用)

产品:温(非专用) 要求管理员手动触发备份数据中心激活。触发后,激活过程重新配置备份数据中心的某些设备和基础结构,从而接管数据中心 A 的用户的邮件服务。

同“产品:温(专用)”解决方案一样,在“产品:温(非专用)”解决方案中有两个 Active Directory 站点。但与“产品:温(专用)”解决方案不同的是,这两个 Active Directory 站点可跨到其他数据中心。备份数据中心的专用资源已经成为备份数据中心中不同产品配置的冗余服务器。通过此方法可正常使用这些资源,从而创建两个产品数据中心,这两个产品数据中心对于彼此都是有效的备份。

例如,如图产品:温(非专用) 部署示例所示,当数据中心 A 发生故障时,集线器传输服务器 4、客户端访问服务器 4 和全局编录服务器 4 被添加到 Active Directory 站点 Redmond,并与 Redmond 的节点 B 一起为数据中心 A 的用户提供邮件服务。站点发生故障后,这两个产品环境以降低的(与正常状态相比)容量和冗余的状态运行。假如可以支持它们正在进行的负载,那么可以接受该配置。例如,Internet 邮件要通过数据中心 B 中的边缘传输服务器。要支持较长时间的数据中心中断,企业可签订在需要时快速提供其他硬件的供应商合同。然后可使用添加的硬件还原冗余或添加其他功能。

在此解决方案中,Redmond 和 Dublin Active Directory 站点部署的普通操作与在“产品:温(专用)”解决方案中一样。同样,除了 Redmond 和 Dublin 服务器当前都需要受到支持之外,这两个位置间的带宽也有相同的驱动因素。

可通过以下任一方法激活备份数据中心:

  • 将主动节点和群集邮箱服务器移到操作数据中心的 Active Directory 站点。

  • 将备份数据中心中的集线器传输服务器、客户端访问服务器和目录服务器移到发生故障的数据中心的 Active Directory 站点。

建议的激活解决方案是:将集线器传输服务器和客户端访问服务器移到发生故障的数据中心的 Active Directory 站点。该解决方案可使激活更加简单、受其他因素干扰的影响最轻。

在该解决方案中,通过以下高级步骤完成数据中心 A 的恢复:

  1. 使网络基础结构进入联机状态。由于 Internet 邮件即将由数据中心 B 接收,所以可不要求对网络基础结构进行更改。

  2. 使数据中心 A 的 Active Directory 基础结构进入联机状态(Active Directory 站点 Redmond)。

  3. 使剩余邮箱服务器进入联机状态。此步骤可能涉及强制群集与单一剩余服务器进入联机状态。

  4. 使用集线器传输服务器 4、客户端访问服务器 4 和全局编录服务器 4 的 IP 地址更新 Active Directory 站点 Redmond。

  5. 将客户端访问服务器 3 添加到 Redmond 的 NLB 配置。

  6. 还原数据中心 A 的邮件服务。

当数据中心 A 可用时,可使用下列高级步骤将数据中心 B 还原到其正常配置:

  1. 使数据中心 A 的各个服务器进入联机状态。这些服务器将参与提供服务,直到手动停止或禁用 Exchange 服务。往回迁移时,允许数据中心 A 的各个服务器进入联机状态。

  2. 允许集线器传输服务器 4 处理完其队列,然后使其脱机。

  3. 从 NLB 配置中清除客户端访问服务器 4。客户端将仍可连接到数据中心 A 中的服务器。

  4. 执行要求的网络基础结构更新。

  5. 将群集邮箱服务器移至数据中心 A 中。

  6. 使用在激活期间移动的服务器的 IP 地址更新 Active Directory 站点 Dublin。

  7. 将这两个数据中心均还原到它们的原始状态。

同任何站点故障解决方案一样,应该定期为激活产品和备份数据中心编写脚本并进行测试。使用邮箱服务器的群集解决方案可减少备份数据中心的激活次数。其他邮箱解决方案可要求某些 DNS 和 Active Directory 复制,它们可影响邮件流恢复和客户端可访问其邮箱的时间。

该解决方案允许将用于站点弹性的服务器应用到普通操作。这样可以降低站点弹性解决方案的成本,但是在需要时可能会无法支撑系统的全部负载。例如,如果数据中心 B 中的集线器传输服务器上的负载增长到使用该容量的 80%,那么,激活对 A 数据中心的备份将超出集线器传输的能力。使用该解决方案,管理员必须认真跟踪系统利用率随时间的变化情况,以确保该解决方案保持正常工作。如果负载增加,您将需要获取并部署新硬件。

包含一个 Active Directory 站点的产品:产品(非专用)

需要可支持自动激活备份站点的解决方案的组织必须部署产品:产品(非专用) 解决方案。该解决方案在单个跨两个数据中心的 Active Directory 站点中部署冗余服务器,如下图所示。

产品:产品(非专用) 部署示例

生产:生产部署(非专用)

该解决方案将两个数据中心的资源部署到单个 Active Directory 站点。该站点中的所有资源都可用来满足绝大部分请求。例如,数据中心 A 中的边缘传输服务器可使用数据中心 B 中的集线器传输服务器向其邮箱驻留在数据中心 A 中的群集邮箱服务器上的用户传送邮件。同样,默认情况下,没有 Active Directory 通信的位置参考。鉴于上述原因,不建议使用该解决方案。

激活备份数据中心与恢复多个服务器故障相似。从激活中恢复仅要求恢复故障服务器上的服务。与先前讨论的非专用解决方案一样,数据中心发生故障后,不良容量管理可导致负载超出服务的能力。管理员必须确保该解决方案在数据中心发生故障后可支持预期负载。单个数据中心发生故障后,如果不能进行适当的容量管理,可能会导致信息服务完全失败。