组件级别的容错措施

 

上一次修改主题: 2005-05-20

本部分介绍了为提高 Exchange 2003 组织的容错能力可采用的组件级别的注意事项和策略。具体来说,“组件级别”指的是组织基础结构中的各个服务器硬件、存储硬件和网络硬件。有效的硬件策略可以提高系统的总体可用性。这些策略的范围从采用常识操作到使用昂贵的容错设备。

Exchange 2003 组织内的硬件包括服务器硬件和网络硬件。采用硬件策略时,需要考虑如下事项:

  • 确保硬件冗余。
  • 确保实现服务器级别的硬件。
  • 确保选择的是标准硬件。
  • 确保有可用的备用硬件。

以下各部分将详细讨论上述每一注意事项。总之,如果正确地选择和部署了硬件,那么这些硬件有助于满足 SLA 要求。

有关容错的硬件策略和高可用性系统设计的详细信息,请参阅 Microsoft Solutions Framework 网站(英文)。

硬件冗余指的是使用一个或多个硬件组件执行相同的任务。若要最大限度地减少 Exchange 2003 组织内的单点故障,使用冗余的服务器、网络和存储硬件是很重要的。通过结合使用完全相同的硬件配置,一条数据 I/O 路径或一个服务器物理硬件组件在发生故障时不会影响服务器的运行。

为最大限度地减少单点故障所使用的硬件,取决于您希望哪些组件是冗余的。许多硬件供应商提供在服务器或存储解决方案硬件中实现冗余的产品。一些供应商还提供完整的存储解决方案,包括专门设计为与 Exchange 2003 一起使用的高级备份和还原硬件。

“服务器级别的硬件”指的是这样的硬件:其可靠性要比专为工作站设计的硬件高。为 Exchange 2003 服务器、存储子系统和网络选择硬件时,请确保选择的是服务器级别的组件。

note注意:
传统上,包括服务器级别的硬件的服务器也包括专用的硬件或软件监视功能。但是,如果购买的硬件不包括监视功能,请确保将监视解决方案视为设计和部署规划的一部分。有关监视对维护具有容错能力的组织的重要性的详细信息,请参阅系统级别的容错措施中的“实现监视策略”。

服务器级别的服务器硬件包括下列组件:

  • 冗余电源 如果主电源发生故障,则冗余的服务器和磁盘阵列不间断电源 (UPS) 装置及备用电池会提供辅电源。在本质上,UPS 和备用电池可防止电涌和短时断电对服务器及服务器包含的数据带来的损害。
  • 冗余风扇 如果冷却风扇停止正常运转,则冗余风扇可确保在服务器内提供足够的冷却。如果服务器没有冗余风扇,那么在风扇发生故障时,服务器可能会自动关闭。
    note注意:
    如果服务器空间的温度超过特定温度,则冗余风扇可能不足以维持硬件的正常运行。有关温度及其他安全措施的信息,请参阅系统级别的容错措施中的“维护服务器物理环境的安全”。
  • 冗余内存 如果内存块发生故障,则冗余内存可确保内存仍然可用。例如,复制物理内存(被称为“内存镜像”)通过内存复制提供容错能力。内存镜像技术包括一台计算机中有两组 RAM,两组 RAM 相互镜像,或镜像整个系统状态(包括 RAM、CPU、适配器和总线状态)。内存镜像技术必须与原始设备制造商 (OEM) 一起开发和实现。
  • ECC 内存 如果发生双位错误,则纠错代码 (ECC) 内存会检测和纠正单位错误,并使内存进入脱机状态。
  • 冗余网络接口卡 如果网络接口卡 (NIC) 或网络连接发生故障,则冗余 NIC 可确保服务器继续维持网络连接。
  • 开机监视组件 当服务器最初打开时,服务器会检测启动失败状态,如异常温度状态或出现故障的风扇。
  • 故障前监视组件 在服务器运行时,监视到故障前状态。如果组件(如电源、硬盘、风扇或内存)将要出现故障,那么在故障真正发生前,管理员会收到通知。
    例如,ECC 内存检测到的故障将由 ECC 内存纠正或通过路由到冗余内存来纠正,以避免发生服务器故障。管理员会立即收到要解决内存问题的通知。
  • 电源故障硬件监视组件 如果发生电源故障,则系统关闭软件可确保必要时在 UPS 配合下关机。

  • 冗余存储子系统可防止单一磁盘驱动器或控制器失败。应考虑实现如下冗余组件:
    • 用于连接到外部阵列的后端服务器上的冗余硬件
    • 到达磁盘阵列的冗余路径
    • 冗余存储控制器
  • 此外,还可以使用 RAID 实现逻辑单元号 (LUN) 的冗余。有关实现后端存储解决方案的容错能力的详细信息,请参阅系统级别的容错措施中的“实现可靠的后端存储解决方案”。

服务器级别的网络硬件包括下列组件:

  • 冗余的集线器、交换机、网络适配器和布线 有关如何在网络中实现这种冗余硬件的信息,请咨询提供这些组件的供应商。
  • 冗余路由器 路由器不会频繁地发生故障。但是,如果发生故障,可导致整个服务器组织关闭。因此,具备冗余的路由功能是至关重要的。有关如何防止路由器发生故障的信息,请咨询路由器供应商。
note注意:
对于必须维护最大可用性的服务器,请使用固定的 Internet 协议 (IP) 地址,而不要使用动态主机配置协议 (DHCP)。这样,可防止由于 DHCP 服务器故障而导致的中断。如果 DNS 服务器不处理 DHCP 提供的动态地址分配,则可以改进 DNS 服务器的地址解析。

若要确保硬件与 Windows 操作系统完全兼容,请在 Windows Server Catalog 中选择硬件。

在 Windows Server 目录中选择硬件时,请采用一个硬件标准并尽可能使硬件标准化。具体地说,选择一种类型的计算机,然后对所购买的每台计算机使用相同的组件(例如,相同的网卡、磁盘控制器和图形卡)。应修改的参数只有内存量、CPU 数和硬盘配置。

使硬件标准化有如下优点:

  • 当测试驱动程序更新或应用程序软件更新时,在部署到所有计算机之前只需要做一项测试。
  • 只需要较少备件即可维持一系列硬件替换操作。
  • 因为要熟悉一组有限的硬件组件非常容易,所以支持人员不需要太多培训。

在规划硬件预算时,应考虑包括备用硬件组件、备用服务器乃至“热”待机服务器。(“热”指的是这样的服务器:已接通电源并可以替换组织内特定类型的服务器。)如果拥有这些备用硬件组件,并且可以访问服务器,则会显著提高替换损坏的硬件并从硬件故障中恢复的能力。

请确保在硬件预算中包括备用组件,并使这些组件在现场随时可用。使用标准化硬件的一个优点是,减少了必须在现场存留的备用组件数。例如,如果所有硬盘驱动器都是同一类型并来自相同的生产商,则不必储备许多备用驱动器。

应储备的备用组件数与组织可以承受的最长停机时间有关。另一个需要考虑的因素是用于替换的组件的市场可用性。一些组件(如内存和 CPU)在市面上很容易找到,并且可随时购买。而其他组件(如硬盘驱动器)经常被废弃,并且在很短时间之后在市面上就难以找到。对于这些组件,在购买原始硬件时就应该计划购买备用组件。另外,在考虑采用硬件供应商提供的解决方案时,应使用那些能够迅速替换已损坏组件或整个服务器的服务公司或服务供应商。

请考虑维护待机服务器的可能性,有时甚至是数据已自动复制到其中的热待机服务器。如果停机时间所造成的成本较高,而群集又不是一个切实可行的选择,则可以利用待机服务器来减少恢复时间。如果服务器故障导致较高的成本,比如由于服务器停机时间而导致利润损失或由于违反 SLA 而受到限制,那么使用待机服务器也是十分重要的。

待机服务器可以迅速替换出现故障的服务器,或在某些情况下作为备件源。另外,如果服务器发生不涉及硬盘驱动器的灾难性故障,则可以将出现故障的服务器中的驱动器移到正常运行的服务器中(还可以利用备份媒体还原数据)。

note注意:
在群集环境中,这种数据传输是自动进行的。

使用待机服务器从中断中恢复的一个优点是,出现故障的服务器可用于进行仔细诊断。诊断故障原因对于防止重复出现故障是十分重要的。

待机服务器应该经过认证,并与生产服务器类似,应该每天运行 24 小时、每周运行 7 天。

 
显示: