了解故障时间

 

上一次修改主题: 2005-05-20

停机时间对邮件系统的可用性有重大影响。熟悉造成停机时间的各种原因,以及它们是如何影响邮件系统的非常重要。

计划的停机时间和非计划的停机时间

非计划的停机时间是由于故障(例如不正确的服务器配置导致的硬件故障或系统故障)的原因而发生的停机时间。因为管理员不知道将何时出现非计划的停机时间,所以无法将中断提前通知用户。与此不同,计划的停机时间是管理员在预定的时间关闭系统时发生的停机时间。由于计划的停机时间是预先安排的,因此管理员可以规划停机发生的具体时间,使其尽可能减少对生产率的影响。

若要删除或最大限度地缩短计划的停机时间,可实现服务器群集技术。甚至当正在一个主节点执行维护时,服务器群集也能为您的组织提供持续的邮件传递可用性(方法是临时将 Exchange 服务故障转移到 Exchange 群集中的一个备用计算机)。有关群集的详细信息,请参阅规划 Exchange 群集

下表列出了造成停机时间的常见原因和每种原因的特定示例。

停机时间的原因和每种原因示例

停机时间的原因 示例

计划的管理停机时间

升级硬件组件、固件、驱动程序、操作系统和软件应用程序。

组件故障

发生故障的服务器组件,例如内存芯片、风扇、系统主板和电源。

发生故障的存储子系统组件,例如有故障的磁盘驱动器和磁盘控制器。

发生故障的网络组件,例如路由器和网络布线。

软件缺陷或软件故障

驱动器停止响应、操作系统停止响应或重新启动、病毒或文件损坏。

操作员失误或恶意用户

意外或故意的文件删除、不熟练的操作或实验。

系统中断或维护

需要重新启动的软件和系统,或系统主板故障。

本地灾难

火灾、风暴和其他本地性灾难。

地方灾难

地震、飓风、水灾和其他地区性灾难。

故障类型

实现高可用性邮件系统的一个整体方面是确保任意单个故障点不能导致服务器或网络不可用。在部署 Exchange 2003 邮件系统之前,必须熟悉下列可能发生的故障类型,并做出相应的计划。

note注意:
有关应如何尽量减轻下列故障类型的影响的详细信息,请参阅实现 Exchange 2003 组织容错

存储故障

两种可能发生的常见的存储故障是硬盘故障和存储控制器故障。有多种方法可用来防止单个存储故障。一种方法是使用独立磁盘的冗余阵列 (RAID),在存储子系统上提供数据冗余。另一种方法是使用存储供应商提供的高级存储解决方案,例如存储区域网络 (SAN) 解决方案。这些高级存储解决方案应该包括一些功能,通过这些功能可以调换损坏的存储设备和单个存储控制器的组件,同时仍可以访问数据。有关 RAID 和 SAN 技术的详细信息,请参阅规划可靠的后端存储解决方案

网络故障

常见的网络故障包括发生故障的路由器、交换机、集线器和电缆。若要防止出现此类故障,可以使用网络基础结构中的各种容错组件。容错组件还有助于提供对网络资源的高可用性连接。当考虑保护网络的方法时,应确保考虑所有的网络类型(例如客户端访问和管理的网络)。有关网络硬件的信息,请参阅组件级别的容错措施中的“服务器类网络硬件”。

组件故障

常见的服务器组件故障包括发生故障的网络接口卡 (NIC)、内存 (RAM) 和处理器。最好的方法是为每个关键服务器组件(例如 NIC、RAM 和处理器)准备可用的备用硬件。此外,许多企业级别的服务器平台可提供冗余硬件组件,例如冗余电源和风扇。硬件供应商使用冗余、可热插拔的组件来组装计算机,例如外围组件互连 (PCI) 卡和内存。通过这些组件,可以替换损坏的硬件,而不需要从服务中删除计算机。

有关使用冗余组件和备用硬件组件的信息,请参阅组件级别的容错措施

计算机故障

您必须即时处理应用程序错误或其他任何影响计算机性能的问题。为了最大限度地减轻计算机故障的影响,灾难恢复计划可以包括以下两种解决方案:备用服务器解决方案和服务器群集解决方案。

在备用服务器解决方案中,应准备一台或多台预配置的、即时可用的计算机。如果主服务器停止工作,则可以使用此备用服务器来替换它。有关使用备用服务器的信息,请参阅组件级别的容错措施中的“备份组件和备用服务器”。

如果使用服务器群集,即使一个群集节点出现故障时用户也能使用您的应用程序和服务。这种情况可通过两种方式实现:一种方法是将应用程序或服务进行故障转移(将客户端请求从一个节点传输到另一节点),另一方法是为客户端请求提供可用的同一应用程序的多个实例。

note注意:
如果由于例行维护或升级的原因,必须从服务中暂时删除一台或多台计算机,服务器群集也能帮助维护高级别的可用性。

有关网络负载平衡 (NLB) 和服务器群集的信息,请参阅系统级别的容错措施中的“容错基础结构措施”。

站点故障

在极端情况下,断电、自然灾难或其他异常事件可导致整个站点停止工作。为了防止出现此类故障,许多公司正在为在地理上分散的站点部署关键任务解决方案。这些解决方案通常涉及向一个或更多地理上的远程站点复制邮件系统硬件、应用程序和数据。如果一个站点停止工作,其他站点将在出现故障的站点得以修复之前继续提供服务(可以通过自动故障转移或通过在远程站点执行的灾难恢复过程)。有关详细信息,请参阅系统级别的容错措施中的“使用多个物理站点”。

停机时间的成本

停机时间产生的一些成本的计算相对比较简单。例如,可以容易地计算出替换损坏硬件的成本。但是,由工作效率和收入等方面的损失产生的成本则较难以进行计算。

下表列出在计算停机时间的影响时所涉及的成本。

停机时间的成本

类别 有关的成本

工作效率

受邮件功能和其他 IT 资产损失影响的雇员人数

由于停机时间的频繁出现而管理增加的站点所需的管理员人数

收入

直接损失

补偿性支出

未来收入损失

营业额损失

投资损失

财务实绩

收入识别

现金流转

损失的折扣 (A/P)

支出保证金

客户信贷分类

股票行市

破坏的名誉

客户

供应商

金融市场

银行

商业合作伙伴

其他费用

临时雇员

设备租赁

加班成本

额外的运输成本

差旅费用

停机时间的影响

随着众多公司对信息技术的日趋依赖,可用性变得越来越重要。其结果,关键任务信息系统的可用性经常与公司的业绩或收入直接联系在一起。在邮件服务角色(例如某项服务对您组织的重要性程度)的基础上,停机时间能产生负面的结果,例如顾客的不满、工作效率降低或无法满足规定的需求。

但是,并不是所有的停机时间都要付出同样高的代价,其中最高的费用是由非计划的停机时间造成的。在邮件服务的核心服务时间范围之外,停机时间的长短以及相应的总体可用性级别可能对您的公司经营影响很少或没有影响。如果系统在核心服务时间内停止工作,则会产生极其严重的财务影响。由于很难预测非计划的停机时间,并且它可能随时发生,因此应当评估核心服务时间内发生的非计划停机时间的成本。

因为停机时间对各公司的影响并不相同,为您的组织选择合适的应对措施很重要。下表列出不同的影响级别(基于严重度),包括每个级别对组织的影响。

停机时间的影响级别和对营业的相应影响

影响级别 描述 对营业的影响

1 级影响

对经营成果的较小影响。

低:最小的可用性需求。

2 级影响

破坏正常的经营过程。

最小的收入损失、低恢复成本。

低:对经营损失的预防可增进投资收益率和利益率。

3 级影响

损失绝大部分收入,可恢复一些收入。

中等:对经营损失的预防可增进投资收益率和利益率。

4 级影响

对核心经营活动的重大影响。

影响中期成果。

高:对收入损失的预防可以改善经营成果。经营风险比解决方案的成本更重要。

5 级影响

对核心经营活动的强烈影响。

影响中期成果。

可能会危及公司的生存。

高:经营风险比解决方案的成本更重要。

6 级影响

对核心经营活动的影响非常强烈。

立即威胁公司的生存。

极度:对经营风险的管理是最基本的方面。其次,要考虑解决方案的成本。