Informationen zu Ausfallzeiten

 

Letztes Änderungsdatum des Themas: 2005-05-20

Durch Ausfallzeiten kann die Verfügbarkeit eines Messagingsystems stark herabgesetzt werden. Deshalb ist es wichtig, sich mit den verschiedenen Ursachen von Ausfallzeiten und ihren Auswirkungen auf die Verfügbarkeit eines Messagingsystems vertraut zu machen.

Geplante und ungeplante Ausfallzeiten

Als ungeplant werden Ausfallzeiten bezeichnet, wenn sie als Folge eines Fehlers auftreten (z. B. Gerätefehler oder ein durch fehlerhafte Serverkonfiguration verursachter Systemausfall). Da Administratoren ungeplante Ausfälle nicht vorhersehen können, ist es nicht möglich, Benutzer über ungeplante Ausfallzeiten vor deren Auftreten zu informieren. Im Gegensatz dazu werden Ausfallzeiten, die durch das Herunterfahren eines Systems durch den Systemadministrator zu einer festgesetzten Zeit entstehen, als geplante Ausfallzeit bezeichnet. Da eine solche Ausfallzeit gezielt geplant wird, kann sie vom Administrator auf eine Zeit festgelegt werden, während der die Produktivität eines Unternehmens am geringsten beeinflusst wird.

Um geplante Ausfallzeiten zu reduzieren oder vollständig zu vermeiden, können Servercluster implementiert werden. Servercluster halten die Messagingdienste auch dann verfügbar, wenn ein Primärknoten gewartet wird (durch temporäres Übertragen von Exchange-Diensten auf einen Standby-Computer im Exchange-Cluster). Weitere Informationen zum Clustering finden Sie unter Planen der Exchange-Clusterbildung.

In der folgenden Tabelle sind häufige Ursachen für Ausfallzeiten und entsprechende Beispiele dargestellt.

Ursachen für Ausfallzeiten und Fallbeispiele

Ursache für Ausfallzeiten Beispiele

Vom Administrator geplante Ausfallzeit

Aktualisierung von Hardwarekomponenten, Firmware, Treibern, Betriebssystem oder Softwareanwendungen

Komponentenfehler

Fehlerhafte Serverkomponenten, z. B. Speicherchips, Lüfter, Systemkarten oder Stromversorgung

Fehlerhafte Speicherkomponenten in untergeordneten Systemen wie ausgefallene Laufwerke oder Laufwerkcontroller

Fehlerhafte Netzwerkkomponenten, z. B. Router oder Netzwerkkabel

Softwarefehler oder -ausfälle

Keine Reaktion des Laufwerks, keine Reaktion oder Neustart des Betriebssystems, Viren, beschädigte Dateien

Fehlerhafte Bedienung oder böswillige Benutzer

Versehentliches oder absichtliches Löschen von Dateien, Bedienfehler

Systemausfall oder -wartung

Erforderlicher Neustart von Software oder von Systemen oder Ausfall der Systemplatine

Lokaler Notfall

Brände, schwere Stürme oder andere lokal begrenzte Ereignisse

Regionaler Notfall

Erdbeben, Orkane, Überschwemmungen oder andere regionale Naturkatastrophen

Fehlertypen

Ein integraler Aspekt beim Implementieren eines Messagingsystems mit hoher Verfügbarkeit ist die Absicherung, dass Server und Netzwerk unabhängig vom Auftreten aller möglichen Ausfälle verfügbar bleiben. Machen Sie sich vor dem Bereitstellen des Exchange 2003-Messagingsystems mit den folgenden möglichen Fehlertypen vertraut, und beziehen Sie diese in Ihre Planungen ein.

noteAnmerkung:
Ausführliche Informationen zum Verringern der Auswirkungen der folgenden Fehlertypen finden Sie unter Einrichten von Fehlertoleranz für die Exchange 2003-Organisation.

Speicherfehler

Zwei häufig auftretende Speicherfehler sind Festplattenfehler und fehlerhafte Speichercontroller. Es gibt verschiedene Methoden, mit denen Sie sich gegen einzelne Speicherfehler absichern können. Eine Methode ist die Verwendung von RAID (Redundant Array of Independent Disks). Dabei wird eine hohe Datenredundanz im Speichersystem hergestellt. Eine andere Methode ist das Zurückgreifen auf Hersteller, die erweiterte Speicherlösungen anbieten, beispielsweise SAN (Storage Area Network). Solche erweiterten Speicherlösungen sollten Funktionen umfassen, mit denen beschädigte Speichergeräte und einzelne Speichercontroller-Komponenten ausgetauscht werden können, ohne dass der Zugriff auf die Daten eingeschränkt wird. Weitere Informationen zu RAID- und SAN-Technologien finden Sie unter Planen einer zuverlässigen Back-End-Speicherlösung.

Netzwerkfehler

Häufige Netzwerkfehler sind fehlerhafte Router, Switches, Hubs und Kabel. Um sich gegen solche Fehler abzusichern, können verschiedene fehlertolerante Komponenten in die Infrastruktur des Netzwerks integriert werden. Durch fehlertolerante Komponenten wird auch die hohe Verfügbarkeit von Verbindungen zu Netzwerkressourcen gewährleistet. Berücksichtigen Sie bei der Auswahl einer Methode zum Schutz eines Netzwerks alle Netzwerktypen (Clientzugriff- und Verwaltungsnetzwerk). Informationen zur Hardware für Netzwerke finden Sie unter „Netzwerkhardware der Serverklasse“ in Maßnahmen zur Fehlertoleranz auf Komponentenebene.

Komponentenfehler

Häufige Fehler von Serverkomponenten sind fehlerhafte Netzwerkschnittstellenkarten (NICs), Arbeitsspeicher (RAM) und Prozessoren. Am besten halten Sie für alle wichtigen Serverkomponenten Ersatzteile bereit (beispielsweise NICs, RAM und Prozessoren). Viele Serverplattformen auf Unternehmensebene halten darüber hinaus redundante Hardwarekomponenten wie zusätzliche Stromanschlüsse und Lüfter bereit. Hardware-Anbieter stellen Computer mit redundanten, während des Betriebs austauschbaren Komponenten wie PCI-Karten (Peripheral Component Interconnect) und Speicher her. Durch diese Komponenten kann beschädigte Hardware ersetzt werden, ohne auf dem Computer ausgeführte Dienste zu unterbrechen.

Weitere Informationen zur Verwendung redundanter Komponenten und von Hardwareersatzteilen finden Sie unter Maßnahmen zur Fehlertoleranz auf Komponentenebene.

Computerfehler

Auf Anwendungsfehler und andere Probleme, die sich auf die Leistung des Computers auswirken, muss sofort reagiert werden. Um die Auswirkung von Computerfehlern möglichst gering zu halten, können zwei Lösungen in den Plan zur Wiederherstellung aufgenommen werden: ein Ersatzserver oder ein Servercluster.

Bei der Lösung mit einem Ersatzserver werden ein oder mehrere vorkonfigurierte Computer ständig verfügbar gehalten. Wenn der Primärserver ausfällt, wird er durch den Ersatzserver ersetzt. Informationen zur Verwendung von Ersatzservern finden Sie unter „Ersatzkomponenten und Ersatzserver“ in Maßnahmen zur Fehlertoleranz auf Komponentenebene.

In einem Servercluster sind Anwendungen und Dienste auch dann für Benutzer verfügbar, wenn ein Clusterknoten ausfällt. Dies ist möglich, indem Anwendungen oder Dienste entweder übertragen werden (Clientanfragen werden von einem Knoten an einen anderen übertragen) oder indem mehrere Instanzen derselben Anwendung für Clientanfragen verfügbar sind.

noteAnmerkung:
Durch Servercluster kann auch dann eine hohe Verfügbarkeit gewährleistet werden, wenn ein oder mehrere Computer zeitweise aus dem Dienst entfernt werden, um Wartungsarbeiten oder Aktualisierungen auszuführen.

Informationen zum Netzwerklastenausgleich (NLB – Network Load Balancing) und zur Serverclusterbildung finden Sie unter „Maßnahmen zur Fehlertoleranz der Infrastruktur“ in Maßnahmen zur Fehlertoleranz auf Systemebene.

Standortfehler

Im Extremfall kann durch Stromausfall, Naturkatastrophen oder andere ungewöhnliche Ereignisse ein Standort vollständig ausfallen. Um sich gegen derartige Ausfälle abzusichern, stellen viele Unternehmen Lösungen von entscheidender Bedeutung an verschiedenen Standorten an mehreren geografischen Orten bereit. Für solche Lösungen werden Hardware, Anwendungen und Daten eines Messagingsystems häufig auf einen oder mehrere geografisch voneinander entfernte Standorte dupliziert. Wenn ein Standort ausfällt, wird der Dienst durch einen anderen Standort bereitgestellt (entweder durch direkte Übernahme oder durch ein Verfahren zur Wiederherstellung am entfernten Standort), bis der fehlerhafte Standort wieder funktionsfähig ist. Weitere Informationen finden Sie unter „Verwenden von mehreren physischen Standorten“ in Maßnahmen zur Fehlertoleranz auf Systemebene.

Durch Ausfallzeiten verursachte Kosten

Es ist recht einfach, einige der durch Ausfallzeiten verursachten Kosten zu berechnen. Kosten, die beim Ersetzen beschädigter Hardware entstehen, sind leicht zu beziffern. Andere Kosten, die in Bereichen wie Produktivität und Gewinn entstehen, sind wesentlich schwieriger zu überschlagen.

In der folgenden Tabelle sind die Kosten zusammengestellt, die infolge einer Ausfallzeit entstehen.

Durch Ausfallzeiten verursachte Kosten

Kategorie Entstehende Kosten

Produktivität

Anzahl der Mitarbeiter, die von eingeschränkter Messagingfunktionen und von Einschränkungen in anderen IT-Bereichen betroffen sind

Anzahl der zur Verwaltung eines Standorts erforderlichen Administratoren erhöht sich durch häufige Ausfallzeiten

Gewinn

Direkte Verluste

Schadensersatzzahlungen

Entgangene zukünftige Gewinne

Rechnungsverluste

Anlagekapitalverluste

Finanzielle Leistungsfähigkeit

Ertragsrealisierung

Cashflow

Entgangene Rabatte (aktiv/passiv)

Zahlungsgarantien

Kreditwürdigkeit

Börsenkurs

Ansehensverlust

Kunden

Zulieferer

Finanzmärkte

Banken

Geschäftspartner

Andere Ausgaben

Zeitarbeiter

Mietkosten für Ausrüstung

Überstundenvergütung

Zusätzliche Versandkosten

Reisekosten

Auswirkungen von Ausfallzeiten

Da Unternehmen sich immer stärker auf zuverlässige Informationstechnologien verlassen, gewinnt die Verfügbarkeit ständig an Bedeutung. Die Verfügbarkeit unternehmenswichtiger Informationssysteme steht oft in einem engen Zusammenhang mit der Unternehmensleistung und dem Umsatz eines Unternehmens. Je nach Funktion eines Messagingdiensts (Wie wichtig ist der jeweilige Dienst für eine Organisation?) können Ausfallzeiten negative Auswirkungen haben, z. B. unzufriedene Kunden, Produktivitätsverluste oder die Nichteinhaltung gesetzlichen Anforderungen.

Nicht alle Ausfallzeiten sind jedoch gleich kostenintensiv. Die größten Verluste entstehen durch ungeplante Ausfallzeiten. Außerhalb der Hauptbetriebszeit eines Messagingdiensts können die Auswirkungen von Ausfallzeiten und einer verringerten Verfügbarkeit so gering sein, dass für das Unternehmen praktisch keine Verluste entstehen. Wenn ein System jedoch während der Hauptbetriebszeit ausfällt, können erhebliche finanzielle Verluste auftreten. Da ungeplante Ausfallzeiten kaum vorhersehbar sind und jederzeit auftreten können, sollten die durch ungeplante Ausfallzeiten verursachten Kosten für die Hauptbetriebszeit berechnet werden.

Da verschiedene Unternehmen durch Ausfallzeiten unterschiedlich beeinträchtigt werden, ist es wichtig, die für ein Unternehmen angemessenen Maßnahmen auszuwählen. In der folgenden Tabelle sind verschiedene Schweregrade der Auswirkung von Ausfallzeiten auf Organisationen dargestellt.

Schweregrade von Ausfallzeiten und Auswirkungen auf das Unternehmen

Schweregrad Beschreibung Geschäftliche Auswirkungen

Schweregrad 1

Geringe Auswirkung auf Geschäftsergebnisse

Gering: Minimale Anforderungen an Verfügbarkeit

Schweregrad 2

Unterbrechung normaler Geschäftsabläufe

Minimale Ertragsverluste, geringe Wiederherstellungskosten

Gering: Vermeidung von Geschäftsverlusten erhöht Rendite und Rentabilität

Schweregrad 3

Erheblicher Ertragsverlust, z. T. auffangbar

Mittel: Vermeidung von Geschäftsverlusten erhöht Rendite und Rentabilität

Schweregrad 4

Erhebliche Auswirkungen auf grundlegende Unternehmensaktivitäten,

Auswirkungen auf mittelfristige Geschäftsergebnisse,

Hoch: Vermeidung von Umsatzverlusten verbessert Geschäftsergebnisse. Geschäftsrisiken übersteigen Kosten für das Implementieren einer Lösung

Schweregrad 5

Starke Auswirkungen auf grundlegende Unternehmensaktivitäten,

Auswirkungen auf mittelfristige Geschäftsergebnisse,

Gefährdung der Überlebensfähigkeit des Unternehmens

Hoch: Geschäftsrisiken übersteigen Kosten für das Implementieren einer Lösung

Schweregrad 6

Sehr starke Auswirkungen auf grundlegende Unternehmensaktivitäten,

Überlebensfähigkeit des Unternehmens wird unmittelbar bedroht

Extrem: Risikomanagement ist überlebenswichtig, beim Implementieren einer Lösung entstehende Kosten sind sekundär