切り替えとフェールオーバー

[アーティクル]
04/04/2023

適用対象: Exchange Server 2013 SP1

切り替えとフェールオーバーは、Microsoft Exchange Server 2013 年の 2 種類の障害です。

切り替えは、コマンドレットまたは Exchange 2013 のマネージド可用性システムによって明示的に開始されるデータベースまたはサーバーのスケジュールされた停止です。切り替えは通常、メンテナンス操作を実行する準備のために行われます。切り替えでは、アクティブなメールボックスデータベースコピーをデータベース可用性グループ (DAG) 内の別のサーバーに移行する必要があります。切り替えのときに正常なターゲットが見つからない場合、管理者はエラーを受け取り、メールボックスデータベースは稼働状態またはマウント状態を維持します。
フェールオーバーは、サービス、データ、またはサービスとデータの両方が使用できなくなる予期せぬ停止を表します。フェールオーバーでは、システムが、パッシブメールボックスデータベースコピーをアクティブ化し、それをアクティブなメールボックスデータベースコピーにすることで、障害から自動的に回復する必要があります。フェールオーバーのときに正常なターゲットが見つからない場合、メールボックスデータベースはマウント解除されます。

Exchange 2013 は、スイッチオーバーとフェールオーバーの両方を処理するように設計されています。

高可用性とサイトの回復性に関連する管理タスクをお探しですか? 「高可用性とサイトの回復性の管理」を参照してください。

切り替え

Exchange 2013 には、次の 3 種類の切り替えがあります。

データベース切り替え
サーバー切り替え
データセンター切り替え

データベース切り替え

データベース切り替えは、個別のアクティブなデータベースを別のデータベースコピー (パッシブコピー) に切り替えるプロセスであり、そのデータベースコピーが新しいアクティブなデータベースコピーになります。データベース切り替えは、データセンター内部とデータセンター間の両方で実行可能です。データベースの切り替えは、Exchange 管理センター (EAC) またはシェルを使用して実行できます。使用するインターフェイスにかかわらず、切り替えプロセスは以下のように行われます。

管理者は、データベース切り替えを開始して、現在のアクティブなメールボックスデータベースコピーを別のサーバーに移行します。
タスクに使用するクライアントは、DAG メンバー上で Microsoft Exchange Replication サービスへの RPC 呼び出しを作成します。
DAG メンバーがプライマリアクティブマネージャー (PAM) 役割を持たない場合、DAG メンバーは PAM の役割が割り当てられたサーバーに、タスクを照会します。
タスクは、PAM の役割が割り当てられたサーバー上で Microsoft Exchange Replication サービスへの RPC 呼び出しを作成します。
PAM は、DAG 用にクラスターデータベースに格納されているデータベースの場所情報を読み取り更新します。
PAM は、新しいアクティブなメールボックスデータベースコピーとして DAG メンバー上で Microsoft Exchange Replication サービスに接続します。
ターゲットサーバー上の Microsoft Exchange Replication サービスは、その他すべての DAG メンバーについて Microsoft Exchange Replication サービスに照会して、データベースコピー用に最適なログソースを決定します。
データベースは現在のサーバーからマウント解除され、ターゲットサーバー上の Microsoft Exchange Replication サービスが残りのログをターゲットサーバーにコピーします。
ターゲットサーバー上の Microsoft Exchange Replication サービスは、データベースのマウントを要求します。
ターゲットサーバー上の Microsoft Exchange Information Store サービスは、ログファイルを再生してデータベースをマウントします。
エラーコードがターゲットサーバー上の Microsoft Exchange Replication サービスに返されます。
PAM は、DAG 用のクラスターデータベース内のデータベースコピー状態情報を更新します。
エラーコードがターゲットサーバー上の Microsoft Exchange Replication サービスから PAM 上の Microsoft Exchange Replication サービスに返されます。
タスクが呼び出された管理インターフェイスに対して、PAM 上の Microsoft Exchange Replication サービスからエラーが返されます。
呼び出している管理インターフェイスに対して、リモート PowerShell から操作結果が返されます。

データベース切り替えを実行する方法の詳細手順については、「メールボックスデータベースコピーをアクティブにする」を参照してください。

サーバー切り替え

サーバー切り替えは、DAG メンバー上のすべてのアクティブなデータベースを 1 つまたは複数のその他の DAG メンバーに対してアクティブ化するプロセスです。データベース切り替えと同様に、サーバー切り替えはデータセンター内部とデータセンター間の両方で実行可能で、EAC とシェルの両方を使用して開始することができます。使用するインターフェイスにかかわらず、サーバー切り替えプロセスは以下のように行われます。

管理者は、サーバー切り替えを開始して、現在のすべてのアクティブなメールボックスデータベースコピーを 1 つまたは複数のその他のサーバーに移行します。
タスクは、現在のサーバー上のアクティブな各データベースに対して、このトピックの前に述べたデータベース切り替え手順 (手順 2 ～ 4) を実行します。
PAM は、DAG 用にクラスターデータベースに格納されているデータベースの場所情報を読み取り更新します。
PAM は、アクティブ化されるパッシブコピーを持つ各 DAG メンバー上の Microsoft Exchange Replication サービスに接続します。
ターゲットサーバー上の Microsoft Exchange Replication サービスは、その他すべての DAG メンバーについて Microsoft Exchange Replication サービスに照会して、データベースコピー用に最適なログソースを決定します。
データベースは現在のサーバーからマウント解除され、各ターゲットサーバー上の Microsoft Exchange Replication サービスが残りのログをコピーします。
各ターゲットサーバー上の Microsoft Exchange Replication サービスは、データベースのマウントを要求します。
各ターゲットサーバー上の Microsoft Exchange Information Store サービスは、ログファイルを再生してデータベースをマウントします。
エラーコードがターゲットサーバー上の Microsoft Exchange Replication サービスに返されます。
PAM は、DAG 用のクラスターデータベース内のデータベースコピー状態情報を更新します。
エラーコードがターゲットサーバー上の Microsoft Exchange Replication サービスから PAM 上の Microsoft Exchange Replication サービスに返されます。
タスクが呼び出された管理インターフェイスに対して、PAM 上の Microsoft Exchange Replication サービスからエラーが返されます。
呼び出している管理インターフェイスに対して、リモート PowerShell から操作結果が返されます。

サーバー切り替えを実行する方法の詳細な手順については、「サーバー切り替えを実行する」を参照してください。

データセンター切り替え

サイトの回復性のある構成では、サイトレベルの障害に応答する自動回復が DAG 内で発生する可能性があり、メッセージングシステムは機能状態のままです。この構成では、2 つの場所に DAG メンバーを展開し、DAG の監視サーバーを 3 番目の場所に展開する必要があるため、少なくとも 3 つの場所が必要です。

3 つの場所がない場合、または 3 つの場所がある場合でも、データセンターレベルの復旧アクションを制御する場合は、サイトレベルの障害が発生した場合に手動で復旧できるように DAG を構成できます。その場合、データセンター切り替え と呼ばれるプロセスを実行します。多くの障害回復シナリオと同様に、データセンターの切り替えを事前に計画および準備すると、回復プロセスを簡略化して停止期間を短縮できます。

Exchange 2013 では、サーバーの役割の統合など、多数のアーキテクチャの変更があるため、Exchange 2013 でデータセンターの切り替えを実行する方が、Exchange 2010 よりも簡単です。データセンターの切り替えを実行する詳細な手順については、「 Datacenter Switchovers」を参照してください。

フェールオーバー

フェールオーバーは、データベースレベル、サーバーレベル、データセンターレベルのいずれかで行われる自動アクティブ化プロセスです。フェールオーバーは、個別データベースに影響を与える障害 (例: 単独ストレージ障害)、サーバー全体に影響を与える障害 (例: マザーボード障害または電源障害)、サイト全体に影響を与える障害 (例: サイトの全 DAG メンバーの障害) に対応して実行されます。

DAG およびメールボックスデータベースコピーは、データと、データへのアクセスを提供するサービスの両方に完全な冗長性を提供し、迅速な回復を可能にします。次の表に、さまざまなエラーに対して予期される復旧アクションを示します。管理者が復旧を開始する必要がある障害もあれば、システムによって自動的に処理される障害もあります。

説明	自動アクティブ化	自動修復処理	修復中の状態:アクティブ	修復中の状態:パッシブ	修復操作	Comments
拡張ストレージエンジン (ESE) ソフトデータベース障害:データベースを格納するドライブが読み取り時にエラーを返しています (例: -1018 エラー)	短期間の停止の可能性。自動フェールオーバーの可能性。	不良ページの自動修正。	手動切り替え、自動フェールオーバー、またはオンライン修復。	失敗	RAID の再構築、データベースおよびデータベースコピーの修復、復元および回復実行後のページ修正、またはコピーからのページ修正。	その他のソフトデータベースの障害コードも存在する可能性があります。 NTFS ファイルシステムブロック障害は含まれません。フェールオーバーまたは切り替えを実行すると、ホストサーバーが更新されます。
ESE "semi-soft" データベース障害:データベースを格納するドライブが読み取り時にエラーを返しています。	自動フェールオーバー中の短期間の停止。	ドライブを交換した場合は、その後に自動ボリューム/ディスク再構築。	回復できない場合はマウント解除されます。	失敗	RAID の再構築で問題が解決する場合があります。交換を行った場合は、その後にコピーと修復、復元と回復実行、またはボリューム/ディスク再構築。	ESE semi-soft 書き込みエラーは、書き込みが正常に実行されたことを意味します。 NTFS ブロック障害が含まれていません。
ESE "semi-soft" ログ障害:ログデータを格納するドライブが読み取りまたは書き込み時に回復不可能なエラーを返しています。	自動フェールオーバー中の短期間の停止。	ドライブを交換した場合は、その後に自動ボリューム/ディスク再構築。	回復できない場合はマウント解除されます。	失敗	RAID の再構築で問題が解決する場合があります。交換を実施した場合は、その後にコピーと修復、復元と回復実行、またはボリューム/ディスク再構築。	ESE semi-soft 読み取り/書き込みエラーは、読み取り/書き込みが正常に実行されたことを意味します。データベースにエラーが発生すると、ログデータ修復処理が開始される前に自動化された回復が行われます。
ESE ソフトウェアエラーまたはリソースの枯渇:ESE がインスタンスを終了させるエラー (例: イベント ID 1022、チェックポイントが深すぎる)。	自動フェールオーバー中の短期間の停止。	なし。	回復できない場合はマウント解除されます。	失敗	基になるリソースの問題を修正します。	このエラーは、その他のケースの表面化したエラーである可能性があります。
NTFS ブロック障害:データベースまたはログを格納するドライブで、NTFS 制御構造への読み取りまたは書き込みエラーが発生します。	自動フェールオーバー中の短期間の停止。	ドライブの交換が可能な後、ボリュームが再構築されます。	回復できない場合はマウント解除されます。	失敗	RAID の再構築で問題が解決する場合があります。 NTFS ユーティリティによって、NTFS の問題が解決する場合があります。 Exchange 回復が必要になる可能性があります。	このイベントは、RAID が使用されていない場合に発生する可能性が高くなります。このイベントがアクティブなログボリュームに影響を与える場合、最近のログファイルの一部が失われます。 NTFS またはその基となるソフトウェアやハードウェアスタックによって自動的に修正されるエラーは含まれません。
データベースまたはログドライブの障害: データベースまたはログを格納しているドライブが失敗し、アクセスできません。	自動フェールオーバー中の短期間の停止。	ドライブの再フォーマットまたは交換とその後の完全なボリューム再構築。	回復できない場合はマウント解除されます。	失敗	ドライブの交換後、可能であれば RAID 再構築。ドライブの交換後、完全なボリューム再構築。完全なボリューム再構築。	該当なし。
データベースまたはログボリュームのエラー: NTFS または下位レベルのボリュームの問題が原因でボリュームが失敗します。	自動フェールオーバー中の短期間の停止。	ドライブの再フォーマットまたは交換。	回復できない場合はマウント解除されます。	失敗	ドライブの交換後、可能であれば RAID 再構築。ドライブの交換後、完全なボリューム再構築。完全なボリューム再構築。	該当なし。
データベースまたはログボリュームの空き容量の不足:データベースまたはログファイルの NTFS ファイルシステムが空き容量不足です。	その他のコピーが同じような状態でない場合の自動フェールオーバー。	なし。	マウント解除。	失敗	完全または増分バックアップの実行、手動によるログ削除、時間待機、データベースコピー再開、または失敗したデータベースコピーの修復。	該当なし。
管理者は、間違ったデータベースをマウント解除します。	管理者が自動フェールオーバーをブロックしないと、停止が短期間になります。自動フェールオーバーができないようにすると、データベースがマウントされるまで停止します。	なし。	マウント解除。	該当なし	管理者がエラーを修正します。	該当なし。
管理者が間違ったデータベースコピーを中断します。	構成と影響を受けるコピーによっては、自動回復ができない場合があります。	なし。	該当なし。	中断	管理者がエラーを修正します。	該当なし。
管理者がストレージ、NTFS、またはボリュームの保守用にデータベースをマウント解除します。	管理者が自動フェールオーバーをブロックしないと、停止が短期間になります。自動フェールオーバーをブロックすると、管理者がタスクを終了するまで停止します。	なし。	マウント解除。	該当なし	管理者がタスクを完了します。	該当なし。
管理者がストレージ、NTFS、またはボリュームの保守用にデータベースコピーを中断します。	構成と影響を受けるコピーによっては、自動回復ができない場合があります。	なし。	該当なし。	中断	管理者が操作を完了します。	該当なし。
管理者がオフラインデータベース保守用にデータベースをマウント解除します。	修復までの停止。	なし。	マウント解除。	中断	管理者が操作を完了します。	のアクティブおよびパッシブのデータベースコピーに相違があります。管理者は、コピーを中断する必要があります。
ストレージエリアネットワーク (SAN)、ディスク、またはストレージコントローラーの障害。	自動フェールオーバー中の短期間の停止。	なし。	マウント解除。	任意	ハードウェア修復。	パッシブデータベースコピーは、システムに障害が発生した時点で存在した状態になります。
サーバーハードウェア保守。	自動フェールオーバー中の短期間の停止 (管理者によってブロックされていない場合)。	なし。	マウント解除。	任意	操作の完了。	パッシブデータベースコピーは、システムがシャットダウンした時点で存在した状態になります。
サーバーソフトウェア保守。	自動フェールオーバー中の短期間の停止 (管理者によってブロックされていない場合)。	なし。	マウント解除。	任意	操作の完了。	パッシブデータベースコピーは、システムがシャットダウンした時点で存在した状態になります。
Microsoft Exchange Information Store サービスが管理者によって停止または一時停止されます。	自動フェールオーバー中の短期間の停止。	なし。	マウント解除。	任意	Microsoft Exchange Information Store サービスを再起動します。	該当なし。
Microsoft Exchange Information Store サービスが失敗し、オペレーティングシステムがまだ実行中です。	自動フェールオーバー中の短期間の停止。	サービスコントロールマネージャーが Microsoft Exchange Information Store サービスを再起動します。	マウント解除。	任意	手動または自動で Microsoft Exchange Information Store サービスを再起動します。	パッシブデータベースコピーは、Microsoft Exchange Information Store サービスに障害が発生した時点で存在した状態になります。
Microsoft Exchange Information Store サービスの部分的な失敗。Exchange ストアの一部は機能を停止しますが、失敗と識別されません。	自動フェールオーバー中に短期間の停止の可能性。	なし。	マウントされ、部分的に機能します。	任意だが、部分的にのみ機能する場合があります。	サーバー、オペレーティングシステム、または Microsoft Exchange Information Store サービスを再起動します。	該当なし。
サーバー障害:次のいずれかの理由によりサーバーに障害が発生しました。完全な電源障害プロセッサチップ、マザーボード、またはバックプレーンの修復不可能な障害オペレーティングシステム停止エラーオペレーティングシステム応答停止完全な通信障害	自動フェールオーバー中の短期間の停止。	コンピューターを再起動します。	マウント解除。	任意	電源の復旧、オペレーティングシステム設定の変更、ハードウェア設定の変更、ハードウェアの交換、オペレーティングシステムの再起動、オペレーティングシステムの保守、ハードウェアの保守、または通信の問題の修復。	該当なし。
DAG にクォーラム障害が発生しました。	修復までの停止。	なし。	マウント解除。	任意	失敗したクォーラムの修復、新規クォーラムの割り当て、またはクォーラム失敗を引き起こしているネットワークの復旧。	パッシブデータベースコピーは、システムに障害が発生した時点で存在した状態になります。
MAPI ネットワーク通信障害:サーバーは MAPI ネットワーク上で利用できなくなりました。	自動フェールオーバー中の短期間の停止。ロスレスでなくてはなりません。	なし。通信は引き続き試行されます。	マウント解除。	任意	ハードウェアまたはソフトウェアの問題を修正することによって、通信の問題を修正します。	該当なし。
レプリケーションネットワーク通信障害:失敗したレプリケーションネットワーク経由でサーバーがハートビート、ログコピー、またはシードを受信できません。	負荷を他のネットワークに切り替えている間に、コピーまたはシード処理の短期間の停止の可能性。	なし。通信は引き続き試行されます。	なし。	任意	ハードウェアまたはソフトウェアの問題を修正することによって、通信の問題を修正します。	障害によって影響を受ける復元。
複数のネットワーク通信エラー: サーバーは、ハートビート、ログコピー、またはシードを複数のネットワーク経由で受信できません。	自動フェールオーバー中の短期間の停止。ロスレスでなければなりません。	なし。通信は引き続き試行されます。	マウント解除。	任意	ハードウェアまたはソフトウェアの問題を修正することによって、通信の問題を修正します。	少なくとも 1 つのネットワークがまだ機能しています。
1 つまたは複数のネットワークの部分的な障害:ネットワークで高エラー率が発生します。	障害を検出できません。操作はありません。	なし。	マウントされていますが、パフォーマンスの問題の可能性があります。	任意	ハードウェアまたはソフトウェアの問題を修正することによって、通信の問題を修正します。	ネットワークで通常より高いエラー率が発生します。
検出されないオペレーティングシステムがハングする: オペレーティングシステムは応答を停止しますが、監視またはクラスタリングによって検出されません。	なし。	なし。	任意。	任意	応答していないリソースを再起動または終了します。	ハングが検出されないので、操作が行われません。一部の機能は動作可能です。
オペレーティングシステムドライブで障害が発生しました。	自動フェールオーバー中の短期間の停止。	なし。	マウント解除。	任意	ドライブの交換と、サーバーの再構築または RAID を使用したボリュームの再構築。	該当なし。
オペレーティングシステムドライブの容量不足。	自動フェールオーバー中の短期間の停止。	なし。	マウント解除。	任意	手動でボリューム上の領域を解放します。	該当なし。
Exchange バイナリを含むドライブでは、ボリュームまたはドライブの障害が発生します。	自動フェールオーバー中の短期間の停止。	なし。	マウント解除。	任意	ドライブの交換と、アプリケーションの再インストールまたは RAID を使用したボリュームの再構築。	該当なし。
Exchange バイナリが含まれているドライブの空き領域が不足しています。	自動フェールオーバー中の短期間の停止。	なし。	マウント解除。	任意	手動でボリューム上の領域を解放します。	該当なし。
無効な新規ログの検出:ログシーケンスが既存のファイルによって中断されます。	自動フェールオーバー中の短期間の停止。その他のコピーには同じ問題がないものとします。	なし。	マウント解除。	失敗	ソース確認後に壊れたログを削除します。	壊れたログをレプリケートしないでください。
継続レプリケーションで無効なログを検出しました:再生がコピーまたは再生中に不適切なログを検出しました。	該当なし。	ログを破棄します。	該当なし。	失敗	無効なログを破棄します。影響のあるログストリームを移動します。	該当なし。

データベースのフェールオーバー

データベースのフェールオーバーは、アクティブ状態のデータベースコピーがアクティブ状態を続けることができなくなったときに実行されます。次の出現箇所は、データベースフェールオーバーの一部です。

データベース障害が Microsoft Exchange Information Store サービスによって検出されます。
Microsoft Exchange Information Store サービスが障害イベントを crimson チャネルイベントログに書き込みます。
障害が発生したデータベースを含むサーバー上のアクティブマネージャーが障害イベントを検出します。
アクティブマネージャーがデータベースのコピーを保有するその他のサーバーのデータベースコピー状態を要求します。
その他のサーバーは、要求されたデータベースコピー状態を要求元のアクティブマネージャーに返します。
PAM は、最適なコピーの選択アルゴリズムを使用して DAG 内の別のサーバーに対するアクティブなデータベースの移行を開始します。
PAM は、選択したサーバーを指すクラスターデータベース内のデータベースマウント場所を更新します。
PAM は、選択したサーバー上のアクティブマネージャーにデータベースマスターになるよう要求を送信します。
選択したサーバー上のアクティブマネージャーは、Microsoft Exchange Replication サービスが以前のサーバーから最終ログをコピーしてマウント可能なフラグをデータベース用に設定することを試みるよう要求します。
Microsoft Exchange Replication サービスは、以前にデータベースのアクティブなコピーを保持していたサーバーからログをコピーします。
アクティブマネージャーは、最大ログ生成番号をクラスターデータベースから読み取ります。
Microsoft Exchange Information Store サービスが新しいアクティブなデータベースコピーをマウントします。

サーバーフェールオーバー

サーバーフェールオーバーは、DAG メンバーが MAPI ネットワークの保守を実施できなくなるか、DAG メンバー上のクラスターサービスが残りの DAG メンバーに接続できなくなるときに行われます。次の状況は、サーバーフェールオーバーの一部です。

次の 2 つの条件のいずれかの場合、PAM 上のクラスターサービスが PAM に通知を送信します。
1. ノードダウン: サーバーは到達可能ですが、DAG 操作に参加できません。
2. MAPI ネットワークダウン: サーバーは MAPI ネットワーク経由で接続できないため、DAG 操作に参加できません。
サーバーが到達可能であれば、PAM は影響を受けるサーバー上のアクティブマネージャーに接続して、すべてのデータベースを直ちにマウント解除するよう要求します。
影響を受ける各データベースコピー:
1. PAM は、DAG 内のすべてのサーバーからデータベースコピー状態を要求します。
2. PAM は、到達可能でアクティブなすべての DAG メンバーから応答を受信します。
3. PAM は、各応答側から最新のログ生成番号を照会することによって、応答しているすべてのサーバー間で最適なログソースを決定しようとします。
4. 各サーバーがログ生成番号を応答します。
PAM は、現在の検索インデックスカタログ状態をクラスターデータベースから取得します。
各データベースコピーのログ生成番号とカタログ状態に基づいて、PAM はアクティブ化する最適なコピーを選択します。
PAM は、クラスターデータベース内のデータベースのマウント場所を更新します。
PAM は、1 つまたは複数のその他のサーバー上でアクティブマネージャーと通信することによって、データベースフェールオーバーを開始します。
選択したサーバー上のアクティブマネージャーは、Microsoft Exchange Replication サービスが以前のサーバーから最終ログをコピーしてマウント可能なフラグを設定することを試みるよう要求します。
データベースがマウント可能である場合、サーバー上のアクティブマネージャーがデータベースをマウントします。

アクティブマネージャーの最適なコピー選択プロセスの詳細については、「アクティブマネージャー」を参照してください。

データセンターフェールオーバー

Exchange 2010 サイトの回復性構成の課題に対処する重要な変更が Exchange 2013 で行われました。名前空間の簡素化、サーバーの役割の統合、クライアントアクセスサーバーの分離と DAG の回復 (Exchange 2013 では、名前空間を DAG と共に移動する必要はありません)、負荷分散に関する変更により、Exchange 2013 には、単一のグローバル名前空間を使用する機能などの新しいサイトの回復性オプションが用意されています。さらに、メッセージングサービスコンポーネントを展開する場所が 2 つ以上ある場合、Exchange 2013 では、Exchange 2010 での手動介入が必要なエラーに対応して、自動フェールオーバー用のメッセージングサービスの構成も有効になります。

Exchange 2013 では、サイトの回復性が運用上簡素化されました。 Exchange は、複数の IP アドレスを介して名前空間に組み込まれているフォールトトレランスを適用します。負荷分散 (必要に応じて、サーバーをサービスに入れてサービスを提供する機能) を使用します。 Exchange 2013 で行った最も重要な変更の 1 つは、名前解決要求に応答して DNS サーバーから返された複数の IP アドレスをキャッシュするクライアントの機能を使用することです。クライアントが複数の IP アドレスをキャッシュできる場合 (ほぼすべての HTTP クライアントが実行し、Exchange 2013 のクライアントアクセスプロトコルのほとんどすべてが HTTP ベース (Outlook、Outlook Anywhere、EAS、EWS、OWA、EAC、RPS など) であるため、サポートされているすべての HTTP クライアントで複数の IP アドレスを使用できるため、クライアント側でフェールオーバーが提供されます。名前解決中にクライアントに複数の IP アドレスを渡すように DNS を構成できます。クライアントが mail.contoso.com について問い合わせると、たとえば 2 つの IP アドレスまたは 4 つの IP アドレスが返ってきます。ただし、クライアントが返す多くの IP アドレスは、クライアントによって確実に使用されます。この最適な使用率により、いずれかの IP アドレスに障害が発生した場合、クライアントに接続しようとする他の 1 つ以上が存在するため、クライアントの方が大幅に優れています。クライアントが 1 つの IP アドレスに接続しようとして失敗すると、約 20 秒間待機してから一覧の次の IP アドレスに対して試行します。したがって、プライマリ CAS アレイへの接続が失われ、2 つ目の CAS アレイに対して 2 つ目の発行済み IP アドレスがある場合、クライアントの復旧は自動的に行われます (約 21 秒)。

最新の HTTP クライアント (10 歳未満のオペレーティングシステムと Web ブラウザー) は、この冗長性を自動的に使用します。 HTTP スタックは FQDN に対して複数の IP アドレスを受け入れることができ、最初に試行した IP がハードに失敗した場合 (たとえば、接続できません)、一覧の次の IP が試行されます。ソフトエラー (たとえば、デバイスがパケットをドロップし、サービスから取り出す必要があるサービスで断続的な障害が発生したため、セッションが確立された後に接続が失われた) 場合、ユーザーはブラウザーを更新する必要がある場合があります。

適切な構成を使用すると、クライアントレベルでフェールオーバーが行われ、クライアントはクライアントアクセスサーバーを運用している 2 つ目のデータセンターに自動的にリダイレクトされ、それらのクライアントアクセスサーバーは通信をユーザーのメールボックスサーバーにプロキシバックします。これは、(切り替えを行わないため) 障害の影響を受けません。サービスの復旧に取り組む代わりに、サービスはそれ自体を復旧し、コアの問題 (たとえば、失敗したロードバランサーの交換) の修正に集中できます。

データセンター間で名前空間をフェールオーバーできるため、データセンターのフェールオーバーを実現するために必要なのは、データセンター間でのメールボックスロールのフェールオーバーのメカニズムです。 DAG の自動フェールオーバーを取得するには、DAG が 2 つのデータセンター間で均等に分割されるソリューションを設計し、DAG メンバーを含むデータセンター間のネットワークの状態に関係なく、いずれかのデータセンター内の DAG メンバーが監視サーバーを判断できるように、監視サーバーを 3 番目の場所に配置します。重要な点として、3 番目の場所は、DAG メンバーが含まれる場所に影響を与えるネットワーク障害から分離されていなければなりません。

データセンターが 2 つしかなく、自動フェールオーバーを構成できるようにする場合、第 3 の場所として Microsoft Azure を使用できます。 Azure 仮想ネットワークを作成し、マルチポイント VPN を使って 2 つのデータセンターに接続する必要があります。これにより、ミラーリング監視サーバーを Microsoft Azure 仮想マシン上に配置できるようになります。詳細については、「DAG ミラーリング監視サーバーとしての Microsoft Azure VM の使用」を参照してください。