切り替えとフェールオーバー

適用対象: Exchange Server 2013 SP1

切り替えとフェールオーバーは、Microsoft Exchange Server 2013 年の 2 種類の障害です。

  • 切り替えは、コマンドレットまたは Exchange 2013 のマネージド 可用性システムによって明示的に開始されるデータベースまたはサーバーのスケジュールされた停止です。 切り替えは通常、メンテナンス操作を実行する準備のために行われます。 切り替えでは、アクティブなメールボックス データベース コピーをデータベース可用性グループ (DAG) 内の別のサーバーに移行する必要があります。 切り替えのときに正常なターゲットが見つからない場合、管理者はエラーを受け取り、メールボックス データベースは稼働状態またはマウント状態を維持します。

  • フェールオーバーは、サービス、データ、またはサービスとデータの両方が使用できなくなる予期せぬ停止を表します。 フェールオーバーでは、システムが、パッシブ メールボックス データベース コピーをアクティブ化し、それをアクティブなメールボックス データベース コピーにすることで、障害から自動的に回復する必要があります。 フェールオーバーのときに正常なターゲットが見つからない場合、メールボックス データベースはマウント解除されます。

Exchange 2013 は、スイッチオーバーとフェールオーバーの両方を処理するように設計されています。

高可用性とサイトの回復性に関連する管理タスクをお探しですか? 「高可用性とサイトの回復性の管理」を参照してください。

切り替え

Exchange 2013 には、次の 3 種類の切り替えがあります。

  • データベース切り替え
  • サーバー切り替え
  • データセンター切り替え

データベース切り替え

データベース切り替えは、個別のアクティブなデータベースを別のデータベース コピー (パッシブ コピー) に切り替えるプロセスであり、そのデータベース コピーが新しいアクティブなデータベース コピーになります。 データベース切り替えは、データセンター内部とデータセンター間の両方で実行可能です。 データベースの切り替えは、Exchange 管理センター (EAC) またはシェルを使用して実行できます。 使用するインターフェイスにかかわらず、切り替えプロセスは以下のように行われます。

  1. 管理者は、データベース切り替えを開始して、現在のアクティブなメールボックス データベース コピーを別のサーバーに移行します。

  2. タスクに使用するクライアントは、DAG メンバー上で Microsoft Exchange Replication サービスへの RPC 呼び出しを作成します。

  3. DAG メンバーがプライマリ アクティブ マネージャー (PAM) 役割を持たない場合、DAG メンバーは PAM の役割が割り当てられたサーバーに、タスクを照会します。

  4. タスクは、PAM の役割が割り当てられたサーバー上で Microsoft Exchange Replication サービスへの RPC 呼び出しを作成します。

  5. PAM は、DAG 用にクラスター データベースに格納されているデータベースの場所情報を読み取り更新します。

  6. PAM は、新しいアクティブなメールボックス データベース コピーとして DAG メンバー上で Microsoft Exchange Replication サービスに接続します。

  7. ターゲット サーバー上の Microsoft Exchange Replication サービスは、その他すべての DAG メンバーについて Microsoft Exchange Replication サービスに照会して、データベース コピー用に最適なログ ソースを決定します。

  8. データベースは現在のサーバーからマウント解除され、ターゲット サーバー上の Microsoft Exchange Replication サービスが残りのログをターゲット サーバーにコピーします。

  9. ターゲット サーバー上の Microsoft Exchange Replication サービスは、データベースのマウントを要求します。

  10. ターゲット サーバー上の Microsoft Exchange Information Store サービスは、ログ ファイルを再生してデータベースをマウントします。

  11. エラー コードがターゲット サーバー上の Microsoft Exchange Replication サービスに返されます。

  12. PAM は、DAG 用のクラスター データベース内のデータベース コピー状態情報を更新します。

  13. エラー コードがターゲット サーバー上の Microsoft Exchange Replication サービスから PAM 上の Microsoft Exchange Replication サービスに返されます。

  14. タスクが呼び出された管理インターフェイスに対して、PAM 上の Microsoft Exchange Replication サービスからエラーが返されます。

  15. 呼び出している管理インターフェイスに対して、リモート PowerShell から操作結果が返されます。

データベース切り替えを実行する方法の詳細手順については、「メールボックス データベース コピーをアクティブにする」を参照してください。

サーバー切り替え

サーバー切り替えは、DAG メンバー上のすべてのアクティブなデータベースを 1 つまたは複数のその他の DAG メンバーに対してアクティブ化するプロセスです。 データベース切り替えと同様に、サーバー切り替えはデータセンター内部とデータセンター間の両方で実行可能で、EAC とシェルの両方を使用して開始することができます。 使用するインターフェイスにかかわらず、サーバー切り替えプロセスは以下のように行われます。

  1. 管理者は、サーバー切り替えを開始して、現在のすべてのアクティブなメールボックス データベース コピーを 1 つまたは複数のその他のサーバーに移行します。

  2. タスクは、現在のサーバー上のアクティブな各データベースに対して、このトピックの前に述べたデータベース切り替え手順 (手順 2 ~ 4) を実行します。

  3. PAM は、DAG 用にクラスター データベースに格納されているデータベースの場所情報を読み取り更新します。

  4. PAM は、アクティブ化されるパッシブ コピーを持つ各 DAG メンバー上の Microsoft Exchange Replication サービスに接続します。

  5. ターゲット サーバー上の Microsoft Exchange Replication サービスは、その他すべての DAG メンバーについて Microsoft Exchange Replication サービスに照会して、データベース コピー用に最適なログ ソースを決定します。

  6. データベースは現在のサーバーからマウント解除され、各ターゲット サーバー上の Microsoft Exchange Replication サービスが残りのログをコピーします。

  7. 各ターゲット サーバー上の Microsoft Exchange Replication サービスは、データベースのマウントを要求します。

  8. 各ターゲット サーバー上の Microsoft Exchange Information Store サービスは、ログ ファイルを再生してデータベースをマウントします。

  9. エラー コードがターゲット サーバー上の Microsoft Exchange Replication サービスに返されます。

  10. PAM は、DAG 用のクラスター データベース内のデータベース コピー状態情報を更新します。

  11. エラー コードがターゲット サーバー上の Microsoft Exchange Replication サービスから PAM 上の Microsoft Exchange Replication サービスに返されます。

  12. タスクが呼び出された管理インターフェイスに対して、PAM 上の Microsoft Exchange Replication サービスからエラーが返されます。

  13. 呼び出している管理インターフェイスに対して、リモート PowerShell から操作結果が返されます。

サーバー切り替えを実行する方法の詳細な手順については、「サーバー切り替えを実行する」を参照してください。

データセンター切り替え

サイトの回復性のある構成では、サイト レベルの障害に応答する自動回復が DAG 内で発生する可能性があり、メッセージング システムは機能状態のままです。 この構成では、2 つの場所に DAG メンバーを展開し、DAG の監視サーバーを 3 番目の場所に展開する必要があるため、少なくとも 3 つの場所が必要です。

3 つの場所がない場合、または 3 つの場所がある場合でも、データセンター レベルの復旧アクションを制御する場合は、サイト レベルの障害が発生した場合に手動で復旧できるように DAG を構成できます。 その場合、データセンター切り替え と呼ばれるプロセスを実行します。 多くの障害回復シナリオと同様に、データセンターの切り替えを事前に計画および準備すると、回復プロセスを簡略化して停止期間を短縮できます。

Exchange 2013 では、サーバーの役割の統合など、多数のアーキテクチャの変更があるため、Exchange 2013 でデータセンターの切り替えを実行する方が、Exchange 2010 よりも簡単です。 データセンターの切り替えを実行する詳細な手順については、「 Datacenter Switchovers」を参照してください。

フェールオーバー

フェールオーバーは、データベース レベル、サーバー レベル、データセンター レベルのいずれかで行われる自動アクティブ化プロセスです。 フェールオーバーは、個別データベースに影響を与える障害 (例: 単独ストレージ障害)、サーバー全体に影響を与える障害 (例: マザーボード障害または電源障害)、サイト全体に影響を与える障害 (例: サイトの全 DAG メンバーの障害) に対応して実行されます。

DAG およびメールボックス データベース コピーは、データと、データへのアクセスを提供するサービスの両方に完全な冗長性を提供し、迅速な回復を可能にします。 次の表に、さまざまなエラーに対して予期される復旧アクションを示します。 管理者が復旧を開始する必要がある障害もあれば、システムによって自動的に処理される障害もあります。

説明 自動アクティブ化 自動修復処理 修復中の状態:アクティブ 修復中の状態:パッシブ 修復操作 Comments
拡張ストレージ エンジン (ESE) ソフト データベース障害:データベースを格納するドライブが読み取り時にエラーを返しています (例: -1018 エラー) 短期間の停止の可能性。

自動フェールオーバーの可能性。
不良ページの自動修正。 手動切り替え、自動フェールオーバー、またはオンライン修復。 失敗 RAID の再構築、データベースおよびデータベース コピーの修復、復元および回復実行後のページ修正、またはコピーからのページ修正。 その他のソフト データベースの障害コードも存在する可能性があります。

NTFS ファイル システム ブロック障害は含まれません。

フェールオーバーまたは切り替えを実行すると、ホスト サーバーが更新されます。
ESE "semi-soft" データベース障害:データベースを格納するドライブが読み取り時にエラーを返しています。 自動フェールオーバー中の短期間の停止。 ドライブを交換した場合は、その後に自動ボリューム/ディスク再構築。 回復できない場合はマウント解除されます。 失敗 RAID の再構築で問題が解決する場合があります。

交換を行った場合は、その後にコピーと修復、復元と回復実行、またはボリューム/ディスク再構築。
ESE semi-soft 書き込みエラーは、書き込みが正常に実行されたことを意味します。

NTFS ブロック障害が含まれていません。
ESE "semi-soft" ログ障害:ログ データを格納するドライブが読み取りまたは書き込み時に回復不可能なエラーを返しています。 自動フェールオーバー中の短期間の停止。 ドライブを交換した場合は、その後に自動ボリューム/ディスク再構築。 回復できない場合はマウント解除されます。 失敗 RAID の再構築で問題が解決する場合があります。

交換を実施した場合は、その後にコピーと修復、復元と回復実行、またはボリューム/ディスク再構築。
ESE semi-soft 読み取り/書き込みエラーは、読み取り/書き込みが正常に実行されたことを意味します。

データベースにエラーが発生すると、ログ データ修復処理が開始される前に自動化された回復が行われます。
ESE ソフトウェア エラーまたはリソースの枯渇:ESE がインスタンスを終了させるエラー (例: イベント ID 1022、チェックポイントが深すぎる)。 自動フェールオーバー中の短期間の停止。 なし。 回復できない場合はマウント解除されます。 失敗 基になるリソースの問題を修正します。 このエラーは、その他のケースの表面化したエラーである可能性があります。
NTFS ブロック障害:データベースまたはログを格納するドライブで、NTFS 制御構造への読み取りまたは書き込みエラーが発生します。 自動フェールオーバー中の短期間の停止。 ドライブの交換が可能な後、ボリュームが再構築されます。 回復できない場合はマウント解除されます。 失敗 RAID の再構築で問題が解決する場合があります。 NTFS ユーティリティによって、NTFS の問題が解決する場合があります。 Exchange 回復が必要になる可能性があります。 このイベントは、RAID が使用されていない場合に発生する可能性が高くなります。 このイベントがアクティブなログ ボリュームに影響を与える場合、最近のログ ファイルの一部が失われます。

NTFS またはその基となるソフトウェアやハードウェア スタックによって自動的に修正されるエラーは含まれません。
データベースまたはログ ドライブの障害: データベースまたはログを格納しているドライブが失敗し、アクセスできません。 自動フェールオーバー中の短期間の停止。 ドライブの再フォーマットまたは交換とその後の完全なボリューム再構築。 回復できない場合はマウント解除されます。 失敗 ドライブの交換後、可能であれば RAID 再構築。

ドライブの交換後、完全なボリューム再構築。

完全なボリューム再構築。
該当なし。
データベースまたはログ ボリュームのエラー: NTFS または下位レベルのボリュームの問題が原因でボリュームが失敗します。 自動フェールオーバー中の短期間の停止。 ドライブの再フォーマットまたは交換。 回復できない場合はマウント解除されます。 失敗 ドライブの交換後、可能であれば RAID 再構築。

ドライブの交換後、完全なボリューム再構築。

完全なボリューム再構築。
該当なし。
データベースまたはログ ボリュームの空き容量の不足:データベースまたはログ ファイルの NTFS ファイル システムが空き容量不足です。 その他のコピーが同じような状態でない場合の自動フェールオーバー。 なし。 マウント解除。 失敗 完全または増分バックアップの実行、手動によるログ削除、時間待機、データベース コピー再開、または失敗したデータベース コピーの修復。 該当なし。
管理者は、間違ったデータベースをマウント解除します。 管理者が自動フェールオーバーをブロックしないと、停止が短期間になります。

自動フェールオーバーができないようにすると、データベースがマウントされるまで停止します。
なし。 マウント解除。 該当なし 管理者がエラーを修正します。 該当なし。
管理者が間違ったデータベース コピーを中断します。 構成と影響を受けるコピーによっては、自動回復ができない場合があります。 なし。 該当なし。 中断 管理者がエラーを修正します。 該当なし。
管理者がストレージ、NTFS、またはボリュームの保守用にデータベースをマウント解除します。 管理者が自動フェールオーバーをブロックしないと、停止が短期間になります。

自動フェールオーバーをブロックすると、管理者がタスクを終了するまで停止します。
なし。 マウント解除。 該当なし 管理者がタスクを完了します。 該当なし。
管理者がストレージ、NTFS、またはボリュームの保守用にデータベース コピーを中断します。 構成と影響を受けるコピーによっては、自動回復ができない場合があります。 なし。 該当なし。 中断 管理者が操作を完了します。 該当なし。
管理者がオフライン データベース保守用にデータベースをマウント解除します。 修復までの停止。 なし。 マウント解除。 中断 管理者が操作を完了します。 のアクティブおよびパッシブのデータベース コピーに相違があります。

管理者は、コピーを中断する必要があります。
ストレージ エリア ネットワーク (SAN)、ディスク、またはストレージ コントローラーの障害。 自動フェールオーバー中の短期間の停止。 なし。 マウント解除。 任意 ハードウェア修復。 パッシブ データベース コピーは、システムに障害が発生した時点で存在した状態になります。
サーバー ハードウェア保守。 自動フェールオーバー中の短期間の停止 (管理者によってブロックされていない場合)。 なし。 マウント解除。 任意 操作の完了。 パッシブ データベース コピーは、システムがシャットダウンした時点で存在した状態になります。
サーバー ソフトウェア保守。 自動フェールオーバー中の短期間の停止 (管理者によってブロックされていない場合)。 なし。 マウント解除。 任意 操作の完了。 パッシブ データベース コピーは、システムがシャットダウンした時点で存在した状態になります。
Microsoft Exchange Information Store サービスが管理者によって停止または一時停止されます。 自動フェールオーバー中の短期間の停止。 なし。 マウント解除。 任意 Microsoft Exchange Information Store サービスを再起動します。 該当なし。
Microsoft Exchange Information Store サービスが失敗し、オペレーティング システムがまだ実行中です。 自動フェールオーバー中の短期間の停止。 サービス コントロール マネージャーが Microsoft Exchange Information Store サービスを再起動します。 マウント解除。 任意 手動または自動で Microsoft Exchange Information Store サービスを再起動します。 パッシブ データベース コピーは、Microsoft Exchange Information Store サービスに障害が発生した時点で存在した状態になります。
Microsoft Exchange Information Store サービスの部分的な失敗。Exchange ストアの一部は機能を停止しますが、失敗と識別されません。 自動フェールオーバー中に短期間の停止の可能性。 なし。 マウントされ、部分的に機能します。 任意だが、部分的にのみ機能する場合があります。 サーバー、オペレーティング システム、または Microsoft Exchange Information Store サービスを再起動します。 該当なし。
サーバー障害:次のいずれかの理由によりサーバーに障害が発生しました。
  • 完全な電源障害
  • プロセッサ チップ、マザーボード、またはバックプレーンの修復不可能な障害
  • オペレーティング システム停止エラー
  • オペレーティング システム応答停止
  • 完全な通信障害
自動フェールオーバー中の短期間の停止。 コンピューターを再起動します。 マウント解除。 任意 電源の復旧、オペレーティング システム設定の変更、ハードウェア設定の変更、ハードウェアの交換、オペレーティング システムの再起動、オペレーティング システムの保守、ハードウェアの保守、または通信の問題の修復。 該当なし。
DAG にクォーラム障害が発生しました。 修復までの停止。 なし。 マウント解除。 任意 失敗したクォーラムの修復、新規クォーラムの割り当て、またはクォーラム失敗を引き起こしているネットワークの復旧。 パッシブ データベース コピーは、システムに障害が発生した時点で存在した状態になります。
MAPI ネットワーク通信障害:サーバーは MAPI ネットワーク上で利用できなくなりました。 自動フェールオーバー中の短期間の停止。ロスレスでなくてはなりません。 なし。 通信は引き続き試行されます。 マウント解除。 任意 ハードウェアまたはソフトウェアの問題を修正することによって、通信の問題を修正します。 該当なし。
レプリケーション ネットワーク通信障害:失敗したレプリケーション ネットワーク経由でサーバーがハートビート、ログ コピー、またはシードを受信できません。 負荷を他のネットワークに切り替えている間に、コピーまたはシード処理の短期間の停止の可能性。 なし。 通信は引き続き試行されます。 なし。 任意 ハードウェアまたはソフトウェアの問題を修正することによって、通信の問題を修正します。 障害によって影響を受ける復元。
複数のネットワーク通信エラー: サーバーは、ハートビート、ログ コピー、またはシードを複数のネットワーク経由で受信できません。 自動フェールオーバー中の短期間の停止。ロスレスでなければなりません。 なし。 通信は引き続き試行されます。 マウント解除。 任意 ハードウェアまたはソフトウェアの問題を修正することによって、通信の問題を修正します。 少なくとも 1 つのネットワークがまだ機能しています。
1 つまたは複数のネットワークの部分的な障害:ネットワークで高エラー率が発生します。 障害を検出できません。操作はありません。 なし。 マウントされていますが、パフォーマンスの問題の可能性があります。 任意 ハードウェアまたはソフトウェアの問題を修正することによって、通信の問題を修正します。 ネットワークで通常より高いエラー率が発生します。
検出されないオペレーティング システムがハングする: オペレーティング システムは応答を停止しますが、監視またはクラスタリングによって検出されません。 なし。 なし。 任意。 任意 応答していないリソースを再起動または終了します。 ハングが検出されないので、操作が行われません。

一部の機能は動作可能です。
オペレーティング システム ドライブで障害が発生しました。 自動フェールオーバー中の短期間の停止。 なし。 マウント解除。 任意 ドライブの交換と、サーバーの再構築または RAID を使用したボリュームの再構築。 該当なし。
オペレーティング システム ドライブの容量不足。 自動フェールオーバー中の短期間の停止。 なし。 マウント解除。 任意 手動でボリューム上の領域を解放します。 該当なし。
Exchange バイナリを含むドライブでは、ボリュームまたはドライブの障害が発生します。 自動フェールオーバー中の短期間の停止。 なし。 マウント解除。 任意 ドライブの交換と、アプリケーションの再インストールまたは RAID を使用したボリュームの再構築。 該当なし。
Exchange バイナリが含まれているドライブの空き領域が不足しています。 自動フェールオーバー中の短期間の停止。 なし。 マウント解除。 任意 手動でボリューム上の領域を解放します。 該当なし。
無効な新規ログの検出:ログ シーケンスが既存のファイルによって中断されます。 自動フェールオーバー中の短期間の停止。その他のコピーには同じ問題がないものとします。 なし。 マウント解除。 失敗 ソース確認後に壊れたログを削除します。 壊れたログをレプリケートしないでください。
継続レプリケーションで無効なログを検出しました:再生がコピーまたは再生中に不適切なログを検出しました。 該当なし。 ログを破棄します。 該当なし。 失敗 無効なログを破棄します。影響のあるログ ストリームを移動します。 該当なし。

データベースのフェールオーバー

データベースのフェールオーバーは、アクティブ状態のデータベース コピーがアクティブ状態を続けることができなくなったときに実行されます。 次の出現箇所は、データベース フェールオーバーの一部です。

  1. データベース障害が Microsoft Exchange Information Store サービスによって検出されます。

  2. Microsoft Exchange Information Store サービスが障害イベントを crimson チャネル イベント ログに書き込みます。

  3. 障害が発生したデータベースを含むサーバー上のアクティブ マネージャーが障害イベントを検出します。

  4. アクティブ マネージャーがデータベースのコピーを保有するその他のサーバーのデータベース コピー状態を要求します。

  5. その他のサーバーは、要求されたデータベース コピー状態を要求元のアクティブ マネージャーに返します。

  6. PAM は、最適なコピーの選択アルゴリズムを使用して DAG 内の別のサーバーに対するアクティブなデータベースの移行を開始します。

  7. PAM は、選択したサーバーを指すクラスター データベース内のデータベース マウント場所を更新します。

  8. PAM は、選択したサーバー上のアクティブ マネージャーにデータベース マスターになるよう要求を送信します。

  9. 選択したサーバー上のアクティブ マネージャーは、Microsoft Exchange Replication サービスが以前のサーバーから最終ログをコピーしてマウント可能なフラグをデータベース用に設定することを試みるよう要求します。

  10. Microsoft Exchange Replication サービスは、以前にデータベースのアクティブなコピーを保持していたサーバーからログをコピーします。

  11. アクティブ マネージャーは、最大ログ生成番号をクラスター データベースから読み取ります。

  12. Microsoft Exchange Information Store サービスが新しいアクティブなデータベース コピーをマウントします。

サーバー フェールオーバー

サーバー フェールオーバーは、DAG メンバーが MAPI ネットワークの保守を実施できなくなるか、DAG メンバー上のクラスター サービスが残りの DAG メンバーに接続できなくなるときに行われます。 次の状況は、サーバー フェールオーバーの一部です。

  1. 次の 2 つの条件のいずれかの場合、PAM 上のクラスター サービスが PAM に通知を送信します。

    1. ノードダウン: サーバーは到達可能ですが、DAG 操作に参加できません。
    2. MAPI ネットワークダウン: サーバーは MAPI ネットワーク経由で接続できないため、DAG 操作に参加できません。
  2. サーバーが到達可能であれば、PAM は影響を受けるサーバー上のアクティブ マネージャーに接続して、すべてのデータベースを直ちにマウント解除するよう要求します。

  3. 影響を受ける各データベース コピー:

    1. PAM は、DAG 内のすべてのサーバーからデータベース コピー状態を要求します。
    2. PAM は、到達可能でアクティブなすべての DAG メンバーから応答を受信します。
    3. PAM は、各応答側から最新のログ生成番号を照会することによって、応答しているすべてのサーバー間で最適なログ ソースを決定しようとします。
    4. 各サーバーがログ生成番号を応答します。
  4. PAM は、現在の検索インデックス カタログ状態をクラスター データベースから取得します。

  5. 各データベース コピーのログ生成番号とカタログ状態に基づいて、PAM はアクティブ化する最適なコピーを選択します。

  6. PAM は、クラスター データベース内のデータベースのマウント場所を更新します。

  7. PAM は、1 つまたは複数のその他のサーバー上でアクティブ マネージャーと通信することによって、データベース フェールオーバーを開始します。

  8. 選択したサーバー上のアクティブ マネージャーは、Microsoft Exchange Replication サービスが以前のサーバーから最終ログをコピーしてマウント可能なフラグを設定することを試みるよう要求します。

  9. データベースがマウント可能である場合、サーバー上のアクティブ マネージャーがデータベースをマウントします。

アクティブ マネージャーの最適なコピー選択プロセスの詳細については、「アクティブ マネージャー」を参照してください。

データセンター フェールオーバー

Exchange 2010 サイトの回復性構成の課題に対処する重要な変更が Exchange 2013 で行われました。 名前空間の簡素化、サーバーの役割の統合、クライアント アクセス サーバーの分離と DAG の回復 (Exchange 2013 では、名前空間を DAG と共に移動する必要はありません)、負荷分散に関する変更により、Exchange 2013 には、単一のグローバル名前空間を使用する機能などの新しいサイトの回復性オプションが用意されています。 さらに、メッセージング サービス コンポーネントを展開する場所が 2 つ以上ある場合、Exchange 2013 では、Exchange 2010 での手動介入が必要なエラーに対応して、自動フェールオーバー用のメッセージング サービスの構成も有効になります。

Exchange 2013 では、サイトの回復性が運用上簡素化されました。 Exchange は、複数の IP アドレスを介して名前空間に組み込まれているフォールト トレランスを適用します。負荷分散 (必要に応じて、サーバーをサービスに入れてサービスを提供する機能) を使用します。 Exchange 2013 で行った最も重要な変更の 1 つは、名前解決要求に応答して DNS サーバーから返された複数の IP アドレスをキャッシュするクライアントの機能を使用することです。 クライアントが複数の IP アドレスをキャッシュできる場合 (ほぼすべての HTTP クライアントが実行し、Exchange 2013 のクライアント アクセス プロトコルのほとんどすべてが HTTP ベース (Outlook、Outlook Anywhere、EAS、EWS、OWA、EAC、RPS など) であるため、サポートされているすべての HTTP クライアントで複数の IP アドレスを使用できるため、クライアント側でフェールオーバーが提供されます。 名前解決中にクライアントに複数の IP アドレスを渡すように DNS を構成できます。 クライアントが mail.contoso.com について問い合わせると、たとえば 2 つの IP アドレスまたは 4 つの IP アドレスが返ってきます。 ただし、クライアントが返す多くの IP アドレスは、クライアントによって確実に使用されます。 この最適な使用率により、いずれかの IP アドレスに障害が発生した場合、クライアントに接続しようとする他の 1 つ以上が存在するため、クライアントの方が大幅に優れています。 クライアントが 1 つの IP アドレスに接続しようとして失敗すると、約 20 秒間待機してから一覧の次の IP アドレスに対して試行します。 したがって、プライマリ CAS アレイへの接続が失われ、2 つ目の CAS アレイに対して 2 つ目の発行済み IP アドレスがある場合、クライアントの復旧は自動的に行われます (約 21 秒)。

最新の HTTP クライアント (10 歳未満のオペレーティング システムと Web ブラウザー) は、この冗長性を自動的に使用します。 HTTP スタックは FQDN に対して複数の IP アドレスを受け入れることができ、最初に試行した IP がハードに失敗した場合 (たとえば、接続できません)、一覧の次の IP が試行されます。 ソフト エラー (たとえば、デバイスがパケットをドロップし、サービスから取り出す必要があるサービスで断続的な障害が発生したため、セッションが確立された後に接続が失われた) 場合、ユーザーはブラウザーを更新する必要がある場合があります。

適切な構成を使用すると、クライアント レベルでフェールオーバーが行われ、クライアント はクライアント アクセス サーバーを運用している 2 つ目のデータセンターに自動的にリダイレクトされ、それらのクライアント アクセス サーバーは通信をユーザーのメールボックス サーバーにプロキシバックします。これは、(切り替えを行わないため) 障害の影響を受けません。 サービスの復旧に取り組む代わりに、サービスはそれ自体を復旧し、コアの問題 (たとえば、失敗したロード バランサーの交換) の修正に集中できます。

データセンター間で名前空間をフェールオーバーできるため、データセンターのフェールオーバーを実現するために必要なのは、データセンター間でのメールボックス ロールのフェールオーバーのメカニズムです。 DAG の自動フェールオーバーを取得するには、DAG が 2 つのデータセンター間で均等に分割されるソリューションを設計し、DAG メンバーを含むデータセンター間のネットワークの状態に関係なく、いずれかのデータセンター内の DAG メンバーが監視サーバーを判断できるように、監視サーバーを 3 番目の場所に配置します。 重要な点として、3 番目の場所は、DAG メンバーが含まれる場所に影響を与えるネットワーク障害から分離されていなければなりません。

データセンターが 2 つしかなく、自動フェールオーバーを構成できるようにする場合、第 3 の場所として Microsoft Azure を使用できます。 Azure 仮想ネットワークを作成し、マルチポイント VPN を使って 2 つのデータセンターに接続する必要があります。 これにより、ミラーリング監視サーバーを Microsoft Azure 仮想マシン上に配置できるようになります。 詳細については、「DAG ミラーリング監視サーバーとしての Microsoft Azure VM の使用」を参照してください。