切り替えとフェールオーバー

[アーティクル]
11/28/2016

適用先: Exchange Server 2010 SP2, Exchange Server 2010 SP3

トピックの最終更新日: 2016-11-28

切り替えとフェールオーバーは、Microsoft Exchange Server 2010 における 2 つの停止形式です。切り替えは、通常は保守作業の実施に備えるために、管理者が明示的に開始するデータベースまたはサーバーのスケジュールされた停止です。切り替えでは、管理者が、アクティブなメールボックスデータベースコピーをデータベース可用性グループ (DAG) 内の別のサーバーに移行する必要があります。

フェールオーバーは、サービス、データ、またはサービスとデータの両方が使用できなくなる予期せぬ停止を表します。フェールオーバーでは、システムが、パッシブメールボックスデータベースコピーをアクティブ化し、それをアクティブなメールボックスデータベースコピーにすることで、障害から自動的に回復する必要があります。

Exchange 2010 の高可用性プラットフォームは、切り替えおよびフェールオーバーの両方を扱うために設計されています。

高可用性とサイト復元に関連する管理タスクについては、「高可用性とサイト復元の管理」を参照してください。

切り替え

Exchange 2010 の切り替えには次の 3 種類があります。

データベース切り替え
サーバー切り替え
データセンター切り替え

データベース切り替え

データベース切り替えは、個別のアクティブなデータベースを別のデータベースコピー (パッシブコピー) に切り替えるプロセスであり、そのデータベースコピーが新しいアクティブなデータベースコピーになります。データベース切り替えは、データセンター内部とデータセンター間の両方で実行可能です。データベース切り替えは、Exchange 管理コンソール (EMC) または Exchange 管理シェルを使用して実行されます。使用するインターフェイスにかかわらず、切り替えプロセスは同じです。

管理者は、データベース切り替えを開始して、現在のアクティブなメールボックスデータベースコピーを別のサーバーに移行します。切り替えを開始するには、Move-ActiveMailboxDatabase コマンドレットを使用するか、データベースコピーのアクティブ化ウィザードを使用します。
タスクに使用するクライアントは、DAG メンバー上で Microsoft Exchange Replication サービスへの RPC 呼び出しを作成します。
DAG メンバーがプライマリアクティブマネージャー (PAM) 役割を持たない場合、DAG メンバーはタスクを PAM に照会します。
タスクは、PAM 上で Microsoft Exchange Replication サービスへの RPC 呼び出しを作成します。
PAM は、DAG 用にクラスターデータベースに格納されているデータベースの場所情報を読み取り更新します。
PAM は、新しいアクティブなメールボックスデータベースコピーとして DAG メンバー上で Microsoft Exchange Replication サービスに接続します。
ターゲットサーバー上の Microsoft Exchange Replication サービスは、その他すべての DAG メンバーについて Microsoft Exchange Replication サービスに照会して、データベースコピー用に最適なログソースを決定します。
データベースは現在のサーバーからマウント解除され、ターゲットサーバー上の Microsoft Exchange Replication サービスが残りのログをターゲットサーバーにコピーします。
ターゲットサーバー上の Microsoft Exchange Replication サービスは、データベースのマウントを要求します。
ターゲットサーバー上の Microsoft Exchange Information Store サービスは、ログファイルを再生してデータベースをマウントします。
エラーコードがターゲットサーバー上の Microsoft Exchange Replication サービスに返されます。
PAM は、DAG 用のクラスターデータベース内のデータベースコピー状態情報を更新します。
エラーコードがターゲットサーバー上の Microsoft Exchange Replication サービスから PAM 上の Microsoft Exchange Replication サービスに返されます。
タスクが呼び出された管理インターフェイスに対して、PAM 上の Microsoft Exchange Replication サービスからエラーが返されます。
呼び出している管理インターフェイスに対して、リモート PowerShell から操作結果が返されます。

データベース切り替えを実行する方法の詳細手順については、「メールボックスデータベースコピーのアクティブ化」を参照してください。

サーバー切り替え

サーバー切り替えは、DAG メンバー上のすべてのアクティブなデータベースを 1 つまたは複数のその他の DAG メンバーに対してアクティブ化するプロセスです。データベース切り替えと同様に、サーバー切り替えはデータセンター内部とデータセンター間の両方で実行可能で、EMC とシェルの両方を使用して開始することができます。使用するインターフェイスにかかわらず、切り替えプロセスは同じです。

管理者は、サーバー切り替えを開始して、現在のすべてのアクティブなメールボックスデータベースコピーを 1 つまたは複数のその他のサーバーに移行します。切り替えを開始するには、Move-ActiveMailboxDatabase コマンドレットを使用するか、サーバー切り替え UI を使用します。
タスクは、現在のサーバー上のアクティブな各データベースに対して、このトピックの前に述べたデータベース切り替え手順 (手順 2 ～ 4) を実行します。
PAM は、DAG 用にクラスターデータベースに格納されているデータベースの場所情報を読み取り更新します。
PAM は、アクティブ化されるパッシブコピーを持つ各 DAG メンバー上の Microsoft Exchange Replication サービスに接続します。
ターゲットサーバー上の Microsoft Exchange Replication サービスは、その他すべての DAG メンバーについて Microsoft Exchange Replication サービスに照会して、データベースコピー用に最適なログソースを決定します。
データベースは現在のサーバーからマウント解除され、各ターゲットサーバー上の Microsoft Exchange Replication サービスが残りのログをコピーします。
各ターゲットサーバー上の Microsoft Exchange Replication サービスは、データベースのマウントを要求します。
各ターゲットサーバー上の Microsoft Exchange Information Store サービスは、ログファイルを再生してデータベースをマウントします。
エラーコードがターゲットサーバー上の Microsoft Exchange Replication サービスに返されます。
PAM は、DAG 用のクラスターデータベース内のデータベースコピー状態情報を更新します。
エラーコードがターゲットサーバー上の Microsoft Exchange Replication サービスから PAM 上の Microsoft Exchange Replication サービスに返されます。
タスクが呼び出された管理インターフェイスに対して、PAM 上の Microsoft Exchange Replication サービスからエラーが返されます。
呼び出している管理インターフェイスに対して、リモート PowerShell から操作結果が返されます。

サーバー切り替えを実行する方法の詳細な手順については、「サーバー切り替えを実行する」を参照してください。

データセンター切り替え

データセンターまたはサイトの障害は、サーバーまたはデータベースのフェールオーバーが行われる障害とは異なる方法で管理されます。高可用性構成では、システムによって自動復旧が開始され、通常は障害が発生してもメッセージングシステムは完全に機能した状態にあります。反対に、データセンターの障害は、障害復旧イベントとみなされるため、クライアントサービスを復元して停止を終了するには、復旧を手動で実行および完了する必要があります。実行するプロセスは、データセンター切り替え と呼ばれます。多くの障害復旧シナリオと同様に、データセンター切り替えを事前に計画および準備すると、復旧プロセスを簡略化して停止期間を短縮できます。

データセンター切り替えを実行する詳細手順など、データセンター切り替えの詳細については、「データセンターの切り替え」を参照してください。

データセンター切り替えの実行のサポートについては、「ガイド: データベース可用性グループの Exchange Server 2010 データセンターの切り替え」を参照してください。

フェールオーバー

フェールオーバーは、データベースレベルまたはサーバーレベルのいずれかで行われる自動アクティブ化プロセスです。フェールオーバーは、個別データベースに影響を与える障害 (例: 単独ストレージ障害)、またはサーバー全体に影響を与える障害 (例: マザーボード障害または電源障害) に反応して実行されます。

DAG およびメールボックスデータベースコピーは、データと、データへのアクセスを提供するサービスの両方に完全な冗長性を提供します (このため、迅速な復旧が実現します)。次の表では、さまざまな障害の際に予期される復旧処理について示します。管理者が復旧を開始する必要がある障害もあれば、システムによって自動的に処理される障害もあります。

説明	自動アクティブ化	自動修復処理	修復中の状態:アクティブ	修復中の状態:パッシブ	修復操作	コメント
拡張ストレージエンジン (ESE) ソフトデータベース障害:データベースを格納するドライブが読み取り時にエラーを返しています (例: -1018 エラー)	短期間の停止の可能性。自動フェールオーバーの可能性。	不良ページの自動修正。	手動切り替え、自動フェールオーバー、またはオンライン修復。	失敗	RAID の再構築、データベースおよびデータベースコピーの修復、復元および回復実行後のページ修正、またはコピーからのページ修正。	その他のソフトデータベースの障害コードも存在する可能性があります。 NTFS ファイルシステムブロック障害は含まれません。フェールオーバーまたは切り替えを実行すると、ホストサーバーが更新されます。
ESE "semi-soft" データベース障害:データベースを格納するドライブが読み取り時にエラーを返しています。	自動フェールオーバー中の短期間の停止。	ドライブを交換した場合は、その後に自動ボリューム/ディスク再構築。	回復できない場合はマウント解除されます。	失敗	RAID の再構築で問題が解決する場合があります。交換を行った場合は、その後にコピーと修復、復元と回復実行、またはボリューム/ディスク再構築。	ESE semi-soft 書き込みエラーは、書き込みが正常に実行されたことを意味します。 NTFS ブロック障害が含まれていません。
ESE "semi-soft" ログ障害:ログデータを格納するドライブが読み取りまたは書き込み時に回復不可能なエラーを返しています。	自動フェールオーバー中の短期間の停止。	ドライブを交換した場合は、その後に自動ボリューム/ディスク再構築。	回復できない場合はマウント解除されます。	失敗	RAID の再構築で問題が解決する場合があります。交換を行った場合は、その後にコピーと修復、復元と回復実行、またはボリューム/ディスク再構築。	ESE semi-soft 読み取り/書き込みエラーは、読み取り/書き込みが正常に実行されたことを意味します。データベースにエラーが発生すると、ログデータ修復処理が開始される前に自動化された回復が行われます。
ESE ソフトウェアエラーまたはリソースの枯渇:ESE がインスタンスを終了させるエラー (例: イベント ID 1022、チェックポイントが深すぎる)。	自動フェールオーバー中の短期間の停止。	なし。	回復できない場合はマウント解除されます。	失敗	基になるリソースの問題を修正します。	このエラーは、その他のケースの表面化したエラーである可能性があります。
NTFS ブロック障害:データベースまたはログを格納するドライブで、NTFS 制御構造への読み取りまたは書き込みエラーが発生します。	自動フェールオーバー中の短期間の停止。	ドライブを交換した場合は、その後にボリュームの完全な再構築。	回復できない場合はマウント解除されます。	失敗	RAID の再構築で問題が解決する場合があります。NTFS ユーティリティによって、NTFS の問題が解決する場合があります。Exchange 回復が必要になる可能性があります。	これは、RAID が使用中でないときに発生する可能性が高くなります。これによってアクティブなログボリュームに影響がある場合、最近のログファイルのいくつかが失われます。 NTFS またはその基となるソフトウェアやハードウェアスタックによって自動的に修正されるエラーは含まれません。
データベースまたはログドライブ障害:データベースまたはログを格納するドライブが完全に失敗して、アクセスできません。	自動フェールオーバー中の短期間の停止。	ドライブの再フォーマットまたは交換とその後の完全なボリューム再構築。	回復できない場合はマウント解除されます。	失敗	ドライブの交換後、可能であれば RAID 再構築。ドライブの交換後、完全なボリューム再構築。完全なボリューム再構築。	該当なし。
データベースまたはログボリューム障害:ボリュームが NTFS または下位レベルのボリュームの問題によって失敗します。	自動フェールオーバー中の短期間の停止。	ドライブの再フォーマットまたは交換。	回復できない場合はマウント解除されます。	失敗	ドライブの交換後、可能であれば RAID 再構築。ドライブの交換後、完全なボリューム再構築。完全なボリューム再構築。	該当なし。
データベースまたはログボリュームの空き容量の不足:データベースまたはログファイルの NTFS ファイルシステムが空き容量不足です。	その他のコピーが同じような状態でない場合の自動フェールオーバー。	なし。	マウント解除。	失敗	完全または増分バックアップの実行、手動によるログ削除、時間待機、データベースコピー再開、または失敗したデータベースコピーの修復。	該当なし。
管理者は、間違ったデータベースをマウント解除します。	管理者が自動フェールオーバーをブロックしないと、停止が短期間になります。自動フェールオーバーができないようにすると、データベースがマウントされるまで停止します。	なし。	マウント解除。	該当なし	管理者がエラーを修正します。	該当なし。
管理者が間違ったデータベースコピーを中断します。	構成と影響を受けるコピーによっては、自動回復ができない場合があります。	なし。	該当なし。	中断	管理者がエラーを修正します。	該当なし。
管理者がストレージ、NTFS、またはボリュームの保守用にデータベースをマウント解除します。	管理者が自動フェールオーバーをブロックしないと、停止が短期間になります。自動フェールオーバーをブロックすると、管理者がタスクを終了するまで停止します。	なし。	マウント解除。	該当なし	管理者がタスクを完了します。	該当なし。
管理者がストレージ、NTFS、またはボリュームの保守用にデータベースコピーを中断します。	構成と影響を受けるコピーによっては、自動回復ができない場合があります。	なし。	該当なし。	中断	管理者が操作を完了します。	該当なし。
管理者がオフラインデータベース保守用にデータベースをマウント解除します。	修復までの停止。	なし。	マウント解除。	中断	管理者が操作を完了します。	のアクティブおよびパッシブのデータベースコピーに相違があります。管理者は、コピーを中断する必要があります。
ストレージエリアネットワーク (SAN)、ディスク、またはストレージコントローラーの障害。	自動フェールオーバー中の短期間の停止。	なし。	マウント解除。	任意	ハードウェア修復。	パッシブデータベースコピーは、システムに障害が発生した時点で存在した状態になります。
サーバーハードウェア保守。	自動フェールオーバー中の短期間の停止 (管理者によってブロックされていない場合)。	なし。	マウント解除。	任意	操作の完了。	パッシブデータベースコピーは、システムがシャットダウンした時点で存在した状態になります。
サーバーソフトウェア保守。	自動フェールオーバー中の短期間の停止 (管理者によってブロックされていない場合)。	なし。	マウント解除。	任意	操作の完了。	パッシブデータベースコピーは、システムがシャットダウンした時点で存在した状態になります。
Microsoft Exchange Information Store サービスが管理者によって停止または一時停止されます。	なし。	なし。	マウント解除。	任意	Microsoft Exchange Information Store サービスを再起動します。	パッシブデータベースコピーは、サービスが停止した時点で存在した状態になります。
Microsoft Exchange Information Store サービスが失敗し、オペレーティングシステムがまだ実行中です。	自動フェールオーバー中の短期間の停止。	サービスコントロールマネージャーが Microsoft Exchange Information Store サービスを再起動します。	マウント解除。	任意	手動または自動で Microsoft Exchange Information Store サービスを再起動します。	パッシブデータベースコピーは、Microsoft Exchange Information Store サービスに障害が発生した時点で存在した状態になります。
部分的な Microsoft Exchange Information Store サービス障害。Exchange ストアの一部が機能を停止していますが、完全に失敗しているとは確認されていません。	自動フェールオーバー中に短期間の停止の可能性。	なし。	マウントされ、部分的に機能します。	任意だが、部分的にのみ機能する場合があります。	サーバー、オペレーティングシステム、または Microsoft Exchange Information Store サービスを再起動します。	該当なし。
サーバー障害:次のいずれかの理由によりサーバーに障害が発生しました。完全な電源障害プロセッサチップ、マザーボード、またはバックプレーンの修復不可能な障害オペレーティングシステム停止エラーオペレーティングシステム応答停止完全な通信障害	自動フェールオーバー中の短期間の停止。	コンピューターを再起動します。	マウント解除。	任意	電源の復旧、オペレーティングシステム設定の変更、ハードウェア設定の変更、ハードウェアの交換、オペレーティングシステムの再起動、オペレーティングシステムの保守、ハードウェアの保守、または通信の問題の修復。	該当なし。
DAG にクォーラム障害が発生しました。	修復までの停止。	なし。	マウント解除。	任意	失敗したクォーラムの修復、新規クォーラムの割り当て、またはクォーラム失敗を引き起こしているネットワークの復旧。	パッシブデータベースコピーは、システムに障害が発生した時点で存在した状態になります。
MAPI ネットワーク通信障害:サーバーは MAPI ネットワーク上で利用できなくなりました。	自動フェールオーバー中の短期間の停止。ロスレスでなくてはなりません。	なし。通信は引き続き試行されます。	マウント解除。	任意	ハードウェアまたはソフトウェアの問題を修正することによって、通信の問題を修正します。	該当なし。
レプリケーションネットワーク通信障害:失敗したレプリケーションネットワーク経由でサーバーがハートビート、ログコピー、またはシードを受信できません。	負荷を他のネットワークに切り替えている間に、コピーまたはシード処理の短期間の停止の可能性。	なし。通信は引き続き試行されます。	なし。	任意	ハードウェアまたはソフトウェアの問題を修正することによって、通信の問題を修正します。	障害によって影響を受ける復元。
複数のネットワーク通信障害:複数のネットワーク経由でサーバーがハートビート、ログコピー、またはシードを受信できません。	自動フェールオーバー中の短期間の停止。ロスレスでなくてはなりません。	なし。通信は引き続き試行されます。	マウント解除。	任意	ハードウェアまたはソフトウェアの問題を修正することによって、通信の問題を修正します。	少なくとも 1 つのネットワークがまだ機能しています。
1 つまたは複数のネットワークの部分的な障害:ネットワークで高エラー率が発生します。	障害を検出できません。操作はありません。	なし。	マウントされていますが、パフォーマンスの問題の可能性があります。	任意	ハードウェアまたはソフトウェアの問題を修正することによって、通信の問題を修正します。	ネットワークで通常より高いエラー率が発生します。
未検出のオペレーティングシステムのハング:オペレーティングシステムが応答を停止するが、監視またはクラスタリングでは検出されません。	なし。	なし。	任意。	任意	応答していないリソースを再起動または終了します。	ハングが検出されないので、操作が行われません。一部の機能は動作可能です。
オペレーティングシステムドライブで障害が発生しました。	自動フェールオーバー中の短期間の停止。	なし。	マウント解除。	任意	ドライブの交換と、サーバーの再構築または RAID を使用したボリュームの再構築。	該当なし。
オペレーティングシステムドライブの容量不足。	自動フェールオーバー中の短期間の停止。	なし。	マウント解除。	任意	手動でボリューム上で領域を開放します。	該当なし。
Exchange バイナリが含まれているドライブでボリュームまたはドライブの障害が発生しました。	自動フェールオーバー中の短期間の停止。	なし。	マウント解除。	任意	ドライブの交換と、アプリケーションの再インストールまたは RAID を使用したボリュームの再構築。	該当なし。
Exchange バイナリが含まれているドライブの空き領域が不足しています。	自動フェールオーバー中の短期間の停止。	なし。	マウント解除。	任意	手動でボリューム上で領域を開放します。	該当なし。
無効な新規ログの検出:ログシーケンスが既存のファイルによって中断されます。	自動フェールオーバー中の短期間の停止。その他のコピーには同じ問題がないものとします。	なし。	マウント解除。	失敗	ソース確認後に壊れたログを削除します。	壊れたログをレプリケートしないでください。
継続レプリケーションで無効なログを検出しました:再生がコピーまたは再生中に不適切なログを検出しました。	該当なし。	ログを破棄します。	該当なし。	失敗	無効なログを破棄します。影響のあるログストリームを移動します。	該当なし。

データベースのフェールオーバー

データベースのフェールオーバーは、アクティブ状態のデータベースコピーがアクティブ状態を続けることができなくなったときに実行されます。データベースのフェールオーバーでは、次の操作が行われます。

データベース障害が Microsoft Exchange Information Store サービスによって検出されます。
Microsoft Exchange Information Store サービスが障害イベントを crimson チャネルイベントログに書き込みます。
障害が発生したデータベースを含むサーバー上のアクティブマネージャーが障害イベントを検出します。
アクティブマネージャーがデータベースのコピーを保有するその他のサーバーのデータベースコピー状態を要求します。
その他のサーバーは、要求されたデータベースコピー状態を要求元のアクティブマネージャーに返します。
PAM は、最適なコピーの選択アルゴリズムを使用して DAG 内の別のサーバーに対するアクティブなデータベースの移行を開始します。
PAM は、選択したサーバーを指すクラスターデータベース内のデータベースマウント場所を更新します。
PAM は、選択したサーバー上のアクティブマネージャーにデータベースマスターになるよう要求を送信します。
選択したサーバー上のアクティブマネージャーは、Microsoft Exchange Replication サービスが以前のサーバーから最終ログをコピーしてマウント可能なフラグをデータベース用に設定することを試みるよう要求します。
Microsoft Exchange Replication サービスは、以前にデータベースのアクティブなコピーを保持していたサーバーからログをコピーします。
アクティブマネージャーは、最大ログ生成番号をクラスターデータベースから読み取ります。
Microsoft Exchange Information Store サービスが新しいアクティブなデータベースコピーをマウントします。

サーバーフェールオーバー

サーバーフェールオーバーは、DAG メンバーが MAPI ネットワークの保守を実施できなくなるか、DAG メンバー上のクラスターサービスが残りの DAG メンバーに接続できなくなるときに行われます。サーバーフェールオーバーの一部として、以下のようになります。

次の 2 つの条件のいずれかの場合、PAM 上のクラスターサービスが PAM に通知を送信します。
1. ノードダウン サーバーが到達できるが、DAG 操作に参加することができない。
2. MAPI ネットワークダウン サーバーが MAPI ネットワーク経由で接続できないため、DAG 操作に参加できない。
サーバーが到達可能であれば、PAM は影響を受けるサーバー上のアクティブマネージャーに接続して、すべてのデータベースを直ちにマウント解除するよう要求します。
影響を受ける各データベースコピー:
1. PAM は、DAG 内のすべてのサーバーからデータベースコピー状態を要求します。
2. PAM は、到達可能でアクティブなすべての DAG メンバーから応答を受信します。
3. PAM は、各応答側から最新のログ生成番号を照会することによって、応答しているすべてのサーバー間で最適なログソースを決定しようとします。
4. 各サーバーがログ生成番号を応答します。
PAM は、現在の検索インデックスカタログ状態をクラスターデータベースから取得します。
各データベースコピーのログ生成番号とカタログ状態に基づいて、PAM はアクティブ化する最適なコピーを選択します。
PAM は、クラスターデータベース内のデータベースのマウント場所を更新します。
PAM は、1 つまたは複数のその他のサーバー上でアクティブマネージャーと通信することによって、データベースフェールオーバーを開始します。
選択したサーバー上のアクティブマネージャーは、Microsoft Exchange Replication サービスが以前のサーバーから最終ログをコピーしてマウント可能なフラグを設定することを試みるよう要求します。
データベースがマウント可能である場合、サーバー上のアクティブマネージャーがデータベースをマウントします。

アクティブマネージャーの最適なコピー選択プロセスの詳細については、「アクティブマネージャーについて」を参照してください。