Windows クラスタのアーキテクチャ

[アーティクル]
10/25/2013

Microsoft Windows NT Server 4.0 Enterprise Edition の Microsoft Cluster Server (MSCS) は、Microsoft の提供による最初のサーバークラスタテクノロジです。クラスタを構成する個々のサーバーをノードと呼びます。クラスタサービスは、クラスタ固有のタスクを実行する、各ノード上のコンポーネントの集合です。クラスタサービスによって管理されるハードウェアおよびソフトウェアコンポーネントは、リソースと呼ばれます。サーバークラスタは、リソースの DLL を通じてリソースを管理する手段としてのメカニズムを提供します。これは、リソースの抽出 (つまり、特定の物理ノードからクラスタ化されたリソースを抽出することによって、リソースが 1 つのノードから別のノードに移動できるようにすること)、通信インターフェイス、および管理操作を定義します。

リソースとは、クラスタ内の次のような要素です。

オンラインになり (サービスの実行)、オフラインになる (サービスの停止)
サーバークラスタ内で管理される
一度に 1 つだけのノードによって所有される

リソースグループとは、クラスタサービスによって単一の論理ユニットとして管理されるリソースの集合です。この論理ユニットは、グループ全体がノード間を単一のユニットとして移動するため、フェールオーバーユニットとも呼ばれます。リソースやクラスタ要素は、リソースグループに追加されたリソースに基づいて、論理的にグループ化されます。リソースグループに対してクラスタサービス操作が実行されると、操作の影響はグループ内のすべてのリソースに及びます。通常、リソースグループには、クラスタ化されたプログラムによって必要とされる個々のリソースが含まれます。

クラスタリソースに含まれるものとして、ディスクドライブやネットワークカードなどの物理的なハードウェアデバイスと、IP アドレス、ネットワーク名、アプリケーションコンポーネントなどの論理的なアイテムを挙げることができます。

また、クラスタには、外部のデータストレージアレイやプライベートクラスタネットワークなどの共通リソースも含まれます。共通リソースには、クラスタ内の各ノードからアクセスできます。共通リソースの 1 つにクォーラムリソースがあります。これは、クラスタ操作において重要な役割を果たします。クラスタの作成、参加、変更などのすべてのノード操作で、クォーラムリソースにアクセスできる必要があります。

サーバークラスタ

Windows Server 2003 Enterprise Edition には、Exchange Server 2003 Enterprise Edition と共に使用するためのクラスタテクノロジが 2 種類用意されています。1 つ目はクラスタサービスで、高レベルの可用性が必要とされるバックエンドのメールボックスサーバーに対して、フェールオーバーサポートを提供します。2 つ目はネットワーク負荷分散 (NLB) で、フロントエンドの Exchange プロトコル仮想サーバー (HTTP、IMAP4、POP3 など) の、可用性と拡張性が高いクラスタをサポートすることにより、サーバークラスタを補完します。

サーバークラスタは、非共有モデルを使用します。モデルの種類は、クラスタ内のサーバーが、ローカルおよび共通のクラスタデバイスやりソースを、どのように管理し使用するかを定義します。非共有クラスタでは、各サーバーがそのローカルデバイスを所有し管理します。共通ディスクアレイや接続メディアなど、クラスタに共通のデバイスは、一度に 1 つのノードによって選択的に所有され、管理されます。

サーバークラスタは、標準の Windows ドライバを使用して、ローカルのストレージデバイスおよびメディアに接続します。サーバークラスタは、クラスタ内のすべてのサーバーからアクセスできる必要がある外部の共通デバイスについて、複数の接続メディアをサポートしています。外部ストレージデバイスは、標準の PCI ベースの SCSI 接続、ファイバチャネルによる SCSI、および複数のイニシエータを持つ SCSI バスをサポートしています。ファイバ接続は、SCSI バスの代わりにファイバチャネルバス上でホストされる SCSI デバイスです。

次の図に、2 ノードのサーバークラスタのコンポーネントを示します。これは、Windows Server 2003 Enterprise Edition を実行するサーバーによって構成され、SCSI またはファイバチャネルによる SCSI を使用して共有ストレージデバイスに接続されます。

fe1e275f-ae17-433d-a305-14dd3a8c405a

サーバークラスタのアーキテクチャ

サーバークラスタは、Windows Server 2003 と緊密に連携する独立したコンポーネントのセットとして設計されています。クラスタサービスがインストールされると、オペレーティングシステムの変更が可能になります。これらの変更には、次のものが含まれます。

ネットワーク名およびネットワークアドレスの動的な作成と削除がサポートされる。
ファイルシステムに変更が加えられ、ディスクドライブのマウント解除中に、開いているファイルを閉じることができるようになる。
記憶域サブシステムに変更が加えられ、複数のノード間でディスクとボリュームを共有できるようになる。

上記の変更およびその他の部分的な変更が加えられることを除けば、Windows クラスタサービスを実行しているサーバーは、Windows クラスタサービスを実行していないサーバーと同じように動作します。

クラスタサービスは、サーバークラスタの中心的な機能です。クラスタサービスは、ノードマネージャ、フェールオーバーマネージャ、データベースマネージャ、グローバル更新マネージャ、チェックポイントマネージャ、ログマネージャ、イベントログレプリケーションマネージャ、バックアップ/復元マネージャなどの複数の機能ユニットで構成されます。

クラスタサービスのコンポーネント

クラスタサービスは、Windows Server 2003 Enterprise Edition 上で実行され、サーバークラスタとそのコンポーネントプロセス用に設計されたネットワークドライバ、デバイスドライバ、およびリソース使用プロセスを使用します。クラスタサービスには、次のコンポーネントが含まれます。

チェックポイントマネージャ このコンポーネントは、クォーラムリソース上に格納されたクラスタディレクトリ内に、アプリケーションレジストリキーを保存します。リソースエラーからクラスタサービスが確実に回復できるようにするには、リソースがオンラインになったときにチェックポイントマネージャによってレジストリキーをチェックし、リソースがオフラインになったときにチェックポイントデータをクォーラムリソースに書き込むようにします。またチェックポイントマネージャは、リソースがオンラインになった場合は、クラスタノードでインスタンス化されているアプリケーション固有のレジストリツリーを持つリソースもサポートします。リソースには、1 つまたは複数のレジストリツリーを関連付けることができます。リソースがオンラインのとき、チェックポイントマネージャはこれらのレジストリツリーの変更を監視します。チェックポイントマネージャが変更を検出すると、リソースの所有者のノードにレジストリツリーを転送します。次にチェックポイントマネージャは、クォーラムリソースの所有者のノードに、そのファイルを転送します。チェックポイントマネージャはバッチ転送を実行するため、レジストリツリーに頻繁に変更を加えてもクラスタサービスに大きな負荷がかかることはありません。

データベースマネージャ データベースマネージャは、クラスタ内のすべての物理エンティティと論理エンティティに関するクラスタ構成情報を管理します。これらのエンティティには、クラスタ自体、クラスタノードメンバシップ、リソースグループ、リソースの種類、ディスクや IP アドレスのような特定のリソースに関する詳細などがあります。
構成データベースに格納されている持続性や揮発性の情報は、クラスタの現在の状態と、望ましい状態を追跡します。クラスタ内の各ノード上で実行されているデータベースマネージャの各インスタンスは、クラスタ間で一貫した構成情報を共同管理し、構成データベースの整合性がすべてのノードに確実にコピーされるようにします。
また、データベースマネージャは、フェールオーバーマネージャやノードマネージャなど、他のクラスタコンポーネントが使用するインターフェイスを提供します。このインターフェイスは、Microsoft Win32 API のレジストリインターフェイスに似ています。ただし、データベースマネージャのインターフェイスは、クラスタのエンティティに加えられた変更を、レジストリとクォーラムリソースの両方に書き込みます。
データベースマネージャは、クラスタレジストリハイブのトランザクションの更新をサポートし、内部クラスタサービスコンポーネントにのみインターフェイスを提供します。通常、フェールオーバーマネージャとノードマネージャは、このトランザクションサポートを使用してレプリケートされたトランザクションを取得します。クラスタ API は、トランザクションサポート機能以外のすべてのデータベースマネージャ機能をクライアントに提供します。クラスタ API の詳細については、MSDN の「Cluster API」(英語) を参照してください。

注 :
アプリケーションレジストリキーのデータと変更は、チェックポイントマネージャによってクォーラムリソース内のクォーラムログファイルに記録されます。

イベントサービス イベントサービスは、交換台として動作して、アプリケーションとの間でイベントを送受信し、各ノード上のクラスタサービスコンポーネントにイベントを送ります。イベントサービスのイベントプロセッサコンポーネントは、クラスタサービスコンポーネントが重要なイベント情報を他のすべてのコンポーネントに伝達できるよう支援します。イベントプロセッサコンポーネントは、クラスタ API のイベントメカニズムをサポートします。また、クラスタ対応のアプリケーションに対するシグナルイベントの送信や、クラスタオブジェクトの管理など、さまざまなサービスを実行します。
イベントログレプリケーションマネージャ イベントログレプリケーションマネージャは、クラスタ内の 1 つのノードから他のすべてのノードに、イベントログエントリをレプリケートします。既定では、クラスタサービスは、クラスタ内の Windows イベントログサービスと対話して、各ログエントリをすべてのクラスタノードにレプリケートします。ノード上でクラスタサービスが開始されると、ローカルイベントログサービス内のプライベート API が呼び出され、イベントログサービスをクラスタサービスにバインドするように要求します。これにより、イベントログサービスは、ローカルリモートプロシージャコール (RPC) を使用して、CLUSAPI インターフェイスにバインドされます。イベントログサービスは、記録する必要があるイベントをが受け取ると、そのイベントをローカルでログ出力してから継続的なバッチキューにドロップし、既にアクティブなタイマスレッドがない場合は、次の 20 秒以内にタイマスレッドが実行されるようにスケジュールします。タイマスレッドは、起動されるとバッチキューを処理し、イベントログサービスが以前にバインドされたクラスタ API に、イベントを 1 つの統合バッファとして送信します。クラスタ API インターフェイスは次に、イベントをクラスタサービスに送信します。
クラスタサービスがイベントログサービスから受け取ったバッチイベントは、ローカルの送信キューにドロップされ、RPC から返されます。次にクラスタサービス内のイベントブロードキャスタスレッドは、このキューを処理し、内部クラスタの RPC を使用して、すべてのアクティブなクラスタノードに対してこのイベントを送信します。すると、サーバー側の API は、このイベントを受信キューにドロップします。イベントログの書き込みスレッドは、ローカルイベントログサービスがローカルでイベントを書き込むプライベート RPC を通じて、このキューと要求を処理します。
クラスタサービスは、簡易版のリモートプロシージャコール (LRPC) を使用して、イベントログサービスのプライベート RPC インターフェイスを呼び出します。イベントログサービスも LRPC を使用してクラスタ API インターフェイスを呼び出し、次に、クラスタサービスによるイベントのレプリケーションを要求します。
フェールオーバーマネージャ フェールオーバーマネージャは、リソースを管理し、起動、再起動、フェールオーバーなどの適切なアクションを開始します。フェールオーバーマネージャは、リソースの停止と起動、リソースの依存関係の管理、リソースグループのフェールオーバーなどを行います。これらのアクションを実行するために、フェールオーバーマネージャはリソースモニタとクラスタノードから、リソースとシステム状態の情報を受け取ります。
またフェールオーバーマネージャは、クラスタ内のどのノードがどのリソースグループを所有するかを決定します。リソースグループの調整が完了すると、個々のリソースグループを所有しているノードは、リソースグループ内のリソースの制御をノードマネージャに返します。ノードが、そのリソースグループ内のエラーを処理できなかった場合、各ノード上のフェールオーバーマネージャが共同でリソースグループの所有者を再度割り当てます。
リソースでエラーが発生すると、フェールオーバーマネージャがリソースを再起動するか、依存関係があるリソースと共にそのリソースをオフラインにします。フェールオーバーマネージャによってリソースがオフラインにされると、リソースの所有者は別のノードに移されます。次に、このリソースが新しいノードの所有の下で再起動されます。これをフェールオーバーと呼びます。詳細については、このトピックの後半の「クラスタのフェールオーバー」で説明します。
グローバル更新マネージャ グローバル更新マネージャは、クラスタコンポーネントが使用するグローバル更新サービスを提供します。グローバル更新マネージャは、クラスタデータベースへの変更をすべてのノードにレプリケートするために、フェールオーバーマネージャ、ノードマネージャ、データベースマネージャなどの内部クラスタコンポーネントによって使用されます。グローバル更新マネージャは、通常はクラスタ API 呼び出しの結果として起動されます。グローバル更新マネージャによる更新がクライアントノードで開始されると、グローバル更新マネージャは、まずグローバルロックを取得するために、ロッカーノードを要求します。ロックを使用できない場合、クライアントは使用可能になるまで待機します。
ロックが使用可能になると、ロッカーはロックをクライアントに許可し、ロッカーノード上でローカルに更新を発行します。次にクライアントは、自分自身を含めたすべての正常なノードに対して更新を発行します。更新がロッカー上で成功しても、別のノード上で失敗すると、失敗したノードは現在のクラスタメンバシップから削除されます。ロッカーノード自体で更新が失敗すると、ロッカーは失敗をクライアントに返すだけです。
ログマネージャ ログマネージャは、クォーラムリソースに格納されている回復ログに変更を書き込みます。ログマネージャはチェックポイントマネージャと共同で、クォーラムリソース上の回復ログに最も新しい構成データと変更チェックポイントが確実に含まれるようにします。1 つ以上のクラスタノードが停止した場合も、残りのノードに対して構成変更を行うことができます。これらのノードが停止すると、データベースマネージャはログマネージャを使用して構成変更をクォーラムリソースに記録します。
障害が発生したノードがサービスに復帰すると、これらはローカルクラスタのレジストリハイブからクォーラムリソースの場所を読み取ります。ハイブデータが古くなっている場合があるため、古いクラスタ構成データベースから読み取られた無効なクォーラムリソースを検出するメカニズムが使用されています。次にデータベースマネージャは、ログマネージャに対して、クォーラムリソースのチェックポイントファイルを使用して、クラスタハイブのローカルコピーを更新するように要求します。これにより、ログファイルはクォーラムディスク内で、チェックポイントログのシーケンス番号から再生されます。この結果、クラスタハイブは完全に更新されます。クラスタハイブのスナップショットは、クォーラムログがリセットされたときおよび 4 時間に 1 回取得されます。
メンバシップマネージャ メンバシップマネージャは、クラスタメンバシップと、クラスタ内のすべてのノードの状態を監視します。メンバシップマネージャ (再グループ化エンジンとも言う) は、どのノードが現在稼働中か、または停止しているかを示す、一貫性があるビューを維持します。メンバシップマネージャの中核コンポーネントは、1 つ以上のノードでエラーが発生したという証拠が見つかるたびに起動される、再グループ化アルゴリズムです。アルゴリズムが完了すると、すべての参加ノードは、新しいクラスタメンバシップ上で、同一の結果に到達します。
ノードマネージャ ノードマネージャは、グループの優先順位一覧とノードの可用性に基づいて、リソースグループの所有者をノードに割り当てます。ノードマネージャは、各ノード上で実行され、クラスタに属するローカルのノード一覧を管理します。ノードマネージャは定期的に、メッセージ (名前付きハートビート) をクラスタ内の他のノード上で実行されているノードマネージャに送信することで、ノードエラーを検出します。クラスタ内のすべてのノードは、完全に同一なクラスタメンバシップのビューを持っている必要があります。
クラスタノードは、他のクラスタノードとの通信エラーを検出すると、クラスタ全体にマルチキャストメッセージを送信します。このグループイベントにより、すべてのメンバが現在のクラスタメンバシップのビューを検証することになります。再グループ化イベントの間、メンバシップが安定するまで、クラスタサービスはクラスタ内のすべてのノードに共通するディスクデバイスへの書き込み操作を禁止します。個々のノード上のノードマネージャのインスタンスが応答しない場合、そのノードはクラスタから削除され、そのアクティブなリソースグループは別のアクティブなノードに移動されます。この変更を行うために、ノードマネージャは個々のリソースを所有できる可能性のある所有者 (ノード) と、リソースグループを実行しやすいノードを識別します。次にノードマネージャはノードを選択し、リソースグループを移動します。2 ノードのクラスタの場合、ノードマネージャは、エラーが発生したノードから残りのノードにリソースグループを移動します。クラスタが 3 つ以上のノードで構成されている場合、ノードマネージャは残りのノード間で選択的にリソースグループを分散します。
また、ノードマネージャはゲートキーパーとしても動作し、クラスタへのノードの結合を許可し、ノードの追加や削除などの要求も処理します。
リソースモニタ リソースモニタは、リソース DLL へのコールバックを使用して、各クラスタリソースの状態を検証します。リソースモニタは、独立したプロセスとして動作し、RPC を通じてクラスタサーバーと通信します。これにより、クラスタサービスは個々のクラスタリソースのエラーから保護されます。
リソースモニタは、リソース DLL とクラスタサービスの間の通信インターフェイスを提供します。クラスタサービスがリソースからデータを取得する必要がある場合、リソースモニタは要求を受け取り、それを適切なリソース DLL に転送します。これとは逆に、リソース DLL がその状態をレポートするか、またはクラスタサービスにイベントを通知する必要がある場合、リソースモニタはリソースからの情報をクラスタサービスに転送します。
リソースモニタプロセス (RESRCMON.EXE) は、クラスタサービスプロセス (CLUSSVC.EXE) の子プロセスです。リソースモニタは、そのプロセス空間でクラスタリソースを監視するリソース DLL を読み取ります。エラーを隔離するために、リソース DLL の読み取りは、クラスタサービスプロセスとは別のプロセスで行われます。複数のリソースモニタを同時にインスタンス化できます。
各リソースモニタは、クラスタサービスプロセスの LRPC サーバーとして機能します。クラスタサービスは、リソース DLL との対話が必要なクラスタ API 呼び出しを受け取ると、LRPC インターフェイスを使用してリソースモニタ RPC を呼び出します。クラスタサービスはリソースモニタから応答を受け取るために、リソースモニタプロセスごとに 1 つの通知スレッドを作成します。この通知スレッドは、リソースモニタに永続的に配置されている RPC を呼び出します。このスレッドは、生成されたときに通知を取得します。このスレッドは、リソースモニタに障害が発生した場合、またはクラスタサービスからのシャットダウンコマンドによってスレッドが手動で停止された場合にのみ開放されます。
リソースモニタは、それ自体の継続的な状態を維持しません。リソースモニタはリソースの制限されたメモリ内での状態を保持しますが、初期状態の情報を提供するのは、クラスタサービスです。リソースモニタは、DLL が存在することが必要な正しく定義されたエントリポイントを通じて、リソース DLL と通信します。リソースモニタは、次の操作をそれ自体で実行します。
- IsAlive および LooksAlive エントリポイントを通じて、リソース DLL をポーリングするか、またはリソース DLL によって通知されたエラーイベントをチェックします。
- リソース DLL の待ちのタイムアウトを監視するために、DLL のオンラインまたはオフラインエントリポイントから ERROR_IO_PENDING を返すタイマスレッドを生成します。
- これは、クラスタサービスのクラッシュとリソースのシャットダウンを検出します。
  リソースモニタのその他のアクションは、RPC インターフェイスを通じてクラスタサービスが要求した操作の結果として実行されます。クラスタサービスは、切断の検出は実行しません。ただし、クラスタサービスはクラッシュを監視し、プロセスのクラッシュを検出した場合は、モニタを再起動します。
  クラスタサービスとリソースモニタは、ページングファイルによってバックアップされているメモリマップセクションを共有します。このセクションへのハンドルは、リソースモニタの起動時にリソースモニタに渡されます。リソースモニタは、リソース DLL エントリポイントを呼び出す直前にハンドルをレプリケートし、エントリポイント番号とリソース名をこのセクションに記録します。リソースモニタがクラッシュすると、クラスタサービスは共有セクションを読み取って、クラッシュの原因になったリソースとエントリポイントを検出します。
バックアップ/復元マネージャ バックアップ/復元マネージャは、フェールオーバーマネージャおよびデータベースマネージャと共同で、クォーラムログファイルとすべてのチェックポイントファイルをバックアップおよび復元します。クラスタサービスは、データベースのバックアップに BackupClusterDatabase API を使用します。まず、BackupClusterDatabase API は、フェールオーバーマネージャ層に接続します。フェールオーバーマネージャ層は、現在クォーラムリソースを所有しているノードに要求を転送します。これにより、ノードは、クォーラムログファイルおよびすべてのチェックポイントファイルのバックアップを作成するデータベースマネージャを呼び出します。
また、クラスタサービスは、起動時に自分自身をバックアップライターとしてボリュームシャドウコピーサービスに登録します。バックアップクライアントは、ボリュームシャドウコピーサービスを呼び出してシステム状態のバックアップを実行する際、一連のエントリポイント呼び出しを通じてクラスタサービスも呼び出し、クラスタデータベースのバックアップを実行します。クラスタサービスのサーバーコードは、フェールオーバーマネージャを呼び出してバックアップを実行します。残りの操作は BackupClusterDatabase API を通じて実行されます。
クラスタサービスは、RestoreClusterDatabase API を使用してバックアップパスからクラスタデータベースを復元します。この API は、クラスタノードの 1 つからのみローカルに呼び出すことができます。RestoreClusterDatabase API が呼び出されると、クラスタサービスが停止され、バックアップからクラスタデータベースが復元され、バックアップパスが含まれるレジストリ値が設定され、最後にクラスタサービスが再開されます。クラスタサービスは、復元が要求されていることを開始時に検出すると、バックアップパスからクォーラムリソースにクラスタデータベースを復元します。

クラスタのフェールオーバー

フェールオーバーは、ハードウェアまたはソフトウェアに予想外の障害が発生すると自動的に実行されますが、管理者が手動で開始して実行することもできます。どちらの状況でも、アルゴリズムと動作はほとんど同一です。ただし、手動で開始したフェールオーバーの場合、リソースは順序正しくシャットダウンされますが、停電、重要なハードウェアコンポーネントの障害などによって予想外のフェールオーバーが発生した場合、リソースは突然にシャットダウンされます。

クラスタ内のノード全体で障害が発生すると、そのリソースグループはクラスタ内の 1 つまたは複数の使用可能なノードに転送されます。自動フェールオーバーは、管理者による計画的なリソース所有者の再割り当てと似ています。ただし、順序正しい計画されたシャットダウンが中断されたり実行されなかったりする可能性もあるため、実際はもう少し複雑です。したがって、障害発生時には、クラスタの状態を評価する特別なステップが必要になります。

ネットワークに自動フェールオーバーが発生した場合、障害が発生したノードで実行されていたグループを特定し、どのノードにさまざまなリソースグループの所有権を渡すかを判断することが重要です。クラスタ内で、リソースグループのホスティングが可能なすべてのノードは、所有権をネゴシエートします。このネゴシエーションは、ノードの機能、現在の負荷、アプリケーションのフィードバック、ノードの優先順位一覧、または AntiAffinityClassNames プロパティに基づいて行われます。このプロパティについては、「クラスタ固有の構成」で説明します。リソースグループに関するネゴシエーションが完了すると、クラスタ内のすべてのノードは、ノードがリソースグループを所有しているデータベースおよびトラックを更新します。

2 つ以上のノードを持つクラスタでは、各リソースグループのノードの優先順位一覧によって、使用するサーバーと、1 つ以上の優先代替サーバーを指定できます。これにより、カスケードフェールオーバーが可能になります。カスケードフェールオーバーでは、カスケードやノード優先順位一覧の次のサーバーへのフェールオーバーを行い、複数のサーバーで障害が発生してもリソースグループが存続できるようになっています。

自動フェールオーバーの代替となる方法は、一般に N+I フェールオーバーと呼ばれます。この方法では、すべてのクラスタグループに対してノード優先順位を確立します。ノード優先順位一覧には、最初のフェールオーバーでリソースが移動される予備のクラスタノードが指定されています。予備のノードは、クラスタ内のサーバーで、障害が発生したサーバーの負荷を予備のノードに移動できるように、ほとんどの場合はアイドル状態になっているか、または容易に事前に排除できる負荷が与えられています。

カスケードフェールオーバーは、クラスタ内の他のすべてのサーバーに、なんらかの余裕容量があることを想定しており、障害が発生したサーバーの負荷を部分的に吸収できるようになっています。N+I フェールオーバーでは、+I の予備のサーバーが、余裕容量の主な受け取り先になることを想定しています。

クラスタのフェールバック

ノードがオンラインに復帰すると、フェールオーバーマネージャは、回復したノードに 1 つ以上のリソースグループを移動することを決定できます。これをフェールバックと呼びます。リソースグループの優先順位には、回復または再起動されるノードに対して、フェールバックするための優先的な所有者が定義されている必要があります。回復または再起動されるノードが優先的な所有者になっているリソースグループは、現在の所有者から回復または再起動されたノードに移動されます。

リソースグループのフェールバックプロパティには、1 日の中でフェールバックを許可する時間と、フェールバックを試行する回数の上限を含めることができます。これにより、クラスタサービスが、処理がピークに達する時間にリソースグループのフェールバックを行ったり、正しく回復または再起動されていないノードにフェールバックを行ったりすることを防ぐことができます。

クラスタのクォーラム

各クラスタには、クォーラムリソースと呼ばれる特別なリソースがあります。クォーラムリソースとは、次のことを実行するリソースのことです。

メンバシップとクラスタ状態を決定する方法を提供する
構成情報を保持するための物理記憶域を提供する

クォーラムログは、サーバークラスタ全体の構成データベースです。クォーラムログには、クラスタ構成情報が含まれています。これには、クラスタの一部であるサーバー、クラスタ内にインストールされているリソース、これらのリソースの状態 (たとえば、オンラインかオフラインか) などがあります。

クォーラムがクラスタ内で重要である理由は、次の 2 つです。

整合性 クラスタは、複数の物理サーバーが単一の仮想サーバーとして動作することによって成り立っています。各物理サーバーが、クラスタ構成の一貫性があるビューを持っていることが重要になります。クォーラムは、クラスタに関連するすべての構成情報の最終リポジトリとして動作します。クラスタサービスは、クォーラムにアクセスして読み取ることができないと、起動することはできません。
タイブレーク クォーラムは、クラスタ分割シナリオを回避するためのタイブレーカとして使用されます。クラスタ分割シナリオは、2 つ以上のクラスタノード間のすべてのネットワーク通信リンクに障害が起きた場合に発生します。これが発生すると、クラスタは互いに通信できない 2 つ以上のパーティションに分割されます。クォーラムは、必ず 1 つのノード上でのみ、クラスタリソースがオンラインに復帰するようにします。これは、クォーラムを所有するパーティションが継続されると共に、他のパーティションがクラスタから排除されることで実行されます。

標準クォーラム

このセクションで前述したように、クォーラムは、クォーラムログファイルに格納されているクラスタサービスの構成データベースです。標準クォーラムは、クラスタのすべてのメンバがアクセス可能な、共有されたストレージアレイにホストされているディスク上に配置されたクォーラムログファイルを使用します。

各メンバは、SCSI またはファイバチャネルを使用して共有ストレージに接続します。記憶域は、外部ハードディスク (通常は RAID ディスクとして構成されている)、または SAN によって構成されています。SAN では、SAN の論理スライスが物理ディスクとして表示されます。

注 :
フェールオーバー時には物理ディスクリソース全体が移動されるため、クォーラムがディスクパーティションではなく、物理ディスクリソースを使用することが重要です。また、サーバークラスタを、サーバー上のローカルハードディスクを使用してクォーラムを格納するように構成することもできます。この種類の実装はローンウルフクラスタと呼ばれ、テストや開発目的でのみサポートされます。ローンウルフクラスタは、単独であることからフェールオーバーを提供できないため、運用環境では Exchange 2003 をクラスタ化するために使用しないでください。

フェールオーバー時には物理ディスクリソース全体が移動されるため、クォーラムがディスクパーティションではなく、物理ディスクリソースを使用することが重要です。また、サーバークラスタを、サーバー上のローカルハードディスクを使用してクォーラムを格納するように構成することもできます。この種類の実装はローンウルフクラスタと呼ばれ、テストや開発目的でのみサポートされます。ローンウルフクラスタは、単独であることからフェールオーバーを提供できないため、運用環境では Exchange 2003 をクラスタ化するために使用しないでください。

Majority Node Set クォーラム

サーバークラスタの観点からは、Majority Node Set (MNS) クォーラムは単一のクォーラムリソースです。このデータは、既定でクラスタ内の各ノードのローカルディスクに格納されます。MNS リソースは、MNS リソースに格納されているクラスタ構成データと、別のディスクのデータとの一貫性を確保します。Windows Server 2003 によって提供される MNS 実装は、クォーラムデータの格納に各ノードのローカルディスクのディレクトリを使用します。クラスタの構成が変更されると、その変更は各ノードのローカルディスク全体に反映されます。この変更は、(ノードの数/2) + 1 の数のノードに対して行われた場合のみ、コミットされたと見なされるか、または永続的なものになります。

MNS クォーラムは、ほとんどのノードがデータの最新のコピーを確実に持つようにします。クラスタの部分として構成されているノードの大多数が稼働中で、クラスタサービスを実行している場合のみ、クラスタサービスが起動し、リソースがオンラインになります。大多数のノードが存在しないと MNS クォーラムが判断すると、クラスタにはクォーラムがないと見なされ、さらに多くのノードが参加を試みるまで、クラスタサービスは再起動ループで待機します。大多数のノードまたはクォーラムノードが使用可能になると、クラスタサービスが起動され、リソースがオンラインになります。ノードの障害には関係なく、最新の構成がほとんどのノードに書き込まれるため、クラスタの起動時には常に最新の構成を持っていることが保証されます。

クラスタの障害が発生するか、またはなんらかの原因でクラスタが分割クラスタシナリオに入ると、大多数のノードを含まないすべてのパーティションはオフラインになります。これにより、ノードの大多数が含まれているパーティションが実行されていると、これがクラスタ内でリソースを実行している唯一のパーティションになるため、そのパーティションで実行されていない任意のリソースを安全に起動することができます。

共有ディスククォーラムクラスタと、MNS クォーラムクラスタを比較した場合の動作は異なっているため、どのモデルを使用するかについては、注意深く検討する必要があります。たとえば、クラスタ内のノードが 2 つだけの場合、MNS モデルは推奨されません。この場合、ノードの大多数が使用できなくなるため、1 つのノードの障害がクラスタ全体の障害に進行します。

Majority Node Set (MNS) クォーラムは、Windows Server 2003 Enterprise Edition および Windows Server 2003 Datacenter Edition のクラスタでのみ使用できます。MNS クラスタが Exchange クラスタに提供する唯一の利点は、クォーラムリソースが格納されている共有ストレージアレイ内の専用ディスクの必要性がなくなることです。

クラスタリソース

クラスタサービスは、リソースモニタおよびリソース DLL を使用して、すべてのリソースオブジェクトを管理します。リソースモニタインターフェイスは、クラスタサービスがリソース管理コマンドを起動し、リソース状況のデータを取得できるようにする標準通信インターフェイスを提供します。リソースモニタは、リソース DLL を通じて実際のコマンド機能とデータを取得します。クラスタサービスは、リソース DLL を使用してリソースをオンラインにし、これらとクラスタ内の他のリソースとの相互動作を管理し、これらの状態を監視します。

リソース管理を使用可能にするために、リソース DLL はいくつかの簡単なリソースインターフェイスおよびプロパティを使用します。リソースモニタは、SYSTEM アカウント下で実行される特権コードとして、特定のリソース DLL をそのアドレススペースに読み込みます。SYSTEM アカウント (つまり、LocalSystem) は、オペレーティングシステムを表すセキュリティプリンシパルアカウントです。ユーザーセキュリティコンテキスト下で実行されるクラスタサービスは、SYSTEM アカウントを使用してオペレーティングシステム内のセキュリティ機能を実行します。

リソースの機能が、他のリソースの可用性に依存している場合、これらの依存関係はリソース DLL で定義されます。あるリソースが他のリソースに依存している場合、クラスタサービスは依存されているリソースを正しい順序でオンラインにした後で、依存しているリソースをオンラインにします。

リソースをオフラインにするときも、同じ方法で行われます。クラスタサービスは、依存しているリソースがオフラインになった後でのみ、リソースをオフラインにします。これにより、リソースの読み取り時に循環的な依存関係が発生することを防止できます。

また各リソース DLL は、リソースが必要とするコンピュータの種類やデバイス接続を定義します。たとえば、ディスクリソースは、物理的にそのディスクデバイスに接続されているノードによってのみ所有される必要があります。ローカル再起動ポリシー、およびフェールオーバー中に必要なアクションも、リソース DLL で定義されます。

クラスタ管理

クラスタは、クラスタアドミニストレータによって管理されます。クラスタアドミニストレータはグラフィカルな管理者用ツールで、コマンドラインツールの Cluster.exe を使用して、管理、監視、およびフェールオーバー管理を実行できます。またサーバークラスタは、オートメーションインターフェイスを提供します。このインターフェイスは、クラスタリソース、ノード、およびクラスタ自体を管理するためのカスタムスクリプトツールを作成するために使用できます。クラスタアドミニストレータのようなアプリケーションおよび管理ツールは、このツールがクラスタ内のノードで実行されている場合も、外部のコンピュータ上で実行されている場合も、RPC を使用してこのインターフェイスにアクセスできます。

クラスタのフォーメーションと操作

クラスタサービスがサーバーにインストールされ、実行されると、このサーバーはクラスタに参加します。クラスタ操作は、単一障害点を低減し、クラスタリソースの高可用性を可能にします。以降のセクションでは、クラスタ作成時および操作時のノードの動作について簡単に説明します。

クラスタの作成

サーバークラスタには、クラスタソフトウェアをサーバーにインストールし、新しいクラスタを作成するためのクラスタインストールユーティリティが含まれています。新しいクラスタを作成するときに、ユーティリティはクラスタの最初のメンバとして選択されたコンピュータ上で実行されます。最初のステップでは、クラスタ名を確立し、クラスタデータベースと初期クラスタメンバシップの一覧を作成することによって新しいクラスタが定義されます。

クラスタ作成の次のステップでは、クラスタのすべてのメンバが使用できる共通のデータストレージデバイスを追加します。これにより、単一ノードの新しいクラスタと、そのローカルデータストレージデバイスおよびクラスタの共通リソースが確立されます (一般に、ディスクまたはデータストレージと接続メディアリソース)。

クラスタ作成の最後のステップでは、クラスタのメンバにする各追加コンピュータ上で、インストールユーティリティを実行します。新しいノードをクラスタに追加するたびに、そのノードはクラスタのオリジナルメンバから自動的に既存のクラスタデータベースのコピーを受け取ります。ノードがクラスタに参加するかまたはクラスタを形成すると、クラスタサービスがそのノードにある構成データベースのプライベートコピーを更新します。

クラスタの形成

クラスタサービスを実行しているサーバーは、クラスタを形成できますが、クラスタ内の他のノードを特定することはできません。クラスタを形成するためには、ノードはクォーラムリソースの排他的な所有権を取得できる必要があります。

クラスタが形成されると、クラスタ内の最初のノードにクラスタ構成データベースが含められます。追加ノードがクラスタに参加するたびに、クラスタ構成データベースのローカルコピーを受け取り、独自に保持します。クォーラムリソースは、最も新しいバージョンの構成データベースを回復ログとして格納します。ログには、ノードに依存しないクラスタ構成と状態データが含まれます。

クラスタ操作中に、クラスタサービスはクォーラム回復ログを使用して、次のことを実行します。

アクティブなノードの 1 つのセットのみがクラスタを形成できるようにします。
ノードがクォーラムリソースの制御権を得られる場合にのみ、そのノードがクラスタ形成できるようにします。
ノードがクォーラムリソースを制御するノードと通信できる場合にのみ、そのノードが既存のクラスタに参加または残ることができるようにします。

クラスタが形成されると、クラスタ内の各ノードは、3 つの異なる状態のいずれかになっています。これらの状態は、イベントプロセッサ (後述) によって記録され、イベントログマネージャによってクラスタ内の別のノードにレプリケートされます。3 つのクラスタサービス状態は、次のとおりです。

オフライン このノードは、クラスタのアクティブなメンバではありません。このノードとそのクラスタサービスは、実行されている場合と実行されていない場合があります。
オンライン このノードは、クラスタのアクティブなメンバです。これはクラスタデータベースの更新に従い、クォーラムアルゴリズムへの入力に寄与し、クラスタネットワークと記憶域のハートビートを保持し、リソースグループを所有および実行できます。
一時停止 このノードは、クラスタのアクティブなメンバです。これはクラスタデータベースの更新に従い、クォーラムアルゴリズムへの入力に寄与し、ネットワークと記憶域のハートビートを保持しますが、リソースグループを受け入れることはできません。これは、現在所有しているリソースグループのみをサポートできます。一時停止状態では、保守を実行することができます。オンライン状態と一時停止状態は、大半のサーバークラスタコンポーネントからは同等の状態として扱われます。

クラスタへの参加

既存のクラスタに参加するために、サーバーはクラスタサービスを実行している必要があり、またクラスタ内の別のノードを正しく特定できる必要があります。クラスタ内の他のノードを見つけると、参加サーバーは、クラスタ内のメンバシップの認証を受け、クラスタ構成データベースのレプリケーションコピーを受け取る必要があります。

既存のクラスタへの参加プロセスは、Windows サービスコントロールマネージャがノード上でクラスタサービスを開始することから始まります。開始プロセス中に、クラスタサービスはノードのローカルデータデバイスを構成およびマウントします。既存のクラスタがデバイスを使用している可能性があるため、共通のクラスタデータデバイスをノードとしてオンラインにすることはありません。

他のノードを特定するために、検出プロセスが開始されます。ノードがクラスタのメンバを検出すると、認証手順が実行されます。最初のクラスタメンバが新しいノードを認証し、新しいノードが正しく認証されると、成功の状態を返します。参加ノードがクラスタメンバとして認識されないか、またはアカウントパスワードが無効であるなどの理由で認証が成功しない場合、クラスタへの参加要求は拒否されます。

認証が成功すると、クラスタ内でオンラインになっている最初のノードは、参加ノードの構成データベースのコピーをチェックします。もしそれが古い場合、クラスタノードは参加ノードにデータベースの更新のコピーを送信します。レプリケーションデータベースを受け取ると、クラスタに参加したノードは共有リソースを探すためにそれを使用し、必要に応じてそれをオンラインにすることができます。

クラスタからの離脱

ノードは、シャットダウン時やクラスタサービスが停止したときに、クラスタを離脱できます。ただし、ノードがクラスタ操作を失敗したときにも、ノードはクラスタから削除されます (クラスタ構成データベースの更新の送信が失敗した場合など)。

計画されたシャットダウンでノードがクラスタを離脱する場合、ノードはクラスタ内のすべての他のメンバに ClusterExit メッセージを送信し、離脱することを通知します。ノードは応答を待たずに、直ちにリソースのシャットダウンを行い、すべてのクラスタ接続を解除します。残りのノードは、この終了メッセージを受け取っているため、ノードに突発的な障害や、ネットワーク接続の停止が発生した場合でも、クラスタメンバシップを再確立するための再グループ化プロセスは実行しません。

障害の検出

障害の検出と防止は、サーバークラスタによって提供される重要な利点です。クラスタ内のノードまたはアプリケーションに障害が発生すると、サーバークラスタは障害が発生したアプリケーションを再起動するか、障害が発生したシステムからクラスタ内の残りのノードに作業を分散してそれに対処します。サーバークラスタが障害の検出と防止を行う方法には、双方向フェールオーバー、アプリケーションフェールオーバー、パラレルリカバリ、および自動フェールバックがあります。

クラスタサービスが個々のリソースまたはノード全体の障害を検出すると、アプリケーション、データ、およびファイルリソースを、クラスタ内の使用可能な健全なサーバーに動的に移動します。これにより、ユーザーやクライアントアプリケーションにとって、データベース、ファイル共有、アプリケーションなどのリソースの可用性が高く維持されます。

サーバークラスタには、次の 2 つの障害検出メカニズムが組み込まれています。

ノードの障害を検出するためのハートビート 各ノードは、定期的にユーザーデータグラムプロトコルベースのメッセージを、クラスタ内の他のノードとプライベートクラスタネットワーク上で交換します。これらのメッセージは、ハートビートと呼ばれます。ハートビートの交換により、各ノードは他のノードとそのリソースの可用性をチェックできます。サーバーがハートビート交換の応答に失敗すると、存続しているサーバーがフェールオーバープロセスを開始し、障害が起きたサーバーが所有しているリソースとアプリケーションの所有権が決定されます。この決定は、チャレンジおよびディフェンスプロトコルを使用して実行されます。障害が発生したと思われるノードには、いくつかの方法のうちの 1 つ方法で、まだ正しく実行されており、他の存続しているノードと通信できるかどうかを示すデモンストレーションを行う時間枠が与えられます。ノードが応答できない場合は、クラスタから削除されます。
ハートビートメッセージへの応答が失敗する原因には、コンピュータの障害、ネットワークインターフェイスの障害、ネットワークの障害、アクティビティが非常に多く発生する時間帯などがあります。一般に、すべてのノードが通信を行っているときには、構成データベースマネージャによって、グローバルな構成データベースの更新が各ノードに送信されます。ハートビート交換の失敗が発生すると、ログマネージャは構成データベースの変更をクォーラムリソースに保存します。これにより、残りのノードは回復のプロセス中に、最も新しい構成とローカルノードのレジストリデータにアクセスできます。
この障害検出アルゴリズムは、非常に慎重です。ハートビート応答の失敗が一時的なものである場合、フェールオーバーによって発生し得る中断をできる限り回避します。ただし、ノードが次のミリ秒で応答するかどうかは不明であり、また致命的な障害が発生しないとも限りません。したがって、フェールオーバーは、タイムアウト期間が満了してから開始されます。
リソースエラーの検出のためのリソースモニタとリソース DLL フェールオーバーマネージャとリソースモニタは共同でリソースエラーを検出し、回復作業を行います。リソースモニタは、リソース DLL を使用して定期的にリソースをポーリングすることで、リソース状況を追跡します。ポーリングは、LooksAlive クエリと、より長く限定的な IsAlive クエリという 2 つのステップで行われます。リソースモニタは、リソースエラーを検出するとそれをフェールオーバーマネージャに通知し、そのリソースの監視を続けます。
フェールオーバーマネージャは、リソースとリソースグループの状態を保持します。また、リソースエラーが発生すると回復を実行し、ユーザーアクションまたは障害に対応してリソースモニタを呼び出します。
リソースエラーが検出されると、フェールオーバーマネージャは、リソースおよびその依存リソースを再起動するか、またはリソースグループ全体を別のノードに移動するという回復操作を実行します。実行される回復操作は、ノードの可用性およびリソースとリソースグループのプロパティによって決定されます。
フェールオーバー時に、リソースグループはフェールオーバーの単位として扱われます。これにより、リソースの依存関係が正しく回復されます。リソースがエラーから回復すると、リソースモニタはフェールオーバーマネージャに通知します。フェールオーバーマネージャは、リソースグループのフェールバックプロパティの構成に基づいて、リソースグループの自動フェールバックを実行します。