Comportement de récupération de cluster à copie unique

 

S’applique à : Exchange Server 2007 SP3, Exchange Server 2007 SP2, Exchange Server 2007 SP1, Exchange Server 2007

Dernière rubrique modifiée : 2007-10-26

Les clusters à copie unique offrent une redondance pour les services qui donnent accès aux données. La redondance des services permet une récupération rapide, sans perte de données, en cas de défaillance du noeud hôte. Comme un cluster à copie unique transmet le stockage contenant les bases données au nouveau noeud dans le cadre d'un service de basculement, le service doit être restauré sans perte de données.

Cependant, dans un cluster à copie unique , le sous-système de stockage est un point de défaillance unique. Une défaillance complète du sous-système de stockage entraîne généralement une interruption d'une journée et une perte de données moyenne de 12 heures. Ces estimations sont basées sur l'hypothèse que des sauvegardes sont effectuées quotidiennement. En outre, la configuration du stockage pour un cluster à copie unique est généralement plus complexe à installer et à exploiter que celle requise pour une solution de réplication continue en cluster (CCR), qui est l’autre type de solution de cluster Exchange. Pour plus d'informations sur la CCR, consultez la rubrique Réplication continue en cluster.

Les comportements de récupération de SCC se distinguent selon deux types d'interruption :

  • Interruptions programmées   Ces interruptions sont déclenchées par l'administrateur. Elles peuvent être déclenchées pour récupérer d'un échec détecté par le système d'analyse ou pour permettre certaines tâches d'administration, telles que la maintenance du matériel, l'installation de logiciels ou de mises à jour logicielles.

  • Interruptions non programmées   Ces interruptions sont déclenchées par le système en guise d'action de récupération suite à la détection d'une défaillance. Ces interruptions sont détectées et leur récupération est déclenchée par le service de cluster Windows.

Le tableau suivant décrit les actions de récupération prévues pour diverses défaillances. Certaines défaillances requièrent que l'administrateur déclenche la récupération, tandis que d'autres sont automatiquement gérées par le service de cluster Windows.

Les interruptions programmées et non programmées, bien qu'elles soient déclenchées différemment, entraînent l'activation d'un noeud passif et le montage des bases de données, en supposant que la transition des disques partagés ait réussi. En cas d'échec de la transition des disques partagés, peut-être en raison d'une erreur de configuration, le comportement est identique. Les bases de données affectées ne sont pas montées.

Notes

Il n'est possible d'activer qu'un seul serveur de boîtes aux lettres en cluster sur un noeud passif à un moment donné. Si un noeud héberge déjà un serveur de boîtes aux lettres en cluster actif, il ne peut pas mettre un autre serveur en ligne.

Notes

À la différence des versions antérieures de Exchange, Microsoft Exchange Server 2007 ne déclenche pas d'interruptions non programmées automatiques (basculements) de cluster à copie unique suite à des erreurs de bases de données.

Actions de récupération pour les défaillances

Description de la défaillance Action Commentaires

Erreur d'arrêt de système d'exploitation, système d'exploitation cessant de répondre, panne d'électricité totale d'un noeud, erreur irrécupérable du microprocesseur, défaillance de carte mère, de carte d'insertion ou de communication pour un noeud

Basculement automatique vers un noeud passif, si disponible. Les bases de données sont montées au fur et à mesure que leur stockage est mis en ligne.

Pour qu'un noeud passif soit disponible, il doit être possible d'établir un quorum après l'échec. Cela signifie que le noeud restant doit pouvoir accéder au quorum.

Défaillance de stockage totale sur le nœud actif

Défaillances de stockage rapportées au système d'analyse et via ce dernier. L'administrateur peut récupérer le stockage ou doit utiliser des sauvegardes pour effectuer la récupération.

Basculement automatique vers un noeud passif, si disponible. Les bases de données sont montées au fur et à mesure que leur stockage est mis en ligne.

Pour qu'un noeud passif soit disponible, il doit être possible d'établir un quorum après l'échec. Cela signifie que le noeud restant doit pouvoir accéder au quorum.

Défaillance complète du stockage

Défaillances de stockage rapportées au système d'analyse et via ce dernier. L'administrateur peut récupérer le stockage ou doit utiliser des sauvegardes pour effectuer la récupération.

Cette défaillance est rapportée comme défaillance du cluster (et de toutes ses ressources) car le quorum et les bases de données ne sont pas accessibles.

Défaillance du centre de données

Basculement automatique non pris en charge à défaut de solution de réplication tierce.

La réplication doit être synchrone si elle est opérée à partir de données en temps réel.

Défaillance du lecteur du système d'exploitation

Aucune action de récupération automatique. Non détectée par Exchange, sauf en cas de défaillance du système d'exploitation. Détectée sur la base d'échecs apparents plutôt que d'une cause principale.

Une défaillance du lecteur du système d'exploitation est signalée par le service d'analyse du système d'exploitation et peut entraîner une défaillance du système d'exploitation.

Espace du lecteur du système d'exploitation insuffisant

Basculement automatique vers un noeud passif, si disponible. Les bases de données sont montées au fur et à mesure que leur stockage est mis en ligne.

Cette défaillance est signalée aux services de surveillance et via ces derniers. Si aucun basculement automatique n'a lieu ou ne peut avoir lieu, l'action de récupération relative à ce scénario est déterminée par l'administrateur.

Échec du réseau public du cluster sur le nœud actif

Même action de récupération que pour le scénario de panne de courant complet.

Il n'y a pas de détection de santé de réseau public au-delà du matériel et des logiciels utilisés pour communiquer entre les noeuds passif et actif. La vérification de la connectivité réelle du client n'est pas offerte par Exchange 2007.

Échec complet du réseau public du cluster

Aucune action de récupération automatique.

En cas de perte du réseau public, les ressources d'adresses IP entreront en état d'échec. Une fois le problème de réseau public résolu, les ressources peuvent être remises en ligne.

Perte de quorum de cluster

Les serveurs de boîtes aux lettres en et quorum de cluster sont en mode hors connexion.

Ce scénario entraîne l'absence de service en cas d'impossibilité de former un quorum.

Échec de la banque d'informations

Redémarrage automatique de la ressource Banque d'informations.

Après plusieurs défaillances, l'administrateur peut tenter de déplacer manuellement le serveur de boîtes aux lettres vers un nœud passif pour le mettre en mode connexion.

Échec de lecteur d'application (fichier binaire)

Aucune action de récupération automatique.

Généralement, ce scénario entraîne d'autres défaillances qui sont signalées aux services de surveillance et via ces derniers, et auxquelles l'administrateur peut appliquer des actions. L'action de récupération relative à ce scénario est déterminée par l'administrateur.

Espace disque du lecteur d'application (fichiers binaires) insuffisant

Aucune action de récupération automatique.

Les services de surveillance signalent cette condition. L'action de récupération relative à ce scénario est déterminée par l'administrateur.

Perte totale de base de données ou de groupe de stockage, ou défaillance totale de la base de données

Tentative automatique de remontage des bases de données affectées. En cas d'échec de cette tentative, la boîte de dialogue reste en état d'échec mais aucun basculement du serveur de boîtes aux lettres en cluster n'aura lieu.

Le groupe de stockage ou la base de données est soit démonté suite à une défaillance ou un endommagement logiciel, soit en échec en raison de défaillances matérielles. Par exemple, un groupe de stockage force le démontage de toutes les bases de données lorsque son répertoire du journal est indisponible. L'administrateur détermine l'action corrective. La récupération peut consister en une interruption programmée destinée à activer le noeud passif.

Défaillance partielle du groupe de stockage ou de la base de données, indisponibilité de certaines données ou échec de montage de base de données initial

Aucune action de récupération automatique.

Échec partiel signifie que des endommagements ont été signalés mais que ces derniers n'ont pas forcé le démontage du groupe de stockage ou de la base de données. Si une base de données n'est pas montée au démarrage, aucune action n'est exécutée et les services de surveillance signalent l'échec. Le serveur de boîtes aux lettres génère des événements suite à la détection de ce problème. Cela peut être signalé par les services de surveillance. La surveillance détecte et signale également les bases de données démontées.

Journal endommagé détecté pour le groupe de stockage

Aucune action de récupération automatique.

Les services de surveillance signalent cette condition.

Espace insuffisant du lecteur des journaux de la base de données ou des transactions

Aucune action de récupération automatique. Les bases de données composant le groupe de stockage seront démontées.

La condition d'espace disque insuffisant est signalée via le système de surveillance. L'administrateur détermine l'action corrective.