Windows Server 2008 R2 : Scénarios de dépannage des clusters de basculement

Configurer des clusters de basculement dans Windows Server peut permettre de garantir une disponibilité plus cohérente. Voici plusieurs scénarios de dépannage potentiels.

John Marlin

Le mois dernier, j'ai regardé à certaines des questions plus courantes avec Windows Server 2008 R2 Failover Clustering et examiné comment résoudre avec précision ces problèmes.

N'oubliez pas la politique de soutien actuelle est que, pour une solution Windows Server 2008 ou Windows Server 2008 R2 Failover Clustering être considéré comme une solution officiellement pris en charge par Microsoft Customer Support Services (CSS), il doit répondre le critères suivants:

  • Tous les composants matériels et logiciels doivent respecter les qualifications pour recevoir un logo « Certifié pour Windows Server 2008 R2 ».
  • La solution entièrement configurée doit passer le test de validation dans la gestion de Cluster de basculement.

Voici plusieurs scénarios qui peuvent aider à accélérer ou informer vos efforts de dépannage suivantes. Ceux-ci représentent certaines des questions plus courantes dans la prise en charge Windows 2008 R2 Clusters de basculement, ainsi que les étapes, qu'il se peut que vous deviez prendre pour les résoudre.

Scénario 1 : Nous font de notre mensuel récurant objets Active Directory et supprimé par inadvertance l'objet nom du Cluster. Nous avons essayé de créer un nouveau, mais il ne parvient pas à mettre en ligne.

L'objet de nom de Cluster (ONC) est très important, parce que c'est l'identité commune du Cluster.

Il est créé automatiquement par l'Assistant Cluster créer et a le même nom que le Cluster. Grâce à ce compte, il crée des autres objets de l'ordinateur virtuel Cluster (VCO) vous configurerez des nouveaux services et applications sur le Cluster. Si vous supprimez le CNO ou prenez des autorisations plus loin, il ne peut pas créer des autres objets tel que requis par le Cluster jusqu'à ce qu'elle est restaurée ou les autorisations correctes sont réintégrées.

Comme avec tous les autres objets dans Active Directory, il y a un objectGUID associé. Voilà comment le Cluster de basculement sait que vous transigez avec l'objet correct. Si vous créez simplement un objet, un nouveau GUID d'objet est créé ainsi. Ce que nous devons faire est de restaurer l'objet correct afin que Cluster de basculement peut continuer avec ses opérations normales.

Lorsque ce dépannage, nous devons savoir deux choses à partir de la ressource de Cluster. À partir de Windows PowerShell, exécutez la commande :

Get-ClusterResource « Nom du Cluster » | Get-ClusterParameterCreatingDC, objectGUID

Cela permettra de récupérer les valeurs nécessaires. Le premier paramètre que nous voulons est le CreatingDC. Lorsque le Cluster de basculement crée le CNO, nous notons le contrôleur de domaine (DC) sur lequel il a été créé. Pour toute activité que nous devons faire avec le Cluster (VCO de créer, mettre en ligne les noms et ainsi de suite), nous savons aller à ce contrôleur de domaine pour obtenir l'objet et la sécurité. Si elle n'est pas trouvée sur DC ou DC n'est pas disponible, nous allons chercher d'autres qui répondent, mais nous savons aller ici tout d'abord.

Le second paramètre est l'objectGUID pour s'assurer que nous parlons de l'objet correct. Pour notre exemple, le nom du Cluster est CLUSTER1, la création de DC est DC1 et l'objectGUID est 1a3cf049cf79614ebd94670560da6f04, comme suit :

Objet nom valeur
------     ----      -----
Cluster nom CreatingDC \\DC1.domain.com
Cluster nom ObjectGUID1a3cf049cf79614ebd94670560da6f04

Nous aurait besoin de se connecter à la machine de DC1 et exécutez Active Directory utilisateurs et ordinateurs. S'il y a un objet CLUSTER1 actuel, nous pouvons vérifier pour voir si elle possède les attributs appropriés. Une note à ce sujet est l'affichage que vous verrez. Éditeur d'attribut Active Directory initialement pas va vous montrer le GUID illustré ici, comme ce n'est pas afficher au format hexadécimal.

Ce que vous allez tout d'abord de voir est 49f03c1a-79cf-4e61-bd94-670560da6f04. Le format hexadécimal est un commutateur et il fonctionne en couples, qui est un peu confuse. Si vous prenez les huit premières paires de nombres et faire le commutateur, 49f03c1a devient 1a3cf049. Par les deux paires de commutation, 79cf devient cf79, et ensuite 4e61 devient 614e. Autres paires restent les mêmes.

Vous devez apporter les propriétés de l'objectGUID dans l'éditeur de l'attribut de la voir dans le format hexadécimal qui considère la Failover Clustering. Parce qu'il n'est pas l'objet approprié, nous devons tout d'abord supprimer l'objet à sortir de l'image à restaurer celle qui convient.

Il y a plusieurs façons de restaurer l'objet. Nous pourrions utiliser un Active Directory restaurer, un utilitaire tel que ADRESTORE ou le nouveau Active Directory corbeille (si vous exécutez un Windows 2008 R2 DC avec un schéma de mise à jour). À l'aide de la nouvelle Active Directory corbeille rend les choses beaucoup plus facile et est le processus plus transparent pour restaurer des objets supprimés de Active Directory.

Avec Active Directory corbeille, nous pouvons chercher pour trouver l'objet de rétablir avec la commande de Windows PowerShell :

Get-ADObject –filter 'isdeleted –eq $true –and samAccountName –eq "CLUSTER1$"' –includeDelectedObjects –property * | FormatListsamAccountName,objectGUID

Cette commande va rechercher n'importe quel objet supprimé avec le nom CLUSTER1 dans l'Active Directory corbeille. Elle nous donnera le nom de compte et l'objectGUID. S'il y a plusieurs éléments, il montrera tous. Lorsque nous voyons celui que nous voulons, nous serait l'afficher comme ceci :

samAccountName : CLUSTER1$
objectGUID:49f03c1a-79cf-4e61-bd94-670560da6f04

Maintenant, nous avons besoin de le restaurer. Après que nous supprimer celui incorrect, la commande de Windows PowerShell pour restaurer ce serait :

Restauration-ADObject –identity 49f03c1a-79cf-4e61-bd94-670560da6f04

Cela va restaurer l'objet au même endroit (unité organisationnelle, ou OU) et garder les mêmes autorisations et le mot de passe du compte ordinateur connu par Active Directory.

C'est un des avantages de l'Active Directory corbeille comparativement à quelque chose comme un utilitaire tel que ADRESTORE. À l'aide de ADRESTORE, vous devez réinitialiser le mot de passe, déplacez-le vers l'unité d'organisation appropriée, l'objet en Failover Clustering de réparation et ainsi de suite.

Avec Active Directory corbeille, nous apportons tout simplement la ressource nom de Cluster en ligne. C'est aussi une meilleure solution que de faire une restauration d'Active Directory, surtout s'il y a eu nouveaux objets d'utilisateur de l'ordinateur créés, s'il n'y a plus anciennes qui n'est plus existent et devront être supprimés une fois de plus, et ainsi de suite.

Scénario 2 : Mon Volumes de Cluster partagé montrent « Accès redirigés » dans la gestion de Cluster de basculement. Comment est-ce que nous corriger cela ?

Tout d'abord, Récapitulons rapidement la définition de Cluster partagé Volumes (CSVs). CSVs simplifient la configuration et la gestion des machines virtuelles de Hyper-V (SSN) dans les Clusters de basculement. Avec CSV sur un Cluster de basculement qui exécute Hyper-V, VMs multiples peuvent utiliser le même LUN (disque), pourtant basculeront (ou se déplacer d'un nœud à un nœud) indépendamment l'un de l'autre. La CSV fournit une flexibilité accrue pour les volumes de stockage en cluster. Par exemple, vous pouvez conserver les fichiers système distinct de données pour optimiser les performances du disque, même si les fichiers système et les données sont contenues dans les fichiers de disque dur virtuel (VHD).

Dans les propriétés de toutes les cartes réseau qui transportent les communications de cluster, assurez-vous que « Client pour les réseaux Microsoft » et « Fichier et imprimante partage pour les réseaux Microsoft » sont activées à l'appui de Server Message Block (SMB). Cela est nécessaire pour CSV. Le serveur exécute Windows Server 2008 R2, donc elle fournit automatiquement la version de SMB requise par CSV, qui est SMB2. Il n'y aura qu'un seul réseau de communication CSV préféré, mais permettant à ces paramètres sur plusieurs réseaux contribue à la grappe ont résilience pour répondre aux échecs.

Rediriger les moyens d'accès toutes les opérations d'e/S vont être « rediriger » sur le réseau vers un autre nœud qui a accès au lecteur. Fondamentalement, il y a trois raisons pour lesquelles un disque est en mode d'accès redirigé :

  1. Vous avez placé manuellement en Mode redirection
  2. Il y a une sauvegarde en cours
  3. Il y a des problèmes de matériel et le nœud ne peut accéder directement au lecteur

Dans notre scénario, nous avons exclu de l'Option 1 et 2 de l'Option. Cela nous laisse avec Option 3. Si nous examinons dans le journal des événements système, nous verrions l'événement "ID de l'événement : 5121" du Clustering avec basculement.

Voici la définition de cette entrée de journal : Cluster partagé VolumeCSV ' Cluster disque x' n'est plus accessible directement à partir de ce nœud de cluster. Accès I/O seront redirigés vers le périphérique de stockage sur le réseau à travers le nœud qui possède le volume. Cela peut entraîner des performances dégradées. Si l'accès redirigé est activé pour ce volume, veuillez désactiver. Si redirigé d'accès est désactivé, veuillez dépanner connectivité de ce nœud sur le périphérique de stockage et I/O reprendront à un état de santé, une fois la connectivité vers le périphérique de stockage est rétablie.

En prenant cette position, nous serait également regarder à droite avant cet événement pour tout événement liées au matériel. Nous serait d'aller chercher des événements tels que 9, 11 ou 15 ce point à un problème de matériel ou de communication. Nous examinerait en gestion des disques pour voir si nous pouvions voir physiquement le disque. Dans la plupart des cas, nous allons voir quelques autres erreurs. Une fois que nous corrigeons le problème avec le back-end, nous pouvons apporter le disque de ce mode.

Gardez à l'esprit que la CSV sera continuent à s'exécuter tant qu'au moins un nœud peut communiquer avec le réseau rattaché au stockage. C'est pourquoi il serait dans un mode « redirection ». Toutes les écritures sur le disque sont envoyés vers le nœud qui peut communiquer et les VMs Hyper-V continuera de course. Il peut y avoir un rendement frappé sur ces machines virtuelles, mais ils allons continuer à exécuter. Si nous ne serons jamais vraiment de la production, qui est une bonne chose.

Scénario 3 : J'ai créé un nouveau 2008 R2 Cluster de basculement Windows pour utilisation avec VMs hautement disponibles. J'ai mis en place les lecteurs pour CSV, mais lorsque je tente d'y accéder, explorateur et gestion des disques pendent. Il m'est impossible de copier mes disques durs virtuels sur le lecteur pour obtenir ce que ça va.

Il n'y a qu'un seul propriétaire « vrai » du lecteur et il a appelé le nœud de coordonnateur. N'importe quel type de métadonnées écrit sur le disque se ferait par ce nœud uniquement.

Lorsque vous ouvrez l'Explorateur ou gestion des disques, il va à ouvrir le lecteur, donc il peut faire tout écrit de métadonnées (si c'est l'intention). De ce fait, n'importe quel lecteur, qu'il n'est pas propre va obtenir redirigé sur le réseau vers le nœud de coordonnateur. Ceci est différent de celui du lecteur dans « redirigé accès. »

Lorsque ce dépannage, gestion de Cluster de basculement montrera le lecteur en ligne. Premièrement, que vous devez examiner pour voir quels événements sont enregistrés. Dans le journal des événements système, on pouvait voir ces événements de Failover Clustering :

ID événement : 5120

Cluster Volume partagé ' Cluster disque x' n'est plus disponible sur ce nœud en raison de « STATUS_BAD_NETWORK_PATH(c00000be) ». Toutes les I/O seront temporairement être en attente jusqu'à ce qu'un chemin d'accès au volume est rétabli.

ID événement : 5142

Cluster Volume partagé ' Cluster disque x' n'est plus accessible à partir de ce nœud du cluster en raison d'erreur « ERROR_TIMEOUT(1460) ». Veuillez dépanner connectivité de ce nœud sur le périphérique de stockage et la connectivité réseau.

Ces journaux sont chronométrage à essayer d'obtenir sur le réseau vers le nœud de coordonnateur. Alors vous serait de voir s'il y a toutes les autres erreurs dans le journal des événements système pointant à la connectivité de réseau entre les nœuds. S'il existe, vous avez besoin pour le résoudre. Choses, comme une carte réseau défectueux ou handicapés peuvent causer cela.

Ensuite, vous voulez vérifier la connectivité de réseau de base entre les nœuds. Ce que vous devez d'abord vérifier est le réseau sur lequel votre trafic CSV se déplace. Le mode Failover Clustering choisit le réseau à utiliser pour CSV est par la plus haute valeur métrique. Ceci est différent de la façon dont Windows identifie le réseau.

L'adaptateur de tolérance aux pannes réseau Cluster avec basculement (NETFT) a son propre système métrique, qu'il utilise en interne. Tous les réseaux qu'il détecte ont une passerelle par défaut et sera données la métrique de 10000, 10100, telle qu'elle longe. Tous les réseaux qui n'ont un début de passerelle par défaut à 1000, 1100 et ainsi de suite. L'utilisation de Windows PowerShell, vous pouvez utiliser la commande Get-ClusterNetwork | Nom de FT, métrique, rôle de voir comment l'adaptateur NETFT a défini les. Vous verriez quelque chose de similaire à :

Nom métrique
-------------------
Gestion 10100
CSV trafic 1000
LAN-WAN 10000
Privé 1100

Avec ces quatre réseaux, le réseau j'ai identifié comme la CSV est appelée le trafic CSV. L'adresse IP que j'utilise pour cela 1.1.1.1 Node1 et 1.1.1.2 pour ud2, donc j'essayerais de connectivité de réseau de base avec PING entre les adresses IP.

La prochaine étape est de tenter une connexion SMB en utilisant les adresses IP. C'est juste ce que Failover Clustering va faire. Un simple \\1.1.1.1 de NET VIEW suffira pour voir s'il y a une réponse. Ce que vous devriez obtenir arrière est une liste d'actions ou un message: « Il n'y a aucuns entrées dans la liste. »

Cela indique que vous pourrait faire une connexion à ce partage. Toutefois, si vous obtenez le message "système erreur 53 s'est produite. Le chemin d'accès réseau est introuvable,"cela indique un problème de configuration TCP/IP avec la carte réseau.

Après avoir « Client pour les réseaux Microsoft » et « Fichier et imprimante partage pour les réseaux Microsoft » activé sur la carte réseau doivent utiliser des CSV. Si elles ne le sont pas, vous obtiendrez ce problème d'être suspendus à Explorer. Sélectionnez ces et vous voilà prêt à partir.

Dans un Cluster de serveurs Windows 2003 et en dessous, la désactivation de ces options a été la procédure recommandée. Ce n'est plus le cas, aller de l'avant, et vous pouvez voir comment elle peut casser.

Autres facteurs

Il y a quelques autres facteurs que vous devrez prendre en considération. Si vos nœuds de Cluster sont des échecs de la ressource hôte sous-système (ERS), vous devez d'abord penser la nature de l'ERS et ce qu'il fait. L'ERS est le composant de Cluster de basculement qui fait beaucoup de santé ressource vérification pour s'assurer que tout fonctionne. Une adresse IP, il assurera c'est sur la pile de réseau et qu'il répond. Pour les disques, il tentera de se connecter au lecteur et faire une commande DIR.

Si vous rencontrez un écrasement de l'ERS, vous verrez des système de journal des événements IDs 1230 et 1146. En cas de 1230, il sera réellement identifier la ressource et la ressource DLL il utilise. Si elle se bloque, cela signifie que la ressource ne répond pas qu'elle doit et peut être dans l'impasse. Si cela ne s'écraser sur une ressource de disque, vous souhaiteriez rechercher des erreurs liées au disque ou les latences de disque. Un moniteur de Performance en cours d'exécution, il serait un bon point de départ. Mise à jour des pilotes/microprogramme de la carte ou le back-end peut-être quelque chose à considérer ainsi.

Vous allez également en train de faire quelque utilisateur détections de mode. Failover Clustering effectue des surveillance de la santé du mode noyau à un processus en mode utilisateur pour détecter le moment où le mode utilisateur devient insensible ou suspendus. Pour se remettre de cette condition, regroupement sera bug-cocher la case. Dans l'affirmative, vous verriez un arrêt 0x0000009E. Dépannage cela entraînerait à examiner le fichier de dump crée pour chercher à se bloque. Vous voulez également moniteur de Performance en cours d'exécution et de rechercher tout ce qui apparaît comme la pendaison, fuites de mémoire et ainsi de suite.

Failover Clustering est dépendante sur Windows Management Instrumentation (WMI). Si vous éprouvez des problèmes avec WMI, vous allez avoir des problèmes avec Failover Clustering (création et ajout de nœuds, migration et ainsi de suite). Exécuter vérifie contre WMI, tels que WBEMTEST.EXE, ou même distance scripts WMI.

Un script, que vous pouvez tenter de Windows PowerShell est (où NODE1 est le nom du nœud réel) :

Get-wmiobjectmscluster_resourcegroup-ordinateur NODE1 - espace de noms « root\mscluster »

Cela faire une connexion WMI au Cluster et vous donner des informations sur les groupes.

Si cette opération échoue, vous avez quelques questions WMI. Les Services de WMI peut être arrêtés, donc il se peut que vous deviez redémarrer leur. Le référentiel WMI peut également être corrompu (utilisez le Windows PowerShell commande winmgmt /salvagerepository pour voir si elle est compatible), et ainsi de suite.

Voici quelques points de dépannage à retenir :

  • Valider, valider, valider. Utilisez la Validation des regroupements pour le dépannage. Utilisez-le pour les meilleures pratiques. L'utiliser lorsque des modifications sont apportées à votre système.
  • Tout est dirigé vers Windows PowerShell. Si vous ne le savent pas encore, commencer à jouer d'elle.
  • Parce que nous sommes tributaires des objets Active Directory, protégez-vous. Activer l'Active Directory corbeille et protéger les objets de suppression accidentelle.
  • Le dépannage des CSVs, ne supposez pas toujours que c'est un problème matériel.
  • Lors de la résolution des problèmes, prendre du recul et regarder tout ce qui peut être affectée. Puis démarrez rétrécissement votre attention.

Failover Clustering est conçu pour détecter, de recouvrer d'et de signaler les problèmes. Le fait que le Cluster est vous dire il est ou a été un problème ne signifie pas que le Cluster a causé. Comme certains disent: « Don't shoot the messenger. »

John Marlin

**John Marlin**est ingénieur principal soutien escalade dans le groupe de soutien technique commerciale. Il a été avec Microsoft depuis plus de 19 ans, avec 14 dernières années en mettant l'accent sur les serveurs du Cluster.

Contenu associé