Informatique en nuage : Architecture d’un nuage privé Microsoft

Article
08/24/2016

Dans cette première partie d’une série de quatre, vous découvrirez ce qu’est un nuage privé et comment l’infrastructure en tant que service hébergée peut prendre en charge cet environnement.

David Ziembicki et Adam Fazio

Il existe plusieurs définitions pour l'informatique en nuage, mais l'une des définitions plus concises et plus largement reconnues est celle de l’institut NIST (National Institute of Standards and Technology). Le NIST définit cinq caractéristiques essentielles, trois modèles de service et quatre modèles de déploiement. Les caractéristiques essentielles constituent le cœur de la définition. Les caractéristiques requises pour qu’une solution soit une réelle solution de « nuage » sont :

Libre service à la demande
Large accès au réseau
Concentration des ressources
Élasticité rapide
Service quantifiable

Le NIST définit également trois modèles de service ou ce que l’on appelle parfois couches d’architecture :

Infrastructure en tant que service (IaaS)
Logiciel en tant que service (SaaS)
Plateforme en tant que service (PaaS)

Enfin, il définit quatre modèles de déploiement :

Nuage privé
Nuage communautaire
Nuage public
Nuage hybride

Première approche du nuage

Microsoft Services a conçu, créé et implémenté une solution de nuage privé/IaaS en utilisant Windows Server, Hyper-V et System Center. Notre objectif tout au long de cette série en quatre parties sera de montrer comment vous pouvez intégrer et déployer chaque produit du composant en tant que solution, tout en fournissant les attributs de base du nuage comme l'élasticité, la concentration des ressources et le libre-service.

Dans ce premier article, nous définirons nuage privé et IaaS, décrirons les attributs du nuage et les principes de conception des centres de données exigés, puis détaillerons l’architecture de référence créée pour répondre à ces exigences. Dans la deuxième et la troisième partie, nous décrirons la conception détaillée de l’architecture de référence, toutes les couches et tous les produits qu’elle contient, ainsi que l’automatisation du processus et du workflow. Enfin, dans la quatrième partie, nous décrirons l’automatisation du déploiement créée en utilisant Microsoft Deployment Toolkit et Hydration Framework pour des implémentations cohérentes et reproductibles.

Pour une définition cohérente du nuage, nous utiliserons les modèles de déploiement de l'institut NIST. Nous utiliserons régulièrement l’expression nuage privé dans différents contextes sans spécifier le modèle de service concerné.

Outre les caractéristiques décrites dans la définition de l’institut NIST, nous avons ajouté plusieurs exigences supplémentaires pour ce projet :

Résilience plutôt que redondance
Homogénéisation et standardisation
Concentration des ressources
Virtualisation
Gestion de la structure
Élasticité
Partitionnement des ressources partagées
Transparence sur les coûts

Une équipe au sein de Microsoft a rassemblé et défini ces principes. L’équipe a profilé l’organisation Global Foundation Services (GFS) qui exécute nos mégas centres de données, le MSIT qui exécute l’infrastructure et les applications internes à Microsoft et plusieurs grands clients qui ont accepté de participer à cette recherche. Une fois les définitions établies et les exigences acceptées, nous sommes passés à la phase de conception de l’architecture. Au cours de cette phase, nous avons défini plus en détail les exigences et créé un modèle d’architecture pour les atteindre.

Architecture de référence d’un nuage privé/IaaS

En utilisant une approche architecturale décrite dans un autre de mes articles techniques, « De la virtualisation à l’informatique dynamique » (The Architecture Journal, juin 2010), nous avons pris la décision de définir le modèle illustré à la Figure 1 comme base de l’architecture de référence.

Figure 1 La base de notre architecture de référence.

Couche matérielle

La couche matérielle comprend l’infrastructure du centre de données et les systèmes mécaniques, ainsi que l’infrastructure de stockage, de réseau et informatique. Chacun de ces éléments doit fournir la possibilité aux interfaces de gestion d’interagir avec les couches supérieures de l’architecture. Par exemple : des serveurs qui prennent en charge la Gestion des services Web (WS-Management) et des groupes de stockage qui fournissent des interfaces Windows PowerShell ou Storage Management Initiative – Specification (SMI-S).

Microsoft indique que le programme Hyper-V Cloud FastTrack a été développé pour combiner les logiciels Microsoft, un guide consolidé, les configurations validées par les partenaires OEM pour le calcul, le réseau et le stockage, et les composants logiciels à valeur ajoutée afin de créer des solutions de nuage privé. Hewlett-Packard Co., Dell Inc., IBM Corp., Fujitsu, Hitachi Ltd. et NEC Corp. sont tous des partenaires FastTrack et ils fournissent des solutions intégrées et validées pour la couche matérielle.

Couche de virtualisation

Windows Server 2008 R2 (maintenant avec le service pack 1) et Hyper-V constituent la couche de virtualisation. Cela nous permet d’utiliser des ordinateurs virtuels et un réseau avec des VLAN (réseaux locaux virtuels), et cela nous fournit un stockage via des volumes partagés en cluster et des disques virtuels. La couche de virtualisation nous permet de répondre à plusieurs caractéristiques essentielles de l'institut NIST, comme la concentration des ressources et l'élasticité. Grâce à la virtualisation, nous sommes en mesure de partager et de provisionner des capacités beaucoup plus rapidement.

Couche d’automatisation

La couche d’automatisation est la couche suivante de la pile en partant du bas (voir la Figure 2). Les couches d’automatisation, de gestion et d’orchestration sont créées de la plus précise à la plus vaste en termes d'automatisation des processus informatiques. La couche la plus basse (la couche d’automatisation) inclut des technologies comme Windows PowerShell 2.0, Windows Management Instrumentation (WMI) et WS-Management. Ces technologies fondatrices fournissent l’interface entre les systèmes de gestion supérieurs et les ressources physiques et virtuelles.

Figure 2 Le modèle d’architecture de bas en haut utilisé pour le modèle de nuage privé.

Couche de gestion

La couche de gestion consiste en plusieurs produits Microsoft System Center qui exploitent les technologies de la couche d’automatisation pour effectuer des tâches de gestion, comme la vérification de la conformité d’un correctif, le déploiement des correctifs et la vérification de l’installation. La couche de gestion fournit l'automatisation des processus de base, mais elle est généralement limitée à un seul aspect du cycle de vie de la gestion du serveur (comme le déploiement, l’application des correctifs, la surveillance, la sauvegarde, etc).

Couche d’orchestration

La couche d’orchestration n’est généralement pas présente dans les environnements informatiques traditionnels, mais elle est cruciale pour fournir les attributs du nuage. La couche d’orchestration relie plusieurs produits, technologies et processus pour permettre l’automatisation de processus informatiques de bout en bout. Bien que System Center Configuration Manager puisse automatiser le déploiement d’un correctif, son intégration à un système de gestion des services ou à d’autres produits ou solutions tierces requiert une couche d’orchestration pour coordonner un processus de bout en bout sur plusieurs produits.

Pour cette couche, nous utilisons System Center Opalis (qui s’appellera bientôt System Center Orchestrator). Opalis intègre la suite System Center et facilite l’intégration à certaines solutions partenaires et tierces. La couche d’orchestration nous permet de créer des workflows ou d’exécuter des ouvrages qui peuvent automatiser des tâches compliquées, comme le déploiement de clusters, l'application de correctifs pour hôtes et la mise en service d’ordinateurs virtuels.

Interfaces de libre-service utilisateur et administrateur

L’attribut à la demande ou libre-service utilisateur de la définition de l’institut NIST est un concept nouveau pour de nombreuses entreprises informatiques. Il s’agit en premier lieu de supprimer les barrières entre les besoins en ressources informatiques de l’utilisateur et la mise à disposition de ces ressources. Par exemple, dans certaines entreprises, cela peut prendre jusqu’à six mois entre la demande d’un nouveau serveur et sa mise en service. Les restrictions technologiques et de processus sont à l’origine de ces délais.

La fonctionnalité de libre-service requiert une nouvelle interface qui permet aux utilisateurs de demander des services. Elle se trouve généralement sur un portail de libre servie informatique. Ce portail présentera aux utilisateurs un catalogue de services qu’ils peuvent commander, comme un nouvel ordinateur virtuel.

Dans notre architecture de référence, nous définissons à la fois une interface de libre-service pour les consommateurs et une interface d’administration centralisée pour l’informatique. Pour l’interface consommateur, Microsoft fournit le portail libre-service System Center Virtual Machine Manager (VMM) 2.0 et le Dynamic Datacenter Toolkit for Hosters (DDTK-H) pour les scénarios et les hébergeurs personnalisés. Pour notre solution, nous avons utilisé une version personnalisée de DDTK-H du fait de certaines personnalisations et automatisations requises. Nous pensons utiliser une solution plus prête à l'emploi provenant des futurs produits Microsoft.

Pour l’interface administrateur, nous avons utilisé System Center Service Manager (SCSM) et les interfaces System Center. SCSM est le nouveau produit de Microsoft System Center. Il fournit une base de données de gestion des configurations (CMDB), ainsi qu’une solution de gestion du changement robuste. Toutes les opérations courantes dans notre solution sont à l’origine une requête dans SCSM. Celles-ci déclenchent des workflows automatisés dans Opalis. C’est ainsi que nous assurons une gestion réelle du changement, tout en proposant une automatisation avancée.

Modèle logique de nuage privé/IaaS

Une des différences principale entre un centre de données et un environnement de serveur traditionnel et un nuage privé, est l’absence de ressources physiques comme les serveurs, les réseaux et les disques. Ceux-ci sont situés à un niveau supérieur, dans des groupements logiques comme les pools de ressources, les domaines d’erreurs, les domaines de mise à niveau, etc. Ces groupements logiques sont connectés à la structure physique et vous permettent de faire des mises en service et de prendre des décisions de gestion intelligentes. En se basant sur le travail réalisé par Microsoft Global Foundation Services, Windows Azure et MSIT, nous avons utilisé un modèle logique pour notre architecture de référence (voir la Figure 3).

Figure 3 Le modèle de groupement logique pour un nuage privé/IaaS.

Voici les définitions des objets :

Structure IaaS : la structure correspond à toute l’infrastructure et aux systèmes sous l’étendue de contrôle de l’architecture de référence. La structure peut consister en plusieurs sites et centres de données.

Centre de données/site : un emplacement physique ou site qui héberge un ou plusieurs pools de ressources.

Pool de ressources : un pool de ressources est composé d’unités d’échelle de serveurs, de réseaux et de stockages qui partagent du matériel courant et une configuration de base. Ils ne partagent aucun point de défaillance unique avec un autre pool de ressources (autre que la structure elle-même). Vous pouvez subdiviser un pool de ressources en plusieurs domaines d’erreur, sachant qu’un domaine d’erreur est un groupe d’éléments d’infrastructures physiques avec une configuration courante qui ne partage pas de point de défaillance unique avec un autre domaine d’erreur. Pour simplifier, un pool de ressources et un domaine d’erreur sont équivalents dans notre solution.

Unité d’échelle : une unité d’échelle est un ensemble de serveurs, de réseaux et de capacité de stockage déployés en tant qu’unité unique. Il s’agit de la plus petite unité de capacité déployée dans la structure. En fonction de la taille du client, une unité d’échelle peut être un cluster Hyper-V à quatre nœuds ou un rack complet de 64 serveurs. Elle est généralement dimensionnée en fonction de la nouvelle capacité moyenne requise sur un trimestre. Plutôt que de déployer un seul serveur à la fois, déployez une nouvelle unité d’échelle lorsque vous avez besoin de capacité supplémentaire pour répondre à vos besoins et conserver de la place en cas de croissance.

Cluster hôte : un cluster hôte est un groupe de deux à seize serveurs Hyper-V dans une configuration de cluster d’échec et leurs réseaux et stockages associés.

Domaine de mise à niveau : un domaine de mise à niveau est un ensemble d’éléments d’infrastructure au sein d’un pool de ressources que vous pouvez maintenir, mettre hors connexion ou mettre à niveau sans causer d’interruptions de service aux ordinateurs virtuels ou aux charges de travail qui s’exécutent dans le pool de ressources. Dans cette architecture, chaque nœud parmi tous les clusters du pool de ressources forme un domaine de mise à niveau. Parce que chaque cluster possède un nœud de secours (15 plus un), nous pouvons effectuer la maintenance sur un nœud dans chaque cluster sans aucune interruption de service (les ordinateurs virtuels sont migrés avant la maintenance). Ainsi, tous les nœuds 1 du pool de ressources 1 sont définis en tant que domaine de mise à niveau 1. Tous les nœuds 2 sont définis en tant que domaine de mise à niveau 2, et ainsi de suite (voir la Figure 4).

Figure 4 Un pool de ressources avec ses unités d’échelle enfants.

La raison de la définition et de l’implémentation de ces conteneurs, est que vous pouvez ainsi automatiser une mise en service et une gestion intelligente. Par exemple, avec une batterie de quatre serveurs Web, vous devez maintenir une haute disponibilité au sein d’au moins un site en cas de défaillance d'un autre site. Assurez-vous simplement que la requête de configuration est étalée sur deux sites et au moins deux pools de ressources. Ceci est assuré par la définition des pools de ressources et par leur connectivité à l’infrastructure physique. La mise en forme adéquate des ordinateurs virtuels concrétise la résilience du service.

Les utilisateurs expérimentés de System Center remarquerons que les conteneurs et les définitions décrites ici ne sont pas dans le System Center prêt à l’emploi. Nous avons utilisé l’extensibilité du SCSM CMDB pour définir ces conteneurs, attributs et relations. L’automatisation du workflow Opalis construit ses résultats sur ces derniers. À l’avenir, avec VMM 2012, plusieurs de ces conteneurs et relations seront prêts à l’emploi, bien qu’avec une convention de nomenclature différente.

Implémentation de référence d’un nuage privé/IaaS

La séparation logique et physique de la plateforme de gestion depuis la plateforme d'hébergement de l'ordinateur virtuel aide chaque échelle indépendamment (voir la Figure 5). Le centre du diagramme dans la Figure 5 montre les pools de ressources dans le cadre du système de gestion et que toute la solution peut être déployée au sein d’un centre de données existant.

Figure 5 Un diagramme logique sur comment nous allons implémenter l’architecture.

Un des éléments clés de l’implémentation de référence, est le déploiement automatisé pour améliorer la vitesse de déploiement et la cohérence de l’implémentation. Ceci est vrai car Microsoft Services travaille avec un large choix de partenaires et de clients. Pour l’automatisation du déploiement, l’implémentation de référence inclut la version gratuite de Microsoft Deployment Toolkit (MDT) et Microsoft Services Hydration Framework. Cela fournit des automatisations de déploiement supplémentaires en plus de MDT.

L’étape suivante dans le processus de conception était d’identifier toutes les zones de conceptions détaillées nécessaires. Ces zones sont :

Conception détaillée pour chaque produit System Center
Conception détaillée pour l’infrastructure d’hébergement de la gestion de la structure
Mise en service de la gestion de la structure
Conception de l’unité d’échelle
Mise en service de l’unité d’échelle
Conception du workflow

L’architecture de référence fournit une solution pour chaque attribut du nuage d’après l’institut NIST et un moteur pour l’automatisation informatique avancée. Dans le choix du scénario à automatiser, nous avons mis l’accent sur la plus haute complexité, le coût le plus élevé et le plus haut niveau de risque pour les scénarios d’erreur d’utilisateur. Pour ce faire, la solution automatise les processus suivants :

Installation et gestion de la structure :

Gestion de la structure et déploiement de l’hôte Hyper-V
Déploiement du cluster SQL virtualisé
Déploiement VMM
Déploiement SCSM
Déploiement de System Center Operations Manager (SCOM)
Déploiement de System Center Configuration Manager (SCCM)
Déploiement de System Center Opalis
Personnalisation et configuration

Mise en service de l’unité d’échelle (cluster hôte) :

Installation sans système d’exploitation
Installation de Hyper-V
Configuration du cluster

Correctifs de l’unité d’échelle (cluster hôte) :

Pour chaque domaine, orchestrez la migration en direct des ordinateurs virtuels hors des hôtes pour les correctifs à l’aide des modes de maintenance VMM et SCOM
Orchestrez SCCM pour corriger les hôtes et vérifiez le succès du correctif
Supprimez les hôtes du mode de maintenance et accédez au domaine de mise à niveau suivant

Maintenance de l’hôte :

Orchestrez la migration en direct des ordinateurs virtuels hors des hôtes qui requièrent une maintenance à l’aide des modes de maintenance VMM et SCOM
Supprimez les hôtes du mode maintenance

Mise en service de l’ordinateur virtuel :

Fournissez la mise en service de l’ordinateur virtuel via l’interface du portail
Opalis récupère les requêtes de mise en service et orchestre la mise en service des ordinateurs virtuels à partir des modèles préconfigurés
Opalis assure que l’ordinateur virtuel est créé et visible dans tous les produits System Center
Opalis installe l’agent SCOM dans les ordinateurs virtuels requis
Les ordinateurs virtuels sont présentés et gérables depuis l’interface du portail

Mise hors service de l’ordinateur virtuel :

Envoyez des requêtes pour mettre hors service les ordinateurs virtuels depuis l’interface du portail
Opalis récupère les requêtes de mise hors service et supprime l’ordinateur virtuel des produits System Center et efface l’ordinateur virtuel
Opalis supprime le compte de l’ordinateur Active Directory et l’enregistrement A du DNS de l’ordinateur virtuel

Dans les parties suivantes de cette série, nous examinerons la conception détaillée de l’architecture de gestion de la structure, notamment la conception du cluster Hyper-V de gestion de la structure, la conception du cluster SQL virtualisé et la conception de chaque produit System Center. Nous illustrerons également la conception de l’unité d’échelle comprenant des clusters Hyper-V à 16 nœuds.

David Ziembicki est un architecte de solutions dans l’organisation des Directeurs techniques pour les services du secteur public de Microsoft, spécialisé sur l'informatique de virtualisation et de nuage privé. Architecte d’infrastructures certifié par Microsoft, David Ziembicki travaille avec Microsoft depuis cinq ans, menant des projets d’infrastructure pour plusieurs agences gouvernementales. Il est architecte en chef pour les offres de service de virtualisation et de nuage privé pour Microsoft, il a été conférencier lors de plusieurs événements Microsoft et a été instructeur dans le cadre de plusieurs séances de formation liées à la virtualisation. Visitez son blog.

Adam Fazio est un architecte de solution dans l’organisation des Directeurs techniques pour les services du secteur public américain, ayant pour passion la transformation de l’infrastructure informatique des clients d’un centre de coûts vers un atout stratégique clé. Portant un intérêt particulier au large modèle d’Optimisation de l’infrastructure principale, il est également spécialisé dans les domaines suivants : le nuage privé, le centre de données, la virtualisation, la gestion & les opérations, le stockage, la mise en réseau, les services d’annuaire, les personnes et les processus. Suivez Adam sur le Blog TechNet sur le nuage privé et Twitter.