Vue d’ensemble de la déduplication des données

 

Date de publication : août 2016

S’applique à : Windows Storage Server 2012, Windows Server 2012 R2, Windows Server 2012

Cette rubrique décrit la fonctionnalité de déduplication des données dans R2 Windows Server 2012 et Windows Server 2012 ainsi que ses cas pratiques.

Description de la fonctionnalité

La déduplication des données implique la recherche et la suppression de données dupliquées sans compromettre leur fidélité ou leur intégrité. L’objectif vise à stocker davantage de données dans moins d’espace en segmentant les fichiers en blocs de taille variable (32 à 128 Ko), en identifiant les blocs dupliqués et en conservant une copie unique de chaque bloc. Les copies redondantes du bloc sont remplacées par une référence à la copie unique. Les blocs sont compressés, puis organisés en fichiers de conteneur spéciaux dans le dossier System Volume Information.

Le résultat se traduit par une transformation sur le disque de chaque fichier, comme le montre la Figure 1. À l’issue de la déduplication, les fichiers ne sont plus stockés en tant que flux indépendants de données, mais sont remplacés par des stubs qui pointent vers des blocs de données stockés dans un magasin de segments commun. Comme ces fichiers partagent des blocs, ceux-ci ne sont stockés qu'une fois, ce qui réduit l'espace disque nécessaire au stockage de tous les fichiers. Lors de l'accès au fichier, les blocs corrects sont assemblés de manière transparente pour servir les données sans appeler l'application ou sans que l'utilisateur n'ait connaissance de la transformation sur disque du fichier. Les administrateurs peuvent ainsi appliquer la déduplication aux fichiers sans avoir à se préoccuper d'un quelconque changement du comportement des applications ou impact sur les utilisateurs qui accèdent à ces fichiers.

Figure 1 : transformation de fichiers sur disque

Figure 1   Transformation sur disque de fichiers lors de la déduplication des données

Une fois que la déduplication est activée pour un volume et que les données sont optimisées, le volume contient les éléments suivants :

  • Fichiers non optimisés. Les fichiers non optimisés peuvent inclure par exemple les fichiers qui ne respectent pas le paramètre de stratégie d'âge du fichier sélectionné, les fichiers d'état du système, les autres flux de données, les fichiers chiffrés, les fichiers avec des attributs étendus, les fichiers dont la taille est inférieure à 32 Ko, les autres fichiers de point d'analyse ou les fichiers utilisés par d'autres applications (la limite « utilisés » est supprimée dans R2 Windows Server 2012).

  • Fichiers optimisés. Fichiers stockés en tant que points d’analyse qui contiennent des pointeurs vers un mappage des blocs respectifs dans le magasin de blocs nécessaires pour restaurer le fichier sur demande.

  • Magasin de blocs. Emplacement des données de fichiers optimisés.

  • Espace libre supplémentaire. Les fichiers optimisés et le magasin de blocs occupent moins d’espace qu’avant l’optimisation.

Cas pratiques

Pour accompagner la croissance du stockage de données dans l’entreprise, les administrateurs consolident les serveurs et définissent comme objectifs clés l’optimisation des données et l’adaptabilité de la capacité. La déduplication des données offre des moyens pratiques d’atteindre ces objectifs, notamment :

  • Optimisation de la capacité. La déduplication des données permet de stocker davantage de données dans un espace physique inférieur. Elle augmente nettement l’efficacité de stockage à l’aide de fonctionnalités, telles que le stockage d’instance simple (SIS, Single Instance Storage) ou la compression NTFS (New Technology File System). La déduplication des données repose sur la segmentation à taille variable en sous-fichier et la compression. Utilisées ensemble, ces technologies permettent de diviser le stockage par 2 pour les serveurs de fichiers généraux et par 20 (au maximum) pour les données de virtualisation.

  • Échelle et performance. La déduplication des données est hautement évolutive, efficace en termes d’utilisation des ressources et non intrusive. Elle peut traiter jusqu'à 50 Mo par seconde dans R2 Windows Server 2012 et environ 20 Mo de données par seconde dans Windows Server 2012. Elle peut être exécutée sur plusieurs volumes simultanément sans affecter les autres charges de travail sur le serveur. Pour garantir un faible impact sur les charges de travail serveur, des limites sont appliquées aux ressources processeur et mémoire qui sont consommées. Si le serveur devient très occupé, la déduplication peut s’arrêter complètement. En outre, les administrateurs ont la flexibilité d’exécuter les travaux de déduplication des données à tout moment, de définir les planifications d’exécution de la déduplication des données et d’établir les stratégies de sélection de fichiers.

  • Fiabilité et intégrité des données. Quand la déduplication des données est appliquée, leur intégrité est conservée. La déduplication des données utilise la somme de contrôle, la cohérence et la validation d'identité pour garantir l'intégrité des données. Dans le cas de toutes les métadonnées et des données les plus souvent référencées, la déduplication des données assure la redondance afin de garantir la récupération de ces dernières en cas d'endommagement.

  • Efficacité de la bande passante avec BranchCache. Par le biais de l’intégration à BranchCache, les mêmes techniques d’optimisation sont appliquées aux données transférées via le réseau étendu (WAN) à une filiale. Les résultats se traduisent par des temps de téléchargement de fichiers plus rapides et une consommation de bande passante réduite.

  • Gestion de l'optimisation avec des outils familiers. La déduplication des données dispose d’une fonctionnalité d’optimisation intégrée au Gestionnaire de serveur et à Windows PowerShell. Les paramètres par défaut peuvent se traduire par des économies immédiates. Leur réglage par les administrateurs peut encore améliorer ces gains. Un utilisateur peut aisément employer les applets de commande Windows PowerShell afin de démarrer une tâche d’optimisation ou de la planifier ultérieurement. L’installation de la fonctionnalité Déduplication des données et son activation sur des volumes sélectionnés peuvent également être accomplies à l’aide d’un fichier Unattend.xml. Ce dernier appelle un script Windows PowerShell et peut être utilisé avec Sysprep pour déployer la déduplication lorsqu’un système démarre pour la première fois.

Fonctionnalités nouvelles et modifiées

Le tableau suivant décrit les modifications apportées à la fonctionnalité de déduplication des données. Pour plus d'informations, voir Nouveautés de la déduplication des données dans Windows Server.

Fonctionnalité/fonction

Nouveauté ou mise à jour ?

Description

Déduplication des données pour le stockage étendu des charges de travail VDI (Virtual Desktop Infrastructure)

Nouveauté de Windows Server 2012 R2

Optimisez les disques durs virtuels (VHD) actifs pour les charges de travail VDI en implémentant la déduplication des données sur les volumes partagés de cluster (CSV).

Développer un fichier optimisé sur son chemin d’origine

Nouveauté de Windows Server 2012 R2

Utilisez la nouvelle applet de commande Expand-DedupFile dans Windows PowerShell pour développer les fichiers optimisés sur un chemin d'accès spécifié sur le chemin d'accès d'origine si cela est nécessaire pour la compatibilité avec les applications, les performances ou d'autres exigences. Pour plus d'informations sur l'applet de commande, voir T:Deduplication.Expand-DedupFile.

Déduplication des données pour des volumes de sauvegarde utilisés par des applications de sauvegarde virtualisée

Nouveauté de Windows Server 2012 R2

Optimisez les disques durs virtuels actifs utilisés par les charges de travail d’applications de sauvegarde virtualisée en implémentant la déduplication des données sur des volumes partagés de cluster ou sur des configurations hyper-convergées limitées. (Pris en charge avec Windows Server 2012 R2 avec le correctif cumulatif de novembre 2014 (KB 3000850) ou ultérieur).

Spécifications

Pour tirer parti de la déduplication des données, l'environnement doit répondre aux exigences suivantes :

  • Serveur : un ordinateur ou une machine virtuelle exécutant R2 Windows Server 2012 ou Windows Server 2012 avec au moins un volume de données

  • (Facultatif) Autre ordinateur ou machine virtuelle exécutant R2 Windows Server 2012 ou Windows Server 2012 qui est connecté(e) au serveur sur un réseau

    Important

    Si la déduplication des données est effectuée sur des charges de travail d’infrastructure VDI ou de sauvegarde virtualisée, tous les fichiers des disques durs virtuels doivent être :

    • stockés sur un serveur de fichiers exécutant R2 Windows Server 2012, le nœud de stockage et le nœud de calcul étant exécutés sur des serveurs différents ;

    • stockés sur un stockage local dans une configuration hyper-convergée limitée spécifique. Pour les configurations requises détaillées, consultez Planifier le déploiement de la déduplication des données.

Interopérabilité avec les machines virtuelles Azure

Vous pouvez exécuter ce service de rôle Windows Server sur une machine virtuelle dans Azure. Ce scénario a été testé avec R2 Windows Server 2012. Nous recommandons l'utilisation de la déduplication des données sur des machines virtuelles Microsoft Azure disposant de volumes avec des lectures fréquentes, mais des écritures peu fréquentes. Dans ces cas, la déduplication des données peut représenter un moyen efficace de stocker davantage de données dans des machines virtuelles Azure.

Les charges de travail suivantes peuvent être de bons candidats à utiliser avec la déduplication des données sur des machines virtuelles Azure :

  • Serveurs de fichiers généraux avec un contenu relativement statique

  • Sites Microsoft SharePoint avec un contenu relativement statique

  • Sites web avec un contenu relativement statique

Les charges de travail suivantes ne sont pas recommandées pour une utilisation avec la déduplication des données sur des machines virtuelles Azure en raison de la fréquence des modifications sur les fichiers volumineux utilisés par les charges de travail :

  • Serveurs de messagerie tels que Microsoft Exchange Server

  • Serveurs de base de données tels que Microsoft SQL Server

Pour en savoir plus sur la prise en main des machines virtuelles Azure, visitez le site web Azure.

Présentation de l'architecture

La fonctionnalité de déduplication des données consiste en un pilote de filtre qui surveille les entrées et les sorties en local ou à distance, et en un service de déduplication qui contrôle les trois types de tâches disponibles (nettoyage de la mémoire, optimisation et nettoyage).

La résistance aux défaillances matérielles est propre à l'architecture de la déduplication avec la validation de la somme de contrôle sur les données et les métadonnées, notamment la redondance des métadonnées et des blocs de données les plus populaires.

La déduplication des données peut potentiellement traiter toutes les données sur un volume sélectionné (à l'exception d'un fichier dont la taille est inférieure à 32 Ko, des fichiers dans les dossiers exclus ou des fichiers auxquels des paramètres d'âge sont appliqués). Vous devez déterminer avec soin si un serveur et les volumes attachés sont des candidats appropriés pour la déduplication avant d'activer la fonctionnalité. Nous vous recommandons vivement de sauvegarder régulièrement les données importantes lors de la déduplication.

Voir aussi

Pour plus d’informations connexes, voir les ressources suivantes.

Type de contenu

Références

Évaluation du produit

Déploiement

Opérations

Ressources de la communauté

Technologies connexes