Article
03/26/2016

Dédupliquer le stockage DPM

Publication: mars 2016

Cet article décrit comment réduire la consommation du stockage DPM en activant la déduplication sur celui-ci. Dans ce cas, DPM s'exécute en tant que machine virtuelle Hyper-V et stocke des données de sauvegarde sur des disques durs virtuels (VHD), dans des dossiers partagés sur un serveur de fichiers Windows avec la déduplication de données activée.

Vue d'ensemble

Dans l'environnement actuel, les administrateurs informatiques sont confrontés à l'énorme défi de croissance des données illustré par la projection d'IDC ci-dessous relative aux données qui seront disponibles dans le monde d'ici à l'année 2020. La croissance des données d'entreprise entraîne une augmentation des besoins de stockage de sauvegarde.

DPM and deduplication

La croissance des données augmente les coûts de maintenance et de matériel. Comme indiqué ci-dessous, 62 % des administrateurs informatiques s'inquiètent de l'augmentation des coûts matériels/logiciels et des frais de maintenance. Pour l'étude complète, voir l'article relatif à l'impact de l'explosion des données sur le blog Informatica.

DPM Deduplication

Les administrateurs informatiques sauvegardent des données de production pour répondre aux besoins de reprise des opérations et aux exigences de conformité de l'organisation. Par nature, la sauvegarde est une opération très coûteuse en termes de stockage, et la réduction de la consommation de stockage de sauvegarde est l'une des grandes priorités pour les administrateurs informatiques.

La déduplication peut contribuer à réduire la consommation de stockage. Bien que l'importance de la redondance dans tout ensemble de données dépende de la charge de travail et des types de données utilisés, la déduplication permet généralement de réaliser des économies en relation avec les données de sauvegarde. Une redondance supplémentaire, et donc des économies additionnelles liées à la déduplication, peuvent résulter du traitement des données de sauvegarde de charges de travail similaires à l'aide de jeu de données similaires. DPM tire parti de la déduplication pour offrir ces avantages.

Présentation de DPM

System Center Data Protection Manager est une solution de sauvegarde professionnelle qui offre les avantages suivants :

Sauvegarde et récupération tenant compte de l'application : DPM protège les clients, serveurs, ordinateurs virtuels, données de serveur de fichiers et charges de travail d'application. Il offre des options de sauvegarde flexibles, dont la possibilité de sauvegarder certaines charges de travail toutes les 15 minutes. DPM dispose d'un vaste éventail de fonctionnalités de récupération. Par exemple, des clients peuvent remplacer une base de données SQL Server de production en cours d'utilisation par une copie plus ancienne, récupérer des bases de données dans un nouvel emplacement à des fins d'investigation, ou effectuer une récupération sous forme de fichiers afin de générer une copie à l'usage du service juridique. DPM permet aux administrateurs informatiques de choisir le type de récupération qui leur convient, et prend en charge la récupération par l'utilisateur. Par exemple, un administrateur SQL, un administrateur de système de fichiers ou un utilisateur de client peuvent récupérer toutes leurs données directement sans l'assistance d'un administrateur.

Dans un environnement dynamique, les serveurs de production créent en permanence des données. DPM apporte aux administrateurs de sauvegarde la tranquillité d'esprit en fournissant une protection au niveau de l'instance, qui recherche et configure automatiquement les données créées par les charges de travail. Cela élimine la nécessité pour les administrateurs de sauvegarde de chercher de nouvelles instances de données et de les ajouter à la configuration de la sauvegarde manuellement.
Mise à l’échelle et gestion centralisée d’entreprise : un seul serveur DPM peut protéger 80 To de données de production ou 100 serveurs de production. Vous pouvez déployer une console centrale DPM pour gérer jusqu'à 100 serveurs DPM à partir d'un emplacement centralisé. Le système central de génération de rapports de DPM permet de produire en toute simplicité des rapports personnalisés pour tous les serveurs DPM.
Protection du cloud privé efficace : si votre centre de données de cloud privé est configuré pour exécuter des machines virtuelles Hyper-V sur des serveurs autonomes ou sur des serveurs Windows disposant de connexions à distance à des partages de fichiers SMB sur des serveurs de fichiers Windows, DPM peut sauvegarder des machines virtuelles efficacement à l'aide de la technologie unique de sauvegarde de machine virtuelle de DPM.

Par exemple, DPM détecte la migration de machine virtuelle et continue de protéger la machine virtuelle automatiquement, sans intervention de l'administrateur de sauvegarde. Si la machine virtuelle est migrée d'hôte à hôte, le même serveur DPM continue de sauvegarder sans que cela nécessite des modifications de DPM ou des opérations manuelles.
Sauvegarde intégrée sur le cloud : DPM est suffisamment flexible pour protéger des charges de travail déployées dans un cloud privé Hyper-V, dans le cloud public Azure ou dans un cloud hébergeur. Les entreprises exécutant des charges de travail de Microsoft sur Azure peuvent utiliser DPM sur Windows Azure pour protéger ces charges de travail. DPM prend en charge la sauvegarde hors site vers Azure à l'aide du service Azure Backup. Le service Azure Backup étant intégré dans les flux de travail de protection et de récupération de DPM, il est facile de gérer les paramètres de sauvegarde hors site et de conserver des données pendant plusieurs années. Azure Backup offre une alternative à la sauvegarde sur bande, avec l'expédition hors site et la maintenance de bande que cela exige. Les administrateurs de sauvegarde sont désormais totalement libérés des soucis liés à la maintenance de bande.

Vue d'ensemble de la déduplication des données

La déduplication des données a été introduite dans Windows Server 2012 en remplacement de nouvelle génération de la fonctionnalité de stockage d'instance simple (SIS) dans Windows Storage Server 2008. Elle utilise un algorithme avancé de segmentation de taille de bloc variable, pour permettre un maximum d'économies de déduplication par volume. Une approche de post-traitement est utilisée pour conserver toute la sémantique du système de fichiers et veiller à ce que l'impact sur les performances du chemin d'accès aux données primaires soit négligeable. Pour plus d'informations, voir Vue d'ensemble de la déduplication des données.

La déduplication des données est conçue pour être installée sur des volumes de données primaires sans ajout de matériel dédié afin qu'elle n'ait aucun impact sur la charge de travail principale sur le serveur. Les paramètres par défaut sont non intrusifs, car ils permettent aux données de vieillir pendant cinq jours avant le traitement d'un fichier particulier, et la taille de fichier minimale par défaut est de 32 Ko. L'implémentation est conçue pour utiliser peu de mémoire et de ressources du processeur. La déduplication peut être implémentée sur les charges de travail suivantes

Partages de fichiers généraux : publication et partage de contenu de groupe, dossiers de base utilisateur et fichiers hors connexion/de redirection de dossiers
Partages de déploiement de logiciel : fichiers binaires, images et mises à jour de logiciel
Bibliothèques de disques durs virtuels : stockage de fichiers de disque dur virtuel (VHD) pour l’attribution de privilèges d’accès au hyperviseurs
Déploiements VDI (Windows Server 2012 R2 uniquement) : déploiements d’infrastructure VDI (Virtual Desktop Infrastructure) à l’aide de Hyper-V
Sauvegarde virtualisée : solutions de sauvegarde (par exemple, DPM s’exécutant dans une machine virtuelle Hyper-V) qui enregistrent des données de sauvegarde dans des fichiers VHD/VHDX sur un serveur de fichiers Windows.

En savoir plus sur la planification de la déduplication.

Avantages pour l'entreprise

L'utilisation d'une déduplication avec DPM peut entraîner des économies considérables. La quantité d'espace économisée par la déduplication lors de l'optimisation des données de sauvegarde de DPM varie selon le type des données sauvegardées. Par exemple, la sauvegarde d'un serveur de base de données chiffrée peut entraîner des économies minimales, car toutes les données en double sont masquées par le processus de chiffrement. En revanche, la sauvegarde d'un grand déploiement d'infrastructure VDI (Virtual Desktop Infrastructure) peut entraîner des économies substantielles de l'ordre de 70 à 90 %, dans la mesure où il y a généralement une quantité importante de données dupliquées entre les environnements de bureau virtuel. Dans la configuration décrite dans cette rubrique, nous avons exécuté diverses charges de travail de test et constaté des économies comprises entre 50 et 90 %.

Déploiement recommandé

Pour déployer DPM en tant que machine virtuelle sauvegardant des données sur un volume dédupliqué, nous vous recommandons la topologie de déploiement suivante :

DPM s'exécutant sur une machine virtuelle dans un cluster hôte Hyper-V.
Stockage DPM à l'aide de fichiers VHD/VHDX stockés sur un partage SMB 3.0 sur un serveur de fichiers.
Pour cet exemple de déploiement, nous avons configuré le serveur de fichiers en tant que serveur de fichiers avec montée en puissance parallèle (SOFS) déployé en utilisant des volumes de stockage configurés à partir de pools d'espaces de stockage créés directement à l'aide de lecteurs SAS connectés. Notez que ce déploiement garantit des performances à l'échelle.

Dedup and VHDX

Notez les points suivants :

Ce scénario est pris en charge pour DPM 2012 R2.
Le scénario est pris en charge pour toutes les charges de travail pour lesquelles des données peuvent être sauvegardées par DPM 2012 R2.
Tous les nœuds de serveur de fichiers Windows sur lesquels des disques durs virtuels DPM résident et sur lesquels la déduplication est activée doivent exécuter Windows Server 2012 R2 avec la mise à jour cumulative de novembre 2014.

Nous allons fournir des recommandations et instructions générales pour le déploiement du scénario. Chaque fois que des exemples spécifiques du matériel sont donnés, le matériel déployé dans le système de plateforme cloud (CPS) Microsoft sert de référence.

Matériel testé

Ce scénario utilise des partages SMB 3.0 distants pour enregistrer les données de sauvegarde, de sorte que la configuration matérielle principale soit centrée sur les nœuds de serveur de fichiers plutôt que sur les nœuds Hyper-V. La configuration matérielle suivante est utilisée dans le CPS pour le stockage de sauvegarde et de production. Notez que le matériel dans son ensemble est utilisé pour le stockage de sauvegarde et de production, mais que le nombre de lecteurs figurant dans les boîtiers de lecteurs comprend uniquement ceux utilisés pour la sauvegarde.

Cluster de serveurs de fichiers avec montée en puissance parallèle à 4 nœuds
Configuration par nœud
- 2 processeurs Intel(R) Xeon(R) E5-2650 0 @ 2,00 GHz, 2001 MHz, 8 cœurs, 16 processeurs logiques
- Mémoire RDIMM 128 Go 1 333 MHz
- Connexions de stockage : 2 ports de SAS, 1 port de 10 GbE iWarp/RDMA
4 boîtiers de lecteurs JBOD
- 18 disques dans chaque boîtier JBOD – 16 DD de 4 To + 2 SSD de de 800 Go
- Double chemin d'accès à chaque lecteur - Stratégie d'équilibrage de charge d'entrées/sorties réparties sur plusieurs chemins (MPIO, Multipath I/O) définie sur le basculement uniquement
- SSD configurés pour cache en écriture différée et le reste pour les lecteurs de journal dédiés

Planification et configuration de volumes dédupliqués

Voyons la taille que les volumes doivent avoir pour prendre en charge les fichiers VHDX dédupliqués contenant des données DPM. Dans CPS, nous avons créé des volumes de 7,2 To. La taille de volume optimale dépend principalement de l'importance et de la fréquence des changements de données sur le volume, et des taux de débit d'accès aux données du sous-système de stockage sur disque. Il est important de noter que, si le traitement de la déduplication ne peut pas suivre la cadence des modifications quotidiennes de données (évolution), le taux d'économie chute jusqu'à ce que le traitement puisse se terminer. Pour plus d'informations, voir Dimensionnement des volumes pour la déduplication des données. Les directives générales suivantes sont recommandées pour les volumes de déduplication :

Utilisez des espaces de stockage de parité avec reconnaissance du boîtier pour la résilience et une utilisation du disque accrue.
Formatez en NTFS avec des unités d'allocation de 64 Ko et des segments d'enregistrement de fichier volumineux pour mieux fonctionner avec l'utilisation dédupliquée de fichiers fragmentés.
Dans la configuration matérielle ci-dessus, la taille de volume recommandée est de 7,2 To, et les volumes sont configurés comme suit :
- 7,2 To à double parité avec reconnaissance du boîtier + cache en écriture différée de 1 Go
  - ResiliencySettingName == Parity
  - PhysicalDiskRedundancy == 2
  - NumberOfColumns == 7
  - Interleave == 256KB (les performances de double parité à un entrelacement de 64 Ko sont bien inférieures à la valeur d'entrelacement par défaut de 256 Ko)
  - IsEnclosureAware == $true
  - AllocationUnitSize=64KB
  - Large FRS
  Configurez un nouveau disque virtuel dans le pool de stockage spécifié comme suit :
```
New-VirtualDisk -Size 7.2TB -PhysicalDiskRedundancy 2 -ResiliencySettingName Parity -StoragePoolFriendlyName BackupPool -FriendlyName BackupStorage -NumberOfColumns 7 -IsEnclosureAware $true
```
- Chacun des volumes doit ensuite être ensuite formaté comme suit :
```
Format-Volume -Partition <volume> -FileSystem NTFS -AllocationUnitSize 64KB –UseLargeFRS -Force
```
  Dans le déploiement CPS, ceux-ci configurés en tant que volumes partagés de cluster.
- Au sein de ces volumes, DPM stocke une série de fichiers VHDX pour contenir les données de sauvegarde. Activez la déduplication sur le volume après formatage comme suit :
```
Enable-DedupVolume –Volume <volume> -UsageType HyperV
Set-DedupVolume -Volume <volume> -MinimumFileAgeDays 0 -OptimizePartialFiles:$false
```
  Cette commande modifie également les paramètres de déduplication au niveau du volume suivants :
  - Attribuez à UsageType la valeur HyperV : la conséquence en est que la déduplication traite des fichiers ouverts, ce qui est nécessaire car les fichiers VHDX que DPM utilise pour le stockage de sauvegarde restent ouverts quand DPM s’exécute sur sa machine virtuelle.
  - Désactivez PartialFileOptimization : la conséquence en est que la déduplication optimise toutes les sections d’un fichier ouvert au lieu de rechercher des sections modifiées ayant un minimum d’ancienneté.
  - Attribuez au paramètre MinFileAgeDays la valeur 0 : quand l’option PartialFileOptimization est désactivée, MinFileAgeDays change son comportement de sorte que la déduplication considère uniquement les fichiers qui n’ont pas changé pendant ce nombre de jours. Dans la mesure où nous voulons que la déduplication commence à traiter les données de sauvegarde dans tous les fichiers VHDX de DPM sans délai, nous devons définir le paramètre MinFileAgeDays sur 0.

Pour plus d'informations sur la configuration de la déduplication, voir Installer et configurer la déduplication des données.

Planification et configuration du stockage DPM

Pour éviter les problèmes de fragmentation et maintenir l'efficacité, le stockage DPM est alloué à l'aide de fichiers VHDX résidant sur les volumes dédupliqués. 10 fichiers VHDX dynamiques de 1 To chacun sont créés sur chaque volume et attachés à DPM. Notez 3 To de sur-approvisionnement de stockage sont prévus pour tirer parti des économies de stockage résultant de la déduplication. Étant donné que la déduplication génère des économies de stockage supplémentaires, de nouveaux fichiers VHDX peuvent être créés sur ces volumes pour consommer l'espace enregistré. Nous avons testé le serveur DPM avec jusqu'à 30 fichiers VHDX associés à celui-ci.

Exécutez la commande suivante pour créer des disques durs virtuels qui seront ajoutés ultérieurement au serveur DPM :

New-SCVirtualDiskDrive -Dynamic -SCSI -Bus $Bus -LUN $Lun -JobGroup $JobGroupId -VirtualHardDiskSizeMB 1048576 -Path $Using:Path -FileName <VHDName>

Ajoutez ensuite les disques durs virtuels créés au serveur DPM comme suit :
```
Import-Module "DataProtectionManager"
Set-StorageSetting -NewDiskPolicy OnlineAll
$dpmdisks = @()
$dpmdisks = Get-DPMDisk -DPMServerName $env:computername | ? {$_.CanAddToStoragePool –
eq $true -and $_.IsInStoragePool -eq $false -and $_.HasData -eq $false}
Add-DPMDisk $dpmdisks
```
Notez que cette étape configure un pool de stockage sous forme que disque(s) sur le(s)quel(s) DPM stocke des réplicas et points de récupération pour les données protégées. Ce pool fait partie de la configuration de DPM et est séparé du pool d'espaces de stockage utilisé pour créer les volumes de données décrits dans la section précédente. Pour plus d'informations sur les pools de stockage DPM, voir Configuration de pools de stockage et de stockage sur disque.

Planification et configuration du cluster de serveurs de fichiers Windows

La déduplication requiert un ensemble spécial d'options de configuration pour prendre en charge le stockage DPM virtualisé en raison de l'échelle des données et de la taille des fichiers individuels. Ces options sont globales pour le cluster ou le nœud de cluster. La déduplication doit être activée et les paramètres de cluster doivent être configurés individuellement sur chaque nœud du cluster.

Activez la déduplication sur le stockage de serveur de fichiers Windows : le rôle déduplication doit être installé sur tous les nœuds du cluster de serveurs de fichiers Windows. Pour ce faire, exécutez la commande PowerShell suivante sur chaque nœud du cluster :
```
Install-WindowsFeature -Name FileAndStorage-Services,FS-Data-Deduplication -ComputerName <node name>
```
Réglez le traitement de déduplication pour les fichiers de données de sauvegarde : exécutez la commande PowerShell suivante pour définir le démarrage de l'optimisation sans délai et la non-optimisation des écritures de fichier partielles. Notez que, par défaut, les travaux de nettoyage de la mémoire (GC) sont planifiés chaque semaine et que, toutes les quatre semaines, le travail de nettoyage de la mémoire s'exécute en mode « profond » afin d'effectuer une recherche plus exhaustive et longue des données à supprimer. Pour la charge de travail DPM, ce mode de « nettoyage profond de la mémoire » n'entraîne pas de gain appréciable et réduit le temps pendant lequel la déduplication peut optimiser des données. Nous désactivons donc ce mode profond.
```
Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name DeepGCInterval -Value 0xFFFFFFFF
```
Réglez les performances pour les opérations à grande échelle : exécutez le script PowerShell suivant pour :
- désactiver le traitement et les E/S supplémentaires lors de l'exécution d'un nettoyage profond de la mémoire ;
- réserver de la mémoire supplémentaire pour un traitement de hachage ;
- activer l'optimisation de priorité pour permettre une défragmentation immédiate des fichiers volumineux.
```
Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name HashIndexFullKeyReservationPercent -Value 70
Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name EnablePriorityOptimization -Value 1
```
Ces paramètres modifient les éléments suivants :
- HashIndexFullKeyReservationPercent : cette valeur contrôle la quantité de mémoire de travail d’optimisation utilisée pour les hachages de bloc (chunk) existants, par rapport aux nouveaux. À grande échelle, 70 % produit un meilleur débit d'optimisation que la valeur par défaut de 50 %.
- EnablePriorityOptimization : avec des fichiers d’une taille avoisinant 1 To, la fragmentation d’un seul fichier peut accumuler suffisamment de fragments pour approcher la limite par fichier. Le traitement d'optimisation consolide ces fragments et empêche que cette limite soit atteinte. Si cette clé de Registre est définie, la déduplication ajoute un processus pour traiter les fichiers dédupliqués très fragmentés avec une priorité haute.

Planification et configuration de DPM et planification de la déduplication

Les opérations de sauvegarde et de déduplication sont intenses en E/S. Si elles devaient s'exécuter simultanément, une charge supplémentaire pour basculer entre les opérations pourrait s'avérer coûteuse et entraîner une diminution du nombre de données sauvegardées ou dédupliquées quotidiennement. Nous vous recommandons de configurer des fenêtres de déduplication et de sauvegarde dédiées et distinctes. Cela permet de garantir que le trafic d'E/S pour chacune de ces opérations soit distribué efficacement durant l'opération système quotidienne. Les recommandations pour la planification sont les suivantes :

Fractionner les jours en fenêtres de sauvegarde et de déduplication ne se chevauchant pas.
Configurer des planifications de sauvegarde personnalisées.
Configurer des planifications de déduplication personnalisées.
Planifier l'optimisation dans la fenêtre de déduplication quotidienne.
Configurer les planifications de déduplication à effectuer le week-end séparément, en consacrant ce temps aux travaux de nettoyage et de nettoyage de la mémoire.

Vous pouvez configurer des planifications de DPM avec la commande PowerShell suivante :

Set-DPMConsistencyCheckWindow -ProtectionGroup $mpg -StartTime $startTime –
DurationInHours $duration
Set-DPMBackupWindow -ProtectionGroup $mpg -StartTime $startTime –DurationInHours
$duration

Dans cette configuration, DPM est configuré pour sauvegarder les machines virtuelles entre 22 h 00 et 6 h 00. La déduplication est planifiée pendant les 16 heures restantes de la journée. Notez que le temps réel de déduplication que vous configurez dépend de la taille du volume. Pour plus d'informations, voir Dimensionnement des volumes pour la déduplication des données. Une fenêtre de déduplication de 16 heures commençant à 6 heures après la fin de la fenêtre de sauvegarde serait configurée comme suit à partir de n'importe quel nœud de cluster :

#disable default schedule
Set-DedupSchedule * -Enabled:$false
#Remainder of the day after an 8 hour backup window starting at 10pm $dedupDuration = 16
$dedupStart = "6:00am"
#On weekends GC and scrubbing start one hour earlier than optimization job.
# Once GC/scrubbing jobs complete, the remaining time is used for weekend
# optimization.
$shortenedDuration = $dedupDuration - 1
$dedupShortenedStart = "7:00am"
#if the previous command disabled priority optimization schedule
#reenable it
if ((Get-DedupSchedule -name PriorityOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name PriorityOptimization -Enabled:$true
}
#set weekday and weekend optimization schedules
New-DedupSchedule -Name DailyOptimization -Type Optimization -DurationHours $dedupDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -Days Monday,Tuesday,Wednesday,Thursday,Friday
New-DedupSchedule -Name WeekendOptimization -Type Optimization -DurationHours $shortenedDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupShortenedStart -Days Saturday,Sunday
#re-enable and modify scrubbing and garbage collection schedules
Set-DedupSchedule -Name WeeklyScrubbing -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Sunday
Set-DedupSchedule -Name WeeklyGarbageCollection -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Saturday
#disable background optimization
if ((Get-DedupSchedule -name BackgroundOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name BackgroundOptimization -Enabled:$false
}

Chaque fois que la fenêtre de sauvegarde est modifiée, il est essentiel que la fenêtre de la déduplication soit également modifiée en même temps afin d'éviter tout chevauchement. Les fenêtres de déduplication et de sauvegarde ne doivent pas nécessairement couvrir la totalité des 24 heures de la journée, mais il est fortement recommandé qu'elles le fassent pour permettre des variations de temps de traitement résultant de des changements quotidiens prévus des charges de travail et activités des données.

Implications relatives aux performances de sauvegarde

Une fois qu'un ensemble de fichiers ont été dédupliqués, les performances d'accès aux fichiers peuvent être légèrement affectées. Cela est dû au traitement supplémentaire requis pour accéder au format de fichier utilisé par les fichiers dédupliqués. Dans ce cas, les fichiers sont un ensemble de fichiers VHDX utilisés en continu par DPM pendant la fenêtre de sauvegarde. En raison de la déduplication de ces fichiers, les opérations de sauvegarde et de récupération peuvent être légèrement plus lentes que sans déduplication. Comme tout produit de sauvegarde, DPM est une charge de travail lourde en écriture, les opérations de lecture étant très importantes pendant les phases de restauration. Les recommandations liées aux implications en matière de performances de sauvegarde de la déduplication sont les suivantes :

Opérations de lecture et de restauration : les effets sur les opérations de lecture sont généralement négligeables et ne nécessitent pas de considérations spéciales dans la mesure où la fonctionnalité de déduplication met en cache les segments dédupliqués.
Opérations d’écriture et de sauvegarde : prévoyez une augmentation du temps de sauvegarde d’environ 5 à 10 % lors de la définition de la fenêtre de sauvegarde. (Il s'agit d'une augmentation par rapport au temps de sauvegarde attendu lors de l'écriture sur des volumes non dédupliqués.)

Analyse

La déduplication de données et DPM peuvent être surveillés pour s'assurer de ce qui suit :

Un espace disque suffisant est configuré pour stocker les données de sauvegarde.
Les travaux de sauvegarde de DPM s'achèvent normalement.
La déduplication est activée sur les volumes de sauvegarde.
Les planifications de déduplication sont correctement définies.
Le traitement de déduplication s'achève normalement chaque jour.
Le taux d'économies résultant de la déduplication correspond aux hypothèses formulées pour la configuration du système.

La réussite de la déduplication dépend des capacités matérielles du système dans son ensemble (vitesse de traitement du processeur, bande passante d'E/S, capacité de stockage), de la configuration système correcte, de la charge système moyenne et du volume quotidien de données modifiées.

Vous pouvez surveiller DPM à l'aide de la console centrale DPM. Voir Installation de la console centrale.

Vous pouvez surveiller la déduplication pour vérifier son état, le taux d'économies et l'état de la planification à l'aide des commandes PowerShell suivantes :

Obtenez l'état :

PS C:\> Get-DedupStatus
FreeSpace SavedSpace OptimizedFiles InPolicyFiles Volume
-------------- ---------- -------------- ------------- ------
280.26 GB 529.94 GB 36124 36125 X:
151.26 GB 84.19 GB 43017 43017 Z:

Obtenez les économies :

PS C:\> Get-DedupVolume
Enabled SavedSpace SavingsRate Volume
------- ---------- ----------- ------
True 529.94 GB 74 % X:

Obtenez l'état de la planification à l'aide de l'applet de commande Get-DedupSchedule.

Analyse des événements

L'analyse du journal des événements peut aider à comprendre l'état et les événements de la déduplication.

Pour afficher les événements de déduplication, dans l'Explorateur de fichiers, accédez à Journaux des applications et des services > Microsoft > Windows > Déduplication.
Si la valeur LastOptimizationResult = 0x00000000 s'affiche dans les résultats de l'applet de commande Windows PowerShell Get-DedupStatus |fl, cela signifie que le jeu de fichiers entier a été traité par la tâche d'optimisation. Si tel n'est pas le cas, cela signifie que le système n'a pas pu terminer le traitement de déduplication et que vous devez peut-être vérifier les paramètres de configuration tels que la taille du volume.

Pour des exemples d'applet de commande plus détaillés, voir Analyse et rapports pour la déduplication des données.

Analyse du stockage de sauvegarde

Dans notre exemple de configuration, les volumes de 7,2 To sont remplis avec 10 To de données « logiques » (taille des données non dédupliquées) stockées dans 10 fichiers VHDX dynamiques de 1 To. Comme ces fichiers accumulent des données de sauvegarde supplémentaires, il remplissent lentement le volume. Si le pourcentage d'économies résultant de la déduplication est suffisamment élevé, les 10 fichiers peuvent atteindre leur taille logique maximale, tout en continuant à tenir dans le volume de 7,2 To (il peut même y avoir de l'espace supplémentaire pour allouer des fichiers VHDX additionnels utilisables par des serveurs DPM). En revanche, si les économies de taille résultant de la déduplication sont insuffisantes, l'espace sur le volume risque d'être épuisé avant que les fichiers VHDX atteignent leur taille logique complète, et le volume est plein. Pour éviter la saturation des volumes, nous recommandons ce qui suit :

Soyez conservateur en ce qui concerne les exigences de taille de volume et prévoyez un certain sur-approvisionnement de stockage. Il est recommandé de prévoir un tampon d'au moins 10 % lors de la planification de l'utilisation du stockage de sauvegarde pour permettre une variation attendue des économies et des activités des données résultant de la déduplication.
Analysez les volumes utilisés pour le stockage de sauvegarde afin de vous assurer que les taux d'utilisation de l'espace et d'économies résultant de la déduplication sont aux niveaux attendus.

Si le volume est saturé les symptômes suivants apparaissent :

La machine virtuelle DPM est mise en état critique de pause et aucun autre travail de sauvegarde ne peut plus être émis par cette machine virtuelle.
Tous les travaux de sauvegarde qui utilisent les fichiers VHDX figurant sur le volume entier échouent.

Pour récupérer à partir de cette condition et restaurer le fonctionnement normal du le système, un stockage supplémentaire peut être configuré et une migration de stockage de la machine virtuelle DPM ou de ses fichiers VHDX peut être effectuée pour libérer de l'espace :

Arrêtez le serveur DPM propriétaire des fichiers VHDX sur le partage de sauvegarde complet.
Créez un volume et un partage de sauvegarde supplémentaire à l'aide de la configuration et des paramètres utilisés pour les partages existants, y compris les paramètres définis pour la déduplication et NTFS.
Migrez le stockage pour la machine virtuelle du serveur DPM, et migrez au moins un fichier VHDX à partir du partage de sauvegarde complet vers le nouveau partage de sauvegarde créé à l'étape 2.
Exécutez un nettoyage de la mémoire (GC) de déduplication des données sur le partage de sauvegarde source saturé. Le nettoyage de la mémoire doit réussir et permettre de récupérer de l'espace libre.
Redémarrez la machine virtuelle du serveur DPM.
Une vérification de cohérence de DPM est déclenchée lors de la fenêtre de sauvegarde suivante pour toutes les sources de données qui ont échoué précédemment.
Tous les travaux de sauvegarde doivent à présent réussir.

Conclusion

La combinaison de la déduplication et de DPM permet de réaliser des substantielles. Cela permet d'obtenir des taux de rétention plus élevés, des sauvegardes plus fréquentes et un meilleur coût total de possession (TCO) pour le déploiement de DPM. Les instructions et recommandations figurant dans ce document devraient vous apporter les outils et connaissances nécessaires pour configurer la déduplication pour le stockage DPM et découvrir les avantages qui en résultent pour vous-même dans votre propre déploiement.

FAQ

Q : les fichiers VHDX DPM doivent avoir une taille de 1 To. Cela signifie-t-il que DPM ne peut pas sauvegarder une machine virtuelle ou une base de données ou un fichier SharePoint ou SQL d'une taille supérieure à 1 To ?

R : non. DPM regroupe plusieurs volumes en un seul pour stocker les sauvegardes. Par conséquent, la taille de fichier de 1 To n'a aucune incidence sur les tailles de source de données que DPM peut sauvegarder.

Q : il semble que les fichiers VHDX de stockage DPM doivent être déployés uniquement sur des partages de fichiers SMB distants. Que se passe-t-il si je stocke les fichiers VHDX de sauvegarde sur les volumes pour lesquels la déduplication est activée sur le système sur lequel la machine virtuelle DPM s'exécute ?

R : comme nous l’avons vu plus haut, DPM, Hyper-V et la déduplication sont des opérations de stockage et de calcul intensives. Le combinaison des trois dans un même système peut entraîner l'exécution d'opérations intensives d'E/S et de traitement susceptibles de priver de temps processeur Hyper-V et ses machines virtuelles. Si vous décidez d'expérimenter une configuration de DPM dans une machine virtuelle avec les volumes de stockage de sauvegarde sur le même ordinateur, vous devez analyser les performances avec soin pour vous assurer qu'il existe suffisamment de bande passante d'E/S et calculer la capacité nécessaire pour maintenir les trois opérations sur le même ordinateur.

Q : vous recommandez des fenêtres de déduplication et de sauvegarde dédiées, distinctes. Pourquoi ne puis-je pas effectuer une déduplication pendant DPM sauvegarde ? J'ai besoin de ma base de données SQL de sauvegarde toutes les 15 minutes.

R : la déduplication et DPM sont des opérations nécessitant des capacités de stockage importantes. Leur exécution simultanée peut être inefficace et entraîner un tarissement des E/S. Par conséquent, pour protéger les charges de travail plusieurs fois par jour (par exemple SQL Server toutes les 15 minutes) tout en permettant la déduplication, veillez à disposer d'une bande passante d'E/S et d'une capacité de calcul suffisantes pour éviter tout tarissement des ressources.

Q : selon la configuration décrite, DPM doit être exécuté sur une machine virtuelle. Pourquoi ne puis-je pas activer la déduplication sur le volume du réplica et les volumes de clichés instantanés directement plutôt que sur des fichiers VHDX ?

R : la déduplication opère par volume sur des fichiers individuels. La déduplication effectuant une optimisation au niveau du fichier, elle n'est pas conçue pour prendre en charge la technologie VolSnap que DPM utilise pour stocker ses données de sauvegarde. En exécutant DPM sur une machine virtuelle, Hyper-V mappe les opérations de volume DPM au niveau de fichier VHDX, ce qui permet à la déduplication d'optimiser les données de sauvegarde et de générer des économies de stockage supérieures.

Q : l’exemple de configuration ci-dessus a créé uniquement des volumes de 7,2 To. Puis-je créer des volumes plus grands ou plus petits ?

R : la déduplication exécute un thread par volume. À mesure que la taille du volume augmente, la déduplication nécessite plus de temps pour accomplir l'optimisation. Par ailleurs, avec des volumes de petite taille, il y a moins de données parmi lesquelles trouver des segments dupliqués, ce qui peut réduire les économies réalisées. Il est donc conseillé de régler finement la taille du volume en fonction de l'évolution totale du code et des capacités matérielles du système pour optimiser les économies. Pour plus d'informations sur la détermination des tailles de volume utilisées avec la déduplication, voir Dimensionnement des volumes pour la déduplication dans Windows Server. Pour plus d'informations sur la détermination des tailles de volume utilisées avec la déduplication, voir Dimensionnement des volumes pour la déduplication des données.

Share via