Desduplicar el almacenamiento DPM

 

Publicada: marzo de 2016

En este artículo se describe cómo habilitar la desduplicación en el almacenamiento DPM para reducir el consumo de almacenamiento DPM. En este escenario, DPM se ejecuta en una máquina virtual de Hyper-V y almacena datos de copia de seguridad en discos duros virtuales en carpetas compartidas en un servidor de archivos de Windows con la desduplicación de datos habilitada.

Información general

En el entorno actual, los administradores de TI se enfrentan al enorme reto del crecimiento de datos, como se muestra en la proyección de IDC sobre los datos mundiales hasta 2020 a continuación. El incremento del crecimiento de los datos empresariales conduce al aumento en las necesidades de almacenamiento de copias de seguridad.

DPM and deduplication

El crecimiento de los datos aumenta los costes de mantenimiento y hardware. Tal como se muestra a continuación, el 62% de los administradores de TI están preocupado por el aumento de los costes de hardware y software, así como por los costes de mantenimiento. Para ver la encuesta completa, consulte Is The Data Explosion Impacting You? en el blog de Informatica.

DPM Deduplication

Los administradores de TI realizan copias de seguridad de los datos para satisfacer las necesidades de recuperación de las operaciones y los requisitos de cumplimiento organizativo. Por su propia naturaleza, la copia de seguridad es una operación de almacenamiento muy intensiva, por lo que reducir el consumo de almacenamiento de copia de seguridad es una de las principales prioridades para los administradores de TI.

La desduplicación puede satisfacer la necesidad de reducir el consumo de almacenamiento. Mientras que la cantidad de redundancia en cualquier conjunto de datos determinado depende de la carga de trabajo y de los tipos de datos que se utilicen, es habitual para los datos de copia de seguridad mostrar un gran ahorro cuando se utiliza la desduplicación. La redundancia adicional y, por tanto, el ahorro adicional que ofrece la desduplicación, se pueden producir cuando se procesan datos de copia de seguridad de cargas de trabajo similares con conjuntos de datos similares. DPM aprovecha la desduplicación para ofrecer estas ventajas.

Información general de DPM

System Center Data Protection Manager es una solución de copia de seguridad empresarial que proporciona:

  • Copia de seguridad y recuperación para aplicaciones: DPM proporciona protección a clientes, servidores, máquinas virtuales, datos del servidor de archivos y cargas de trabajo la aplicación. Ofrece opciones de copia de seguridad flexibles, incluida la capacidad de realizar copias de seguridad de algunas cargas de trabajo con una frecuencia de cada 15 minutos. DPM presenta una amplia gama de capacidades de recuperación. Por ejemplo, los clientes pueden reemplazar una base de datos de SQL Server de producción actual por una copia más antigua, recuperar bases de datos en otra ubicación con fines de investigación o recuperarlas como archivos para proporcionar una copia al departamento jurídico. DPM ayuda a los administradores de TI a elegir el tipo de recuperación que necesitan. DPM admite la recuperación del usuario final. Por ejemplo, un administrador de SQL, el administrador del sistema de archivos o un usuario de cliente pueden recuperar todos sus datos directamente sin necesidad de asistencia del administrador.

    En un entorno dinámico, los servidores de producción crean nuevos datos continuamente. DPM proporciona a los administradores de copias de seguridad, ya que les ofrece protección de nivel de instancia, que busca y configura nuevos datos creados por las cargas de trabajo automáticamente. De este modo, los administradores de copias de seguridad ya no tienen que buscar nuevas instancias de datos y agregarlas a la configuración de copia de seguridad manualmente.

  • Ajuste de la escala empresarial y administración centralizada: un solo servidor DPM puede proteger 80 TB de datos de producción o 100 servidores de producción. Puede implementar la consola central de DPM para administrar hasta 100 servidores DPM desde una ubicación centralizada. Utilice los informes centrales de DPM para la generación simple de informes personalizados para todos los servidores DPM.

  • Protección eficaz de la nube privada: si su centro de datos de nube privada está configurado para ejecutar máquinas virtuales de Hyper-V en servidores independientes o en servidores Windows con conexiones remotas a recursos compartidos de archivos SMB en servidores de archivos de Windows, DPM puede realizar una copia de seguridad de las máquinas virtuales de forma eficaz con la tecnología de copia de seguridad de máquina virtual única de DPM.

    Por ejemplo, DPM detecta la migración de máquinas virtuales y continúa protegiendo la máquina virtual automáticamente, sin ninguna participación activa del administrador de copias de seguridad. Si la máquina virtual se migra de host a host, el mismo servidor DPM continuará realizando la copia de seguridad sin necesidad de modificaciones de DPM o pasos manuales.

  • Copia de seguridad integrada en la nube: DPM es lo suficientemente flexible como para proteger las cargas de trabajo implementadas en una nube privada de Hyper-V, en la nube pública de Azure o en una nube de proveedor de servicios de hosting. Las empresas que ejecutan cargas de trabajo de Microsoft en Azure pueden aprovechar DPM ejecutándose en Azure para proteger estas cargas de trabajo. DPM admite la copia de seguridad fuera del sitio en Azure con el servicio de copia de seguridad de Azure. El servicio de copia de seguridad de Azure está integrado en los flujos de trabajo de protección y recuperación de DPM, lo que facilita la administración de la configuración de copia de seguridad fuera del sitio y el mantenimiento de datos de varios años. Copia de seguridad de Azure ofrece una alternativa a la copia de seguridad de cinta, con el envío y el mantenimiento de las cintas fuera del sitio que requiere. Los administradores de copias de seguridad se han librado de los problemas de mantenimiento de cintas.

Información general de la desduplicación de datos

La desduplicación de datos (desduplicación) se introdujo en Windows Server 2012 como un reemplazo de nueva generación para la característica de almacenamiento de instancia única (SIS) en Windows Storage Server 2008. Utiliza un algoritmo de fragmentación avanzado de tamaño de bloque variable para proporcionar el máximo ahorro de desduplicación por volumen. Un enfoque posterior al procesamiento se utiliza para conservar la semántica del sistema de archivos todos y garantizar un efecto insignificante en el rendimiento de la ruta de acceso de datos principal. Para obtener más información, consulte Data Deduplication Overview (Información general de la desduplicación de datos).

La desduplicación de datos está diseñada para instalarse en volúmenes de datos principales sin agregar hardware dedicado adicional para que no influya en la carga de trabajo principal en el servidor. La configuración predeterminada es no intrusiva porque permite a los datos una antigüedad de cinco días antes de procesar un archivo concreto y tiene un tamaño de archivo mínimo predeterminado de 32 KB. La implementación está diseñada para un consumo bajo de CPU y memoria. La desduplicación se puede implementar en las cargas de trabajo siguientes

  • Recursos compartidos de archivos generales: publicación y uso compartido de contenido del grupo, carpetas principales del usuario y redirección de carpetas/archivos sin conexión

  • Recursos compartidos de implementación de software: archivos binarios, imágenes y actualizaciones de software

  • Bibliotecas de VHD: almacenamiento de archivos en discos duros virtuales (VHD) para el aprovisionamiento de hipervisores

  • Implementaciones de VDI (solo Windows Server 2012 R2): implementaciones de infraestructura de escritorio virtual (VDI) mediante Hyper-V

  • Copia de seguridad virtualizada: soluciones de copia de seguridad (por ejemplo, DPM ejecutándose en una máquina virtual de Hyper-V) que guardan los datos de copia de seguridad en archivos VHD/VHDX en un servidor de archivos de Windows.

Obtenga más información sobre la planificación de la desduplicación.

Beneficios para el negocio

El uso de la desduplicación con DPM puede generar grandes ahorros. La cantidad de espacio que se ahorra con la desduplicación al optimizar los datos de copia de seguridad de DPM varía según el tipo de datos del que se realiza la copia de seguridad. Por ejemplo, una copia de seguridad de un servidor de base de datos cifrada puede producir un ahorro mínimo, ya que los datos duplicados están ocultos por el proceso de cifrado. Sin embargo, la copia de seguridad de una implementación de Infraestructura de escritorio virtual (VDI) de gran tamaño puede dar como resultado un gran ahorro en el intervalo del 70 al 90% o más, ya que suele haber una gran cantidad de duplicación de datos entre los entornos de escritorio virtuales. En la configuración que se describe en este tema, hemos ejecutado una variedad de cargas de trabajo de prueba y hemos visto el ahorro de entre el 50% y el 90%.

Implementación recomendada

Para implementar DPM como una máquina virtual que realiza la copia de seguridad de datos en un volumen desduplicado, se recomienda la topología de implementación siguiente:

  • DPM ejecutándose en una máquina virtual en un clúster de hosts de Hyper-V.

  • Almacenamiento DPM que usa archivos VHD/VHDX almacenados en un recurso compartido de SMB 3.0 en un servidor de archivos.

  • Para este ejemplo de implementación, hemos configurado el servidor de archivos como un servidor de archivos de escala horizontal (SOFS) implementado con volúmenes de almacenamiento que se han configurado desde grupos de espacios de almacenamiento creados con unidades SAS de conexión directa. Tenga en cuenta que esta implementación garantiza el rendimiento a escala.

Dedup and VHDX

Tenga en cuenta lo siguiente:

  • Este escenario es compatible con DPM 2012 R2

  • El escenario se admite para todas las cargas de trabajo para las que DPM 2012 R2 puede realizar copias de seguridad de datos.

  • Todos los nodos de servidor de archivos de Windows en los que residen discos duros virtuales DPM y en los que se habilitará la desduplicación deben ejecutar Windows Server 2012 R2 con el paquete acumulativo de actualizaciones de noviembre de 2014.

Proporcionaremos recomendaciones generales e instrucciones para la implementación del escenario. Cada vez que se proporcionan ejemplos específicos del hardware, el hardware implementado en Microsoft Cloud Platform System (CPS) se utiliza como referencia.

Hardware probado

Este escenario utiliza recursos compartidos de SMB 3.0 remotos para almacenar los datos de copia de seguridad, por lo que los requisitos de hardware principal se centran en los nodos de servidor de archivos en lugar de los nodos de Hyper-V. Se utiliza la siguiente configuración de hardware en CPS para el almacenamiento de copia de seguridad y de producción. Tenga en cuenta que el hardware general se usa para el almacenamiento de copia de seguridad y de producción, pero el número de unidades que aparecen en los gabinetes de unidades se limita a los que se usan con fines de copia de seguridad.

  • Clúster de servidores de archivos de escalabilidad horizontal de 4 nodos

  • Configuración por nodo

    • 2 CPU Intel(R) Xeon(R) E5-2650 0 a 2,00 GHz, 2001 MHz, 8 núcleos, 16 procesadores lógicos

    • Memoria RDIMM de 128 GB a 1333 MHz

    • Conexiones de almacenamiento: 2 puertos SAS, 1 puerto de 10 GbE iWarp/RDMA

  • 4 gabinetes de unidad JBOD

    • 18 discos en cada JBOD: 16 unidades de disco duro de 4 TB + 2 SSD de 800 GB

    • Ruta de acceso dual a cada unidad: directiva de equilibrio de carga de ruta de E/S múltiple establecida solo en conmutación por error

    • SSD configurados para la caché con reescritura (WBC) y el resto de unidades de diario dedicadas

Planificación y configuración de volúmenes desduplicados

Veamos cómo deben ser los grandes volúmenes para admitir los archivos VHDX desduplicados que contienen datos DPM. Hemos creado volúmenes de 7,2 TB cada uno en CPS. El tamaño óptimo del volumen depende principalmente de la cantidad y la frecuencia de los cambios de volumen y de la capacidad de proceso del acceso a datos del subsistema de almacenamiento del disco. Es importante tener en cuenta que si el procesamiento de la desduplicación no puede mantener la capacidad de cambios de datos diarios (renovación), el porcentaje de ahorro disminuirá hasta que se pueda completar el procesamiento. Para obtener información más detallada, consulte Sizing Volumes for Data Deduplication (Definición del tamaño de los volúmenes para la desduplicación de datos). Se recomiendan las siguientes directrices generales para los volúmenes de desduplicación:

  • Usar espacios de almacenamiento de paridad con reconocimiento de contenedores de almacenamiento y mayor uso del disco.

  • Formatear NTFS con unidades de asignación de 64 KB y segmentos de registro de archivos de gran tamaño para que funcione mejor con el uso desduplicado de archivos dispersos.

  • En la configuración de hardware anterior, el tamaño de volumen recomendado es de 7,2 TB y los volúmenes se configurarán como sigue:

    • Paridad dual con reconocimiento de contenedores de almacenamiento de 7,2 TB + caché con reescritura de 1 GB

      • ResiliencySettingName == Parity

      • PhysicalDiskRedundancy == 2

      • NumberOfColumns == 7

      • Interleave == 256KB (el rendimiento de paridad dual con una intercalación de 64 KB es mucho menor que con la intercalación predeterminada de 256 KB)

      • IsEnclosureAware == $true

      • AllocationUnitSize = 64KB

      • Large FRS

      Configure un nuevo disco virtual en el bloque de almacenamiento especificado como sigue:

      New-VirtualDisk -Size 7.2TB -PhysicalDiskRedundancy 2 -ResiliencySettingName Parity -StoragePoolFriendlyName BackupPool -FriendlyName BackupStorage -NumberOfColumns 7 -IsEnclosureAware $true
      
    • Cada uno de estos volúmenes debe formatearse como:

      Format-Volume -Partition <volume> -FileSystem NTFS -AllocationUnitSize 64KB –UseLargeFRS -Force
      

      En la implementación de CPS, se configuran luego como CSV.

    • Dentro de estos volúmenes, DPM almacenará una serie de archivos VHDX para contener los datos de copia de seguridad. Habilite la desduplicación en el volumen después de darle formato de la siguiente manera:

      Enable-DedupVolume –Volume <volume> -UsageType HyperV
      Set-DedupVolume -Volume <volume> -MinimumFileAgeDays 0 -OptimizePartialFiles:$false
      

      Este comando también modifica la siguiente configuración de desduplicación de nivel de volumen:

      • Establecer UsageType en HyperV:esto provoca el procesamiento de desduplicación de archivos abiertos, lo que es necesario porque los archivos VHDX que DPM utiliza para el almacenamiento de copia de seguridad permanecen abiertos con DPM ejecutándose en su máquina virtual.

      • Deshabilitar PartialFileOptimization: esto hace que la desduplicación optimice todas las secciones de un archivo abierto en lugar de buscar las secciones modificadas con una antigüedad mínima.

      • Establecer el parámetro MinFileAgeDays en 0: con PartialFileOptimization deshabilitado, MinFileAgeDays cambia su comportamiento para que la desduplicación solo considere los archivos que no han cambiado en esa cantidad de días. Puesto que deseamos que la desduplicación comience a procesar los datos de copia de seguridad de todos los archivos VHDX de DPM sin demora, es necesario establecer MinFileAgeDays en 0.

Para obtener más información sobre cómo configurar la desduplicación, consulte Instalar y configurar la desduplicación de datos.

Planificación y configuración del almacenamiento DPM

Para evitar problemas de fragmentación y mantener el nivel de eficacia, el almacenamiento DPM se asigna mediante archivos VHDX que residen en los volúmenes desduplicados. 10 archivos VHDX dinámicos de 1 TB cada uno se crean en cada volumen y se ajuntan a DPM. Tenga en cuenta que se crean 3 TB de exceso de almacenamiento para aprovechar el ahorro de almacenamiento que produce la desduplicación. A medida que la desduplicación produce un mayor ahorro de almacenamiento, se pueden crear nuevos archivos VHDX en estos volúmenes para consumir el espacio ahorrado. Hemos probado el servidor DPM con hasta 30 archivos VHDX adjuntos.

  1. Ejecute el siguiente comando para crear discos duros virtuales que se agregarán más adelante al servidor DPM:

    New-SCVirtualDiskDrive -Dynamic -SCSI -Bus $Bus -LUN $Lun -JobGroup $JobGroupId -VirtualHardDiskSizeMB 1048576 -Path $Using:Path -FileName <VHDName>
    
  2. Luego agregue los discos duros virtuales creados al servidor DPM como se indica a continuación:

    Import-Module "DataProtectionManager"
    Set-StorageSetting -NewDiskPolicy OnlineAll
    $dpmdisks = @()
    $dpmdisks = Get-DPMDisk -DPMServerName $env:computername | ? {$_.CanAddToStoragePool –
    eq $true -and $_.IsInStoragePool -eq $false -and $_.HasData -eq $false}
    Add-DPMDisk $dpmdisks
    

    Tenga en cuenta que este paso configura un bloque de almacenamiento como el disco o los discos en que DPM almacena las réplicas y los puntos de recuperación de datos protegidos. Este bloque forma parte de la configuración de DPM y es independiente del grupo de espacios de almacenamiento utilizado para crear los volúmenes de datos descritos en la sección anterior. Para obtener más información sobre los bloques de almacenamiento DPM, consulte Configuración de bloques de almacenamiento y almacenamiento en disco.

Planificación y configuración del clúster de servidor de archivos de Windows

La desduplicación requiere un conjunto especial de opciones de configuración para admitir el almacenamiento DPM virtualizado debido a la escala de los datos y al tamaño de los archivos individuales. Estas opciones son globales para el clúster o el nodo de clúster. La desduplicación debe estar habilitada y la configuración del clúster debe definirse individualmente en cada nodo del clúster.

  1. Habilitar la desduplicación en el almacenamiento del servidor de archivos de Windows. El rol Desduplicación debe estar instalado en todos los nodos del clúster de servidor de archivos de Windows. Para ello, ejecute el siguiente comando de PowerShell en cada nodo del clúster:

    Install-WindowsFeature -Name FileAndStorage-Services,FS-Data-Deduplication -ComputerName <node name>
    
  2. Ajustar el procesamiento de desduplicación para la copia de seguridad de archivos de datos. Ejecute el siguiente comando de PowerShell para configurar para iniciar inmediatamente la optimización sin optimizar las escrituras de archivos parciales. Tenga en cuenta que, de forma predeterminada, los trabajos de recopilación de elementos no utilizados (GC) se programan cada semana y que, cada cuatro semanas, el trabajo de GC se ejecuta en modo de "GC en profundidad" para llevar a cabo una búsqueda más exhaustiva e intensiva de los datos que deben quitarse. Para la carga de trabajo DPM, este modo de "GC en profundidad" no da como resultado ganancia que puedan apreciarse y reduce la cantidad de tiempo que la desduplicación puede optimizar los datos. Por lo tanto, deshabilitaremos este modo profundo.

    Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name DeepGCInterval -Value 0xFFFFFFFF
    
  3. Ajustar el rendimiento de la operaciones a gran escala. Ejecute el siguiente script de PowerShell para:

    • Deshabilitar el procesamiento adicional y la E/S cuando se ejecuta la recolección de elementos no utilizados en profundidad

    • Reservar memoria adicional para el procesamiento de hash

    • Habilitar la optimización de prioridad para permitir la desfragmentación inmediata de archivos grandes

    Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name HashIndexFullKeyReservationPercent -Value 70
    Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name EnablePriorityOptimization -Value 1
    

    Esta configuración modifica lo siguiente:

    • HashIndexFullKeyReservationPercent: este valor controla la cantidad de memoria de trabajo de optimización que se utiliza para valores hash de fragmento existentes, frente a los nuevos valores hash de fragmento. A gran escala, un 70% da como resultado un mayor rendimiento de optimización que el valor predeterminado de 50%.

    • EnablePriorityOptimization: con los archivos que se acercan a 1 TB, la fragmentación de un único archivo puede acumular suficientes fragmentos para acercarse al límite por archivo. El procesamiento de optimización consolida estos fragmentos y evita que se alcanza este límite. Al establecer esta clave del registro, la desduplicación agregará un proceso adicional para tratar los archivos desduplicados muy fragmentados con prioridad alta.

Planificación y configuración de DPM y programación de la desduplicación

Las operaciones de copia de seguridad y desduplicación consumen una gran cantidad de E/S. Si fueran a ejecutarse al mismo tiempo, una sobrecarga adicional para cambiar entre las operaciones podría ser costosa y provocar una disminución de los datos desduplicados o de los que se crea una copia de seguridad diariamente. Se recomienda que configurar franjas de copia de seguridad y desduplicación dedicadas e independientes. Esto ayuda a garantizar que el tráfico de E/S para cada una de estas operaciones se distribuye eficazmente durante el funcionamiento diario del sistema. Las instrucciones recomendadas para la programación son:

  • Dividir los días en franjas de copia de seguridad y desduplicación que no se solapen.

  • Configurar programaciones de copia de seguridad personalizadas.

  • Configurar programaciones de desduplicación personalizadas.

  • Programar la optimización en la franja de desduplicación diaria.

  • Configurar las programaciones de desduplicación del fin de semana por separado, usando esa hora para la recopilación de elementos no utilizados y los trabajos de limpieza.

Puede configurar programaciones DPM con el siguiente comando de PowerShell:

Set-DPMConsistencyCheckWindow -ProtectionGroup $mpg -StartTime $startTime –
DurationInHours $duration
Set-DPMBackupWindow -ProtectionGroup $mpg -StartTime $startTime –DurationInHours
$duration

En esta configuración, DPM está configurado para realizar copias de seguridad de máquinas virtuales entre las 22:00 y las 6:00. La desduplicación está programada para las 16 horas restantes del día. Tenga en cuenta que el tiempo real de desduplicación que configure dependerá del tamaño del volumen. Consulte Sizing Volumes for Data Deduplication (Definición del tamaño de los volúmenes para la desduplicación de datos) para obtener más información. Una franja de desduplicación de 16 horas que empieza a las 6:00 cuando termina la franja de copia de seguridad se puede configurar como se indica a continuación desde cualquier nodo de clúster individual:

#disable default schedule
Set-DedupSchedule * -Enabled:$false
#Remainder of the day after an 8 hour backup window starting at 10pm $dedupDuration = 16
$dedupStart = "6:00am"
#On weekends GC and scrubbing start one hour earlier than optimization job.
# Once GC/scrubbing jobs complete, the remaining time is used for weekend
# optimization.
$shortenedDuration = $dedupDuration - 1
$dedupShortenedStart = "7:00am"
#if the previous command disabled priority optimization schedule
#reenable it
if ((Get-DedupSchedule -name PriorityOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name PriorityOptimization -Enabled:$true
}
#set weekday and weekend optimization schedules
New-DedupSchedule -Name DailyOptimization -Type Optimization -DurationHours $dedupDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -Days Monday,Tuesday,Wednesday,Thursday,Friday
New-DedupSchedule -Name WeekendOptimization -Type Optimization -DurationHours $shortenedDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupShortenedStart -Days Saturday,Sunday
#re-enable and modify scrubbing and garbage collection schedules
Set-DedupSchedule -Name WeeklyScrubbing -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Sunday
Set-DedupSchedule -Name WeeklyGarbageCollection -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Saturday
#disable background optimization
if ((Get-DedupSchedule -name BackgroundOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name BackgroundOptimization -Enabled:$false
}

Si se modifica la franja de copia de seguridad es vital que se modificaque la de desduplicación para evitar que se solapen. La franja de desduplicación y copia de seguridad no tienen que llenar las 24 horas del día, pero se recomienda que lo hagan para permitir variaciones en el tiempo de procesamiento debido a cambios diarios inesperados en las cargas de trabajo y a la renovación de datos.

Implicaciones del rendimiento de la copia de seguridad

Después de desduplicar un conjunto de archivos, puede darse un ligero coste de rendimiento al acceder a los archivos. Esto se debe al procesamiento adicional necesario para acceder al formato de archivo utilizado por los archivos desduplicados. En este escenario, los archivos son un conjunto de archivos VHDX que experimentan el uso continuo por parte de DPM durante la franja de copia de seguridad. El impacto de tener estos archivos desduplicados significa que las operaciones de copia de seguridad y recuperación pueden ser ligeramente más lentas que sin desduplicación. Como sucede con cualquier producto de copia de seguridad, DPM es una carga de trabajo de escritura intensiva, en que las operaciones de lectura son más importantes durante las operaciones de restauración. Las recomendaciones para afrontar las implicaciones del rendimiento de la copia de seguridad debido a la desduplicación son:

  • Operaciones de lectura/restauración: los efectos en las operaciones de lectura son normalmente insignificantes y no requieren ninguna consideración especial, puesto que la característica de desduplicación almacena en caché los fragmentos desduplicados.

  • Operaciones de escritura/copia de seguridad: planifique un aumento en el tiempo de copia de seguridad de entre el 5 y el 10% aproximadamente al definir la franja de copia de seguridad. (Esto es un aumento en comparación con el tiempo de copia de seguridad previsto al escribir en volúmenes no desduplicados).

Supervisión

La desduplicación de datos y DPM puede supervisarse para garantizar que:

  • El espacio en disco es suficiente para almacenar los datos de copia de seguridad

  • Los trabajos de copia de seguridad de DPM se completan con normalidad

  • La desduplicación se habilita en los volúmenes de copia de seguridad

  • Las programaciones de desduplicación se han establecido correctamente

  • El procesamiento de desduplicación se completa con normalidad diariamente

  • El porcentaje de ahorro de desduplicación coincide con los supuestos realizados para la configuración del sistema

El éxito de la desduplicación depende de las capacidades de hardware generales del sistema (incluyendo la velocidad de procesamiento de la CPU, el ancho de banda de E/S y la capacidad de almacenamiento), la configuración correcta del sistema, la carga media del sistema y la cantidad de datos modificados diariamente.

DPM se puede supervisar mediante la Consola central de DPM. Consulte Instalación de la Consola central.

Puede supervisar la desduplicación para comprobar el estado de la desduplicación, el porcentaje de ahorro y el estado de la programación mediante los siguientes comandos de PowerShell:

Obtener estado:

PS C:\> Get-DedupStatus
FreeSpace SavedSpace OptimizedFiles InPolicyFiles Volume
-------------- ---------- -------------- ------------- ------
280.26 GB 529.94 GB 36124 36125 X:
151.26 GB 84.19 GB 43017 43017 Z:

Obtener ahorro:

PS C:\> Get-DedupVolume
Enabled SavedSpace SavingsRate Volume
------- ---------- ----------- ------
True 529.94 GB 74 % X:

Obtener el estado de la programación mediante el cmdlet Get-DedupSchedule.

Eventos de supervisión

La supervisión del registro de eventos puede ayudar a comprender el estado y los eventos de desduplicación.

  • Para ver los eventos de desduplicación, en el Explorador de archivos, vaya a Registros de aplicaciones y servicios > Microsoft > Windows > Desduplicación.

  • Si el valor LastOptimizationResult = 0x00000000 aparece en los resultados de Windows PowerShell Get-DedupStatus |fl, el trabajo de optimización anterior procesó todo el conjunto de datos. De lo contrario, el sistema no pudo completar el procesamiento de desduplicación y es posible que desee comprobar las opciones de configuración como, por ejemplo. el tamaño del volumen.

Para obtener ejemplos de cmdlet detallados, consulte Monitor and Report for Data Deduplication (Supervisión e informes de desduplicación de datos.

Supervisión del almacenamiento de copia de seguridad

En nuestro ejemplo de configuración, los volúmenes de 7,2 TB se rellenan con 10 TB de datos "lógicos" (el tamaño de los datos cuando no están desduplicados) y almacenan en 10 archivos VHDX dinámicos de 1 TB. Dado que estos archivos acumulan datos de copia de seguridad adicionales, rellenan el volumen lentamente. Si el porcentaje de ahorro resultante de la desduplicación es bastante alto, los 10 archivos podrán alcanzar el tamaño lógico máximo, pero seguirán ajustándose al volumen de 7,2 TB (es posible que quede espacio adicional para asignar archivos VHDX adicionales para que los usen los servidores DPM). No obstante, si el ahorro de tamaño de la desduplicación no es suficiente, el espacio del volumen podría agotarse antes de que los archivos VHDX alcancen su tamaño lógico total, y el volumen estará lleno. Para evitar que los volúmenes se llenen, se recomienda lo siguiente:

  • Ser conservador en los requisitos de tamaño de volumen y dejar algún exceso de almacenamiento. Se recomienda permitir un búfer de al menos un 10% al planificar el uso de almacenamiento de copia de seguridad para permitir la variación prevista en el ahorro de la desduplicación y la renovación de datos.

  • Supervisar los volúmenes utilizados para el almacenamiento de copia de seguridad a fin de garantizar que los porcentajes de uso de espacio y ahorro de la desduplicación se encuentran dentro de los niveles previstos.

Si el volumen se llena, se observarán los síntomas siguientes:

  • La máquina virtual DPM se colocará en un estado crítico de pausa y la máquina virtual no podrá emitir más trabajos de copia de seguridad.

  • Se producirá un error en todos los trabajos de copia de seguridad que utilicen los archivos VHDX del volumen completo.

Para recuperarse de esta condición y restaurar el sistema a su funcionamiento normal, se puede aprovisionar almacenamiento adicional y realizar una migración de almacenamiento de la máquina virtual DPM o su VHDX para liberar espacio:

  1. Detenga el servidor DPM que posee los archivos VHDX en el recurso compartido de copia de seguridad completa.

  2. Cree un volumen adicional y un recurso compartido de copia de seguridad con la misma configuración que los recursos compartidos existentes, incluidas las opciones para NTFS y desduplicación.

  3. Migre el almacenamiento de la máquina virtual del servidor DPM y migre al menos un archivo VHDX desde el recurso compartido de copia de seguridad completa al nuevo recurso de copia de seguridad creado en el paso 2.

  4. Ejecute un trabajo de recopilación de elementos no utilizados (GC) de desduplicación de datos en el recurso compartido copia de seguridad de origen que estaba lleno. El trabajo de GC debe realizarse correctamente y recuperar el espacio libre.

  5. Reinicie la máquina virtual del servidor DPM.

  6. Se desencadenará un trabajo de comprobación de coherencia de DPM durante la siguiente franja de copia de seguridad para todos los orígenes de datos que habían fallado anteriormente.

  7. Todos los trabajos de copia de seguridad deberían realizarse ahora correctamente.

Conclusión

La combinación de desduplicación y DPM proporciona un ahorro de espacio considerable. Esto permite mayores tasas de retención, copias de seguridad más frecuentes y un TCO mejorado para la implementación de DPM. La orientación y las recomendaciones de este documento deben proporcionarle las herramientas y los conocimientos necesarios para configurar la desduplicación para el almacenamiento de DPM, así como para descubrir las ventajas por sí mismo en su propia implementación.

Preguntas más frecuentes

P: Los archivos VHDX de DPM deben tener un tamaño de 1 TB. ¿Significa esto que DPM no puede realizar la copia de seguridad de un volumen de máquina virtual, SharePoint o SQL DB o archivo de tamaño > 1 TB?

R: No. DPM acumula varios volúmenes en uno para almacenar las copias de seguridad. Por lo tanto, el tamaño de archivo de 1 TB no tiene las implicaciones de tamaños de origen de datos de los que DPM puede crear la copia de seguridad.

P: Parece que los archivos VHDX de almacenamiento DPM deben implementarse en recursos compartidos de archivos SMB remotos solamente. ¿Qué sucederá si almaceno los archivos VHDX de copia de seguridad en volúmenes habilitados para la desduplicación en el mismo sistema donde se está ejecutando la máquina virtual DPM?

R: Como hemos explicado anteriormente, DPM, Hyper-V y la desduplicación son operaciones intensivas de almacenamiento y cálculo. La combinación de las tres en un único sistema puede dar lugar a operaciones intensivas de E/S y de proceso que podrían privar a Hyper-V y sus máquinas virtuales. Si decide probar la configuración de DPM en una máquina virtual con los volúmenes de almacenamiento de copia de seguridad en el mismo equipo, debe supervisar el rendimiento con atención para asegurarse de que hay suficiente ancho de banda de E/S y calcular la capacidad para mantener las tres operaciones en el mismo equipo.

P: Se recomienda configurar franjas de copia de seguridad y desduplicación dedicadas e independientes. ¿Por qué no puedo habilitar la desduplicación mientras DPM realiza copias de seguridad? Necesito realizar la copia de seguridad de mi base de datos SQL cada 15 minutos.

R: La desduplicación y DPM son operaciones intensivas de almacenamiento y ejecutarlas al mismo tiempo puede ser ineficaz y conducir al colapso de E/S. Por lo tanto, la protección de las cargas de trabajo más de una vez al día (por ejemplo SQL Server cada 15 minutos) y la habilitación de la desduplicación al mismo tiempo garantizan que la capacidad del equipo y el ancho de banda de E/S son suficientes para evitar el agotamiento de los recursos.

P: Según la configuración descrita, DPM debe ejecutarse en una máquina virtual. ¿Por qué no puedo habilitar la desduplicación en el volumen de réplica y los volúmenes de instantáneas directamente en lugar de en archivos VHDX?

R: La desduplicación se realiza por volumen operativo en archivos individuales. Puesto que la desduplicación se optimiza en el nivel de archivo, no está diseñada para admitir la tecnología VolSnap que DPM usa para almacenar sus datos de copia de seguridad. Al ejecutar DPM en una máquina virtual, Hyper-V asigna las operaciones de volumen DPM en el nivel de archivo VHDX, lo que permite que la desduplicación optimice los datos de copia de seguridad y proporcione un mayor ahorro de almacenamiento.

P: La configuración del ejemplo anterior ha creado solo volúmenes de 7,2 TB. ¿Puedo crear volúmenes mayores o menores?

R: La desduplicación ejecuta un subproceso por volumen. Dado que el tamaño del volumen es mayor, la desduplicación requiere más tiempo para completar su optimización. Por otro lado, con volúmenes pequeños, existen menos datos en los que buscar fragmentos duplicados, lo que puede dar como resultado ahorros reducidos. Por lo tanto, es conveniente ajustar el tamaño del volumen en función de la renovación total y las capacidades de hardware del sistema para conseguir un ahorro óptimo. Para obtener más información acerca de cómo determinar los tamaños de los volúmenes con la desduplicación, consulte Sizing Volumes for Deduplication in Windows Server (Definición del tamaño de los volúmenes para la desduplicación en Windows Server). Para obtener más información acerca de cómo determinar los tamaños de los volúmenes con la desduplicación, consulte Sizing Volumes for Data Deduplication (Definición del tamaño de los volúmenes para la desduplicación de datos).