Дедупликация хранилища DPM

 

Опубликовано: Март 2016

В этом документе описано, как уменьшить степень использования хранилища DPM при помощи функции дедупликации хранилища. По этому сценарию DPM запускается на виртуальной машине Hyper-V и сохраняет данные резервного копирования на VHD в общих папках на файловом сервере Windows при включении дедупликации данных.

Обзор

В современных условиях администраторы ИТ сталкиваются с серьезной проблемой стремительного роста объемов данных. На приведенном ниже рисунке показан прогноз IDC относительно объемов общемировых данных до 2020 г. Рост объемов данных предприятия приводит к увеличению потребностей в хранении резервных копий.

DPM and deduplication

Увеличиваются затраты на обслуживание и приобретение оборудования. Как показано ниже, 62 % ИТ-администраторов озабочены растущими затратами на оборудование и программное обеспечение и их обслуживание. Полный отчет приводится в статье Касается ли вас взрывной рост объемов данных в блоге «Информатика».

DPM Deduplication

ИТ-администраторы выполняют резервное копирование производственных данных на случай их оперативного восстановления и в целях соответствия требованиям к организации. По своей природе резервное копирование является процедурой, для которой требуется очень большой объем хранилища. Уменьшение степени расходования места в хранилище резервных копий является одной из приоритетных задач для ИТ-администраторов.

Уменьшить расходование места в хранилище можно, используя функцию дедупликации. Хотя степень избыточности в любом наборе данных зависит от рабочей нагрузки и используемого типа данных, как правило, применение дедупликации при хранении резервных данных дает значительную экономию. Дополнительная избыточность и, соответственно, возможность для дополнительной экономии от дедупликации наблюдается при совместной обработке данных резервного копирования, взятых из похожих рабочих нагрузок, использующих похожие наборы данных. DPM использует дедупликацию, чтобы предоставить следующие преимущества.

Общие сведения о DPM

System Center Data Protection Manager — это корпоративное решение для резервного копирования, которое предоставляет следующие возможности.

  • Резервное копирование и восстановление на уровне приложений. DPM защищает клиентов, серверы, виртуальные машины, данные файлового сервера и рабочие нагрузки приложений. Имеется возможность гибкой настройки параметров резервного копирования. Для некоторых рабочих нагрузок можно установить режим резервного копирования с периодичностью 15 минут. DPM имеет широкий спектр возможностей восстановления. Например, клиент может заменить текущую рабочую базу данных SQL Server более старой копией, восстановить базу данных в другое расположение для изучения или восстановить ее в виде файлов для предоставления копии в юридический отдел. DPM помогает ИТ-администраторам выбрать необходимый им тип восстановления. DPM поддерживает восстановление для конечных пользователей. Например, администратор SQL, администратор файловой системы или клиентский пользователь могут восстановить все данные напрямую без помощи администратора.

    В динамической среде рабочие серверы постоянно создают новые данные. DPM обеспечивает спокойствие администраторам по резервному копированию, гарантируя защиту на уровне экземпляра, при которой автоматически обнаруживаются и настраиваются новые данные, создаваемые рабочими нагрузками. Администраторам по резервному копированию не нужно вручную отыскивать новые экземпляры данных и добавлять их в конфигурацию резервного копирования.

  • Масштабирование предприятия и централизованное управление: один сервер DPM может защищать до 80 ТБ рабочих данных или 100 рабочих серверов. С целью централизованного управления вы можете развернуть центральную консоль DPM и управлять из одного места множеством серверов (до 100 серверов DPM). Центр отчетов DPM позволяет быстро создавать пользовательские отчеты для всех серверов DPM.

  • Эффективная защита частного облака. Независимо от того, настроен ли ваш центр обработки данных частного облака на работу виртуальных машин Hyper-V на автономных серверах или на серверах Windows с удаленным подключением к общим файловым ресурсам SMB на файловых серверах Windows, DPM может эффективно резервировать данные виртуальных машин с использованием собственной уникальной технологии резервного копирования данных.

    Например, DPM сам обнаруживает миграцию виртуальной машины и продолжает автоматически защищать ее без какого-либо активного участия администратора по резервному копированию. Если виртуальная машина перемещается с одного узла на другой, тот же сервер DPM будет продолжать резервное копирование без изменений в DPM и ручных операций.

  • Резервное копирование, интегрированное в облако. DPM обладает достаточной гибкостью для защиты рабочих нагрузок, развернутых в различных местах: в частном облаке Hyper-V, в общедоступном облаке Azure или в облаке поставщика услуг размещения. Компании, запускающие рабочие нагрузки Майкрософт в Azure, могут использовать DPM, выполняющийся в Azure, чтобы защитить эти рабочие нагрузки. DPM поддерживает внешнее резервное копирование Azure с использованием службы резервного копирования Azure. Служба резервного копирования Azure интегрирована в рабочие процессы защиты и восстановления DPM. Она позволяет упростить управление параметрами внешнего резервного копирования и обеспечить сохранность данных в течение многих лет. Резервное копирование Azure служит альтернативой резервному копированию на ленту, с присущей этому необходимостью доставки и обслуживания ленты. Администраторы по резервному копированию теперь полностью свободны от неудобств, связанных с обслуживанием ленты.

Обзор дедупликации данных

Дедупликация данных была введена в Windows Server 2012 как очередная замена для функции хранения данных одного экземпляра (SIS) в Windows Storage Server 2008. В ней используется алгоритм фрагментации с переменным размером блока, позволяющий получить максимальную экономию от дедупликации на том. Для сохранения семантики файловой системы и снижения влияния на производительность основного пути данных используется алгоритм анализа после обработки. Дополнительные сведения см. в разделе Обзор дедупликации данных.

Система дедупликации данных предназначена для установки на основных томах данных без добавления специального дополнительного оборудования. Она не влияет на основную рабочую нагрузку сервера. Параметры по умолчанию задают не слишком жесткий режим, поскольку позволяют выдерживать пять дней перед обработкой определенного файла и определяют минимальный размер файла 32 КБ. Реализация рассчитана на низкий уровень использования памяти и ЦП. Дедупликация может быть реализована на следующих рабочих нагрузках.

  • Общие файловые ресурсы: публикация содержимого групп и совместное использование, домашние папки пользователей, файлы перенаправления папок и автономные файлы.

  • Общие ресурсы развертывания программного обеспечения: двоичные файлы программ, изображения, обновления.

  • Библиотеки виртуального жесткого диска: хранилище файлов виртуального жесткого диска (VHD) для обеспечения гипервизоров.

  • Развертывания VDI (только для Windows Server 2012 R2): развертывания инфраструктуры виртуальных рабочих столов (VDI) с помощью Hyper-V.

  • Виртуализированное резервное копирование: решения резервного копирования (например, DPM, работающие на виртуальной машине Hyper-V), использующие сохранение данных резервных копий в файлах VHD/VHDX на файловом сервере Windows.

Узнайте больше о планировании дедупликации.

Преимущества для бизнеса

Применение дедупликации с использованием DPM позволит получить большую экономию. Объем пространства, освобождаемого при дедупликации с оптимизацией данных резервного копирования DPM, зависит от типа резервируемых данных. Например, при резервировании сервера зашифрованной базы данных экономия может получиться незначительной, поскольку в процессе шифрования скрываются все повторяющиеся данные. Напротив, резервирование крупномасштабного развертывания инфраструктуры виртуальных рабочих столов (VDI) может дать существенную экономию (70–90 %), поскольку обычно наблюдается большая степень дублирования данных между средами виртуальных рабочих столов. В конфигурации, описанной в этом разделе, мы запускали разнообразные тестовые нагрузки и получали экономию от 50 до 90 %.

Рекомендации по развертыванию

Для развертывания DPM в качестве виртуальной машины, выполняющей резервное копирование данных на дедуплицированный том, рекомендуется использовать следующую топологию развертывания.

  • DPM, выполняющийся на виртуальной машине в кластере узлов Hyper-V.

  • Хранилище DPM, использующее файлы VHD/VHDX, хранящиеся в общей папке SMB 3.0 на файловом сервере.

  • Для этого примера развертывания был настроен файловый сервер как масштабируемый файловый сервер SOFS, использующий тома хранилища, взятые из пулов дисковых пространств, построенных с использованием непосредственно подключенных дисков SAS. Обратите внимание на то, что это развертывание обеспечивает производительность в масштабе.

Dedup and VHDX

Обратите внимание на следующее условия:

  • Этот сценарий поддерживается для DPM 2012 R2.

  • Сценарий поддерживается для всех рабочих нагрузок, для которых может выполняться резервное копирование данных с помощью DPM 2012 R2.

  • Все узлы файлового сервера Windows, на которых находятся виртуальные жесткие диски DPM и на которых будет включена дедупликация, должны работать под управлением Windows Server 2012 R2 с накопительным пакетом обновления за ноябрь 2014 г..

Корпорация Майкрософт будет предоставлять общие рекомендации и инструкции по развертыванию сценария. Каждый раз, когда приводятся примеры, относящиеся к оборудованию, имеется в виду оборудование, развернутое в системе облачной платформы Майкрософт (CPS).

Протестированное оборудование

В этом сценарии используются удаленные общие ресурсы SMB 3.0 для хранения резервных копий данных, поэтому требования к основному оборудованию формируются на основе параметров узлов файлового сервера, а не к узлов Hyper-V. Следующая конфигурация оборудования используется в CPS для хранения резервных копий и рабочих данных. Обратите внимание, что для хранения резервных копий и рабочих данных используется одно и то же оборудование, однако количество дисков, указанное на корпусах с дисками, учитывает только те диски, которые используются для резервного копирования.

  • Кластер масштабируемых файловых серверов из 4 узлов

  • Конфигурация на каждый узел

    • 2 ЦП Intel(R) Xeon(R) E5-2650 0 @ 2,0 ГГц, 2001 МГц, 8 ядер, 16 логических процессоров

    • RDIMM память 128 ГБ 1333 МГц

    • Подключения к хранилищу: 2 порта SAS, 1 порт 10GbE iWarp/RDMA

  • 4 корпуса с дисками JBOD

    • 18 дисков в каждом корпусе JBOD — 16 x 4 ТБ HDD + 2 x 800 ГБ SSD

    • Два пути для каждого диска — политика балансировки нагрузки на многопутевую систему ввода-вывода, настроенная только на отработку отказов

    • Службы SSD, настроенные на кэш обратной записи (WBC), а остальные — на выделенные диски журналов

Планирование и настройка дедуплицированных томов

Давайте рассмотрим, насколько большими должны быть тома, чтобы они могли поддерживать дедуплицированные VHDX-файлы, содержащие данные DPM. В CPS мы создали тома по 7,2 ТБ каждый. Оптимальный объем зависит главным образом от того, насколько много и насколько часто меняются данные в томе, а также от скорости передачи данных в подсистеме дискового хранилища. Важно отметить, что, если при дедупликации ежедневно меняющиеся данные (обновления) не успевают обрабатываться, экономия уменьшится до завершения обработки. Дополнительные сведения см. в разделе Определение размеров томов для дедупликации данных. При дедупликации томов рекомендуется придерживаться следующих общих рекомендаций.

  • Использовать дисковые пространства с контролем четности с контролем наличия корпуса для увеличения гибкости и улучшения использования дискового пространства.

  • Форматировать в NTFS с размером единицы распределения 64 КБ и сегментами записи больших файлов, чтобы функция дедупликации лучше работала с разреженными файлами.

  • В конфигурации оборудования, приведенной выше, рекомендуемый размер тома — 7,2 ТБ и тома будут настроены следующим образом.

    • Контроль наличия корпуса, двойная четность, 7,2 ТБ + 1 ГБ кэша обратной записи

      • ResiliencySettingName == Parity

      • PhysicalDiskRedundancy == 2

      • NumberOfColumns == 7

      • Interleave == 256KB (Производительность при двойной четности с чередованием 64 КБ значительно ниже, чем с чередованием 256 КБ, заданным по умолчанию)

      • IsEnclosureAware == $true

      • AllocationUnitSize=64KB

      • Large FRS

      Настройте новый виртуальный диск в указанном пуле носителей следующим образом.

      New-VirtualDisk -Size 7.2TB -PhysicalDiskRedundancy 2 -ResiliencySettingName Parity -StoragePoolFriendlyName BackupPool -FriendlyName BackupStorage -NumberOfColumns 7 -IsEnclosureAware $true
      
    • Каждый из этих томов необходимо затем отформатировать в:

      Format-Volume -Partition <volume> -FileSystem NTFS -AllocationUnitSize 64KB –UseLargeFRS -Force
      

      В развертывании CPS они затем настраиваются как CSV.

    • В этих томах DPM будет хранить последовательность VHDX-файлов для хранения резервных копий данных. Включите дедупликацию в томе после завершения его форматирования, как описано ниже.

      Enable-DedupVolume –Volume <volume> -UsageType HyperV
      Set-DedupVolume -Volume <volume> -MinimumFileAgeDays 0 -OptimizePartialFiles:$false
      

      Эта команда также изменяет следующие параметры уровня дедупликации тома:

      • Задайте для параметра UsageType значение Hyper-v: это задает выполнение дедупликации открытых файлов, которая необходима, поскольку VHDX-файлы, используемые DPM для хранения резервных копий, остаются открытыми в случае запуска DPM в своей виртуальной машине.

      • Отключите PartialFileOptimization: это задает выполнение дедупликации в режиме оптимизации всех разделов открытого файла, а не в режиме поиска измененных разделов с минимальным возрастом.

      • Задайте для параметра MinFileAgeDays значение 0: с отключенным параметром PartialFileOptimization параметр MinFileAgeDays определяет такой режим, при котором дедупликация выполняется только для тех файлов, которые не были изменены в течение этого количества дней. Поскольку мы хотим начать дедупликацию данных резервного копирования во всех файлах DPM VHDX без задержки, нам нужно указать для параметра MinFileAgeDays значение 0.

Дополнительные сведения о настройке дедупликации см. в разделе Установка и настройка дублирования данных.

Планирование и настройка хранилища DPM

Чтобы избежать проблем с фрагментацией и сохранить эффективность, хранилище DPM размещается с использованием VHDX-файлов, находящихся на дедуплицированных томах. 10 динамических VHDX-файлов по 1 ТБ каждый создается в каждом томе и прикрепляется к DPM. Обратите внимание, что для того, чтобы воспользоваться выигрышем от дедупликации, выделяется 3 ТБ избыточного объема в хранилище. По мере того как при выполнении дедупликации будет освобождаться дополнительное пространство в хранилище, могут создаваться новые VHDX-файлы в этих томах, чтобы занять освобождающееся место. Мы протестировали сервер DPM с присоединенными к нему VHDX-файлами в количестве до 30.

  1. Выполните следующую команду, чтобы создать виртуальные жесткие диски, которые будут добавлены позже на сервер DPM.

    New-SCVirtualDiskDrive -Dynamic -SCSI -Bus $Bus -LUN $Lun -JobGroup $JobGroupId -VirtualHardDiskSizeMB 1048576 -Path $Using:Path -FileName <VHDName>
    
  2. Затем добавьте созданные виртуальные жесткие диски на сервер DPM следующим образом.

    Import-Module "DataProtectionManager"
    Set-StorageSetting -NewDiskPolicy OnlineAll
    $dpmdisks = @()
    $dpmdisks = Get-DPMDisk -DPMServerName $env:computername | ? {$_.CanAddToStoragePool –
    eq $true -and $_.IsInStoragePool -eq $false -and $_.HasData -eq $false}
    Add-DPMDisk $dpmdisks
    

    Обратите внимание, что на этом шаге выполняется настройка пула носителей в качестве диска или дисков, на которых DPM хранит реплики и точки восстановления для защищенных данных. Этот пул является частью конфигурации DPM и отделен от пула дисковых пространств, используемого для создания томов данных, описанных в предыдущем разделе. Дополнительные сведения о пулах носителей DPM см. в разделе Конфигурация дискового пространства и пулов носителей.

Планирование и настройка кластера файлового сервера Windows

Для дедупликации требуется специальный набор параметров конфигурации для поддержки виртуализированного хранилища DPM в соответствии с масштабом данных и размером отдельных файлов. Эти параметры являются глобальными для кластера или узла кластера. Включить дедупликацию и настроить параметры кластера необходимо отдельно на каждом узле кластера.

  1. Включить дедупликацию в хранилище файлового сервера Windows. Роль дедупликации должна быть установлена на всех узлах кластера файлового сервера Windows. Чтобы сделать это, выполните на каждом узле кластера следующую команду PowerShell.

    Install-WindowsFeature -Name FileAndStorage-Services,FS-Data-Deduplication -ComputerName <node name>
    
  2. Настроить дедупликацию для файлов данных резервных копий. Чтобы запустить оптимизацию без задержки и не оптимизировать частичные записи файлов, выполните следующую команду PowerShell. Обратите внимание на то, что задания сборки мусора по умолчанию запланированы еженедельно, а каждую четвертую неделю задание сборки мусора выполняется в режиме «глубокой сборки» — более тщательного и продолжительного поиска данных, требующих удаления. Для рабочей нагрузки DPM этот режим «глубокой сборки мусора» не дает заметного выигрыша, но сокращает количество времени, которое можно использовать для дедупликации данных. Поэтому мы отключаем этот режим.

    Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name DeepGCInterval -Value 0xFFFFFFFF
    
  3. Настроить производительность для крупномасштабных операций. Запустите следующий сценарий PowerShell, чтобы:

    • отключить дополнительную обработку и операции ввода-вывода при выполнении глубокой сборки мусора;

    • зарезервировать дополнительную память для обработки хэша;

    • включить приоритетную оптимизацию, чтобы разрешить немедленную дефрагментацию больших файлов.

    Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name HashIndexFullKeyReservationPercent -Value 70
    Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name EnablePriorityOptimization -Value 1
    

    Эти параметры определяют следующие режимы.

    • HashIndexFullKeyReservationPercent: это значение определяет, какой объем памяти задания оптимизации используется для существующих хэшей блоков в сравнении с новыми хэшами блоков. На больших масштабах значение 70 % дает большую производительность оптимизации, чем значение по умолчанию 50 %.

    • EnablePriorityOptimization: в файлах с размером, приближающимся к 1 ТБ, при фрагментации может образоваться столько фрагментов, что их число станет близким к заданному пороговому значению для одного файла. При оптимизации эти фрагменты будут объединены и это позволит предотвратить достижение заданного ограничения. Установка этого раздела реестра позволяет добавлять при дедупликации дополнительные процедуры обработки дедуплицированных файлов с высокой степенью фрагментации, имеющих высокий приоритет.

Планирование и настройка DPM и планирование дедупликации

Операции резервного копирования и дедупликации являются операциями с большим объемом ввода-вывода. Если они будут выполняться в одно и то же время, дополнительные затраты на переключение между операциями может оказаться значительным и привести к тому, что за день будет зарезервирован или дедуплицирован меньший объем данных. Мы рекомендуем определить отдельные специальные окна для дедупликации и для резервного копирования. Это позволит гарантировать, что трафик ввода-вывода для каждой из этих операций будет эффективно распределен по времени ежедневной работы системы. Имеются следующие рекомендации по планированию.

  • Разбейте дни на неперекрывающиеся периоды для резервного копирования и для дедупликации.

  • Настройте пользовательские расписания резервного копирования.

  • Настройте пользовательские расписания дедупликации.

  • Спланируйте оптимизацию в окне дедупликации ежедневного расписания.

  • Настройте расписания дедупликации на выходные дни отдельно, используя это время для заданий сборки мусора и очистки.

Расписания DPM можно настроить с помощью следующей команды PowerShell.

Set-DPMConsistencyCheckWindow -ProtectionGroup $mpg -StartTime $startTime –
DurationInHours $duration
Set-DPMBackupWindow -ProtectionGroup $mpg -StartTime $startTime –DurationInHours
$duration

В этой конфигурации DPM настроен на выполнение резервного копирования виртуальных машин в интервале времени от 22:00 до 6:00. Дедупликация запланирована на оставшиеся 16 часов суток. Обратите внимание на то, что фактическое время дедупликации, задаваемое в расписании, будет зависеть от размера тома. Дополнительные сведения см. в разделе Определение размеров томов для дедупликации данных. Окно дедупликации продолжительностью 16 часов, начинающееся с 6:00 после завершения окна резервного копирования, настраивается с любого узла кластера следующим образом.

#disable default schedule
Set-DedupSchedule * -Enabled:$false
#Remainder of the day after an 8 hour backup window starting at 10pm $dedupDuration = 16
$dedupStart = "6:00am"
#On weekends GC and scrubbing start one hour earlier than optimization job.
# Once GC/scrubbing jobs complete, the remaining time is used for weekend
# optimization.
$shortenedDuration = $dedupDuration - 1
$dedupShortenedStart = "7:00am"
#if the previous command disabled priority optimization schedule
#reenable it
if ((Get-DedupSchedule -name PriorityOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name PriorityOptimization -Enabled:$true
}
#set weekday and weekend optimization schedules
New-DedupSchedule -Name DailyOptimization -Type Optimization -DurationHours $dedupDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -Days Monday,Tuesday,Wednesday,Thursday,Friday
New-DedupSchedule -Name WeekendOptimization -Type Optimization -DurationHours $shortenedDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupShortenedStart -Days Saturday,Sunday
#re-enable and modify scrubbing and garbage collection schedules
Set-DedupSchedule -Name WeeklyScrubbing -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Sunday
Set-DedupSchedule -Name WeeklyGarbageCollection -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Saturday
#disable background optimization
if ((Get-DedupSchedule -name BackgroundOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name BackgroundOptimization -Enabled:$false
}

При изменении окна резервного копирования крайне важно, чтобы окно дедупликации было изменено вместе с ним, чтобы не получилось перекрытие окон. Окна дедупликации и резервного копирования не должны заполнять собой полностью все 24 часа суток, но настоятельно рекомендуется при их планировании учитывать изменения времени обработки, обусловленные ежедневными колебаниями рабочих нагрузок и объемов данных.

Вопросы, связанные с производительностью резервного копирования

После того как некоторый набор файлов будет дедуплицирован, при доступе к ним может возникнуть незначительное снижение производительности. Это связано с тем, что требуется дополнительная обработка для доступа к файлам в формате дедуплицированных файлов. В этом сценарии файлы представляют собой набор файлов VHDX, которые непрерывно используются DPM во время окна резервного копирования. Последствия дедупликации этих файлов заключаются в том, что операции резервного копирования и восстановления могут выполняться немного медленнее, чем без дедупликации. Как и любой продукт резервного копирования, DPM является тяжелой рабочей нагрузкой по операциям записи, а по операциям чтения он проявляет себя главным образом во время процедуры восстановления. По вопросам, связанным с производительностью резервного копирования и влиянием на нее дедупликации, предлагаются следующие рекомендации.

  • Операции чтения и восстановления. Влияние на операции чтения обычно незначительно и не требует особого внимания, поскольку функция дедупликации кэширует дедуплицированные фрагменты.

  • Операции записи и резервного копирования. При определении окна резервного копирования следует планировать увеличение времени создания резервных копий приблизительно на 5–10 %. (Это увеличение по сравнению с ожидаемым временем выполнения резервного копирования при записи на недедуплицированные тома.)

Мониторинг

За работой DPM и процессом дедупликации можно наблюдать с целью получения следующих сведений.

  • Для хранения резервных копий выделено достаточно места на диске.

  • Задания резервного копирования DPM выполняются нормально.

  • Дедупликация включена на резервных томах.

  • Расписания дедупликации заданы правильно.

  • Выполнение дедупликации проходит нормально каждый день.

  • Выигрыш от дедупликации соответствует предположениям, сделанным при конфигурации системы.

Успех дедупликации зависит от аппаратных возможностей системы в целом (включая быстродействие ЦП, пропускную способность системы ввода-вывода, емкость хранилища), конфигурации системы, среднего уровня нагрузки и ежедневного объема измененных данных.

Наблюдать за работой DPM можно с помощью центральной консоли DPM. См. раздел Установка центральной консоли.

Вы можете наблюдать за процессом дедупликации (проверять состояние дедупликации, получаемую экономию, состояние расписания), используя следующие команды PowerShell.

Получить состояние:

PS C:\> Get-DedupStatus
FreeSpace SavedSpace OptimizedFiles InPolicyFiles Volume
-------------- ---------- -------------- ------------- ------
280.26 GB 529.94 GB 36124 36125 X:
151.26 GB 84.19 GB 43017 43017 Z:

Получить экономию:

PS C:\> Get-DedupVolume
Enabled SavedSpace SavingsRate Volume
------- ---------- ----------- ------
True 529.94 GB 74 % X:

Получить состояние расписания с помощью командлета Get-DedupSchedule.

Мониторинг событий

Журнал мониторинга событий может помочь понять события дедупликации и состояние.

  • Чтобы просмотреть события дедупликации, в проводнике перейдите в раздел Журналы приложений и служб > Microsoft > Windows > Дедупликация.

  • Если значение LastOptimizationResult = 0x00000000 появится в результатах Get-DedupStatus |fl Windows PowerShell, значит, весь набор данных был обработан предыдущим заданием оптимизации. В противном случае это значит, что системе не удалось завершить выполнение дедупликации и имеет смысл проверить параметры конфигурации, например размер тома.

Более подробные примеры командлетов см. в разделе Мониторинг и создание отчетов по дедупликации данных.

Мониторинг резервного хранилища

В нашем примере конфигурации тома объемом 7,2 ТБ заполнены «логическими» данными на 10 ТБ (размер данных при отсутствии дедупликации), хранящимися в динамических файлах VHDX размером 10 x 1 ТБ. Поскольку эти файлы накапливают дополнительные данные резервных копий, они медленнее заполняют том. Если процент экономии, полученной в результате дедупликации, достаточно велик, все 10 файлов смогут достичь своего максимального логического размера, но при этом помещаться в томе размером 7,2 ТБ (потенциально может даже найтись дополнительное пространство для выделения дополнительных файлов VHDX для использования серверами DPM). Но если размер экономии от дедупликации будет невелик, место в томе может быть израсходовано до того, как VHDX-файлы достигнут своего максимального логического размера, и том будет заполнен. Для предотвращения переполнения томов рекомендуется принять следующие меры.

  • Не предъявлять слишком жестких требований к размеру тома и допускать некоторый избыток по объему хранилища. Рекомендуется оставить запас размером по крайней мере 10 % при планировании использования резервного хранилища для покрытия колебаний размера экономии от дедупликации и объема обрабатываемых данных.

  • Вести наблюдение за томами, используемыми для хранения резервных копий, чтобы контролировать использование пространства и размер экономии от дедупликации.

При переполнении тома появляются следующие симптомы.

  • Виртуальная машина DPM будет переведена в критическое состояние и приостановлена, новые задания резервного копирования не могут запускаться этой виртуальной машиной.

  • Все задания резервного копирования, использующие VHDX-файлы на переполненном томе, завершатся сбоем.

Чтобы исправить это положение и восстановить нормальную работу системы, можно выделить дополнительное пространство для хранения и выполнить перенос хранилища виртуальной машины DPM или его VHDX-файлов для освобождения места.

  1. Остановите сервер DPM, которому принадлежат VHDX-файлы, находящиеся в переполненном резервном ресурсе.

  2. Создайте дополнительный том и ресурс для резервных копий с использованием тех же параметров конфигурации, которые были использованы для существующих ресурсов, включая параметры файловой системы NTFS и дедупликации.

  3. Перенесите хранилище для виртуальной машины сервера DPM и перенесите по крайней мере один VHDX-файл из переполненного резервного ресурса на новый ресурс, созданный на шаге 2.

  4. Запустите задание сборки мусора дедупликации данных на исходном резервном ресурсе, который был переполнен. Задание должно успешно выполниться и освободить место.

  5. Перезапустите виртуальную машину сервера DPM.

  6. Во время следующего окна резервного копирования будет запущено задание DPM по проверке согласованности для всех источников данных, которые ранее вызывали сбой.

  7. Теперь все задания резервного копирования должны выполняться успешно.

Заключение

Использование дедупликации совместно с DPM обеспечивает значительную экономию места. Это позволяет получить более высокий коэффициент хранения, увеличить частоту выполнения резервного копирования и снизить совокупную стоимость владения развертывания DPM. Советы и рекомендации в этом документе должны дать вам средства и знания для настройки дедупликации хранилища DPM и продемонстрировать преимущества на примере вашего собственного развертывания.

Часто задаваемые вопросы

Вопрос. VHDX-файлы DPM должны быть размером 1 ТБ. Означает ли это, что DPM не может выполнять резервное копирование виртуальных машин, SharePoint, баз данных SQL Server или файловых томов размером более 1 ТБ?

Ответ. Нет. DPM объединяет несколько томов в один для хранения резервных копий. Таким образом, ограничение на размер файла 1 ТБ не имеет отношения к размерам источников данных, которые может резервировать DPM.

Вопрос. Создается впечатление, что VHDX-файлы хранилища DPM могут быть развернуты только на удаленных файловых ресурсах SMB. Что произойдет, если сохранить VHDX-файлы резервных копий на дедуплицированном томе на том же компьютере, на котором запущена виртуальная машина DPM?

Ответ. Как отмечалось выше, DPM, Hyper-V и дедупликация являются операциями, требующими больших объемов хранения и большой вычислительной мощности. Объединение в одной системе всех трех функций может привести к избыточному потреблению пропускной способности ввода-вывода и процессорной мощности, что может создать препятствия в работе Hyper-V и его виртуальных машин. Если вы решили поэкспериментировать с настройкой DPM на виртуальной машине с томами резервного хранилища на одном и том же компьютере, следует провести тщательные наблюдения за производительностью, чтобы убедиться, что имеется достаточно пропускной способности ввода-вывода и вычислительной мощности для обслуживания всех трех функций на одном компьютере.

Вопрос. Вы рекомендуете определить отдельные специальные окна для дедупликации и для резервного копирования. Почему нельзя включить дедупликацию во время резервирования, выполняемого DPM? Мне нужно создавать резервную копию моих баз данных SQL Server каждые 15 минут.

Ответ. Дедупликация и DPM являются операциями, требующими больших объемов хранения. Запуск обеих функций одновременно может оказаться неэффективным и привести к нехватке пропускной способности ввода/вывода. Таким образом, чтобы защищать рабочие нагрузки более одного раза в день (например, SQL Server каждые 15 минут) и включить дедупликацию в это же время, необходимо гарантировать, что имеется достаточно пропускной способности ввода-вывода и вычислительной мощности, чтобы избежать нехватки ресурсов.

Вопрос. Согласно описанной конфигурации DPM должен быть запущен на виртуальной машине. Почему нельзя включить дедупликацию на томе реплики и выполнять теневое копирование томов напрямую, а не на VHDX-файлы?

Ответ. Дедупликация выполняется по каждому тому с обработкой отдельных файлов. Поскольку оптимизация при дедупликации выполняется на уровне файлов, поддержка технологии VolSnap, которую DPM использует для хранения резервных копий данных, не предусмотрена. При работе DPM на виртуальной машине Hyper-V сопоставляет операции с томами DPM на уровне VHDX-файлов, что позволяет оптимизировать резервные копии данных и получать больше экономии пространства хранения при дедупликации.

Вопрос. В описанном примере конфигурации используются только тома размером 7,2 ТБ. Можно ли создавать тома большего или меньшего размера?

Ответ. При дедупликации запускается один поток для каждого тома. Если размер тома будет больше, потребуется больше времени для выполнения его оптимизации. С другой стороны, в томах меньшего размера находится меньше данных, в которых можно найти повторяющиеся блоки, а следовательно, экономия получится меньше. Таким образом, рекомендуется уточнить оптимальный размер тома с учетом общего объема обновлений и аппаратных возможностей системы. Более подробные сведения об определении размера тома, используемого при дедупликации, можно найти в разделе «Определение размеров томов для дедупликации в Windows Server». Более подробные сведения об определении размера тома, используемого при дедупликации, см. в разделе Определение размеров томов для дедупликации данных.