Обзор дедупликации данных

Статья
09/02/2016

Опубликовано: Август 2016

Применимо к: Windows Storage Server 2012, Windows Server 2012 R2, Windows Server 2012

В этой статье описывается компонент дедупликации данных в Windows Server 2012 R2 и Windows Server 2012 и поясняется его практическое применение.

Описание компонента

Дедупликация данных включает в себя поиск и удаление дублирующих данных без ущерба для качества и целостности. Целью этого процесса является уменьшение объема пространства, занимаемого данными. Файлы разбиваются на небольшие блоки переменного размера (32–128 КБ), среди них выявляются повторяющиеся и для каждого повторяющегося блока оставляется только одна копия. Избыточные копии блока заменяются ссылкой на единственную копию. Блоки сжимаются и упорядочиваются в специальных файлах контейнеров в папке System Volume Information.

Результатом становится преобразование каждого файла на диске, как показано на рис. 1. После дедупликации файлы больше не хранятся в качестве независимых потоков данных, а заменяются на заглушки, указывающие на блоки данных в общем хранилище блоков. Блоки, общие для нескольких файлов, хранятся только в виде одной копии, что уменьшает объем пространства, требуемый для хранения всех файлов. Во время обращения к файлу он собирается из соответствующих блоков и передается пользователю или приложению, которые даже не знают, что файл на диске подвергается преобразованию. Это позволяет администраторам применять дедупликацию к файлам, не беспокоясь об изменении поведения приложений или влиянии на доступ пользователей к файлам.

Рис. 1. Преобразование файлов на диске

Рисунок 1 Преобразование "на диске" файлов во время дедупликации данных

После включения дедупликации тома и оптимизации его данных он содержит следующее.

Неоптимизированные файлы. В число неоптимизированных файлов могут входить, например, файлы, которые не отвечают выбранным параметрам политики возраста файла, файлы состояния системы, альтернативные потоки данных, зашифрованные файлы, файлы с дополнительными атрибутами, файлы размером меньше 32 КБ, другие файлы точек повторного анализа или файлы, используемые другими приложениями (в Windows Server 2012 R2 снято ограничение на использование).
Оптимизированные файлы. Файлы, сохраненные как точки повторного анализа, которые содержат указатели на сопоставление соответствующих блоков в хранилище блоков. Такое сопоставление необходимо для восстановления файла, когда он запрашивается.
Хранилище блоков. Расположение данных оптимизированных файлов.
Дополнительное свободное пространство. Оптимизированные файлы и хранилище блоков занимают меньше места, чем они занимали до оптимизации.

Практическое применение

Чтобы справиться с увеличением объема хранилища данных в организации, администраторы консолидируют серверы, и ключевыми задачами становятся масштабирование емкости и оптимизация данных. Дедупликация данных предоставляет практические способы решения таких задач, включая следующие.

Оптимизация емкости. Дедупликация данных позволяет хранить больше данных на меньшем физическом пространстве. При этом повышается эффективность хранения по сравнению с использованием функций хранилища единственных копий (SIS) или сжатия NTFS. При дедупликации данных применяется разбиение на блоки переменного размера внутри файлов и сжатие, что способствует достижению коэффициента оптимизации 2:1 для обычных файловых серверов и 20:1 для виртуализированных данных.
Масштаб и производительность. Дедупликация данных является высокомасштабируемой, ресурсоэффективной и незаметной. Она может обрабатывать до 50 МБ в секунду в Windows Server 2012 R2 и около 20 МБ в секунду в Windows Server 2012. Она выполняется в нескольких томах одновременно без ущерба для других рабочих нагрузок на сервере. Слабое влияние на рабочую нагрузку сервера обеспечивается регулированием потребления ресурсов ЦП и оперативной памяти. Когда сервер сильно загружен, дедупликация может полностью остановиться. Кроме того, администраторы могут выполнять задания дедупликации в любое время, задавать расписание для выполнения дедупликации данных и устанавливать политики выбора файлов.
Надежность и целостность данных. При дедупликации данных поддерживается их целостность. Дедупликация данных использует контрольные суммы, согласованность и проверку удостоверений для обеспечения целостности данных. Также для всех метаданных и данных, на которые наиболее часто ссылаются, дедупликация данных поддерживает избыточность, чтобы гарантировать возможность восстановления данных в случае повреждения.
Эффективность использования пропускной способности с BranchCache. При интеграции с BranchCache эти же способы оптимизации применяются к данным, передаваемым в филиал через глобальную сеть. Результатом является более высокая скорость загрузки файлов и снижение использования пропускной способности.
Управление оптимизацией с помощью привычных средств. Оптимизированные функции дедупликации данных встроены в диспетчер сервера и Windows PowerShell. Параметры по умолчанию позволяют получить экономию немедленно. Для получения большего эффекта администраторы могут выполнять настройку параметров. Можно легко использовать командлеты Windows PowerShell, чтобы запускать задания оптимизации или планировать такие задания на будущее. Установить компонент дедупликации данных и разрешить дедупликацию на выбранных томах можно также с помощью файла Unattend.xml, который вызывает сценарий Windows PowerShell и может быть использован с Sysprep для развертывания дедупликации при первой загрузке системы.

Новые и измененные функции

Ниже перечислены изменения в функциональных возможностях дедупликации данных. Дополнительные сведения см. в разделе Новые возможности дедупликации данных в Windows Server.

Компонент или функциональная возможность	Новый или обновленный компонент	Описание
Дедупликация данных удаленного хранилища рабочих нагрузок инфраструктуры виртуальных рабочих столов (VDI)	Новые возможности в Windows Server 2012 R2	Оптимизируйте активные виртуальные жесткие диски (VHD) для рабочих нагрузок инфраструктуры виртуальных рабочих столов (VDI) с помощью дедупликации данных для общих томов кластера (CSV).
Разверните оптимизированный файл в его исходном пути	Новые возможности в Windows Server 2012 R2	Используйте новый командлет Expand-DedupFile в Windows PowerShell, чтобы при необходимости развернуть оптимизированные файлы по указанному пути на исходном пути для обеспечения совместимости с приложениями, производительности или соответствия другим требованиям. Дополнительные сведения о командлете см. в статье T:Deduplication.Expand-DedupFile.
Дедупликация данных для томов резервного копирования, которые используются виртуализированными приложениями резервного копирования	Новые возможности в Windows Server 2012 R2	Оптимизация активных виртуальных жестких дисков (VHD), которые используются рабочими нагрузками виртуализированных приложений резервного копирования за счет реализации дедупликации данных для общих томов кластера (CSV) или для ограниченных гиперконвергентных конфигураций. (Поддерживается в Windows Server 2012 R2 с накопительным пакетом обновления за ноябрь 2014 г. (KB 3000850) или более поздней версии.)

Требования

Чтобы воспользоваться преимуществами дедупликации данных, среда должна удовлетворять следующим требованиям:

Сервер: один компьютер или виртуальная машина под управлением Windows Server 2012 R2 или Windows Server 2012 хотя бы с одним томом данных.
(Необязательно.) Еще один компьютер или виртуальная машина под управлением Windows Server 2012 R2 или Windows Server 2012, подключенный к серверу по сети.
Важно!

Если дедупликация данных выполняется для инфраструктуры VDI или виртуализированных рабочих нагрузок резервного копирования, VHD-файлы должны:
- храниться на файловом сервере под управлением Windows Server 2012 R2, где узел хранилища и вычислительный узел работают на разных серверах;
- храниться в локальном хранилище на определенных ограниченных гиперконвергентных конфигурациях. Подробные требования см. в статье Планирование развертывания дедупликации данных.

Взаимодействие с виртуальными машинами Azure

Можно запустить эту службу роли Windows Server на виртуальной машине в Azure. Этот сценарий протестирован на Windows Server 2012 R2. Рекомендуется использовать дедупликацию данных на виртуальных машинах Microsoft Azure с томами, для которых часто выполняются операции чтения и редко — записи. В этих случаях дедупликация данных позволяет эффективно хранить больший объем данных в виртуальных машинах Azure.

Следующие рабочие нагрузки могут быть хорошими кандидатами для использования с дедупликацией данных на виртуальных машинах Azure:

Общие файловые серверы с относительно статическим содержимым.
Сайты Microsoft SharePoint с относительно статическим содержимым.
Веб-сайты с относительно статическим содержимым.

Следующие рабочие нагрузки не рекомендуется использовать совместно с дедупликацией данных на виртуальных машинах Azure из-за частоты изменений в больших файлах, используемых рабочими нагрузками:

Серверы обмена сообщениями, например Microsoft Exchange Server.
Серверы баз данных, например Microsoft SQL Server.

Дополнительные сведения о начале работы с виртуальными машинами Azure см. на веб-сайте Azure.

Обзор архитектуры

Компонент дедупликации данных состоит из драйвера-фильтра, который контролирует локальный или удаленный ввод-вывод и службы дедупликации, которая контролирует три типа доступных заданий ("Сборка мусора", "Оптимизация" и "Очистка").

Архитектуре дедупликации свойственна устойчивость к сбоям в работе оборудования благодаря полной проверке контрольных сумм данных и метаданных, включая избыточные копии метаданных и наиболее популярных блоков данных.

Дедупликация данных потенциально может обрабатывать все данные на выбранном томе (за исключением файлов менее 32 КБ, файлов в исключенных папках или файлов, к которым применены параметры возраста). Перед включением дедупликации необходимо точно определить, являются ли сервер и подключенные к нему тома подходящими кандидатами. Настоятельно рекомендуется во время дедупликации регулярно создавать резервные копии важных данных.

См. также:

Дополнительные сведения по данной теме см. на следующих ресурсах.

Тип содержимого	Ссылок
Оценка продукта	Расширение дедупликации данных на новые рабочие нагрузки в Windows Server 2012 R2
Развертывание	Развертывание дедупликации данных для хранилища VDI в Windows Server 2012 R2 Планирование развертывания дедупликации данных Резервное копирование и восстановление соображениями Дедуплицированных томов Миграция, работа с кластерами и использование BranchCache для дедупликации данных Установка и настройка дедупликации данных
Операции	Мониторинг и создание отчетов для дедупликации данных
Ресурсы сообщества	Форум TechNet по файловым службам и хранению данных Рабочая группа по хранению данных в блоге Microsoft File Cabinet Задайте вопрос в блоге команды разработчиков служб каталогов Блог Хосе Баррето Предоставление информации по Windows Server в Twitter
Связанные технологии	Общие сведения о файловых службах и службах хранилища Обзор отказоустойчивой кластеризации Обзор дисковых пространств