Visão geral de eliminação de duplicação de dados

Artigo
09/02/2016

Publicado: agosto de 2016

Aplicável a: Windows Storage Server 2012, Windows Server 2012 R2, Windows Server 2012

Este tópico descreve o recurso de eliminação de duplicação de dados do R2 do Windows Server 2012 e do Windows Server 2012 e explica as aplicações práticas do recurso.

Descrição do recurso

A eliminação de dados envolve a localização e remoção da duplicação dentro dos dados sem comprometer sua fidelidade ou integridade. A meta é armazenar mais dados em menos espaço por meio da segmentação de arquivos em partes pequenas (32–128 KB) com tamanho variável, identificação de partes duplicadas e manutenção de apenas uma cópia de cada parte. As cópias redundantes da parte são substituídas por uma referência à cópia única. As partes são compactadas e então organizadas em arquivos de contêiner especiais na pasta Informações de Volume do Sistema.

O resultado é uma transformação em disco de cada arquivo conforme mostrado na Figura 1. Após a eliminação de duplicação, os arquivos deixam de ser armazenados como fluxos independentes de dados e são substituídos por stubs que apontam para blocos de dados armazenados em um repositório de partes comum. Como esses arquivos compartilham blocos, esses blocos são armazenados apenas uma vez, reduzindo o espaço em disco necessário para armazenar todos os arquivos. Durante o acesso aos arquivos, os blocos corretos são montados de forma transparente para apoiar os dados sem chamar o aplicativo ou que o usuário tenha qualquer conhecimento da transformação em disco no arquivo. Isso permite que os administradores apliquem a eliminação de duplicação aos arquivos sem preocupações quanto a mudanças de comportamento nos aplicativos ou impactos em usuários que acessam os arquivos.

Figura 1 Transformação de arquivos em disco

Figura 1 Transformação de arquivos em disco durante a eliminação de duplicação de dados

Depois que um volume é habilitado para eliminação de duplicação e os dados são otimizados, ele passa a conter:

Arquivos não otimizados. Por exemplo, arquivos não otimizados podem conter arquivos que não cumprem a configuração de política selecionada para idade de arquivo, arquivos de estado do sistema, fluxos de dados alternativos, arquivos criptografados, arquivos com atributos estendidos, arquivos menores que 32 KB, outros arquivos de ponto de nova análise ou arquivos em uso em outros aplicativos (o limite "em uso" foi removido no R2 do Windows Server 2012).
Arquivos otimizados. Arquivos armazenados como pontos de nova análise, os quais contêm ponteiros para um mapa das respectivas partes, no repositório de partes, e que são necessários para restaurar o arquivo quando solicitado.
Repositório de partes. Local dos dados de arquivo otimizado.
Espaço livre adicional. Os arquivos otimizados e o repositório de partes ocupam menos espaço do que ocupavam antes da otimização.

Aplicações práticas

Para lidar com o crescimento do armazenamento de dados na empresa, os administradores estão consolidando servidores e adotando como metas importantes o dimensionamento de capacidade e a otimização de dados. A eliminação de duplicação de dados proporciona meios práticos de alcançar essas metas, incluindo:

Otimização da capacidade. A eliminação de duplicação de dados armazena mais dados em um espaço físico menor. Sua eficiência de armazenamento é maior do que era possível com o uso de recursos como, por exemplo, SIS (Armazenamento de Instância Única) ou compactação NTFS. A eliminação de duplicação de dados usa a compactação e o agrupamento de tamanho variável de subarquivos, o que oferece proporções de otimização de armazenamento de 2:1 para servidores de arquivos gerais e de até 20:1 para dados de virtualização.
Escala e desempenho. A eliminação de duplicação de dados é altamente escalável, eficiente em termos de recursos e não intrusiva. Ela pode processar até 50 MB por segundo no R2 do Windows Server 2012 e cerca de 20 MB de dados por segundo no Windows Server 2012. Ela pode ser executada em vários volumes simultaneamente sem afetar outras cargas de trabalho no servidor. O baixo impacto das cargas de trabalho do servidor é mantido com a aceleração dos recursos da CPU e da memória que são consumidos. Se o servidor ficar ocupado demais, a eliminação de duplicação poderá ser interrompida completamente. Além disso, os administradores têm flexibilidade para executar trabalhos de eliminação de duplicação de dados a qualquer momento, definir agendas para execução da eliminação de duplicação de dados e estabelecer políticas de seleção de arquivos.
Confiabilidade e integridade dos dados. Quando a eliminação de duplicação de dados é aplicada, a integridade dos dados é mantida. A Eliminação de Duplicação de Dados usa soma de verificação, consistência e validação de identidade para garantir a integridade dos dados. Para todos os metadados e dados referenciados com maior frequência, a eliminação de duplicação de dados mantém a redundância para garantir que os dados possam ser recuperados em caso de dados corrompidos.
Eficiência de largura de banda com BranchCache. Por meio da integração ao BranchCache, as mesmas técnicas de otimização são aplicadas aos dados transferidos por WAN para uma filial. Os resultados são downloads mais rápidos de arquivos e redução do consumo de largura de banda.
Gerenciamento de otimização com ferramentas familiares. A eliminação de duplicação de dados tem a funcionalidade de otimização interna no Gerenciador do Servidor e no Windows PowerShell. As configurações padrão podem trazer economia imediata, mas os administradores podem ajustá-las para obter mais benefícios. Você pode usar tranquilamente os cmdlets do Windows PowerShell para iniciar um trabalho de otimização ou agendá-lo para execução futura. Também é possível fazer a instalação do recurso Eliminação de Duplicação de Dados e sua habilitação em volumes selecionados usando um arquivo Unattend.xml que, por sua vez, chama um script do Windows PowerShell e que pode ser usado com o Sysprep para implantar a eliminação de duplicação quando o sistema é inicializado pela primeira vez.

Funcionalidade nova e alterada

A tabela a seguir descreve as alterações na funcionalidade de Eliminação de Duplicação de Dados. Para obter mais informações, consulte Novidades na eliminação de duplicação de dados no Windows Server.

Recurso/funcionalidade	Novo ou atualizado?	Descrição
Eliminação de duplicação de dados do armazenamento remoto de cargas de trabalho VDI (Virtual Desktop Infrastructure)	Novidades no Windows Server 2012 R2	Otimize VHDs (discos rígidos virtuais) para VDI (Virtual Desktop Infrastructure) implementando a Eliminação de Duplicação de Dados em CSVs (Volumes Compartilhados Clusterizados).
Expanda um arquivo otimizado em seu caminho original	Novidades no Windows Server 2012 R2	Use o novo cmdlet Expand-DedupFile do Windows PowerShell para expandir os arquivos otimizados em um caminho especificado no caminho original se for necessário para compatibilidade com aplicativos, desempenho ou outros requisitos. Para obter mais informações sobre o cmdlet, consulte T:Deduplication.Expand-DedupFile.
Eliminação de duplicação de dados para volumes de backup usado por aplicativos virtualizados de backup	Novidades no Windows Server 2012 R2	Otimize VHDs (discos rígidos virtuais) usados por cargas de trabalho do aplicativo de backup virtualizado ao implementar a Eliminação de Duplicação de Dados em CSVs (Volumes Compartilhados de Cluster) ou configurações hiperconvergidas limitadas. (Com suporte no Windows Server 2012 R2 com pacote cumulativo de atualizações de novembro de 2014 (KB 3000850) ou posterior.).

Requisitos

Para aproveitar a eliminação de duplicação de dados, o ambiente deve cumprir os seguintes requisitos:

Servidor: um computador ou uma máquina virtual executando R2 do Windows Server 2012 ou Windows Server 2012 com pelo menos um volume de dados
(Opcional) Outro computador ou máquina virtual executando R2 do Windows Server 2012 ou Windows Server 2012 e que esteja conectado ao servidor via rede
Importante

Se a Eliminação de Duplicação de Dados é realizada em VDI ou backup cargas de trabalho virtualizadas, todos os arquivos VHD devem ser:
- Armazenados em um servidor de arquivos executando R2 do Windows Server 2012, e o nó de armazenamento e computação são executados em servidores diferentes.
- Armazenados no armazenamento local em uma configuração hiperconvergida limitada e específica. Para obter requisitos detalhados, veja o Plano para Implantar a Eliminação de Duplicação de Dados.

Interoperabilidade com máquinas virtuais do Azure

Você pode executar esse serviço de função do Windows Server em uma máquina virtual no Azure. Esse cenário foi testado com R2 do Windows Server 2012. É recomendável usar a Eliminação de Duplicação de Dados com máquinas virtuais do Microsoft Azure que têm volumes com leituras frequentes, mas com gravações não frequentes. Nessas circunstâncias, a Eliminação de Duplicação de Dados pode oferecer uma maneira eficiente de armazenar dados em VMs do Azure.

As cargas de trabalho a seguir podem ser bons candidatos para usar com Eliminação de Duplicação de Dados em VMs do Azure:

Servidores de arquivos gerais com conteúdo relativamente estático
Sites do Microsoft SharePoint com conteúdo relativamente estático
Sites da Web com conteúdo relativamente estático

As cargas de trabalho a seguir não são recomendadas para uso com Eliminação de Duplicação de Dados em VMs do Azure devido à frequência de alterações em arquivos grandes usados por cargas de trabalho:

Servidores de mensagens, como o Microsoft Exchange Server
Servidores de banco de dados como o Microsoft SQL Server

Para saber mais sobre como começar a usar máquinas virtuais do Azure, visite o site do Azure.

Visão geral da arquitetura

O recurso de Eliminação de Duplicação de Dados consiste de um driver de filtro que monitora E/S local ou remota e um serviço de eliminação de duplicação que controla os três tipos de tarefas disponíveis (coleta de lixo, otimização e limpeza).

A resiliência durante falhas de hardware é inerente à arquitetura de eliminação de duplicação, com validação completa de dados e de metadados por meio de soma de verificação, incluindo redundância para metadados e para as partes de dados mais acessadas.

A Eliminação de Duplicação de Dados pode potencialmente processar todos os dados em um volume selecionado (exceto em um arquivo com tamanho inferior a 32 KB, em arquivos em pastas que são excluídas ou em arquivos que têm configurações de duração aplicadas). Você deve determinar cuidadosamente se um servidor e seus volumes anexados são candidatos adequados à eliminação de duplicação antes de habilitar o recurso. É altamente recomendável fazer backup regularmente dos dados importantes durante a eliminação de duplicação.

Consulte também

Para obter informações adicionais relacionadas, consulte os seguintes recursos.

Tipo de conteúdo	Referências
Avaliação do produto	Extending Data Deduplication to new workloads in Windows Server 2012 R2 (Estendendo a Eliminação de Duplicação de Dados a novas cargas de trabalho no Windows Server 2012 R2)
Implantação	Deploying Data Deduplication for VDI storage in Windows Server 2012 R2 (Implantando a Eliminação de Duplicação de Dados para armazenamento VDI no Windows Server 2012 R2) Planejar a implantação da eliminação de duplicação de dados Backup e restauração considerações para Volumes com eliminação de duplicação Considerações sobre migração, cluster e BranchCache para eliminação de duplicação de dados Instalar e configurar eliminação de duplicação de dados
Operações	Monitorar e relatar a eliminação de duplicação de dados
Recursos da comunidade	The File Services and Storage TechNet Forum (O Fórum TechNet para serviços e armazenamento de arquivos) Equipe de Armazenamento no Gabinete de Arquivos da Microsoft Pergunte ao Blog da Equipe dos Serviços de Diretório Blog de Jose Barreto Experiência de informações do Windows Server no Twitter
Tecnologias relacionadas	Visão geral dos serviços de arquivos e de armazenamento Visão Geral do Clustering de Failover Visão geral de Espaços de Armazenamento