Exportar (0) Imprimir
Expandir Tudo

Planejar a implantação da eliminação de duplicação de dados

Publicado: fevereiro de 2012

Atualizado: abril de 2013

Aplica-se a: Windows Server 2012, Windows Storage Server 2012

Este documento explica como planejar a implantação da Eliminação de Duplicação de Dados do Windows Server 2012. Por segurança, faça backup e restaure um volume cujas duplicações foram eliminadas para garantir que a sua implantação abrangerá todo o conjunto de dados.

Neste documento

  1. Etapa 1: Destinar implantações

  2. Etapa 2: Determinar quais volumes são candidatos à eliminação de duplicação

  3. Etapa 3: Avaliar as economias obtidas com a Ferramenta de Avaliação de Eliminação de Duplicação

  4. Etapa 4: Planejar as políticas de distribuição, escalabilidade e eliminação de duplicação

A Eliminação de Duplicação de Dados do Windows Server 2012 foi projetada para instalação em volumes primários de dados, sem adicionar outro hardware dedicado. Isso significa que você pode instalar e usar o recurso, sem afetar a carga de trabalho no servidor primário. As configurações padrão não são intrusivas porque permitem uma duração de cinco dias para os dados, antes que um determinado arquivo seja processado, e admitem o tamanho mínimo padrão de 32 KB para os arquivos. A implementação foi criada para exigir pouca memória e uso de CPU, e se a utilização da memória tornar-se alta, a eliminação de duplicação será pausada e aguardará os recursos disponíveis. Os administradores podem agendar uma eliminação de duplicação mais agressiva com base no tipo dos dados envolvidos e na frequência e no volume de alterações que ocorrem no volume ou em tipos de arquivos específicos.

As cargas de trabalho ideais para eliminação de duplicação incluem:

  • Compartilhamentos de arquivos gerais: agrupe publicações e compartilhamentos de conteúdo, pastas base do usuário e redirecionamento de perfil (arquivos offline)

  • Compartilhamentos de implantações de software: binários, imagens e atualizações de software

  • Bibliotecas VHD: armazenamento de arquivo VHD (disco rígido virtual) para provisionamento em hipervisores

A eliminação de duplicação pode ser muito eficiente para otimizar o armazenamento e reduzir a quantidade de espaço em disco consumido – 50% a 90%, quando aplicada aos dados certos. Avalie as seguintes considerações ao selecionar dados para eliminação de duplicação:

  1. Os dados têm a duplicação dentro dele?

    Compartilhamentos de arquivos ou servidores que hospedam os documentos do usuário, os binários de implantação de software ou arquivos de disco rígido virtual tendem a ter muita duplicação e, por isso, resultam em altas economias na eliminação de duplicação. A tabela a seguir realça as economias características da eliminação de duplicação para vários tipos de conteúdo. Os resultados variam por tipo de dados, combinação e tamanho. É recomendável executar uma primeira avaliação em uma amostra de dados antes de habilitar a eliminação de duplicação. Para saber mais sobre o uso da ferramenta DDPEval para avaliar as economias resultantes da eliminação de duplicação, veja Etapa 3: Avaliar as economias obtidas com a Ferramenta de Avaliação de Eliminação de Duplicação, posteriormente neste tópico.

     

    Cenário Conteúdo Economia típica de espaço

    Documentos do usuário

    Documentos, fotos, música, vídeos

    30-50%

    Compartilhamentos de implantação

    Binários de software, arquivos de gabinete, arquivos de símbolo

    70-80%

    Bibliotecas de virtualização

    Arquivos de disco rígido virtual

    80-95%

    Compartilhamento geral de arquivos

    Todos os anteriores

    50-60%

  2. O padrão de acesso a dados permite tempo suficiente para a eliminação de duplicação?

    Os arquivos que são alterados com frequência e acessados constantemente por usuários ou aplicativos não são bons candidatos à eliminação de duplicação. Os constantes acesso e alteração nos dados tendem a desfazer os ganhos de otimização resultantes da eliminação de duplicação que, por sua vez, pode não conseguir processar os arquivos.

    • Um bom candidato à eliminação de duplicação inclui um compartilhamento de arquivos que hospeda documentos do usuário, arquivos virtuais ou arquivos de implantação de software contendo dados que são pouco modificados, mas lidos com frequência.

    • Candidatos inadequados à eliminação de duplicação são bancos de dados SQL Server de montagem constante com máquinas virtuais em execução e bancos de dados dinâmicos do Exchange Server.

    Bons candidatos têm tempo para eliminar duplicação em arquivos. As políticas de idade de arquivo também podem ser aplicadas para controlar quando deve ocorrer a eliminação de duplicação nos arquivos, para evitar uma eliminação de duplicação antes da hora ou frequente em arquivos que ainda podem ser muito modificados.

  3. O servidor tem recursos suficientes e tempo para executar a eliminação de duplicação?

    A eliminação de duplicação exige leitura, processamento e gravação de grandes quantidades de dados. Isso consome recursos do servidor e deve ser considerado ao planejar uma implantação. Os servidores normalmente têm períodos de alta atividade e momentos em que há pouca utilização de recursos. A eliminação de duplicação pode fazer a maior parte do trabalho quando os recursos estão disponíveis. Se um servidor estiver sempre em execução na capacidade máxima, ele provavelmente não será um bom candidato à eliminação de duplicação, mesmo que os processos de eliminação de duplicação possam otimizar alguns arquivos usando trabalhos de otimização em segundo plano.

    Com base na economia observada e no uso normal de recursos, os candidatos à implantação da eliminação de duplicação foram classificados da seguinte forma:

    Ótimos candidatos para eliminação de duplicação:

    • Servidores de redirecionamento de pastas

    • Repositório de virtualização ou biblioteca de provisionamento

    • Compartilhamentos de implantações de software

    • Volumes de backup do SQL Server e do Exchange Server

    Devem ser avaliados com base no conteúdo:

    • Servidores de linha de negócios

    • Provedores de conteúdo estático

    • Servidores da Web

    • HPC (Computação de Alto Desempenho)

    Candidatos ruins para a eliminação de duplicação:

    • Hosts de Hyper-V

    • VHDs VDI

    • WSUS

    • Servidores que executam SQL Server ou Exchange Server

    • Arquivos com tamanho próximo a 1 TB ou que sejam maiores que isso

Servidores

Veja a seguir a lista dos requisitos de servidor para eliminação de duplicação:

  • O hardware do servidor deve cumprir os requisitos mínimos para execução do Windows Server 2012. O recurso de eliminação de duplicação foi criado para dar suporte às configurações mínimas; por exemplo, um sistema de processador único com 4 GB de RAM e uma unidade de disco rígido SATA.

  • Se você pretende dar suporte à eliminação de duplicação em vários volumes no mesmo servidor, será preciso ajustar adequadamente o tamanho do sistema para garantir que ele possa processar os dados. A regra geral é que o servidor precisa de 1 núcleo de CPU e 350 MB de memória livre para executar um trabalho de eliminação de duplicação em um único volume e que esse trabalho possa processar aproximadamente 100 GB por hora ou algo em torno de 2 TB por dia. A eliminação de duplicação aumenta com processadores de núcleo de CPU adicionais e memória disponível para habilitar o processamento paralelo de vários volumes.

    Por exemplo: se você tiver um servidor com 16 núcleos de CPU e 16 GB de memória, a eliminação de duplicação usará 25% da memória do sistema no modo padrão Processamento em Segundo Plano que, nesse caso, seria de 4 GB. Se você dividir por 350 MB, o cálculo mostrará que o servidor pode processar cerca de 11 volumes de cada vez. Se adicionar 8 GB de memória, o sistema poderá processar 17 volumes de cada vez. Se você definir um trabalho de otimização para execução no modo Otimização, o sistema utilizará até 50% da memória do sistema para o trabalho de otimização.

  • O recurso Eliminação de Duplicação de Dados dá suporte para até 90 volumes de uma só vez, no entanto, essa eliminação de duplicação pode processar simultaneamente um volume de processador de núcleo de CPU física mais um. O hyperthreading não tem impacto sobre isso, pois apenas os processadores de núcleos físicos podem ser usados​ para processar um volume. Um sistema com 16 processadores de núcleos de CPU e 90 volumes processará 17 volumes de cada vez até que todos os 90 volumes estejam concluídos, caso haja memória suficiente.

  • As instâncias de servidor virtual devem seguir a mesma orientação de hardware físico em relação aos recursos do servidor.

Volumes

Os volumes que são candidatos à eliminação de duplicação devem obedecer aos seguintes requisitos:

  • Não deve ser um sistema ou volume de inicialização. A eliminação de duplicação não é suportada em volumes de sistema operacional.

  • Pode ser particionado como MBR (registro mestre de inicialização) ou como GPT (Tabela de Partição GUID) e deve ser formatado por meio do sistema de arquivos NTFS.

  • Os volumes podem residir no armazenamento compartilhado – por exemplo, armazenamento que usa Fibre Channel ou uma matriz SAS ou quando há total suporte para SAN iSCSI e o Clustering de Failover do Windows.

  • Não depende de CSVs (Volumes Compartilhados do Cluster). Você poderá acessar dados se um volume habilitado para eliminação de duplicação for convertido em um CSV, mas não poderá continuar processando arquivos para eliminação de duplicação.

  • Não depende do ReFS (Sistema de Arquivos Resiliente) da Microsoft.

  • Deve ser exposto ao sistema operacional como unidade não removível. Não há suporte para unidades mapeadas remotamente.

    noteObservação
    Os arquivos com atributos estendidos, arquivos criptografados, arquivos menores que 32 KB e arquivos pontuais de nova análise não são processados pela eliminação de duplicação.

Abre ou altera constantemente os arquivos

A eliminação de duplicação não dá suporte para arquivos que são abertos e alterados constantemente por longos períodos de tempo ou que têm altas exigências de E/S, como máquinas virtuais em execução em um host Hyper-V, bancos de dados SQL Server dinâmicos ou sessões ativas de VDI.

A eliminação de duplicação pode ser configurada para processar arquivos com 0 dia de idade e o sistema continuará funcionando conforme o esperado, mas não processará arquivos abertos com exclusividade. Não é uma boa ideia usar os recursos de servidor para eliminar a duplicação de um arquivo que é constantemente gravado ou será gravado em um futuro próximo. Se você ajustar a configuração de idade mínima do arquivo como 0, teste se a eliminação de duplicação não é constantemente desfeita por alterações nos dados.

A eliminação de duplicação não irá processar arquivos que estão constantemente abertos exclusivamente para operações de gravação. Isso significa que você não receberá nenhuma economia de eliminação de duplicação, a menos que o arquivo seja fechado quando um trabalho de otimização tentar processar um arquivo que atenda às suas configurações de política de eliminação de duplicação selecionada.

Cotas rígidas de FSRM

Não há suporte para configuração de uma cota rígida em uma pasta raiz de volume que também tenha a eliminação de duplicação habilitada. Quando há uma cota rígida em uma raiz de volume, o espaço livre real no volume e o espaço restrito à cota no volume são os mesmos. Isso pode provocar falha nos trabalhos de eliminação de duplicação. Há suporte para a criação de uma cota flexível em uma raiz de volume com eliminação de duplicação habilitada, entretanto, quando as cotas FSRM encontram um arquivo cuja duplicação foi eliminada, elas se responsabilizam pelo arquivo com base no tamanho lógico do arquivo. O uso de cota (incluindo qualquer limite de cota) não é alterado quando um arquivo é processado pela eliminação de duplicação. Todas as demais funcionalidades de cota FSRM, incluindo cotas flexíveis de raiz de volume e cotas em subpastas, funcionarão normalmente durante a eliminação de duplicação.

Trabalhando com conjuntos de dados iniciais

Os volumes colocados sob controle da eliminação de duplicação podem estar vazios ou já conter dados. Se o volume contiver dados, a eliminação de duplicação poderá demorar um bom tempo para processar os dados pela primeira vez. Essa é uma condição normal e deve ser esperada. A eliminação de duplicação processará os arquivos quando o servidor tiver recursos disponíveis e continuará o processamento automaticamente. A taxa de processamento depende das especificações do sistema. Um volume processando testes pela Microsoft resulta em aproximadamente 20 MB por segundo ou 2 TB por dia. Os administradores podem monitorar o progresso da eliminação de duplicação usando o Windows PowerShell ou o Gerenciador do Servidor. Após o processamento da conjunto de dados inicial, a eliminação de duplicação tem impacto mínimo no servidor e não exige qualquer manutenção manual.

Caminho de gravação para novos arquivos

A eliminação de duplicação de dados permite gravar diretamente em um volume NTFS. Os arquivos no volume serão avaliados periodicamente e processados, se atenderem aos critérios da política de eliminação de duplicação. A eliminação de duplicação processa arquivos dentro de um volume habilitado uma vez por hora em segundo plano ou em horários adicionais que você especifica usando trabalhos de otimização no modo Taxa de Transferência.

Taxa de transferência da eliminação de duplicação

O recurso de eliminação de duplicação pode processar cerca de 2 TB de dados por volume em um período de 24 horas (100 GB por hora) ao executar um trabalho de otimização de taxa de transferência em um único volume. Vários volumes poderão ser executados em paralelo, se houver processadores de núcleos de CPU e memória disponíveis. A velocidade real da eliminação de duplicação depende da CPU, E/S do disco, memória e dos recursos de servidor disponíveis no momento em que a eliminação de duplicação está em execução. A eliminação de duplicação foi projetada para pausar se o servidor começar a ficar sem recursos, de modo a não impactar a carga de trabalho normal do servidor. Quanto mais ocupado for o servidor, mais tempo ele levará para processar os dados. Se você tiver um volume de dados muito ocupado, poderá considerar o agendamento de um trabalho regular de otimização da eliminação de duplicação, durante as horas de menor movimento. Para saber mais, veja Habilitar a eliminação de duplicação de dados no volume.

Pouco espaço em disco

A execução da eliminação de duplicação quando há muito pouco espaço em disco não é aconselhável, pois determinados tipos de operações de acesso a dados podem falhar inesperadamente. Por exemplo, as operações mapeadas em memória em arquivos cujas duplicações foram eliminadas podem falhar devido à falta de espaço em disco. Isso porque o NTFS pode reservar espaço em disco em resposta à E/S de paginação que é acionada pelas operações mapeadas em memória ou em buffer. O Bloco de Notas é um exemplo de aplicativo que acessa arquivos usando operações mapeadas em memória. Se o volume estiver vazio ou quase, os arquivos com eliminação de duplicação que forem abertos no Bloco de Notas poderão retornar uma mensagem de erro dizendo que o acesso ao disco falhou. Falhas semelhantes de acesso a dados podem ocorrer em arquivos esparsos ou compactados, em um volume completo, sem a eliminação de duplicação instalada. Recomendamos a reserva de pelo menos 1 gigabyte de espaço livre em volumes com eliminação de duplicação para evitar falhas.

Se o volume estiver completo e você encontrar falhas de acesso a arquivos, considere uma das seguintes opções para resolver o problema:

  • Execute um trabalho Coleta de Lixo para recuperar espaço em disco usando um prompt de comando elevado do Windows PowerShell:

    PS C:\> Start-DedupJob E: –Type GarbageCollection -full
    
  • Copie os arquivos em qualquer lugar usando uma ferramenta que dê suporte ao modo de E/S não armazenada em buffer; por exemplo, XCOPY com a opção /J ou Robocopy com a opção /J.

Quando o recurso de eliminação de duplicação é instalado, a Ferramenta de Avaliação de Eliminação de Duplicação (DDPEval.exe) é instalada automaticamente no diretório \Windows\System32\. Essa ferramenta pode ser copiada de qualquer instalação do Windows Server 2012 para sistemas executando o Windows Server 2012, o Windows Server 2008 R2 ou o Windows 7. Você pode usá-la para determinar as economias que espera obter com a habilitação da eliminação de duplicação em um determinado volume.

A O DDPEval.exe dá suporte para unidades locais e também para avaliação mapeada ou não mapeada de compartilhamentos remotos. O exemplo a seguir mostra a execução da DDPEval.exe usando uma sintaxe de comando:

DDPEval <VolumePath:>

C:\> DDPEVAL.EXE \\Server\Testshare
C:\> DDPEVAL.EXE E:\Test\
C:\> DDPEVAL.EXE F:

Isso produzirá uma saída semelhante a esta:

Data Deduplication Savings Evaluation Tool
Copyright 2011-2012 Microsoft Corporation.  All Rights Reserved.

Evaluated folder: E:\Test
Processed files: 34
Processed files size: 12.03MB
Optimized files size: 4.02MB
Space savings: 8.01MB
Space savings percent: 66
Optimized files size (no compression): 11.47MB
Space savings (no compression): 571.53KB
Space savings percent (no compression): 4
Files with duplication: 2
Files excluded by policy: 20
Files excluded by error: 0

Quando a porcentagem de economia de espaço for calculada, você poderá tomar uma decisão informada para instalar ou não a eliminação de duplicação.

Ao executar o cmdlet Measure-DedupFileMetadata do Windows PowerShell, você pode determinar a quantidade potencial de espaço em disco a ser recuperada em um volume com a exclusão de um grupo de pastas, ou de uma única pasta, ou de um único arquivo, e então executar um trabalho Coleta de Lixo. Especificamente, o valor DedupDistinctSize dirá quanto espaço será recuperado se você excluir esses arquivos. Em geral, arquivos têm partes que são compartilhadas com outras pastas, portanto, o mecanismo de eliminação de duplicação irá calcular quais partes são exclusivas e serão excluídas após o trabalho Coleta de Lixo.

Aqui está um exemplo:

PS C:\Windows\system32> Measure-DedupFileMetadata -path X:\A_Data,X:\Archive1

Path                    : {X:\A_Data, X:\Archive1}
Volume                  : X:
VolumeId                : \\?\Volume{88f3b478-72e9-11e1-b0f1-806e6f6e6963}
FilesCount              : 575
OptimizedFilesCount     : 541
Size                    : 713.46 MB
SizeOnDisk              : 2.44 MB
DedupSize               : 239.81 MB
DedupChunkCount         : 5136
DedupDistinctSize       : 700 KB
DedupDistinctChunkCount : 11

Nesse exemplo, 700 KN de espaço serão recuperados se a Coleta de Lixo for executada com o parâmetro –full.

Depois de identificados os servidores e volumes adequados, você poderá habilitar o recurso no servidor e atribuir volumes. Para saber mais, veja Instalar e configurar eliminação de duplicação de dados.

No Windows Server 2012, a eliminação de duplicação pode ser ativada local ou remotamente usando o Windows PowerShell ou o Gerenciador do Servidor. Se habilitada, a operação de criação de políticas e agendas padrão será executada.

As configurações padrão de políticas para a eliminação de duplicação de dados incluem:

  • Processe arquivos com idade mínima de cinco dias, de acordo com a Hora da Última Modificação. Se a Hora do Último Acesso estiver habilitada no servidor (esta não é uma configuração padrão), a eliminação de duplicação usará a Hora do Último Acesso.

  • Processe os arquivos no modo em segundo plano a cada hora. No modo em segundo plano, o sistema usa até 25% da memória de sistema durante os trabalhos de otimização; já os trabalhos manuais Taxa de Transferência usam até 50% da memória de sistema.

  • Não exclua os diretórios ou tipos de arquivos. A configuração padrão é processar todo o volume.

  • Execute um trabalho de coleta de lixo todos os sábados às 1:45 hora. A coleta de lixo recupera espaço em um volume excluindo partes do repositório de partes que não são mais referenciadas. A coleta de lixo compactará um contêiner se houver aproximadamente 50 MB de partes sem qualquer referência. Cada quarta execução da coleta de lixo incorpora o parâmetro -full, que instrui o trabalho a recuperar todo o espaço disponível e maximizar toda a compactação do contêiner.

  • Execute uma depuração de dados todos os sábados à 2:45 horas. Os trabalhos de depuração verificam a integridade dos dados e tentam reparar automaticamente os arquivos corrompidos encontrados.

noteObservação
Não habilite NtfsDisableLastAccessUpdate se usar o servidor de biblioteca VHD VMM (System Center Virtual Machine Manager) e a eliminação de duplicação em um volume de host. O servidor de biblioteca VMM alternará com frequência a data do último acesso, impedindo que a eliminação de duplicação otimize corretamente os arquivos.

As configurações padrão de política de eliminação de duplicação normalmente são suficientes para obter ótimas economias sem impactar a carga de trabalho normal do servidor. Se uma determinada implantação tiver uma das seguintes condições, você poderá alterar as configurações padrão.

Configurações potenciais de políticas de eliminação de duplicação

 

Condição Ação a considerar

Os dados de entrada são estáticos ou podem ser somente leitura e você quer processar os arquivos no volume mais cedo.

Altere a configuração MinimumFileAgeDays definindo um número menor de dias para processar os arquivos mais cedo.

Você tem os diretórios cuja duplicação não quer eliminar.

Adicione um diretório à lista de exclusão.

Você tem os tipos de arquivo cuja duplicação não quer eliminar.

Adicione um tipo de arquivo à lista de exclusão.

O servidor tem diferentes horários de menor movimento do que o padrão e você quer alterar as agendas dos trabalhos Coleta de Lixo e Depuração.

Atualize a programação usando o Windows PowerShell.

Isso foi útil para você?
(1500 caracteres restantes)
Agradecemos os seus comentários

Contribuições da comunidade

ADICIONAR
A Microsoft está realizando uma pesquisa online para saber sua opinião sobre o site do MSDN. Se você optar por participar, a pesquisa online lhe será apresentada quando você sair do site do MSDN.

Deseja participar?
Mostrar:
© 2014 Microsoft