Descrição Geral da Eliminação de Dados Duplicados

Artigo
09/02/2016

Publicado: agosto de 2016

Aplica-se A: Windows Storage Server 2012, Windows Server 2012 R2, Windows Server 2012

Este tópico descreve a funcionalidade de eliminação de dados duplicados no Windows Server 2012 R2 e no Windows Server 2012 e explica as aplicações práticas da funcionalidade.

Descrição da funcionalidade

A eliminação de dados duplicados envolve a localização e remoção de duplicados em dados sem comprometer a respetiva fidelidade ou integridade. O objetivo é armazenar mais dados em menos espaço ao segmentar ficheiros em pequenos segmentos de tamanho variável (32–128 KB), identificar segmentos duplicados e manter uma única cópia de cada segmento. As cópias redundantes do segmento são substituídas por uma referência à cópia única. Os segmentos são comprimidos e organizados em ficheiros de contentor especiais na pasta Informações de Volume de Sistema.

O resultado é uma transformação no disco de cada ficheiro, conforme apresentado na Figura 1. Após a eliminação de duplicados, os ficheiros deixam de ser armazenados como fluxos de dados independentes e são substituídos por stubs que apontam para blocos de dados armazenados num arquivo de segmentos comum. Uma vez que estes ficheiros partilham blocos, esses blocos apenas são armazenados uma vez, o que reduz o espaço em disco necessário para armazenar todos os ficheiros. Durante o acesso aos ficheiros, os blocos corretos são montados de forma transparente para servir os dados sem chamar a aplicação ou sem que o utilizador tenha conhecimento da transformação do ficheiro no disco. Isto permite aos administradores aplicar a eliminação de duplicados aos ficheiros sem terem de se preocupar sobre qualquer alteração de comportamento às aplicações ou impacto para os utilizadores que estão a aceder a esses ficheiros.

Figura 1 Transformação de ficheiros no disco

Figura 1 Transformação de ficheiros no disco durante a eliminação de dados duplicados

Depois de um volume estar ativado para eliminação de duplicados e os dados estarem otimizados, o volume contém o seguinte:

Ficheiros não otimizados. Por exemplo, os ficheiros não otimizados podem incluir ficheiros que não cumprem a definição de política de antiguidade de ficheiros selecionada, ficheiros de estado de sistema, fluxos de dados alternativos, ficheiros encriptados, ficheiros com atributos expandidos, ficheiros de tamanho inferior a 32 KB, outros ficheiros de ponto de reanálise ou ficheiros em utilização por outras aplicações (o limite “em utilização” é removido no Windows Server 2012 R2).
Ficheiros otimizados. Ficheiros armazenados como pontos de reanálise que contêm ponteiros para um mapa dos respetivos segmentos no arquivo de segmentos e que são necessários para restaurar o ficheiro quando for pedido.
Arquivo de segmentos. Localização dos dados dos ficheiros otimizados.
Espaço livre adicional. Os ficheiros otimizados e o arquivo de segmentos ocupam muito menos espaço do que antes da otimização.

Aplicações práticas

Para lidar com o crescimento do armazenamento de dados na empresa, os administradores estão a consolidar os servidores e a fazer do dimensionamento da capacidade e da otimização de dados objetivos principais. A eliminação de dados duplicados proporciona formas práticas de alcançar estes objetivos, incluindo:

Otimização da capacidade. A eliminação de dados duplicados armazena mais dados em menos espaço físico. Alcança uma maior eficiência de armazenamento do que era possível quando eram utilizadas funcionalidades como o Single Instance Storage (SIS) ou a compressão NTFS. A eliminação de dados duplicados utiliza a segmentação e compressão de subficheiros de tamanho variável, o que permite obter rácios de otimização de 2:1 para servidores de ficheiros gerais e até 20:1 para dados de virtualização.
Dimensionamento e desempenho. A eliminação de dados duplicados é altamente dimensionável, eficiente a nível de recursos e não intrusiva. Pode processar até 50 MB por segundo no Windows Server 2012 R2 e cerca de 20 MB de dados por segundo no Windows Server 2012. Pode ser executada em vários volumes em simultâneo sem afetar outras cargas de trabalho no servidor. O baixo impacto nas cargas de trabalho do servidor é mantido através da limitação dos recursos da CPU e da memória que são consumidos. Se o servidor ficar muito ocupado, a eliminação de dados duplicados pode parar totalmente. Além disso, os administradores têm a flexibilidade de executar tarefas de eliminação de dados duplicados em qualquer altura, de definir agendamentos para quando a eliminação de dados duplicados deve ser executada e de estabelecer políticas de seleção de ficheiros.
Fiabilidade e integridade dos dados. Quando a eliminação de dados duplicados é aplicada, a integridade dos dados é mantida. A Eliminação de Dados Duplicados utiliza a soma de verificação, a consistência e a validação de identidade para assegurar a integridade dos dados. Para todos os metadados e os dados referenciados mais frequentemente, a eliminação de dados duplicados mantém a redundância para assegurar que os dados são recuperáveis em caso de danos em dados.
Eficiência da largura de banda com o BranchCache. Através da integração com o BranchCache, são aplicadas as mesmas técnicas de otimização aos dados transferidos por WAN para uma sucursal. O resultado é um tempo de transferência de ficheiros mais rápido e um consumo de largura de banda reduzido.
Gestão da otimização com ferramentas familiares. A eliminação de dados duplicados tem uma funcionalidade de otimização incorporada no Gestor de Servidor e no Windows PowerShell. As predefinições podem permitir poupanças imediatas ou os administradores podem otimizar as definições para obter mais ganhos. É possível utilizar facilmente cmdlets do Windows PowerShell para iniciar ou agendar uma tarefa de otimização para ser executada no futuro. A instalação da funcionalidade Eliminação de Dados Duplicados e a ativação da eliminação de duplicados em volumes selecionados também podem ser efetuadas com um ficheiro Unattend.xml que chama um script do Windows PowerShell e que pode ser utilizado com o Sysprep para implementar a eliminação de duplicados após o arranque inicial de um sistema.

Funcionalidade nova e alterada

A tabela seguinte descreve as alterações na funcionalidade Eliminação de Dados Duplicados. Para obter mais informações, consulte O que há de novo na eliminação de dados duplicados no Windows Server.

Funcionalidade	Nova ou atualizada?	Descrição
A eliminação de dados duplicados para armazenamento remoto de cargas de trabalho da Infraestrutura de Ambiente de Trabalho Virtual (VDI)	Novidade no Windows Server 2012 R2	Otimizar discos rígidos virtuais (VHDs) ativos para cargas de trabalho da Infraestrutura de Ambiente de Trabalho Virtual (VDI) ao implementar a Eliminação de Dados Duplicados em Volumes Partilhados de Cluster (CSVs).
Expandir um ficheiro otimizado no respetivo caminho original	Novidade no Windows Server 2012 R2	Utilizar o novo cmdlet Expand-DedupFile no Windows PowerShell para expandir ficheiros otimizados num caminho especificado no caminho original, se for necessário para compatibilidade com aplicações, desempenho ou outros requisitos. Para obter mais informações sobre o cmdlet, consulte T:Deduplication.Expand-DedupFile.
Eliminação de dados duplicados para volumes de cópia de segurança utilizados por aplicações de cópia de segurança virtualizada	Novidade no Windows Server 2012 R2	Otimize os discos rígidos virtuais (VHDs) ativos utilizados por cargas de trabalho da aplicação de cópia de segurança virtualizada através da implementação da Eliminação de Dados Duplicados em Volumes Partilhados de Cluster (CSVs) ou configurações hiperconvergidas limitadas. (Suportado no Windows Server 2012 R2 com o update rollup de novembro de 2014 (KB 3000850) ou posterior.).

Requisitos

Para tirar partido da eliminação de dados duplicados, o ambiente tem de cumprir os seguintes requisitos:

Servidor: um computador ou uma máquina virtual com o Windows Server 2012 R2 ou o Windows Server 2012 com, pelo menos, um volume de dados
(Opcional) Outro computador ou máquina virtual com o Windows Server 2012 R2 ou o Windows Server 2012 ligado ao servidor através de uma rede
Importante

Se a Eliminação de Dados Duplicados for efetuada em VDI ou cargas de trabalho de cópia de segurança virtualizada, todos os ficheiros VHD têm de ser:
- Armazenados num servidor de ficheiros com o Windows Server 2012 R2, sendo o nó de armazenamento e o nó de computação executados em servidores diferentes.
- Armazenados no armazenamento local numa configuração hiperconvergida limitada específica. Para requisitos detalhados, consulte Planear a Implementação da Eliminação de Dados Duplicados.

Interoperabilidade com máquinas virtuais do Azure

Pode executar este serviço de função do Windows Server numa máquina virtual no Azure. Este cenário foi testado com o Windows Server 2012 R2. Recomendamos a utilização da Eliminação de Dados Duplicados com máquinas virtuais do Microsoft Azure que tenham volumes com leituras frequentes, mas escritas não frequentes. Nestas circunstâncias, a Eliminação de Dados Duplicados pode fornecer uma forma eficaz de armazenar mais dados em VMs do Azure.

As cargas de trabalho seguintes podem ser ideais para serem utilizadas com a Eliminação de Dados Duplicados em VMs do Azure:

Servidores de ficheiros gerais com conteúdo relativamente estático
Sites Microsoft SharePoint com conteúdo relativamente estático
Web sites com conteúdo relativamente estático

As cargas de trabalho seguintes não são recomendadas para serem utilizadas com a Eliminação de Dados Duplicados em VMs do Azure devido à frequência de alterações aos ficheiros grandes utilizados pelas cargas de trabalho:

Servidores de mensagens, como o Microsoft Exchange Server
Servidores de bases de dados, como o Microsoft SQL Server

Para obter informações sobre como começar a utilizar as máquinas virtuais do Azure, visite o Web site do Azure.

Descrição geral da arquitetura

A funcionalidade Eliminação de Dados Duplicados é constituída por um controlador de filtros que monitoriza a E/S local ou remota e por um serviço de eliminação de duplicados que controla os três tipos de tarefas disponíveis (Otimização, Libertação da Memória e Limpeza).

Inerente na arquitetura de eliminação de duplicados está a resiliência durante falhas de hardware, com validação completa da soma de verificação dos dados e metadados, incluindo redundância de metadados e os segmentos de dados mais acedidos.

A Eliminação de Dados Duplicados pode processar potencialmente todos os dados num volume selecionado (exceto um tamanho de ficheiro inferior a 32 KB, ficheiros em pastas excluídas ou ficheiros com definições de antiguidade aplicadas). Antes de ativar a funcionalidade, deve determinar cuidadosamente se um servidor e os volumes anexados são candidatos adequados à eliminação de duplicados. Recomendados vivamente que, durante a eliminação de duplicados, faça uma cópia de segurança regular dos dados importantes.

Consulte também

Para informações adicionais relacionadas, consulte os recursos seguintes.

Tipo de conteúdo	Referências
Avaliação do produto	Expandir a Eliminação de Dados Duplicados para novas cargas de trabalho no Windows Server 2012 R2
Implementação	Implementar a Eliminação de Dados Duplicados para armazenamento VDI no Windows Server 2012 R2 Planear a Implementação da Eliminação de Dados Duplicados Cópia de segurança e restauro considerações para Volumes com eliminação de duplicados Interoperabilidade de Eliminação de Dados Duplicados Instalar e Configurar a Eliminação de Dados Duplicados
Operações	Monitorizar e comunicar para eliminação de duplicados de dados
Recursos de comunidade	O Fórum de Armazenamento e Serviços de Ficheiros do TechNet Equipa de Armazenamento no Blogue de Arquivos de Ficheiros da Microsoft Perguntar ao Blogue da Equipa de Serviços de Diretório Blogue de José Barreto Windows Server Information Experience no Twitter
Tecnologias relacionadas	Descrição Geral dos Serviços de Ficheiros e Armazenamento Descrição Geral do Clustering de Ativação Pós-falha Descrição Geral dos Espaços de Armazenamento