Panoramica di Deduplicazione dati

 

Data di pubblicazione: agosto 2016

Si applica a: Windows Storage Server 2012, Windows Server 2012 R2, Windows Server 2012

Questo argomento descrive la funzionalità di deduplicazione dati di R2 per Windows Server 2012 e Windows Server 2012 e ne illustra le applicazioni pratiche.

Descrizione delle funzionalità

La deduplicazione dei dati implica la ricerca e la rimozione di duplicazioni nei dati senza comprometterne fedeltà o integrità. L'obiettivo è archiviare più dati in meno spazio segmentando i file in piccoli blocchi di dimensioni variabili (32-128 KB), identificando i blocchi duplicati e mantenendo una sola copia di ciascun blocco. Le copie ridondanti del blocco vengono sostituite da un riferimento alla singola copia. I blocchi vengono compressi e quindi organizzati in speciali file contenitore nella cartella delle informazioni del volume di sistema.

Il risultato è una trasformazione su disco di ogni file, come illustrato nella Figura 1. Dopo la deduplicazione, i file non sono più archiviati come flussi di dati indipendenti e vengono sostituiti da stub che puntano ai blocchi di dati archiviati all'interno di un archivio di blocchi comune. Poiché i file condividono blocchi, questi blocchi vengono archiviati solo una volta, riducendo lo spazio su disco necessario per archiviare tutti i file. Durante l'accesso ai file, i blocchi corretti vengono assemblati in modo trasparente per fornire i dati senza chiamare l'applicazione né richiedere all'utente conoscenze sulla trasformazione su disco nel file. In questo modo gli amministratori possono applicare la deduplicazione ai file senza preoccuparsi di eventuali cambiamenti nel comportamento delle applicazioni o dell'impatto sugli utenti che accedono ai file.

Figura 1 Trasformazione dei file su disco

Figura 1   Trasformazione su disco dei file durante la deduplicazione dati

Dopo che il volume è stato abilitato per la deduplicazione e i dati sono stati ottimizzati, il volume contiene gli elementi seguenti:

  • File non ottimizzati. I file non ottimizzati possono includere ad esempio i file che non soddisfano l'impostazione selezionata dei criteri della durata, i file di stato del sistema, i flussi di dati alternativi, i file crittografati, i file con attributi estesi, i file di dimensioni minori di 32 KB, altri file di reparse point o i file in uso in altre applicazioni (il limite "in uso" è stato rimosso in R2 per Windows Server 2012).

  • File ottimizzati. File archiviati come reparse point contenenti puntatori a una mappa dei rispettivi blocchi dell'archivio blocchi necessari per ripristinare il file quando richiesto.

  • Archivio blocchi. Posizione dei dati dei file ottimizzati.

  • Spazio libero aggiuntivo. I file ottimizzati e l'archivio blocchi occupano molto meno spazio rispetto a prima dell'ottimizzazione.

Applicazioni pratiche

Per gestire l'aumento dei dati aziendali da archiviare, gli amministratori stanno consolidando i server e concentrando gli obiettivi sulla scalabilità della capacità e l'ottimizzazione dei dati. Deduplicazione dati offre alcune soluzioni pratiche per raggiungere questi obiettivi, tra cui:

  • Ottimizzazione della capacità. Con la deduplicazione, vengono archiviati più dati in meno spazio fisico. Il livello di archiviazione offerto è superiore a quello offerto da funzionalità quali la compressione SIS (Single Instance Storage) o NTFS. Deduplicazione dati utilizza la suddivisione in blocchi di dimensione variabile e la compressione del file secondario, che offrono un rapporto di ottimizzazione di 2:1 per i file server generali e fino a 20:1 per i dati di virtualizzazione.

  • Scalabilità e prestazioni. La deduplicazione dei offre scalabilità elevata, efficienza a livello di risorse e non è intrusiva. Consente di elaborare fino a 50 MB di dari al secondo in R2 per Windows Server 2012 e circa 20 MB al secondo in Windows Server 2012. Può essere eseguita in più volumi contemporaneamente senza influire su altri carichi di lavoro del server. Il basso impatto sui carichi di lavoro del server viene mantenuto grazie alla limitazione dei consumi di risorse di memoria e CPU. Se il server è molto occupato, la deduplicazione può essere interrotta completamente. Gli amministratori possono inoltre eseguire i processi di deduplicazione dati in qualsiasi momento, pianificarne l'esecuzione e stabilire criteri di selezione dei file.

  • Affidabilità e integrità dei dati. Quando viene applicata la deduplicazione, l'integrità dei dati viene mantenuta. La deduplicazione usa la convalida checksum, di coerenza e di identità per assicurare l'integrità dei dati. Per tutti i metadati e i dati a cui viene fatto riferimento più spesso, la deduplicazione mantiene la ridondanza per assicurare che tutti i dati siano recuperabili in caso di danneggiamento.

  • Efficienza della larghezza di banda con BranchCache. Tramite l'integrazione con BranchCache, vengono applicate le stesse tecniche di ottimizzazione ai dati trasferiti tramite la WAN a una succursale. Il risultato sono tempi di download dei file più rapidi e consumo ridotto della larghezza di banda.

  • Gestione dell'ottimizzazione con strumenti familiari. La deduplicazione include funzionalità di ottimizzazione incorporate in Server Manager e Windows PowerShell. Le impostazioni predefinite offrono vantaggi immediati e la regolazione delle impostazioni da parte degli amministratori consente di ottenere ulteriori benefici. I cmdlet Windows PowerShell possono essere utilizzati facilmente per avviare un processo di ottimizzazione o pianificarne l'esecuzione in futuro. L'installazione di Deduplicazione dati e l'abilitazione di questa funzionalità su volumi selezionati possono inoltre essere eseguite utilizzando un file Unattend.xml che effettua la chiamata a uno script Windows PowerShell e che usato insieme a Sysprep consente di distribuire la deduplicazione al primo avvio di un sistema.

Funzionalità nuove e modificate

La tabella seguente descrive le modifiche apportate alla deduplicazione dati. Per altre informazioni, vedere Novità di deduplicazione dati in Windows Server.

Caratteristica/funzionalità

Novità o aggiornamento

Descrizione

Deduplicazione dati per l'archiviazione remota di carichi di lavoro Virtual Desktop Infrastructure (VDI)

Novità di Windows Server 2012 R2

Ottimizzare i dischi rigidi virtuali (VHD) attivi per i carichi di lavoro Virtual Desktop Infrastructure (VDI) implementando la deduplicazione dati in volumi condivisi cluster.

Espandere un file ottimizzato nel percorso originale

Novità di Windows Server 2012 R2

Usare il nuovo cmdlet Expand-DedupFile di Windows PowerShell per espandere i file ottimizzati in un percorso specificato di quello originale, se necessario per la compatibilità con le applicazioni, per le prestazioni o per altri requisiti. Per altre informazioni sul cmdlet, vedere T:Deduplication.Expand-DedupFile.

Deduplicazione dei dati per volumi di backup usati dalle applicazioni di backup virtualizzato

Novità di Windows Server 2012 R2

Ottimizzare i dischi rigidi virtuali (VHD) attivi usati dai carichi di lavoro di applicazioni di backup virtualizzato implementando la deduplicazione dei dati in volumi condivisi cluster o configurazioni iperconvergenti limitate. Scenario supportato con Windows Server 2012 R2 con l'aggiornamento cumulativo di novembre 2014 (KB 3000850) o versioni successive.

Requisiti

Per trarre vantaggio dalla deduplicazione dati, l'ambiente deve soddisfare i requisiti seguenti:

  • Server: un computer o macchina virtuale che esegue R2 per Windows Server 2012 o Windows Server 2012 con almeno un volume di dati

  • (Facoltativo) Un altro computer o macchina virtuale che esegue R2 per Windows Server 2012 o Windows Server 2012 connesso al server tramite una rete

    Importante

    Se Deduplicazione dati viene eseguito su carichi di lavoro VDI o di backup virtualizzato, tutti i file VHD devono essere:

    • Archiviati in un file server che esegue R2 per Windows Server 2012. Il nodo di archiviazione e il nodo di calcolo devono trovarsi in server diversi.

    • Archiviati in una risorsa di archiviazione locale in una configurazione iperconvergente limitata specifica. Per i requisiti dettagliati, vedere Pianificare la distribuzione di Deduplicazione dati.

Interoperabilità con macchine virtuali di Azure

È possibile eseguire questo servizio ruolo di Windows Server in una macchina virtuale di Azure. Questo scenario è stato testato con R2 per Windows Server 2012. È consigliabile usare la deduplicazione dati con macchine virtuali di Microsoft Azure che abbiano volumi con operazioni frequenti in lettura ma poco frequenti in scrittura. In questi casi, la deduplicazione può offrire un modo efficiente per archiviare più dati nelle VM di Azure.

I carichi di lavoro seguenti si prestano bene per l'uso con la deduplicazione dati in VM di Azure:

  • File server generici con contenuti relativamente statici

  • Siti di Microsoft SharePoint con contenuti relativamente statici

  • Siti Web con contenuti relativamente statici

I carichi di lavoro seguenti non sono consigliati per l'uso con la deduplicazione dati in VM di Azure, a causa della frequenza delle modifiche apportate ai file di grandi dimensioni:

  • Server di messaggistica come Microsoft Exchange Server

  • Server di database come Microsoft SQL Server

Per altre informazioni introduttive sulle macchine virtuali di Azure, visitare il sito Web di Azure.

Panoramica dell'architettura

La funzionalità di deduplicazione dati è costituita da un driver di filtro che monitora l'I/O locale o remoto e da un servizio di deduplicazione che controlla i tre tipi di processo disponibili, ossia ottimizzazione, Garbage Collection e ripulitura.

La resilienza in caso di guasti hardware è intrinseca nella deduplicazione, con la convalida checksum completa su dati e metadati, inclusa la ridondanza per i metadati e per i blocchi di dati di uso più frequente.

La deduplicazione dati consente in teoria di elaborare tutti i dati di un volume selezionato, ad eccezione dei file di dimensioni minori di 32 KB, i file delle cartelle escluse o i file a cui sono applicate impostazioni sulla durata. Stabilire con attenzione se un server e i volumi collegati sono candidati adatti per la deduplicazione prima di abilitare la funzionalità. Durante la deduplicazione, è consigliabile eseguire regolarmente il backup dei dati importanti.

Vedere anche

Per altre informazioni correlate, vedere le risorse seguenti.

Tipo di contenuto

Riferimenti

Valutazione del prodotto

Distribuzione

Operazioni

Risorse della community

Tecnologie correlate