Datendeduplizierung (Übersicht)

Artikel
09/02/2016

Veröffentlicht: August 2016

Gilt für: Windows Storage Server 2012, Windows Server 2012 R2, Windows Server 2012

In diesem Thema werden das Datendeduplizierungsfeature in Windows Server 2012 R2 und Windows Server 2012 sowie praktische Anwendungsfälle für das Feature beschrieben.

Featurebeschreibung

Für die Datendeduplizierung werden Datenduplikate gesucht und entfernt, ohne dabei die Genauigkeit oder die Integrität der Daten zu beeinträchtigen. Das Ziel besteht darin, mehr Daten mit weniger Speicherplatz zu speichern, indem Dateien in kleine Blöcke variabler Größe (32 bis 128 KB) unterteilt und doppelte Blöcke identifiziert werden und nur eine Kopie jedes Blocks beibehalten wird. Redundante Kopien des Blocks werden durch einen Verweis auf die einzelne Kopie ersetzt. Die Blöcke werden komprimiert und in speziellen Containerdateien im Ordner für Systemvolumeinformationen organisiert.

Das Ergebnis ist eine Transformation jeder Datei auf dem Datenträger, wie in Abb. 1 gezeigt. Nach der Deduplizierung werden Dateien nicht mehr als unabhängige Datenströme gespeichert, und durch Stubs ersetzt, die auf Datenblöcke in einem gemeinsamen Blockspeicher verweisen. Da diese Dateien Blöcke gemeinsam nutzen, werden die Blöcke nur einmal gespeichert, sodass der erforderliche Speicherplatz zum Speichern aller Dateien reduziert wird. Während des Dateizugriffs werden zum Bereitstellen der Daten korrekte Blöcke transparent zusammengesetzt, ohne die App aufzurufen und ohne dass der Benutzer Kenntnis von der Transformation der Datei auf dem Datenträger hat. Dadurch können Administratoren die Deduplizierung auf Dateien anwenden, ohne sich Gedanken um mögliche Änderungen des App-Verhaltens oder Auswirkungen auf Benutzer, die auf die Dateien zugreifen, machen zu müssen.

Abbildung 1 – Transformation von Dateien auf dem Datenträger

Abbildung 1 Transformation von Dateien auf dem Datenträger während der Datendeduplizierung

Nachdem ein Volume für die Deduplizierung aktiviert wurde und die Daten optimiert wurden, enthält es Folgendes:

Nicht optimierte Dateien. Zu den nicht optimierten Dateien zählen beispielsweise Dateien, die nicht der ausgewählten Richtlinieneinstellung für das Dateialter entsprechen, Systemstatusdateien, alternative Datenströme, verschlüsselte Dateien, Dateien mit erweiterten Attributen, Dateien bis 32 KB, Dateien mit anderen Analysepunkten und von einer anderen Anwendung verwendete Dateien (das Verwendungslimit wurde in Windows Server 2012 R2 aufgehoben).
Optimierte Dateien. Als Analysepunkte gespeicherte Dateien mit Zeigern auf eine Zuordnung der entsprechenden Blöcke im Blockspeicher, die zum Wiederherstellen der Datei bei Anforderung erforderlich sind.
Blockspeicher. Speicherort für die optimierten Dateidaten.
Zusätzlicher freier Speicherplatz. Die optimierten Dateien und der Blockspeicher belegen nun viel weniger Speicherplatz als vor der Optimierung.

Praktische Anwendung

Zur Bewältigung des wachsenden Speicherplatzbedarfs in Unternehmen führen Administratoren eine Serverkonsolidierung durch und erklären Kapazitätsskalierung und Datenoptimierung zur obersten Priorität. Die Datendeduplizierung stellt praktische Methoden zum Erreichen dieser Ziele bereit, u. a.:

Kapazitätsoptimierung. Bei der Datendeduplizierung werden mehr Daten auf geringerem Raum gespeichert. Die Datendeduplizierung erreicht eine höhere Speichereffizienz als mit Single Instance Storage (SIS) oder NTFS-Komprimierung möglich war. Bei der Datendeduplizierung kommen die Datenblockerstellung aus Unterdateien mit Blöcken variabler Größe und die Komprimierung zum Einsatz. Dadurch lässt sich die Nutzung im Verhältnis 2:1 für allgemeine Dateiserver und bis zu 20:1 für Virtualisierungsdaten optimieren.
Skalierung und Leistung. Die Datendeduplizierung ist äußerst skalierbar, ressourcensparend und nicht-intrusiv. Sie kann unter Windows Server 2012 R2 bis zu 50 MB pro Sekunde verarbeiten und unter Windows Server 2012 ca. 20 MB pro Sekunde. Sie kann auf mehreren Volumes gleichzeitig ohne Auswirkungen auf andere Arbeitsauslastungen auf dem Server ausgeführt werden. Die geringe Auswirkung auf die Serverarbeitsauslastungen wird erreicht, indem die Beanspruchung von CPU- und Arbeitsspeicherressourcen gedrosselt wird. Ist der Server stark ausgelastet, kann die Deduplizierung ganz angehalten werden. Zudem besitzen Administratoren die Flexibilität, Aufträge zur Datendeduplizierung jederzeit auszuführen, Zeitpläne für die Ausführung der Datendeduplizierung festzulegen und Richtlinien für die Dateiauswahl einzurichten.
Zuverlässigkeit und Datenintegrität. Bei Anwendung der Datendeduplizierung wird die Integrität der Daten gewahrt. Die Datendeduplizierung nutzt Prüfsummen-, Konsistenz- und Identitätsprüfungen, um die Datenintegrität zu gewährleisten. Für alle Metadaten und die am häufigsten referenzierten Daten behält die Datendeduplizierung die Redundanz bei, um sicherzustellen, dass die Daten im Fall einer Beschädigung wiederhergestellt werden können.
Bandbreiteneffizienz mit BranchCache. Über die Integration mit BranchCache werden die gleichen Optimierungstechniken auch auf Daten angewendet, die über das WAN an eine Filiale übertragen werden. Das Ergebnis sind kürzere Dateidownloadzeiten und reduzierter Bandbreitenbedarf.
Optimierungsverwaltung mit vertrauten Tools. In Server-Manager und Windows PowerShell sind Optimierungsfunktionen für die Datendeduplizierung integriert. Mit den Standardeinstellungen können direkt Einsparungen erzielt werden, und für noch mehr Effizienz können die Einstellungen von Administratoren genau angepasst werden. Mit benutzerfreundlichen Windows PowerShell-Cmdlets können Sie einen Optimierungsauftrag starten oder die zukünftige Ausführung eines Auftrags planen. Die Installation des Datendeduplizierungsfeatures und die Aktivierung der Deduplizierung auf ausgewählten Volumes kann auch mithilfe der Datei "Unattend.xml" erreicht werden, die ein Windows PowerShell-Skript aufruft und zusammen mit Sysprep verwendet werden kann, um die Deduplizierung beim ersten Start eines Systems bereitzustellen.

Neue und geänderte Funktionalität

Die folgende Tabelle beschreibt die Änderungen an den Funktionen der Datendeduplizierung. Weitere Informationen finden Sie unter Neuigkeiten bei der Datendeduplizierung in WindowsServer.

Feature/Funktionalität	Neu oder aktualisiert?	Beschreibung
Datendeduplizierung für die Remotespeicherung von Virtual Desktop Infrastructure (VDI)-Arbeitsauslastungen	Neu in Windows Server 2012 R2	Optimieren Sie aktive virtuelle Festplatten (VHDs) für Arbeitsauslastungen von Virtual Desktop Infrastructure (VDI) durch die Implementierung der Datendeduplizierung auf freigegebenen Clustervolumes (CSV).
Erweitern einer optimierten Datei in ihrem ursprünglichen Pfad	Neu in Windows Server 2012 R2	Verwenden Sie das neue Cmdlet Expand-DedupFile in Windows PowerShell, um optimierte Dateien in einem angegebenen Pfad bei Bedarf im ursprünglichen Pfad zu erweitern und so Kompatibilität mit Anwendungen, höhere Leistung oder andere Anforderungen zu erfüllen. Weitere Informationen zu dem Cmdlet finden Sie unter T:Deduplication.Expand-DedupFile.
Datendeduplizierung für Sicherungsvolumes, die von Anwendungen für die virtualisierte Datensicherung verwendet werden	Neu in Windows Server 2012 R2	Optimieren Sie aktive virtuelle Festplatten (VHDs, Virtual Hard Drives), die von Arbeitsauslastungen der Anwendung für die virtualisierte Datensicherung verwendet werden, indem Sie die Datendeduplizierung auf freigegebenen Clustervolumes oder eingeschränkte hyperkonvergente Konfigurationen implementieren. (Unterstützt bei Windows Server 2012 R2 mit dem Updaterollup November 2014 (KB 3000850) oder höher.).

Anforderungen

Damit Sie die Datendeduplizierung nutzen können, muss die Umgebung die folgenden Voraussetzungen erfüllen:

Server: Ein Computer oder virtueller Computer unter Windows Server 2012 R2 oder Windows Server 2012 mit mindestens einem Datenvolume
(Optional) Ein weiterer Computer oder virtueller Computer mit Windows Server 2012 R2 oder Windows Server 2012, der über ein Netzwerk mit dem Server verbunden ist
Wichtig

Wenn eine Datendeduplizierung für VDI-Arbeitsauslastungen oder Arbeitsauslastungen der virtualisierten Datensicherung ausgeführt wird, müssen alle VHD-Dateien eine der beiden folgenden Anforderungen erfüllen:
- Sie müssen auf einem Server unter Windows Server 2012 R2 gespeichert sein, und der Speicherknoten und der Berechnungsknoten müssen auf verschiedenen Servern ausgeführt werden.
- Sie müssen auf einem lokalen Speicher in einer speziellen eingeschränkten hyperkonvergenten Konfiguration gespeichert sein. Die detaillierten Anforderungen finden Sie unter Planen der Datendeduplizierungsbereitstellung.

Interoperabilität mit virtuellen Azure-Computern

Sie können diesen Windows Server-Rollendienst auf einem virtuellen Computer in Azure ausführen. Dieses Szenario wurde mit Windows Server 2012 R2 getestet. Es wird empfohlen, die Datendeduplizierung mit virtuellen Microsoft Azure-Computern zu verwenden, auf deren Volumes häufig Lese-, jedoch selten Schreibvorgänge ausgeführt werden. Unter diesen Umständen kann die Datendeduplizierung eine effiziente Möglichkeit zum Speichern von größeren Datenvolumen in Azure-VMs bereitstellen.

Die folgenden Arbeitsauslastungen sind gute Kandidaten für die Verwendung mit der Datendeduplizierung auf Azure-VMs:

Allgemeine Dateiserver mit relativ statischem Inhalt
Microsoft SharePoint-Websites mit relativ statischem Inhalt
Websites mit relativ statischem Inhalt

Für die folgenden Arbeitsauslastungen wird die Verwendung der Datendeduplizierung auf Azure-VMs aufgrund der Häufigkeit von Änderungen an großen Dateien aufgrund der Arbeitsauslastungen nicht empfohlen:

Messaging-Server, z. B. Microsoft Exchange Server
Datenbankserver, z. B. Microsoft SQL Server

Weitere Informationen zu den ersten Schritten mit virtuellen Azure-Computern finden Sie auf der Azure-Website.

Übersicht über die Architektur

Das Datendeduplizierungsfeature besteht aus einem Filtertreiber, der lokal oder remote ausgeführte E/A-Vorgänge überwacht, und einem Deduplizierungsdienst, der die drei verfügbaren Auftragstypen (Optimierung, automatische Speicherbereinigung und Bereinigung) steuert.

Eine inhärente Eigenschaft der Deduplizierungsarchitektur ist die Unempfindlichkeit gegenüber Hardwarefehlern. Sie bietet eine vollständige Prüfsummenvalidierung für Daten und Metadaten, einschließlich Redundanz für Metadaten und die am häufigsten verwendeten Datenblöcke.

Die Datendeduplizierung kann potenziell alle Daten auf einem ausgewählten Volume verarbeiten (mit Ausnahme von Dateien bis 32 KB, Dateien in ausgeschlossenen Ordnern und Dateien, für die Alterseinstellungen gelten). Sie sollten sorgfältig ermitteln, ob ein Server und die angeschlossenen Volumes geeignete Kandidaten für die Deduplizierung sind, bevor Sie das Feature aktivieren. Es wird dringend empfohlen, während der Deduplizierung regelmäßig wichtige Daten zu sichern.

Siehe auch

Weitere verwandte Informationen finden Sie in den folgenden Ressourcen:

Inhaltstyp	Verweise
Produktbewertung	„Erweitern der Datendeduplizierung auf neue Arbeitsauslastungen in Windows Server 2012 R2“
Bereitstellung	„Bereitstellen der Datendeduplizierung für VDI-Speicher in Windows Server 2012 R2“ Planen der Datendeduplizierungsbereitstellung Sicherung und Wiederherstellung für deduplizierter Volumes Migrations-, Cluster- und BranchCache-Überlegungen für die Datendeduplizierung Installieren und Konfigurieren der Datendeduplizierung
Betrieb	Überwachen und Berichte für die Datendeduplizierung
Communityressourcen	TechNet-Forum für Dateidienste und Speicher Storage Team at Microsoft – File Cabinet Blog (in englischer Sprache) Ask the Directory Services Team (Blog in englischer Sprache) Jose Barreto's Blog (in englischer Sprache) Windows Server Information Experience bei Twitter (in englischer Sprache)
Verwandte Technologien	Datei- und Speicherdienste: Übersicht „Failoverclustering: Übersicht“ Speicherplätze – Übersicht