Datenprofilerstellungs-Task

Der Datenprofilerstellungs-Task berechnet verschiedene Profile, mit deren Hilfe Sie sich mit einer Datenquelle vertraut machen und Probleme bei den Daten identifizieren können, die behoben werden müssen.

Den Datenprofilerstellungs-Task können Sie innerhalb eines Integration Services-Pakets verwenden, um ein Profil der in SQL Server gespeicherten Daten zu erstellen und potenzielle Probleme mit der Datenqualität zu identifizieren.

HinweisHinweis

In diesem Thema werden nur die Funktionen und Anforderungen des Datenprofilerstellungs-Tasks beschrieben. Eine exemplarische Vorgehensweise zur Verwendung des Datenprofilerstellungs-Tasks finden Sie im Abschnitt Profilerstellung von Daten mit dem Datenprofilerstellungs-Task und dem Viewer.

Wichtiger HinweisWichtig

Der Datenprofilerstellungs-Task funktioniert nur mit Daten, die in SQL Server 2000 oder höheren Versionen gespeichert werden. Dieser Task funktioniert nicht mit Datenquellen von Drittanbietern oder dateibasierten Datenquellen.

Um das Paket auszuführen, das den Datenprofilerstellungs-Task enthält, müssen Sie zudem ein Konto verwenden, das über Lese-/Schreibberechtigungen sowie CREATE TABLE-Berechtigungen für die tempdb-Datenbank verfügt.

Nachdem Sie Datenprofile mit dem Task berechnet und in einer Datei gespeichert haben, können Sie die Profilausgabe mit dem eigenständigen Datenprofil-Viewer überprüfen. Der Datenprofil-Viewer unterstützt außerdem Drilldownfunktionen, mit deren Hilfe Sie Probleme mit der Datenqualität verstehen können, die in der Profilausgabe identifiziert werden. Weitere Informationen finden Sie unter Anzeigen der Profilausgabe im Datenprofil-Viewer.

Wichtiger HinweisWichtig

Die Ausgabedatei enthält möglicherweise sensible Daten über die Datenbank und die Daten in der Datenbank. Vorschläge zur Verbesserung der Sicherheit dieser Datei finden Sie unter Steuern des Zugriffs auf Dateien, die von Paketen verwendet werden.

Die Drilldownfunktion, die im Datenprofil-Viewer zur Verfügung steht, sendet Live-Abfragen an die ursprüngliche Datenquelle.

Grundlegendes zu den verfügbaren Profilen

Der Datenprofilerstellungs-Task kann acht verschiedene Datenprofile berechnen. Fünf Profile analysieren einzelne Spalten und die restlichen drei analysieren mehrere Spalten oder Beziehungen zwischen Spalten und Tabellen.

Die folgenden fünf Profile analysieren einzelne Spalten.

Profile, die einzelne Spalten analysieren

Beschreibung

Verteilungsprofil für Spaltenlänge

Meldet alle eindeutigen Längen der Zeichenfolgenwerte in der ausgewählten Spalte sowie den Prozentsatz der Zeilen in der Tabelle, die jede Länge repräsentiert.

Dieses Profil hilft Ihnen, Probleme mit den Daten zu identifizieren, z. B. Werte, die nicht gültig sind. Beispiel: Sie erstellen ein Profil einer Spalte mit den Codes der US-amerikanischen Bundesstaaten, die zwei Zeichen lang sein sollen, und entdecken Werte, die länger als zwei Zeichen sind.

Profil für Spalten-NULL-Verhältnis

Meldet den Prozentsatz der NULL-Werte in der ausgewählten Spalte.

Dieses Profil hilft Ihnen, Probleme mit den Daten zu identifizieren, z. B. ein unerwartet hohes Verhältnis der NULL-Werte in einer Spalte. Beispiel: Sie erstellen ein Profil der Spalte für die Postleitzahl und entdecken einen unerwartet hohen Prozentsatz an fehlenden Codes.

Spaltenmusterprofil

Meldet einen Satz von regulären Ausdrücken, die den angegebenen Prozentsatz der Werte in einer Zeichenfolgenspalte abdecken.

Dieses Profil hilft Ihnen, Probleme mit den Daten zu identifizieren, z. B. Zeichenfolgen, die nicht gültig sind. Dieses Profil kann außerdem reguläre Ausdrücke vorschlagen, die künftig zur Überprüfung neuer Werte verwendet werden können. Beispiel: Ein Musterprofil einer Spalte für den US-amerikanischen Zip Code kann folgende reguläre Ausdrücke erstellen: \d{5}-\d{4}, \d{5} und \d{9}. Wenn Sie andere reguläre Ausdrücke erhalten, enthalten Ihre Daten wahrscheinlich ungültige oder falsch formatierte Werte.

Spaltenstatistikprofil

Meldet Statistiken, wie minimale, maximale, durchschnittliche und standardmäßige Abweichung für numerische Spalten und den Mindest- und Höchstwert für datetime-Spalten.

Dieses Profil hilft Ihnen, Probleme bei den Daten zu identifizieren, z. B. Datumswerte, die nicht gültig sind. Beispiel: Sie erstellen ein Profil einer Spalte mit historischen Daten und entdecken einen Maximalwert, der in der Zukunft liegt.

Verteilungsprofil für Spaltenwerte

Meldet alle eindeutigen Werte in der ausgewählten Spalte sowie den Prozentsatz der Zeilen in der Tabelle, die jeder Wert repräsentiert. Kann auch Werte melden, die mehr als einen angegebenen Prozentsatz der Zeilen in der Tabelle darstellen.

Dieses Profil hilft Ihnen, Probleme mit den Daten zu identifizieren, z. B. eine falsche Anzahl eindeutiger Werte in einer Spalte. Beispiel: Sie erstellen ein Profil einer Spalte, die die US-amerikanischen Bundesstaaten enthalten soll, und entdecken mehr als 50 eindeutige Werte.

Die folgenden drei Profile analysieren einzelne Spalten oder Beziehungen zwischen Spalten und Tabellen.

Profile, die mehrere Spalten analysieren

Beschreibung

Kandidatenschlüsselprofil

Meldet, ob eine Spalte oder eine Gruppe von Spalten ein Schlüssel oder ein ungefährer Schlüssel für die ausgewählte Tabelle ist.

Dieses Profil hilft Ihnen auch, Probleme bei den Daten zu identifizieren, z. B. doppelte Werte in einer potenziellen Schlüsselspalte.

Funktionales Abhängigkeitsprofil

Meldet, in welchem Maß die Werte in einer Spalte (die abhängige Spalte) von den Werten in einer Spalte oder einer Gruppe von Spalten (der determinanten Spalte) abhängig sind.

Dieses Profil hilft Ihnen auch, Probleme mit den Daten zu identifizieren, z. B. Werte, die nicht gültig sind. Beispiel: Sie erstellen ein Profil der Abhängigkeit zwischen einer Spalte, die US-amerikanische Zip Codes enthält, und einer Spalte mit US-amerikanischen Bundesstaaten. Der gleiche Zip Code sollte immer denselben Bundesstaat aufweisen, doch das Profil entdeckt Verstöße gegen dieses Abhängigkeitsverhältnis.

Wertinklusionsprofil

Berechnet die Überschneidung in den Werten zwischen zwei Spalten oder Gruppen von Spalten. Dieses Profil kann bestimmen, ob eine Spalte oder eine Gruppe von Spalten geeignet ist, als Fremdschlüssel zwischen den ausgewählten Tabellen zu fungieren.

Dieses Profil hilft Ihnen auch, Probleme bei den Daten zu identifizieren, z. B. Werte, die nicht gültig sind. Beispiel: Sie erstellen ein Profil der Spalte ProductID einer Verkaufstabelle und stellen fest, dass die Spalte Werte enthält, die nicht in der Spalte ProductID der Produkttabelle enthalten sind.

Erforderliche Komponenten für ein gültiges Profil

Ein Profil ist nur gültig, wenn Sie Tabellen oder Spalten auswählen, die nicht leer sind, und die Spalten für das Profil gültige Datentypen enthalten.

Gültige Datentypen

Einige der verfügbaren Profile sind nur für bestimmte Datentypen sinnvoll. Ein Spaltenmusterprofil für eine Spalte zu berechnen, die numerische oder datetime-Werte enthält, ist beispielsweise nicht sinnvoll. Daher ist ein solches Profil nicht gültig.

Profil

Gültige Datentypen*

Spaltenstatistikprofil

Die Spalten müssen einen numerischen Typ aufweisen oder vom datetime-Typ sein (nicht vom mean- Typ und vom stddev-Typ für die datetime-Spalte).

Profil für Spalten-NULL-Verhältnis

Alle Spalten**

Verteilungsprofil für Spaltenwerte

Die Spalten müssen vom integer-Typ, vom char-Typ und vom datetime-Typ sein.

Verteilungsprofil für Spaltenlänge

Die Spalten müssen vom char-Typ sein.

Spaltenmusterprofil

Die Spalten müssen vom char-Typ sein.

Kandidatenschlüsselprofil

Die Spalten müssen vom integer-Typ, vom char-Typ und vom datetime-Typ sein.

Funktionales Abhängigkeitsprofil

Die Spalten müssen vom integer-Typ, vom char-Typ und vom datetime-Typ sein.

Inklusionsprofil

Die Spalten müssen vom integer-Typ, vom char-Typ und vom datetime-Typ sein.

* In der vorherigen Tabelle gültiger Datentypen umfassen der integer-Typ, der char-Typ, der datetime-Typ und der numeric-Typ die folgenden spezifischen Datentypen:

     Ganzzahltypen umfassen den bit-Typ, den tinyint-Typ, den smallint-Typ, den int-Typ und den bigint-Typ.

     Zeichentypen schließen den char-Typ, den nchar-Typ, den varchar-Typ und den nvarchar,-Typ ein, umfassen jedoch nicht den varchar(max)-Typ und den nvarchar(max)-Typ.

     Datums- und Zeittypen schließen den datetime-Typ, den smalldatetime-Typ und den timestamp-Typ ein.

     Die numerischen Typen umfassen die integer-Typen (mit Ausnahme des bit-Typs), den money-Typ, den smallmoney-Typ, den decimal-Typ, den float-Typ, den real-Typ und den numeric-Typ.

** Der image-Typ, der text-Typ, der xml-Typ, der udt-Typ und der variant-Typ werden nur für das Profil für Spalten-NULL-Verhältnis unterstützt.

Gültige Tabellen und Spalten

Wenn die Tabelle oder die Spalte leer ist, führt die Datenprofilerstellung die folgenden Aktionen aus:

  • Wenn die ausgewählte Tabelle oder die Sicht leer ist, berechnet der Datenprofilerstellungs-Task keine Profile.

  • Wenn alle Werte in der ausgewählten Spalte NULL sind, berechnet der Datenprofilerstellungs-Task nur das Profil für Spalten-NULL-Verhältnis. Der Task berechnet das Verteilungsprofil für Spaltenlänge, das Spaltenmusterprofil, das Spaltenstatistikprofil oder das Verteilungsprofil für Spaltenwerte nicht.

Funktion des Datenprofilerstellungs-Tasks

Der Datenprofilerstellungs-Task verfügt über die folgenden zweckmäßigen Konfigurationsoptionen:

  • Platzhalterspalten   Beim Konfigurieren einer Profilanforderung akzeptiert der Task das Platzhalterzeichen (*) für einen Spaltennamen. Dies vereinfacht die Konfiguration und macht es leichter, die Eigenschaften unbekannter Daten zu ermitteln. Wenn der Task ausgeführt wird, erstellt er für jede Spalte, die über einen entsprechenden Datentyp verfügt, ein Profil.

  • Schnell-Profil   Sie können Schnellprofil auswählen, um den Task schnell zu konfigurieren. Ein Schnellprofil erstellt ein Profil einer Tabelle oder einer Sicht mit allen Standardprofilen und Standardeinstellungen.

Verfügbare benutzerdefinierte Meldungen für den Datenprofilerstellungs-Task

In der folgenden Tabelle werden die benutzerdefinierten Protokolleinträge für den Datenprofilerstellungs-Task aufgelistet. Weitere Informationen finden Sie unter Implementieren der Protokollierung in Pakete und Benutzerdefinierte Meldungen für die Protokollierung.

Protokolleintrag

Beschreibung

DataProfilingTaskTrace

Stellt beschreibende Informationen zum Taskstatus zur Verfügung. Nachrichten beinhalten folgende Informationen:

  • Start der Anforderungsverarbeitung

  • Abfragestart

  • Abfrageende

  • Beenden der Anforderungsverarbeitung

Grundlegendes zur Ausgabe und ihrem Schema

Der Datenprofilerstellungs-Task gibt die ausgewählten Profile im XML-Format aus, das dem Schema DataProfile.xsd entsprechend strukturiert ist. Sie können angeben, ob diese XML-Ausgabe in einer Datei oder einer Paketvariablen gespeichert wird. Sie können dieses Schema unter https://schemas.microsoft.com/sqlserver/2008/DataDebugger/ (möglicherweise nur in englischer Sprache) online anzeigen. Auf der Webseite können Sie eine lokale Kopie des Schemas speichern. Anschließend können Sie die lokale Kopie des Schemas in Microsoft Visual Studio oder einem anderen Schema-Editor, in einem XML-Editor oder einem Texteditor wie Notepad anzeigen.

Dieses Schema für Datenqualitätsinformationen kann für Folgendes nützlich sein:

  • Austauschen von Datenqualitätsinformationen innerhalb und außerhalb von Organisationen.

  • Erstellen von benutzerdefinierten Tools, die mit Datenqualitätsinformationen arbeiten.

Der Zielnamespace wird im Schema als https://schemas.microsoft.com/sqlserver/2008/DataDebugger/ (möglicherweise nur in englischer Sprache) identifiziert.

Verwenden der Ausgabe im bedingten Workflow eines Pakets

Die Komponenten der Datenprofilerstellung umfassen keine integrierten Funktionen zur Implementierung bedingter Logik im Workflow des Integration Services-Pakets basierend auf der Ausgabe des Datenprofilerstellungs-Tasks. Sie können diese Logik, mit minimalem Programmieraufwand, problemlos in einem Skripttask hinzufügen. Mit diesem Code wird eine Xpath-Abfrage der XML-Ausgabe durchgeführt und das Ergebnis in einer Paketvariablen gespeichert. Die Rangfolgeneinschränkungen, mit denen der Skripttask mit nachfolgenden Tasks verbunden wird, können einen Ausdruck verwenden, um den Workflow zu bestimmen. Der Skripttask stellt beispielsweise fest, dass der Prozentsatz der NULL-Werte in einer Spalte einen bestimmten Schwellenwert überschreitet. Wenn diese Bedingung wahr ist, sollten Sie das Paket unterbrechen und das Problem beheben, bevor Sie fortfahren.

Konfigurieren des Datenprofilerstellungs-Tasks

Sie konfigurieren den Datenprofilerstellungs-Task mit dem Editor für den Datenprofilerstellungs-Task. Der Editor hat zwei Seiten:

Integration Services (kleines Symbol) Bleiben Sie mit Integration Services auf dem neuesten Stand

Die neuesten Downloads, Artikel, Beispiele und Videos von Microsoft sowie ausgewählte Lösungen aus der Community finden Sie auf der Integration Services-Seite von MSDN oder TechNet:

Abonnieren Sie die auf der Seite verfügbaren RSS-Newsfeeds, um automatische Benachrichtigungen zu diesen Aktualisierungen zu erhalten.