Vorgehensweise: Verwenden des Datenprofilerstellungs-Tasks (SQL Server-Video)

Betrifft: SQL Server 2008 Integration Services

Autoren: Douglas Laudenschlager, Microsoft Corporation

Länge: 00:10:12

Größe: 8,96 MB

Typ: WMV-Datei

Video ansehen

Verwandte Hilfethemen:

Datenprofilerstellungs-Task

Profilerstellung von Daten mit dem Datenprofilerstellungs-Task und dem Viewer

Videozusammenfassung

Hier erfahren Sie, wie Sie diesen leistungsstarken neuen Task in SQL Server 2008 verwenden, um sich mit einer unbekannten Datenbank vertraut zu machen oder in vorhandenen Daten nach Problemen zu suchen. Sehen Sie sich kurz die acht Profile an, die mit diesem Task berechnet werden können.

Videotranskript

Guten Tag, ich heiße Douglas Laudenschlager, und ich arbeite im Dokumentationsteam für Microsoft SQL Server Integration Services.

Heute erfahren Sie, wie Sie sich mithilfe des neuen Datenprofilerstellungs-Tasks in Integration Services von SQL Server 2008 mit unbekannten Datenbanken vertraut machen oder in vorhandenen Daten nach Problemen suchen.

Dabei lernen Sie:

  • Wie der Datenprofilerstellungs-Task in einem Integration Services-Paket konfiguriert und ausgeführt wird.
  • Wie der eigenständige Datenprofil-Viewer zum Anzeigen der Ausgabe des Tasks ausgeführt wird.
  • Und wie die im Datenprofil-Viewer angezeigte Ausgabe des Tasks gelesen und analysiert wird.

Wir befinden uns in Business Intelligence Development Studio, wo wir bereits ein neues Integration Services-Projekt erstellt und ein neues Paket im Designer geöffnet haben. Wir suchen den Datenprofilerstellungs-Task in den Ablaufsteuerungselementen der Toolbox und ziehen diesen auf die Entwurfsoberfläche.

Bevor der Task konfiguriert werden kann, müssen die zwei Verbindungs-Manager eingerichtet werden, die der Task für die Eingabe und Ausgabe erwartet. Der Datenprofilerstellungs-Task erhält seine Eingabe von einer ADO-Verbindung. Deshalb erstellen wir einen neuen ADO.NET-Verbindungs-Manager, der auf die AdventureWorks-Beispieldatenbank verweist. Der Datenprofilerstellungs-Task verwendet nur ADO.NET-Verbindungen, und in dieser Version werden nur Profile von Microsoft SQL Server-Datenquellen erstellt. Die Ausgabe des Datenprofilerstellungs-Tasks wird an eine Datei im XML-Format gesendet. Deshalb benötigen wir auch einen Dateiverbindungs-Manager. Wir konfigurieren den Dateiverbindungs-Manager nun so, dass eine bestehende Ausgabedatei einer vorherigen Ausführung überschrieben wird. Jetzt können wir den Datenprofilerstellungs-Task selbst konfigurieren.

Nachdem wir den Editor für den Datenprofilerstellungs-Task geöffnet haben, ist unsere erste Aufgabe, den gerade erstellten Dateiverbindungs-Manager als Ausgabeziel des Tasks zuzuweisen. Da die vorhandene Datei überschrieben werden soll, kann der Wert der OverwriteDestination-Eigenschaft von False auf True geändert werden.

Auf der Seite Profilanforderungen (Profile Requests) werden acht verschiedene Profiltypen angezeigt, die vom Task berechnet werden können. Für viele davon können zahlreiche Optionen festgelegt werden. Diese Optionen ergeben jedoch mehr Sinn, wenn wir uns zunächst eine Beispielausgabe des Datenprofilerstellungs-Tasks ansehen. Machen wir dafür einen Exkurs.

Wir gehen zurück zur Registerkarte Allgemein (General) und wählen die Option Schnellprofil (Quick Profile) aus. Im Schnellprofil werden bis zu sieben der verfügbaren Profile mit Standardoptionen für eine einzelne ausgewählte Tabelle ausgeführt. Als Beispiel wählen wir die Tabelle Person.Address in der AdventureWorks-Datenbank aus, sowie alle sieben Profile, die ausgeführt werden können.

Der Task ist nun konfiguriert und einsatzbereit. Da die Ausführung eine Minute dauert, machen wir noch einen Exkurs und sehen uns die Ausgabe einer vorherigen Ausführung an. Zu diesem Zweck benötigen wir den Datenprofil-Viewer, eine separate, eigenständige Anwendung. Ich habe jetzt gerade die Ausgabedatei im Datenprofil-Viewer geöffnet. Wir erweitern nun die Struktur im Bereich Profile (Profiles) auf der linken Seite, um die Daten und berechneten Profile anzuzeigen.

Bevor wir uns die eigentliche Ausgabe genauer ansehen, gehen wir kurz auf die im Datenprofil-Viewer angezeigten Bereiche ein. Links auf der Seite Profile (Profiles) sehen Sie die Struktur der Daten und Profile, die für die Ausführung ausgewählt wurden. Im Bereich Ergebnisse (Results) oben rechts wird eine Zusammenfassung der Ergebnisse des Profils angezeigt. Normalerweise ist dies nur eine einzige Zeile. Im Bereich Details rechts in der Mitte werden ausführliche Details zu den Daten angezeigt, die einfach sortiert werden können. Diese werden sowohl im Text- als auch im Grafikformat dargestellt. Wenn die Datenquelle, für die das Profil ausgeführt wurde, noch verfügbar ist, können Sie die Details der einzelnen Datensätze im Drilldownbereich rechts unten anzeigen.

Sehen wir uns nun die verfügbaren Profile an. Der Datenprofilerstellungs-Task kann fünf Profile zur Untersuchung einzelner Spalten berechnen, und drei zusätzliche Profile, mit denen die Beziehungen zwischen den Spalten näher analysiert werden können.

Das einfachste Profil für eine einzelne Spalte ist das Profil für ein Spalten-NULL-Verhältnis. Dabei wird der Prozentsatz an NULL-Werten in einer bestimmten Spalte berechnet, sodass Sie NULL-Werte an Stellen ausfindig machen können, wo sie nicht hingehören. Sie möchten natürlich keine NULL-Werte in einer Postleitzahlen-Spalte, und dieses Profilergebnis zeigt uns, dass in der Adress-Tabelle in AdventureWorks tatsächlich keine NULL-Werte vorhanden sind.

Sie können auch ein Verteilungsprofil für die Spaltenlänge berechnen, bei dem die Längen der kürzesten und längsten Zeichenfolge einer Spalte angezeigt werden. Mithilfe dieses Profils können Sie unzulässige Zeichenfolgenwerte identifizieren, die die Längenvorgaben der Spalte unter- oder überschreiten. Hier können Sie sehen, dass die Einträge mit Werten ungleich NULL für AddressLine2 in AdventureWorks eine Länge zwischen einem und 28 Zeichen haben. Die am häufigsten verwendete Länge beträgt fünf Zeichen. Ein Drilldown zeigt, dass dies normalerweise auf Apartmentnummern zutrifft.

Wir können auch ein Verteilungsprofil für Spaltenwerte berechnen. Dadurch erfahren wir beispielsweise, dass die Spalte AddressLine2 in AdventureWorks 195 verschiedene Werte enthält. So können wir falsche oder außerhalb des gültigen Bereichs liegende Werte ausfindig machen, zum Beispiel, wenn in einer Nachschlagetabelle der 50 Staaten der USA mehr als 50 Werte vorhanden sind. Wenn in dieser Spalte also 195 verschiedene Werte enthalten sind, warum ist dann nur einer im Bereich Details aufgelistet? Der Grund hierfür liegt in den Standardeinstellungen für dieses Profil. Es werden nur Details für Werte zurückgegeben, die mehr als ein Zehntel von 1 % der Daten darstellen. Dies ist eine der vielen Optionen, die Sie beim Konfigurieren des Tasks einstellen können.

Im Spaltenstatistikprofil, das für numerische Spalten und Datumsspalten berechnet wird, werden der Minimalwert, der Maximalwert, die mittlere und die Standardabweichung für eine Zahlenspalte angezeigt. In der Spaltenstatistik für eine Datumsspalte sehen Sie das erste und das letzte Datum im Datumsbereich. Auch hierdurch können Sie auf Zahlen oder Datumsangaben außerhalb des gültigen Bereichs aufmerksam werden.

Das letzte Profil, das für eine einzelne Spalte berechnet werden kann, ist das Spaltenmusterprofil. In diesem eher ungebräuchlichen Profil wird ein Satz von regulären Ausdrücken zurückgegeben, die alle Werte in der Spalte abdecken. Sie können diese regulären Ausdrücke in einer benutzerdefinierten Anwendung verwenden, um entweder vorhandene Daten oder Benutzereingaben zu überprüfen, bevor diese in die Datenbank gelangen.

Sehen wir uns nun die Profile an, mit denen die Beziehung zwischen Spalten analysiert wird.

Mit dem Kandidatenschlüsselprofil werden Spalten mit einem hohen Grad an Eindeutigkeit identifiziert, die sich als Primärschlüssel eignen würden. Verstöße gegen diese Eindeutigkeit werden hierbei ebenfalls angezeigt. In diesem Fall gibt es natürlich keine Verstöße, da die Eindeutigkeit dieses Schlüssels bereits durch eine Einschränkung erzwungen wurde.

In diesem Beispiel wird das Wertinklusionsprofil nicht angezeigt, da es nicht durch die Option Schnellprofil (Quick Profile) ausgeführt wird. Fremdschlüsselbeziehungen werden darin jedoch auf ähnliche Weise betrachtet wie Primärschlüsselbeziehungen im Kandidatenschlüsselprofil.

Das funktionale Abhängigkeitsprofil ist eines der leistungsstärksten Profile. Sehen wir uns ein Beispiel für eine funktionale Abhängigkeit an. Für eine gegebene Postleitzahl würden Sie immer eine ganz bestimmte und unveränderliche Stadt oder Region erwarten. Hier sehen wir jedoch, dass dies in unserer Ausgabe in AdventureWorks nur zu 99 % richtig ist. Somit ist sofort klar, dass für StateProvinceID ungültige Werte vorhanden sind. Wenn wir uns eine der Postleitzahlen ansehen, bei der Verstöße auftreten, können wir einen Drilldown durchführen, um die Zeilen mit den richtigen und den falschen Werten anzuzeigen.

In diesem Video haben Sie erfahren, wie Sie sich mithilfe des neuen Datenprofilerstellungs-Tasks in Integration Services von SQL Server 2008 mit unbekannten Datenbanken vertraut machen oder in vorhandenen Daten nach Problemen suchen können.

Sie haben außerdem gelernt:

  • Wie der Datenprofilerstellungs-Task in einem Integration Services-Paket konfiguriert und ausgeführt wird.
  • Wie der eigenständige Datenprofil-Viewer zum Anzeigen der Ausgabe des Tasks ausgeführt wird.
  • Und wie die im Datenprofil-Viewer angezeigte Ausgabe des Tasks gelesen und analysiert wird.

Wir hoffen, dass Sie durch dieses Video neue und nützliche Fertigkeiten erlangt haben. Wenn Sie dieses Video schließen und zur Webseite zurückkehren, stehen Ihnen weitere Integration Services-Videos zur Verfügung. Vielen Dank!