Data Cleansing

Gilt für:SQL Server

Die Datenbereinigung ist der Prozess der Datenqualitätsanalyse in einer Datenquelle, wobei die Empfehlungen vom System manuell genehmigt/zurückgewiesen werden und dadurch Änderungen an den Daten vorgenommen werden. Die Datenbereinigung in Data Quality Services (DQS) umfasst einen computergestützten Prozess, der analysiert, wie Daten den Kenntnissen in einer Wissensbasis entsprechen, und einen interaktiven Prozess, der es dem Data Steward ermöglicht, computergestützte Prozessergebnisse zu überprüfen und zu ändern, um sicherzustellen, dass die Datenbereinigung genau wie gewünscht erfolgt.

Der Data Steward kann auch die Datenbereinigung im SQL Server Integration Services-Verpackungsprozess ausführen. In diesem Fall würde der Data Steward die DQS-Säuberungskomponente in Integration Services verwenden, die automatisch datenbereinigung mit einer vorhandenen Wissensbasis durchführt. Weitere Informationen finden Sie unter DQS-Bereinigungstransformation.

Die Funktion Datenbereinigung in DQS hat die folgenden Vorteile:

  • Identifiziert unvollständige oder falsche Daten in der Datenquelle (Excel-Datei oder SQL Server-Datenbank) und korrigiert dann die ungültigen Daten oder sendet Ihnen eine Warnung darüber.

  • Stellt einen aus zwei Schritten bestehenden Prozess zum Bereinigen der Daten bereit: computerunterstützt und interaktiv. Vom computergestützten Prozess werden die Informationen in einer DQS-Wissensdatenbank verwendet, um die Daten automatisch zu verarbeiten und um Ersetzungen bzw. Korrekturen vorzuschlagen. Der nächste Schritt ist interaktiv. Der Data Steward kann die vom DQS während des computerunterstützten Datenbereinigungsprozesses vorgeschlagenen Änderungen genehmigen, ablehnen oder ändern.

  • Standardisiert und erweitert Kundendaten mit Domänenwerten, Domänenregeln und Verweisdaten. Standardisieren Sie beispielsweise die Begriffsnutzung, indem Sie "St." in "Street" ändern, Daten erweitern, indem Sie fehlende Elemente ausfüllen, indem Sie "1 Microsoft way Redmond 98006" in "1 Microsoft Way, Redmond, WA 98006" ändern.

  • Stellt dem Benutzer eine einfache, intuitive, und konsistente assistentenähnliche Oberfläche bereit, um damit in Daten zu navigieren und Fehler unter einem sehr umfangreichen Satz an Daten zu überprüfen.

Die folgende Abbildung zeigt an, wie die Datenbereinigung in DQS erfolgt:

Data Cleansing Process in DQS

Computerunterstützte Bereinigung

Der DQS-Datenbereinigungsprozess führt die Bereinigung der Daten mithilfe der Wissensdatenbank aus und schlägt Änderungen an den Daten vor. Der Data Steward hat Zugriff auf alle vorgeschlagenen Änderungen, sodass er diese bewerten und korrigieren kann. So führt der Data Steward eine Datenbereinigung aus

  1. Erstellen Sie ein Data Quality-Projekt, wählen Sie eine Wissensdatenbank aus, wofür Sie eine Analyse ausführen und Ihre Daten bereinigen möchten, und wählen Sie die Aktivität Bereinigung aus. Mehrere Data Quality-Projekte können die gleiche Wissensdatenbank verwenden.

  2. Geben Sie die Datenbanktabelle/Sicht oder eine Excel-Datei an, die die Quelldaten enthält, die gereinigt werden sollen. Die Datenbank- oder die Excel-Datei kann der Datei entsprechen, die für die Wissensermittlung verwendet wurde, oder es kann sich um eine andere Datenbank- oder die Excel-Datei handeln.

    Hinweis

    Wenn Sie die gleiche Datenquelle für die Wissensermittlung und die Bereinigungsaktivitäten auswählen, gibt es keine Änderung an den Daten. Es wird empfohlen, dass Sie die Wissensermittlung auf Beispieldaten ausführen und Ihre Quelldaten später mit den Informationen bereinigen, die während der Wissensdatenbankaktivität erstellt wurden.

  3. Ordnen Sie die Datenfelder, die bereinigt werden sollen, den entsprechenden Domänen bzw. Verbunddomänen in der Wissensdatenbank zu. Wenn Sie einer Verbunddomäne ein Feld zuordnen, geschieht die Zuordnung zwischen dem Feld und der Verbunddomäne und nicht mit den einzelnen Domänen in der Verbunddomäne. Zudem wird die Datenbereinigung für das zugeordnete Feld auf Grundlage der Regeln für die Verbunddomäne ausgeführt und nicht für die einzelnen Domänen in der Verbunddomäne. Weitere Informationen über Verbunddomänen finden Sie unter DQS Knowledge Bases and Domains.

  4. Führen Sie auf der Seite Bereinigen den computergestützten Prozess durch Klicken auf Start aus.

Der Datenbereinigungsprozess sucht nach der Dateninstanz, die mit bekannten Datendomänenwerten am besten übereinstimmt. Dieser Prozess wendet im Gegensatz zum Wissensermittlungsprozess, der für einen Prozentsatz der Beispieldaten ausgeführt wird, das auf die Datenqualität bezogene Wissen auf alle Quelldaten an.

Der computergestützte Prozess zeigt Datenqualitätsinformationen im Data Quality Client an, die für den interaktiven Reinigungsprozess verwendet werden. Bei der Kategorisierung von Daten werden von DQS nicht nur die Syntaxfehlerregeln eingehalten, sondern auch Verweisdaten, erweiterte Algorithmen und ein Vertrauensgradverwendet. Der Vertrauensgrad gibt die DQS-Sicherheitsstufe der Korrektur oder des Vorschlags an. Der Vertrauensgrad basiert auf den folgenden Schwellenwerten:

  • Schwellenwert für die automatische Korrektur – oberhalb dieses Werts werden Änderungen von DQS vorgeschlagen und vorgenommen, außer wenn sie vom Data Steward abgelehnt werden Sie können den automatischen Korrekturschwellenwert auf der Registerkarte Allgemeine Einstellungen auf dem Bildschirm Konfiguration angeben. Weitere Informationen finden Sie unter Konfigurieren der Schwellenwerte für Bereinigung und Abgleich.

  • Schwellenwert für automatische Vorschläge (unter dem Schwellenwert für die automatische Korrektur) – oberhalb dieses Werts werden Änderungen von DQS vorgeschlagen und vorgenommen, wenn sie vom Data Steward genehmigt werden. Sie können den automatischen Vorschlagsschwellenwert auf der Registerkarte Allgemeine Einstellungen auf dem Bildschirm Konfiguration angeben. Weitere Informationen finden Sie unter Konfigurieren der Schwellenwerte für Bereinigung und Abgleich.

Jeder Wert, der über einen Vertrauensgrad unter dem Schwellenwert für die automatischen Vorschläge verfügt, wird von DQS nicht verändert, außer wenn der Data Steward eine Änderung angibt.

Interaktive Bereinigung

Auf Grundlage des computergestützten Bereinigungsprozesses stellt DQS dem Data Steward Informationen bereit, die dieser für die Bewertung von Datenänderungen benötigt. DQS kategorisiert die Daten auf den folgenden fünf Registerkarten:

  • Vorgeschlagen: Werte, für die DQS Vorschläge gefunden hat, die einen Vertrauensgrad aufweisen, der höher als der automatisch vorgeschlagene Schwellenwert , aber niedriger als der Schwellenwert für die automatische Korrektur ist. Diese Werte sollten Sie überprüfen und genehmigen bzw. ablehnen.

  • Neu: Gültige Werte, für die DQS nicht genügend Informationen (Vorschlag) enthält und daher keiner anderen Registerkarte zugeordnet werden kann. Darüber hinaus enthält diese Registerkarte auch Werte, die das Konfidenzniveau kleiner als der Schwellenwert für automatische Vorschläge haben, aber hoch genug, um als gültig markiert zu werden.

  • Ungültig: Werte, die in der Domäne in der Wissensdatenbank als ungültig markiert wurden, oder Werte, die eine Domänenregel oder Verweisdaten verletzt haben. Diese Registerkarte enthält zudem Werte, die während des interaktiven Bereinigungsprozesses vom Benutzer auf einer der anderen vier Registerkarten abgelehnt wurden.

  • Korrigiert: Werte, die von DQS während des automatisierten Bereinigungsprozesses korrigiert wurden, da für den Wert eine Korrektur mit einem Vertrauensgrad oberhalb des Schwellenwerts für die automatische Korrektur gefunden wurde. Diese Registerkarte enthält auch Werte, für die der Benutzer während der interaktiven Bereinigung einen richtigen Wert in der Spalte Korrigieren in angegeben hat und dies dann genehmigt hat, indem er auf das Optionsfeld der Spalte Genehmigen in einer der anderen vier Registerkarten geklickt hat.

  • Richtig: Werte, die richtig gefunden wurden. Beispielsweise stimmt der Wert mit dem Domänenwert überein. Sie können die DQS-Bereinigung bei Bedarf überschreiben, indem Sie Werte unter dieser Registerkarte ablehnen oder ein alternatives Wort in der Spalte Korrigieren in angeben und anschließenden auf das Optionsfeld der Spalte Annehmen klicken. Diese Registerkarte enthält auch Werte, die vom Benutzer während der interaktiven Bereinigung durch Klicken auf das Optionsfeld in der Spalte Genehmigen auf der Registerkarte Neu oder Ungültig genehmigt wurden.

Hinweis

Auf den Registerkarten Vorgeschlagen, Korrigiertund Richtig zeigt DQS den führenden Wert für eine Domäne (falls anwendbar) in der Spalte Korrigieren in für den jeweiligen Domänenwert an.

Der Data Steward verwendet den Data Quality Client, um die von DQS vorgeschlagenen Änderungen anzuzeigen und zu entscheiden, ob sie implementiert werden sollen oder nicht. Er kann überprüfen, ob die von DQS als richtig gekennzeichneten Werte tatsächlich richtig sind. Er kann überprüfen, ob Änderungen mit einem hohen Vertrauensgrad, die von DQS bereits implementiert wurden, tatsächlich vorgenommen werden sollten. Er kann entscheiden, ob automatisch vorgeschlagene Änderungen genehmigt werden sollen. Außerdem kann er Werte überprüfen, die nicht geändert wurden, und ggf. Änderungen vornehmen, die vom computergestützten Prozess nicht gefunden wurden.

DQS führt alle vom Data Steward vorgenommenen Änderungen mit den Ergebnissen der computergestützten Datenbereinigung zusammen. Diese Änderungen werden mit dem Projekt gespeichert. Sie werden jedoch nicht zur Wissensdatenbank hinzugefügt. Während der Datenbereinigung ist die verbundene Wissensdatenbank schreibgeschützt.

Wenn der Datenbereinigungsprozess abgeschlossen wurde, können Sie auswählen, ob die verarbeiteten Daten in eine neue Tabelle, in eine SQL Server-Datenbank, in eine CSV-Datei oder in eine Excel-Datei exportieren werden soll. Die Quelldaten, für die die Bereinigung ausgeführt wurde, bleiben im ursprünglichen Zustand erhalten. Der Data Steward kann die separaten bereinigten Daten verwenden, um die eigentlichen Quelldaten zu korrigieren.

Die folgende Abbildung zeigt, wie die Datenbereinigung mithilfe der Datenqualitätsclientanwendung erfolgt:

Data Cleansing in Data Quality Client

Korrektur des führenden Werts

Die Korrektur des führenden Werts gilt für Domänenwerte, die über Synonyme verfügen, und der Benutzer möchte einen der Synonymwerte als führenden Wert anstelle von anderen für die konsistente Darstellung des Werts verwenden. Beispielsweise sind „New York“, „NYC“ und „Big Apple“ Synonyme. Der Benutzer möchte jedoch „New York“ als führenden Wert anstelle von „NYC“ und „Big Apple“ verwenden. DQS unterstützt während des Bereinigungsprozesses die Korrektur des führenden Werts, um Ihnen beim Standardisieren der Daten zu helfen. Die Korrektur des führenden Werts wird nur ausgeführt, wenn die Domäne für das Gleiche aktiviert wurde, als sie erstellt wurde. Standardmäßig ist bei allen Domänen die Korrektur des führenden Werts aktiviert, außer wenn Sie beim Erstellen einer Domäne das Kontrollkästchen Führende Werte verwenden deaktiviert haben. Weitere Informationen zu diesem Kontrollkästchen finden Sie unter Set Domain Properties.

Standardisieren bereinigter Daten

Sie können auswählen, ob Sie die bereinigten Daten im standardisierten Format auf Grundlage des für Domänen definierten Ausgabeformats ausgegeben möchten. Wählen beim Erstellen einer Domäne die Formatierung aus, die beim Ausgeben der Datenwerte in der Domäne angewendet wird. Weitere Informationen zum Angeben von Ausgabeformaten einer Domäne finden Sie in der Liste Formatausgabe in Set Domain Properties.

Beim Exportieren der bereinigten Daten auf der Seite Exportieren im Assistenten für die Bereinigung von Data Quality-Projekten können Sie angeben, ob die bereinigten Daten im standardisierten Format exportiert werden sollen, indem Sie das Kontrollkästchen Ausgabe standardisieren aktivieren. Standardmäßig werden die gereinigten Daten im standardisierten Format exportiert, das heißt, das Kontrollkästchen ist aktiviert. Weitere Informationen zum Exportieren der bereinigungen Daten finden Sie unter Cleanse Data Using DQS (Internal) Knowledge.

Taskbeschreibung Thema
Beschreibt das Konfigurieren von Schwellenwerten für Bereinigungsaktivitäten. Konfigurieren der Schwellenwerte für Bereinigung und Abgleich
Beschreibt, wie Daten mithilfe der Wissenserstellung in DQS bereinigt werden. Bereinigen von Daten mit (internem) DQS-Wissen
Beschreibt, wie Daten mithilfe der Informationen des Verweisdatendiensts bereinigt werden. Bereinigen von Daten mit (externem) Verweisdaten-Wissen
Beschreibt, wie eine Verbunddomäne gereinigt wird. Bereinigen von Daten in einer Verbunddomäne

Weitere Informationen

Data Quality Projects (DQS)
Datenabgleich