Optionen für die Anforderung für Spaltenmusterprofil (Datenprofilerstellungs-Task)

Verwenden Sie den Bereich Anforderungseigenschaften der Seite Profilanforderungen, um die Optionen für die im Anforderungsbereich ausgewählte Anforderung für Spaltenmusterprofil festzulegen. Ein Spaltenmusterprofil meldet einen Satz von regulären Ausdrücken, die den angegebenen Prozentsatz der Werte in einer Zeichenfolgenspalte abdecken. Mit diesem Profil können Sie Probleme in Ihren Daten, wie z. B. ungültige Zeichenfolgen, ermitteln und reguläre Ausdrücke vorschlagen, die in Zukunft zum Überprüfen neuer Werte verwendet werden können. Beispiel: Ein Musterprofil einer Spalte mit US-Postleitzahlen kann die regulären Ausdrücke \d{5}-\d{4}, \d{5} und \d{9} erstellen. Wenn Sie andere reguläre Ausdrücke erhalten, enthalten Ihre Daten wahrscheinlich ungültige oder falsch formatierte Werte.

HinweisHinweis

Die in diesem Thema beschriebenen Optionen werden auf der Seite Profilanforderungen im Editor für den Datenprofilerstellungs-Task angezeigt. Weitere Informationen zu dieser Seite des Editors finden Sie unter Editor für den Datenprofilerstellungs-Task (Seite 'Profilanforderungen').

Weitere Informationen zum Verwenden des Datenprofilerstellungs-Tasks finden Sie unter Einrichten des Datenprofilerstellungs-Tasks. Weitere Informationen zum Verwenden des Datenprofil-Viewers zum Analysieren der Ausgabe des Datenprofilerstellungs-Tasks finden Sie unter Anzeigen der Profilausgabe im Datenprofil-Viewer.

Grundlegendes zur Verwendung von Trennzeichen und Symbolen

Vor dem Berechnen der Muster für eine Anforderung für Spaltenmusterprofil versieht der Datenprofilerstellungs-Task die Daten mit einem Token. Das heißt, der Task unterteilt die Zeichenfolgenwerte in kleinere Einheiten, die als Token bezeichnet werden. Der Task unterteilt Zeichenfolgen anhand der Trennzeichen und Symbole, die Sie für die Delimiters-Eigenschaft und die Symbols-Eigenschaft angeben, in Token:

  • Delimiters   Standardmäßig enthält die Liste der Trennzeichen die folgenden Zeichen: Leerzeichen, horizontaler Tabstopp (\t), Neue-Zeile-Zeichen (\n) und Wagenrücklauf (\r). Sie können zusätzliche Trennzeichen angeben, Sie können die Standardtrennzeichen jedoch nicht entfernen.

  • Symbols   Standardmäßig enthält die Liste der Symbole die folgenden Zeichen: ,.;:-"'`~=&/\@!?()<>[]{}|#*^%. Sind die Symbole beispielsweise "()-", wird der Wert "(425) 123-4567" mit dem Token ["(", "425", ")", "123", "-", "4567", ")"] versehen.

Ein Zeichen kann nicht zugleich ein Trennzeichen und ein Symbol sein.

Alle Trennzeichen werden im Rahmen des Prozesses zur Tokenerstellung in ein Leerzeichen normalisiert, während Symbole beibehalten werden.

Grundlegendes zur Verwendung der Tagtabelle

Sie können zusammengehörige Token optional mit einem Tag gruppieren. Dazu speichern Sie Tags und die zugehörigen Ausdrücke in einer speziellen Tabelle, die Sie in einer SQL Server-Datenbank erstellen. Die Tagtabelle muss zwei Zeichenfolgenspalten aufweisen, eine mit der Bezeichnung "Tag" und eine weitere mit der Bezeichnung "Begriff". Diese Spalten können vom Typ char, nchar, varchar oder nvarchar sein, jedoch nicht text oder ntext. Sie können mehrere Tags und die entsprechenden Ausdrücke in einer einzelnen Tabelle kombinieren. Eine Anforderung für Spaltenmusterprofil kann nur eine Tagtabelle verwenden. Sie können einen separaten ADO.NET-Verbindungs-Manager verwenden, um eine Verbindung zur Tagtabelle herzustellen. Daher kann sich die Tagtabelle in einer anderen Datenbank oder auf einem anderen Server befinden als die Quelldaten.

Sie können z. B. die Werte "Ost", "West", "Nord" und "Süd", die in Straßennamen angezeigt werden können, mit dem Tag "Richtung" gruppieren. Die folgende Tabelle ist ein Beispiel für eine Tagtabelle.

Tag

Begriff

Richtung

Ost

Richtung

West

Richtung

Nord

Richtung

Süd

Sie können ein andere Tag verwenden, um die verschiedenen Wörter zu gruppieren, die die Bezeichnung einer "Straße" in Straßennamen ausdrücken.

Tag

Begriff

Straße

Straße

Straße

Allee

Straße

Platz

Straße

Weg

Anhand dieser Kombination aus Tags könnte das resultierende Muster für eine Straßenbezeichnung dem folgenden Muster ähneln:

\d+\ LookupTag=Direction \d+\p{L}+\ LookupTag=Street

HinweisHinweis

Die Verwendung einer Tagtabelle beeinträchtigt die Leistung des Datenprofilerstellungs-Tasks. Verwenden Sie nicht mehr als 10 Tags oder mehr als 100 Begriffe pro Tag.

Derselbe Begriff kann zu mehreren Tags gehören.

Optionen für Anforderungseigenschaften

Für eine Anforderung für Spaltenmusterprofil zeigt der Bereich Anforderungseigenschaften die folgenden Gruppen von Optionen an:

  • Daten, die die Optionen TableOrView und Spalte enthalten

  • Allgemein

  • Optionen

Datenoptionen

  • ConnectionManager
    Wählen Sie den vorhandenen ADO.NET-Verbindungs-Manager aus, der den .NET-Datenanbieter für SQL Server (SqlClient) verwendet, um eine Verbindung zur SQL Server-Datenbank herzustellen, die die Tabelle oder Sicht enthält, für die ein Profil erstellt werden soll.

  • TableOrView
    Wählen Sie die vorhandene Tabelle oder die Sicht aus, die die Spalte enthält, für die ein Profil erstellt werden soll.

    Weitere Informationen finden Sie im Abschnitt "TableOrView-Optionen" in diesem Thema.

  • Spalte
    Wählen Sie die vorhandene Spalte aus, für die ein Profil erstellt werden soll. Wählen Sie (*) aus, um ein Profil für alle Spalten zu erstellen.

    Weitere Informationen finden Sie im Abschnitt "Spaltenoptionen" in diesem Thema.

TableOrView-Optionen

  • Schema
    Gibt das Schema an, zu dem die ausgewählte Tabelle gehört. Diese Option ist schreibgeschützt.

  • Tabelle
    Zeigt den Namen der ausgewählten Tabelle an. Diese Option ist schreibgeschützt.

Spaltenoptionen

  • IsWildCard
    Gibt an, ob der Platzhalter (*) ausgewählt wurde. Diese Option wird auf True festgelegt, wenn Sie (*) ausgewählt haben, um ein Profil für alle Spalten zu erstellen. Die Option wird auf False festgelegt, wenn Sie eine einzelne Spalte ausgewählt haben, für die ein Profil erstellt werden soll. Diese Option ist schreibgeschützt.

  • ColumnName
    Zeigt den Namen der ausgewählten Spalte an. Diese Option ist leer, wenn Sie (*) ausgewählt haben, um ein Profil für alle Spalten zu erstellen. Diese Option ist schreibgeschützt.

  • StringCompareOptions
    Diese Option gilt nicht für das Spaltenmusterprofil.

Allgemeine Optionen

  • RequestID
    Geben Sie einen beschreibenden Namen ein, um diese Profilanforderung zu kennzeichnen. In der Regel müssen Sie den automatisch generierten Wert nicht ändern.

Optionen

  • MaxNumberOfPatterns
    Geben Sie die maximale Anzahl von Mustern an, die das Profil berechnen soll. Der Standardwert dieser Option ist 10. Der Maximalwert ist 100.

  • PercentageDataCoverageDesired
    Geben Sie den Prozentwert der Daten an, die die berechneten Muster abdecken sollen. Der Standardwert dieser Option ist 95 (Prozent).

  • CaseSensitive
    Geben Sie an, ob bei den Mustern die Groß-/Kleinschreibung beachtet werden soll. Der Standardwert für diese Option ist False.

  • Trennzeichen
    Führen Sie die Zeichen auf, die als Entsprechung der Leerzeichen zwischen Wörtern behandelt werden sollen, wenn Text mit Token versehen wird. Standardmäßig enthält die Liste der Trennzeichen die folgenden Zeichen: Leerzeichen, horizontaler Tabstopp (\t), Neue-Zeile-Zeichen (\n) und Wagenrücklauf (\r). Sie können zusätzliche Trennzeichen angeben, Sie können die Standardtrennzeichen jedoch nicht entfernen.

    Weitere Informationen finden Sie unter "Grundlegendes zur Verwendung von Trennzeichen und Symbolen" in diesem Thema.

  • Symbole
    Führen Sie die Symbole auf, die als Teil von Mustern beibehalten werden sollen. Beispiele könnten "/" für Datumsangaben, ":" für Uhrzeiten und "@" für E-Mail-Adressen enthalten. Standardmäßig enthält die Liste der Symbole die folgenden Zeichen: ,.;:-"'`~=&/\@!?()<>[]{}|#*^%.

    Weitere Informationen finden Sie unter "Grundlegendes zur Verwendung von Trennzeichen und Symbolen" in diesem Thema.

  • TagTableConnectionManager
    Wählen Sie den vorhandenen ADO.NET-Verbindungs-Manager aus, der den .NET-Datenanbieter für SQL Server (SqlClient) verwendet, um eine Verbindung zur SQL Server-Datenbank herzustellen, die die Tagtabelle enthält.

    Weitere Informationen finden Sie unter "Grundlegendes zur Verwendung der Tagtabelle" in diesem Thema.

  • TagTableName
    Wählen Sie die vorhandene Tagtabelle aus, die zwei Zeichenfolgenspalten mit der Bezeichnung "Tag" und "Begriff" aufweisen muss.

    Weitere Informationen finden Sie unter "Grundlegendes zur Verwendung der Tagtabelle" in diesem Thema.