Modellierungsflags (Data Mining)

Artikel
07/30/2013

Sie können Modellierungsflags in SQL Server Analysis Services dazu verwenden, für einen Data Mining-Algorithmus zusätzliche Informationen zu den Daten bereitzustellen, die in einer Falltabelle definiert sind. Der Algorithmus kann diese Informationen verwenden, um ein genaueres Data Mining-Modell zu erstellen.

Einige Modellierungsflags werden auf der Ebene der Miningstruktur definiert, während andere auf der Ebene der Miningmodellspalte definiert werden. Beispielsweise wird das NOT NULL-Modellierungsflag für Miningstrukturspalten verwendet. Sie können zusätzliche Modellierungsflags für die Miningmodellspalten definieren, abhängig vom Algorithmus, den Sie zur Erstellung des Modells verwenden.

Hinweis
Zusätzlich zu den von Analysis Services vordefinierten Modellierungsflags können Plug-Ins eines Drittanbieters über eigene Modellierungsflags verfügen.

Liste der Modellierungsflags

In der folgenden Liste werden die Modellierungsflags beschrieben, die in Analysis Services unterstützt werden. Weitere Informationen zu den Modellierungsflags, die von bestimmten Algorithmen unterstützt werden, finden Sie unter dem Thema in der technischen Referenz für den Algorithmus, der zur Erstellung des Modells verwendet wurde.

NOT NULL
Gibt an, dass die Werte für die Attributspalte auf keinen Fall einen NULL-Wert enthalten dürfen. Es führt zu einem Fehler, wenn Analysis Services während des Modelltrainings einen NULL-Wert für diese Attributspalte findet.

MODEL_EXISTENCE_ONLY
Gibt an, dass die Spalte zwei Statuswerte enthalten kann: Missing und Existing. Der Wert NULL wird wie der Wert Missing behandelt. Das MODEL_EXISTENCE_ONLY-Flag wird für das vorhersagbare Attribut übernommen und wird von den meisten Algorithmen unterstützt.

Tatsächlich wird durch Festlegen des MODEL_EXISTENCE_ONLY-Flags auf True die Darstellung der Werte so geändert, dass es nur zwei Status gibt: Missing und Existing. Alle nicht fehlenden Status werden in einem einzelnen Existing-Wert kombiniert.

Dieses Modellierungsflag wird in der Regel in Attributen verwendet, bei denen der NULL-Status eine implizite Bedeutung hat und der explizite Wert des NOT NULL-Status nicht so wichtig ist wie die Tatsache, dass die Spalte überhaupt einen Wert enthält. Beispielsweise kann die Spalte [DateContractSigned] den Wert NULL enthalten, wenn ein Vertrag nie unterschrieben wurde, und den Wert NOT NULL, wenn der Wert unterschrieben wurde. Wenn das Modell vorhersagen soll, ob ein Vertrag unterschrieben wird, können Sie daher das MODEL_EXISTENCE_ONLY-Flag einsetzen, um den genauen Datumswert in den NOT NULL-Fällen zu ignorieren und nur zwischen den Fällen zu unterscheiden, in denen ein Vertrag Missing oder Existing lautet.

Hinweis
Missing ist ein spezieller vom Algorithmus verwendeter Statuswert, der nicht mit dem Textwert "Missing" bzw. "Fehlend" einer Spalte gleichbedeutend ist. Weitere Informationen finden Sie unter Fehlende Werte (Analysis Services - Data Mining).

REGRESSOR
Gibt an, dass die Spalte ein Kandidat für die Verwendung als Regressor während der Verarbeitung ist. Dieses Flag wird in einer Miningmodellspalte definiert und kann nur auf Spalten angewendet werden, die einen fortlaufenden numerischen Datentyp aufweisen. Weitere Informationen zur Verwendung dieses Flags finden Sie im Abschnitt in diesem Thema: Verwendungszwecke für das Regressor-Modellierungsflag.

Anzeigen und Ändern von Modellierungsflags

Sie können die Modellierungsflags, die einer Miningstrukturspalte oder Modellspalte im Data Mining-Designer zugeordnet sind, betrachten, indem Sie die Eigenschaften der Struktur oder des Modells anzeigen.

Um zu bestimmen, welche Modellierungsflags für die aktuelle Miningstruktur übernommen wurden, können Sie eine Abfrage für das Data Mining-Schemarowset erstellen, das die Modellierungsflags ausschließlich für die Strukturspalten zurückgibt, indem eine Abfrage wie die Folgende verwendet wird:

SELECT COLUMN_NAME, MODELING_FLAG
FROM $system.DMSCHEMA_MINING_STRUCTURE_COLUMNS
WHERE STRUCTURE_NAME = '<structure name>'

Sie können die in einem Modell verwendeten Modellierungsflags hinzufügen oder ändern, indem Sie den Data Mining-Designer verwenden und die Eigenschaften der zugeordneten Spalten bearbeiten. Für solche Änderungen ist es erforderlich, dass die Struktur oder das Modell erneut verarbeitet wird.

Sie können Modellierungsflags in einer neuen Miningstruktur oder einem Miningmodell mithilfe von DMX oder AMO- oder XMLA-Skripts angeben. Die in einem vorhandenen Miningmodell und einer Struktur mit DMX verwendeten Modellierungsflags können jedoch nicht geändert werden. Sie müssen unter Verwendung der ALTER MINING STRUCTURE….ADD MINING MODEL-Syntax ein neues Miningmodell erstellen.

Verwendungszwecke für das REGRESSOR-Modellierungsflag

Wenn Sie das REGRESSOR-Modellierungsflag für eine Spalte festlegen, zeigen Sie dem Algorithmus damit an, dass die Spalte potenzielle Regressoren enthält. Die tatsächlich im Modell verwendeten Regressoren werden vom Algorithmus bestimmt. Ein potenzieller Regressor kann verworfen werden, wenn er das vorhersagbare Attribut nicht modelliert.

Wenn Sie mit dem Data Mining-Assistenten ein Modell erstellen, werden alle kontinuierlichen Eingabespalten als potenzielle Regressoren gekennzeichnet. Daher kann eine Spalte im Modell auch dann als Regressor verwendet werden, wenn für diese Spalte nicht explizit das REGRESSOR-Flag festgelegt wurde.

Sie können ermitteln, welche Regressoren im verarbeiteten Modell tatsächlich verwendet wurden, indem Sie, wie im folgenden Beispiel gezeigt, eine Abfrage auf das Schemarowset des Miningmodells ausführen:

SELECT COLUMN_NAME, MODELING_FLAG
FROM $system.DMSCHEMA_MINING_COLUMNS
WHERE MODEL_NAME = '<model name>'

Hinweis Wenn Sie ein Miningmodell verändern und den Inhaltstyp einer Spalte von kontinuierlich in diskret ändern, müssen Sie das Flag für die Miningspalte von Hand ändern und das Modell dann erneut verarbeiten.

Regressoren in linearen Regressionsmodellen

Lineare Regressionsmodelle basieren auf dem Microsoft Decision Trees-Algorithmus. Auch wenn Sie den Microsoft Linear Regression-Algorithmus nicht verwenden, kann jedes Entscheidungsstrukturmodell eine Struktur oder Knoten enthalten, die eine Regression für ein kontinuierliches Attribut darstellt bzw. darstellen.

Sie müssen in diesen Modellen nicht angeben, dass eine kontinuierliche Spalte einen Regressor darstellt. Der Microsoft Decision Trees-Algorithmus unterteilt das Dataset selbst dann in Bereiche mit sinnvollen Mustern, wenn Sie das REGRESSOR-Flag nicht für die Spalte festlegen. Wenn das Modellierungsflag festgelegt wurde, versucht der Algorithmus im Unterschied dazu Regressionsgleichungen der folgenden Form zu finden, um die Muster den Knoten der Struktur zuzuordnen.

a*C1 + b*C2 + ...

Dann wird die Summe der Restwerte berechnet, und wenn die Abweichung zu groß ist, wird die Struktur unterteilt.

Wenn Sie beispielsweise das Kaufverhalten von Kunden mithilfe des Attributs Income vorhersagen und das Modellierungsflag REGRESSOR für die Spalte festlegen, versucht der Algorithmus zuerst, die Werte der Spalte Income mithilfe einer Standardregressionsformel zuzuordnen. Ist die Abweichung zu groß, dann wird die Regressionsformel ignoriert und die Struktur nach einem anderen Attribut unterteilt. Der Decision Tree-Algorithmus versucht nach der Unterteilung, jedem der Zweige einen Regressor für Einkommen zuzuordnen.

Sie können durch Einsatz des FORCE_REGRESSOR-Parameters gewährleisten, dass der Algorithmus einen bestimmten Regressor verwendet. Dieser Parameter kann mit dem Decision Trees-Algorithmus und dem Linear Regression-Algorithmus verwendet werden.

Aufgabe	Thema
Bearbeiten von Modellierungsflags mit dem Data Mining-Designer	Anzeigen oder Ändern von Modellierungsflags (Data Mining)
Angeben eines Tipps für den Algorithmus, um wahrscheinliche Regressoren zu empfehlen	Bestimmen einer in einem Modell als Regressor zu verwendenden Spalte
Siehe die von bestimmten Algorithmen (im Abschnitt "Modellierungsflags" für jedes Algorithmusreferenzthema) unterstützten Modellierungsflags	Data Mining-Algorithmen (Analysis Services - Data Mining)
Weitere Informationen zu Miningstrukturspalten und den Eigenschaften, die Sie festlegen können	Miningstrukturspalten
Weitere Informationen zu Miningmodellspalten und Modellierungsflags, die für die Modellebene übernommen werden können	Miningmodellspalten
Siehe Syntax zum Arbeiten mit Modellierungsflags in DMX-Anweisungen	Modellierungsflags (DMX)
Verstehen von fehlenden Werten und wie mit diesen gearbeitet wird	Fehlende Werte (Analysis Services - Data Mining)
Weitere Informationen zum Verwalten von Modellen und Strukturen sowie Festlegen von Verwendungseigenschaften	Verschieben von Data Mining-Objekten

Modellierungsflags (Data Mining)

Liste der Modellierungsflags

Anzeigen und Ändern von Modellierungsflags

Verwendungszwecke für das REGRESSOR-Modellierungsflag

Regressoren in linearen Regressionsmodellen

Verwandte Aufgaben

Zusätzliche Ressourcen