Anpassen von Miningmodellen und -strukturen

Nachdem Sie einen Algorithmus ausgewählt haben, der Ihren Geschäftsanforderungen entspricht, können Sie das Miningmodell mit den folgenden Verfahren anpassen, um die Ergebnisse potenziell zu verbessern.

  • Verwenden Sie verschiedene Spalten mit Daten im Modell, oder ändern Sie die Nutzung, den Inhaltstyp oder Diskretisierungsmethode der Spalten.

  • Erstellen Sie Filter für das Miningmodell, um die Daten einzuschränken, die beim Trainieren des Modells verwendet werden.

  • Ändern Sie den Algorithmus, der zum Analysieren der Daten verwendet wurde.

  • Legen Sie Algorithmusparameter fest, um Schwellenwerte, Strukturteilungen und andere wichtige Bedingungen zu steuern.

In diesem Thema werden diese Möglichkeiten beschrieben.

Ändern der vom Modell verwendeten Daten

Die Auswahl der im Modell zu verwendenden Datenspalten sowie die Art und Weise, wie diese Daten verwendet und verarbeitet werden, beeinflussen die Ergebnisse der Analyse. Die folgenden Themen enthalten Informationen zu diesen Optionen.

Verwenden der Funktionsauswahl

Die meisten Data Mining-Algorithmen in Analysis Services verwenden einen Prozess namens Funktionsauswahl, um nur die nützlichsten Attribute zum Hinzufügen zu einem Modell auszuwählen. Wenn Sie die Anzahl von Spalten und Attributen reduzieren, kann die Leistung und die Qualität des Modells verbessert werden. Die verfügbaren Funktionsauswahlmethoden unterscheiden sich je nach ausgewähltem Algorithmus.

Funktionsauswahl (Data Mining).

Ändern von Verwendung

Sie können ändern, welche Spalten in einem Miningmodell enthalten sind und wie jede Spalte verwendet wird. Wenn Sie nicht die gewünschten Ergebnisse erhalten, sollten Sie die als Eingabe verwendeten Spalten überprüfen und ermitteln, ob es sich bei den Spalten um eine gute Auswahl handelt und ob Sie die Datenverarbeitung irgendwie verbessern können, z. B. durch folgende Maßnahmen:

  • Identifizieren von Kategorievariablen, das fälschlicherweise als Zahlen beschriftet sind.

  • Hinzufügen von Kategorien, um die Anzahl der Attribute zu reduzieren und die Suche nach Korrelationen zu vereinfachen.

  • Ändern der Methode, mit der Zahlen klassifiziert oder diskretisiert werden.

  • Entfernen von Spalten mit vielen eindeutigen Werten oder Spalten, die Referenzdaten enthalten und für die Analyse nicht sinnvoll sind (z. B. Adressen oder zweite Vornamen).

Sie müssen die Spalten nicht physisch aus der Miningstruktur entfernen, sondern können die Spalte als Ignorieren kennzeichnen. Die Spalte wird aus dem Miningmodell entfernt, kann jedoch nach wie vor für andere Miningmodelle in der Struktur verwendet oder in einer Drillthrough-Abfrage referenziert werden.

Erstellen von Aliasen für Modellspalten

Wenn Analysis Services ein Miningmodell erstellt, werden die gleichen Spaltennamen verwendet, die sich in der Miningstruktur befinden. Sie können einer beliebigen Spalte im Miningmodell einen Alias hinzufügen. Auf diese Weise sind die Spalteninhalte oder deren Verwendung möglicherweise leichter zu erkennen, und der Name ist bei der Erstellung von Abfragen kürzer und damit einfacher zu handhaben. Aliase sind außerdem hilfreich, als Sie eine Kopie einer Spalte erstellen und dieser einen aussagekräftigen Namen zuweisen möchten.

Sie erstellen einen Alias, indem Sie die Name-Eigenschaft der Miningmodellspalte bearbeiten. Analysis Services verwendet weiterhin den ursprünglichen Namen als ID der Spalte. Der neue Wert, den Sie unter Name eingegeben haben, ist der Spaltenalias. Dieser wird im Raster neben der Spaltenverwendung in Klammern angezeigt.

Aliasnamen für Miningmodellspalten

In der Abbildung werden verwandte Modelle dargestellt, die mehrere Kopien einer Miningstrukturspalte enthalten, die sich alle auf das Einkommen beziehen. Jede Kopie der Strukturspalte wurde auf eine andere Weise diskretisiert. Die Modelle im Diagramm verwenden alle eine andere Spalte aus der Miningstruktur, um die Spalten im Modell jedoch einfacher vergleichen zu können, wurden die Spalten in allen Modellen zu [Einkommen] umbenannt.

Hinzufügen von Filtern

Sie können einem Miningmodell einen Filter hinzufügen. Ein Filter ist ein Satz von WHERE-Bedingungen, der die Daten in den Modellfällen auf eine bestimmte Teilmenge beschränkt. Der Filter wird beim Trainieren des Modells verwendet und kann optional verwendet werden, wenn Sie das Modell testen oder Genauigkeitsdiagramme erstellen.

Durch das Hinzufügen von Filtern können Sie Miningstrukturen wiederverwenden, aber Modelle auf Grundlage anderer Datenteilmengen erstellen. Sie können Filter auch einfach dazu verwenden, bestimmte Zeilen auszuschließen und die Qualität der Analyse zu verbessern.

Weitere Informationen finden Sie unter Filter für Miningmodelle (Analysis Services – Data Mining).

Ändern des Algorithmus

Obwohl Modelle, die Sie der Miningstruktur neu hinzufügen, das gleiche Dataset verwenden, können Sie abweichende Ergebnisse erzielen, indem Sie einen anderen Algorithmus nutzen (wenn die Daten dies unterstützen) oder indem Sie die Parameter für den Algorithmus ändern. Sie können darüber hinaus Modellierungsflags festlegen.

Die Algorithmusauswahl bestimmt, welche Ergebnisse Sie erhalten. Allgemeine Informationen darüber, wie ein bestimmter Algorithmus funktioniert, oder die Geschäftsszenarien, in denen Sie von einem bestimmten Algorithmus profitieren, finden Sie unter Data Mining-Algorithmen (Analysis Services - Data Mining).

Eine Beschreibung der Anforderungen und Einschränkungen sowie ausführliche Informationen zu den Anpassungen, die jeder Algorithmus unterstützt, finden Sie in der technischen Referenz im Abschnitt zu dem jeweiligen Algorithmus.

Microsoft Decision Trees-Algorithmus

Microsoft Time Series-Algorithmus

Microsoft Clustering-Algorithmus

Microsoft Neural Network-Algorithmus

Microsoft Naive Bayes-Algorithmus

Microsoft Logistic Regression-Algorithmus

Microsoft Association-Algorithmus

Microsoft Linear Regression-Algorithmus

Microsoft Sequence Clustering-Algorithmus

  

Anpassen von Algorithmusparametern

Jeder Algorithmus unterstützt Parameter, die Sie zum Anpassen des Algorithmusverhaltens und zum Optimieren der Ergebnisse des Modells verwenden können. Eine Beschreibung, wie die einzelnen Parameter verwendet werden, finden Sie in den folgenden Themen:

Das Thema für jeden Algorithmustyp umfasst auch die Vorhersagefunktionen, die mit Modellen, die auf diesem Algorithmus basieren, verwendet werden können.

Eigenschaftsname

Gilt für

AUTO_DETECT_PERIODICITY

Technische Referenz für den Microsoft Time Series-Algorithmus

CLUSTER_COUNT

Technische Referenz für den Microsoft Clustering-Algorithmus

Technische Referenz für den Microsoft Sequence Clustering-Algorithmus

CLUSTER_SEED

Technische Referenz für den Microsoft Clustering-Algorithmus

CLUSTERING_METHOD

Technische Referenz für den Microsoft Clustering-Algorithmus

COMPLEXITY_PENALTY

Technische Referenz für den Microsoft Decision Trees-Algorithmus

Technische Referenz für den Microsoft Time Series-Algorithmus

FORCE_REGRESSOR

Technische Referenz für den Microsoft Decision Trees-Algorithmus

Technische Referenz für den Microsoft Linear Regression-Algorithmus

Modellierungsflags (Data Mining)

FORECAST_METHOD

Technische Referenz für den Microsoft Time Series-Algorithmus

HIDDEN_NODE_RATIO

Technische Referenz für den Microsoft Neural Network-Algorithmus

HISTORIC_MODEL_COUNT

Technische Referenz für den Microsoft Time Series-Algorithmus

HISTORICAL_MODEL_GAP

Technische Referenz für den Microsoft Time Series-Algorithmus

HOLDOUT_PERCENTAGE

Technische Referenz für den Microsoft Logistic Regression-Algorithmus

Technische Referenz für den Microsoft Neural Network-Algorithmus

HinweisHinweis

Dieser Parameter unterscheidet sich vom Prozentwert für zurückgehaltene Daten, der für eine Miningstruktur gilt.

HOLDOUT_SEED

Technische Referenz für den Microsoft Logistic Regression-Algorithmus

Technische Referenz für den Microsoft Neural Network-Algorithmus

HinweisHinweis

Dieser Parameter unterscheidet sich vom Ausgangswert für zurückgehaltene Daten, der für eine Miningstruktur gilt.

INSTABILITY_SENSITIVITY

Technische Referenz für den Microsoft Time Series-Algorithmus

MAXIMUM_INPUT_ATTRIBUTES

Technische Referenz für den Microsoft Clustering-Algorithmus

Technische Referenz für den Microsoft Decision Trees-Algorithmus

Technische Referenz für den Microsoft Linear Regression-Algorithmus

Technische Referenz für den Microsoft Naive Bayes-Algorithmus

Technische Referenz für den Microsoft Neural Network-Algorithmus

Technische Referenz für den Microsoft Logistic Regression-Algorithmus

MAXIMUM_ITEMSET_COUNT

Technische Referenz für den Microsoft Association-Algorithmus

MAXIMUM_ITEMSET_SIZE

Technische Referenz für den Microsoft Association-Algorithmus

MAXIMUM_OUTPUT_ATTRIBUTES

Technische Referenz für den Microsoft Decision Trees-Algorithmus

Technische Referenz für den Microsoft Linear Regression-Algorithmus

Technische Referenz für den Microsoft Logistic Regression-Algorithmus

Technische Referenz für den Microsoft Naive Bayes-Algorithmus

Technische Referenz für den Microsoft Neural Network-Algorithmus

MAXIMUM_SEQUENCE_STATES

Technische Referenz für den Microsoft Sequence Clustering-Algorithmus

MAXIMUM_SERIES_VALUE

Technische Referenz für den Microsoft Time Series-Algorithmus

MAXIMUM_STATES

Technische Referenz für den Microsoft Clustering-Algorithmus

Technische Referenz für den Microsoft Neural Network-Algorithmus

Technische Referenz für den Microsoft Sequence Clustering-Algorithmus

MAXIMUM_SUPPORT

Technische Referenz für den Microsoft Association-Algorithmus

MINIMUM_IMPORTANCE

Technische Referenz für den Microsoft Association-Algorithmus

MINIMUM_ITEMSET_SIZE

Technische Referenz für den Microsoft Association-Algorithmus

MINIMUM_DEPENDENCY_PROBABILITY

Technische Referenz für den Microsoft Naive Bayes-Algorithmus

MINIMUM_PROBABILITY

Technische Referenz für den Microsoft Association-Algorithmus

MINIMUM_SERIES_VALUE

Technische Referenz für den Microsoft Time Series-Algorithmus

MINIMUM_SUPPORT

Technische Referenz für den Microsoft Association-Algorithmus

Technische Referenz für den Microsoft Clustering-Algorithmus

Technische Referenz für den Microsoft Decision Trees-Algorithmus

Technische Referenz für den Microsoft Sequence Clustering-Algorithmus

Technische Referenz für den Microsoft Time Series-Algorithmus

MISSING_VALUE_SUBSTITUTION

Technische Referenz für den Microsoft Time Series-Algorithmus

MODELLING_CARDINALITY

Technische Referenz für den Microsoft Clustering-Algorithmus

PERIODICITY_HINT

Technische Referenz für den Microsoft Time Series-Algorithmus

PREDICTION_SMOOTHING

Technische Referenz für den Microsoft Time Series-Algorithmus

SAMPLE_SIZE

Technische Referenz für den Microsoft Clustering-Algorithmus

Technische Referenz für den Microsoft Logistic Regression-Algorithmus

Technische Referenz für den Microsoft Neural Network-Algorithmus

SCORE_METHOD

Technische Referenz für den Microsoft Decision Trees-Algorithmus

SPLIT_METHOD

Technische Referenz für den Microsoft Decision Trees-Algorithmus

STOPPING_TOLERANCE

Technische Referenz für den Microsoft Clustering-Algorithmus

Siehe auch

Konzepte

Data Mining-Algorithmen (Analysis Services - Data Mining)

Physische Architektur (Analysis Services – Data Mining)