Anpassen von Miningmodellen und -strukturen

Artikel
07/30/2013

Nachdem Sie einen Algorithmus ausgewählt haben, der Ihren Geschäftsanforderungen entspricht, können Sie das Miningmodell mit den folgenden Verfahren anpassen, um die Ergebnisse potenziell zu verbessern.

Verwenden Sie verschiedene Spalten mit Daten im Modell, oder ändern Sie die Nutzung, den Inhaltstyp oder Diskretisierungsmethode der Spalten.
Erstellen Sie Filter für das Miningmodell, um die Daten einzuschränken, die beim Trainieren des Modells verwendet werden.
Ändern Sie den Algorithmus, der zum Analysieren der Daten verwendet wurde.
Legen Sie Algorithmusparameter fest, um Schwellenwerte, Strukturteilungen und andere wichtige Bedingungen zu steuern.

In diesem Thema werden diese Möglichkeiten beschrieben.

Ändern der vom Modell verwendeten Daten

Die Auswahl der im Modell zu verwendenden Datenspalten sowie die Art und Weise, wie diese Daten verwendet und verarbeitet werden, beeinflussen die Ergebnisse der Analyse. Die folgenden Themen enthalten Informationen zu diesen Optionen.

Verwenden der Funktionsauswahl

Die meisten Data Mining-Algorithmen in Analysis Services verwenden einen Prozess namens Funktionsauswahl, um nur die nützlichsten Attribute zum Hinzufügen zu einem Modell auszuwählen. Wenn Sie die Anzahl von Spalten und Attributen reduzieren, kann die Leistung und die Qualität des Modells verbessert werden. Die verfügbaren Funktionsauswahlmethoden unterscheiden sich je nach ausgewähltem Algorithmus.

Funktionsauswahl (Data Mining).

Ändern von Verwendung

Sie können ändern, welche Spalten in einem Miningmodell enthalten sind und wie jede Spalte verwendet wird. Wenn Sie nicht die gewünschten Ergebnisse erhalten, sollten Sie die als Eingabe verwendeten Spalten überprüfen und ermitteln, ob es sich bei den Spalten um eine gute Auswahl handelt und ob Sie die Datenverarbeitung irgendwie verbessern können, z. B. durch folgende Maßnahmen:

Identifizieren von Kategorievariablen, das fälschlicherweise als Zahlen beschriftet sind.
Hinzufügen von Kategorien, um die Anzahl der Attribute zu reduzieren und die Suche nach Korrelationen zu vereinfachen.
Ändern der Methode, mit der Zahlen klassifiziert oder diskretisiert werden.
Entfernen von Spalten mit vielen eindeutigen Werten oder Spalten, die Referenzdaten enthalten und für die Analyse nicht sinnvoll sind (z. B. Adressen oder zweite Vornamen).

Sie müssen die Spalten nicht physisch aus der Miningstruktur entfernen, sondern können die Spalte als Ignorieren kennzeichnen. Die Spalte wird aus dem Miningmodell entfernt, kann jedoch nach wie vor für andere Miningmodelle in der Struktur verwendet oder in einer Drillthrough-Abfrage referenziert werden.

Erstellen von Aliasen für Modellspalten

Wenn Analysis Services ein Miningmodell erstellt, werden die gleichen Spaltennamen verwendet, die sich in der Miningstruktur befinden. Sie können einer beliebigen Spalte im Miningmodell einen Alias hinzufügen. Auf diese Weise sind die Spalteninhalte oder deren Verwendung möglicherweise leichter zu erkennen, und der Name ist bei der Erstellung von Abfragen kürzer und damit einfacher zu handhaben. Aliase sind außerdem hilfreich, als Sie eine Kopie einer Spalte erstellen und dieser einen aussagekräftigen Namen zuweisen möchten.

Sie erstellen einen Alias, indem Sie die Name-Eigenschaft der Miningmodellspalte bearbeiten. Analysis Services verwendet weiterhin den ursprünglichen Namen als ID der Spalte. Der neue Wert, den Sie unter Name eingegeben haben, ist der Spaltenalias. Dieser wird im Raster neben der Spaltenverwendung in Klammern angezeigt.

Aliasnamen für Miningmodellspalten

In der Abbildung werden verwandte Modelle dargestellt, die mehrere Kopien einer Miningstrukturspalte enthalten, die sich alle auf das Einkommen beziehen. Jede Kopie der Strukturspalte wurde auf eine andere Weise diskretisiert. Die Modelle im Diagramm verwenden alle eine andere Spalte aus der Miningstruktur, um die Spalten im Modell jedoch einfacher vergleichen zu können, wurden die Spalten in allen Modellen zu [Einkommen] umbenannt.

Hinzufügen von Filtern

Sie können einem Miningmodell einen Filter hinzufügen. Ein Filter ist ein Satz von WHERE-Bedingungen, der die Daten in den Modellfällen auf eine bestimmte Teilmenge beschränkt. Der Filter wird beim Trainieren des Modells verwendet und kann optional verwendet werden, wenn Sie das Modell testen oder Genauigkeitsdiagramme erstellen.

Durch das Hinzufügen von Filtern können Sie Miningstrukturen wiederverwenden, aber Modelle auf Grundlage anderer Datenteilmengen erstellen. Sie können Filter auch einfach dazu verwenden, bestimmte Zeilen auszuschließen und die Qualität der Analyse zu verbessern.

Weitere Informationen finden Sie unter Filter für Miningmodelle (Analysis Services – Data Mining).

Ändern des Algorithmus

Obwohl Modelle, die Sie der Miningstruktur neu hinzufügen, das gleiche Dataset verwenden, können Sie abweichende Ergebnisse erzielen, indem Sie einen anderen Algorithmus nutzen (wenn die Daten dies unterstützen) oder indem Sie die Parameter für den Algorithmus ändern. Sie können darüber hinaus Modellierungsflags festlegen.

Die Algorithmusauswahl bestimmt, welche Ergebnisse Sie erhalten. Allgemeine Informationen darüber, wie ein bestimmter Algorithmus funktioniert, oder die Geschäftsszenarien, in denen Sie von einem bestimmten Algorithmus profitieren, finden Sie unter Data Mining-Algorithmen (Analysis Services - Data Mining).

Eine Beschreibung der Anforderungen und Einschränkungen sowie ausführliche Informationen zu den Anpassungen, die jeder Algorithmus unterstützt, finden Sie in der technischen Referenz im Abschnitt zu dem jeweiligen Algorithmus.

Microsoft Decision Trees-Algorithmus	Microsoft Time Series-Algorithmus
Microsoft Clustering-Algorithmus	Microsoft Neural Network-Algorithmus
Microsoft Naive Bayes-Algorithmus	Microsoft Logistic Regression-Algorithmus
Microsoft Association-Algorithmus	Microsoft Linear Regression-Algorithmus
Microsoft Sequence Clustering-Algorithmus

Anpassen von Algorithmusparametern

Jeder Algorithmus unterstützt Parameter, die Sie zum Anpassen des Algorithmusverhaltens und zum Optimieren der Ergebnisse des Modells verwenden können. Eine Beschreibung, wie die einzelnen Parameter verwendet werden, finden Sie in den folgenden Themen:

Das Thema für jeden Algorithmustyp umfasst auch die Vorhersagefunktionen, die mit Modellen, die auf diesem Algorithmus basieren, verwendet werden können.

AUTO_DETECT_PERIODICITY

Technische Referenz für den Microsoft Time Series-Algorithmus

CLUSTER_COUNT

Technische Referenz für den Microsoft Clustering-Algorithmus

Technische Referenz für den Microsoft Sequence Clustering-Algorithmus

CLUSTER_SEED

Technische Referenz für den Microsoft Clustering-Algorithmus

CLUSTERING_METHOD

Technische Referenz für den Microsoft Clustering-Algorithmus

COMPLEXITY_PENALTY

Technische Referenz für den Microsoft Decision Trees-Algorithmus

Technische Referenz für den Microsoft Time Series-Algorithmus