Anpassen von Miningmodellen und -strukturen

Artikel
12/23/2023

Gilt für: SQL Server 2019 und früheren Analysis Services Azure Analysis Services Fabric/Power BI Premium

Wichtig

Data Mining wurde in SQL Server 2017 Analysis Services als veraltet eingestuft und wurde jetzt in SQL Server 2022 Analysis Services eingestellt. Die Dokumentation wird für veraltete und eingestellte Features nicht aktualisiert. Weitere Informationen finden Sie unter Abwärtskompatibilität von Analysis Services.

Nachdem Sie einen Algorithmus ausgewählt haben, der Ihren Geschäftsanforderungen entspricht, können Sie das Miningmodell mit den folgenden Verfahren anpassen, um die Ergebnisse potenziell zu verbessern.

Verwenden Sie verschiedene Spalten mit Daten im Modell, oder ändern Sie die Nutzung, den Inhaltstyp oder Diskretisierungsmethode der Spalten.
Erstellen Sie Filter für das Miningmodell, um die Daten einzuschränken, die beim Trainieren des Modells verwendet werden.
Ändern Sie den Algorithmus, der zum Analysieren der Daten verwendet wurde.
Legen Sie Algorithmusparameter fest, um Schwellenwerte, Strukturteilungen und andere wichtige Bedingungen zu steuern.

In diesem Thema werden diese Möglichkeiten beschrieben.

Ändern der vom Modell verwendeten Daten

Die Auswahl der im Modell zu verwendenden Datenspalten sowie die Art und Weise, wie diese Daten verwendet und verarbeitet werden, beeinflussen die Ergebnisse der Analyse. Die folgenden Themen enthalten Informationen zu diesen Optionen.

Verwenden der Funktionsauswahl

Die meisten Data Mining-Algorithmen in SQL Server Analysis Services verwenden einen Prozess namens Featureauswahl, um nur die nützlichsten Attribute für die Ergänzung zu einem Modell auszuwählen. Wenn Sie die Anzahl von Spalten und Attributen reduzieren, kann die Leistung und die Qualität des Modells verbessert werden. Die verfügbaren Funktionsauswahlmethoden unterscheiden sich je nach ausgewähltem Algorithmus.

Featureauswahl (Data Mining).

Ändern von Verwendung

Sie können ändern, welche Spalten in einem Miningmodell enthalten sind und wie jede Spalte verwendet wird. Wenn Sie nicht die gewünschten Ergebnisse erhalten, sollten Sie die als Eingabe verwendeten Spalten überprüfen und ermitteln, ob es sich bei den Spalten um eine gute Auswahl handelt und ob Sie die Datenverarbeitung irgendwie verbessern können, z. B. durch folgende Maßnahmen:

Identifizieren von Kategorievariablen, das fälschlicherweise als Zahlen beschriftet sind.
Hinzufügen von Kategorien, um die Anzahl der Attribute zu reduzieren und die Suche nach Korrelationen zu vereinfachen.
Ändern der Methode, mit der Zahlen klassifiziert oder diskretisiert werden.
Entfernen von Spalten mit vielen eindeutigen Werten oder Spalten, die Referenzdaten enthalten und für die Analyse nicht sinnvoll sind (z. B. Adressen oder zweite Vornamen).

Sie müssen spalten nicht physisch aus der Miningstruktur entfernen. Sie können die Spalte einfach als Ignorieren kennzeichnen. Die Spalte wird aus dem Miningmodell entfernt, kann jedoch nach wie vor für andere Miningmodelle in der Struktur verwendet oder in einer Drillthrough-Abfrage referenziert werden.

Erstellen von Aliasen für Modellspalten

Wenn SQL Server Analysis Services das Miningmodell erstellt, werden die gleichen Spaltennamen verwendet, die sich in der Miningstruktur befinden. Sie können jeder Spalte im Miningmodell ein Alias hinzufügen. Auf diese Weise sind die Spalteninhalte oder deren Verwendung möglicherweise leichter zu erkennen, und der Name ist bei der Erstellung von Abfragen kürzer und damit einfacher zu handhaben. Aliase sind außerdem hilfreich, als Sie eine Kopie einer Spalte erstellen und dieser einen aussagekräftigen Namen zuweisen möchten.

Sie erstellen einen Alias, indem Sie die Name -Eigenschaft der Miningmodellspalte bearbeiten. SQL Server Analysis Services verwendet weiterhin den ursprünglichen Namen als ID der Spalte, und der neue Wert, den Sie für Name eingeben, wird zum Spaltenalias und wird im Raster in Klammern neben der Spaltenverwendung angezeigt.

Aliase für Miningmodellspalten

In der Abbildung werden verwandte Modelle dargestellt, die mehrere Kopien einer Miningstrukturspalte enthalten, die sich alle auf das Einkommen beziehen. Jede Kopie der Strukturspalte wurde auf eine andere Weise diskretisiert. Die Modelle im Diagramm verwenden alle eine andere Spalte aus der Miningstruktur, um die Spalten im Modell jedoch einfacher vergleichen zu können, wurden die Spalten in allen Modellen zu [Einkommen] umbenannt.

Hinzufügen von Filtern

Sie können einem Miningmodell einen Filter hinzufügen. Ein Filter ist ein Satz von WHERE-Bedingungen, der die Daten in den Modellfällen auf eine bestimmte Teilmenge beschränkt. Der Filter wird beim Trainieren des Modells verwendet und kann optional verwendet werden, wenn Sie das Modell testen oder Genauigkeitsdiagramme erstellen.

Durch das Hinzufügen von Filtern können Sie Miningstrukturen wiederverwenden, aber Modelle auf Grundlage anderer Datenteilmengen erstellen. Sie können Filter auch einfach dazu verwenden, bestimmte Zeilen auszuschließen und die Qualität der Analyse zu verbessern.

Weitere Informationen finden Sie unter Filter für Miningmodelle (Analysis Services – Data Mining).

Ändern des Algorithmus

Obwohl Modelle, die Sie der Miningstruktur neu hinzufügen, das gleiche Dataset verwenden, können Sie abweichende Ergebnisse erzielen, indem Sie einen anderen Algorithmus nutzen (wenn die Daten dies unterstützen) oder indem Sie die Parameter für den Algorithmus ändern. Sie können darüber hinaus Modellierungsflags festlegen.

Die Algorithmusauswahl bestimmt, welche Ergebnisse Sie erhalten. Allgemeine Informationen zur Funktionsweise eines bestimmten Algorithmus oder zu den Geschäftsszenarien, in denen Sie von der Verwendung eines bestimmten Algorithmus profitieren würden, finden Sie unter Data Mining-Algorithmen (Analysis Services – Data Mining).

Eine Beschreibung der Anforderungen und Einschränkungen sowie ausführliche Informationen zu den Anpassungen, die jeder Algorithmus unterstützt, finden Sie in der technischen Referenz im Abschnitt zu dem jeweiligen Algorithmus.

Microsoft Decision Trees-Algorithmus

Microsoft Clustering-Algorithmus

Microsoft Naive Bayes Algorithm

Microsoft Association-Algorithmus

Microsoft Sequence Clustering-Algorithmus

Microsoft Time Series-Algorithmus

Microsoft Neural Network Algorithm

Microsoft Logistic Regression-Algorithmus

Microsoft Linear Regression-Algorithmus

Anpassen von Algorithmusparametern

Jeder Algorithmus unterstützt Parameter, die Sie zum Anpassen des Algorithmusverhaltens und zum Optimieren der Ergebnisse des Modells verwenden können. Eine Beschreibung, wie die einzelnen Parameter verwendet werden, finden Sie in den folgenden Themen:

Das Thema für jeden Algorithmustyp umfasst auch die Vorhersagefunktionen, die mit Modellen, die auf diesem Algorithmus basieren, verwendet werden können.

Eigenschaftenname	Gilt für:
AUTO_DETECT_PERIODICITY	Microsoft Time Series Algorithm Technical Reference
CLUSTER_COUNT	Technische Referenz für den Microsoft Clustering-Algorithmus Technische Referenz für den Microsoft Sequence Clustering-Algorithmus
CLUSTER_SEED	Technische Referenz für den Microsoft Clustering-Algorithmus
CLUSTERING_METHOD	Technische Referenz für den Microsoft Clustering-Algorithmus
COMPLEXITY_PENALTY	Technische Referenz für den Microsoft Decision Trees-Algorithmus Microsoft Time Series Algorithm Technical Reference
FORCE_REGRESSOR	Technische Referenz für den Microsoft Decision Trees-Algorithmus Technische Referenz für den Microsoft Linear Regression-Algorithmus Modellierungsflags (Data Mining)
FORECAST_METHOD	Microsoft Time Series Algorithm Technical Reference
HIDDEN_NODE_RATIO	Technische Referenz für den Microsoft Neural Network-Algorithmus
HISTORIC_MODEL_COUNT	Microsoft Time Series Algorithm Technical Reference
HISTORICAL_MODEL_GAP	Microsoft Time Series Algorithm Technical Reference
HOLDOUT_PERCENTAGE	Technische Referenz für den Microsoft Logistic Regression-Algorithmus Technische Referenz für den Microsoft Neural Network-Algorithmus Hinweis: Dieser Parameter unterscheidet sich vom Prozentsatz für zurückgehaltene Daten, der für Miningstrukturen gilt.
HOLDOUT_SEED	Technische Referenz für den Microsoft Logistic Regression-Algorithmus Technische Referenz für den Microsoft Neural Network-Algorithmus Hinweis: Dieser Parameter unterscheidet sich vom Ausgangswert für zurückgehaltene Daten, der für Miningstrukturen gilt.
INSTABILITY_SENSITIVITY	Microsoft Time Series Algorithm Technical Reference
MAXIMUM_INPUT_ATTRIBUTES	Technische Referenz für den Microsoft Clustering-Algorithmus Technische Referenz für den Microsoft Decision Trees-Algorithmus Technische Referenz für den Microsoft Linear Regression-Algorithmus Technische Referenz für den Microsoft Naive Bayes-Algorithmus Technische Referenz für den Microsoft Neural Network-Algorithmus Technische Referenz für den Microsoft Logistic Regression-Algorithmus
MAXIMUM_ITEMSET_COUNT	Technische Referenz für den Microsoft Association-Algorithmus
MAXIMUM_ITEMSET_SIZE	Technische Referenz für den Microsoft Association-Algorithmus
MAXIMUM_OUTPUT_ATTRIBUTES	Technische Referenz für den Microsoft Decision Trees-Algorithmus Technische Referenz für den Microsoft Linear Regression-Algorithmus Technische Referenz für den Microsoft Logistic Regression-Algorithmus Technische Referenz für den Microsoft Naive Bayes-Algorithmus Technische Referenz für den Microsoft Neural Network-Algorithmus
MAXIMUM_SEQUENCE_STATES	Technische Referenz für den Microsoft Sequence Clustering-Algorithmus
MAXIMUM_SERIES_VALUE	Microsoft Time Series Algorithm Technical Reference
MAXIMUM_STATES	Technische Referenz für den Microsoft Clustering-Algorithmus Technische Referenz für den Microsoft Neural Network-Algorithmus Technische Referenz für den Microsoft Sequence Clustering-Algorithmus
MAXIMUM_SUPPORT	Technische Referenz für den Microsoft Association-Algorithmus
MINIMUM_IMPORTANCE	Technische Referenz für den Microsoft Association-Algorithmus
MINIMUM_ITEMSET_SIZE	Technische Referenz für den Microsoft Association-Algorithmus
MINIMUM_DEPENDENCY_PROBABILITY	Technische Referenz für den Microsoft Naive Bayes-Algorithmus
MINIMUM_PROBABILITY	Technische Referenz für den Microsoft Association-Algorithmus
MINIMUM_SERIES_VALUE	Microsoft Time Series Algorithm Technical Reference
MINIMUM_SUPPORT	Technische Referenz für den Microsoft Association-Algorithmus Technische Referenz für den Microsoft Clustering-Algorithmus Technische Referenz für den Microsoft Decision Trees-Algorithmus Technische Referenz für den Microsoft Sequence Clustering-Algorithmus Microsoft Time Series Algorithm Technical Reference
MISSING_VALUE_SUBSTITUTION	Microsoft Time Series Algorithm Technical Reference
MODELLING_CARDINALITY	Technische Referenz für den Microsoft Clustering-Algorithmus
PERIODICITY_HINT	Microsoft Time Series Algorithm Technical Reference
PREDICTION_SMOOTHING	Microsoft Time Series Algorithm Technical Reference
SAMPLE_SIZE	Technische Referenz für den Microsoft Clustering-Algorithmus Technische Referenz für den Microsoft Logistic Regression-Algorithmus Technische Referenz für den Microsoft Neural Network-Algorithmus
SCORE_METHOD	Technische Referenz für den Microsoft Decision Trees-Algorithmus
SPLIT_METHOD	Technische Referenz für den Microsoft Decision Trees-Algorithmus
STOPPING_TOLERANCE	Technische Referenz für den Microsoft Clustering-Algorithmus

Weitere Informationen

Data Mining-Algorithmen (Analysis Services - Data Mining)
Physische Architektur (Analysis Services – Data Mining)