Algorytm drzewa decyzji firmy Microsoft

The Microsoft Decision Trees algorithm is a classification and regression algorithm provided by Microsoft SQL Server Analysis Services for use in predictive modeling of both discrete and continuous attributes.

Discrete atrybutów dla algorytmu sprawia, że prognoz opartych na relacje między kolumnami zestawu danych wejściowych.Używa wartości, znanych jako stanów tych kolumna s do przewidywania stany kolumna wyznaczonego dający się przewidzieć sposób.W szczególności algorytm identyfikuje kolumny danych wejściowych, które są powiązane z przewidywalna kolumna.Na przykład w przypadku ataku do przewidywania, które klienci prawdopodobnie zakupu rowerów, jeżeli klienci młodszym 9 z 10 zakupienia roweru, ale tylko dwóch z dziesięciu starszych klientów należy więc algorytm ustala, że wiek to dobre predykcyjne roweru zakupu.drzewo decyzyjne dzięki prognoz opartych na tym tendencji kierunku określonego wyniku.

Ciągłe atrybutów dla algorytmu używa regresja liniowej, aby określić, gdzie dzieli drzewo decyzyjne.

Jeśli więcej niż jednej kolumny jest ustawiony do przewidywalnego lub jeśli dane wejściowe zawiera zagnieżdżoną tabela, która jest ustawiona do przewidywalnego, algorytm buduje drzewo decyzyjne oddzielne dla każdego przewidywalna kolumna

Przykład

Dział marketingu z Adventure Works Cycles Firma chce, aby zidentyfikować cechy wcześniejszych klientów, które może wskazywać, czy tych klientów, prawdopodobnie kupić produkt w przyszłości. The AdventureWorks database stores demographic information that describes previous customers.Za pomocą Microsoft Algorytm drzewa decyzji, aby analizować te informacje, dział marketingu może utworzyć model, który przewiduje się, czy określonego klienta będzie zakupu produktów, oparte na stany znane kolumn o nabywcy, takie jak kryteria demograficzne lub kupowanie wzorców w przeszłości.

Jak działa algorytmu

The Microsoft Decision Trees algorithm builds a data model wyszukiwania by creating a series of splits in the tree. Te podziały są przedstawiane jako węzły.Algorytm dodaje węzeł do modelu co czas kolumnę danych wejściowych jest stwierdzono znacznie można skorelować z kolumną przewidywalne.Sposób, że algorytm wyznaczania podział różni się w zależności od tego, czy jest przewidywana ciągłej kolumnie lub discrete kolumna.

The Microsoft Decision Trees algorithm uses feature selection to guide the selection of the most useful attributes.Zaznaczenie funkcji jest używany przez wszystkie Analysis Services algorytmów wyszukiwanie danych w celu zwiększenia wydajności i jakości analizy. Zaznaczenie funkcji jest ważne, aby zapobiec atrybuty ważne przy użyciu czas procesora.Jeśli używasz zbyt wiele atrybutów wejściowe i przewidywalny, podczas projektowania model wyszukiwanie danych, modelu może trwać bardzo długo do procesu lub nawet zabraknąć pamięci.Metody używane do ustalenia, czy podzielić drzewa obejmują metryki standardem przemysłowym dla Entropia i Bayesian sieci. Aby uzyskać więcej informacji na temat metody używane do wybierania istotnych atrybutów i następnie wynik i pozycja atrybutów zobacz Zaznaczenie funkcji w wyszukiwanie danych.

Typowy problem występujący w modeli wyszukiwanie danych jest, że model staje się zbyt wrażliwy na niewielkie różnice w danych szkolenia, w którym to przypadek on się Over-fitted or Over-trained.Overfitted model nie może być uogólnione do innych zestawów danych.Aby uniknąć nadmierne dopasowanie na dowolnym określony zestaw danych, Microsoft Algorytm drzewa decyzji korzysta z techniki kontrolowania wzrostu drzewa. Aby uzyskać więcej informacji na temat objaśnienia z jak Microsoft Roboty algorytm drzewa decyzji, zobacz Informacje techniczne algorytm drzewa decyzji firmy Microsoft.

Przewidywana discrete kolumny

Sposób to Microsoft Algorytm drzewa decyzji buduje drzewo dla discrete przewidywalna kolumna mogą być przedstawiane za pomocą histogramu. Na poniższym diagramie przedstawiono histogramu, który zawiera przewidywalna kolumna, nabywców Bike przed kolumnę danych wejściowych, wiek.Histogram pokazuje, że osoba w wieku pozwala odróżnić, czy osoba ta będzie zakupu roweru.

Histogram from Microsoft Decision Trees algorithm

Korelacja, która jest przedstawiona na diagramie może spowodować Microsoft Algorytm drzewa decyzji do utworzenia nowego węzła w modelu.

Decision tree node

Jak algorytm dodaje nowe węzły do modelu, został utworzony w strukturze drzewa.Węzeł najwyższego poziomu w drzewie opisuje podział przewidywalna kolumna dla całkowitej zapełnianie klientów.W miarę modelu rosnąć algorytm bierze pod uwagę wszystkie kolumny.

Przewidywana ciągłe kolumny

Gdy Microsoft Algorytm drzewa decyzji buduje drzewo zależności ciągłej kolumnie przewidywalny, każdy węzeł zawiera formułę regresja. Podział pojawia się w punkcie nie liniowości w formule regresja.Rozważmy na przykład na poniższym diagramie.

Multiple regression lines showing non-linearity

Diagram zawiera dane, które mogą być modelowane przy użyciu pojedynczego wiersza lub przy użyciu dwóch połączonych linii.Jednak pojedynczy wiersz może wykonać zadanie słabej reprezentowania danych.Zamiast tego Jeśli używasz dwóch wierszy, model będzie wykonywać znacznie lepszą zadanie z zbliżenia danych.Punkt, w przypadku gdy dwie linie pochodzą ze sobą jest punktem, nie liniowości i to punkt, w którym czy podzielić węzeł drzewo decyzyjne modelu.Na przykład węzeł, który odpowiada punkt nie liniowości na poprzednim wykresie może być reprezentowane przez na poniższym diagramie.Dwa równania reprezentują równania regresja dla tych wierszy.

Equation that represents a point of non-linearity

Dane wymagane dla modeli drzewo decyzyjne

Podczas przygotowywania danych do użycia w modelu drzewa decyzji, należy zapoznać się wymagania dotyczące określonego algorytmu, potrzebny jest ilości danych i sposobu używania danych.

Wymagania dla modelu drzewa decyzji są następujące:

  • Pojedyncze key kolumna   Każdy model musi zawierać jedną kolumna numerycznym lub tekstowym, które jednoznacznie identyfikują każdy rekord.Złożone klucze nie są dozwolone.

  • przewidywalna kolumna   Wymaga co najmniej jedną przewidywalna kolumna.W modelu może zawierać wiele atrybutów przewidywalny i przewidywalny atrybuty mogą być różnego typu liczbowego albo discrete.Zwiększenie liczby atrybutów przewidywalne może jednak zwiększyć czas przetwarzania.

  • Kolumny danych wejściowych   Wymaga wprowadzania kolumn, które mogą być discrete lub ciągły.Zwiększenie liczby atrybutów wejściowy ma wpływ na czas przetwarzania.

Aby uzyskać więcej informacji na temat typów zawartości i typy danych obsługiwane w przypadku modeli drzewo decyzyjne zobacz sekcję Wymagania dotyczące Informacje techniczne algorytm drzewa decyzji firmy Microsoft.

Wyświetlanie modelu drzewa decyzji

Aby poznać modelu, można użyć Przeglądarka Microsoft drzewa.Jeśli model generuje wiele drzew, można wybrać drzewo i przeglądarka pokazuje jak sprawy, są określane dla każdego atrybut przewidywalne podziału.Przy użyciu przeglądarki sieci zależność, umożliwia wyświetlanie interakcji drzew.Aby uzyskać więcej informacji zobaczWyświetlanie model wyszukiwania z podglądem drzewa firmy Microsoft.

Jeśli chcesz wiedzieć więcej szczegółowych informacji dotyczących każdej gałęzi lub węzeł w drzewie modelu można również przeglądać przy użyciu Podgląd zawartości drzewa rodzajowa firmy Microsoft.Zawartość przechowywaną modelu obejmuje dystrybucji dla wszystkich wartości w każdym węźle, prawdopodobieństw na każdym poziomie drzewa oraz formuł regresja dla atrybutów stałego.Aby uzyskać więcej informacji zobaczmodel wyszukiwania Zawartości dla modeli drzewo decyzyjne (Analysis Services — wyszukiwanie danych).

Tworzenie prognoz

Po przetworzeniu modelu, wyniki są przechowywane jako zbiór desenie i statystyk, które można wykorzystać do zbadania relacji lub tworzenie prognoz.

Przykłady kwerend do korzystania z modelem drzewa decyzji można znaleźć w temacie Podczas badania modelu drzewa decyzji (Analysis Services — wyszukiwanie danych).

Aby uzyskać ogólne informacje dotyczące tworzenia kwerend względem modeli wyszukiwania zobacz Podczas badania modeli wyszukiwania danych (Analysis Services — wyszukiwanie danych).

Uwagi

  • Obsługuje korzystanie z przewidywanego modelu Markup Language (PMML) do tworzenia modeli wyszukiwania.

  • Obsługuje przeglądanie szczegółowe.

  • Obsługuje korzystanie z modeli wyszukiwania OLAP i tworzenia wymiary wyszukiwanie danych.