Artykuł
07/22/2011

Algorytm drzewa decyzji Microsoft

The Microsoft Decision Trees algorithm is a classification and regression algorithm provided by Microsoft SQL Server Usługi Analysis Services for use in predictive modeling of both discrete and continuous attributes.

Dla atrybutów discrete algorytm sprawia, że prognoz oparte na relacjach pomiędzy wprowadzania kolumn w zestawie danych.Użyto wartości znanych jako Państwa te kolumna do przewidywania Państwa wyznaczonego jako przewidywalne kolumna.W szczególności algorytm identyfikuje wprowadzania kolumn, które są skorelowane z przewidywalna kolumna.Na przykład w scenariuszu przewidywanie, której klienci prawdopodobnie zakupu rowerów, jeśli klienci młodszych dziewięć z dziesięciu kupić roweru, ale tylko dwóch z dziesięciu starszych klientów należy więc algorytm ustala, że wiek jest dobrym predykcyjne zakupu rowerów.drzewo decyzyjne dzięki prognoz opartych na tej tendencji w kierunku określony wynik.

Ciągłe atrybutów do określenia, gdzie drzewo decyzyjne dzieli algorytm używa regresja liniowej.

Jeśli jest więcej niż jedną kolumnę zestaw do przewidywalny, lub jeśli dane wejściowe zawiera zagnieżdżona tabela jest zestaw do przewidywalnego algorytm buduje drzewo oddzielnej decyzji dla każdej kolumny przewidywalne

Przykład

Dział marketingu z Adventure Works Cycles Firma chce identyfikację cech wcześniejszych klientów, które może wskazywać, czy klienci prawdopodobnie kupić produkt w przyszłości. AdventureWorks2008R2 Bazy danych przechowuje informacje demograficzne, który opisuje wcześniejszych klientów.Za pomocą Microsoft algorytm drzewa decyzji analizować te informacje, dział marketingu można utworzyć model prognozuje, czy określony klient kupuje produkty oparte na Państwa znane kolumnach dotyczące klienta, takie jak demograficzne lub w przeszłości kupowanie wzorców.

Jak działa algorytm

Microsoft Danych tworzy algorytm drzewa decyzji model wyszukiwania , tworząc serię podziałów w drzewie.Podziały te są przedstawiane jako węzłów.Algorytm dodaje węzeł do modelu co czas wprowadzania kolumna jest stwierdzono znacznie skorelowane z kolumną przewidywalne.Sposób, że algorytm określa podział różni się w zależności od tego, czy przewidywaniu, ciągłego kolumna lub dyskretnego.

Microsoft Używa algorytmu drzewa decyzji Wybór funkcji do prowadnicy zaznaczenia atrybuty najbardziej użyteczne.Wybieranie funkcji jest używany przez wszystkie Usługi Analysis Services algorytmów wyszukiwanie danych w celu zwiększenia wydajności i jakości analizy.Wybieranie funkcji ważne jest, aby zapobiec użyciu procesora nieistotnych atrybutów czas.Zbyt wiele atrybutów przewidywalnego lub wejściowe używane przy projektowaniu modelu danych górnictwa, modelu, może trwać bardzo długo czas do procesu lub nawet zabraknąć pamięci.Metody zastosowanej do określenia, czy podzielić drzewa obejmują metryki standardem przemysłowym dla entropii i Bayesian sieci. Aby uzyskać więcej informacji dotyczących metody używane do wybierania istotnych atrybutów i następnie wynik i rangi atrybutów, zobacz Zaznaczenie funkcji wyszukiwania danych.

Typowy problem w modeli wyszukiwanie danych jest, że model staje się zbyt delikatny, aby małe różnice w dane szkolenia, w którym to przypadek go jest over-fitted lub over-trained.Overfitted model nie uogólnione do innych zestawów danych.Aby uniknąć nadmierne dopasowanie, w szczególności wszelkie zestaw danych, Microsoft algorytm drzewa decyzji używa techniki kontroli wzrostu drzewa.Bardziej szczegółowe wyjaśnienie sposobu Microsoft works algorytm drzewa decyzji, zobacz Algorytm decyzji Microsoft drzew techniczne.

Przewidywaniu Discrete kolumn

Sposób ten Microsoft algorytm drzewa decyzji buduje drzewo dla discrete przewidywalna kolumna można wykazać za pomocą histogramu.Na poniższym diagramie przedstawiono histogram, który powierzchni przewidywalna kolumna, kupujący Bike wobec wprowadzania kolumna, wiek.Histogram pokazuje, że osoba w wieku pomaga odróżnić, czy osoba ta będzie zakupu roweru.

Histogram z algorytmu drzew decyzyjnych firmy Microsoft

Spowodowałoby korelacji, która jest wyświetlana na diagramie Microsoft algorytm drzewa decyzji do utworzenia nowego węzła w modelu.

Węzeł drzewa decyzyjnego

Jak algorytm dodaje nowe węzły do modelu, powstaje struktury drzewa.Podział opisuje węzłem drzewa przewidywalna kolumna dla całego pogłowia klientów.Jako model nadal rosnąć, algorytm uważa się wszystkie kolumny.

Przewidywaniu ciągłego kolumn

Gdy Microsoft algorytm drzewa decyzji buduje drzewo zależności ciągłego przewidywalna kolumna, każdy węzeł zawiera formułę regresja.Podział występuje w punkcie nieliniowość w formule regresja.Na przykład rozważmy poniższy diagram.

Wiele linii regresji pokazujących brak liniowości

Diagram zawiera dane, które mogą być modelowane za pomocą pojedynczego wiersza lub za pomocą dwóch połączonych linii.Pojedynczy wiersz będzie jednak zrobić poor zadanie reprezentowania danych.Zamiast korzystania z dwóch wierszy model tego znacznie lepsze zadanie zbliżenia danych.Punkt, w którym dwa wiersze schodzą się razem jest punktem nieliniowość i jest punktem, w przypadku, gdy węzeł w drzewo decyzyjne czy podzielić model.Na przykład węzeł, który odpowiada punktowi nieliniowość poprzednim wykresie może być reprezentowane przez Poniższy diagram.Dwa równania reprezentują równania regresja dla dwóch wierszy.

Równanie przedstawiające punkt nieliniowości

Dane wymagane dla modeli drzewa decyzji

Podczas przygotowywania danych do użycia w modelu drzewa decyzji, należy zrozumieć wymagania dotyczące określonego algorytmu, jak dużo danych jest wymagana i sposobu używania danych.

Wymagania dla modelu drzewa decyzji, są następujące:

Jeden key kolumnakażdego modelu musi zawierać jedną kolumna liczbowe lub tekst, który unikatowo identyfikuje każdy rekord.Mieszanki klucze nie są dozwolone.
Przewidywalne kolumnawymaga co najmniej jedną przewidywalna kolumna.W modelu można dołączyć wiele atrybutów przewidywalny i przewidywalny atrybuty mogą być różnych typów liczbowych lub dyskretne.Jednakże zwiększenie liczby atrybutów przewidywalne może wydłużyć czas przetwarzania.
Wprowadzanie kolumnywymaga wprowadzania kolumn, które mogą być ciągłe lub dyskretnego.Zwiększenie liczby atrybutów wejściowy ma wpływ na czas przetwarzania.

Aby uzyskać więcej informacji na temat typów danych obsługiwanych modeli drzewo decyzyjne i typów zawartości, zobacz sekcję wymagania dotyczące Algorytm decyzji Microsoft drzew techniczne.

Wyświetlanie modelu drzewa decyzji

Aby poznać modelu, można użyć Przeglądarka Microsoft drzewa.Jeśli model generuje wiele drzew, można wybrać drzewo i Podgląd pokazuje podział jak przypadki są klasyfikowane dla każdego atrybut przewidywalne.Można również przeglądać interakcji drzew za pomocą podglądu sieci zależność.Aby uzyskać więcej informacji, zobacz Wyświetlanie modelu górnictwo Viewer drzewa Microsoft.

Jeśli chcesz wiedzieć więcej szczegółów o wszelkich oddziału lub węzeł w drzewie modelu można również przeglądać za pomocą Ogólnej zawartości drzewa Podgląd programu Microsoft.Zawartość przechowywaną w modelu zawiera dystrybucji dla wszystkich wartości w każdym węźle, prawdopodobieństwa na każdym poziom drzewa i formuł regresja dla ciągłego atrybutów.Aby uzyskać więcej informacji, zobacz Model zawartości dla modeli drzewa decyzji górnictwo (Analysis Services - wyszukiwania danych).

Tworzenie prognoz

Po przetworzeniu modelu, wyniki są przechowywane jako zestaw wzorców i statystyk, w którym można Eksploracja relacje lub prognoz.

Przykłady kwerend z modelu drzewa decyzji, zobacz Badanie modelu drzewa decyzji (Analysis Services - wyszukiwania danych).

Aby uzyskać ogólne informacje dotyczące tworzenia kwerend modeli wyszukiwania, zobacz Badanie modeli wyszukiwania danych (Analysis Services - wyszukiwania danych).

Uwagi

Obsługuje korzystanie z przewidywanych modelu Markup Language (PMML) do tworzenia modeli wyszukiwania.
Obsługuje przeglądanie szczegółowe.
Obsługuje korzystanie z modeli wyszukiwania OLAP i tworzenia wymiary wyszukiwanie danych.