Algorytm decyzji Microsoft drzew techniczne

Microsoft Algorytm drzewa decyzji jest algorytm mieszańców, który obejmuje różne metody tworzenia drzewa i obsługuje wiele zadań analitycznych, w tym regresja, klasyfikacji i skojarzenia.Algorytm drzewa decyzji Microsoft obsługuje modelowania atrybuty dyskretnych i ciągłe.

W tym temacie wyjaśniono Implementacja algorytmu, opisuje sposób dostosować zachowanie algorytm dla różnych zadań i zawiera łącza do dodatkowych informacji o przeszukiwaniu modeli drzewo decyzyjne.

Implementacja algorytmu drzewa decyzji

Algorytm drzewa decyzji Microsoft uczy sieci Bayesian z kombinacji Uprzednia wiedza i dane statystyczne.Metodologii oceny wartości informacji jest ważną częścią algorytm priors potrzebne do nauki.Podejście opiera się na założeniu równoważności prawdopodobieństwo, który mówi danych nie powinna pomóc struktury sieci reprezentujące inaczej samego potwierdzeń warunkowe niezależności od.

Każdy przypadek zakłada, że pojedyncza sieć uprzedniego Bayesian i pojedynczy miara zaufania dla tej sieci.Korzystanie z tych sieci poprzedniego algorytmu następnie oblicza względne przebiegu prawdopodobieństwa z sieci struktur, biorąc pod uwagę bieżące dane szkolenia i identyfikuje struktury sieci, które mają najwyższy prawdopodobieństw przebiegu.

Algorytm drzewa decyzji Microsoft używa różnych metod do wyliczenia najlepsze drzewa.Stosowana metoda zależy od zadania, które mogą być liniowy analizy regresja, klasyfikacji lub skojarzenie.Pojedynczy model może zawierać wielu drzew różne atrybuty przewidywalne.Ponadto każdego drzewa może zawierać wiele oddziałów, w zależności od tego, jak wiele atrybutów i wartości w danych.Kształt i głębokość drzewa wbudowane w określonym modelu zależy od metoda tworzenia wyników i inne parametry, które były używane.Zmiany w parametrach może również wpłynąć na gdzie rozdzielić węzły.

Budowanie drzewa

Gdy algorytm drzewa decyzji Microsoft tworzy zestaw możliwych wartości wejściowe, wykonuje feature selection do identyfikowania atrybutów i wartości, które dostarczają informacje najbardziej i usuwa z rozpatrzenia wartości, które są bardzo rzadko.Algorytm również grupy wartości do pojemników, aby utworzyć grupy wartości, które mogą być przetwarzane jako jednostka do optymalizacji wydajności.

Drzewo jest zbudowana przez określenie korelacje między dane wejściowe i docelowego wyniku.Po wszystkie atrybuty mają zostały skorelowane, algorytm identyfikuje pojedynczy atrybut, który oddziela najbardziej czysto wyniki.Ten punkt separacji najlepiej jest mierzona za pomocą równania oblicza zysk informacji.Atrybut, który ma najlepszy wynik dla zysku informacji jest używane do dzielenia przypadkach na podzbiory, które są następnie rekursywnie analizowane przez ten sam proces, aż drzewa nie można podzielić temat.

Dokładne równanie używane do analizowania informacji zysk zależy od parametrów zestaw podczas tworzenia algorytmu, typ danych kolumna przewidywalny i typ danych dane wejściowe.

Dyskretne i ciągłej produkcji

Przewidywalne atrybut jest dyskretnych i nakładów są dyskretnych, Zliczanie wyników na wejście po sprawy, Tworzenie matrycy i generowania wyników dla każdej komórka w macierzy.

Jednak podczas discrete jest atrybut przewidywalny i nakładów są ciągłe, wprowadzania ciągłego kolumn są automatycznie discretized.Można zaakceptować domyślne i Analysis Services ma znaleźć optymalną liczbę pojemników lub można kontrolować sposób, w którym ciągłego nakładów są discretized przez ustawienie DiscretizationMethod i DiscretizationBucketCount Właściwości.Aby uzyskać więcej informacji, zobacz Jak Zmiana Discretization kolumny w modelu górnictwo.

Ciągłe atrybutów do określenia, gdzie drzewo decyzyjne dzieli algorytm używa regresja liniowej.

Gdy atrybut przewidywalne jest typu ciągłego dane liczbowe, Wybieranie funkcji jest stosowany do wyjść, jak również zmniejszyć liczbę wyników i szybsze tworzenie modelu.Można zmienić próg dla funkcji zaznaczenia i tym samym zwiększyć lub zmniejszyć liczbę możliwych wartości przez ustawienie parametru MAXIMUM_OUTPUT_ATTRIBUTES.

Zatrzymane więcej wyjaśnienie dotyczące sposobu Microsoft algorytm drzewa decyzji współpracuje z discrete przewidywalne kolumn, zobacz sieci Bayesian nauki: Kombinacja wiedzy i dane statystyczne.Więcej informacji dotyczących sposobu Microsoft algorytm drzewa decyzji współpracuje z ciągłego przewidywalna kolumna, patrz dodatek do Autoregressive drzewa modeli dla szeregu czasowego analizy.

Metody tworzenia wyników i Wybieranie funkcji

Algorytm drzewa decyzji Microsoft oferuje trzy formuły obliczania zysku informacji: Firmy Shannon entropii, sieci Bayesian z wcześniejszego K2 i sieci Bayesian jednolite rozmieszczenie Dirichlet priors.Wszystkie trzy metody są ustalone pole wyszukiwanie danych.Firma Microsoft zaleca wypróbowanie różnych parametrów i metody punktów, aby ustalić, który zapewnia najlepsze wyniki.Aby uzyskać więcej informacji na temat tych metod punktacji Zobacz Wybieranie funkcji.

Wszystkie Usługi Analysis Services algorytmów wyszukiwanie danych automatycznie Użyj zaznaczenia funkcji poprawy analizy i zmniejszenie obciążenia przetwarzania.Metoda stosowana do zaznaczenia funkcji zależy od algorytmu, który jest używany do utworzenia modelu.Parametry algorytmu, kontrolujących wybieranie funkcji modelu drzewa decyzji są MAXIMUM_INPUT_ATTRIBUTES i MAXIMUM_OUTPUT.

Algorytm

Metoda analizy

Komentarze

Drzewo decyzji

Wynik interestingness

Entropia firmy Shannon

Bayesian z uprzednią K2

Bayesian Dirichlet z jednolitego przed (domyślnie)

Jeśli kolumny zawierają wartości ciągłego nieznakowe, wynik interestingness jest używany dla wszystkich kolumn, aby zapewnić spójność.W przeciwnym razie używany jest domyślny lub określonej metoda.

Regresja liniowa

Wynik interestingness

Regresji liniowej używa tylko interestingness, ponieważ obsługuje tylko ciągłego kolumn.

Skalowalność i wydajność

Klasyfikacja jest ważną wyszukiwanie danych strategii.Ogólnie ilość informacji potrzebnych do klasyfikowania przypadkach powiększa się w bezpośrednim stosunku liczby rekordów danych wejściowych.Ogranicza rozmiar danych, które mogą być sklasyfikowane.Algorytm drzewa decyzji Microsoft przy użyciu używa następujących metod, aby rozwiązać te problemy, zwiększyć wydajność i wyeliminować ograniczenia pamięci:

  • Funkcja zaznaczenia w celu zoptymalizowania wyboru atrybutów.

  • Bayesian punktacji kontroli wzrostu drzewa.

  • Optymalizacja binning ciągły atrybutów.

  • Dynamiczne grupowanie wartości wejściowych do określenia najważniejszych wartości.

Algorytm drzewa decyzji Microsoft jest szybkie i skalowalne i został zaprojektowany, aby łatwo parallelized, co oznacza, że wszystkie procesory współpracują do konstruowania pojedynczego, spójny model.Kombinacja tych cech dzięki klasyfikatora drzewa decyzji idealne narzędzie do wyszukiwanie danych.

W przypadku poważnych ograniczeń wydajności można skrócić czas przetwarzania podczas szkolenia modelu drzewo decyzyjne przy użyciu następujących metod.Jednakże jeśli tak, należy pamiętać, że wyeliminowanie atrybuty, aby zwiększyć wydajność przetwarzania będzie zmienić wyniki modelu i ewentualnie był mniej reprezentatywne dla całej zapełnianie.

  • Zwiększ wartość parametru COMPLEXITY_PENALTY ograniczenie wzrostu drzewa.

  • Ogranicz liczbę elementów w modelach skojarzenie, aby ograniczyć liczbę drzew, które są wbudowane.

  • Zwiększ wartość parametru MINIMUM_SUPPORT w celu uniknięcia nadmierne dopasowanie.

  • Ograniczyć liczbę dyskretnych wartości dla każdego atrybut 10 lub mniej.Można spróbować grupowanie wartości w różny sposób w różnych modelach.

    Ostrzeżenie

    You can use the data exploration tools available in SQL Server 2008 Integration Services to visualize the distribution of values in your data and group your values appropriately before beginning data mining.Aby uzyskać więcej informacji, zobacz Profilowanie danych z danymi profilowania Podgląd i zadania.Można również użyć wyszukiwania danych dodatki programu Excel 2007, aby eksplorować, grupy i relabel danych w programie Microsoft Excel.

Dostosowywanie algorytm drzewa decyzji

Microsoft Algorytm drzewa decyzji obsługuje parametry, które wpływają na wydajność i dokładność wyniku model wyszukiwania.Można także zestaw modelowania flagi na kolumnach modelu górniczych lub górnictwo struktury kolumn do kontrolowania sposobu przetwarzania danych.

Ustawianie parametrów algorytmu

W poniższej tabela opisano parametry, których można używać z Microsoft algorytm drzewa decyzji.

  • COMPLEXITY_PENALTY
    Kontroluje wzrostu drzewo decyzyjne.Niska wartość zwiększa liczbę podziałów i wysokiej wartości zmniejsza liczbę podziałów bilansujących.Wartość domyślna oparta jest na liczbę atrybutów dla określonego modelu, zgodnie z opisem w poniższej liście:

    • 1 Do 9 atrybuty domyślne jest 0,5.

    • 10 Do 99 atrybuty domyślne jest 0,9.

    • 100 Lub więcej atrybutów domyślnie jest 0.99.

  • FORCE_REGRESSOR
    Wymusza algorytm używany określonych kolumn jako regressors, niezależnie od wagi kolumny, obliczona przy użyciu algorytmu.Ten parametr jest używany wyłącznie dla algorytmów, które są przewidywaniu ciągłego atrybut.

    Ostrzeżenie

    Ustawienie tego parametru, życie jest algorytm, spróbuj użyć atrybut jako regressor.Czy atrybut jest faktycznie wykorzystanych jako regressor w końcowym modelu zależy jednak wyniki analizy.Można sprawdzić, które kolumny były używane jako regressors przez badanie modelu zawartości.

    SQL ServerPrzedsiębiorstwa

  • MAXIMUM_INPUT_ATTRIBUTES
    Określa liczbę atrybutów wejściowych może obsłużyć algorytmu przed go wywołuje funkcję zaznaczania.

    Wartość domyślna to 255.

    Ta wartość 0, aby wyłączyć funkcję zaznaczania.

    SQL ServerPrzedsiębiorstwa

  • MAXIMUM_OUTPUT_ATTRIBUTES
    Określa liczbę atrybutów wyjścia może obsłużyć algorytmu przed go wywołuje funkcję zaznaczania.

    Wartość domyślna to 255.

    Ta wartość 0, aby wyłączyć funkcję zaznaczania.

    SQL ServerPrzedsiębiorstwa

  • MINIMUM_SUPPORT
    Określa minimalną liczbę liść przypadkach wymagany do wygenerowania podział drzewo decyzyjne.

    Wartość domyślna to 10.

    Należy zwiększyć tę wartość, jeśli zestaw danych jest bardzo duża, aby uniknąć overtraining.

  • SCORE_METHOD
    Określa metoda używaną do obliczania wyniku podziału.Dostępne są następujące opcje:

    Identyfikator

    Nazwa

    1

    Entropia

    2

    Bayesian z uprzednią K2

    3

    Bayesian Dirichlet równoważne przed (BDE)

    (wartość domyślna)

    Wartość domyślna to 3.

    Wyjaśnienie tych metod punktacji, zobacz Wybieranie funkcji.

  • SPLIT_METHOD
    Określa metoda używaną w taki sposób, aby podzielić węzeł.Dostępne są następujące opcje:

    Identyfikator

    Nazwa

    1

    Binary: Wskazuje, że niezależnie od rzeczywistej liczby wartości dla atrybut drzewa powinna zostać podzielona na dwie gałęzie.

    2

    Complete: Wskazuje, że drzewo można utworzyć tyle podziały są wartości atrybut.

    3

    Both: Określa Analysis Services można określić, czy binarne lub zakończenie podziału powinna być używana do uzyskania najlepszych wyniki.

    Wartość domyślna to 3.

Modelowanie flag

Microsoft Obsługuje algorytm drzewa decyzji flagi modelowania.Podczas tworzenia struktura wyszukiwania lub modelu górnictwo zdefiniować flagi modelowania, aby określić sposób obsługi wartości w każdej kolumnie podczas analizy.Aby uzyskać więcej informacji, zobacz Flagi modelowania (wyszukiwania danych).

Flaga modelowania

Opis

MODEL_EXISTENCE_ONLY

Oznacza, że kolumna będą traktowane jako posiadające dwa możliwe stany: Missingand Existing.Wartość null jest wartość Brak.

Stosuje się do model wyszukiwania kolumny.

NOT NULL

Wskazuje, że kolumna nie może zawierać wartość null.Spowoduje błąd, jeśli usługi Analysis Services napotka null podczas szkolenia modelu.

Stosuje się do struktura wyszukiwania kolumny.

Regressors w modelach drzewa decyzji

Nawet jeśli nie używasz Microsoft algorytm regresja liniowej każdego modelu drzewo decyzyjne ma stałe numeryczne wejść i wyjść potencjalnie może zawierać węzły, które reprezentują regresja na ciągłe atrybut.

Nie trzeba określić, że kolumna danych liczbowych ciągłej odpowiada regressor. Microsoft Algorytm drzewa decyzji będzie automatycznie używać kolumna jako potencjalne regressor i partycji danychzestaw w regionach desenie znaczące, nawet jeśli nie zestaw flagi REGRESSOR na kolumna.

Jednak można użyć parametru FORCED_REGRESSOR do zagwarantowania, że algorytm użyje konkretnego regressor.Tego parametru można tylko z Microsoft algorytmów i Microsoft Algorytmy regresji liniowej.Gdy użytkownik zestaw flagi modelowania algorytm podejmie próbę znalezienia równania regresja formularza * C1 + b * C2 +... do wzorców w węzłach drzewa.Obliczana jest suma składników resztkowych, i jeśli odchylenie jest zbyt duża, podział jest zmuszony w drzewie.

Na przykład, jeśli są przewidywaniu nabywcy zakupów za pomocą zachowania dochodu jako atrybutu, a zestaw REGRESSOR modelowania flagę w kolumnie, algorytm będzie najpierw spróbować dopasować dochodu wartości przy użyciu formuły standardowej regresja.Jeśli odchylenie jest zbyt duża, porzucone formuły regresja i drzewa zostaną podzielone na inny atrybut.Następnie próbuje algorytm drzewo decyzyjne dopasowanie regressor dla dochodów w każdej z branż, które po podziału.

Wymagania

Model drzewo decyzyjne musi zawierać kolumna klucz, wprowadzania kolumna i co najmniej jedną przewidywalna kolumna.

Dane wejściowe i przewidywalny kolumn

Microsoft Obsługuje algorytm drzewa decyzji określonych kolumn danych wejściowych i przewidywalny kolumn, które są wymienione w poniższej tabela.Aby uzyskać więcej informacji dotyczących typów zawartości znaczenie w model wyszukiwania, zobacz Typy zawartości (wyszukiwania danych).

Kolumna

Typy zawartości

Atrybut wejściowy

Ciągłe, cykliczne, dyskretnych, Discretized, klucz, Zamówione, tabela

Przewidywalne atrybut

Ciągłe, cykliczne, dyskretnych, Discretized, Zamówione, tabela

Ostrzeżenie

Obsługiwane są typy zawartości Cyclical i Zamówione, ale algorytm traktuje je jako dyskretnych wartości i nie wykonuje przetwarzania specjalnego.