Model zawartości dla modeli drzewa decyzji górnictwo (Analysis Services - wyszukiwania danych)

W tym temacie opisano model wyszukiwania zawartość, która jest charakterystyczna dla modeli używające Microsoft algorytm drzewa decyzji.Wyjaśnienie ogólne model wyszukiwania zawartości dla wszystkich typów modelu, zobacz Górnictwo modelu zawartości (Analysis Services - wyszukiwania danych).Należy pamiętać, że algorytm drzewa decyzji Microsoft jest algorytm hybrydowego można tworzyć modele z bardzo różnych funkcji jest: drzewo decyzyjne może reprezentować stowarzyszenia, zasady lub nawet regresja.Struktura drzewa jest zasadniczo taka sama, ale sposób interpretowania informacji zależy od celu, dla którego utworzony model.

Opis struktury modelu drzewa decyzji

Model drzewa decyzji ma pojedynczy nadrzędnym, reprezentującą modelu i metadane.Pod węzłem nadrzędnym są niezależne drzew, reprezentujące przewidywalne atrybutów, które wybierzesz.Na przykład jeśli użytkownik zestaw w górę drzewo decyzyjne modelu przewidzieć, czy klienci będą zakupów i przewidują nakładów płci i dochód, model spowodowałoby jedno drzewo zakupów atrybut liczbę odgałęzień, dzielącym na warunkach dotyczących płci i dochodów.

Jednak jeśli następnie dodać oddzielny atrybut przewidywalnego udziału w programie pożytki klienta, algorytm tworzenia dwóch oddzielnych drzew w węźle nadrzędnym.Analiza zakupu zawiera jedno drzewo, a innego drzewa analizy w programie pożytki klienta.Jeśli utworzenie skojarzenia modelu za pomocą algorytmu drzewa decyzji algorytm tworzy oddzielne drzewa dla każdego produktu, który jest jest przewidywane i wszystkich innych produktów kombinacji, które przyczyniają się do zaznaczenia atrybut miejsce docelowe zawiera drzewo.

Ostrzeżenie

Jeśli model zawiera wiele drzew, można wyświetlić tylko jedno drzewo w czas w Przeglądarka Microsoft drzewa.Jednakże w Ogólna zawartość podglądu drzewa , wszystkich drzew w ten sam model są wyświetlane w tym samym czas.

struktura zawartości modelu na potrzeby drzewa decyzyjnego

Drzewo dla każdego atrybut przewidywalne zawiera informacje opisujące, wpływu wyniku konkretnego atrybut przewidywalne wprowadzania kolumny wybrane.Węzeł stoi każdego drzewa (NODE_TYPE = 9) zawierający atrybut przewidywalny, następuje serii węzłów (NODE_TYPE = 10) reprezentujące atrybuty wejściowego.Atrybut odpowiada kolumnie poziom przypadek lub wartości kolumna tabela zagnieżdżonej które ogólnie są wartości w Key kolumna tabela zagnieżdżonej.

Wnętrza i liść węzły reprezentować warunki podziału.Drzewo można podzielić na tym samym atrybut wiele razy.Na przykład TM_DecisionTree modelu może być podzielona na [roczny dochód] i [liczba dzieci], a następnie podzielić ponownie na [roczny dochód] dalsze drzewa niedziałający.

Algorytm drzewa decyzji Microsoft może również zawierać Regresje liniowe w całości lub części drzewa.Jeżeli atrybut, który są modelowania jest typu ciągłego dane liczbowe, modelu można utworzyć węzła drzewa regresja (NODE_TYPE = 25) gdziekolwiek relacji między atrybutami mogą modelowane liniowo.W takim przypadek węzeł zawiera formułę regresja.

Jednak jeśli przewidywalne atrybut ma dyskretnych wartości lub bucketed lub discretized wartości numeryczne, model zawsze tworzy drzewo klasyfikacji (NODE_TYPE = 2).Drzewo klasyfikacji może mieć wiele oddziałów lub węzłów drzewa wnętrza (NODE_TYPE = 3) dla każdej wartości atrybut.Jednakże podział niekoniecznie dla każdej wartości atrybut.

Algorytm drzewa decyzji Microsoft nie zezwala na typy danych ciągłej produkcji; Dlatego jeśli wszystkie kolumny Typ danych numerycznych ciągłego, wartości są discretized.Algorytm wykonuje swoją własną discretization w punkcie uderzenia podział dla wszystkich atrybutów ciągłe.

Ostrzeżenie

Usługi Analysis Servicesautomatycznie wybiera metoda bucketing atrybuty ciągłej; Jednakże można kontrolować sposób ciągłej wartości nakładów są discretized przez ustawienie typu zawartości struktura wyszukiwania kolumna do Discretized , a następnie ustawiając DiscretizationBucketCount lub DiscretizationMethod właściwość.

Model zawartości dla modelu drzewa decyzji

Ta sekcja zawiera szczegółowe informacje i przykłady tylko dla tych kolumn w model wyszukiwania zawartość ma szczególne znaczenie dla modeli drzewa decyzji.Aby uzyskać informacje dotyczące ogólnego przeznaczenia kolumn zestawu zestaw wierszy schematu i wyjaśnienia model wyszukiwania terminologii, zobacz Górnictwo modelu zawartości (Analysis Services - wyszukiwania danych).

  • MODEL_CATALOG
    Nazwa bazy danych, w którym przechowywany jest model.

  • NAZWA_MODELU
    Nazwa modelu.

  • ATTRIBUTE_NAME
    Nazwa atrybut, który odpowiada ten węzeł.

  • NAZWA_WĘZŁA
    Zawsze taki sam, jak NODE_UNIQUE_NAME.

  • NODE_UNIQUE_NAME
    Identyfikator unikatowy dla węzła w ramach modelu.Tej wartości nie można zmienić.

    Unikatowe nazwy modeli drzewo decyzyjne, wykonaj następującej konwencji nie stosuje się do wszystkich algorytmy:

    Wszystkie węzły podrzędność z każdego węzła będą miały ten sam prefiks szesnastkowym następuje reprezentuje sekwencję węzeł podrzędność nadrzędnym innego liczba szesnastkowa.Prefiksy można rozpoznać ścieżka.

  • NODE_TYPE
    W modelach drzewo decyzyjne tworzone są następujące typy węzłów:

    Typ węzła

    Opis

    1 (Wzór)

    Węzeł główny dla modelu.

    2 (Drzewo)

    Węzeł nadrzędny klasyfikacji drzewa modelu.Etykietą "Wszystkie".

    3 (Wewnętrzne)

    Szef wnętrza oddział, odnalezionych w drzewie klasyfikacji lub drzewa regresja.

    4 (Dystrybucji)

    Węzeł liścia w klasyfikacji drzewo lub drzewa regresja.

    25 (Regresji drzewo)

    Węzeł nadrzędny regresja drzewa modelu.Oznaczony jako "Wszystkie".

  • NODE_CAPTION
    Przyjazna nazwa w celach wyświetlania.

    Podczas tworzenia modelu wartość NODE_UNIQUE_NAME jest automatycznie używana jako podpis.Można jednak zmienić wartość NODE_CAPTION zaktualizować nazwę wyświetlaną dla klastra, programowo lub przy użyciu przeglądarki.Podpis jest automatycznie generowane przez model.Zawartość podpis zależy od typu model i typ węzła.

    W modelu drzewa decyzji NODE_CAPTION i NODE_DESCRIPTION mają różne informacje, zależnie od poziom w drzewie.Aby uzyskać więcej informacji i przykłady, zobacz węzeł podpis i opis węzeł.

  • CHILDREN_CARDINALITY
    Oszacowanie liczby dzieci, które ma węzła.

    Węzeł nadrzędnywskazuje liczbę przewidywalne atrybuty, które zostały modelowane.Drzewo jest tworzony dla każdego atrybut przewidywalne.

    Węzeł drzewawszystkich węzła dla każdego drzewa informuje użyto wartości ile atrybut miejsce docelowe.

    • Jeśli atrybut miejsce docelowe dyskretnych, wartość jest równa liczbie wartooci distinct plus 1 dla Missing Państwa.

    • Jeżeli przewidywalny atrybut jest ciągła, wartość informuje, ile pakiety były użyte do ciągłego atrybut modelu.

    Węzły liścizawsze 0.

  • PARENT_UNIQUE_NAME
    Unikatowa nazwa węzła nadrzędnego.Dla wszystkich węzłów poziom głównym, zwracana jest wartość NULL.

  • NODE_DESCRIPTION
    Opis węzła.

    W modelu drzewa decyzji NODE_CAPTION i NODE_DESCRIPTION mają różne informacje, zależnie od poziom w drzewie.

    Aby uzyskać więcej informacji i przykłady, zobacz węzeł podpis i opis węzeł.

  • NODE_RULE
    XML opis reguły, która opisuje ścieżka do bieżącego węzła z jego natychmiastowego nadrzędnym.

    Aby uzyskać więcej informacji i przykłady, zobacz regułę węzła i marginalny regułę.

  • MARGINAL_RULE
    XML opis reguły, która opisuje ścieżka z węzła nadrzędnego modelu do bieżącego węzła.

    Aby uzyskać więcej informacji, zobacz regułę węzła i marginalny regułę.

  • NODE_PROBABILITY
    Prawdopodobieństwo skojarzone z tym węzłem.

    Aby uzyskać więcej informacji, zobacz prawdopodobieństwo.

  • MARGINAL_PROBABILITY
    Prawdopodobieństwo osiągnięcia węzła z węzła nadrzędnego.

    Aby uzyskać więcej informacji, zobacz prawdopodobieństwo.

  • NODE_DISTRIBUTION
    Tabela, która zawiera histogram prawdopodobieństwa węzła.Informacje zawarte w tej tabela różni się w zależności od tego, czy atrybut przewidywalne jest ciągła lub zmiennych dyskretnych.

    Węzeł główny model ta tabela jest pusta.

    **Węzeł (wszystkie)**zawiera podsumowanie dla całego modelu.

    WęYlezawiera zagregowanych statystyk dla jego liść węzłów.

    Węzeł liściazawiera obsługę i prawdopodobieństwa dla przewidywanych wyników podane wszystkie warunki w ścieżka prowadzące do bieżącego węzła liścia.

    Węzeł regresjazawiera formułę regresja, która reprezentuje relację między nakładów i przewidywalny atrybut.

    Aby uzyskać więcej informacji, zobacz Atrybuty Discrete węzła dystrybucyjnego fr i Węzła dystrybucji dla ciągłego atrybutów.

  • NODE_SUPPORT
    Liczba przypadków, które obsługują ten węzeł.

  • MSOLAP_MODEL_COLUMN
    Wskazuje kolumna, która zawiera atrybut przewidywalne.

  • MSOLAP_NODE_SCORE
    Wyświetla wynik skojarzony z węzłem.Aby uzyskać więcej informacji, zobacz Wynik węzeł.

  • MSOLAP_NODE_SHORT_CAPTION
    Etykieta używana do wyświetlania.

Uwagi

Model drzewa decyzji nie ma oddzielnych węzeł, który przechowuje statystyki dla całego modelu, w przeciwieństwie do węzła marginalny statystyki w modelu sieci neuronowe lub Naive Bayes.Zamiast tego modelu tworzy oddzielne drzewa dla każdego atrybut przewidywalne z węzła (wszystko) u góry drzewa.Każdego drzewa jest niezależna od innych.Jeśli model zawiera tylko jeden atrybut przewidywalny, istnieje tylko jedno drzewo i dlatego tylko jedną (wszystkie) węzła.

Każdego drzewa reprezentujący atrybut danych wyjściowych jest ponadto podzielone na gałęzie wnętrza (NODE_TYPE = 3) reprezentujące podziały.Każdy z tych drzew zawiera statystyki dotyczące dystrybucji atrybut miejsce docelowe.Ponadto każdy węzeł liścia (NODE_TYPE = 4) zawiera statystyki opisujące wprowadzania atrybutów i ich wartości, wraz z numerem przypadkach w każdej pary atrybut wartość.Dlatego w dowolnej gałęzi drzewo decyzyjne, można wyświetlić prawdopodobieństw lub dystrybucji danych łatwo bez kwerendę źródło danych.Każdy poziom drzewa niekoniecznie reprezentuje sumę węzły podrzędność bezpośrednim.

Przykłady do pobrania tych statystyk, zobacz Badanie modelu drzewa decyzji (Analysis Services - wyszukiwania danych).

Przykład struktury drzewa decyzji

Aby pojąć działanie drzewo decyzyjne, należy rozważyć przykład, takich jak scenariusz AdventureWorks bike kupującego.Zakładając, że atrybut przewidywalne jest zakupów nabywcy, algorytm drzewa decyzji próbuje znaleźć jedną kolumna danych wśród wszystkich środków, które udostępniane, najbardziej skutecznie wykryte klientów, które prawdopodobnie zakupu rowerów, jak i tych, którzy są mało prawdopodobne, aby kupić rower.Na przykład model może okazać, że wiek jest najlepszy wskaźnik zakupów zachowanie.W szczególności klientów w wieku powyżej 30 są najprawdopodobniej zakupu rowerów i innych klientów jest mało prawdopodobne dokonać zakupu.W tym scenariuszu tworzy model podzielić na atrybut wiek.Oznacza to, że drzewo dzieli się na dwie gałęzie, jedną zawierającą klientów w wieku powyżej 30 i innych klientów zawierający poniżej 30.Nowych gałęzi są przedstawiane w strukturze modelu jako dwa nowe drzewa wnętrza (NODE_TYPE = 3).

Każda gałąź modelu nadal poszukać dodatkowych atrybutów w rozróżnianie klientów.Dane, aby kontynuować tworzenie podgrup klientów są niewystarczające dowody, model zatrzymuje, budowanie drzewa.Model także zakończy tworzenie drzewa, w każdym przypadku, gdy liczba przypadków w węźle jest zbyt mały, aby kontynuować, niezależnie od tego, jak dobrze jest podział, lub jeśli ma wartość null lub brak.Przez zatrzymanie wzrostu drzewa wczesne, można zapobiec modelu szkolenia zbyt blisko określony zestaw danych.

Każdy węzeł drzewa wnętrza zawiera węzły liść, które zapewniają podział wyników, biorąc pod uwagę bieżące wyniki klasyfikacji.Na przykład może być węYle reprezentuje wieku >= 30 i płci = samców.Węzeł dla tej grupy pokazuje, jak wielu klientów w tej kategorii możesz zakupić lub coś nie zakupu.Na przykład klasyfikacja może zawierać następujące podziały drzewa:

Wewnętrzne drzewa

Podziel

Age >= 30

Wiek >= 30 i płeć męska =

  

Wiek >= 30 i płeć żeńska =

Age < 30

Wiek < 30 i płeć męska =

  

Wiek < 30 i płeć żeńska =

Korzystania z modelu drzewo decyzyjne do przewidywanie modelu przyjmuje atrybuty, które zapewniają jej jako argumenty i następuje ścieżka atrybuty niedziałający w drzewie.Ogólnie rzecz biorąc, wszystkie prognoz przejdź do liść, i wnętrza węzły są używane tylko dla klasyfikacji.

A węzeł liścia zawsze ma NODE_TYPE 4 (dystrybucji) i zawiera histogram, wskazująca, że prawdopodobieństwo każdego wyniku (zakup lub zakup nie) podane atrybuty podasz.Na przykład, jeśli pytał przewidywanie dla nowego klienta, który jest męska ponad 60 modelu przeszukuje odpowiedni węzeł (wiek > 30 i płci = samców), a następnie zwrócić prawdopodobieństwa dla wyniku, który określisz.Prawdopodobieństwa te są przechowywane w NODE_DISTRIBUTION tabela dla węzła.

Jeśli atrybut przewidywalne jest kolejny numer, algorytm próbuje utworzyć formułę regresja, która modeluje relację między atrybut przewidywalny i nakładów.

Węzeł podpis i opis węzeł

W drzewo decyzyjne modelu, węzeł podpis i opis węzła zawierają podobne informacje.Opis węzła jest bardziej kompletny i zawiera więcej informacji, jak przenieść bliżej do węzłów liść.Opis węzła i tytuł węzeł są zlokalizowane ciągi.

NODE_CAPTION

Wyświetla atrybut, który odróżnia dany węzeł względem węzła nadrzędnego.Podpis węzła definiuje sub-segment z zapełnianie na podstawie warunku podziału.Na przykład podziału był na [wieku], było podziału trójstopniowego węzła captions dla trzech podrzędność węzłów może być "[wieku< 40", "40 <= [Wiek<50", "[wieku>= 50".

NODE_DESCRIPTION

Zawiera pełną listę atrybutów, które odróżniają węzeł z innych węzłów, począwszy od węzła nadrzędnego modelu.Na przykład, nazwa produktu = Apple i kolor czerwony =.

Węzeł reguły i reguły marginalny

W kolumnach NODE_RULE i MARGINAL_RULE zawierają te same informacje w kolumnach NODE_CAPTION i NODE_DESCRIPTION, ale reprezentują informacje jako fragmenty XML.Reguła węzła jest XML wersja pełną ścieżka, reguła marginalny wskazuje najnowsze podziału.

Atrybut reprezentowane przez XML fragment mogą być proste lub złożone.Proste atrybut zawiera nazwę kolumna, modelu i wartość atrybutu.Jeśli kolumna model zawiera zagnieżdżoną tabela, atrybut tabela zagnieżdżonej jest reprezentowana jako łączenie nazwę tabela, wartość klucz i atrybut.

Ostrzeżenie

SQL Server Usługi Analysis Services obsługuje standardowe, PMML wersja 2.0 z rozszerzeniami, do obsługi tabela zagnieżdżonej.Jeśli dane zawierają tabele zagnieżdżone i generowania PMML wersja modelu, wszystkie elementy w modelu, które zawierają predykaty są oznaczone jako rozszerzenie.

Węzła dystrybucyjnego Discrete atrybutów

W modelu drzewa decyzji NODE_DISTRIBUTION tabela zawiera przydatnych statystyk.Jednakże typ statystyk zależy czy drzewo prognozuje atrybut discrete lub ciągły.W tej sekcji opisano znaczenie statystyk węzła dystrybucji discrete atrybutów.

Nazwa atrybutu i wartość atrybutu

W drzewie klasyfikacji nazwę atrybut zawsze zawiera nazwę przewidywalna kolumna.Wartość ta informuje prognozuje drzewa.Ponieważ jedno drzewo zawsze reprezentuje pojedynczy atrybut przewidywalny, wartość ta jest powtarzana całym drzewie.

Pole wartość atrybut dyskretnego typu danych, lista możliwych wartości przewidywalna kolumna plus Missing wartości.

Obsługa

Wartość pomocy technicznej dla każdego węzła informuje o liczbie spraw są zawarte w tym węźle.poziom (wszystkie) powinny być widoczne Pełna liczba przypadków używane do szkolić modelu.Dla każdego podziału w drzewie liczba przypadków, które zostały zgrupowane w tym węźle drzewa ma wartość pomocy technicznej.Suma przypadków w liść węzły niekoniecznie jest równa Liczba przypadków w nadrzędnym węźle drzewa.

Dla węzłów, reprezentujące atrybuty ciągłe występowanie wartości null w danych może prowadzić do niektórych counterintuitive wyniki.Na przykład, jeśli istnieją m przypadkach, średnia wartość będzie obliczana jako /n Suma (wszystkie sprawy), gdzie n jest liczbą mniej niż m, i m-n wskazuje liczbę przypadków z brakujących wartości.Wsparcie jest również reprezentowana jako n.

Prawdopodobieństwo

Prawdopodobieństwo skojarzone z każdego węzła informuje prawdopodobieństwo, że w każdym przypadek całego zestaw danych byłyby kończą się w tym określonego węzła.Prawdopodobieństwo wyniki są obliczane, zarówno dla drzewa jako całości, jak i natychmiastowego podziału.

Na przykład w poniższej tabela przedstawiono bardzo prostego modelu, w przypadkach 100.

Wewnętrzne drzewa

Przypadki

Węzeł liścia

Przypadki

Prawdopodobieństwo względem węzeł nadrzędny

Prawdopodobieństwo względem węzłem

Age >= 30

60

Wiek >= 30 i płeć męska =

50

50/60 = .83

50/100 = .5

  

  

Wiek >= 30 i płeć żeńska =

10

10/60 = .16

10/100 = .10

Age < 30

40

Wiek < 30 i płeć męska =

30

30/40 = .75

30/100 = .30

  

  

Wiek < 30 i płeć żeńska =

10

10/40 = .25

10/100 = .10

Niewielkie korekty we wszystkich modelach dla brakujących wartości.Ciągłe atrybuty poszczególnych wartości lub zakres wartości jest reprezentowany jako Państwo (na przykład wiek <30, wiek = 30 i wieku >30) prawdopodobieństw są obliczane w następujący sposób: istnieje stan (wartość = 1), inne Państwo istnieje (wartość = 0), stan jest Missing.Więcej informacji dotyczących sposobu dostosowane prawdopodobieństwa do reprezentowania brakujących wartości, zobacz Brak wartości (Analysis Services - wyszukiwania danych).

Prawdopodobieństwa dla każdego węzła obliczane są prawie bezpośrednio z dystrybucji, w następujący sposób:

Prawdopodobieństwo = (obsługa stanu) + obsługę poprzedni stan / (węzeł Obsługa plus uprzedniego węzeł Obsługa)

Usługi Analysis Services używa prawdopodobieństwa dla każdego węzła porównać prawdopodobieństwa przechowywanych z prawdopodobieństwem wcześniejsze ustalenie, czy ścieżka z obiektu nadrzędnego do podrzędność węzeł wskazuje silną wnioskowanie.

Dokonując przewidywania prawdopodobieństwa rozkładu musi być zrównoważone z prawdopodobieństwem węzła smoothen prawdopodobieństw.Na przykład jeśli podział w drzewie oddziela przypadkach przez współczynnik w wysokości 9000 i 1000, drzewa jest bardzo niezrównoważone.W wyniku przewidywanie pochodzące z małych gałęzi nie powinien mieć tej samej wagi jako przewidywanie pochodzące z oddziału w wielu przypadkach.

Odchylenie

Odchylenie jest miara wartości jak rozproszone w próbce, biorąc pod uwagę przewidywane dystrybucji.Dla wartości discrete odchylenie wynosi 0 z definicji.

Aby uzyskać informacje dotyczące sposobu obliczania wariancji dla ciągłego wartości, zobacz Górnictwo zawartości modelu regresji liniowej modeli (Analysis Services - wyszukiwania danych).

Typ wartości

kolumna Typ wartość zawiera informacje na temat znaczenia wartość liczbową w innych kolumn w tabela NODE_DISTRIBUTION.Za pomocą wartości typu kwerendy, aby pobrać wiersze tabel zagnieżdżonych.Przykłady, zobacz Badanie modelu drzewa decyzji (Analysis Services - wyszukiwania danych).

Typów w MiningValueType wyliczenia, używane są następujące w klasyfikacji drzew.

Typ wartości

Opis

1 (Brak)

Wskazuje liczba, prawdopodobieństwa lub innych statystyki związane z brakujących wartości.

4 (Dyskretnych)

Wskazuje liczba, prawdopodobieństwa lub innych statystyki związane z wartością discrete lub discretized.

Jeśli model zawiera ciągłego atrybut przewidywalny, drzewa może także zawierać typów wartości unikatowych formuły regresja.Listę typów wartości, które są używane w drzewach regresja, zobacz Górnictwo zawartości modelu regresji liniowej modeli (Analysis Services - wyszukiwania danych).

Wynik węzła

Wynik węzła reprezentuje nieco inne informacje w każdym poziom drzewa.Ogólnie rzecz biorąc wynik jest wartość liczbowa, wskazująca jakość podział został osiągnięty przez dzielenie pod warunkiem.Wartość jest reprezentowana jako podwójny, gdzie lepiej jest wyższa wartość.

Z definicji węzeł modelu i wszystkich węzłów liść o wyniku węzła 0.

Dla (wszystkich) węzeł reprezentujący początek każdego drzewa kolumna MSOLAP_NODE_SCORE zawiera najlepszy wynik podziału w całym drzewie.

Dla wszystkich węzłów w drzewie (z wyjątkiem liść węzłami), liczba punktów dla każdego węzła stanowi najlepszy wynik podziału dla bieżącego węzła minus wynik podziału dla węzła nadrzędnego.Zazwyczaj wynik podziału dla węzła nadrzędnego powinny zawsze być lepsza niż wynik podziału na jeden z jego węzłów podrzędność.Wynika to z modelu drzewa decyzji idealnie podziały najważniejszych atrybuty najpierw.

Obliczenia wynik podziału, w zależności od parametrów algorytmu wybierzesz na wiele sposobów.Omówienie sposobu obliczania wyniki dla każdej z metod punktacji wykracza poza zakres tego tematu.Aby uzyskać więcej informacji, zobacz "sieci Bayesian nauki: Kombinacja wiedzy i dane statystyczne", na Microsoft badań witryna sieci Web.

Ostrzeżenie

Tworzenia modelu drzewa decyzji o atrybutach zarówno ciągły, jak i discrete przewidywalny, widoczny będzie całkowicie różne wyniki w węzłach (wszystkie), które reprezentują każdego typu drzewa.Należy rozważyć osobno każdego modelu i metody oceny punktowej regresja są całkowicie różne niż stosowane wyników klasyfikacji.Nie mogą być porównywane wartości score węzła.

Regresja węzłów w drzewie modelu decyzji

Jeśli model drzewa decyzji zawiera przewidywalne atrybut z ciągłym dane liczbowe, algorytm drzewa decyzji Microsoft dąży do znaleźć obszary danych, gdzie relacji między Państwem przewidywane i zmienne wejściowe jest liniowy.Jeśli algorytm się pomyślnie w znajdowaniu zależność liniowa, tworzy specjalny drzewa (NODE_TYPE = 25) reprezentująca regresja liniowej.Te węzły drzewa regresja są bardziej skomplikowane niż węzłów, które reprezentują wartości dyskretnego.

Na ogół regresja mapuje zmiany w ciągłym zależne (zmienna przewidywalne) jako funkcja zmiany w danych wejściowych.Jeśli zmienną zależną ma ciągłe nakładów i relacji między wartości wejściowych i przewidywane jest wystarczająco stabilne, aby obliczana jako wykres liniowy, węzeł regresja zawiera formułę.

Jednakże jeśli stosunek wartości wejściowych i przewidywane jest nieliniowych, podział zostanie utworzona, podobnie jak standard drzewo decyzyjne.Załóżmy na przykład, że a jest atrybut przewidywalny i b i c są wejścia, gdzie c jest typu ciągłego wartości.Jeśli relacja między a i c jest dość stabilny w części danych, ale niestabilne w innych, algorytm będzie powodować podziały do reprezentowania różnych obszarów danych.

Podziel warunku

W węźle wyniku

if n < 5

Relacja może być wyrażona jako równania 1

Jeśli n pomiędzy 5 i 10

Nie równania

if n > 10

Relacja może być wyrażona jako równania 2

Aby uzyskać więcej informacji dotyczących węzłów regresja, zobacz Górnictwo zawartości modelu regresji liniowej modeli (Analysis Services - wyszukiwania danych).