model wyszukiwania Zawartości dla modeli regresji liniowej (Analysis Services — wyszukiwanie danych)

W tym temacie opisano model wyszukiwania zawartość, która jest specyficzna dla modeli których używane są Microsoft Algorytm regresja liniowej. Wyjaśnienie ogólnego model wyszukiwania zawartości dla wszystkich typów modelu zobacz Mining Model Content (Analysis Services - Data Mining).

Opis struktury modelu regresja liniowa

Modelu regresja liniowej ma strukturę bardzo proste.Każdy model ma węzeł jednego nadrzędnego, który reprezentuje modelu i jego metadane i węźle drzewa regresja (NODE_TYPE = 25), która zawiera formułę regresja dla każdego atrybut przewidywalne.

Structure of model for linear regression

W regresja liniowej Modele korzystają z tego samego algorytmu jako Microsoft Drzewa decyzji, ale różne parametry, które są używane do ograniczenia w drzewie, a tylko ciągłego atrybuty są akceptowane jako dane wejściowe. Jednakże ponieważ zależą od modeli regresja liniowej Microsoft Algorytm drzewo decyzyjne, modele są wyświetlane przy użyciu regresja liniowej Microsoft Podgląd drzewo decyzyjne. Aby uzyskać informacje Zobacz Wyświetlanie model wyszukiwania z podglądem drzewa firmy Microsoft.

W następnej sekcji wyjaśniono, jak interpretować informacje zawarte w węźle formuły regresja.Ta informacja ma zastosowanie nie tylko do modeli regresja liniowej, ale do modeli drzewa decyzji, które zawierają strat zauważyć w części drzewa.

Model zawartości dla modelu regresja liniowej

W tej części podano szczegółowe i przykłady tylko dla tych kolumn w model wyszukiwania zawartości, które mają szczególne znaczenie dla regresja liniowej.

Aby uzyskać informacje dotyczące ogólnego przeznaczenia kolumn w zestawie zestaw wierszy schematu Zobacz Mining Model Content (Analysis Services - Data Mining).

  • MODEL_CATALOG
    Nazwa bazy danych, w której przechowywane są w modelu.

  • NAZWA_MODELU
    Nazwa modelu.

  • ATTRIBUTE_NAME
    Węzeł główny:    Puste

    Węzeł regresja:   Nazwa atrybut przewidywalne.

  • NAZWA_WĘZŁA
    Zawsze taka sama, jak NODE_UNIQUE_NAME.

  • NODE_UNIQUE_NAME
    Identyfikator unikatowy dla węzła w ramach modelu.Tej wartości nie można zmienić.

  • NODE_TYPE
    Modelu regresja liniowej wyświetla następujące typy węzłów:

    ID typu węzła

    Typ

    Description

    25

    Katalog główny drzewa regresja

    Zawiera formułę, która opisuje relację między zmienną wejściowych i wyjściowych.

  • NODE_CAPTION
    Etykietę lub podpis skojarzonego z węzłem.Ta właściwość jest głównie w celach wyświetlania.

    Węzeł główny:    Puste

    Węzeł regresja:   Wszystkie.

  • CHILDREN_CARDINALITY
    Oszacowanie liczby dzieci, który węzeł ma.

    Węzeł główny:   Wskazuje liczbę węzłów regresja.Jednym z węzłów regresja jest tworzony dla każdego atrybut przewidywalne w modelu.

    Węzeł regresja:   Zawsze 0.

  • PARENT_UNIQUE_NAME
    Unikatowa nazwa węzła nadrzędnego.Dla wszystkich węzłów poziom katalogu głównego, zwracana jest wartość NULL.

  • NODE_DESCRIPTION
    Opis węzła.

    Węzeł główny:    Puste

    Węzeł regresja:   Wszystkie.

  • NODE_RULE
    Nie są używane w modelach regresja liniowej.

  • MARGINAL_RULE
    Nie są używane w modelach regresja liniowej.

  • NODE_PROBABILITY
    Prawdopodobieństwo związane z tym węźle.

    Węzeł główny:   0

    Węzeł regresja:   1

  • MARGINAL_PROBABILITY
    Prawdopodobieństwo osiągnięcia węzła z węzła nadrzędnego.

    Węzeł główny:   0

    Węzeł regresja:   1

  • NODE_DISTRIBUTION
    Zagnieżdżona tabela zawiera informacje statystyczne dotyczące wartości w węźle.

    Węzeł główny:   0

    Węzeł regresja:   Tabela zawierająca elementy, używane do konstruowania formuły regresja.Węzeł regresja zawiera następujące typy wartości:

    WARTOŚCI

    1 (Brak)

    3 (Ciągłe)

    7 (Współczynnik)

    8 (Zysk wynik)

    9 (Statystyka)

    11 (Punktu przecięcia z osią)

  • NODE_SUPPORT
    Liczba przypadków, które obsługują ten węzeł.

    Węzeł główny:   0

    Węzeł regresja:   Liczba przypadków szkolenia.

  • MSOLAP_MODEL_COLUMN
    Nazwa atrybut przewidywalne.

  • MSOLAP_NODE_SCORE
    Sam, jak NODE_PROBABILITY

  • MSOLAP_NODE_SHORT_CAPTION
    Etykiety używane w celach wyświetlania.

Remarks

Podczas tworzenia modelu przy użyciu Microsoft Algorytm regresja liniowej, aparat wyszukiwanie danych tworzy specjalne wystąpienie modelu drzewa decyzji i dostarcza parametry, które ograniczyć drzewa zawiera wszystkie dane szkolenia w jeden węzeł. Wszystkie dane wejściowe ciągłego są oznaczane i oceniane jako potencjalne regressors, ale tylko tych regressors, które mieszczą się w danych są zachowywane jako regressors ostatecznego modelu.Analiza daje we wszystkich formuły pojedynczego regresja dla każdego regressor lub nie formuły regresja.

Można przeglądać formułę pełną regresja w Legenda wyszukiwania, klikając przycisk (Wszystkie) węźlePrzeglądarka Microsoft drzewa.

Ponadto podczas tworzenia modelu drzewa decyzji, zawierająca ciągłego atrybut przewidywalne czasami drzewa ma regresja węzłów, które mają właściwości węzłów drzewa regresja.

Węzeł dystrybucji dla atrybutów ciągłe

Większość ważnych informacji w węźle regresja są zawarte w tabela NODE_DISTRIBUTION.Poniższy przykład ilustruje układu tabela NODE_DISTRIBUTION.W tym przykładzie struktura wyszukiwania docelowe wysyłkowe został użyty do utworzenia modelu regresja liniowej, który przewiduje dochód klienta oparte na okres ważności.Model jest w celu ich wyłącznie, ponieważ może być budowany łatwo przy użyciu istniejącego pliku AdventureWorks Przykładowe dane i struktura wyszukiwania.

ATTRIBUTE_NAME

ATTRIBUTE_VALUE

POMOC TECHNICZNA

PRAWDOPODOBIEŃSTWO

ODCHYLENIE

WARTOŚCI

Dochód roczny

Brak

0

0.000457142857142857

0

1

Dochód roczny

57220.8876687257

17484

0.999542857142857

1041275619.52776

3

Okres ważności

471.687717702463

0

0

126.969442359327

7

Okres ważności

234.680904692439

0

0

0

8

Okres ważności

45.4269617936399

0

0

126.969442359327

9

  

35793.5477381267

0

0

1012968919.28372

11

Tabela NODE_DISTRIBUTION zawiera wiele wierszy, każdy zgrupowany za pomocą zmiennej.Pierwsze dwa wiersze są zawsze typów wartości 1 do 3 i opisz atrybut lokalizacji miejsce docelowe.Następne wiersze zawierają szczegółowe opisy formuły dla danego regressor.A regressor jest zmienną wejściową, mającej relację liniowy ze zmienną danych wyjściowych.Może mieć wiele regressors, a każdy regressor ma oddzielny wiersz dla współczynnika (wartości = 7), wynik zysku (wartości = 8) oraz statystyki (wartości = 9).Ponadto tabela zawiera wiersz, który zawiera równanie punktu przecięcia z osią (wartości = 11).

Elementy formuły regresja

Tabela zagnieżdżona NODE_DISTRIBUTION zawiera każdy element formuły regresja w osobnym wierszu.Pierwsze dwa wiersze danych w wynikach przykład zawierają informacje o przewidywalne atrybut Dochód roczny, które modele zmienną zależną.Kolumna SUPPORT wskazuje liczbę przypadków, w celu dwa stany tego atrybut: albo Dochód roczny wartość była dostępna, lub Dochód roczny wartość Brak.

Odchylenie względem kolumna informuje obliczane odchylenie przewidywalne atrybut.Odchylenie jest miarą tego, w jaki sposób rozproszonego wartości są w próbce, biorąc pod uwagę oczekiwanego dystrybucji.W tym polu odchylenie obliczonej przez odjęcie średnią kwadratów odchylenia od wartości średniej.The square root of the variance is also known as standard deviation.Analysis Services does not provide the standard deviation but you can easily calculate it.

Dla każdego regressor dane wyjściowe są trzy wiersze.Zawierają one współczynnik zysku wynik i regressor statystyki.

Tabela ta zawiera na końcu wiersza, który zawiera równanie punktu przecięcia z osią.

Współczynnik

Dla każdego regressor, współczynnik (wartości = 7) jest obliczana.Sam współczynnik pojawia się kolumna ATTRIBUTE_VALUE konieczne Odchylenie względem kolumna informuje o odchylenie od współczynnika.Współczynniki są obliczane w taki sposób, aby zmaksymalizować liniowości.

Wynik zysk

Zysk wynik (wartości = 8) dla każdego regressor reprezentuje wynik interestingness atrybut.Wartość ta służy do szacowania przydatność regressors wiele.

Statystyki

Statystyka regressor (wartości = 9) jest średnia dla atrybut w przypadkach, które mają wartość.Kolumna ATTRIBUTE_VALUE zawiera średnią, Odchylenie względem kolumny zawiera sumę odchylenia od wartości średniej.

Punkt przecięcia z osią

Zazwyczaj punkt przecięcia z osią (Wartości = 11) lub reszta w równaniu regresja informuje wartość atrybutu przewidywalny, w punkcie, w których atrybut wejściowy wynosi 0.W wielu przypadkach to nie może się zdarzyć i może doprowadzić do counterintuitive wyniki.

Na przykład w modelu prognozuje dochodu oparte na okres ważności jest bezużyteczny dowiedzieć się więcej dochód w wieku 0.W życiu rzeczywistym jest zazwyczaj bardziej przydatne, warto wiedzieć na temat działania wiersza pod względem wartości średniej.Therefore, SQL Server Analysis Services modifies the intercept to express each regressor in a relationship with the mean.

To dostosowanie jest trudno zobaczyć w model wyszukiwania zawartości, ale jest widoczna podczas przeglądania zakończonych równania w Legenda wyszukiwania of the Przeglądarka Microsoft drzewa.Formuła regresja jest przesuwane od 0 punktu do punktu, przedstawiającą średnią.Stanowi to widok, który jest bardziej intuicyjna podane bieżących danych.

Z tego powodu, przy założeniu, że średnia wieku jest około 45, punkt przecięcia z osią (wartości = 11) dla regresja formuły pozwalają średniego dochodu.