Górnictwo zawartości modelu regresji liniowej modeli (Analysis Services - wyszukiwania danych)

W tym temacie opisano model wyszukiwania zawartość, która jest charakterystyczna dla modeli używające Microsoft algorytm regresji liniowej.Wyjaśnienie ogólne model wyszukiwania zawartości dla wszystkich typów modelu, zobacz Górnictwo modelu zawartości (Analysis Services - wyszukiwania danych).

Opis struktury modelu regresji liniowej

Model regresja liniowej ma strukturę niezwykle proste.Każdy model ma węzeł nadrzędny pojedynczego, reprezentującą modelu i metadane i węzeł drzewa regresja (NODE_TYPE = 25), że zawiera formułę regresja dla każdego atrybut przewidywalne.

Struktura modelu na potrzeby regresji liniowej

Modele regresja liniowej korzystają z tego samego algorytmu jako Microsoft drzewa decyzji, ale różne parametry, które są używane do ograniczyć drzewa, i tylko ciągłego atrybuty są akceptowane jako dane wejściowe.However, because linear regression models are based on the Decision Trees algorithm, linear regression models are displayed by using the Microsoft Decision Tree Viewer.Aby uzyskać informacje, zobacz Wyświetlanie modelu górnictwo Viewer drzewa Microsoft.

W następnej sekcji objaśniono sposób interpretowania informacji w węźle formuły regresja.Ta informacja ma zastosowanie nie tylko do modeli regresja liniowej, ale do modeli drzewa decyzji, które zawierają strat zauważyć w część drzewa.

Model zawartości dla modelu regresji liniowej

Ta sekcja zawiera szczegółowe i przykłady tylko dla tych kolumn w model wyszukiwania zawartość ma szczególne znaczenie dla regresja liniowej.

Aby uzyskać informacje dotyczące ogólnego przeznaczenia kolumn w zestawie zestaw wierszy schematu, zobacz Górnictwo modelu zawartości (Analysis Services - wyszukiwania danych).

  • MODEL_CATALOG
    Nazwa bazy danych, w którym przechowywany jest model.

  • NAZWA_MODELU
    Nazwa modelu.

  • ATTRIBUTE_NAME
    **Węzeł główny:**pusty

    **Węzeł regresji:**nazwę atrybut przewidywalne.

  • NAZWA_WĘZŁA
    Zawsze taki sam, jak NODE_UNIQUE_NAME.

  • NODE_UNIQUE_NAME
    Identyfikator unikatowy dla węzła w ramach modelu.Tej wartości nie można zmienić.

  • NODE_TYPE
    Modelu regresja liniowej wyświetla następujące typy węzłów:

    Identyfikator typu węzła

    Typ

    Opis

    25

    Katalog główny drzewa regresji

    Zawiera formułę, która opisuje relację między zmienną wejściowych i wyjściowych.

  • NODE_CAPTION
    Etykiety lub podpis skojarzonego z tym węzłem.Ta właściwość jest głównie w celach wyświetlania.

    **Węzeł główny:**pusty

    **Węzeł regresji:**wszystkie.

  • CHILDREN_CARDINALITY
    Oszacowanie liczby dzieci, które ma węzła.

    **Węzeł główny:**wskazuje liczbę węzłów regresja.Jeden węzeł regresja jest tworzony dla każdego atrybut przewidywalne w modelu.

    **Węzeł regresji:**zawsze 0.

  • PARENT_UNIQUE_NAME
    Unikatowa nazwa węzła nadrzędnego.Dla wszystkich węzłów poziom głównym, zwracana jest wartość NULL.

  • NODE_DESCRIPTION
    Opis węzła.

    **Węzeł główny:**pusty

    **Węzeł regresji:**wszystkie.

  • NODE_RULE
    Nie używany dla modeli regresja liniowej.

  • MARGINAL_RULE
    Nie używany dla modeli regresja liniowej.

  • NODE_PROBABILITY
    Prawdopodobieństwo skojarzone z tym węzłem.

    **Węzeł główny:**0

    **Węzeł regresji:**1

  • MARGINAL_PROBABILITY
    Prawdopodobieństwo osiągnięcia węzła z węzła nadrzędnego.

    **Węzeł główny:**0

    **Węzeł regresji:**1

  • NODE_DISTRIBUTION
    Zagnieżdżona tabela zawiera informacje statystyczne dotyczące wartości w węźle.

    **Węzeł główny:**0

    **Węzeł regresja:**tabela, która zawiera elementy używane do tworzenia formuł regresja.Węzeł regresja zawiera następujące wartości:

    VALUETYPE

    1 (Brak)

    3 (Ciągłe)

    7 (Współczynnik)

    8 (Wynik zysk)

    9 (Statystyki)

    11 (Stała)

  • NODE_SUPPORT
    Liczba przypadków, które obsługują ten węzeł.

    **Węzeł główny:**0

    **Węzeł regresji:**liczba przypadków szkolenia.

  • MSOLAP_MODEL_COLUMN
    Nazwa atrybut przewidywalne.

  • MSOLAP_NODE_SCORE
    Sam, jak NODE_PROBABILITY

  • MSOLAP_NODE_SHORT_CAPTION
    Etykiety używanej w celach wyświetlania.

Uwagi

Podczas tworzenia modelu przy użyciu Microsoft algorytm regresji liniowej aparat wyszukiwanie danych tworzy specjalne wystąpienie modelu drzewa decyzji i dostarcza parametry, które ograniczyć drzewie zawierają wszystkie dane szkolenia w pojedynczy węzeł.Wszystkie dane wejściowe ciągłego oflagowane i oceniane jako potencjalnie regressors, ale tylko w tych regressors, dopasowanie danych są zachowywane jako regressors w końcowym modelu.Analiza daje na wszystkich formuły pojedynczego regresja dla każdego regressor lub formuła regresja.

Można wyświetlić pełną regresja formuły w Górnictwa legendy, klikając (wszystkie) węzeł w Przeglądarka Microsoft drzewa.

Również podczas tworzenia modelu drzewa decyzji, zawierającym ciągłego atrybut przewidywalne czasami drzewa ma regresja węzłów, które mają właściwości węzłów drzewa regresja.

Węzeł dystrybucji dla ciągłego atrybutów

Większość ważnych informacji w węźle regresja zawarte w tabela NODE_DISTRIBUTION.Poniższy przykład ilustruje układu tabela NODE_DISTRIBUTION.W tym przykładzie użyto struktura wyszukiwania korespondencji skierowane do tworzenia modelu regresja liniowej, która przewiduje dochód klienta oparte na wiek.Model jest w rozumieniu wyłącznie, ponieważ mogą być wbudowane łatwo przy użyciu istniejących AdventureWorks2008R2 dane przykładowe i struktura wyszukiwania.

ATTRIBUTE_NAME

ATTRIBUTE_VALUE

OBSŁUGA

PRAWDOPODOBIEŃSTWO

ODCHYLENIE

VALUETYPE

Roczny dochód

Brak

0

0.000457142857142857

0

1

Roczny dochód

57220.8876687257

17484

0.999542857142857

1041275619.52776

3

Wiek

471.687717702463

0

0

126.969442359327

7

Wiek

234.680904692439

0

0

0

8

Wiek

45.4269617936399

0

0

126.969442359327

9

  

35793.5477381267

0

0

1012968919.28372

11

Tabela NODE_DISTRIBUTION zawiera wiele wierszy, grupowane każdej zmiennej.Pierwsze dwa wiersze są zawsze typów wartości 1 i 3 i opisują atrybut miejsce docelowe.Następne wiersze zawierają szczegóły dotyczące formuły dla danego regressor.Regressor jest zmienną wejściową, zawierający zależność liniowa, ze zmienną wyjściowego.Może mieć wiele regressors i regressor każdy ma osobny wiersz dla współczynnika (VALUETYPE = 7), wynik zysk (VALUETYPE = 8) i statystyki (VALUETYPE = 9).Wreszcie, tabela ma wiersz, który zawiera równanie punktu przecięcia z osią (VALUETYPE = 11).

Elementy formuły regresji

Zagnieżdżona tabela NODE_DISTRIBUTION zawiera każdego elementu formuły regresja w osobnym wierszu.Pierwsze dwa wiersze danych w przykładzie wyniki zawierają informacje o przewidywalnych atrybut Roczny dochód, które modele zmienną zależną.kolumna obsługi technicznej wyświetla liczbę przypadkach w dwóch Państwach tego atrybut: albo Roczny dochód wartość była dostępna, lub Roczny dochód wartość Brak.

kolumna odchylenia informuje obliczone odchylenie przewidywalne atrybut.Odchylenie jest miara jak rozproszone są wartości w próbce, biorąc pod uwagę przewidywane dystrybucji.Odchylenie w tym polu jest obliczana przyjmując średnią kwadratów odchylenia od wartości średniej.The square root of the variance is also known as standard deviation.Usługi Analysis Services does not provide the standard deviation but you can easily calculate it.

Dla każdego regressor dane wyjściowe są trzy wiersze.Zawierają one współczynnika, wynik zysku i statystyki regressor.

Wreszcie tabela zawiera wiersz, który zawiera równanie punktu przecięcia z osią.

Współczynnik

Dla każdego regressor współczynnik (VALUETYPE = 7) jest obliczana.W związku z kolumna odchylenia informuje odchylenie współczynnika sam współczynnik pojawia się kolumna ATTRIBUTE_VALUE.Współczynniki są obliczane w taki sposób, aby zmaksymalizować liniowości.

Wynik zysk

Zysk wynik (VALUETYPE = 8) dla każdego regressor reprezentuje wynik interestingness atrybut.Ta wartość służy do szacowania użyteczność wielu regressors.

Statystyki

Statystyka regressor (VALUETYPE = 9) jest średnia dla przypadków, które mają wartość atrybut.Kolumna ATTRIBUTE_VALUE zawiera średnią, odchylenie kolumna zawiera sumę odchyleń od średniej.

Punkt przecięcia

Normalnie przecięcia (VALUETYPE = 11) lub resztkowego w regresja równanie informuje wartość atrybutu przewidywalne w punkcie, gdzie atrybut wejściowy jest 0.W wielu przypadkach to nie może się zdarzyć i może prowadzić do counterintuitive wyniki.

Na przykład w modelu prognozuje przychodów oparte na wiek jest bezużyteczny Dowiedz się dochód w wieku 0.W rzeczywistym życia jest zazwyczaj bardziej użyteczne wiedzieć o zachowanie wiersza w odniesieniu do wartości średniej.Therefore, SQL Server Usługi Analysis Services modifies the intercept to express each regressor in a relationship with the mean.

To dopasowanie jest trudno zobaczyć w model wyszukiwania zawartości, ale jest widoczna, jeśli Wyświetl równanie ukończone w Górnictwa legendy z Przeglądarka Microsoft drzewa.Formuła regresja jest przesuwane poza punkt 0 do punktu, który reprezentuje średniej.Przedstawia widok, który jest bardziej intuicyjna podać aktualne dane.

Dlatego przy założeniu, że średni wiek jest około 45, punkt przecięcia z osią (VALUETYPE = 11) dla regresja formuły informuje średniego dochodu.