Artykuł
05/11/2010

model wyszukiwania Zawartości dla modeli regresji liniowej (Analysis Services — wyszukiwanie danych)

W tym temacie opisano model wyszukiwania zawartość, która jest specyficzna dla modeli których używane są Microsoft Algorytm regresja liniowej. Wyjaśnienie ogólnego model wyszukiwania zawartości dla wszystkich typów modelu zobacz Mining Model Content (Analysis Services - Data Mining).

Opis struktury modelu regresja liniowa

Modelu regresja liniowej ma strukturę bardzo proste.Każdy model ma węzeł jednego nadrzędnego, który reprezentuje modelu i jego metadane i węźle drzewa regresja (NODE_TYPE = 25), która zawiera formułę regresja dla każdego atrybut przewidywalne.

Structure of model for linear regression

W regresja liniowej Modele korzystają z tego samego algorytmu jako Microsoft Drzewa decyzji, ale różne parametry, które są używane do ograniczenia w drzewie, a tylko ciągłego atrybuty są akceptowane jako dane wejściowe. Jednakże ponieważ zależą od modeli regresja liniowej Microsoft Algorytm drzewo decyzyjne, modele są wyświetlane przy użyciu regresja liniowej Microsoft Podgląd drzewo decyzyjne. Aby uzyskać informacje Zobacz Wyświetlanie model wyszukiwania z podglądem drzewa firmy Microsoft.

W następnej sekcji wyjaśniono, jak interpretować informacje zawarte w węźle formuły regresja.Ta informacja ma zastosowanie nie tylko do modeli regresja liniowej, ale do modeli drzewa decyzji, które zawierają strat zauważyć w części drzewa.

Model zawartości dla modelu regresja liniowej

W tej części podano szczegółowe i przykłady tylko dla tych kolumn w model wyszukiwania zawartości, które mają szczególne znaczenie dla regresja liniowej.

Aby uzyskać informacje dotyczące ogólnego przeznaczenia kolumn w zestawie zestaw wierszy schematu Zobacz Mining Model Content (Analysis Services - Data Mining).

MODEL_CATALOG
Nazwa bazy danych, w której przechowywane są w modelu.
NAZWA_MODELU
Nazwa modelu.
ATTRIBUTE_NAME
Węzeł główny: Puste

Węzeł regresja: Nazwa atrybut przewidywalne.
NAZWA_WĘZŁA
Zawsze taka sama, jak NODE_UNIQUE_NAME.
NODE_UNIQUE_NAME
Identyfikator unikatowy dla węzła w ramach modelu.Tej wartości nie można zmienić.
NODE_TYPE
Modelu regresja liniowej wyświetla następujące typy węzłów:

ID typu węzła

Typ

Description

25

Katalog główny drzewa regresja

Zawiera formułę, która opisuje relację między zmienną wejściowych i wyjściowych.
NODE_CAPTION
Etykietę lub podpis skojarzonego z węzłem.Ta właściwość jest głównie w celach wyświetlania.

Węzeł główny: Puste

Węzeł regresja: Wszystkie.
CHILDREN_CARDINALITY
Oszacowanie liczby dzieci, który węzeł ma.

Węzeł główny: Wskazuje liczbę węzłów regresja.Jednym z węzłów regresja jest tworzony dla każdego atrybut przewidywalne w modelu.

Węzeł regresja: Zawsze 0.
PARENT_UNIQUE_NAME
Unikatowa nazwa węzła nadrzędnego.Dla wszystkich węzłów poziom katalogu głównego, zwracana jest wartość NULL.
NODE_DESCRIPTION
Opis węzła.

Węzeł główny: Puste

Węzeł regresja: Wszystkie.
NODE_RULE
Nie są używane w modelach regresja liniowej.
MARGINAL_RULE
Nie są używane w modelach regresja liniowej.
NODE_PROBABILITY
Prawdopodobieństwo związane z tym węźle.

Węzeł główny: 0

Węzeł regresja: 1
MARGINAL_PROBABILITY
Prawdopodobieństwo osiągnięcia węzła z węzła nadrzędnego.

Węzeł główny: 0

Węzeł regresja: 1
NODE_DISTRIBUTION
Zagnieżdżona tabela zawiera informacje statystyczne dotyczące wartości w węźle.

Węzeł główny: 0

Węzeł regresja: Tabela zawierająca elementy, używane do konstruowania formuły regresja.Węzeł regresja zawiera następujące typy wartości:

WARTOŚCI

1 (Brak)

3 (Ciągłe)

7 (Współczynnik)

8 (Zysk wynik)

9 (Statystyka)

11 (Punktu przecięcia z osią)
NODE_SUPPORT
Liczba przypadków, które obsługują ten węzeł.

Węzeł główny: 0

Węzeł regresja: Liczba przypadków szkolenia.
MSOLAP_MODEL_COLUMN
Nazwa atrybut przewidywalne.
MSOLAP_NODE_SCORE
Sam, jak NODE_PROBABILITY
MSOLAP_NODE_SHORT_CAPTION
Etykiety używane w celach wyświetlania.

ID typu węzła	Typ	Description
25	Katalog główny drzewa regresja	Zawiera formułę, która opisuje relację między zmienną wejściowych i wyjściowych.

WARTOŚCI
1 (Brak)
3 (Ciągłe)
7 (Współczynnik)
8 (Zysk wynik)
9 (Statystyka)
11 (Punktu przecięcia z osią)

Remarks

Podczas tworzenia modelu przy użyciu Microsoft Algorytm regresja liniowej, aparat wyszukiwanie danych tworzy specjalne wystąpienie modelu drzewa decyzji i dostarcza parametry, które ograniczyć drzewa zawiera wszystkie dane szkolenia w jeden węzeł. Wszystkie dane wejściowe ciągłego są oznaczane i oceniane jako potencjalne regressors, ale tylko tych regressors, które mieszczą się w danych są zachowywane jako regressors ostatecznego modelu.Analiza daje we wszystkich formuły pojedynczego regresja dla każdego regressor lub nie formuły regresja.

Można przeglądać formułę pełną regresja w Legenda wyszukiwania, klikając przycisk (Wszystkie) węźlePrzeglądarka Microsoft drzewa.

Ponadto podczas tworzenia modelu drzewa decyzji, zawierająca ciągłego atrybut przewidywalne czasami drzewa ma regresja węzłów, które mają właściwości węzłów drzewa regresja.

Węzeł dystrybucji dla atrybutów ciągłe

Większość ważnych informacji w węźle regresja są zawarte w tabela NODE_DISTRIBUTION.Poniższy przykład ilustruje układu tabela NODE_DISTRIBUTION.W tym przykładzie struktura wyszukiwania docelowe wysyłkowe został użyty do utworzenia modelu regresja liniowej, który przewiduje dochód klienta oparte na okres ważności.Model jest w celu ich wyłącznie, ponieważ może być budowany łatwo przy użyciu istniejącego pliku AdventureWorks Przykładowe dane i struktura wyszukiwania.

ATTRIBUTE_NAME	ATTRIBUTE_VALUE	POMOC TECHNICZNA	PRAWDOPODOBIEŃSTWO	ODCHYLENIE	WARTOŚCI
Dochód roczny	Brak	0	0.000457142857142857	0	1
Dochód roczny	57220.8876687257	17484	0.999542857142857	1041275619.52776	3
Okres ważności	471.687717702463	0	0	126.969442359327	7
Okres ważności	234.680904692439	0	0	0	8
Okres ważności	45.4269617936399	0	0	126.969442359327	9
	35793.5477381267	0	0	1012968919.28372	11

Tabela NODE_DISTRIBUTION zawiera wiele wierszy, każdy zgrupowany za pomocą zmiennej.Pierwsze dwa wiersze są zawsze typów wartości 1 do 3 i opisz atrybut lokalizacji miejsce docelowe.Następne wiersze zawierają szczegółowe opisy formuły dla danego regressor.A regressor jest zmienną wejściową, mającej relację liniowy ze zmienną danych wyjściowych.Może mieć wiele regressors, a każdy regressor ma oddzielny wiersz dla współczynnika (wartości = 7), wynik zysku (wartości = 8) oraz statystyki (wartości = 9).Ponadto tabela zawiera wiersz, który zawiera równanie punktu przecięcia z osią (wartości = 11).

Elementy formuły regresja

Tabela zagnieżdżona NODE_DISTRIBUTION zawiera każdy element formuły regresja w osobnym wierszu.Pierwsze dwa wiersze danych w wynikach przykład zawierają informacje o przewidywalne atrybut Dochód roczny, które modele zmienną zależną.Kolumna SUPPORT wskazuje liczbę przypadków, w celu dwa stany tego atrybut: albo Dochód roczny wartość była dostępna, lub Dochód roczny wartość Brak.

Odchylenie względem kolumna informuje obliczane odchylenie przewidywalne atrybut.Odchylenie jest miarą tego, w jaki sposób rozproszonego wartości są w próbce, biorąc pod uwagę oczekiwanego dystrybucji.W tym polu odchylenie obliczonej przez odjęcie średnią kwadratów odchylenia od wartości średniej.The square root of the variance is also known as standard deviation.Analysis Services does not provide the standard deviation but you can easily calculate it.

Dla każdego regressor dane wyjściowe są trzy wiersze.Zawierają one współczynnik zysku wynik i regressor statystyki.

Tabela ta zawiera na końcu wiersza, który zawiera równanie punktu przecięcia z osią.

Współczynnik

Dla każdego regressor, współczynnik (wartości = 7) jest obliczana.Sam współczynnik pojawia się kolumna ATTRIBUTE_VALUE konieczne Odchylenie względem kolumna informuje o odchylenie od współczynnika.Współczynniki są obliczane w taki sposób, aby zmaksymalizować liniowości.

Wynik zysk

Zysk wynik (wartości = 8) dla każdego regressor reprezentuje wynik interestingness atrybut.Wartość ta służy do szacowania przydatność regressors wiele.

Statystyki

Statystyka regressor (wartości = 9) jest średnia dla atrybut w przypadkach, które mają wartość.Kolumna ATTRIBUTE_VALUE zawiera średnią, Odchylenie względem kolumny zawiera sumę odchylenia od wartości średniej.

Punkt przecięcia z osią

Zazwyczaj punkt przecięcia z osią (Wartości = 11) lub reszta w równaniu regresja informuje wartość atrybutu przewidywalny, w punkcie, w których atrybut wejściowy wynosi 0.W wielu przypadkach to nie może się zdarzyć i może doprowadzić do counterintuitive wyniki.

Na przykład w modelu prognozuje dochodu oparte na okres ważności jest bezużyteczny dowiedzieć się więcej dochód w wieku 0.W życiu rzeczywistym jest zazwyczaj bardziej przydatne, warto wiedzieć na temat działania wiersza pod względem wartości średniej.Therefore, SQL Server Analysis Services modifies the intercept to express each regressor in a relationship with the mean.

To dostosowanie jest trudno zobaczyć w model wyszukiwania zawartości, ale jest widoczna podczas przeglądania zakończonych równania w Legenda wyszukiwania of the Przeglądarka Microsoft drzewa.Formuła regresja jest przesuwane od 0 punktu do punktu, przedstawiającą średnią.Stanowi to widok, który jest bardziej intuicyjna podane bieżących danych.

Z tego powodu, przy założeniu, że średnia wieku jest około 45, punkt przecięcia z osią (wartości = 11) dla regresja formuły pozwalają średniego dochodu.