Microsoft techniczne algorytm regresji liniowej

Microsoft Algorytm regresji liniowej jest specjalną wersja algorytm Microsoft drzewa decyzji, który jest zoptymalizowany do modelowania pary atrybutów ciągłe.W tym temacie wyjaśniono Implementacja algorytmu, opisuje jak dostosować działanie algorytmu i zawiera łącza do dodatkowych informacji o przeszukiwaniu modeli.

Implementacja algorytmu regresji liniowej

Algorytm drzewa decyzji Microsoft mogą być używane dla wielu zadań: Liniowa analiza regresja, klasyfikacji lub skojarzenie.Aby zaimplementować ten algorytm w rozumieniu regresja liniowej, parametry algorytmu są kontrolowane ograniczenie wzrostu drzewa i zachować wszystkie dane w modelu w jeden węzeł.Innymi słowy chociaż regresja liniowej jest oparta na drzewo decyzyjne, drzewa zawiera tylko jeden główny i oddziały nie: wszystkie dane znajdują się w węźle głównym.

Aby osiągnąć ten cel, algorytm 's MINIMUM_LEAF_CASES ustawiona jest większa niż lub równa całkowitej liczby przypadków, używanych przez algorytm szkolić modelu górnictwa.Z parametrem zestaw w ten sposób algorytm nigdy nie będzie utworzyć podział i dlatego wykonuje regresja liniowej.

Równanie regresja reprezentuje przybiera formę ogólnych y = ax + bi jest znany jako równanie regresja.Zmienna y reprezentuje zmienną produkcji x reprezentuje zmienną wejściową i i b są współczynnikami zmienianych.Współczynniki, przechwytuje i inne informacje na temat formuła regresja można pobrać przez badanie wypełniony model wyszukiwania.Aby uzyskać więcej informacji, zobacz Badanie modelu regresji liniowej (Analysis Services - wyszukiwania danych).

Metody tworzenia wyników i Wybieranie funkcji

Wszystkie Usługi Analysis Services algorytmów wyszukiwanie danych automatycznie Użyj zaznaczenia funkcji poprawy analizy i zmniejszenie obciążenia przetwarzania.Metoda stosowana do zaznaczenia funkcji regresja liniowej jest wynik interestingness, ponieważ obsługuje model obsługuje tylko ciągłego kolumn.Dla odwołania w poniższej tabela przedstawiono różnice w funkcji wybór algorytmu regresji liniowej i algorytm drzewa decyzji.

Algorytm

Metoda analizy

Komentarze

Regresja liniowa

Wynik interestingness

Domyślny.

Inne metody zaznaczenia funkcji dostępnych z algorytmem drzewa decyzji dotyczą tylko zmiennych dyskretnych i dlatego nie są stosowane do modeli regresja liniowej.

Drzewo decyzji

Wynik interestingness

Entropia firmy Shannon

Bayesian z uprzednią K2

Bayesian Dirichlet z jednolitego przed (domyślnie)

Jeśli kolumny zawierają wartości ciągłego nieznakowe, wynik interestingness jest używany dla wszystkich kolumn, aby zapewnić spójność.W przeciwnym razie używany jest domyślny lub określonej metoda.

Parametry algorytmu, kontrolujących wybieranie funkcji modelu drzewa decyzji są MAXIMUM_INPUT_ATTRIBUTES i MAXIMUM_OUTPUT.

Dostosowywanie algorytm regresji liniowej

Microsoft Algorytm regresji liniowej obsługuje parametry, które wpływają na zachowanie, wydajność i dokładność wyniku model wyszukiwania.Można także zestaw modelowania flagi na kolumnach modelu górniczych lub górnictwo struktury kolumn do kontrolowania sposobu przetwarzania danych.

Ustawianie parametrów algorytmu

W poniższej tabela przedstawiono parametry, które są przewidziane Microsoft algorytm regresji liniowej.

Parametr

Opis

MAXIMUM_INPUT_ATTRIBUTES

Określa liczbę atrybutów wejściowych może obsłużyć algorytmu przed go wywołuje funkcję zaznaczania.Ta wartość 0, aby wyłączyć funkcję zaznaczania.

Wartość domyślna to 255.

MAXIMUM_OUTPUT_ATTRIBUTES

Określa liczbę atrybutów wyjścia może obsłużyć algorytmu przed go wywołuje funkcję zaznaczania.Ta wartość 0, aby wyłączyć funkcję zaznaczania.

Wartość domyślna to 255.

FORCED_REGRESSOR

Wymusza algorytm używany wskazanej kolumny jako regressors, niezależnie od wagi kolumny, obliczona przy użyciu algorytmu.

Modelowanie flag

Microsoft Obsługuje algorytm regresji liniowej flagi modelowania.Podczas tworzenia struktura wyszukiwania lub modelu górnictwo zdefiniować flagi modelowania, aby określić sposób obsługi wartości w każdej kolumnie podczas analizy.Aby uzyskać więcej informacji, zobacz Flagi modelowania (wyszukiwania danych).

Flaga modelowania

Opis

NOT NULL

Wskazuje, że kolumna nie może zawierać wartość null.Spowoduje błąd, jeśli usługi Analysis Services napotka null podczas szkolenia modelu.

Stosuje się do struktura wyszukiwania kolumny.

REGRESSOR

Wskazuje, że kolumna zawiera ciągłej wartości numeryczne, które powinny być traktowane jako potencjalne zmiennych niezależnych podczas analizy.

UwagaUwaga:
Oflagowanie kolumny jako regressor nie zapewnia, że kolumna będzie używany jako regressor w końcowym modelu.

Stosuje się do model wyszukiwania kolumny.

Regressors w modelach regresji liniowej

Na podstawie regresja liniowej modele Microsoft algorytm drzewa decyzji.Jednak nawet, jeśli nie używasz Microsoft algorytm regresja liniowej wszystkie drzewo decyzyjne model może zawierać drzewa lub węzłów, które reprezentują regresja na ciągłe atrybut.

Nie trzeba określić, że ciągłego kolumna reprezentuje regressor. Microsoft Algorytm drzewa decyzji będzie partycji danychzestaw w regionach desenie znaczące, nawet jeśli nie zestaw flagi REGRESSOR na kolumna.Różnica jest podczas możesz zestaw flagi modelowania algorytm podejmie próbę znalezienia równania regresja formularza * C1 + b * C2 +... do wzorców w węzłach drzewa.Obliczana jest suma składników resztkowych, i jeśli odchylenie jest zbyt duża, podział jest zmuszony w drzewie.

Na przykład, jeśli są przewidywaniu nabywcy zakupów za pomocą zachowania dochodu jako atrybutu, i zestaw REGRESSOR modelowania flagę w kolumnie, algorytm musiałaby najpierw spróbować dopasować dochodu wartości przy użyciu formuły standardowej regresja.Jeśli odchylenie jest zbyt duża, porzucone formuły regresja i drzewa by podzielić na inne atrybut.Algorytm drzewo decyzyjne może następnie spróbować dopasowanie regressor dla dochodów w każdej z branż, które po podziału.

Zagwarantować, że algorytm użyje konkretnego regressor, można użyć parametru FORCED_REGRESSOR.Tego parametru można używać z algorytmów Microsoft algorytmów i regresji liniowej Microsoft.

Wymagania

Modelu regresja liniowej musi zawierać kolumna klucz, wprowadzania kolumna i co najmniej jedną przewidywalna kolumna.

Dane wejściowe i przewidywalny kolumn

Microsoft Obsługuje algorytm regresji liniowej określonych kolumn danych wejściowych i przewidywalny kolumn, które są wymienione w poniższej tabela.Aby uzyskać więcej informacji dotyczących typów zawartości znaczenie w model wyszukiwania, zobacz Typy zawartości (wyszukiwania danych).

Kolumna

Typy zawartości

Atrybut wejściowy

Ciągłe, cykliczne, klucza, tabela i Zamówione

Przewidywalne atrybut

Ciągłe, cykliczne i Zamówione

Ostrzeżenie

Cyclicali Ordered zawartości obsługiwanych typów, ale algorytm traktuje je jako dyskretnych wartości i nie wykonuje przetwarzania specjalnego.