Artykuł
07/22/2011

Zaznaczenie funkcji wyszukiwania danych

Funkcja wyboru jest koniecznością dla dowolnego produktu wyszukiwanie danych.Ponieważ podczas tworzenia danych jest model wyszukiwania, zestaw danych często zawiera więcej informacji niż jest to wymagane do utworzenia modelu.Na przykład zestawu danych może zawierać 500 kolumn, które opisują cechy klientów, ale prawdopodobnie tylko 50 tych kolumn są używane do budowania określonego modelu.Jeżeli zachowasz niepotrzebnych kolumn podczas budowania modelu więcej czasu Procesora i pamięci są wymagane podczas procesu szkolenia i więcej miejsca jest wymagana dla modelu zakończone.

Nawet jeśli zasoby nie są istotne, zwykle ma usunąć zbędne kolumny, ponieważ pogarsza ich jakości odkryte desenie z następujących powodów:

Niektóre kolumny są zbędne lub szumów.Hałas utrudnia wykrywanie znaczące wzorców danych;
Wykrywanie wzorce jakości, większość algorytmów wyszukiwanie danych wymaga dużo większy zestaw danych szkoleniowych wysokiej wymiarowego zestawu danych.Jednak dane szkolenia jest bardzo mała w niektórych aplikacjach wyszukiwanie danych.

Funkcja Zaznaczanie pozwala rozwiązać ten problem, o zbyt dużej ilości danych o niewielkiej wartości, lub za mało danych o wysokiej wartości.

Zaznaczenie funkcji wyszukiwania danych usług Analysis Services

Ogólnie rzecz biorąc Wybieranie funkcji działa obliczania wyniku dla każdego atrybut, a następnie wybierając atrybuty, które mają najlepsze wyniki.Można dostosować próg górny wyników.Wybieranie funkcji jest zawsze przeprowadzane przed modelu jest szkolony automatycznie wybrać atrybuty w zestawie danych, które są najczęściej używane w modelu.

Usługi Analysis Services oferuje wiele metod Wybieranie funkcji.Dokładną metoda wybierania atrybutów o najwyższej wartości zależy od algorytmu używanego w modelu i wszystkie parametry, które mogą mieć zestaw na modelu.Wybieranie funkcji jest stosowana, nakładów i przewidywalny atrybuty lub Państwa, kolumna.Atrybuty i Państwa, które wybiera algorytmu są uwzględniane w procesie budowania modelu i mogą być używane do przewidywanie.Przewidywalne kolumn, które są ignorowane przez Wybieranie funkcji są używane do przewidywanie, ale przewidywań są oparte jedynie na statystykę globalną, która istnieje w modelu.

Ostrzeżenie

Wybieranie funkcji dotyczy tylko kolumn, które są używane w modelu i nie ma wpływu na przechowywanie struktura wyszukiwania.Kolumny, które są wykluczone z modelu górnictwo są nadal dostępne w strukturę i dane w struktura wyszukiwania kolumny będą buforowane.

Definicja funkcji wybór metody

Aby zaimplementować funkcję wyboru, w zależności od typu danych, który pracuje z i algorytm wybrany dla analizy na wiele sposobów.SQL Server Analysis Services oferuje kilka metod popularne i ugruntowanego wyników atrybutów.Metoda stosowana w algorytm lub zestaw danych zależy od typów danych i użycie kolumna.

Interestingness wynik jest używany do atrybutów Ranga i sortowania w kolumnach zawierających Niebinarnych ciągły dane liczbowe.

Kolumny zawierające dane dyskretnych i discretized, można wybrać z entropii firmy Shannon i wyniki dwóch Bayesian; Jednakże jeśli model zawiera kolumny ciągłego, wynik interestingness będą używane do oceny wszystkich kolumn wejściowego, aby zapewnić spójność.

W tej sekcji opisano każdej metoda wyboru funkcji.

Wynik interestingness

Funkcja jest interesujące, jeśli informuje użyteczne części informacji.Ponieważ definicja, co jest przydatne jest różna w zależności od scenariusza, branży wydobycia danych przygotowała różne sposoby miara interestingness.Na przykład nowości może być interesujące w izolowanej wykrywania, ale możliwość dyskryminują ściśle powiązanych elementów lub wagi różnicująca, może być bardziej interesujące dla klasyfikacji.

miara interestingness, używanego przez program SQL Server Analysis Services jest entropii opartych na, co oznacza atrybuty z losowo dystrybucje że entropii wyższe i niższe informacji uzyskania; dlatego takie atrybuty są mniej interesujące.Entropia dla każdego konkretnego atrybut jest porównywany z entropii inne atrybuty w następujący sposób:

Interestingness(Attribute) =-(m - Entropy(Attribute)) * (m - Entropy(Attribute))

Entropia centralnej lub m, oznacza entropii zestaw funkcji całego.Poprzez odjęcie entropii atrybut miejsce docelowe z centralnego entropii, można oszacować ile informacji zawiera atrybut.

Ten wynik jest domyślnie używane zawsze, gdy kolumna zawiera Niebinarnych dane liczbowe ciągłe.

Entropia firmy Shannon

Entropia firmy Shannon środków niepewności zmienną losową dla konkretnego wyniku.Na przykład entropii toss monet może być reprezentowany jako funkcja prawdopodobieństwa jego przygotowanie głowic.

Usługi Analysis Services używa następującej formuły do obliczania entropii firmy Shannon:

H(X) = - ∑ P(xi) log(P(xi))

Ta metoda tworzenia wyników jest dostępna dla atrybutów dyskretnych i discretized.

Bayesian z uprzednią K2

Usługi Analysis Services zawiera dwa wyniki wyboru funkcji opartych na sieciach Bayesian.Sieć Bayesian skierowane lub acykliczne wykresu państw i przejścia między Państwami, czyli niektóre Państwa są zawsze przed bieżącym stanie, niektóre Państwa są przebiegu i jest wykres nie powtarzaj lub pętli.Z definicji sieci Bayesian zezwala na używanie wcześniejszej wiedza.Jednak pytanie z poprzedniego Państwa użyć do obliczenia prawdopodobieństwa późniejszego Państwa jest ważna dla projektu algorytmu, wydajność i dokładność.

Algorytm K2 nauki z sieci Bayesian został opracowany przez miedzi i Herskovits i jest często używana w wyszukiwanie danych.To jest skalowalna i można analizować wielu zmiennych, ale wymaga zamawiania zmienne używane jako dane wejściowe.Aby uzyskać więcej informacji, zobacz Sieci Bayesian nauki Chickering, liczników i Heckerman.

Ta metoda tworzenia wyników jest dostępna dla atrybutów dyskretnych i discretized.

Odpowiednik Dirichlet Bayesian z jednolitego przed

Wynik Bayesian Dirichlet równoważne (BDE) używa również analizy Bayesian do oceny sieci podany element dataset.BDE punktacji metoda została opracowana przez Heckerman i jest oparta na Metryka BD opracowane przez miedzi i Herskovits.Rozkład Dirichlet jest dystrybucji wielomian opisuje prawdopodobieństwo warunkowego każdej zmiennej w sieci i ma wiele właściwości, które są przydatne do nauki.

Szczególny przypadek dystrybucji Dirichlet, w którym stała matematyczne jest używany do tworzenia stałych lub jednolitych dystrybucji uprzedniego Państw zakłada Bayesian Dirichlet równoważna metoda uprzedniej jednolitego (BDEU).Wynik BDE założono również prawdopodobieństwo równoważności, co oznacza, że danych nie można oczekiwać od struktur równoważne.Innymi słowy Jeśli wynik dla Jeśli A następnie b jest taki sam wynik dla Jeśli B następnie a, struktury nie mogą być wyodrębnione na podstawie danych i nie mogą zostać wywnioskowane związku przyczynowego.

Aby uzyskać więcej informacji o sieciach Bayesian i wprowadzenie w życie tych metod punktacji, zobacz Sieci Bayesian nauki.

Wybór metody używane przez funkcję Analysis Services algorytmy

Następująca tabela zawiera listę algorytmów, które obsługują funkcję zaznaczania, używanych metod funkcji zaznaczania przez algorytm i parametry zestaw do zachowania wybór funkcji sterowania:

Algorytm	Metoda analizy	Komentarze
Naive Bayes	Entropia firmy Shannon Bayesian z uprzednią K2 Bayesian Dirichlet z jednolitego przed (domyślnie)	Algorytm Microsoft Naïve Bayes przyjmuje atrybuty tylko discrete lub discretized; dlatego nie może on używać wynik interestingness. Aby uzyskać więcej informacji dotyczących tego algorytmu, zobacz Algorytm Bayes Microsoft Naive techniczne.
Drzewo decyzji	Wynik interestingness Entropia firmy Shannon Bayesian z uprzednią K2 Bayesian Dirichlet z jednolitego przed (domyślnie)	Jeśli kolumny zawierają wartości ciągłego nieznakowe, wynik interestingness jest używany dla wszystkich kolumn, aby zapewnić spójność.W przeciwnym razie używany jest domyślną metoda wyboru funkcji, lub metoda określonej podczas tworzenia modelu. Aby uzyskać więcej informacji dotyczących tego algorytmu, zobacz Algorytm decyzji Microsoft drzew techniczne.
Sieci neuronowe	Wynik interestingness Entropia firmy Shannon Bayesian z uprzednią K2 Bayesian Dirichlet z jednolitego przed (domyślnie)	Algorytm neuronowe sieci Microsoft Networks można użyć obu metod, jak danych zawiera kolumny ciągłego. Aby uzyskać więcej informacji dotyczących tego algorytmu, zobacz Microsoft techniczne sieci neuronowe algorytmu.
Logistyczneregresja	Wynik interestingness Entropia firmy Shannon Bayesian z uprzednią K2 Bayesian Dirichlet z jednolitego przed (domyślnie)	Chociaż Microsoft Logistic regresja algorytm opiera się na algorytmie sieci neuronowe firmy Microsoft, nie można dostosować logistyczne regresja modele do kontrolowania funkcji zachowanie zaznaczenia; Dlatego funkcja wyboru zawsze domyślnej metoda najbardziej odpowiedniej dla atrybut. Jeśli wszystkie atrybuty discrete lub discretized, wartość domyślna to BDEU. Aby uzyskać więcej informacji dotyczących tego algorytmu, zobacz Microsoft regresją algorytm techniczne.
Klastrowanie	Wynik interestingness	Algorytm klastrowania firmy Microsoft za pomocą dyskretnych lub discretized dane.Jednakże ponieważ wynik każdego atrybut jest obliczana jako odległość i jest reprezentowana jako numer kolejny, wynik interestingness muszą być używane. Aby uzyskać więcej informacji dotyczących tego algorytmu, zobacz Informacje techniczne algorytm klastrowania Microsoft.
Regresja liniowa	Wynik interestingness	Algorytm regresji liniowej Microsoft można używać tylko wynik interestingness, ponieważ obsługuje tylko ciągłego kolumn. Aby uzyskać więcej informacji dotyczących tego algorytmu, zobacz Microsoft techniczne algorytm regresji liniowej.
Zasady stowarzyszenia Sekwencja klastrowanie	Nie używane	Wybieranie funkcji nie jest wywoływana z tych algorytmów. Jednakże można kontrolować zachowanie algorytm i zmniejszyć rozmiar danych wejściowych w razie potrzeby poprzez ustawienie wartości parametrów MINIMUM_SUPPORT i MINIMUM_PROBABILIITY. Aby uzyskać więcej informacji, zobacz Algorytm skojarzenia Microsoft techniczne i Klastrowanie techniczne algorytm sekwencji Microsoft.
Czas serii	Nie używane	Wybieranie funkcji nie dotyczą czas modeli serii. Aby uzyskać więcej informacji dotyczących tego algorytmu, zobacz Algorytm czas Microsoft serii techniczne.

Sterowanie zachowaniem zaznaczenia funkcji

Algorytmy obsługujące Wybieranie funkcji można kontrolować przy włączonej funkcji zaznaczania przy użyciu następujących parametrów.Każdy algorytm ma wartość domyślną dla numeru nakładów, które są dozwolone, a można zastąpić to domyślne i określić liczbę atrybutów.

MAXIMUM_INPUT_ATTRIBUTES

Jeśli model zawiera więcej kolumn niż liczba określona w MAXIMUM_INPUT_ATTRIBUTES parametr algorytmu ignoruje wszystkie kolumny obliczane się uninteresting.

MAXIMUM_OUTPUT_ATTRIBUTES

Podobnie jeśli model zawiera bardziej przewidywalny kolumn niż liczba określona w MAXIMUM_OUTPUT_ATTRIBUTES parametr algorytmu ignoruje wszystkie kolumny obliczane się uninteresting.

MAXIMUM_STATES

Jeśli model zawiera więcej przypadków niż określone w MAXIMUM_STATES parametru państw najmniej popularnych są grupowane i traktowane jako brakujące.Jeśli którykolwiek z tych parametrów jest zestaw 0, funkcja zaznaczania jest wyłączony, wpływających na czas przetwarzania i wydajności.

Zobacz także

Koncepcje

Dostosowywanie wyszukiwania danych modelu (Analysis Services - wyszukiwania danych)