Artykuł
07/22/2011

Klastrowanie techniczne algorytm sekwencji Microsoft

algorytm grupowania sekwencji firmy Microsoft Jest algorytm mieszańców, który używa analizy łańcucha Markov do identyfikacji sekwencji uporządkowanej i łączy wyniki tej analizy z klastrowaniem technik do generowania klastrów na podstawie sekwencji i inne atrybuty w modelu.W tym temacie opisano Implementacja algorytmu, jak dostosować algorytmu i specjalne wymagania dotyczące sekwencji klastrowanie modeli.

Aby uzyskać informacje ogólne dotyczące algorytmu, jak przeglądać i sekwencji kwerendy klastrowanie modeli, zobacz Algorytm klastrowania Microsoft sekwencji.

Implementacja sekwencji Microsoft klastrowanie algorytmu

Model klastrowanie sekwencji Microsoft używa modele Markov do identyfikowania sekwencji i określić prawdopodobieństwo sekwencji.Markov model jest ukierunkowanego programu graph przechowuje przejścia między różnymi Państwami.algorytm grupowania sekwencji firmy Microsoft Wykorzystuje kolejność n Markov łańcuchów, nie modelu Markov ukryte.

Liczba zamówień w łańcuchu Markov informuje, ile Państw są używane do określenia prawdopodobieństwa aktualne Państwa.W pierwszej kolejności modelu Markov prawdopodobieństwo bieżącego stanu zależy tylko poprzedniego stanu.W łańcuchu Markov drugiego zamówienia prawdopodobieństwo Państwa zależy poprzednich dwóch państw i tak dalej.Dla każdego łańcucha Markov macierzy transformacji przechowuje przejścia dla każdej kombinacji Państwa.Długość łańcucha Markov wzrasta, rozmiar macierzy również wzrasta wykładniczo i macierzy staje się bardzo rzadkie.Czas przetwarzania zwiększa także proporcjonalnie.

Może być przydatne do wizualizacji łańcuch za pomocą przykład analiza strumienia kliknięć, która analizuje wizyty stron sieci Web w witrynie.Każdy użytkownik tworzy długiej sekwencji kliknięć dla każdej sesja.Podczas tworzenia modelu do analizowania zachowanie użytkownika witryna sieci Web zestaw danych używane do szkolenia jest sekwencją adresów URL, które są konwertowane na wykres zawiera liczba wszystkich wystąpień tego samego kliknij ścieżka.Na przykład wykres zawiera prawdopodobieństwo, że użytkownik przechodzi od strony 1, aby strona 2 (10%) prawdopodobieństwo, że użytkownik przechodzi od strony 1 na stronę 3 (20%), itd.Po umieszczeniu wszystkich możliwych ścieżka i fragmentów ścieżka razem uzyskać wykres może być znacznie dłużej i bardziej skomplikowane niż obserwowana pojedynczej ścieżka.

Domyślnie algorytm grupowania sekwencji firmy Microsoft używa metoda maksymalizacyjne oczekiwania (EM) usługi klastrowania.Aby uzyskać więcej informacji, zobacz Informacje techniczne algorytm klastrowania Microsoft.

Celów klastrowanie są atrybuty sekwencyjnie i niesekwencyjną.Każdy klaster jest losowo przy użyciu rozkładu prawdopodobieństwa.Każdy klaster ma łańcucha Markov, który reprezentuje kompletny zestaw ścieżek i matrycy, która zawiera przejścia stanów sekwencji i prawdopodobieństwa.W zależności od początkowego dystrybucji, aby obliczyć prawdopodobieństwo dowolny atrybut sekwencji, w tym w określonego klastra używana jest reguła Bayes.

algorytm grupowania sekwencji firmy Microsoft Obsługuje dodatkowe atrybuty niesekwencyjną do modelu.Oznacza to, że te atrybuty dodatkowe są łączone z atrybutów sekwencji do tworzenia klastrów przypadkach o podobnych atrybutach, podobnie jak w typowym klastrowanie modelu.

Sekwencja klastrowanie modelu sprawia tworzenie wielu klastrów więcej niż typowy model klastrowania.Dlatego algorytm grupowania sekwencji firmy Microsoft wykonuje rozkładu klastra do oddzielenia klastrów na podstawie sekwencji i inne atrybuty.

Wybieranie funkcji w sekwencji klastrowanie modelu

Wybieranie funkcji nie jest wywoływany podczas konstruowania sekwencji; Jednak funkcja zaznaczenie stosuje się w klastrowanie etapu.

Typ modelu	Funkcja wyboru metody	Komentarze
Sekwencja klastrowanie	Nie używane	Wybieranie funkcji nie jest wywoływany; może jednak kontrolować zachowanie algorytm przez ustawienie wartości parametrów MINIMUM_SUPPORT i MINIMUM_PROBABILIITY.
Klastrowanie	Wynik interestingness	Chociaż klastrowanie algorytm może wykorzystywać algorytmy discrete lub discretized, wynik każdego atrybut jest obliczana jako odległość i jest ciągła; dlatego wynik interestingness jest używana.

Aby uzyskać więcej informacji, zobacz Wybieranie funkcji.

Optymalizacja wydajności

algorytm grupowania sekwencji firmy Microsoft Obsługuje różne sposoby optymalizacji przetwarzania:

Kontrolowanie liczby klastrów generowane przez ustawienie wartości dla parametru CLUSTER_COUNT.
Zmniejszanie liczby sekwencje włączone jako atrybuty, zwiększając wartość parametru MINIMUM_SUPPORT.W wyniku rzadkich sekwencje są eliminowane.
Zmniejszenie złożoności przed przetworzeniem modelu, przez grupowanie związane z atrybutów.

Ogólnie rzecz biorąc, można zoptymalizować wydajność n-tryb łańcucha Markov zlecenia na kilka sposobów:

Kontrolowanie długość sekwencji możliwe.
Programowo zmniejszenie wartości n.
Przechowywanie tylko prawdopodobieństwa, które przekracza określony próg.

Szczegółowe omówienie tych metod wykracza poza zakres tego tematu.

Dostosowywanie sekwencji klastrowanie algorytmu

Microsoft Algorytm sekwencji klastrowania obsługuje parametry wpływające na zachowanie, wydajność i dokładność wyniku model wyszukiwania.Można także zmodyfikować zachowanie modelu wypełnionych przez ustawienie flagi, że formant sposób algorytm przetwarza dane szkolenia modelowania.

Ustawianie parametrów algorytmu

W poniższej tabela opisano parametry, których można używać z algorytm grupowania sekwencji firmy Microsoft.

CLUSTER_COUNT
Określa przybliżoną liczbę klastrów, które mają zostać zbudowane przez algorytm.Jeśli przybliżoną liczbę klastrów nie może być zbudowany z danych, algorytm tworzy możliwie jak wielu klastrów.Ustawienie parametru CLUSTER_COUNT na 0 powoduje, że algorytm użyj algorytmów heurystycznych najlepiej określić liczbę klastrów do budowania.

Wartość domyślna to 10.

Ostrzeżenie

Określanie aktów numer zera jako wskazówkę algorytmu, który przechodzi w celu znalezienia określonej liczby, ale może mieć znajdowanie więcej lub mniej.
MINIMUM_SUPPORT
Określa minimalną liczbę przypadków wymagane z atrybut, aby utworzyć klaster.

Wartość domyślna to 10.
MAXIMUM_SEQUENCE_STATES
Określa maksymalną liczbę sekwencji możliwe stany.

Ustawienie tej wartości na liczbę większą niż 100 mogą powodować algorytm tworzenia modelu, który nie dostarcza istotnych informacji.

Wartość domyślna to 64.
MAXIMUM_STATES
Określa maksymalną liczbę państw atrybut sekwencji nie obsługuje algorytmu.Jeśli liczba stanów atrybut sekwencji nie jest większa niż maksymalna liczba państw, algorytm używa atrybut najpopularniejszych Państwa i traktuje pozostałe Państwa jako Missing.

Wartość domyślna to 100.

Modelowanie flag

Obsługiwane są następujące flagi modelowania do użytku z Microsoft sekwencji klastrowanie algorytmu.

NOT NULL
Wskazuje, że kolumna nie może zawierać wartość null.Spowoduje błąd, jeśli usługi Analysis Services napotka null podczas szkolenia modelu.

Stosuje się do struktura wyszukiwania kolumna.
MODEL_EXISTENCE_ONLY
Oznacza, że kolumna będą traktowane jako posiadające dwa możliwe stany: Missingand Existing.Wartość null jest traktowana jako Missing wartości.

Stosuje się do model wyszukiwania kolumna.

Więcej informacji dotyczących używania wartości Brak modeli wyszukiwania i jak brakujące wartości wpływają na wyniki prawdopodobieństwa, zobacz Brak wartości (Analysis Services - wyszukiwania danych).

Wymagania

przypadek tabela muszą być uwzględniana kolumna identyfikator.Opcjonalnie przypadek tabela może zawierać inne kolumny, umożliwiające przechowywanie atrybutów dotyczących przypadek.

algorytm grupowania sekwencji firmy Microsoft Wymaga sekwencji informacje przechowywane w tabela zagnieżdżonej.Zagnieżdżona tabela musi być pojedyncza kolumna sekwencję klawiszy.A Key Sequence Kolumna może zawierać dowolny typ danych, który można sortować, włącznie z typami danych ciąg, ale kolumna musi zawierać wartości unikatowe dla każdego przypadek.Ponadto przed przetwarzania modelu, należy się upewnić, że tabela przypadek i tabeli zagnieżdżonej są posortowane w porządku rosnącym klucz, który dotyczy tabel.

Ostrzeżenie

Jeśli utworzenie modelu, który używa algorytmu Microsoft sekwencji, ale nie należy używać kolumna sekwencja nie będzie zawierać wszystkie sekwencje modelu wynikowego, ale będzie po prostu klastra przypadków na podstawie innych atrybutów, które są uwzględnione w modelu.

Dane wejściowe i przewidywalny kolumn

Microsoft Algorytm sekwencji klastrowania obsługuje określonych kolumn danych wejściowych i przewidywalny kolumn, które są wymienione w poniższej tabela.Aby uzyskać więcej informacji dotyczących typów zawartości znaczenie w model wyszukiwania, zobacz Typy zawartości (wyszukiwania danych).

Kolumna	Typy zawartości
Atrybut wejściowy	Ciągłą sekwencję cykliczne, dyskretnych, Discretized, klucza, klucza tabeli i Zamówione
Przewidywalne atrybut	Ciągłe, cykliczne, dyskretnych, Discretized, tabeli i Zamówione

Uwagi

Przewidywania sekwencji za pomocą PredictSequence (DMX) funkcja, jest dostępna tylko w SQL Server przedsiębiorstwa.
Microsoft Sekwencji klastrowanie algorytm nie obsługuje korzystania z przewidywanych modelu Markup Language (PMML) do tworzenia modeli górniczych.
Obsługuje algorytm klastrowanie sekwencji przeglądanie szczegółowe, wykorzystanie modeli wyszukiwania OLAP i wykorzystania danych górnictwo wymiary.

Zobacz także

Odwołanie

Model zawartości sekwencji klastrowanie modeli górnictwo (Analysis Services - wyszukiwania danych)

Koncepcje

Algorytm klastrowania Microsoft sekwencji

Badanie sekwencji klastrowanie modelu (Analysis Services - wyszukiwania danych)