Artykuł
07/22/2011

Algorytm klastrowania Microsoft sekwencji

The Microsoft Sequence Clustering algorithm is a sequence analysis algorithm provided by Microsoft SQL Server Usługi Analysis Services.Ten algorytm można użyć do eksplorowania danych zawiera zdarzenia, które mogą być połączone przez następujące ścieżki lub sekwencji.Algorytm stwierdza najczęściej sekwencji grupowanie lub klastrowanie, sekwencje są identyczne.Oto niektóre przykłady sekwencji:

Dane opisujące ścieżek kliknij utworzone po użytkownikom przechodzenie lub przeglądania witryna sieci Web.
Dane opisujące kolejność, w której klient dodaje elementy do koszyka w sklepie internetowym.

Ten algorytm jest podobny na wiele sposobów, aby Microsoft Klastrowanie algorytmu.Jednak zamiast znajdowanie klastrów spraw, które zawierają podobne atrybuty, Microsoft sekwencji klastrowanie algorytm stwierdza klastrów spraw, które zawierają podobne ścieżek w sekwencji.

Przykład

Adventure Works Cycles witryna sieci Web gromadzi informacje dotyczące użytkowników, odwiedź witrynę strony oraz zamówienia, w którym strony są odwiedzane.Ponieważ przedsiębiorstwo zapewnia zamawianie, klienci muszą zalogować się do witryny.Zapewnia to firmą kliknij informacje dla każdego profilu nabywcy.Za pomocą Microsoft sekwencji klastrowanie algorytm na te dane firmy można znaleźć grupy, lub klastry klientów, którzy mają podobne desenie lub sekwencje kliknięć.Firmy można używać do analizowania, jak użytkownicy przenoszone przez witryna sieci Web do identyfikowania stron, które są najbardziej ściśle związane ze sprzedażą danego produktu i przewidywanie, które strony są najprawdopodobniej mają być wizytowane dalej tych klastrów.

Jak działa algorytm

Microsoft , Klastrowanie sekwencji algorytm jest algorytm hybrydowy, łączący klastrowania technik analizy łańcucha Markov do identyfikacji klastrów i ich sekwencji. Jeden z hallmarks z Microsoft sekwencji klastrowanie algorytm jest, że używa sekwencji danych.Dane te zazwyczaj reprezentuje serii zdarzeń lub przejścia między Państwami w zestawie danych, takich jak zakupy serii produktu lub kliknie sieci Web dla danego użytkownika.Algorytm środków różnice i bada wszystkie przejścia prawdopodobieństwa lub odległości między wszystkich możliwych sekwencji w zestawie danych, aby ustalić, które sekwencje są najlepiej używać jako nakłady dla klastrowanie.Algorytm została utworzona lista kandydatów sekwencji używa informacji sekwencji jako dane wejściowe dla metoda EM klastrowanie.

Szczegółowy opis wykonania, zobacz Klastrowanie techniczne algorytm sekwencji Microsoft.

Dane wymagane dla sekwencji klastrowanie modeli

Podczas przygotowywania danych do użycia w szkolenie sekwencji klastrowanie modelu, należy zrozumieć wymagania dla określonego algorytmu, jak dużo danych jest wymagana i sposobu używania danych.

Wymagania dotyczące sekwencji klastrowanie modelu są następujące:

Jeden key kolumna sekwencji klastrowanie model wymaga klucz, który identyfikuje rekordy.
kolumna sekwencjasekwencji danych modelu musi mieć zagnieżdżoną tabela zawierającą kolumna z Identyfikatorem sekwencji.Identyfikator sekwencji można wszystkie typy danych sortable.Na przykład można użyć identyfikatora strona sieci Web, liczba całkowita lub ciąg tekstowy, jak kolumna identyfikuje zdarzenia w sekwencji.Dla każdej sekwencji dozwolone jest identyfikatorem sekwencji tylko jeden i tylko jeden typ sekwencji jest dozwolony w każdym modelu.
Atrybuty opcjonalne sekwencji niealgorytm obsługuje dodawanie innych atrybutów, które nie są związane z sekwencji.Atrybuty te można dołączyć kolumny zagnieżdżonych.

Na przykład, w przykładzie cytowane wcześniej z Adventure Works Cycles witryna sieci Web sekwencji klastrowanie modelu może zawierać informacje zamówienia jako tabela przypadek, demograficzne dotyczące określonego odbiorcy, dla każdego zamówienia jako atrybuty spoza sekwencji i zagnieżdżoną tabelę zawierającą sekwencji, w którym klient przeglądane witryny lub umieszczanie elementów w koszyku jako informacje sekwencji.

Aby uzyskać więcej informacji na temat typów zawartości i typy danych obsługiwane sekwencji modeli klastrowanie, zobacz sekcję wymagania dotyczące Klastrowanie techniczne algorytm sekwencji Microsoft.

Wyświetlanie sekwencji klastrowanie modelu

model wyszukiwania Że tworzy ten algorytm zawiera opisy najpopularniejszych sekwencji danych.Aby poznać modelu, można użyć Viewer klastra sekwencji Microsoft.Podczas przeglądania sekwencji klastrowanie modelu, Usługi Analysis Services pokazuje klastry, które zawierają wiele przejścia.Można również wyświetlić statystykę stosowne.Aby uzyskać więcej informacji, zobacz Wyświetlanie modelu górnictwo Viewer klastrowania Microsoft sekwencji.

Jeśli chcesz wiedzieć więcej szczegółów można przeglądać w modelu Ogólnej zawartości drzewa Podgląd programu Microsoft.Zawartość przechowywaną w modelu obejmuje dystrybucji dla wszystkich wartości w każdym węźle, prawdopodobieństwo każdy klaster i szczegóły dotyczące przejścia.Aby uzyskać więcej informacji, zobacz Model zawartości sekwencji klastrowanie modeli górnictwo (Analysis Services - wyszukiwania danych).

Tworzenie prognoz

Po przeszkoleni modelu wyniki są przechowywane jako zestaw wzorców.Opisy najpopularniejszych sekwencji danych służy do przewidywania następnego kroku prawdopodobnie nowej sekwencji.Jednak ponieważ algorytm zawiera inne kolumny, można użyć modelu wynikowego do identyfikowania relacji między sukcesywnych danych i nakładów, które nie są sekwencyjne.Na przykład jeśli dane demograficzne dodać do modelu, można zmieniać prognoz określonych grup odbiorców.Przewidywania kwerendy można dostosować zmienna liczba przewidywania zwrotu lub zwrotu Statystyki opisowe.

Aby uzyskać informacje dotyczące sposobu tworzenia kwerend danych model wyszukiwania, zobacz Badanie modeli wyszukiwania danych (Analysis Services - wyszukiwania danych).Zobacz przykłady kwerend za pomocą sekwencji klastrowanie modelu Badanie sekwencji klastrowanie modelu (Analysis Services - wyszukiwania danych).

Uwagi

Nie obsługuje korzystania z przewidywanych modelu Markup Language (PMML) do tworzenia modeli wyszukiwania.
Obsługuje przeglądanie szczegółowe.
Obsługuje korzystanie z modeli wyszukiwania OLAP i tworzenia wymiary wyszukiwanie danych.