Model zawartości sekwencji klastrowanie modeli górnictwo (Analysis Services - wyszukiwania danych)

W tym temacie opisano model wyszukiwania zawartością specyficzną modeli używających algorytmu klastrowanie sekwencji firmy Microsoft.Wyjaśnienie ogólne i statystycznych terminologia związana z model wyszukiwania zawartości, która ma zastosowanie do wszystkich typów modelu, zobacz Górnictwo modelu zawartości (Analysis Services - wyszukiwania danych).

Opis struktury sekwencji klastrowanie modelu

Sekwencja modelu klastrowanie ma węzeł nadrzędny pojedynczego (NODE_TYPE = 1) reprezentująca model i jego metadane.Węzeł nadrzędny, która jest oznaczona (wszystkie), ma węzeł pokrewne sekwencji (NODE_TYPE = 13), wyświetla wszystkie przejścia, które zostały wykryte w dane szkolenia.

Struktura sekwencyjnego modelu klastrowania

Algorytm tworzy również liczba klastrów, w zależności od przejścia, które zostały znalezione w danych i inne atrybuty wejściowe, uwzględniane podczas tworzenia modelu, takie jak demograficzne klientów itd.Każdy klaster (NODE_TYPE = 5) zawiera węzeł własnej sekwencji (NODE_TYPE = 13), wyświetla przejścia, używane do generowania tego konkretnego klastra.Z węzła sekwencji można drążyć niedziałający Aby wyświetlić szczegóły stanu pojedynczego przejścia (NODE_TYPE = 14).

Wyjaśnienie sekwencji i przejścia do stanu, z przykładami, zobacz Algorytm klastrowania Microsoft sekwencji.

Model zawartości sekwencji klastrowanie modelu

Ta sekcja zawiera dodatkowe informacje o kolumnach model wyszukiwania zawartość ma szczególne znaczenie dla sekwencji klastrowanie.

  • MODEL_CATALOG
    Nazwa bazy danych, w którym przechowywany jest model.

  • NAZWA_MODELU
    Nazwa modelu.

  • ATTRIBUTE_NAME
    Zawsze puste.

  • NAZWA_WĘZŁA
    Nazwa węzła.Obecnie na wartość NODE_UNIQUE_NAME.

  • NODE_UNIQUE_NAME
    Unikatowa nazwa węzła.

  • NODE_TYPE
    Sekwencja klastrowanie modelu wyświetla następujące typy węzłów:

    Identyfikator typu węzła

    Opis

    1 (Wzór)

    Węzeł główny dla modelu

    5 (Klastra)

    Zawiera liczbę przejść w klastrze, listę atrybutów i statystyki, opisujące wartości w klastrze.

    13 (Sekwencja)

    Zawiera listę przejść w skład klastra.

    14 (Przejście)

    Opisuje kolejność zdarzeń jako tabela, w której pierwszy wiersz zawiera stan początkowy, a pozostałe wiersze zawierają kolejnych stanów wraz z pomocy technicznej i prawdopodobieństwo statystyki.

  • NODE_GUID
    Puste.

  • NODE_CAPTION
    Etykiety lub podpis skojarzony węzeł w celach wyświetlania.

    Można zmienić nazwę klastra podpisy podczas korzystania z modelu; Jednakże nowej nazwy nie są utrwalane, jeśli zamkniesz modelu.

  • CHILDREN_CARDINALITY
    Oszacowanie liczby dzieci, które ma węzła.

    Główny modelwartość Kardynalność jest równa liczbie klastrów, plus jeden.Aby uzyskać więcej informacji, zobacz Kardynalność.

    Węzłów klastraKardynalność jest zawsze 1, ponieważ każdy klaster ma węzeł podrzędność pojedynczego, który zawiera listę sekwencji w klastrze.

    Sekwencja węzłówKardynalność wskazuje liczbę przejścia, które są uwzględnione w klastrze.Na przykład Kardynalność sekwencji węzła głównego modelu informuje ile przejścia znaleziono całego modelu.

  • PARENT_UNIQUE_NAME
    Unikatowa nazwa węzła nadrzędnego.

    Dla wszystkich węzłów poziom głównym, zwracana jest wartość NULL.

  • NODE_DESCRIPTION
    Takie samo jak podpis węzła.

  • NODE_RULE
    Zawsze puste.

  • MARGINAL_RULE
    Zawsze puste.

  • NODE_PROBABILITY
    Główny modelzawsze 0.

    Węzłów klastraskorygowane prawdopodobieństwo klastrów w modelu.Skorygowana prawdopodobieństw nie Suma 1, ponieważ metoda klastrowania w sekwencji Klastrowanie umożliwia częściowego członkostwa w wielu klastrów.

    Sekwencja węzłówzawsze 0.

    Przejście węzłówzawsze 0.

  • MARGINAL_PROBABILITY
    Główny modelzawsze 0.

    Węzłów klastrana wartość NODE_PROBABILITY.

    Sekwencja węzłówzawsze 0.

    Przejście węzłówzawsze 0.

  • NODE_DISTRIBUTION
    Tabela zawierająca prawdopodobieństwa i inne informacje.Aby uzyskać więcej informacji, zobacz NODE_DISTRIBUTION tabeli.

  • NODE_SUPPORT
    Liczba przejść, które obsługują ten węzeł.Dlatego jeśli istnieją przykłady 30 sekwencji "Produkt A oraz produkt B" w dane szkolenia obsługi całkowita wynosi 30.

    Główny modelcałkowitą liczbę przejść w modelu.

    Węzłów klastraRaw obsługi klastra, co oznacza liczbę przypadków szkolenia, przyczyniające się do spraw do tego klastra.

    Sekwencja węzłówzawsze 0.

    Przejście węzłówprzypadków w klastrze, które reprezentują określone przejścia.Może być 0 lub mogą mieć wartość dodatnią.Obliczone przez pobranie surowego obsługę węzła klastra i mnożąc przez prawdopodobieństwo klastra.

    Od tej wartości można stwierdzić, ile przypadkach szkolenia przyczyniły się do przejścia.

  • MSOLAP_MODEL_COLUMN
    Nie dotyczy.

  • MSOLAP_NODE_SCORE
    Nie dotyczy.

  • MSOLAP_NODE_SHORT_CAPTION
    Takie samo jak NODE_DESCRIPTION.

Opis sekwencji, Państwa i przejścia

Sekwencja modelu klastrowanie ma unikatowy strukturę, która łączy dwa rodzaje obiektów z bardzo różnych typów informacji: klastry są pierwszego i drugiego przejścia stanów.

Klastry, utworzone przez sekwencji klastrowanie są jak klastry, utworzony przez Microsoft klastrowanie algorytmu.Każdy klaster ma profilu i właściwości.Jednak w sekwencji, klastrowanie, każdy klaster dodatkowo zawiera węzeł podrzędność pojedynczego, zawierający listę sekwencje w klastrze.Każdy węzeł sekwencja zawiera wiele węzłów podrzędność, opisujących przejścia stanów szczegółowo z nimi prawdopodobieństwa.

Są prawie zawsze więcej sekwencji w modelu nie można znaleźć w każdym pojedynczym przypadek, ponieważ można łączonych sekwencji.Usługa Microsoft Analysis Services przechowuje wskaźniki z jednego Państwa do drugiego, dzięki czemu można policzyć ile razy dzieje się każde przejście.Można również znaleźć informacje o ile razy sekwencja wystąpił, i miara jej prawdopodobieństwo zaistnienia w porównaniu do całego zestaw obserwowana Państwa.

W następującej tabela podsumowano sposób przechowywania informacji w modelu i jak węzły są powiązane.

Węzeł

Węzeł podrzędność ma

Tabela NODE_DISTRIBUTION

Modelu głównego

Wielu węzłach klastra

Węzeł z sekwencji dla całego modelu

Wyświetla listę wszystkich produktów w modelu z pomocy technicznej i prawdopodobieństwa.

Ponieważ klastrowanie metoda pozwala częściowego członkostwa w wielu klastrów, obsługi i prawdopodobieństwa mogą mieć wartości ułamkowych.Oznacza to, że w zamiast zliczyć raz jednego przypadek, każdego przypadek może potencjalnie należeć do wielu klastrów.Dlatego gdy ustalona członkostwa klastra końcowego wartość jest korygowana według prawdopodobieństwa klastra.

Węzeł sekwencji dla modelu

Wiele węzłów przejścia

Wyświetla listę wszystkich produktów w modelu z pomocy technicznej i prawdopodobieństwa.

Ponieważ wiadomo numer sekwencji dla modelu, w tym poziom, obliczenia obsługę i prawdopodobieństwo są proste:

  • Obsługa = liczba przypadków

  • Prawdopodobieństwo = prawdopodobieństwo surowego każdej sekwencji w modelu.Wszystkie prawdopodobieństwa należy zsumować 1.

Poszczególnych węzłach klastra

Węzeł z sekwencji dla tego klastra tylko

Wyświetla listę wszystkich produktów w klastrze, ale zapewnia obsługę i prawdopodobieństwo wartości tylko dla produktów, które są charakterystyczne dla klastra.

Obsługa reprezentuje wartość skorygowaną wsparcia dla każdego przypadek, w tym klastrze.Prawdopodobieństwo wartości są dostosowane prawdopodobieństwa.

Sekwencja węzłów dla poszczególnych klastrów

Wiele węzłów o przejścia sekwencji w klastrze tylko

Dokładnie te same informacje co w poszczególnych węzłach klastra.

Przejścia

Elementów podrzędnych

Wyświetla listę przejść dla powiązanych pierwszego Państwa.

Obsługa jest wartość skorygowaną obsługi wskazujące sprawy, które uczestniczą w każde przejście.Prawdopodobieństwo jest prawdopodobieństwo skorygowana, reprezentowany jako procent.

Tabela NODE_DISTRIBUTION

Tabela NODE_DISTRIBUTION zawiera szczegółowe informacje prawdopodobieństwa i wsparcie dla przejścia i sekwencje dla konkretnego klastra.

Zawsze dodawany jest wiersz do tabela przejścia do reprezentowania możliwości Missing wartości.Aby uzyskać informacje o tym, co Missing wartość oznacza i jak wpływa na obliczenia, zobacz Brak wartości (Analysis Services - wyszukiwania danych).

Obliczenia dla wsparcia i prawdopodobieństwa różnią się w zależności od tego, czy obliczanie dotyczy przypadków szkolenia lub gotowych modelu.Jest tak, ponieważ domyślnie klastrowanie metoda maksymalizacyjne oczekiwania (EM) zakłada, że każdy przypadek może należeć do więcej niż jednego klastra.Przy obliczaniu obsługę przypadków w modelu, jest możliwe Liczniki nieprzetworzone i surowego prawdopodobieństwa.Jednakże prawdopodobieństwa dla dowolnej sekwencji określonego w klastrze musi ważone przez sumę wszystkich możliwych sekwencji i kombinacje klastra.

Kardynalność

W klastrowanie modelu Kardynalność węzeł nadrzędny zazwyczaj informuje ile klastrów są w modelu.Jednakże sekwencji klastrowanie model zawiera dwa rodzaje węzłów poziom klastra: jeden rodzaj węzła zawiera klastrów i innego rodzaju węzła zawiera listę sekwencji dla całego modelu.

Dlatego, aby dowiedzieć się, liczba klastrów w modelu, można wykonać wartość NODE_CARDINALITY dla węzła (wszystkie) i odejmować jeden.Na przykład jeśli model tworzenia klastrów 9 kardynalność modelu głównego wynosi 10.Jest tak, ponieważ model zawiera 9 węzłów klastra, każdy węzeł własnej sekwencji plus jeden węzeł dodatkowe sekwencji etykietą klastra 10, który reprezentuje sekwencji dla modelu.

Instruktaż struktury

Przykładem mogą pomóc wyjaśnić, jak informacje są przechowywane i jak go zinterpretować.Na przykład można znaleźć największą zamówienie oznacza najdłuższy łańcuch zaobserwowanych w danych źródłowych AdventureWorksDW2008R2 za pomocą następującej kwerendy:

USE AdventureWorksDW2008R2
SELECT DISTINCT OrderNumber, Count(*)
FROM vAssocSeqLineItems
GROUP BY OrderNumber
ORDER BY Count(*) DESC

Z tych wyniki stwierdzisz, że numery zamówień 'so72656', 'so58845' i 'so70714' zawierać sekwencje największy, z ośmiu elementów.Za pomocą identyfikatorów zamówienia, można wyświetlić szczegóły określonej kolejności, aby zobaczyć, które elementy zostały zakupione i w jakiej kolejności.

OrderNumber

LineNumber

Model

SO58845

1

Rower górski 500

SO58845

2

LL Mountain Tire

SO58845

3

Mountain Tire Tube

SO58845

4

Fender Set - Mountain

SO58845

5

Mountain Bottle Cage

SO58845

6

Butelka po wodzie

SO58845

7

Sport-100

SO58845

8

Długie rękawy Logo Jersey

Jednak niektóre klientów, którzy kupili Mountain-500 może zakupu różnych produktów.Można wyświetlić wszystkie produkty występujące 500 górskich, wyświetlając na liście sekwencji w modelu.Poniższe procedury poprowadzą przeglądanie tych sekwencji za pomocą dwóch przeglądarki w Usługi Analysis Services:

Aby wyświetlić powiązane sekwencje za pomocą podglądu sekwencji klastrowanie

  1. W Eksploratorze obiektów prawym przyciskiem modelu [sekwencji klastrowania i wybierz opcję Przeglądaj.

  2. W podglądzie klastrowanie sekwencję kliknij Przejścia do stanu kartę.

  3. W klastra listy rozwijanej listy, upewnij się, że populacji (wszystkie) jest zaznaczone.

  4. Przesuń suwak w lewym okienku do góry, aby wyświetlić wszystkie łącza.

  5. Na diagramie zlokalizować Mountain-500i kliknij węzeł w diagramie.

  6. Wyróżnione wiersze polecenie dalej Państwa (produkty, które zostały zakupione po 500 górskich) i liczby wskazują prawdopodobieństwo.Porównać wyniki w podglądzie zawartości model ogólny.

Aby wyświetlić powiązane sekwencje za pomocą podglądu zawartości model ogólny

  1. W Eksploratorze obiektów prawym przyciskiem modelu [sekwencji klastrowania i wybierz opcję Przeglądaj.

  2. Zaznacz na liście rozwijanej viewer Ogólnej zawartości drzewa Podgląd programu Microsoft.

  3. W Podpis węzeł okienka, kliknij węzeł o nazwie poziom sekwencji dla klastra 16.

  4. W okienku szczegółów węzła Znajdź wiersz NODE_DISTRIBUTION, a następnie kliknij w dowolnym miejscu tabela zagnieżdżonej.

    Górny wiersz jest zawsze wartość Brak.Ten wiersz jest stan sekwencji 0.

  5. Naciśnij klawisz strzałki niedziałający klucz, lub Przenieś niedziałający za pośrednictwem tabela zagnieżdżonej, aż pojawi się wiersz Mountain-500 za pomocą pasków przewijania.

    Ten wiersz jest stan sekwencji 20.

    Ostrzeżenie

    Numer wiersza dla określonej sekwencji Państwa mogą uzyskać programowo, ale jeżeli tylko przeglądania, może być łatwiej po prostu skopiować tabela zagnieżdżonej do skoroszyt programu Excel.

  6. Powrócić do okienka podpis węzła i rozwiń węzeł, poziom sekwencji dla klastra 16, jeśli nie jest rozwinięta.

  7. Szukaj wśród węzły podrzędność dla przejścia wiersz stanu sekwencji 20.Kliknij węzeł przejścia.

  8. Zagnieżdżona tabela NODE_DISTRIBUTION zawiera następujące produkty i prawdopodobieństwa.Porównać wyniki w Przejście stanu karcie Podgląd klastrowanie sekwencji.

W poniższej tabela przedstawiono wyniki z tabela NODE_DISTRIBUTION wraz z wartości prawdopodobieństwa zaokrąglone, które są wyświetlane w podglądzie graficznego.

Produkt

Obsługa (tabela NODE_DISTRIBUTION)

Tabela prawdopodobieństwa (NODE_DISTRIBUTION))

Prawdopodobieństwo (z wykresu)

Brak

48.447887

0.138028169

(niewidoczne)

Cykliczne Cap

10.876056

0.030985915

0.03

Fender Set - Mountain

80.087324

0.228169014

0.23

Rękawice połowie Finger

0.9887324

0.002816901

0.00

Pakiet uwodnienia

0.9887324

0.002816901

0.00

LL Mountain Tire

51.414085

0.146478873

0.15

Długie rękawy Logo Jersey

2.9661972

0.008450704

0.01

Mountain Bottle Cage

87.997183

0.250704225

0.25

Mountain Tire Tube

16.808451

0.047887324

0.05

Tuleja krótkich klasyczny Jersey

10.876056

0.030985915

0.03

Sport-100

20.76338

0.05915493

0.06

Butelka po wodzie

18.785915

0.053521127

0.25

Chociaż przypadek Wybraliśmy początkowo z danych szkolenia zawarte produktu "Mountain-500" następuje będzie Tire Mountain ", zobacz temat istnieje wiele możliwych sekwencji.Aby znaleźć szczegółowe informacje dla żadnego konkretnego klastra, należy powtórzyć proces wiercenia niedziałający na liście sekwencji w klastrze rzeczywiste przejścia dla każdego Państwa lub produktu.

Można przechodzić z jednego klastra określonego w wierszu przejścia na liście sekwencji.Z tego wiersza przejścia można ustalić, który produkt jest dalej i przejść do tego produktu na liście sekwencji.Powtórzyć ten proces dla każdego Państwa w pierwszym i drugim można pracować przy użyciu długich łańcuchów Państwa.

Korzystając z informacji sekwencji

Typowym scenariuszem dla sekwencji klastrowanie jest śledzenie użytkownika kliknięć witryna sieci Web.Na przykład gdyby dane z rekordów klienta zakupy witryna sieci Web firmy Adventure Works e-commerce, wynikowy sekwencji klastrowanie modelu można wywnioskować zachowanie użytkownika, zmienić układ witryny e-commerce, rozwiązywanie problemów nawigacji lub wspierania sprzedaży.

Na przykład analiza może pokazać, że użytkownicy zawsze wykonać łańcuch poszczególnych produktów, bez względu na kryteria demograficzne.Ponadto może się okazać, że użytkownicy często zakończyć witryny po kliknięciu danego produktu.ZWAŻYWSZY, że wyszukiwanie, może poprosić jakie dodatkowe ścieżki, można udostępnić użytkownikom, które mogłyby wywołać użytkowników, aby pozostać witryna sieci Web.

Jeśli nie ma dodatkowych informacji w klasyfikacji użytkowników, następnie po prostu można sekwencji informacji do zbierania danych o nawigacji w celu lepszego zrozumienia zachowania ogólnej.Jednakże jeżeli można zbierać informacje o klientach i dopasować informacje z bazy danych klienta, można połączyć moc klastrowanie z przewidywanie na sekwencji zalecenia, które są dostosowane do użytkownika lub prawdopodobnie na podstawie ścieżka nawigacji do bieżącej strona.

Innego wykorzystania wyczerpujące informacje stanu i przejścia opracowane przez sekwencję klastrowanie modelu jest ustalenie, które ścieżki możliwe nigdy nie są używane.Na przykład jeżeli wiele osób odwiedzających witrynę, przechodząc do strona 1-4, ale odwiedzających nigdy przejdź do strona 5, może się zbadać, czy istnieją problemy przeszkadzające w nawigacji do strona 5.Można to zrobić podczas badania zawartości modelu i porównując je z listy możliwych ścieżek.Wykresy, które informują wszystkie ścieżki nawigacji witryna sieci Web można tworzyć programowo lub za pomocą różnych narzędzi do analizy witryny.

Aby dowiedzieć się, jak uzyskać listę ścieżek obserwowanych przez badanie modelu zawartości i Zobacz inne przykłady kwerend sekwencji modelu klastrowanie, zobacz Badanie sekwencji klastrowanie modelu (Analysis Services - wyszukiwania danych).