Artykuł
07/22/2011

Badanie sekwencji klastrowanie modelu (Analysis Services - wyszukiwania danych)

Podczas tworzenia kwerendy danych model wyszukiwania, można utworzyć albo zawartości kwerendę, która zawiera szczegóły dotyczące informacji przechowywanych w modelu, lub można utworzyć kwerendę przewidywanie używa desenie w modelu, aby prognoz na podstawie nowych danych, podane.Klastrowanie modelu sekwencji kwerendy zawartości zapewniają zazwyczaj dodatkowe szczegóły dotyczące klastrów wykrytych lub przejścia w tych klastrach.Aby pobrać metadane dotyczących modelu kwerendy.

Przewidywania kwerendy dotyczące sekwencji zwykle klastrowanie modelu zalecenia oparte na sekwencji i przejścia spoza sekwencji atrybutów, które były atrybutów uwzględnione w modelu lub na kombinacji sekwencji i bez sekwencji.

W tej sekcji wyjaśniono, jak tworzyć kwerendy dla modeli, które są oparte na algorytm grupowania sekwencji firmy Microsoft.Aby uzyskać ogólne informacje o tworzeniu kwerend, zobacz Badanie modeli wyszukiwania danych (Analysis Services - wyszukiwania danych).

Kwerendy zawartości

Zwraca parametry modelu przy użyciu wierszy schematu wyszukiwania danych

Trwa uzyskiwanie listy sekwencji dla stanu

Przy użyciu procedury składowane w systemie

Przewidywania kwerend

Przewidywanie dalej Państwa lub Państw

Znajdowanie informacji o kolejności klastrowanie modelu

Do tworzenia kwerend znaczenie zawartości model wyszukiwania, należy zrozumieć strukturę zawartości modelu i typy węzłów, które przechowują rodzaj informacji.Aby uzyskać więcej informacji, zobacz Model zawartości sekwencji klastrowanie modeli górnictwo (Analysis Services - wyszukiwania danych).

Przykładowa kwerenda 1: Zwraca parametry modelu przy użyciu zestawu wierszy schematu wyszukiwania danych

Przez badanie zestaw wierszy schematu wyszukiwanie danych, można znaleźć różnego rodzaju informacje o modelu, w tym podstawowe metadane, Data i czas utworzoną i ostatnio przetwarzane, nazwa struktury górnictwa, model oparty na modelui kolumn jako atrybut przewidywalne.

Następująca kwerenda zwraca parametry używane do tworzenia i szkolić model, [Sequence Clustering].Można utworzyć modelu w 5 lekcji Samouczek wyszukiwania danych podstawowych.

SELECT MINING_PARAMETERS 
from $system.DMSCHEMA_MINING_MODELS
WHERE MODEL_NAME = 'Sequence Clustering'

Przykład wyniki:

MINING_PARAMETERS
CLUSTER_COUNT = 15, MINIMUM_SUPPORT = 10, MAXIMUM_STATES = 100 MAXIMUM_SEQUENCE_STATES = 64

Należy zauważyć, że ten model został zbudowany przy użyciu domyślnej wartości 10 dla CLUSTER_COUNT.Po określeniu niezerową liczbę klastrów dla CLUSTER_COUNT algorytm traktuje jako wskazówkę dla przybliżoną liczbę klastrów, aby znaleźć ten numer.Jednak w trakcie analizy algorytm mogą znaleźć więcej lub mniej klastrów.przypadek algorytmu znaleźć najlepszych klastrów 15 dopasowanie dane szkolenia.Dlatego lista wartości parametrów dla modelu zakończonych raportów liczba klastrów ustalone przez algorytm nie przekazanej podczas tworzenia modelu wartości.

Jak to zachowanie różnią informując algorytm określić najlepsze liczba klastrów?Jako doświadczenia, można utworzyć inny model klastrowania używa tego samego danych, ale zestaw CLUSTER_COUNT na 0.W tym celu algorytm wykrywa 32 klastrów.Dlatego używając domyślnej wartości 10 CLUSTER_COUNT, ograniczyć liczbę wyniki.

Wartość 10 jest używana domyślnie, ponieważ zmniejszenie liczby klastrów ułatwia większość osób do przeglądania i zrozumieć grupowania danych.Jednakże każdego modelu i zestaw danych jest inny.Możesz wypróbować różne liczby klastrów, aby zobaczyć, która wartość parametru daje najdokładniejsze modelu.

Powrót do początku

Przykładowa kwerenda 2: Trwa uzyskiwanie listy sekwencji dla stanu

model wyszukiwania Sklepy zawartości sekwencji, które zostały znalezione w dane szkolenia jako pierwsze Państwo sprzężona z listą wszystkich powiązanych drugiego Państwa.Pierwsze Państwo jest używany jako etykieta dla sekwencji i pokrewne drugiego Państwa są nazywane przejścia.

Na przykład poniższa kwerenda zwraca pełną listę pierwszego Państwa w modelu przed sekwencji są grupowane w klastrach.Tej listy można uzyskać przez zwrócenie Lista sekwencji (NODE_TYPE = 13) mają modelu głównym węzłem nadrzędnym (PARENT_UNIQUE_NAME = 0).Słowo kluczowe FLATTENED zwiększa czytelność wyniki.

Ostrzeżenie

Nazwa kolumny PARENT_UNIQUE_NAME, obsługę i prawdopodobieństwo muszą być ujęte w nawiasy, aby odróżnić je od zastrzeżonych słów kluczowych o tej samej nazwie.

SELECT FLATTENED NODE_UNIQUE_NAME,
(SELECT ATTRIBUTE_VALUE AS [Product 1],
[Support] AS [Sequence Support], 
[Probability] AS [Sequence Probability]
FROM NODE_DISTRIBUTION) AS t
FROM [Sequence Clustering].CONTENT
WHERE NODE_TYPE = 13
AND [PARENT_UNIQUE_NAME] = 0

Wyniki częściowe:

NODE_UNIQUE_NAME	Produkt 1	Obsługa sekwencji	Prawdopodobieństwo sekwencji
1081327	Brak	0	#######
1081327	Uniwersalny stojak rowerowy	17	0.00111
1081327	Do mycia	64	0.00418
1081327	(wiersze pominięto 4-36)
1081327	Women's Mountain Shorts	506	0.03307

Lista sekwencji w modelu jest zawsze sortowany alfabetycznie w kolejności rosnącej.Kolejność sekwencji jest ważne, ponieważ można znaleźć pokrewne przejścia patrząc na numer kolejności sekwencji.Missing Wartość jest zawsze 0 przejścia.

Na przykład w poprzednich wyniki produktu "Szorty górskich kobiet" jest numerem 37 w modelu.Można użyć tych informacji do wyświetlenia wszystkich produktów, które kiedykolwiek zostały zakupione po "Szorty górskich Damskie".

Aby to zrobić, najpierw odwołanie wartość zwracana dla NODE_UNIQUE_NAME w poprzedniej kwerendy, aby uzyskać identyfikator węzła, który zawiera wszystkie sekwencje dla modelu.Jako identyfikator węzła nadrzędnego uzyskanie przejścia, zawarte w tym węźle, co się dzieje z zawierają listę al sekwencji dla modelu przekazać tę wartość do kwerendy.Jednak jeśli chciał Zobacz listy przejść do konkretnego klastra może przekazać identyfikator węzła klastra i zobacz tylko sekwencje skojarzonych z tym klastrem.

SELECT NODE_UNIQUE_NAME
FROM [Sequence Clustering].CONTENT
WHERE NODE_DESCRIPTION = 'Transition row for sequence state 37'
AND [PARENT_UNIQUE_NAME] = '1081327'

Przykład wyniki:

NODE_UNIQUE_NAME
1081365

Węzeł reprezentowane przez ten identyfikator zawiera listę sekwencje wykonaj "Szorty górskich kobiet" produkt wraz z pomocy technicznej i prawdopodobieństwo wartości.

SELECT FLATTENED
(SELECT ATTRIBUTE_VALUE AS Product2,
[Support] AS [P2 Support],
[Probability] AS [P2 Probability]
FROM NODE_DISTRIBUTION) AS t
FROM [Sequence Clustering].CONTENT
WHERE NODE_UNIQUE_NAME = '1081365'

Przykład wyniki:

t.Product2	Obsługa t.P2	t.P2 prawdopodobieństwa
Brak	230.7419	0.456012
Kamizelka klasyczne	8.16129	0.016129
Cykliczne Cap	60.83871	0.120235
Rękawice połowie Finger	30.41935	0.060117
Długie rękawy Logo Jersey	86.80645	0.171554
Wyścigi Socks	28.93548	0.057185
Tuleja krótkich klasyczny Jersey	60.09677	0.118768

Należy zauważyć, że obsługa różnych sekwencji powiązanych z szorty górskich kobiet 506 w modelu.Wartości wsparcia dla przejścia również dodać do 506.Jednakże liczby są liczby całkowite, które wydaje się bit nieparzysta, jeśli oczekujesz, że wsparcie po prostu reprezentują liczbę przypadków, które zawierają każde przejście.Jednak ponieważ metoda tworzenia klastrów oblicza częściowego członkostwa, prawdopodobieństwo wszelkie przejścia w klastrze musi być ważone według prawdopodobieństwa należących do określonego klastra.

Na przykład w przypadku czterech klastrach określonej sekwencji może mieć szansę 40% należących do klastra 1, szansy 30% należących do klastra 2, 20% szansę należących do klastra 3 i szansy 10% należących do klastra 4.Po algorytm określa klaster przejścia głównie prawdopodobnie należące do, masa prawdopodobieństwa w klastrze według prawdopodobieństwa uprzedniego klastra.

Powrót do początku

Przykładowa kwerenda 3: Za pomocą systemu procedur przechowywanych

Można wyświetlić informacji przechowywanych w modelu jest złożona i może być konieczne utworzenie wielu kwerend, aby uzyskać informacje potrzebne próbki kwerend.Jednakże viewer klastrowanie sekwencji Microsoft zapewnia zaawansowany zestaw narzędzi graficznie przeglądanie informacji zawartych w sekwencji klastrowanie modelu i umożliwia także Podgląd kwerendy i Drąż niedziałający do modelu.

W większości przypadków informacje przedstawione w przeglądarce Microsoft sekwencji klaster jest tworzony przy użyciu usług Analysis Services procedury składowane w systemie kwerendy modelu.Można napisać kwerend danych górnictwa rozszerzenia (DMX) zawartości modelu, aby pobrać te same informacje, ale Analysis Services procedury składowane w systemie zapewniają wygodny skrótów po eksploracji lub testowania modeli.

Ostrzeżenie

Procedury przechowywane są używane do wewnętrznego przetwarzania przez serwer i klienci programu Microsoft System zapewnia interakcja z serwerem usług Analysis Services.Dlatego Microsoft zastrzega sobie prawo je zmienić w dowolnym czas.Chociaż są one opisane tutaj dla Twojej wygody, firma Microsoft nie ich użycia w środowisku produkcyjnym.W celu zapewnienia stabilności i zgodności w środowisku produkcyjnym, należy zawsze pisać własne kwerendy przy użyciu DMX.

W tej sekcji podano niektóre przykłady używania procedury składowane w systemie do tworzenia kwerend sekwencji klastrowanie modelu:

Profile klastra i przypadków próbki

Kartę Profile klastra zawiera listę klastrów w modelu, rozmiar każdego klastra i histogramu, wskazująca, że Państwa, w skład klastra.Istnieją dwa procedury składowane w systemie , można używać w kwerendach pobrać podobne informacje:

GetClusterProfile Zwraca właściwości klastra, wszystkie informacje znalezione w tabela NODE_DISTRIBUTION dla klastra.
GetNodeGraph Zwraca węzłów i krawędzie, które mogą być używane do konstruowania reprezentacji wykresu matematycznych klastrów, odpowiadające Zobacz na pierwszej karcie Widok klastrowanie sekwencji.Węzły są klastry, a krawędzie reprezentują odważniki lub wytrzymałość.

Poniższy przykład ilustruje sposób użycia systemowa procedura składowana, GetClusterProfiles, do zwrócenia wszystkich klastrów w modelu z ich odpowiednich profilów.Ta procedura składowana wykonuje serię instrukcji DMX zwracających kompletny zestaw profilów w modelu.Jednakże aby użyć tej procedura składowana, musisz znać adres modelu.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterProfiles('Sequence Clustering', 2147483647, 0)

Poniższy przykład ilustruje sposób pobrania profilu dla konkretnego klastra 12 klastra przy użyciu systemowa procedura składowana GetNodeGraphi określając identyfikator klastra, który jest zwykle taka sama, jak numer w nazwie klastra.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetNodeGraph('Sequence Clustering','12',0)

Jeżeli pominięto identyfikator klastra, jak pokazano w następującej kwerendzie GetNodeGraph zwraca uporządkowaną listę spłaszczone wszystkie profile klastra:

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetNodeGraph('Sequence Clustering','',0)

Klastra profil kartę również jest wyświetlany histogram modelu przypadków próbki.Te przypadki próbki reprezentują przypadków idealny dla modelu.Tych przypadkach nie są przechowywane w modelu tak samo jest w dane szkolenia; pobrać próbki przypadkach dla modelu, należy użyć specjalnej składni.

SELECT * FROM [Sequence Clustering].SAMPLE_CASES WHERE IsInNode('12')

Aby uzyskać więcej informacji, zobacz Wybierz z <model>.SAMPLE_CASES (DMX).

Właściwości klastra i dyskryminacji klastra

Właściwości klastra kartę podsumowuje główne atrybuty każdy klaster uporządkowane według prawdopodobieństwa.Można sprawdzić ilu przypadkach należą do klastra i rozkład przypadków jest podobny, w klastrze: Obsługuje niektóre każdej cechy.Aby wyświetlić właściwości określonego klastra, należy znać identyfikator klastra.

Następujące przykłady używa systemowa procedura składowana, GetClusterCharacteristics, aby zwrócić wszystkie cechy 12 klastra o wyniku prawdopodobieństwo przez określony próg 0,0005.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterCharacteristics('Sequence Clustering','12',0.0005)

Zwraca właściwości wszystkich klastrów, można pozostawić identyfikator klastra puste.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterCharacteristics('Sequence Clustering','',0.0005)

Poniższym przykładzie wywołuje systemowa procedura składowana GetClusterDiscrimination do porównywania cech 1 klastra i klastra 12.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterDiscrimination('Sequence Clustering','1','12',0.0005,true)

Zapisać własną kwerendę w DMX porównać dwa klastry lub porównywania klastra z jego dopełnieniem, należy najpierw pobrać jeden zestaw właściwości i następnie pobrać właściwości dla określonego klastra, który interesuje Cięi porównać dwa zestawy.Ten scenariusz jest bardziej skomplikowany i zwykle wymaga pewnych klient przetwarzania.

Państwa i przejścia

Przejścia do stanu kartę sekwencji Microsoft klastrowania wykonuje skomplikowane kwerendy na wewnętrznej do pobierania i porównywanie statystyki dla różnych klastrów.Aby odtworzyć te wyniki wymaga bardziej złożonych kwerend oraz niektóre klient przetwarzania.

Jednak można użyć kwerendy DMX opisane w przykładzie 2 sekcji, Kwerendy zawartości, aby pobrać prawdopodobieństwa i Państwa sekwencji lub poszczególnych przejścia.

Powrót do początku

Korzystanie z modelu dokonać prognoz

przewidywanie kwerendy dotyczące sekwencji klastrowanie modelu można użyć wielu funkcje przewidywanie, które są używane w innych modelach klastrowania.Ponadto można użyć funkcja specjalnych przewidywanie PredictSequence (DMX), zalecenia lub przewidzieć następnego Państwa.

Przykładowa kwerenda 4: Przewidywanie dalej Państwa lub Państw

Można użyć PredictSequence (DMX) funkcja przewidywanie następnego stanu najprawdopodobniej podanych wartości.Można również przewidzieć wiele Państw dalej: na przykład można powrócić do listy trzech najlepszych produktów, które klient prawdopodobnie do zakupu, do przedstawienia listy zaleceń.

W następującej kwerendzie przykładowej jest kwerendy przewidywanie singleton, która zwraca górną prognoz pięciu wraz z ich prawdopodobieństwa.Ponieważ model zawiera zagnieżdżoną tabela, należy użyć tabela zagnieżdżonej [v Assoc Seq Line Items], jako odwołanie do kolumna podczas dokonywania przewidywań.Ponadto przy wartości są podane jako dane wejściowe, muszą być łączyć przypadku tabela i kolumny tabela zagnieżdżonej, przedstawiony zagnieżdżonych instrukcji SELECT.

SELECT FLATTENED PredictSequence([v Assoc Seq Line Items], 7)
FROM [Sequence Clustering]
NATURAL PREDICTION JOIN
(SELECT  (SELECT 1 as [Line Number],
   'All-Purpose Bike Stand' as [Model]) AS [v Assoc Seq Line Items]) 
AS t

Przykład wyniki:

Wyrażenie.$ sekwencji	Numer Expression.Line	Expression.model
1		Cykliczne Cap
2		Cykliczne Cap
3		Sport-100
4		Logo długie rękawy Jersey
5		Rękawice połowie Finger
6		Uniwersalny stojak rowerowy
7		Uniwersalny stojak rowerowy

Wyniki są trzy kolumna, nawet jeśli tylko może oczekiwać jednej kolumna, ponieważ kwerenda zawsze zwraca kolumna tabela przypadek.Tutaj są spłaszczane wyniki; w przeciwnym razie kwerenda będzie zwracać pojedynczą kolumna, która zawiera dwie kolumna tabela zagnieżdżonej.

Sekwencja $ kolumna jest zwracana domyślnie przez kolumna PredictSequence Funkcja Zamawianie wyniki przewidywanie.kolumna, [Line Number], jest wymagane aby odpowiadał sekwencji klawiszy w modelu, ale nie są klucze wyjściowy.

Interestingly górny sekwencji przewidywane po pozostawić Bike wszystkich celów są cykliczne WPR oraz cykliczności Cap.Nie jest błąd.W zależności od sposobu przedstawiania danych do klienta i sposobu grupowania, gdy szkolenie w modelu jest bardzo możliwe sekwencji tego rodzaju.Na przykład klient może kupić następuje cap (czerwony) i następnie innego cykliczności cap (niebieski) lub w wierszu zakupu, gdyby sposobem określenia ilości.

Wartości w wierszach, 6 i 7 są symbolami zastępczymi.Po osiągnięciu końca łańcucha przejścia, zamiast kończące przewidywanie wyniki, wartość, która została przekazana jako dane wejściowe jest dodawany do wyniki.Na przykład zwiększenie liczby prognoz 20, wartości dla wierszy 6 20 wszystkie byłoby takie same, pozostawić Bike wszystkich celów.

Powrót do początku

Lista funkcji

Wszystkie Microsoft obsługę algorytmów wspólny zestaw funkcji.Jednakże Microsoft algorytm sekwencji klastrowania obsługuje dodatkowe funkcje, które są wymienione w poniższej tabela.

Klaster (DMX)	PredictHistogram (DMX)
ClusterDistance (DMX)	PredictNodeId (DMX)
ClusterProbability (DMX)	PredictProbability (DMX)
IsInNode (DMX)	PredictSequence (DMX)
PredictAdjustedProbability (DMX)	PredictStdev (DMX)
PredictAssociation (DMX)	PredictSupport (DMX)
PredictCaseLikelihood (DMX)	PredictVariance (DMX)