Badanie modelu klastrowania (Analysis Services - wyszukiwania danych)
Podczas tworzenia kwerendy danych model wyszukiwania, można pobrać metadane dotyczących modelu lub Utwórz kwerendę zawartości, która zawiera szczegółowe informacje dotyczące wzorców wykryte w analizie.Alternatywnie można utworzyć kwerendę przewidywanie używa desenie w modelu, aby prognoz dla nowych danych.Każdy typ kwerendy zapewni różne informacje.Na przykład kwerendy zawartości może zawierać dodatkowe informacje dotyczące klastrów, które zostały znalezione niezbędne kwerendy przewidywanie mogą informować o do klastra, które najprawdopodobniej należą jest nowy punkt danych.
W tej sekcji wyjaśniono, jak tworzyć kwerendy dla modeli, które są oparte na Microsoft Klastrowanie algorytmu.
Kwerendy zawartości
Pobieranie metadanych modelu przy użyciu DMX
Pobieranie metadanych modelu z zestawu wierszy schematu
Zwracanie klastra lub listy klastrów
Zwracania atrybutów dla klastra
Procedury przechowywanej zwracającej profilu klastra przy użyciu systemu
Znajdowanie różnicująca czynniki klastra
Zwracanie przypadkach należących do klastra
Przewidywania kwerend
Przewidywaniu wyników z modelu klastrowania
Określanie członkostwa klastra
Zwracanie wszystkich możliwych klastrów z prawdopodobieństwa i odległość
Znajdowanie informacji o modelu
Wszystkie modele górnictwo narazić zawartości rozpoznane przez algorytm zgodnie ze schematem znormalizowanych, model górnictwa zestaw zestaw wierszy schematu.Można utworzyć kwerendy przeciwko model wyszukiwania zestaw wierszy schematu przy użyciu instrukcji danych górnictwa rozszerzenie (DMX).W SQL Server 2008, można również sprawdzać zestawów wierszy schematu bezpośrednio jako tabele systemowe.
Powrót do początku
Przykładowa kwerenda 1: Pobieranie metadanych modelu przy użyciu DMX
Następująca kwerenda zwraca podstawowe metadane dotyczące klastrowanie model, TM_Clustering, utworzony w samouczek wyszukiwania danych podstawowych.Metadane dostępne w węźle nadrzędnym klastrowanie model zawiera nazwę modelu, gdzie przechowywane są modelu bazy danych i liczba węzłów podrzędność w modelu.Ta kwerenda używa kwerendy zawartości DMX do pobierania metadane z węzła nadrzędnego modelu:
SELECT MODEL_CATALOG, MODEL_NAME, NODE_CAPTION,
NODE_SUPPORT, [CHILDREN_CARDINALITY], NODE_DESCRIPTION
FROM TM_Clustering.CONTENT
WHERE NODE_TYPE = 1
Ostrzeżenie
Nazwa kolumna CHILDREN_CARDINALITY, należy ująć w nawiasy, aby odróżnić go od wyrażeń wielowymiarowych (MDX) zarezerwowane słowo kluczowe o tej samej nazwie.
Przykład wyniki:
MODEL_CATALOG |
TM_Clustering |
NAZWA_MODELU |
Adventure Works DW |
NODE_CAPTION |
Modelu klastra |
NODE_SUPPORT |
12939 |
CHILDREN_CARDINALITY |
10 |
NODE_DESCRIPTION |
Wszystko |
Te kolumny oznacza w definicję klastrowanie modelu, zobacz Górnictwo modelu zawartości dla modeli klastra (Analysis Services - wyszukiwania danych).
Powrót do początku
Przykładowa kwerenda 2: Pobieranie metadanych modelu z zestawu wierszy schematu
Przez badanie zestaw wierszy schematu wyszukiwanie danych, można znaleźć informacje, które są zwracane w kwerendzie DMX zawartości.Jednak zestaw zestaw wierszy schematu zawiera niektóre dodatkowe kolumny.Należą do nich parametry, które były używane podczas tworzenia modelu, Data i czas że model został ostatnio przetwarzane i właściciela wzoru.
Poniższy przykład zwraca data utworzenia modelu, modyfikacji, i ostatnio przetwarzane razem z klastrowanie parametry używane do budowania modelu i rozmiaru zestaw szkoleniowy.Informacje te mogą być przydatne do dokumentowania modelu lub określania, które klastrowanie opcje były używane do tworzenia istniejącego modelu.
SELECT MODEL_NAME, DATE_CREATED, LAST_PROCESSED, PREDICTION_ENTITY, MINING_PARAMETERS
from $system.DMSCHEMA_MINING_MODELS
WHERE MODEL_NAME = 'TM_Clustering'
Przykład wyniki:
NAZWA_MODELU |
TM_Clustering |
DATE_CREATED |
10/12/2007 7:42:51 PM |
LAST_PROCESSED |
10/12/2007 8:09:54 PM |
PREDICTION_ENTITY |
Kupujący Bike |
MINING_PARAMETERS |
CLUSTER_COUNT = 10, CLUSTER_SEED = 0, CLUSTERING_METHOD = 1, MAXIMUM_INPUT_ATTRIBUTES = 255, MAXIMUM_STATES = 100, MINIMUM_SUPPORT = 1, MODELLING_CARDINALITY = 10, SAMPLE_SIZE = 50 000, STOPPING_TOLERANCE = 10 |
Powrót do początku
Znajdowanie informacji o klastrach
Najbardziej przydatne kwerendy zawartości na zwykle klastrowanie modeli zwracają ten sam rodzaj informacji, który można przeglądać za pomocą Viewer klastra.Obejmuje to profile klastra, właściwości klastra i klastra dyskryminacji.Ta sekcja zawiera przykładowe kwerendy pobierające informacje.
Przykładowa kwerenda 3: Zwracanie klastra lub listy klastrów
Ponieważ wszystkie klastry typ węzła 5, można łatwo pobrać listy klastrów przez badanie zawartości modelu tylko węzłów typu.Można także filtrować węzłów, które są zwracane przez prawdopodobieństwo lub wsparcia, jak w poniższym przykładzie.
SELECT NODE_NAME, NODE_CAPTION ,NODE_SUPPORT, NODE_DESCRIPTION
FROM TM_Clustering.CONTENT
WHERE NODE_TYPE = 5 AND NODE_SUPPORT > 1000
Przykład wyniki:
NAZWA_WĘZŁA |
002 |
NODE_CAPTION |
Klaster 2 |
NODE_SUPPORT |
1649 |
NODE_DESCRIPTION |
Angielski edukacji = stopień absolwenta, 32 <= wiek <= 48, będących własnością liczba samochodów = 0, 35964.0771121808 <= Roczny dochód <= 97407.7163393957, angielski przewoźnika = Professional odległość Commute = 2-5 mil, Region = Ameryki Północnej, kupujący Bike = 1, liczby dzieci w Główny = 0, liczba samochodów własnością = 1, odległość Commute = 0-1 mil Angielski edukacji = Bachelors dzieci całkowita = 1, liczby dzieci w Główny = 2, angielski przewoźnika = wykwalifikowanych stan cywilny, ręczne = S dzieci całkowita = 0, Flaga właściciela Główny = 0, płci = F całkowitą dzieci = 2, Region = Pacyfiku |
Atrybuty, które definiują klastra można znaleźć w dwóch kolumnach w górnictwie danych zestaw zestaw wierszy schematu.
Kolumna NODE_DESCRIPTION zawiera rozdzielaną przecinkami listę atrybutów.Należy zauważyć, że lista atrybutów może zostać skrócona w celach wyświetlania.
Tabela zagnieżdżona kolumna NODE_DISTRIBUTION zawiera pełną listę atrybutów dla klastra.Jeśli klient nie obsługuje zestawów wierszy hierarchiczne, tabela zagnieżdżonej można powrócić przez dodanie słów kluczowych FLATTENED przed na liście kolumna.Aby uzyskać więcej informacji dotyczących używania słowa kluczowego FLATTENED, zobacz Wybierz z <model>.ZAWARTOŚĆ (DMX).
Powrót do początku
Przykładowa kwerenda 4: Zwracania atrybutów dla klastra
Dla każdego klastra Viewer klastra Wyświetla listę atrybutów i ich wartości profilu.Przeglądarka wyświetla również histogram, pokazujący rozmieszczenie wartości dla całej zapełnianie przypadków w modelu.Jeśli przeglądasz modelu w przeglądarce, można łatwo skopiować histogram z górnictwa legendy i wkleić go do programu Excel lub dokumentu programu Word.Za pomocą właściwości klastra okienku podglądu graficznie porównać atrybuty różnych klastrów.
Jednakże jeśli musisz uzyskać wartości dla więcej niż jednego klastra na czas, łatwiej kwerendy modelu.Na przykład podczas przeglądania modelu można zauważyć że dwa klastry różnią się w odniesieniu do jednego atrybut Number Cars Owned.Dlatego należy wyodrębnić wartości dla każdego klastra.
SELECT TOP 2 NODE_NAME,
(SELECT ATTRIBUTE_VALUE, [PROBABILITY] FROM NODE_DISTRIBUTION WHERE ATTRIBUTE_NAME = 'Number Cars Owned')
AS t
FROM [TM_Clustering].CONTENT
WHERE NODE_TYPE = 5
Pierwszy wiersz kodu Określa, że górnej dwa klastry.
Ostrzeżenie
Domyślnie klastrów są uporządkowane według pomocy technicznej.Można pominąć kolumna NODE_SUPPORT.
Drugi wiersz kodu dodaje instrukcja sub-select, która zwraca tylko niektóre kolumna z kolumna tabela zagnieżdżonej.Ponadto, ogranicza ona wiersze z tabela zagnieżdżonej do tych związanych z atrybut miejsce docelowe Number Cars Owned.Aby uprościć wyświetlanie, tabela zagnieżdżonej jest aliasu.
Ostrzeżenie
kolumna tabela zagnieżdżonej PROBABILITY, musi być ujęty w nawiasy, ponieważ jest on również nazwę zarezerwowane słowo kluczowe MDX.
Przykład wyniki:
NAZWA_WĘZŁA |
T.ATTRIBUTE_VALUE |
T.PROBABILITY |
---|---|---|
001 |
2 |
0.829207754 |
001 |
1 |
0.109354156 |
001 |
3 |
0.034481552 |
001 |
4 |
0.013503302 |
001 |
0 |
0.013453236 |
001 |
Brak |
0 |
002 |
0 |
0.576980023 |
002 |
1 |
0.406623939 |
002 |
2 |
0.016380082 |
002 |
3 |
1.60E-05 |
002 |
4 |
0 |
002 |
Brak |
0 |
Powrót do początku
Przykładowa kwerenda 5: Procedury przechowywane w profilu klastra przy użyciu systemu zwrotu
Jako skrót, zamiast pisania własnych kwerend za pomocą DMX, można również wywołać procedury składowane w systemie , Usługi Analysis Services używa do pracy z klastrami.Poniższy przykład przedstawia sposób użycia wewnętrznych procedur przechowywanych do zwracania profilu dla klastra z Identyfikatorem 002.
CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterProfiles('TM_Clustering", '002',0.0005
Podobnie można użyć systemowa procedura składowana do zwrócenia właściwości określonego klastra, jak pokazano w następującym przykładzie:
CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterCharacteristics('TM_Clustering", '009',0.0005
Przykład wyniki:
Atrybuty |
Wartości |
Częstotliwość |
Obsługa |
---|---|---|---|
Liczba dzieci w Główny |
0 |
0.999999829076798 |
899 |
Region |
North America |
0.999852875241508 |
899 |
Całkowita dzieci |
0 |
0.993860958572323 |
893 |
Ostrzeżenie
Wyszukiwania danych procedury składowane w systemie są do użytku wewnętrznego i Microsoft zastrzega sobie prawo, w razie potrzeby zmień.Do użytku produkcyjnego zaleca się tworzenia kwerend za pomocą DMX, AMO lub XMLA.
Powrót do początku
Przykładowa kwerenda 6: Znajdź różnicująca czynników dla klastra
Dyskryminacji klastra karcie Viewer klastra pozwala łatwo porównać klastra z innego klastra lub porównać klastra z wszystkich pozostałych przypadkach (uzupełnienie klastra).
Jednak tworzenie kwerend, aby przywrócić te informacje mogą być złożone i może być konieczne niektóre dodatkowe przetwarzanie klient do przechowywania tymczasowych wyników i porównać wyniki dwóch lub więcej kwerend.Jako skrót, możesz wykorzystać procedury składowane w systemie.
Następująca kwerenda zwraca pojedynczej tabela, która wskazuje podstawowe czynniki różnicująca między dwa klastry, których identyfikatory 009 węzła i 007.Atrybuty z wartości dodatnie preferować w pełni klastra 009, należy preferować atrybuty o wartościach ujemnych w pełni klastra 007.
CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterDiscrimination('TM_Clustering','009','007',0.0005,true)
Przykład wyniki:
Atrybuty |
Wartości |
Wynik |
---|---|---|
Region |
North America |
100 |
Angielski przewoźnika |
Ręczne wykwalifikowanych |
94.9003803898654 |
Region |
Europa |
-72.5041051379789 |
Angielski przewoźnika |
Ręczne |
-69.6503163202722 |
Jest to informacje, które są prezentowane na wykresie Dyskryminacji klastra viewer wybranie 9 klastra z pierwszego drop -niedziałający listy i 7 klastra z drugiego drop -niedziałający listy.Aby porównać klastra 9 z jego dopełnieniem, używasz pusty ciąg w drugi parametr, jak pokazano w następującym przykładzie:
CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterDiscrimination('TM_Clustering','009','',0.0005,true)
Ostrzeżenie
Wyszukiwania danych procedury składowane w systemie są do użytku wewnętrznego i Microsoft zastrzega sobie prawo, w razie potrzeby zmień.Do użytku produkcyjnego zaleca się tworzenia kwerend za pomocą DMX, AMO lub XMLA.
Powrót do początku
Przykładowa kwerenda 7: Zwracanie przypadkach należących do klastra
Jeśli włączono drążenia na model wyszukiwania, można utworzyć kwerendy zwracającej szczegółowe informacje o przypadkach używane w modelu.Ponadto jeśli włączono drążenia na struktura wyszukiwania, można dołączyć kolumny z podstawowej struktury za pomocą StructureColumn (DMX) funkcja.
Poniższy przykład zwraca dwie kolumna, które były używane w modelu, wiek i regionu i jedną więcej kolumna Imię, który nie był wykorzystywany w modelu.Kwerenda zwraca tylko przypadków, które zostały sklasyfikowane w 1 klastra.
SELECT [Age], [Region], StructureColumn('First Name')
FROM [TM_Clustering].CASES
WHERE IsInNode('001')
Aby przywrócić przypadkach należących do klastra, należy znać identyfikator klastra.Identyfikator klastra można uzyskać, przeglądając modelu w jednym widzów.Lub można zmienić nazwę klastra dla odwołania łatwiejsze, po którym można użyć nazwy zamiast numeru Identyfikacyjnego.Jednak znać nazwy, które można przypisać do klastra zostaną utracone, jeśli model jest ponownie przetwarzane.
Powrót do początku
Wprowadzanie przy użyciu modelu prognoz
Chociaż usługa klastrowania jest zazwyczaj używany do opisywania i zrozumienie danych Microsoft wykonania pozwala także na tworzenie przewidywanie dotyczące członkostwa klastrowanie i zwracają prawdopodobieństw związanych z przewidywanie.Ta sekcja zawiera przykłady sposobów tworzenia kwerend przewidywanie na klastrowanie modeli. Można wprowadzać prognoz w wielu przypadkach, określając tabelarycznego źródło danych lub można podać nowe wartości na na czas przez utworzenie kwerendy singleton.Dla jasności przykłady w tej sekcji są wszystkie kwerendy singleton.
Aby uzyskać więcej informacji na temat tworzenia kwerend przewidywanie przy użyciu DMX, zobacz Tworzenie kwerend przewidywania DMX.
Aby uzyskać informacje dotyczące tworzenia zapytań przewidywanie przy użyciu narzędzia graficzne w BI Development Studio, zobacz Górnictwo Model prognozowania kartę: Tematy dotyczące sposobów wykonywania określonych zadań.
Powrót do początku
Przykładowa kwerenda 8: Przewidywaniu wyników z modelu klastrowania
Jeśli klastrowanie modelu zawiera atrybut przewidywalny, aby przewidywanych wyników za pomocą modelu.Jednak model obsługuje atrybut przewidywalne zależy czy możesz zestaw przewidywalne kolumnę Predict lub PredictOnly.Jeśli użytkownik zestaw użycie kolumn do Predict, wartości dla atrybut są dodawane do modelu klastrowania i są wyświetlane jako atrybuty w gotowym modelu.Jednakże jeśli użytkownik zestaw użycie kolumn do PredictOnly, wartości nie są używane do tworzenia klastrów.Zamiast tego, po zakończeniu trybu klastrowanie algorytm tworzy nowe wartości dla PredictOnly atrybut oparte na klastry, do których należy każdorazowo.
Następująca kwerenda zawiera pojedynczy nowy przypadek do modelu, gdzie tylko informacje o przypadek jest wieku i płci.Instrukcja SELECT określa pary przewidywalne atrybut/wartość, która zainteresowani, oraz PredictProbability (DMX) funkcja informuje prawdopodobieństwo, że przypadek te atrybuty docelowego wyniku.
SELECT
[TM_Clustering].[Bike Buyer], PredictProbability([Bike Buyer],1)
FROM
[TM_Clustering]
NATURAL PREDICTION JOIN
(SELECT 40 AS [Age],
'F' AS [Gender]) AS t
Przykład wyniki, gdy jest użycie zestaw do Predict:
Kupujący Bike |
Wyrażenie |
---|---|
1 |
0.592924735740338 |
Przykład wyniki, gdy jest zestaw do PredictOnly i modelu jest ponownie przetwarzany:
Kupujący Bike |
Wyrażenie |
---|---|
1 |
0.55843544003102 |
W tym przykładzie różnica w modelu nie jest znaczący.Czasami może być jednak ważne wykrywać różnice między rzeczywisty rozkład wartości i prognozuje modelu.PredictCaseLikelihood (DMX) Funkcja jest przydatna w tym scenariuszu, ponieważ informuje prawdopodobieństwa przypadek, podane modelu.
Numer, który jest zwracany przez PredictCaseLikelihood funkcja jest prawdopodobieństwem i dlatego jest zawsze między 0 i 1 o wartości 0,5 reprezentujących wyniku losowe.Dlatego wynik mniejszy niż 0,5 oznacza, że przypadek przewidywane jest mało prawdopodobne, podane w modelu i over.5 wynik wskazuje, że przewidywane sprawy jest bardziej prawdopodobne niż nie dopasowanie modelu.
Na przykład następujące kwerendy zwraca wartości dwóch charakteryzujących prawdopodobieństwo nowej próbce przypadek.Znormalizowane wartość reprezentuje prawdopodobieństwo, biorąc pod uwagę bieżącego modelu.Gdy kluczowe NORMALIZED wynik prawdopodobieństwo zwracana przez funkcja jest korygowana przez podzielenie "prawdopodobieństwa z modelem" przez "prawdopodobieństwo bez modelu".
SELECT
PredictCaseLikelihood(NORMALIZED) AS [NormalizedValue], PredictCaseLikelihood(NONNORMALIZED) AS [NonNormalizedValue]
FROM
[TM_Clustering_PredictOnly]
NATURAL PREDICTION JOIN
(SELECT 40 AS [Age],
'F' AS [Gender]) AS t
Przykład wyniki:
NormalizedValue |
NonNormalizedValue |
---|---|
5.56438372679893E-11 |
8.65459953145182E-68 |
Należy zauważyć, że numery te wyniki są wyrażane w notacji naukowej.
Powrót do początku
Przykładowa kwerenda 9: Określanie członkostwa klastra
W tym przykładzie użyto Klaster (DMX) funkcja zwraca klastra, do którego nowy przypadek jest najprawdopodobniej należą i używa ClusterProbability (DMX) funkcja zwraca prawdopodobieństwo członkostwa w tym klastrze.
SELECT Cluster(), ClusterProbability()
FROM
[TM_Clustering]
NATURAL PREDICTION JOIN
(SELECT 40 AS [Age],
'F' AS [Gender],
'S' AS [Marital Status]) AS t
Przykład wyniki:
$KLASTRA |
Wyrażenie |
---|---|
Klaster 2 |
0.397918596951617 |
Uwagadomyślnie ClusterProbability funkcja zwraca prawdopodobieństwo najprawdopodobniej klastra.Jednak określić innego klastra przy użyciu składni ClusterProbability('cluster name').W tym celu należy pamiętać, że wyniki z poszczególnych funkcja przewidywanie są niezależne od innych wyników.Dlatego wynik prawdopodobieństwa w drugim kolumna może odwoływać się do klastra różny od klastra o nazwie w pierwszym kolumna.
Powrót do początku
Przykładowa kwerenda 10: Zwracanie wszystkich możliwych klastrów z prawdopodobieństwa i odległość
W poprzednim przykładzie wynik prawdopodobieństwo nie był bardzo wysoki.Do określenia, przypadek lepiej klastra, można użyć PredictHistogram (DMX) funkcji wraz z Klaster (DMX) funkcja zwraca zagnieżdżona tabela, która obejmuje wszystkich możliwych klastrów, wraz z prawdopodobieństwem, że nowa przypadek, należy do każdego klastra.Słowo kluczowe FLATTENED jest używana do zmiany hierarchiczną zestawu zestaw wierszy do tabela płaski dla ich łatwiejszego oglądania.
SELECT FLATTENED PredictHistogram(Cluster())
From
[TM_Clustering]
NATURAL PREDICTION JOIN
(SELECT 40 AS [Age],
'F' AS [Gender],
'S' AS [Marital Status])
Wyrażenie.$ KLASTRA |
Wyrażenie.$ odległość |
Wyrażenie.$ prawdopodobieństwa |
---|---|---|
Klaster 2 |
0.602081403048383 |
0.397918596951617 |
Klaster 10 |
0.719691686785675 |
0.280308313214325 |
Klaster 4 |
0.867772590378791 |
0.132227409621209 |
Klaster 5 |
0.931039872200985 |
0.0689601277990149 |
Klaster 3 |
0.942359230072167 |
0.0576407699278328 |
Klaster 6 |
0.958973668972756 |
0.0410263310272437 |
Klaster 7 |
0.979081275926724 |
0.0209187240732763 |
Klaster 1 |
0.999169044818624 |
0.000830955181376364 |
Klaster 9 |
0.999831227795894 |
0.000168772204105754 |
Klaster 8 |
1 |
0 |
Domyślnie wyniki są uporządkowane według prawdopodobieństwa.Wyniki stwierdzić, nawet prawdopodobieństwo 2 klastra jest dość niski, 2 klastra jest nadal najlepszym dopasowanie nowych danych punktu.
Uwagadodatkowe kolumna, $DISTANCE, oznacza odległość od punktu danych do klastra.Domyślnie Microsoft klastrowanie EM skalowalne używa algorytmu klastrowanie, który przypisuje do każdego punktu danych wielu klastrów i klasyfikuje możliwe klastrów.Jednak jeśli tworzysz model klastrowania przy użyciu algorytmu k oznacza tylko jednego klastrowanie można przypisać do każdego punktu danych i ta kwerenda zwróci tylko jeden wiersz.Zrozumienie tych różnic jest konieczne do interpretacji wyniki PredictCaseLikelihood (DMX) funkcja.Aby uzyskać więcej informacji o różnicach między EM i środki k klastrowanie, zobacz Informacje techniczne algorytm klastrowania Microsoft.
Powrót do początku
Lista funkcji
Wszystkie Microsoft obsługę algorytmów wspólny zestaw funkcji.Jednak modele utworzonych za pomocą Microsoft algorytm klastrowania obsługuje dodatkowe funkcje, które są wymienione w poniższej tabela.
|
Aby uzyskać listę funkcji, które są wspólne dla wszystkich Microsoft modelu typów, zobacz Algorytm odniesienia (Analysis Services - wyszukiwania danych).Aby składni określonych funkcji, zobacz Odwołanie do funkcji rozszerzenia górnictwa (DMX) danych.