Badanie modelu klastrowania (Analysis Services - wyszukiwania danych)

Podczas tworzenia kwerendy danych model wyszukiwania, można pobrać metadane dotyczących modelu lub Utwórz kwerendę zawartości, która zawiera szczegółowe informacje dotyczące wzorców wykryte w analizie.Alternatywnie można utworzyć kwerendę przewidywanie używa desenie w modelu, aby prognoz dla nowych danych.Każdy typ kwerendy zapewni różne informacje.Na przykład kwerendy zawartości może zawierać dodatkowe informacje dotyczące klastrów, które zostały znalezione niezbędne kwerendy przewidywanie mogą informować o do klastra, które najprawdopodobniej należą jest nowy punkt danych.

W tej sekcji wyjaśniono, jak tworzyć kwerendy dla modeli, które są oparte na Microsoft Klastrowanie algorytmu.

Kwerendy zawartości

Pobieranie metadanych modelu przy użyciu DMX

Pobieranie metadanych modelu z zestawu wierszy schematu

Zwracanie klastra lub listy klastrów

Zwracania atrybutów dla klastra

Procedury przechowywanej zwracającej profilu klastra przy użyciu systemu

Znajdowanie różnicująca czynniki klastra

Zwracanie przypadkach należących do klastra

Przewidywania kwerend

Przewidywaniu wyników z modelu klastrowania

Określanie członkostwa klastra

Zwracanie wszystkich możliwych klastrów z prawdopodobieństwa i odległość

Znajdowanie informacji o modelu

Wszystkie modele górnictwo narazić zawartości rozpoznane przez algorytm zgodnie ze schematem znormalizowanych, model górnictwa zestaw zestaw wierszy schematu.Można utworzyć kwerendy przeciwko model wyszukiwania zestaw wierszy schematu przy użyciu instrukcji danych górnictwa rozszerzenie (DMX).W SQL Server 2008, można również sprawdzać zestawów wierszy schematu bezpośrednio jako tabele systemowe.

Powrót do początku

Przykładowa kwerenda 1: Pobieranie metadanych modelu przy użyciu DMX

Następująca kwerenda zwraca podstawowe metadane dotyczące klastrowanie model, TM_Clustering, utworzony w samouczek wyszukiwania danych podstawowych.Metadane dostępne w węźle nadrzędnym klastrowanie model zawiera nazwę modelu, gdzie przechowywane są modelu bazy danych i liczba węzłów podrzędność w modelu.Ta kwerenda używa kwerendy zawartości DMX do pobierania metadane z węzła nadrzędnego modelu:

SELECT MODEL_CATALOG, MODEL_NAME, NODE_CAPTION, 
NODE_SUPPORT, [CHILDREN_CARDINALITY], NODE_DESCRIPTION
FROM TM_Clustering.CONTENT
WHERE NODE_TYPE = 1

Ostrzeżenie

Nazwa kolumna CHILDREN_CARDINALITY, należy ująć w nawiasy, aby odróżnić go od wyrażeń wielowymiarowych (MDX) zarezerwowane słowo kluczowe o tej samej nazwie.

Przykład wyniki:

MODEL_CATALOG

TM_Clustering

NAZWA_MODELU

Adventure Works DW

NODE_CAPTION

Modelu klastra

NODE_SUPPORT

12939

CHILDREN_CARDINALITY

10

NODE_DESCRIPTION

Wszystko

Te kolumny oznacza w definicję klastrowanie modelu, zobacz Górnictwo modelu zawartości dla modeli klastra (Analysis Services - wyszukiwania danych).

Powrót do początku

Przykładowa kwerenda 2: Pobieranie metadanych modelu z zestawu wierszy schematu

Przez badanie zestaw wierszy schematu wyszukiwanie danych, można znaleźć informacje, które są zwracane w kwerendzie DMX zawartości.Jednak zestaw zestaw wierszy schematu zawiera niektóre dodatkowe kolumny.Należą do nich parametry, które były używane podczas tworzenia modelu, Data i czas że model został ostatnio przetwarzane i właściciela wzoru.

Poniższy przykład zwraca data utworzenia modelu, modyfikacji, i ostatnio przetwarzane razem z klastrowanie parametry używane do budowania modelu i rozmiaru zestaw szkoleniowy.Informacje te mogą być przydatne do dokumentowania modelu lub określania, które klastrowanie opcje były używane do tworzenia istniejącego modelu.

SELECT MODEL_NAME, DATE_CREATED, LAST_PROCESSED, PREDICTION_ENTITY, MINING_PARAMETERS 
from $system.DMSCHEMA_MINING_MODELS
WHERE MODEL_NAME = 'TM_Clustering'

Przykład wyniki:

NAZWA_MODELU

TM_Clustering

DATE_CREATED

10/12/2007 7:42:51 PM

LAST_PROCESSED

10/12/2007 8:09:54 PM

PREDICTION_ENTITY

Kupujący Bike

MINING_PARAMETERS

CLUSTER_COUNT = 10,

CLUSTER_SEED = 0,

CLUSTERING_METHOD = 1,

MAXIMUM_INPUT_ATTRIBUTES = 255,

MAXIMUM_STATES = 100,

MINIMUM_SUPPORT = 1,

MODELLING_CARDINALITY = 10,

SAMPLE_SIZE = 50 000,

STOPPING_TOLERANCE = 10

Powrót do początku

Znajdowanie informacji o klastrach

Najbardziej przydatne kwerendy zawartości na zwykle klastrowanie modeli zwracają ten sam rodzaj informacji, który można przeglądać za pomocą Viewer klastra.Obejmuje to profile klastra, właściwości klastra i klastra dyskryminacji.Ta sekcja zawiera przykładowe kwerendy pobierające informacje.

Przykładowa kwerenda 3: Zwracanie klastra lub listy klastrów

Ponieważ wszystkie klastry typ węzła 5, można łatwo pobrać listy klastrów przez badanie zawartości modelu tylko węzłów typu.Można także filtrować węzłów, które są zwracane przez prawdopodobieństwo lub wsparcia, jak w poniższym przykładzie.

SELECT NODE_NAME, NODE_CAPTION ,NODE_SUPPORT, NODE_DESCRIPTION
FROM TM_Clustering.CONTENT
WHERE NODE_TYPE = 5 AND NODE_SUPPORT > 1000

Przykład wyniki:

NAZWA_WĘZŁA

002

NODE_CAPTION

Klaster 2

NODE_SUPPORT

1649

NODE_DESCRIPTION

Angielski edukacji = stopień absolwenta, 32 <= wiek <= 48, będących własnością liczba samochodów = 0, 35964.0771121808 <= Roczny dochód <= 97407.7163393957, angielski przewoźnika = Professional odległość Commute = 2-5 mil, Region = Ameryki Północnej, kupujący Bike = 1, liczby dzieci w Główny = 0, liczba samochodów własnością = 1, odległość Commute = 0-1 mil Angielski edukacji = Bachelors dzieci całkowita = 1, liczby dzieci w Główny = 2, angielski przewoźnika = wykwalifikowanych stan cywilny, ręczne = S dzieci całkowita = 0, Flaga właściciela Główny = 0, płci = F całkowitą dzieci = 2, Region = Pacyfiku

Atrybuty, które definiują klastra można znaleźć w dwóch kolumnach w górnictwie danych zestaw zestaw wierszy schematu.

  • Kolumna NODE_DESCRIPTION zawiera rozdzielaną przecinkami listę atrybutów.Należy zauważyć, że lista atrybutów może zostać skrócona w celach wyświetlania.

  • Tabela zagnieżdżona kolumna NODE_DISTRIBUTION zawiera pełną listę atrybutów dla klastra.Jeśli klient nie obsługuje zestawów wierszy hierarchiczne, tabela zagnieżdżonej można powrócić przez dodanie słów kluczowych FLATTENED przed na liście kolumna.Aby uzyskać więcej informacji dotyczących używania słowa kluczowego FLATTENED, zobacz Wybierz z <model>.ZAWARTOŚĆ (DMX).

Powrót do początku

Przykładowa kwerenda 4: Zwracania atrybutów dla klastra

Dla każdego klastra Viewer klastra Wyświetla listę atrybutów i ich wartości profilu.Przeglądarka wyświetla również histogram, pokazujący rozmieszczenie wartości dla całej zapełnianie przypadków w modelu.Jeśli przeglądasz modelu w przeglądarce, można łatwo skopiować histogram z górnictwa legendy i wkleić go do programu Excel lub dokumentu programu Word.Za pomocą właściwości klastra okienku podglądu graficznie porównać atrybuty różnych klastrów.

Jednakże jeśli musisz uzyskać wartości dla więcej niż jednego klastra na czas, łatwiej kwerendy modelu.Na przykład podczas przeglądania modelu można zauważyć że dwa klastry różnią się w odniesieniu do jednego atrybut Number Cars Owned.Dlatego należy wyodrębnić wartości dla każdego klastra.

SELECT TOP 2 NODE_NAME, 
(SELECT ATTRIBUTE_VALUE, [PROBABILITY] FROM NODE_DISTRIBUTION WHERE ATTRIBUTE_NAME = 'Number Cars Owned')
AS t
FROM [TM_Clustering].CONTENT
WHERE NODE_TYPE = 5

Pierwszy wiersz kodu Określa, że górnej dwa klastry.

Ostrzeżenie

Domyślnie klastrów są uporządkowane według pomocy technicznej.Można pominąć kolumna NODE_SUPPORT.

Drugi wiersz kodu dodaje instrukcja sub-select, która zwraca tylko niektóre kolumna z kolumna tabela zagnieżdżonej.Ponadto, ogranicza ona wiersze z tabela zagnieżdżonej do tych związanych z atrybut miejsce docelowe Number Cars Owned.Aby uprościć wyświetlanie, tabela zagnieżdżonej jest aliasu.

Ostrzeżenie

kolumna tabela zagnieżdżonej PROBABILITY, musi być ujęty w nawiasy, ponieważ jest on również nazwę zarezerwowane słowo kluczowe MDX.

Przykład wyniki:

NAZWA_WĘZŁA

T.ATTRIBUTE_VALUE

T.PROBABILITY

001

2

0.829207754

001

1

0.109354156

001

3

0.034481552

001

4

0.013503302

001

0

0.013453236

001

Brak

0

002

0

0.576980023

002

1

0.406623939

002

2

0.016380082

002

3

1.60E-05

002

4

0

002

Brak

0

Powrót do początku

Przykładowa kwerenda 5: Procedury przechowywane w profilu klastra przy użyciu systemu zwrotu

Jako skrót, zamiast pisania własnych kwerend za pomocą DMX, można również wywołać procedury składowane w systemie , Usługi Analysis Services używa do pracy z klastrami.Poniższy przykład przedstawia sposób użycia wewnętrznych procedur przechowywanych do zwracania profilu dla klastra z Identyfikatorem 002.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterProfiles('TM_Clustering", '002',0.0005

Podobnie można użyć systemowa procedura składowana do zwrócenia właściwości określonego klastra, jak pokazano w następującym przykładzie:

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterCharacteristics('TM_Clustering", '009',0.0005

Przykład wyniki:

Atrybuty

Wartości

Częstotliwość

Obsługa

Liczba dzieci w Główny

0

0.999999829076798

899

Region

North America

0.999852875241508

899

Całkowita dzieci

0

0.993860958572323

893

Ostrzeżenie

Wyszukiwania danych procedury składowane w systemie są do użytku wewnętrznego i Microsoft zastrzega sobie prawo, w razie potrzeby zmień.Do użytku produkcyjnego zaleca się tworzenia kwerend za pomocą DMX, AMO lub XMLA.

Powrót do początku

Przykładowa kwerenda 6: Znajdź różnicująca czynników dla klastra

Dyskryminacji klastra karcie Viewer klastra pozwala łatwo porównać klastra z innego klastra lub porównać klastra z wszystkich pozostałych przypadkach (uzupełnienie klastra).

Jednak tworzenie kwerend, aby przywrócić te informacje mogą być złożone i może być konieczne niektóre dodatkowe przetwarzanie klient do przechowywania tymczasowych wyników i porównać wyniki dwóch lub więcej kwerend.Jako skrót, możesz wykorzystać procedury składowane w systemie.

Następująca kwerenda zwraca pojedynczej tabela, która wskazuje podstawowe czynniki różnicująca między dwa klastry, których identyfikatory 009 węzła i 007.Atrybuty z wartości dodatnie preferować w pełni klastra 009, należy preferować atrybuty o wartościach ujemnych w pełni klastra 007.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterDiscrimination('TM_Clustering','009','007',0.0005,true)

Przykład wyniki:

Atrybuty

Wartości

Wynik

Region

North America

100

Angielski przewoźnika

Ręczne wykwalifikowanych

94.9003803898654

Region

Europa

-72.5041051379789

Angielski przewoźnika

Ręczne

-69.6503163202722

Jest to informacje, które są prezentowane na wykresie Dyskryminacji klastra viewer wybranie 9 klastra z pierwszego drop -niedziałający listy i 7 klastra z drugiego drop -niedziałający listy.Aby porównać klastra 9 z jego dopełnieniem, używasz pusty ciąg w drugi parametr, jak pokazano w następującym przykładzie:

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterDiscrimination('TM_Clustering','009','',0.0005,true)

Ostrzeżenie

Wyszukiwania danych procedury składowane w systemie są do użytku wewnętrznego i Microsoft zastrzega sobie prawo, w razie potrzeby zmień.Do użytku produkcyjnego zaleca się tworzenia kwerend za pomocą DMX, AMO lub XMLA.

Powrót do początku

Przykładowa kwerenda 7: Zwracanie przypadkach należących do klastra

Jeśli włączono drążenia na model wyszukiwania, można utworzyć kwerendy zwracającej szczegółowe informacje o przypadkach używane w modelu.Ponadto jeśli włączono drążenia na struktura wyszukiwania, można dołączyć kolumny z podstawowej struktury za pomocą StructureColumn (DMX) funkcja.

Poniższy przykład zwraca dwie kolumna, które były używane w modelu, wiek i regionu i jedną więcej kolumna Imię, który nie był wykorzystywany w modelu.Kwerenda zwraca tylko przypadków, które zostały sklasyfikowane w 1 klastra.

SELECT [Age], [Region], StructureColumn('First Name')
FROM [TM_Clustering].CASES
WHERE IsInNode('001')

Aby przywrócić przypadkach należących do klastra, należy znać identyfikator klastra.Identyfikator klastra można uzyskać, przeglądając modelu w jednym widzów.Lub można zmienić nazwę klastra dla odwołania łatwiejsze, po którym można użyć nazwy zamiast numeru Identyfikacyjnego.Jednak znać nazwy, które można przypisać do klastra zostaną utracone, jeśli model jest ponownie przetwarzane.

Powrót do początku

Wprowadzanie przy użyciu modelu prognoz

Chociaż usługa klastrowania jest zazwyczaj używany do opisywania i zrozumienie danych Microsoft wykonania pozwala także na tworzenie przewidywanie dotyczące członkostwa klastrowanie i zwracają prawdopodobieństw związanych z przewidywanie.Ta sekcja zawiera przykłady sposobów tworzenia kwerend przewidywanie na klastrowanie modeli. Można wprowadzać prognoz w wielu przypadkach, określając tabelarycznego źródło danych lub można podać nowe wartości na na czas przez utworzenie kwerendy singleton.Dla jasności przykłady w tej sekcji są wszystkie kwerendy singleton.

Aby uzyskać więcej informacji na temat tworzenia kwerend przewidywanie przy użyciu DMX, zobacz Tworzenie kwerend przewidywania DMX.

Aby uzyskać informacje dotyczące tworzenia zapytań przewidywanie przy użyciu narzędzia graficzne w BI Development Studio, zobacz Górnictwo Model prognozowania kartę: Tematy dotyczące sposobów wykonywania określonych zadań.

Powrót do początku

Przykładowa kwerenda 8: Przewidywaniu wyników z modelu klastrowania

Jeśli klastrowanie modelu zawiera atrybut przewidywalny, aby przewidywanych wyników za pomocą modelu.Jednak model obsługuje atrybut przewidywalne zależy czy możesz zestaw przewidywalne kolumnę Predict lub PredictOnly.Jeśli użytkownik zestaw użycie kolumn do Predict, wartości dla atrybut są dodawane do modelu klastrowania i są wyświetlane jako atrybuty w gotowym modelu.Jednakże jeśli użytkownik zestaw użycie kolumn do PredictOnly, wartości nie są używane do tworzenia klastrów.Zamiast tego, po zakończeniu trybu klastrowanie algorytm tworzy nowe wartości dla PredictOnly atrybut oparte na klastry, do których należy każdorazowo.

Następująca kwerenda zawiera pojedynczy nowy przypadek do modelu, gdzie tylko informacje o przypadek jest wieku i płci.Instrukcja SELECT określa pary przewidywalne atrybut/wartość, która zainteresowani, oraz PredictProbability (DMX) funkcja informuje prawdopodobieństwo, że przypadek te atrybuty docelowego wyniku.

SELECT
  [TM_Clustering].[Bike Buyer], PredictProbability([Bike Buyer],1)
FROM
  [TM_Clustering]
NATURAL PREDICTION JOIN
(SELECT 40 AS [Age],
  'F' AS [Gender]) AS t

Przykład wyniki, gdy jest użycie zestaw do Predict:

Kupujący Bike

Wyrażenie

1

0.592924735740338

Przykład wyniki, gdy jest zestaw do PredictOnly i modelu jest ponownie przetwarzany:

Kupujący Bike

Wyrażenie

1

0.55843544003102

W tym przykładzie różnica w modelu nie jest znaczący.Czasami może być jednak ważne wykrywać różnice między rzeczywisty rozkład wartości i prognozuje modelu.PredictCaseLikelihood (DMX) Funkcja jest przydatna w tym scenariuszu, ponieważ informuje prawdopodobieństwa przypadek, podane modelu.

Numer, który jest zwracany przez PredictCaseLikelihood funkcja jest prawdopodobieństwem i dlatego jest zawsze między 0 i 1 o wartości 0,5 reprezentujących wyniku losowe.Dlatego wynik mniejszy niż 0,5 oznacza, że przypadek przewidywane jest mało prawdopodobne, podane w modelu i over.5 wynik wskazuje, że przewidywane sprawy jest bardziej prawdopodobne niż nie dopasowanie modelu.

Na przykład następujące kwerendy zwraca wartości dwóch charakteryzujących prawdopodobieństwo nowej próbce przypadek.Znormalizowane wartość reprezentuje prawdopodobieństwo, biorąc pod uwagę bieżącego modelu.Gdy kluczowe NORMALIZED wynik prawdopodobieństwo zwracana przez funkcja jest korygowana przez podzielenie "prawdopodobieństwa z modelem" przez "prawdopodobieństwo bez modelu".

SELECT
PredictCaseLikelihood(NORMALIZED) AS [NormalizedValue], PredictCaseLikelihood(NONNORMALIZED) AS [NonNormalizedValue]
FROM
  [TM_Clustering_PredictOnly]
NATURAL PREDICTION JOIN
(SELECT 40 AS [Age],
  'F' AS [Gender]) AS t

Przykład wyniki:

NormalizedValue

NonNormalizedValue

5.56438372679893E-11

8.65459953145182E-68

Należy zauważyć, że numery te wyniki są wyrażane w notacji naukowej.

Powrót do początku

Przykładowa kwerenda 9: Określanie członkostwa klastra

W tym przykładzie użyto Klaster (DMX) funkcja zwraca klastra, do którego nowy przypadek jest najprawdopodobniej należą i używa ClusterProbability (DMX) funkcja zwraca prawdopodobieństwo członkostwa w tym klastrze.

SELECT Cluster(), ClusterProbability()
FROM
  [TM_Clustering]
NATURAL PREDICTION JOIN
(SELECT 40 AS [Age],
  'F' AS [Gender],
  'S' AS [Marital Status]) AS t

Przykład wyniki:

$KLASTRA

Wyrażenie

Klaster 2

0.397918596951617

Uwagadomyślnie ClusterProbability funkcja zwraca prawdopodobieństwo najprawdopodobniej klastra.Jednak określić innego klastra przy użyciu składni ClusterProbability('cluster name').W tym celu należy pamiętać, że wyniki z poszczególnych funkcja przewidywanie są niezależne od innych wyników.Dlatego wynik prawdopodobieństwa w drugim kolumna może odwoływać się do klastra różny od klastra o nazwie w pierwszym kolumna.

Powrót do początku

Przykładowa kwerenda 10: Zwracanie wszystkich możliwych klastrów z prawdopodobieństwa i odległość

W poprzednim przykładzie wynik prawdopodobieństwo nie był bardzo wysoki.Do określenia, przypadek lepiej klastra, można użyć PredictHistogram (DMX) funkcji wraz z Klaster (DMX) funkcja zwraca zagnieżdżona tabela, która obejmuje wszystkich możliwych klastrów, wraz z prawdopodobieństwem, że nowa przypadek, należy do każdego klastra.Słowo kluczowe FLATTENED jest używana do zmiany hierarchiczną zestawu zestaw wierszy do tabela płaski dla ich łatwiejszego oglądania.

SELECT FLATTENED PredictHistogram(Cluster())
From
  [TM_Clustering]
NATURAL PREDICTION JOIN
(SELECT 40 AS [Age],
  'F' AS [Gender],
  'S' AS [Marital Status])

Wyrażenie.$ KLASTRA

Wyrażenie.$ odległość

Wyrażenie.$ prawdopodobieństwa

Klaster 2

0.602081403048383

0.397918596951617

Klaster 10

0.719691686785675

0.280308313214325

Klaster 4

0.867772590378791

0.132227409621209

Klaster 5

0.931039872200985

0.0689601277990149

Klaster 3

0.942359230072167

0.0576407699278328

Klaster 6

0.958973668972756

0.0410263310272437

Klaster 7

0.979081275926724

0.0209187240732763

Klaster 1

0.999169044818624

0.000830955181376364

Klaster 9

0.999831227795894

0.000168772204105754

Klaster 8

1

0

Domyślnie wyniki są uporządkowane według prawdopodobieństwa.Wyniki stwierdzić, nawet prawdopodobieństwo 2 klastra jest dość niski, 2 klastra jest nadal najlepszym dopasowanie nowych danych punktu.

Uwagadodatkowe kolumna, $DISTANCE, oznacza odległość od punktu danych do klastra.Domyślnie Microsoft klastrowanie EM skalowalne używa algorytmu klastrowanie, który przypisuje do każdego punktu danych wielu klastrów i klasyfikuje możliwe klastrów.Jednak jeśli tworzysz model klastrowania przy użyciu algorytmu k oznacza tylko jednego klastrowanie można przypisać do każdego punktu danych i ta kwerenda zwróci tylko jeden wiersz.Zrozumienie tych różnic jest konieczne do interpretacji wyniki PredictCaseLikelihood (DMX) funkcja.Aby uzyskać więcej informacji o różnicach między EM i środki k klastrowanie, zobacz Informacje techniczne algorytm klastrowania Microsoft.

Powrót do początku

Lista funkcji

Wszystkie Microsoft obsługę algorytmów wspólny zestaw funkcji.Jednak modele utworzonych za pomocą Microsoft algorytm klastrowania obsługuje dodatkowe funkcje, które są wymienione w poniższej tabela.

Aby uzyskać listę funkcji, które są wspólne dla wszystkich Microsoft modelu typów, zobacz Algorytm odniesienia (Analysis Services - wyszukiwania danych).Aby składni określonych funkcji, zobacz Odwołanie do funkcji rozszerzenia górnictwa (DMX) danych.