Udostępnij za pośrednictwem


Podczas badania modelu klastrowanie (Analysis Services — wyszukiwanie danych)

Podczas tworzenia kwerendy przed model wyszukiwanie danych, można pobrać metadane dotyczących modelu lub Utwórz kwerendę zawartości, która zawiera szczegółowe informacje dotyczące wzorców wykryte w analizie.Alternatywnie można utworzyć kwerendę przewidywanie, która używa desenie w modelu, aby prognoz dla nowych danych.Każdy typ kwerendy będzie zawierał różne informacje.Na przykład kwerendy zawartości może zawierać dodatkowe informacje szczegółowe na temat klastrów, które zostały wykryte, dlatego kwerendy przewidywanie może informować użytkownika do klastra nowy punkt danych jest najbardziej prawdopodobne należą.

W tej sekcji wyjaśniono, jak tworzyć kwerendy dla modeli, które są oparte na Microsoft Klastrowanie algorytmu.

Kwerendy zawartości

Pobieranie metadane modelu przy użyciu DMX

Kwerendy przewidywanie

Wyniki z modelu klastrowanie przewidywania

Znajdowanie informacji o modelu klastrowanie

Wszystkie modele górnictwo narazić rozpoznane przez algorytm zgodnie ze standardowym schematem, zestaw wierszy schematu model wyszukiwania zawartości.Można utworzyć kwerendy przed zestaw wierszy schematu model wyszukiwania przy użyciu instrukcji rozszerzenie do wyszukiwanie danych (DMX).W SQL Server 2008, można również wysyłać kwerendy zestawów wierszy schematu bezpośrednio jako tabele systemowe.

Przykładowa kwerenda 1: Pobieranie metadane modelu przy użyciu DMX

Następująca kwerenda zwraca podstawowe metadane dotyczące klastrowanie modelu TM_Clustering, utworzony w podstawowym samouczek wyszukiwanie danych. Metadane dostępne w węźle nadrzędnym klastrowanie model zawiera nazwę modelu bazy danych, w której przechowywane są w modelu i liczba węzłów podrzędność w modelu.Ta kwerenda używa kwerendy zawartości DMX pobrać metadane z węzła nadrzędnego modelu:

SELECT MODEL_CATALOG, MODEL_NAME, NODE_CAPTION, 
NODE_SUPPORT, [CHILDREN_CARDINALITY], NODE_DESCRIPTION
FROM TM_Clustering.CONTENT
WHERE NODE_TYPE = 1

Uwaga

Nazwa kolumna, CHILDREN_CARDINALITY, należy ująć w nawiasy, aby odróżnić go od wyrażenia MDX (Multidimensional) zarezerwowane słowo kluczowe o takiej samej nazwie.

Przykład wyniki:

MODEL_CATALOG

TM_Clustering

NAZWA_MODELU

Adventure Works DW

NODE_CAPTION

Model klastra

NODE_SUPPORT

12939

CHILDREN_CARDINALITY

10

NODE_DESCRIPTION

All

Te kolumny oznacza w definicji klastrowanie modelu, zobacz model wyszukiwania Zawartości dla klastrowanie modele (Analysis Services — wyszukiwanie danych).

Powrót do początku

Przykładowa kwerenda 2: Pobieranie metadane modelu z zestaw wierszy schematu

Za pomocą kwerend wysyłanych do zestaw zestaw wierszy schematu wyszukiwanie danych, można znaleźć informacje, które są zwracane w kwerendzie DMX zawartości.Jednak zestaw wierszy schemat zawiera kilka dodatkowych kolumn.Należą do nich parametry, które były używane podczas tworzenia modelu, Data i godzina ostatniego przetworzenia modelu, a właściciel modelu.

W poniższym przykładzie zwraca data utworzenia modelu, zmodyfikowane, i ostatnio przetwarzane razem z klastrowanie parametrów, które były używane do budowania modelu i rozmiaru zbioru szkolenia.Informacje te mogą być przydatne do dokumentowania modelu i określania, które opcje klastrowania użytych podczas tworzenia istniejącego modelu.

SELECT MODEL_NAME, DATE_CREATED, LAST_PROCESSED, PREDICTION_ENTITY, MINING_PARAMETERS 
from $system.DMSCHEMA_MINING_MODELS
WHERE MODEL_NAME = 'TM_Clustering'

Przykład wyniki:

NAZWA_MODELU

TM_Clustering

DATE_CREATED

10/12/2007 7:42:51 PM

LAST_PROCESSED

10/12/2007 8:09:54 PM

PREDICTION_ENTITY

Rower kupujących

MINING_PARAMETERS

CLUSTER_COUNT = 10,

CLUSTER_SEED = 0,

CLUSTERING_METHOD = 1,

MAXIMUM_INPUT_ATTRIBUTES = 255,

MAXIMUM_STATES = 100,

MINIMUM_SUPPORT = 1,

MODELLING_CARDINALITY = 10,

SAMPLE_SIZE = 50 000,

STOPPING_TOLERANCE = 10

Powrót do początku

Znajdowanie informacji dotyczących klastrów

Najbardziej przydatne kwerendy zawartości na zwykle klastrowanie modeli zwracają ten sam rodzaj informacji, które można przeglądać za pomocą Podgląd klastra.Obejmuje to profile klastra, właściwości klastra i klastra dyskryminacji.W tej sekcji podano przykłady kwerend, które pobrać tych informacji.

Przykładowa kwerenda 3: Zwracanie klaster lub listy klastrów

Ponieważ wszystkie klastry typu węzła, 5, można łatwo pobrać listy klastrów za pomocą kwerend wysyłanych do zawartości modelu dla węzłów tego typu.Można także filtrować węzłów, które są zwracane przez prawdopodobieństwo lub pomocy technicznej, jak pokazano w poniższym przykładzie.

SELECT NODE_NAME, NODE_CAPTION ,NODE_SUPPORT, NODE_DESCRIPTION
FROM TM_Clustering.CONTENT
WHERE NODE_TYPE = 5 AND NODE_SUPPORT > 1000

Przykład wyniki:

NAZWA_WĘZŁA

002

NODE_CAPTION

Klaster 2

NODE_SUPPORT

1649

NODE_DESCRIPTION

Język angielski edukacji = absolwenta stopień, 32 <= Wieku <= 48, Liczba samochodów posiadane = 0, 35964.0771121808 <= Roczny przychód <= 97407.7163393957, Zawód języka angielskiego = Professional Commute odległość = mile 2-5, region = USA, Bike kupującego = 1, liczba dzieci At Główny = 0, liczba samochodów posiadane = 1, odległość Commute = 0-1 mile, edukacja w języku angielskim = Bachelors dzieci razem = 1, liczba dzieci At Główny = 2, zawód języka angielskiego = wykwalifikowany stan cywilny, ręczne = S dzieci razem = 0, Flaga właściciela Główny = 0, płeć = F i Suma elementy podrzędne = 2, region = Pacyfiku

Atrybuty, które definiują klastra znajdują się w dwóch kolumnach w zestawie zestaw wierszy schematu wyszukiwanie danych.

  • Kolumna NODE_DESCRIPTION zawiera rozdzielaną przecinkami listę atrybutów.Należy zauważyć, że lista atrybutów może być podana w celach wyświetlania.

  • Tabela zagnieżdżona kolumna NODE_DISTRIBUTION zawiera pełną listę atrybutów dla klastra.Jeśli Twój klient nie obsługuje hierarchiczny wierszy w tabela zagnieżdżonej można powrócić przez dodanie kluczowych FLATTENED przed liście kolumn SELECT.Aby uzyskać więcej informacji na temat użycia słowa kluczowego FLATTENED zobacz Model, SELECT FROM < > .CONTENT (DMX).

Powrót do początku

Przykładowa kwerenda 4: Zwracania atrybutów dla klastrowania

Dla każdego klastra Podgląd klastra Wyświetla profil, który wyświetla listę atrybutów i ich wartości.Przeglądarka wyświetla także histogram, który pokazuje rozłożenie wartości dla całej zapełnianie spraw w modelu.Przeglądania modelu w przeglądarce, można łatwo skopiować histogram z wyszukiwania legendy i wkleić go do programu Excel lub dokument programu Word.W okienku właściwości klastra podglądu umożliwia także porównanie graficznie atrybuty różnych klastrów.

Jednak jeśli należy uzyskać wartości dla więcej niż jednego klastra w czas, łatwiej kwerendy modelu.Na przykład podczas przeglądania w modelu, można zauważyć że dwa górne klastry różnią się w odniesieniu do jednego atrybut Number Cars Owned. W związku z tym które mają zostać wyodrębnione wartości dla każdego klastra.

SELECT TOP 2 NODE_NAME, 
(SELECT ATTRIBUTE_VALUE, [PROBABILITY] FROM NODE_DISTRIBUTION WHERE ATTRIBUTE_NAME = 'Number Cars Owned')
AS t
FROM [TM_Clustering].CONTENT
WHERE NODE_TYPE = 5

W pierwszym wierszu kod określa, że górny dwa klastry.

Uwaga

Domyślnie klastrów są uporządkowane według pomocy technicznej.Można pominąć kolumna NODE_SUPPORT.

Drugi wiersz kodu dodaje sub-select instrukcja, która zwraca tylko niektóre kolumna z kolumna w tabela zagnieżdżonej.Ponadto go ogranicza wiersze z tabela zagnieżdżonej do powiązanych z atrybut lokalizacji miejsce docelowe Number Cars Owned. Aby uprościć wyświetlania, w tabela zagnieżdżonej jest aliasu.

Uwaga

kolumna tabela zagnieżdżonej PROBABILITY, muszą być ujęte w nawiasy kwadratowe, ponieważ jest on także nazwę zarezerwowane słowo kluczowe MDX.

Przykład wyniki:

NAZWA_WĘZŁA

T.ATTRIBUTE_VALUE

T.PROBABILITY

001

2

0.829207754

001

1

0.109354156

001

3

0.034481552

001

4

0.013503302

001

0

0.013453236

001

Brak

0

002

0

0.576980023

002

1

0.406623939

002

2

0.016380082

002

3

1.60E - 05

002

4

0

002

Brak

0

Powrót do początku

Przykładowa kwerenda 5: Zwracanie profil klastra przy użyciu procedury składowane w systemie

Jako skrót, zamiast pisania własnych kwerendy przy użyciu DMX można również wywołać procedury składowane w systemie Analysis Services używane do pracy z klastrami. Poniższy przykład ilustruje sposób użycia wewnętrznych procedur przechowywanych do zwracania profilu dla klastra z IDENTYFIKATOREM 002.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterProfiles("TM_Clustering", '002',0.0005)

Podobnie umożliwia systemowa procedura składowana zwracają charakterystyki określonego klastra, jak pokazano w poniższym przykładzie:

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterCharacteristics("TM_Clustering", '009',0.0005)

Przykład wyniki:

Atrybuty

Values

Częstotliwość

Pomoc techniczna

Liczba dzieci w Główny

0

0.999999829076798

899

Region

Ameryka Północna

0.999852875241508

899

Całkowita elementy podrzędne

0

0.993860958572323

893

Uwaga

Wyszukiwania danych procedury składowane w systemie przeznaczone do użytku wewnętrznego i Microsoft zastrzega sobie prawo do ich w razie potrzeby zmienić. Do użytku produkcyjnego zaleca się tworzenie kwerendy za pomocą DMX AMO i XMLA.

Powrót do początku

Przykładowa kwerenda 6: Znajdowanie różnicująca czynniki klastrowania

The Cluster Discrimination tab of the Cluster Viewer enables you to easily compare a cluster with another cluster, or compare a cluster with all remaining cases (the complement of the cluster).

Jednak tworzyć kwerendy, aby przywrócić te informacje mogą być złożone i może być konieczne niektóre dodatkowe przetwarzanie na komputerze klienckim do przechowywania tymczasowych wyników i porównać wyniki dwóch lub więcej kwerend.Jako skrót, możesz wykorzystać procedury składowane w systemie.

Następująca kwerenda zwraca pojedynczej tabela, która wskazuje podstawowy różnicująca czynników, między dwa klastry, które mają węzeł ID 009 i 007.Atrybuty z wartości dodatnie preferować klastra 009, dlatego atrybutów o wartościach ujemnych preferować klastra 007.

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterDiscrimination('TM_Clustering','009','007',0.0005,true)

Przykład wyniki:

Atrybuty

Values

Wynik

Region

Ameryka Północna

100

Angielski, zawód

Ręczne wykwalifikowanych

94.9003803898654

Region

Europa

-72.5041051379789

Angielski, zawód

Ręczne

-69.6503163202722

Jest to te same informacje, które są prezentowane na wykresie Dyskryminacji klastra podglądu po wybraniu 9 klastrów z pierwszej listy rozwijanej i 7 klastrów z drugiej listy rozwijanej.Aby porównać 9 klastrów z jego dopełnieniem, jak to pokazano w poniższym przykładzie należy użyć pusty ciąg znaków w drugi parametr:

CALL System.Microsoft.AnalysisServices.System.DataMining.Clustering.GetClusterDiscrimination('TM_Clustering','009','',0.0005,true)

Uwaga

wyszukiwanie danych systemu zapisane procedury są do użytku wewnętrznego i Microsoft zastrzega sobie prawo do zmiany argumentów lub zachowanie stosownie do potrzeb. Do użytku produkcyjnego zaleca się tworzenie kwerendy za pomocą DMX AMO i XMLA.

Powrót do początku

Przykładowa kwerenda 7: Zwracanie sprawy, które należą do klastrowania

Jeśli przeglądanie szczegółowe została włączona na tym model wyszukiwania, można utworzyć kwerendy zwracającej szczegółowe informacje na temat przypadkach używane w modelu.Ponadto, jeśli przeglądanie szczegółowe została włączona na struktura wyszukiwania, można dołączyć kolumny z podstawową strukturę przy użyciu StructureColumn (DMX) Funkcja.

W poniższym przykładzie zwraca dwie kolumna, które były używane w modelu, wiek i region i jedną kolumna więcej, imię, która nie została użyta w modelu.Kwerenda zwraca tylko sprawy, które zostały zaklasyfikowane do klastrowania 1.

SELECT [Age], [Region], StructureColumn('First Name')
FROM [TM_Clustering].CASES
WHERE IsInNode('001')

Aby przywrócić sprawy, które należą do klastra, należy znać identyfikator klastra.Identyfikator klastra, można uzyskać, przeglądając modelu w jednym z przeglądarki.Ewentualnie można zmienić nazwę klastra dla odwołania łatwiejsze, po upływie którego można użyć nazwy zamiast numeru IDENTYFIKACYJNEGO.Jednak wiedzieć, że nazwy, które można przypisać do klastra zostaną utracone, jeśli model jest ponownie przetwarzany.

Tworzenie przy użyciu modelu prognoz

Chociaż klastrowanie jest zazwyczaj używany do opisu i zrozumienie danych, Microsoft implementacja umożliwia również tworzenie przewidywanie dotyczące członkostwa klastra, a następnie zwrócić prawdopodobieństw związanych z przewidywanie. W tej sekcji podano przykłady sposobów tworzenia kwerend przewidywanie na klastrowanie modeli.Istnieje możliwość prognoz w wielu przypadkach, określając tabelarycznego urządzenie źródłowe danych lub można wprowadzać nowe wartości w w danej chwili przez utworzenie kwerendy pojedynczych.Dla jasności przykłady w tej sekcji są wszystkie kwerendy pojedynczych.

Aby uzyskać więcej informacji na temat tworzenia zapytań przewidywanie przy użyciu DMX zobacz Tworzenie DMX przewidywanie kwerendy.

Aby uzyskać informacje na temat tworzenia zapytań przewidywanie za pomocą narzędzi graficznych w BI Development Studio, zobacz model wyszukiwania przewidywanie karty: Tematy dotyczące sposobów wykonywania określonych zadań.

Powrót do początku

Przykładowa kwerenda 8: Przewidywana wyniki z klastrowanie model

Jeśli klastrowanie tworzenia modelu zawiera atrybut przewidywalny, tworzenie prognoz dotyczących wyników za pomocą modelu.Ale modelu obsługuje atrybut przewidywalny sposób zależności od tego, czy użytkownik zestaw przewidywalne kolumna Predict lub PredictOnly. Jeśli wybrana opcja użycia kolumna na Predict, wartości dla tego atrybut są dodawane do klastrowanie modelu i są wyświetlane jako wartości atrybut w gotowym modelu. Jednak jeśli użytkownik zestaw użycie przez kolumna PredictOnly, wartości nie są używane do tworzenia klastrów. Zamiast tego, po zakończeniu pracy w trybie algorytm klastrowania tworzy nowe wartości dla PredictOnly atrybut oparte na klastry, z których każdy przypadek należy.

Następująca kwerenda zawiera jedną nową sprawę do modelu, w których informacje tylko przypadek jest wieku i płci.Instrukcja SELECT określa pary przewidywalne atrybut/wartość, która jest zainteresowany, oraz PredictProbability (DMX) Funkcja pozwalają określić prawdopodobieństwo przypadek z tych atrybutów ma docelowego wyniku.

SELECT
  [TM_Clustering].[Bike Buyer], PredictProbability([Bike Buyer],1)
FROM
  [TM_Clustering]
NATURAL PREDICTION JOIN
(SELECT 40 AS [Age],
  'F' AS [Gender]) AS t

Przykład wyniki w przypadku użycia jest zestaw do Predict:

Rower kupujących

Expression

1

0.592924735740338

Przykład wyniki w przypadku użycia jest ustawiona na PredictOnly i jest ponownie przetwarzany modelu:

Rower kupujących

Expression

1

0.55843544003102

W tym przykładzie różnicę w modelu nie ma znaczenia.Jednak czasami może być ważny do wykrywać różnic między rzeczywistej dystrybucji wartości i przewiduje modelu.The PredictCaseLikelihood (DMX) funkcja is useful in this scenario, because it tells you how likely a przypadek is, given the model.

Numer, który jest zwracany przez PredictCaseLikelihood funkcja jest to prawdopodobieństwo i w związku z tym jest zawsze od 0 do 1, o wartości 0,5 stanowiących losowe wyniku. W związku z tym wynik mniejsze niż 0,5 oznacza, że przypadek przewidywane jest mało prawdopodobne, biorąc pod uwagę w modelu i wynik nad 0,5 oznacza, że przypadek przewidywane częściej niż przypadek losowe.

Na przykład poniższa kwerenda zwraca dwie wartości, jaką charakteryzuje się prawdopodobieństwo nową sprawę w próbce.Wartość nie znormalizowane reprezentuje prawdopodobieństwo, biorąc pod uwagę bieżący model.Używając słowa kluczowego NORMALIZED, wynik prawdopodobieństwa, która jest zwracana przez funkcja jest korygowana przez podzielenie "prawdopodobieństwo z modelem"prawdopodobieństwo bez modelu przez „".

SELECT
PredictCaseLikelihood(NORMALIZED) AS [NormalizedValue], PredictCaseLikelihood(NONNORMALIZED) AS [NonNormalizedValue]
FROM
  [TM_Clustering_PredictOnly]
NATURAL PREDICTION JOIN
(SELECT 40 AS [Age],
  'F' AS [Gender]) AS t

Przykład wyniki:

NormalizedValue

NonNormalizedValue

5.56438372679893E - 11

8.65459953145182E - 68

Należy zauważyć, że numery w te wyniki są wyrażane w notacji naukowej.

Powrót do początku

Przykładowa kwerenda 9: Określanie członkostwa klastra

W tym przykładzie użyto Klaster (DMX) funkcja zwracająca klastra, do którego jest najbardziej prawdopodobne należą nowej przypadek i zastosowań ClusterProbability (DMX) funkcja zwraca prawdopodobieństwo dla członkostwa w klastrze.

SELECT Cluster(), ClusterProbability()
FROM
  [TM_Clustering]
NATURAL PREDICTION JOIN
(SELECT 40 AS [Age],
  'F' AS [Gender],
  'S' AS [Marital Status]) AS t

Przykład wyniki:

$ KLASTRA

Expression

Klaster 2

0.397918596951617

Uwaga   Domyślnie, ClusterProbability funkcja zwraca prawdopodobieństwo najprawdopodobniej klastra. Jednak określić innego klastra przy użyciu składni ClusterProbability('cluster name'). W tym celu należy pamiętać, że wyniki z poszczególnych funkcja przewidywanie są niezależne od innych wyników.Dlatego wyniku prawdopodobieństwo w drugiej kolumnie można odwoływać się do klastra różny od klastra o nazwie w pierwszej kolumnie.

Powrót do początku

Przykładowa kwerenda 10: Zwraca wszystkie możliwe klastrów z prawdopodobieństwo i odległość

W poprzednim przykładzie w wyniku prawdopodobieństwo nie bardzo wysoki.Aby określić, przypadek klastra lepiej, można użyć PredictHistogram (DMX) działa razem z Klaster (DMX) funkcja zwracająca zagnieżdżonej tabela, która zawiera wszystkie możliwe klastry, wraz z prawdopodobieństwem, że nowe przypadek, należy do każdego klastra. Słowo kluczowe FLATTENED zostanie zastosowana do zmiany hierarchiczną zestawu zestaw wierszy do tabela płaski dla ich łatwiejszego oglądania.

SELECT FLATTENED PredictHistogram(Cluster())
FROM
  [TM_Clustering]
NATURAL PREDICTION JOIN
(SELECT 40 AS [Age],
  'F' AS [Gender],
  'S' AS [Marital Status])
AS t

Wyrażenie. $ CLUSTER

Wyrażenie. $ odległości

Wyrażenie. $ prawdopodobieństwo

Klaster 2

0.602081403048383

0.397918596951617

Klaster 10

0.719691686785675

0.280308313214325

Klaster 4

0.867772590378791

0.132227409621209

Klaster 5

0.931039872200985

0.0689601277990149

Klaster 3

0.942359230072167

0.0576407699278328

Klaster 6

0.958973668972756

0.0410263310272437

Klaster 7

0.979081275926724

0.0209187240732763

Klaster 1

0.999169044818624

0.000830955181376364

Klaster 9

0.999831227795894

0.000168772204105754

Klaster 8

1

0

Domyślnie wyniki są uporządkowane według prawdopodobieństwa.Wyniki informujący, że chociaż prawdopodobieństwo Cluster 2 jest dość niski, 2 klastra nadal najlepiej nadaje się do nowego punktu danych.

Uwaga   Dodatkowe kolumna, $DISTANCE, zawiera odległość, o jaką punktu danych do klastra. Domyślnie Microsoft Klastrowanie algorytm używa skalowalne klastrowanie EM, które przypisuje wielu klastrów każdy punkt danych i prowadzi ranking możliwe klastrów. Jednak po utworzeniu sieci klastrowanie modelu przy użyciu algorytmu K oznacza tylko do jednego klastra można przypisać do każdego punktu danych, a ta kwerenda zwróci tylko jeden wiersz.Zrozumienie tych różnic jest niezbędne do interpretacji wyniki PredictCaseLikelihood (DMX) Funkcja. Aby uzyskać więcej informacji na temat różnic między EM i K-oznacza klastrowanie zobacz Informacje techniczne algorytm klastrowanie Microsoft.

Powrót do początku

Lista funkcja

Wszystkie Microsoft algorytmy obsługują wspólny zestaw funkcji. Jednak modele, które są wbudowane przy użyciu Microsoft Algorytm obsługę klastrowania w dodatkowych funkcji, które są wymienione w poniższej tabela.

Aby uzyskać listę funkcji, które są wspólne dla wszystkich Microsoft typy modelu, zobacz Algorytm Reference (Analysis Services — wyszukiwanie danych). Aby zapoznać się ze składnią określonych funkcji zobacz Odwołanie do funkcja wyszukiwanie danych rozszerzeń (DMX).

Historia zmian

Microsoft Learning

Poprawione błędy składni w przykładach kodu dla przykładowe kwerendy, 4, 5 i 10.

Dodano łącza w temacie Aby ułatwić przejście do próbek kwerendy.