Górnictwo modelu zawartości dla modeli klastra (Analysis Services - wyszukiwania danych)

W tym temacie opisano model wyszukiwania zawartością specyficzną modeli używających algorytmu klastrowania firmy Microsoft.Wyjaśnienie ogólne model wyszukiwania zawartości dla wszystkich typów modelu, zobacz Górnictwo modelu zawartości (Analysis Services - wyszukiwania danych).

Opis struktury modelu klastrowania

A klastrowanie model ma strukturę proste.Każdy model ma węzeł nadrzędny pojedynczego, reprezentującą modelu i metadane i każdy węzeł nadrzędny ma płaskiej listy klastrów (NODE_TYPE = 5).Tej organizacji jest pokazany na poniższym obrazie.

struktura zawartości modelu na potrzeby klastrowania

Każdy węzeł podrzędność reprezentuje jeden klaster i zawiera szczegółowe informacje statystyczne dotyczące atrybutów przypadków w klastrze.Obejmuje to liczba przypadków w klastrze i dystrybucji wartości odróżnić klastra od innych klastrów.

Ostrzeżenie

Nie trzeba iterować przez węzły, aby uzyskać count lub Opis klastrów; węzeł nadrzędny modelu również zlicza i wyświetla listę klastrów.

Węzeł nadrzędny zawiera przydatne statystyki, opisujące rzeczywisty rozkład wszystkich przypadków szkolenia.Statystyki te znajdują się kolumna tabela zagnieżdżonej NODE_DISTRIBUTION.Na przykład w poniższej tabela przedstawiono kilka wierszy z tabela NODE_DISTRIBUTION, które opisują dystrybucji demograficzne nabywcy dla klastrowanie model, TM_Clustering, utworzone w Samouczek wyszukiwania danych podstawowych:

ATTRIBUTE_NAME

ATRIBUTE_VALUE

OBSŁUGA

PRAWDOPODOBIEŃSTWO

ODCHYLENIE

VALUE_TYPE

Wiek

Brak

0

0

0

1 (Brak)

Wiek

44.9016152716593

12939

1

125.663453102554

3 (Ciągłe)

Płeć

Brak

0

0

0

1 (Brak)

Płeć

P

6350

0.490764355823479

0

4 (Dyskretnych)

Płeć

M

6589

0.509235644176521

0

4 (Dyskretnych)

Z tych wyniki można zobaczyć, czy wystąpiły 12939 przypadkach używane do budowania modelu, stosunek samców do samic wynosiła około 50-50 i że średnia wieku został 44.Statystyka opisowa różnią się w zależności od tego, czy atrybut zgłaszana jest typu ciągłego dane liczbowe, takie jak wiek lub typ dyskretnych wartości, takie jak płci.Środki statystyczne oznacza i Odchylenie są obliczane dla typów danych ciągłych należy prawdopodobieństwo i obsługuje są obliczane dla typów danych dyskretnego.

Ostrzeżenie

Odchylenie reprezentuje odchylenia razem dla klastra.Wartość odchylenia jest małe, wskazuje, większość wartości kolumna były dość blisko do wartości średniej.Aby uzyskać odchylenia standardowego, należy obliczyć pierwiastek kwadratowy wariancji.

Należy zauważyć, że dla każdego z atrybut jest Missing Typ wartości, która informuje o liczbie spraw miał żadnych danych dla tego atrybut.Brakujące dane mogą być znaczące i wpływa na obliczenia na różne sposoby, w zależności od typu danych.Aby uzyskać więcej informacji, zobacz Brak wartości (Analysis Services - wyszukiwania danych).

Model zawartości dla modelu klastrowania

Ta sekcja zawiera szczegółowe i przykłady tylko dla tych kolumn w model wyszukiwania treści, które są istotne dla modeli klastrowanie.

Aby uzyskać informacje dotyczące ogólnego przeznaczenia kolumn w zestawie zestaw wierszy schematu, takie jak MODEL_CATALOG i nazwa_modelu, zobacz Górnictwo modelu zawartości (Analysis Services - wyszukiwania danych).

  • MODEL_CATALOG
    Nazwa bazy danych, w którym przechowywany jest model.

  • NAZWA_MODELU
    Nazwa modelu.

  • ATTRIBUTE_NAME
    Zawsze puste w modeli klastrowanie, ponieważ nie istnieje przewidywalny atrybut w trybie.

  • NAZWA_WĘZŁA
    Zawsze taki sam, jak NODE_UNIQUE_NAME.

  • NODE_UNIQUE_NAME
    Identyfikator unikatowy dla węzła w ramach modelu.Tej wartości nie można zmienić.

  • NODE_TYPE
    A klastrowanie modelu wyświetla następujące typy węzłów:

    Identyfikator węzła i nazwa

    Opis

    1 (Wzór)

    Węzeł główny dla modelu.

    5 (Klastra)

    Zawiera liczbę przypadków w klastrze, cech spraw w klastrze i statystyki, opisujące wartości w klastrze.

  • NODE_CAPTION
    Przyjazna nazwa w celach wyświetlania.Podczas tworzenia modelu wartość NODE_UNIQUE_NAME jest automatycznie używana jako podpis.Można jednak zmienić wartość NODE_CAPTION zaktualizować nazwę wyświetlaną dla klastra, programowo lub przy użyciu przeglądarki.

    Ostrzeżenie

    Gdy użytkownik ponownie przetwórz model, wszystkie zmiany nazwy zostaną zastąpione przez nowe wartości.Nie utrzymują nazwy modelu lub śledzić zmiany w członkostwie klastra między różnymi wersjami modelu.

  • CHILDREN_CARDINALITY
    Oszacowanie liczby dzieci, które ma węzła.

    Węzeł nadrzędny wskazuje liczbę klastrów w modelu.

    Węzłów klastrazawsze 0.

  • PARENT_UNIQUE_NAME
    Unikatowa nazwa węzła nadrzędnego.

    Węzeł nadrzędnyzawsze NULL

    Węzłów klastrazwykle 000.

  • NODE_DESCRIPTION
    Opis węzła.

    Węzeł nadrzędnyzawsze (wszystkie).

    Węzłów klastra rozdzielana przecinkami lista atrybutów podstawowego, które odróżnić klastra od innych klastrów.

  • NODE_RULE
    Nie używany dla modeli klastrowanie.

  • MARGINAL_RULE
    Nie używany dla modeli klastrowanie.

  • NODE_PROBABILITY
    Prawdopodobieństwo skojarzone z tym węzłem.Węzeł nadrzędnyzawsze 1.

    Węzłów klastrowanieprawdopodobieństwa reprezentuje prawdopodobieństwo mieszanek atrybutów z niektóre dostosowania, w zależności od algorytmu używanego do tworzenia klastrów modelu.

  • MARGINAL_PROBABILITY
    Prawdopodobieństwo osiągnięcia węzła z węzła nadrzędnego.W klastrowanie model prawdopodobieństwa kredytu marginalnego jest zawsze taka sama prawdopodobieństwa węzła.

  • NODE_DISTRIBUTION
    Tabela, która zawiera histogram prawdopodobieństwa węzła.

    Węzeł nadrzędnyZobacz wprowadzenie do tego tematu.

    Węzłów klastrareprezentuje dystrybucji atrybuty i wartości w przypadkach, uwzględnione w tym klastrze.

  • NODE_SUPPORT
    Liczba przypadków, które obsługują ten węzeł.Węzeł nadrzędnywskazuje liczbę przypadków szkolenia dla całego modelu.

    Węzłów klastra wskazuje rozmiar klastra jako liczba przypadków.

    Uwaga, jeśli model korzysta usługa klastrowania k oznacza, każdego przypadek może należeć tylko do jednego klastrowanie.Jednakże jeśli model korzysta usługa klastrowania EM, każdego przypadek może należeć do innego klastrowanie i przypadek jest przypisywana ważonej odległości dla każdego klastrowanie, do którego należy.Dlatego dla modeli EM suma obsługę pojedynczego klastra jest większa niż obsługę ogólny model.

  • MSOLAP_MODEL_COLUMN
    Nie używany dla modeli klastrowanie.

  • MSOLAP_NODE_SCORE
    Wyświetla wynik skojarzony z węzłem.

    Węzeł nadrzędnyBayesian informacji kryterium (BIC) wynik dla klastrowanie modelu.

    Węzłów klastrazawsze 0.

  • MSOLAP_NODE_SHORT_CAPTION
    Etykieta używana do wyświetlania.Nie można zmienić tego podpisu.

    Węzeł nadrzędny typu modelu: Modelu klastra

    Węzłów klastranazwę klastra.Przykład: Klaster 1.

Uwagi

Usługi Analysis Services zapewnia wiele metod tworzenia klastrowanie modelu.Jeśli nie wiesz, która metoda został użyty do utworzenia modelu, który pracuje z, można pobrać metadane modelu programowo, używając klient ADOMD lub AMO lub za pomocą kwerendy wyszukiwania danych zestaw zestaw wierszy schematu.Aby uzyskać więcej informacji, zobacz Jak Parametry używane do tworzenia modeli wyszukiwania kwerendy.

Ostrzeżenie

Struktura i zawartość modelu pozostają takie same, niezależnie od klastrowanie metoda lub parametry używane.