Artykuł
07/22/2011

Algorytm klastrowania Microsoft

Microsoft Algorytm klastrowanie jest algorytm segmentacja dostarczonych przez Usługi Analysis Services.Algorytm korzysta z techniki iteracji do przypadków grupy w elemencie dataset na klastry, które zawierają podobne cechy.Te grupy są przydatne do eksplorowania danych, identyfikujący anomalii w danych i tworzenia prognoz.

Modele klastrowania identyfikować relacje w zestawie danych, który użytkownik może logicznie pochodzi poprzez dorywczo obserwacji.Na przykład można logicznie wykrycia, że osoby wrócić do swoich zadań przez rowerów zazwyczaj nie mieszkają zamiejscowe, z którym pracują.Algorytm, jednak można znaleźć inne cechy dotyczące dojazdu roweru, które nie są tak oczywiste.Na poniższym diagramie klastra danych reprezentuje dotyczących osób, które mają tendencję do dysków pracę, klaster b reprezentuje dane dotyczące osób, które mają tendencję do jazdy rowerów do pracy.

Wzorzec klastra tendencji komunikacyjnych

Algorytm klastrowania różni się od innych algorytmów wyszukiwanie danych, takich jak Microsoft algorytm drzewa decyzji, nie trzeba wyznaczyć przewidywalna kolumna do budowania modelu klastrowania.klastrowanie Algorytm pociągów modelu ściśle z relacji, które istnieją w danych i klastrów, które identyfikuje algorytm.

Przykład

Należy wziąć pod uwagę grupy osób, kto udostępnić podobne informacje demograficzne i kto kupować podobnych produktów pochodzących z Adventure Works firmy.Ta grupa osób odpowiada klastra danych.Takie klastry mogą istnieć w bazie danych.Obserwując kolumny wchodzące w skład klastra, bardziej wyraźnie widać jak rekordów w zestawie danych są powiązane ze sobą.

Jak działa algorytm

Microsoft Algorytm klastrowania najpierw identyfikuje relacje w elemencie dataset i wygeneruje serię klastry oparte na tych relacjach.Wykres punktowy jest przydatny sposób wizualnego reprezentowania jak algorytm grupuje dane, jak pokazano na poniższym diagramie.Wykres punktowy reprezentuje wszystkich przypadkach zestaw danych i każdego przypadek jest punkt na wykresie.Klastry grupy punktów na wykresie oraz ilustrują relacji, które identyfikuje algorytm.

Wykres punktowy przypadków w zestawie danych

Po pierwszym zdefiniowaniu klastrów, algorytm oblicza się, jak również klastrów reprezentują grupy punktów i próbuje ponownie zdefiniować grupy Tworzenie klastrów, które lepiej przedstawiają dane.Algorytm iterację tego procesu, dopóki go nie bardziej poprawić wyniki poprzez przedefiniowanie klastrów.

Można dostosować sposób działania algorytmu wybierając Określanie klastrowanie technika, ograniczenie maksymalnej liczby klastrów lub zmiana kwota wsparcia, wymagane do utworzenia klastra.Aby uzyskać więcej informacji, zobacz Informacje techniczne algorytm klastrowania Microsoft.

Dane wymagane dla modeli klastrów

Podczas przygotowywania danych do użytku podczas szkolenia klastrowanie modelu, należy zrozumieć wymagania dotyczące określonego algorytmu, jak dużo danych jest wymagana i sposobu używania danych.

Wymagania dla klastrowanie modelu są następujące:

Jeden key kolumnakażdego modelu musi zawierać jedną kolumna liczbowe lub tekst, który unikatowo identyfikuje każdy rekord.Mieszanki klucze nie są dozwolone.
Wprowadzanie kolumnakażdy model musi zawierać co najmniej jedną kolumna danych wejściowych, zawierającą wartości, które są używane do tworzenia klastrów.Może mieć tyle wprowadzania kolumnas dowolną, ale w zależności od liczby wartości w każdym kolumna, dodanie dodatkowych kolumnas można zwiększyć czas szkolić modelu.
Przewidywalne kolumn opcjonalnychalgorytm nie jest konieczne przewidywalne kolumna do budowania modelu, ale można dodać przewidywalna kolumna niemal dowolnego typu danych.Wartości przewidywalna kolumna, mogą być traktowane jako dane wejściowe do klastrowanie modelu, lub można określić, że można użyć do przewidywanie tylko.Na przykład, jeśli chcemy prognozować dochód klienta przez klastrowanie na demograficzne, takie jak region lub wieku, należy określić dochodów jako PredictOnly i Dodaj wszystkie pozostałe kolumny, takie jak region lub wieku jako danych wejściowych.

Aby uzyskać więcej informacji na temat typów zawartości i typy danych obsługiwane dla modeli klastrowanie, zobacz sekcję wymagania dotyczące Informacje techniczne algorytm klastrowania Microsoft.

Wyświetlanie modelu klastrowania

Aby poznać modelu, można użyć Podgląd klastra firmy Microsoft.Podczas wyświetlania modelu klastrowania, Usługi Analysis Services pokazuje klastrów diagram przedstawia relacje między klastrów, a także zawiera szczegółowe profil każdy klaster listę atrybutów, które odróżniają każdy klaster od innych i cech całego zestaw danych szkoleniowych.Aby uzyskać więcej informacji, zobacz Wyświetlanie modelu górnictwo Viewer klastrowania firmy Microsoft.

Jeśli chcesz wiedzieć więcej szczegółów można przeglądać w modelu Ogólnej zawartości drzewa Podgląd programu Microsoft.Zawartość przechowywaną w modelu obejmuje dystrybucji dla wszystkich wartości w każdym węźle, prawdopodobieństwo każdy klaster i inne informacje.Aby uzyskać więcej informacji, zobacz Górnictwo modelu zawartości dla modeli klastra (Analysis Services - wyszukiwania danych).

Tworzenie prognoz

Po przeszkoleni modelu wyniki są przechowywane jako zestaw wzorców, które można eksplorować lub za pomocą prognoz.

Można tworzyć kwerendy, aby powrócić do przewidywanych czy nowych danych jest dopasowywana do klastrów, które zostały wykryte lub uzyskać Statystyki opisowe dotyczące klastrów.

Aby uzyskać informacje dotyczące sposobu tworzenia kwerend danych model wyszukiwania, zobacz Badanie modeli wyszukiwania danych (Analysis Services - wyszukiwania danych).Przykłady używania kwerend z klastrowanie modelu, zobacz Badanie modelu klastrowania (Analysis Services - wyszukiwania danych).

Uwagi

Obsługuje korzystanie z przewidywanych modelu Markup Language (PMML) do tworzenia modeli wyszukiwania.
Obsługuje przeglądanie szczegółowe.
Obsługuje korzystanie z modeli wyszukiwania OLAP i tworzenia wymiary wyszukiwanie danych.