Algorytm skojarzenia Microsoft techniczne

Microsoft Algorytm skojarzenie reguł jest proste wykonania dobrze algorytm Apriori.

Obie Microsoft algorytm drzewa decyzji oraz Microsoft algorytm skojarzenie reguł można używać do analizowania skojarzeń, ale mogą być różne reguły, które znajdują się każdy algorytm.W modelu drzewa decyzji podziałów, które prowadzą do szczególnych zasad są oparte na informacji zysk w modelu skojarzeń reguł są całkowicie na podstawie ufności.Dlatego w skojarzeniu modelu, silne reguły lub takie, które ma wysoką ufności może nie koniecznie interesujące, ponieważ nie zapewnia nowe informacje.

Implementacja algorytmu skojarzenia Microsoft

Algorytm Apriori nie analizuje wzorców, ale raczej generuje i następnie zlicza itemsets kandydat.Element może reprezentować zdarzenie, produktu lub wartość atrybut, w zależności od typu danych, który jest analizowany.

W najczęściej spotykany typ zmienne typu wartość logiczna skojarzenia modelu reprezentująca tak/nie lub brak i istniejące wartości przypisanych do każdego atrybut, takie jak nazwa produktu lub zdarzenie.analiza koszyka zakupów jest przykładem modelu reguły skojarzenia, który używa zmienne typu wartość logiczna do reprezentowania obecności lub nieobecności poszczególnych produktów w koszyku klienta.

Dla każdego itemset algorytm tworzy reprezentujące wsparcia i ufności wyników.Te wyniki może służyć do rangi i pochodnymi interesujące zasady itemsets.

Skojarzenia modeli można utworzyć również atrybuty numeryczne.W przypadku ciągłego atrybuty mogą być numery discretized, lub zgrupowane w wiadrach.Wartości discretized następnie mogą być obsłużone, wartości logiczne lub jako pary atrybut wartość.

Obsługę, prawdopodobieństwa oraz znaczenia

Support, which issometimes referred to as frequency, means the number of cases that contain the targeted item or combination of items.Model może zawierać tylko te elementy, które mają co najmniej określona kwota wsparcia.

A itemset częste odnosi się do kolekcja elementów, gdy kombinacja elementów również obsługuje powyżej progu zdefiniowanym przez parametr MINIMUM_SUPPORT.Na przykład jeśli elementjest zestaw {A, B, C} i wartość MINIMUM_SUPPORT jest 10, poszczególnych element A, B i c muszą znajdować się przynajmniej 10 przypadków mają zostać uwzględnione w modelu i kombinacja elements {AB, C} musi również znajdować się w przypadku co najmniej 10.

Uwagamożna również kontrolować liczbę itemsets w model wyszukiwania przez określenie maksymalnej długości itemset, których długość oznacza liczbę elementów.

Domyślnie wsparcie dla określonego towaru lub itemset reprezentuje liczbę przypadków, które zawierają ten element lub elementy.Jednak można również wyrazić MINIMUM_SUPPORT jako procent całkowitej przypadkach zestaw danych wpisując liczbę jako wartość dziesiętna mniejsza niż 1.Na przykład jeżeli określono wartość MINIMUM_SUPPORT 0,03 oznacza że co najmniej 3% całkowitej przypadkach zestaw danych musi zawierać ten element lub itemset do włączenia w modelu.Należy wypróbować modelu, aby ustalić, czy liczba lub procent sensowny.

Natomiast wyrażone nie jako liczby lub wartości procentowej progu dla reguł, ale jako prawdopodobieństwa, czasami nazywane ufności.Na przykład jeśli itemset {A, B, C} występuje w przypadkach 50, ale itemset {A, B, D} występuje również w przypadkach 50 i itemset {A, B} w innym przypadku 50, jest oczywiste, że {A, B} nie jest silne predykcyjne {c}.Dlatego, waga poszczególnych wyników przeciwko wszystkie wyniki znane Usługi Analysis Services oblicza prawdopodobieństwo poszczególnych reguł (takich jak Jeśli {A, B}, a następnie {C}) przez podzielenie obsługę itemset {A, B, C} przez wsparcie dla wszystkich powiązanych itemsets.

Można ograniczyć liczbę reguł, które produkuje modelu, ustawiając wartość dla MINIMUM_PROBABILITY.

For each rule that is created, Usługi Analysis Services outputs a score that indicates its importance, which is also referred to as lift.Znaczenie dźwig jest obliczana inaczej dla itemsets i reguł.

Znaczenie itemset jest obliczana jako prawdopodobieństwo itemset podzielona przez złożone prawdopodobieństwo poszczególne elementy itemset.Na przykład, jeśli itemset zawiera {A, B} Usługi Analysis Services najpierw liczby przypadków, które zawierają kombinację tego a i B, która dzieli przez łączną liczbę spraw, a następnie normalizuje prawdopodobieństwa.

Znaczenie reguła oblicza się przez prawdopodobieństwo dziennika prawej reguła podana po lewej stronie reguły.Na przykład w regule If {A} Then {B}, Usługi Analysis Services oblicza stosunek przypadkach z a i b w przypadkach B, ale bez a i następnie normalizuje współczynnik ten przy użyciu skali logarytmicznej.

Wybieranie funkcji

Microsoft Algorytm skojarzenie reguł nie wykonuje wszelkiego rodzaju funkcję automatycznego wyboru.Zamiast tego algorytmu zawiera parametry sterujące dane używane przez algorytm.Może obejmować ograniczenia rozmiaru każdego itemset lub ustawienie obsługi maksymalne i minimalne wymagane, aby dodać do modelu itemset.

  • Aby odfiltrować elementy i zdarzenia, które są zbyt wspólne i dlatego uninteresting, zmniejsz wartość MAXIMUM_SUPPORT, aby usunąć bardzo często itemsets z modelu.

  • Aby odfiltrować elementy i itemsets, które są rzadko, zwiększ wartość MINIMUM_SUPPORT.

  • Aby odfiltrować reguł, należy zwiększyć wartość MINIMUM_PROBABILITY.

Dostosowywanie algorytm zasady stowarzyszenia Microsoft

Microsoft Algorytm skojarzenie reguł obsługuje kilka parametrów, które wpływają na zachowanie, wydajność i dokładność wyniku model wyszukiwania.

Ustawianie parametrów algorytmu

Można zmienić parametry modelu górnictwa w dowolnym czas przy użyciu projektanta wyszukiwania danych w Business Intelligence Development Studio. Można również zmienić parametry programowo za pomocą AlgorithmParameters kolekcja w AMO lub za pomocą Element MiningModels (ASSL) w XMLA. W poniższej tabela opisano każdy parametr.

Ostrzeżenie

Nie można zmienić parametry w istniejącego modelu przy użyciu instrukcja DMX; należy określić parametry w DMX tworzenia modelu lub zmienić STRUCTURE… MODEL dodać podczas tworzenia modelu.

  • MAXIMUM_ITEMSET_COUNT
    Określa maksymalną liczbę itemsets do produkcji.Jeśli numer nie zostanie określona, używana jest wartość domyślna.

    Wartość domyślna to 200000.

    Ostrzeżenie

    Itemsets są uporządkowane według pomocy technicznej.Wśród itemsets, które obsługują te same dowolnego jest zamawiania.

  • MAXIMUM_ITEMSET_SIZE
    Określa maksymalną liczbę elementów, które są dozwolone w itemset.Ustawienie wartości 0 określa, że nie istnieje limit rozmiaru itemset.

    Wartość domyślna to 3.

    Ostrzeżenie

    Zmniejszenie wartości potencjalnie może zmniejszyć czas wymagany do tworzenia modelu, ponieważ przetwarzania modelu zatrzymywany po osiągnięciu limitu.

  • MAXIMUM_SUPPORT
    Określa maksymalną liczbę przypadków, które ma itemset wsparcia.Ten parametr można wyeliminować elementy, które często pojawiają się i dlatego potencjalnie mają małe znaczenie.

    Jeśli ta wartość jest mniejsza niż 1, wartość stanowi procent całkowitego przypadkach.Wartości większe niż 1 reprezentują bezwzględną liczby przypadków, zawierających itemset.

    Wartość domyślna to 1.

  • MINIMUM_ITEMSET_SIZE
    Określa minimalną liczbę elementów, które są dozwolone w itemset.Zwiększenie tego numeru modelu może zawierać mniej itemsets.Może to być przydatne, jeśli chcesz ignorować na przykład pojedynczy element itemsets.

    Wartość domyślna to 1.

    Ostrzeżenie

    Nie można zmniejszyć czas przetwarzania modelu zwiększając wartość minimalna, ponieważ Usługi Analysis Services należy obliczyć prawdopodobieństwa dla pojedynczych zapasów mimo to jako część przetwarzania.Jednakże przez ustawienie wartości wyższej można odfiltrować mniejsze itemsets.

  • MINIMUM_PROBABILITY
    Określa minimalne prawdopodobieństwo, że reguła jest true.

    Na przykład jeśli użytkownik zestaw ta wartość 0,5 oznacza brak reguły o pięćdziesiąt procent prawdopodobieństwa mogą być generowane.

    Wartość domyślna to 0,4.

  • MINIMUM_SUPPORT
    Określa minimalną liczbę przypadków, które musi zawierać itemset przed algorytm generuje regułę.

    Jeśli użytkownik zestaw ta wartość mniejsza niż 1, minimalna liczba przypadków jest obliczana jako procent całkowitej przypadkach.

    Jeśli użytkownik zestaw ta wartość jest liczbą całkowitą większą niż 1, określa minimalną liczbę przypadków jest obliczany jako liczba przypadków, które musi zawierać elementzestaw.Algorytm automatycznie może zwiększyć wartość tego parametru, jeśli pamięć jest ograniczona.

    Wartość domyślna to 0,03.Oznacza to, że mają zostać uwzględnione w modelu, itemset musi znajdować się w co najmniej 3% przypadków.

  • OPTIMIZED_PREDICTION_COUNT
    Określa liczbę elementów pamięci podręcznej optymalizacji przewidywanie.

    Wartość domyślna to 0.Gdy używana jest domyślna, algorytm da tyle prognoz wymaganej w kwerendzie.

    Jeśli zostanie określona wartość niezerowa dla OPTIMIZED_PREDICTION_COUNT, przewidywanie kwerendy można zwracać najwyżej określoną liczbę elementów, nawet jeśli użytkownik zażąda dodatkowe prognoz.Jednak ustawienie wartości można zwiększyć wydajność przewidywanie.

    Na przykład, jeśli wartość jest zestaw 3, algorytm buforuje tylko 3 elementów przewidywanie.Nie widać prognoz dodatkowe, które mogą być równie prawdopodobne do 3 elementy, które są zwracane.

Modelowanie flag

Obsługiwane są następujące flagi modelowania do użytku z Microsoft algorytm skojarzenie reguł.

  • NOT NULL
    Wskazuje, że kolumna nie może zawierać wartość null.Spowoduje błąd, jeśli Usługi Analysis Services napotka null podczas szkolenia modelu.

    Stosuje się do struktura wyszukiwania kolumna.

  • MODEL_EXISTENCE_ONLY
    Oznacza, że kolumna będą traktowane jako posiadające dwa możliwe stany: Missingand Existing.Wartość null jest wartość Brak.

    Stosuje się do model wyszukiwania kolumna.

Wymagania

Modelu skojarzeń musi zawierać kolumna klucz, kolumny danych wejściowych i jednego przewidywalna kolumna.

Dane wejściowe i przewidywalny kolumn

Microsoft Obsługuje algorytm skojarzenie reguł określonych kolumn danych wejściowych i przewidywalny kolumn, które są wymienione w poniższej tabela.Więcej informacji o znaczeniu typów zawartości w model wyszukiwania, zobacz Typy zawartości (wyszukiwania danych).

Kolumna

Typy zawartości

Atrybut wejściowy

Cykliczne, dyskretnych, Discretized, klucz, tabeli zamówione

Przewidywalne atrybut

Cykliczne, dyskretnych, Discretized tabeli zamówione

Ostrzeżenie

Obsługiwane są typy zawartości Cyclical i Zamówione, ale algorytm traktuje je jako dyskretnych wartości i nie wykonuje przetwarzania specjalnego.