Klasyfikacja macierzy (Analysis Services - wyszukiwania danych)

Macierzy klasyfikacji karcie Górnictwa wykresu dokładność kartę Projektant wyszukiwania danych Wyświetla macierz dla każdego modelu w Zaznaczenie wprowadzania kartę.Przeglądając wykres, który jest czasem określana jako macierzy pomyłki, można szybko sprawdzić, jak często modelu przewidywane dokładnie.

Wiersze dla każdej matrycy reprezentują przewidywane wartości modelu kolumn odzwierciedlają rzeczywiste wartości.Macierz klasyfikacji jest tworzony przez sortowanie wszystkich przypadkach w kategoriach: czy prognozowanej wartości dopasowywane wartości rzeczywistej i czy prognozowanej wartości było prawidłowe lub nieprawidłowe.Kategorie te są czasami zwane fałszywie pozytywna, dodatnia wartość true, fałszywe negatywne, i ujemna wartość true.Następnie uwzględniane są wszystkie przypadki w każdej kategorii, a sumy są wyświetlane w macierzy.

W tej sekcji wyjaśniono sposób tworzenia macierzy klasyfikacji oraz jak interpretować wyniki.

Ostrzeżenie

Macierz klasyfikacji można tylko z discrete atrybuty przewidywalne.

Scenariusz

Rozważmy na przykład model, który został utworzony jako część Samouczek wyszukiwania danych podstawowych.TM_DecisionTree Modelu, które ułatwiają tworzenie docelowej kampanii korespondencji może służyć do przewidywania, którzy są najprawdopodobniej kupić rower.Jeśli klient prawdopodobnie kupić rower wartość [Bike Buyer] jest kolumna 1; Jeśli klient jest mało prawdopodobne, aby kupić rower wartość [Bike Buyer] kolumna wynosi 0.

Aby ocenić, czy model jest skutecznie dokonywania przewidywań, przetestowanie jej przeciwko zestaw danych dla którego wartości [Bike Buyer] jest już znany.Zazwyczaj korzystają z zestaw danych testowania możesz odłogowanych podczas tworzenia struktura wyszukiwania używany do szkolenia modelu.Ponieważ danych już zawiera rzeczywiste wyniki, można szybko określić ile razy modelu przewidywane wartości oczekiwanej.

Opis macierzy klasyfikacji

W poniższej tabela przedstawiono wyniki po utworzeniu macierzy klasyfikacji dla modelu TM_DecisionTree.Ponieważ istnieją tylko dwie możliwe wartości dla tego atrybut przewidywalny, 0 i 1, jest dość łatwo określić, jak często modelu powoduje poprawnie przewidywanie.

Przewidywane

0 (Rzeczywiste)

1 (Rzeczywiste)

0

362

144

1

121

373

Komórka wynik pierwszej zawiera wartość 362, wskazuje liczbę pozytywy true na wartość 0.Ponieważ 0 oznacza klienta nie został zakupiony rowerów, ta statystyka informuje o poprawnej wartości dla innych niż kupujących rowerów w przypadkach 362 przewidywane modelu.

Komórka bezpośrednio pod że jeden, który zawiera wartość 121, informuje liczbę fałszywie, lub ile razy modelu przewidywane ktoś kupuje rowerów, gdy w rzeczywistości nie dochodziło.

Komórka zawierająca wartość 144 wskazuje liczbę fałszywie na wartość 1.Ponieważ 1 oznacza, że klient został zakupiony rowerów, Statystyka ta informuje że w przypadkach 144 modelu przewidywane, ktoś nie kupuje rowerów w fakt tak samo.

Wreszcie komórka zawierającą wartość 373 wskazuje liczbę true pozytywy o miejsce docelowe wartość 1.Innymi słowy w przypadkach 373 modelu poprawnie przewidywane ktoś kupuje rowerów.

Przez zsumowanie wartości w komórkach, które przylegają ukośnie, można ustalić ogólną dokładność modelu.Jednej przekątnej informuje całkowita liczba dokładnych prognoz i innych przekątnej pozwalają całkowita liczba błędnych prognoz.

Używając wielu wartości przewidywalne

przypadek [Bike kupujący] jest szczególnie łatwe do interpretacji, ponieważ istnieją tylko dwie możliwe wartości.Przewidywalne atrybut ma wiele możliwych wartości, dodaje nową kolumna dla każdego możliwego rzeczywistej wartości macierzy klasyfikacji i następnie zlicza dopasowania dla każdej prognozowanej wartości.W poniższej tabela przedstawiono wyniki na inny model, gdzie możliwe są trzy wartości (0, 1, 2).

Przewidywane

0 (Rzeczywiste)

1 (Rzeczywiste)

2 (Rzeczywiste)

0

111

3

5

1

2

123

17

2

19

0

20

Chociaż dodanie więcej kolumn tworzy raport wyglądały bardziej złożone, dodatkowych szczegółów mogą być bardzo użyteczne, gdy oszacowania kosztów dokonywania niewłaściwy przewidywanie.Tworzenie sum na przekątnych lub porównanie wyniki dla różnych kombinacji wierszy, można kliknąć kopię przycisku w Macierzy klasyfikacji kartę i wklej raport do programu Excel.Alternatywnie można użyć klienta, takiego jak klient wyszukiwania danych dla programu Excel, która obsługuje zarówno SQL Server 2005 i SQL Server 2008, aby utworzyć raport klasyfikacji bezpośrednio w programie Excel zawierającym liczby i wartości procentowe.Aby uzyskać więcej informacji, zobacz sql Server Data Mining.

Tworzenie matrycy klasyfikacji

Po utworzeniu macierzy klasyfikacji, wykonaj następujące czynności:

  1. W Górnictwa wykresu dokładność projektanta wyszukiwania danych, kliknij przycisk Zaznaczenie wprowadzania kartę.

  2. W Zaznaczenie wprowadzania , następnie wybierz model do oceny.

  3. Należy określić atrybut przewidywalny i, opcjonalnie, wartość przewidywalne.

  4. Wybierz zestaw danych w ocenie.

  5. Kliknij Macierzy klasyfikacji kartę, aby automatycznie wygenerować raport w formacie macierzy klasyfikacji.

Krok po kroku procedurę stosuje się do wszystkich typów wykresów, zobacz Jak Tworzenie wykresu dokładności modelu górnictwo.

Podstawowe dane samouczek górnictwa obejmuje również instruktażu, jak tworzyć wykres przyrostu dla modelu ukierunkowanych korespondencji.Aby uzyskać więcej informacji, zobacz Badanie dokładności z wykresami dźwigu (samouczek wyszukiwania danych podstawowych).