Raport sprawdzania poprawności krzyżowych (Analysis Services - wyszukiwania danych)

Krzyżowo umożliwia dzielenia struktura wyszukiwania na przekrój poprzeczny i wielokrotnie powtarzane szkolić i testowania modeli przed każdym przekroju danych.You specify several partitions to divide the data into, and each partition is used in turn as the test data, while the remaining data is used to train a new model.Usługi Analysis Services then generates a set of standard accuracy metrics for each model.Przez porównanie miar dla modeli generowane dla każdego przecięcia, można uzyskać z wiarygodnych jak dobrze model wyszukiwania dla całego zestaw danych.

Ostrzeżenie

Sprawdzanie poprawności krzyżowe nie korzystać z dowolnego modelu, który zawiera kolumna klucza czasu lub SEKWENCJĘ klawiszy.

Informacje przedstawione w tej sekcji wyjaśniono, Krzyżowo sprawozdanie z Górnictwa wykresu dokładność kartę Projektant wyszukiwania danych.Aby uzyskać informacje dotyczące tworzenia raportu, zobacz Karta krzyżowo (widok Wykres górnictwo dokładność).

Tworzenie raportu krzyżowo

Do sprawdzania krzyżowe skojarzone z modeli wyszukiwania struktura wyszukiwania, albo użyj Krzyżowo kartę Widok dokładności górnictwa w danych, Projektant górniczych lub procedur przechowywanych krzyżowo skonfigurować następujące opcje:

  • Określ liczbę zgięcia.

  • Określ maksymalną liczbę przypadków dla krzyżowe sprawdzanie poprawności.Liczba ta jest dzielona przez liczbę zgięcia.

  • Określ przewidywalna kolumna.Opcjonalnie można określić stan przewidywalny.

Ostrzeżenie

Jeśli Twój struktura wyszukiwania zawiera klastrowanie modeli, określ #Cluster zamiast przewidywalna kolumna.Raport zwraca wyniki tylko dla modeli klastrowanie.

  • Opcjonalnie zestaw parametry, które kontrolują sposób oceny dokładności przewidywanie.

Wybieranie zestawu danych krzyżowo

Podczas korzystania z Krzyżowe sprawdzanie poprawności karcie Górnictwa wykresu dokładność wyświetlanie, istnieją dwa sposoby kontroli ilości i typu danych, który jest używany podczas sprawdzania poprawności krzyżowych: można określić liczbę zgięcia i można ograniczyć liczbę przypadków.Domyślnie krzyżowe sprawdzanie poprawności w Business Intelligence Development Studio używa przypadkach szkolenia dla każdego modelu.Jeśli filtr jest skojarzone z modelem, filtr jest stosowany.

Liczba składanie wartość określa liczbę przekrój poprzeczny Tworzenie zestaw danych.Każdy składanie jest używany jako badanie zestaw danych, i dane w pozostałych zgięcia jest używany do szkolić nowego modelu.Dlatego jeśli użyto minimalna wartość 2 połowy zestaw danych byłyby używane do testowania i druga połowa szkolenia.

Jeśli struktura wyszukiwania nie jest przechowywana w wystąpienie z Usługi Analysis Services, ale utworzony tymczasowy lub struktury sesja jest maksymalna liczba zgięcia, których można użyć 10.Jeśli struktura wyszukiwania jest przechowywany w wystąpienie z Usługi Analysis Services, nie można utworzyć zgięcia więcej niż przypadkach.Jeśli liczba przypadków jest mniejsza niż liczba zostanie zestaw składanie liczba mniejszym numer jest używany.

Ostrzeżenie

Jak zwiększyć liczbę zgięcia, czas jest wymagane do przeprowadzenia krzyżowe sprawdzanie poprawności odpowiednio wzrasta, ponieważ model musi być generowane i badane na każdym składanie.Jeśli jest zbyt duża liczba zgięcia mogą wystąpić problemy z wydajnością.

Przypadkach Max wartość określa całkowitą liczbę przypadków we wszystkich zgięcia, które mogą być używane dla krzyżowe sprawdzanie poprawności.Dlatego liczba przypadków w żadnych szczególnych składanie jest równa Przypadkach Max wartości podzielona przez Liczba składanie wartości.Wartością domyślną jest 0, co oznacza, że wszystkie przypadki, w struktura wyszukiwania są używane.

Jeśli krzyżowe sprawdzanie poprawności przy użyciu jednej z procedur przechowywanych, podać wartości FoldCount i MaxCases właściwości jako parametry procedura składowana.

Ostrzeżenie

Jeśli używasz krzyżowe sprawdzanie poprawności procedur przechowywanych, można również ustawić parametr DataSet, aby zdefiniować zestaw danych używanych do testowania.Opcje dla zestaw danych obejmują tylko zestaw szkolenia, badań i szkolenia zestawu i kombinacji kształcenia i testowania zestaw z model wyszukiwania filtrów.Aby uzyskać więcej informacji, zobacz SystemGetCrossValidationResults (Analysis Services - wyszukiwania danych).

Wybór modeli i kolumny, aby sprawdzić poprawność

Podczas korzystania z Krzyżowe sprawdzanie poprawności kartę w projektancie wyszukiwania danych, należy najpierw zaznaczyć przewidywalna kolumna z listy.Zazwyczaj struktura wyszukiwania może obsługiwać wiele modeli wyszukiwania, nie wszystkie takie same, użyj przewidywalna kolumna.Po uruchomieniu sprawdzania poprawności krzyżowych, tylko modele, które korzystają z jednego przewidywalna kolumna mogą zostać uwzględnione w raporcie.

Aby wybrać atrybut przewidywalny, kliknij Atrybut Target i kolumna z listy.Jeśli atrybut miejsce docelowe jest zagnieżdżony kolumna lub kolumna w tabela zagnieżdżonej, należy wpisać nazwę kolumn zagnieżdżonych, przy użyciu formatu <Nazwa tabela zagnieżdżonej>(klucz).<Zagnieżdżone kolumna>.Jeśli tylko kolumna używana z tabela zagnieżdżonej jest kolumna klucza, można użyć <Nazwa tabela zagnieżdżonej>(klucz).

Uwagakorzystania z procedur przechowywanych, można wykonywać większą kontrolę nad modeli, które są badane.Aby uzyskać więcej informacji, zobacz SystemGetCrossValidationResults (Analysis Services - wyszukiwania danych).

Po zaznaczeniu atrybut przewidywalne Usługi Analysis Services automatycznie sprawdza wszystkie modele, które używają tego samego atrybut przewidywalne.

Jeśli atrybut miejsce docelowe zawiera dyskretnych wartości po wybraniu przewidywalna kolumna, można opcjonalnie wpisz stanu docelowego, jeśli istnieje określona wartość, która ma zostać dokonana prognoza.

Wybór miejsce docelowe Państwo wpływa na środki, które są zwracane.Jeśli określony atrybut miejsce docelowe — oznacza to, że nazwa kolumna — i nie pobrania określoną wartość, której model przewidywanie domyślnie modelu będą oceniane na jego przewidywania najbardziej prawdopodobnego stanu.

Jeśli cross zatwierdzasz klastrowania modelu, nie ma żadnych przewidywalna kolumna; Zamiast tego należy wybrać #Cluster z listy atrybutów przewidywalne w Atrybut Target pole listy.After you have selected Cluster, other options that are not relevant to clustering models, such as Target State, are disabled.Usługi Analysis Services will test all clustering models that are associated with the mining structure.

Ustawienie próg dokładności

Można kontrolować standard pomiaru dokładności przewidywanie, ustawiając wartość dla Docelowy próg.Próg reprezentuje rodzaj pasek dokładności.Każdy przewidywanie jest przypisywana prawdopodobieństwo, że wartość przewidywana jest poprawny.W związku z tym jeśli użytkownik zestaw Docelowy próg bliżej wartości 1, są wymaganie, aby prawdopodobieństwa dla określonego wydawanych na stosunkowo wysoka, aby liczony jako dobra przewidywanie.Natomiast jeśli użytkownik zestaw Docelowy próg bliżej 0, nawet prognoz z niższych wartości prawdopodobieństwa są liczone jako "dobry" prognoz.

Ponieważ prawdopodobieństwo wszelkie przewidywanie zależy od danych i typ tworzonego przewidywanie nie ma wartości progu zalecane.Należy przejrzeć niektóre prognoz na poziomie prawdopodobieństwa różnych ustalenie słupek odpowiednią dokładność danych.Ten krok jest ważne ponieważ wartości, które zestaw dla Docelowy próg ma silny wpływ na mierzone dokładności modelu.

Załóżmy, że struktury zawiera trzy modele przewidywania miejsce docelowe Państwo z prawdopodobieństwa 0,05, 0,15 i 0,8.Jeśli użytkownik zestaw progu do 0,5, przewidywanie tylko jeden jest liczony jako poprawne.Jeśli użytkownik zestaw Docelowy próg do 0,10, przewidywania dwa są liczone jako poprawne.

Gdy miejsce docelowe próg jest zestaw do null, która jest wartością domyślną, najbardziej prawdopodobnego stanu jest używana jako miejsce docelowe.W przykładzie tylko cytowane wszystkich trzech modelach miałoby poprawne prognoz.Dlatego podczas porównywania modeli należy rozważyć próg używane dla każdego poprawności- wystąpienie.Można również ocenę prawdopodobieństwa średnią we wszystkich przypadkach, w szczególności modelu za pomocą środków oznacza prawdopodobieństwo oraz średnia kwadratowa błąd w krzyżowe sprawdzanie poprawności raportu.

Ograniczenia dotyczące kartę krzyżowo

Jeśli krzyżowe sprawdzanie poprawności za pomocą krzyżowe sprawdzanie poprawności raport w Business Intelligence Development Studio, istnieją pewne ograniczenia na modelach, które można testować i parametrów można zestaw.

  • Domyślnie, wszystkie modele skojarzone z wybranym struktura wyszukiwania są sprawdzane krzyżowych.Nie można określić model lub lista modeli.

  • Sprawdzanie poprawności krzyżowe nie jest obsługiwana dla modeli, które są oparte na algorytm serii czasowych firmy Microsoft lub algorytm klastrowanie sekwencji Microsoft.

  • Nie można utworzyć raportu, jeśli struktura wyszukiwania nie zawiera żadnych modeli, które mogą być badane przez krzyżowe sprawdzanie poprawności.

  • Jeśli struktura wyszukiwania zawiera zarówno klastrowania i klastrowanie modele i nie #Cluster opcji, wyniki dla obu typów modele są wyświetlane w tym samym raporcie mimo ustawienia atrybut, stan i próg mogą nie być właściwe dla modeli klastrów.

  • Niektóre wartości parametrów są ograniczone.Na przykład wyświetlane jest ostrzeżenie Jeśli liczba zgięciach jest więcej niż 10, ponieważ generowania modeli tak wiele może spowodować spowolnienie wyświetlania raportu.

Jeśli chcesz określić zaawansowane ustawienia, należy użyć krzyżowe sprawdzanie poprawności procedur przechowywanych.Aby uzyskać więcej informacji, zobacz Procedury przechowywane do wyszukiwania danych (Analysis Services - wyszukiwania danych).

Wyniki sprawdzania poprawności krzyżowe

Po kliknięciu i określić parametrów Odśwież, wyniki krzyżowe sprawdzanie poprawności są wyświetlane w siatce wyników.W tej sekcji wyjaśniono zawartość każdej kolumna w siatce wyniki.

Oprócz niektóre podstawowe informacje dotyczące liczby zgięcia danych i ilość danych w każdym składanie Usługi Analysis Services Wyświetla zestaw wskaźników dotyczących każdego modelu według typu.W poniższej tabela przedstawiono testów i metryk z wyjaśnieniem oznacza metrykę.

Badanie typu

Środki i opisy

Klastrowanie

Prawdopodobieństwo sprawyWskazanie, jak bardzo prawdopodobne jest, że przypadek należy do określonego klastra.

Klasyfikacja

Dodatnia wartość PRAWDALiczba przypadków, które spełniają następujące warunki:
  • Zawiera w przypadku miejsce docelowe wartości.

  • Model przewidywane, że przypadek zawiera miejsce docelowe wartości.

Fałszywie pozytywnaLiczba przypadków, które spełniają następujące warunki:
  • Rzeczywista wartość jest równa wartości miejsce docelowe.

  • Model przewidywane, że przypadek zawiera miejsce docelowe wartości.

Ujemna wartość PRAWDALiczba przypadków, które spełniają następujące warunki:
  • Sprawa nie zawiera wartości miejsce docelowe.

  • Model przewidywane przypadek nie zawiera wartości miejsce docelowe.

Fałszywe negatywneLiczba przypadków, które spełniają następujące warunki:
  • Rzeczywista wartość równą wartości miejsce docelowe.

  • Model przewidywane przypadek nie zawiera wartości miejsce docelowe.

Klasyfikacja

Przebieg i błędówLiczba przypadków, które spełniają następujące warunki:
  • Jeżeli przewidywane Państwo z najwyższym prawdopodobieństwa jest taka sama, jak stan wejściowego i prawdopodobieństwa jest większa niż wartość Progu Państwa.

  • W przeciwnym razie nie powiedzie się.

Prawdopodobieństwo

WindaStosunek prawdopodobieństwo przewidywanie rzeczywistego prawdopodobieństwa marginalny w przypadkach badania.Metryka ta pokazuje, ile zwiększa się prawdopodobieństwo używany model.
Błąd średnia kwadratowaPierwiastek kwadratowy średniej błędu we wszystkich przypadkach partycji, podzielona przez liczbę przypadków na partycji, z wyłączeniem wierszy z brakujących wartości.
Wynik dziennikaLogarytm rzeczywiste prawdopodobieństwo dla każdego przypadek sumowane, a następnie dzielona przez liczbę wierszy w zestaw danych, z wyłączeniem wierszy z mossing wartości.Ponieważ prawdopodobieństwo jest reprezentowany jako ułamek dziesiętny, dziennik wyniki są zawsze liczb ujemnych.Wynik bliższe 0 oznacza lepszego przewidywanie.

Oszacowanie

Błąd średnia kwadratowaŚredni błąd prognozowanej wartości do wartości rzeczywistej, wyrażonej jako pierwiastek kwadratowy średniej sumę kwadratowy błędy.
Oznacza to błąd bezwzględneŚredni błąd prognozowanej wartości do wartości rzeczywistej, wyrażonej jako średnia bezwzględnych Suma błędów.
Wynik dziennikaWynik prawdopodobieństwo dziennika do przewidywanie: logarytm rzeczywiste prawdopodobieństwo dla każdego przypadek sumowane, a następnie dzielona przez liczbę wierszy w zestaw danych, z wyłączeniem wierszy z mossing wartości.Ponieważ prawdopodobieństwo jest reprezentowany jako ułamek dziesiętny, dziennik wyniki są zawsze liczb ujemnych.Wynik bliższe 0 oznacza lepszego przewidywanie.Nieprzetworzone wyniki mogą mieć bardzo nieregularne lub pochyloną dystrybucje, wynik dziennika jest podobna do wartości procentowej.

Agregacje

Środki agregacji zapewnić wskazanie odchylenia wyniki dla każdej partycji.

MeanŚrednia wartości partycji dla danego miara.
Odchylenie standardoweŚrednia odchyleń od średniej dla określonej miara na wszystkich partycjach w modelu.

Ostrzeżenie

Środki te dokładności są obliczane dla każdego atrybut miejsce docelowe, a dla każdego atrybut można określić lub pominąć wartości miejsce docelowe.Niektóre rekordy mogą nie mieć dowolną wartość atrybut miejsce docelowe, czyli szczególny przypadek o nazwie Brak wartości.Wiersze, których brakuje wartości nie są uwzględniane przy obliczaniu miara dokładności dla atrybut określonego miejsce docelowe.Ponadto ponieważ wyniki są obliczane dla każdego atrybut indywidualnie, jeśli są obecne dla miejsce docelowe atrybut, ale brak innych atrybut, nie wpływa na wynik dla miejsce docelowe atrybut.