Pojęcia dotyczące wyszukiwania danych (Analysis Services — wyszukiwanie danych)

wyszukiwanie danych to proces odkrywania zaskarżeniu informacje z dużymi zbiorami danych.wyszukiwanie danych używa analizy matematycznymi do uzyskania wzorców i trendów, które istnieją w danych.Zazwyczaj tych deseni nie może być rozpoznana przez eksploracji danych tradycyjne, ponieważ relacje są zbyt złożone lub ponieważ nie ma zbyt dużej ilości danych.

Tych wzorców i trendów mogą być pobrane i zdefiniowany jako model wyszukiwanie danych.Górnictwo modeli mogą być stosowane dla określonych scenariusze, takie jak:

  • Prognozowanie sprzedaży

  • Kierowania korespondencji do określonych odbiorców

  • Określenie produktów, które mogą być sprzedawane razem

  • Znajdowanie sekwencji w kolejności, że klienci dodać produkty do koszyka zakupów

Budowanie model wyszukiwania jest częścią większego procesu, który zawiera wszystkie elementy z pytaniem, czy pytania dotyczące danych i tworzenie modelu do udzielenia odpowiedzi na te pytania do wdrażania modelu do środowiska pracy.Ten proces można zdefiniować za pomocą sześciu podstawowe kroki:

  1. Definiowanie problem

  2. Przygotowywanie danych

  3. Eksplorowanie danych

  4. Modele budynku

  5. Poznawanie i sprawdzanie modele

  6. Wdrażanie i aktualizowanie modeli

The following diagram describes the relationships between each step in the process, and the technologies in Microsoft SQL Server 2008 that you can use to complete each step.

Key steps in data mining process

Chociaż proces pokazanego na diagramie jest cykliczne, każdy krok nie musi być prowadzi bezpośrednio do następnego kroku.Utworzenie model wyszukiwanie danych jest dynamiczny i iteracji.Po eksplorować dane, może się okazać, że dane są niewystarczające do tworzenia modeli odpowiednie wyszukiwania, a w związku z tym że należy wyszukać więcej danych.Alternatywnie może utworzyć kilka modeli i następnie zdawać sobie sprawę, że modele nie odpowiednio odpowiedzi problem, który został zdefiniowany i że z tego powodu należy ponownie zdefiniować problem.Należy zaktualizować modele po ich wdrożonych ponieważ większej ilości danych stało się dostępne.Każdy krok w procesie, trzeba być powtórzony tyle razy, w celu utworzenia modelu dobrej.

SQL Server 2008 zapewnia zintegrowane środowisko do tworzenia i pracy z danymi modeli wyszukiwania, o nazwie Business Intelligence Development Studio. To środowisko obejmuje algorytmów wyszukiwanie danych i narzędzia, które można w prosty sposób tworzyć kompleksowe rozwiązanie dla wielu projektów.Aby uzyskać więcej informacji o korzystaniu z BI Development Studio, zobacz Rozwijanie i wdrażanie Using Business Intelligence Development Studio.

Po utworzeniu rozwiązania wyszukiwanie danych można zachować, a przeglądać go przy użyciu SQL Server Management Studio. Aby uzyskać więcej informacji zobaczZarządzanie wyszukiwanie danych struktury i modele.

Aby zapoznać się z jak SQL Server narzędzia mogą być stosowane do scenariusza biznesowego, zobacz temat Podstawowe wyszukiwanie danych — samouczek.

Definiowanie problem

Pierwszym krokiem w procesie wyszukiwanie danych jako wyróżnione na poniższym diagramie jest wyraźnie określić problem firmy i rozważyć sposoby zapewnienia odpowiedź na ten problem.

Data mining first step: defining the problem

Ten krok obejmuje analizowania wymagań biznesowych, zdefiniowanie zakres problemu, definiowania miar, w którym będą oceniane modelu i definiowanie zamierzeń specyficzne dla projektu wyszukiwanie danych.Zadania te przekładają się na pytania, takie jak:

  • Czego szukasz?Jakie typy relacji próbujesz znaleźć?

  • Czy chcesz rozwiązać problem odzwierciedlają zasad i procesów biznesowych?

  • Czy chcesz uczynić prognoz z modeli wyszukiwanie danych lub po prostu wyszukać interesujące desenie i skojarzeń?

  • Które atrybut zestaw danych chcesz spróbować przewidzieć?

  • W jaki sposób są powiązane kolumny?W przypadku wielu tabel, w jaki sposób są tabele powiązane?

  • W jaki sposób jest rozpowszechniany dane?Czy sezonowy dane?Dane dokładnie reprezentuje procesów biznesowych?

Odpowiedzi na te pytania, możesz mieć do prowadzenia badań dostępność danych, aby uzyskać więcej informacji dotyczących potrzeb biznesowych z dostępnych danych.Jeśli dane nie jest obsługiwane na potrzeby użytkowników, należy ponownie zdefiniować projektu.

Należy również rozważyć sposoby, w którym wyniki w modelu może być włączone do kluczowych wskaźników wydajności (KPI) służące do pomiaru postępu biznesowych.

Przygotowywanie danych

Drugim krokiem w procesie wyszukiwanie danych jako wyróżnione na poniższym diagramie jest konsolidacji i czyszczenia danych, który został zidentyfikowany w Definiowanie problem krok.

Data mining second step: preparing data

Dane mogą być rozproszone w całej firmy i przechowywane w różnych formatach lub może zawierać niespójności, takich jak niepoprawne lub brakujące pozycje.Na przykład dane pokazuje klienta zakupione produkt przed produktu oferowanego było na rynku lub że sklepach klienta regularnie w sklepie znajduje 2 000 kilometrów w swoim Główny.

Czyszczenie danych jest nie tylko około usunięcie złe dane, ale o znajdowaniu korelacji ukrytych danych, identyfikowanie źródeł danych, które są najbardziej dokładne i określenie kolumn, które są najbardziej odpowiednie dla analizy.Na przykład należy użyć data wysyłki lub data zamówienia?Jest najlepszym influencer sprzedaży, ilość, Cena całkowita lub zdyskontowanych ceny?Niepełne dane, nieprawidłowe dane i dane wejściowe, pojawiają się w oddzielnych, ale w rzeczywistości zdecydowanie są powiązane, może mieć wpływ na wyniki modelu w sposób powinno.Dlatego przed rozpoczęciem konstruowania modeli wyszukiwania, należy zidentyfikować problemy i określają, w jaki sposób zostaną zostanie naprawione.

Zazwyczaj pracuje z bardzo duży zestaw danych, a nie mogą przeglądać każdej transakcji.Therefore, you have to use some form of automation, such as in Integration Services, to explore the data and find the inconsistencies.Microsoft SQL Server 2008 Integration Services (SSIS) contains all the tools that you need to complete this step, including transforms to automate data cleaning and consolidation.Aby uzyskać więcej informacji zobaczIntegracja usług w Business Intelligence Development Studio.

Należy koniecznie należy zwrócić uwagę, że dane używane do wyszukiwanie danych nie jest konieczne mają być przechowywane w module przetwarzanie analityczne online (OLAP) lub nawet w relacyjnej bazie danych, chociaż można używać obu tych źródeł danych.Można przeprowadzać wyszukiwanie danych przy użyciu dowolnego urządzenie źródłowe danych, które zostały zdefiniowane jako Analysis Services urządzenie źródłowe danych. Mogą to być pliki tekstowe, skoroszytów programu Excel lub dane z innych źródeł zewnętrznych.Aby uzyskać więcej informacji zobaczOkreślanie źródła danych (Analysis Services).

Eksplorowanie danych

Trzeci krok w procesie wyszukiwanie danych jako wyróżnione na poniższym diagramie jest Eksploruj przygotowanych danych.

Data mining third step: exploring data

Dane należy zrozumieć, w celu dokonania właściwych decyzji podczas tworzenia modeli wyszukiwania.Techniki eksploracji obejmują obliczenia wartości minimalne i maksymalne, Obliczanie średniej i odchylenia standardowego i przejrzenie podziału danych.Na przykład może określić przeglądając maksymalna, minimalna i średnie wartości danych nie jest reprezentatywna klientów lub procesów biznesowych i w związku z tym należy uzyskać bardziej zrównoważony dane lub przejrzeć założeń, które są podstawą dla sieci oczekiwań.Odchylenia standardowe i inne wartości dystrybucji mogą dostarczyć użytecznych informacji o stabilności i dokładność wyniki.Duże odchylenie standardowe mogą wskazywać, że dodanie większej ilości danych może pomóc w poprawie modelu.Dane, które zdecydowanie różni się od standardowego rozkładu może być skośny, lub może reprezentować za pomocą dokładnego obrazu problem życia rzeczywistym, ale utrudnić dopasowanie modelu do danych.

Eksplorowanie danych w zależności od własnej wiedzy na temat problemu biznesowego, można określić jeżeli zestaw danych zawiera dane flawed, a następnie opracować strategię Rozwiązywanie problemów lub uzyskania głębsze zrozumienie zachowań, które są typowe dla Twojej firmy.

Projektant Widok urządzenie źródłowe danych w BI Development Studio zawiera kilka narzędzi, których można użyć do eksplorowania danych. Aby uzyskać więcej informacji zobacz Projektowanie widoków urządzenie urządzenie źródłowewe danych (Analysis Services) lub Eksplorowanie danych w widok urządzenie źródłowe danych (Analysis Services).

Ponadto, podczas tworzenia modelu, Analysis Services automatycznie tworzy statystycznych podsumowania danych zawartych w modelu, który można wysyłać kwerendy do użycia w raportach lub dalszej analizy. Aby uzyskać więcej informacji zobaczPodczas badania modeli wyszukiwania danych (Analysis Services — wyszukiwanie danych).

Modele budynku

Czwarty krok w procesie wyszukiwanie danych jako wyróżnione na poniższym rysunku, to do budowania model wyszukiwania lub modeli.Użyje wiedzą, że uzyskane w Eksplorowanie danych kroku i pomagają definiować i Utwórz modele.

Data mining fourth step: building mining models

Można zdefiniować dane, które mają być używane przez utworzenie struktura wyszukiwania.Struktura wyszukiwania określa urządzenie źródłowe danych, ale nie zawiera żadnych danych, dopóki nie można go przetworzyć.Podczas przetwarzania struktura wyszukiwania Analysis Services generuje zagregowanych i inne informacje statystyczne, które mogą być używane dla celów analitycznych. Informacje te można używać przez każdy model wyszukiwania, który jest oparty na strukturze.Aby uzyskać więcej informacji na temat sposobu wyszukiwania struktur związane z modeli wyszukiwania zobacz Architektura logiczne (Analysis Services — wyszukiwanie danych).

Przed przetworzeniem modelu model wyszukiwanie danych jest tylko kontener określa kolumny używane do wprowadzania, atrybut, który jest prognozowaniu szacunkowej i parametry, które informują algorytmu o tym, jak do przetwarzania danych.Przetwarzanie modelu jest również określany jako szkolenia.Szkolenie odnosi się do procesu zastosowania określonego algorytmu matematycznych do struktury danych w celu wyodrębnienia wzorców.The patterns that you find in the training process depend on the selection of training data, the algorithm you chose, and how you have configured the algorithm.SQL Server 2008 contains many different algorithms, each suited to a different type of task, and each creating a different type of model.Aby uzyskać listę algorytmów, pod warunkiem że programu SQL Server 2008 zobacz Algorytmy wyszukiwania danych (Analysis Services — wyszukiwanie danych).

Można również używać parametrów dostosować każdy algorytm i filtry można stosować do danych szkolenia, aby użyć ich określony podzbiór danych, tworząc różne wyniki.Po przekazywania danych do modelu, obiekt model wyszukiwania zawiera podsumowania i desenie, które będą używane przez kwerendy lub używany do przewidywanie.

Można zdefiniować nowy model przy użyciu Kreatora wyszukiwanie danych w BI Development Studio, lub przy użyciu języka DMX (wyszukiwanie danych Extensions). Aby uzyskać więcej informacji na temat korzystania z Kreatora wyszukiwanie danych zobacz Kreator wyszukiwania danych (Analysis Services — wyszukiwanie danych). Aby uzyskać więcej informacji na temat używania DMX zobacz Odwołanie wyszukiwanie danych rozszerzeń (DMX).

Ważne jest pamiętać, że za każdym razem, gdy następuje zmiana danych, należy zaktualizować struktura wyszukiwania i model wyszukiwania.Aktualizowanie struktura wyszukiwania przez ponowne przetworzenie Analysis Services pobiera dane ze urządzenie źródłowe, w tym wszystkie nowe dane, jeśli urządzenie źródłowe jest aktualizowana dynamicznie i repopulates struktura wyszukiwania. Jeśli modele, które są oparte na strukturze, można wybrać zaktualizować modele, które są oparte na strukturze, co oznacza, są one retrained na nowe dane, lub można pozostawić modeli, jak jest.Aby uzyskać więcej informacji zobaczProcessing Data Mining Objects.

Poznawanie i sprawdzanie modele

Piąty krok w procesie wyszukiwanie danych jako wyróżnione na poniższym diagramie jest Eksploruj modeli wyszukiwania mają wbudowane, a następnie sprawdzić ich skuteczności.

Data mining fifth step: validating mining models

Przed wdrożeniem modelu w środowisku produkcyjnym, można sprawdzić, jak wykonuje się w modelu.Ponadto podczas tworzenia modelu zazwyczaj tworzone wielu modeli w różnych konfiguracjach i testowanie wszystkich modeli, aby zobaczyć, co daje najlepsze wyniki dla tego problemu i danych.

Analysis Services zawiera narzędzia, które można podzielić dane na szkolenia i testów zestawów danych, tak aby dokładnie może ocenić wydajność wszystkich modeli w tych samych danych.Służy do danych szkoleniowych do budowania modelu i testowania zestawu danych do testowania dokładności modelu przez utworzenie kwerendy przewidywanie.W programie SQL Server 2008 Analysis Services, można wykonać tej partycjonowanie automatycznie podczas tworzenia model wyszukiwania.Aby uzyskać więcej informacji zobaczSprawdzanie poprawności modeli wyszukiwania danych (Analysis Services — wyszukiwanie danych).

Można poznać trendów i wzorców, które algorytmy wykrywanie za pomocą przeglądarki w Konstruktorze wyszukiwanie danych w BI Development Studio. Aby uzyskać więcej informacji zobaczWyświetlanie modelu wyszukiwanie danych.Można również sprawdzić, jak modele tworzenie prognoz przy użyciu narzędzi w oknie projektowania, takie jak dźwigu macierz wykresu i klasyfikacji.Aby sprawdzić, czy modelu jest specyficzny dla danych i mogą być używane do podejmowania inferences w całej zapełnianie, można użyć techniki statystycznych o nazwie krzyżowe sprawdzanie poprawności do automatycznego tworzenia podzbiorów danych i przetestować modelu przed każdy podzbiór.Aby uzyskać więcej informacji zobaczSprawdzanie poprawności modeli wyszukiwania danych (Analysis Services — wyszukiwanie danych).

Jeśli żadne modele utworzone w Modele budynku kroku również wykonać, może zajść potrzeba powrócić do poprzedniego kroku w procesie i ponownie zdefiniować problem lub reinvestigate danych z oryginalnego zestawu danych.

Wdrażanie i aktualizowanie modeli

Ostatni krok w procesie wyszukiwanie danych jako wyróżnione na poniższym diagramie jest wdrożyć modeli, w których wykonywane najlepiej do środowiska produkcyjnego.

Data mining sixth step: deploying mining models

Po modeli wyszukiwania znajdują się w środowisku produkcyjnym, można wykonywać wiele zadań, w zależności od potrzeb.Poniżej przedstawiono niektóre zadania, które można wykonać:

  • Use the models to create predictions, which you can then use to make business decisions.SQL Server provides the DMX language that you can use to create prediction queries, and Prediction Query Builder to help you build the queries.Aby uzyskać więcej informacji zobaczOdwołanie wyszukiwanie danych rozszerzeń (DMX).

  • Tworzenie kwerendy zawartości w celu pobrania danych statystycznych, zasady lub formuły z modelu.Aby uzyskać więcej informacji zobaczPodczas badania modeli wyszukiwania danych (Analysis Services — wyszukiwanie danych).

  • Osadzanie funkcji wyszukiwanie danych bezpośrednio w aplikacji.Można również dołączyć Analysis Management Objects (AMO), zawierający zestaw obiektów, które aplikacja może używać do tworzenia, zmiany procesu i usuwania struktur wyszukiwania i modelami wyszukiwania.Można również wysłać XML for Analysis (XMLA) wiadomości bezpośrednio do wystąpienie Analysis Services. Aby uzyskać więcej informacji zobaczRozwój (Analysis Services — wyszukiwanie danych).

  • Użycie Integration Services Aby utworzyć pakiet, w którym model wyszukiwania jest używana w sposób inteligentny rozdzielać przychodzące dane do wielu tabel. Na przykład, jeśli baza danych jest stale zaktualizowany za pomocą potencjalnych klientów, można użyć model wyszukiwania wraz z Integration Services Aby podzielić przychodzące dane do klientów, którzy mogą mieć do zakupu produktu i klienci, którzy mogą nie zakupu produktu. Aby uzyskać więcej informacji zobaczTypical Uses of Integration Services.

  • Utwórz raport, który pozwala użytkownikom kwerendy bezpośrednio przed istniejącego model wyszukiwania.Aby uzyskać więcej informacji zobaczRaportowanie usługi w Business Intelligence Development Studio.

  • Aktualizuj modele po przeglądu i analizy.Dowolna aktualizacja wymaga ponownie przetworzyć modeli.Aby uzyskać więcej informacji zobaczPrzetwarzanie struktury i modele (Analysis Services — wyszukiwanie danych).

  • Więcej danych wejdzie w organizacji, a część strategii wdrażania stała zmiany wprowadzone w celu zwiększenia efektywności rozwiązanie powinno być dynamicznie, zaktualizować modele.Aby uzyskać więcej informacji zobaczZarządzanie wyszukiwanie danych struktury i modele.