Data Quality Service – czyli, jak zapewnić odpowiednią jakość danych w organizacji  Udostępnij na: Facebook

Autor: Bartłomiej Graczyk

Opublikowano: 2012-08-16

Wprowadzenie

Data Quality Service, wprowadzony w wersji 2012 platformy SQL Server DQS, jest usługą, która pozwala osobom odpowiedzialnym za zapewnienie jakości danych w organizacji na budowanie i eksploatowanie rozwiązań, pozwalających na efektywne czyszczenie, łączenie i profilowanie danych. W poniższym artykule przedstawione zostaną biznesowe aspekty wykorzystania wspomnianej usługi, jak również opis prostej architektury tego rozwiązania.

DQS a rzeczywiste potrzeby biznesowe

Wiele firm doświadcza codziennie problemów wynikających z posiadania danych o słabej jakości. Z przeprowadzonych ankiet wynika, że menadżerowie sklasyfikowali problem jakości danych jako jeden z najsilniej oddziałujących na wyniki raportowania. Faktycznie, błędna klasyfikacja danych sprzedażowych czy konieczność manualnego poprawiania danych przed ich transferem do systemu raportowego / hurtowni danych, wpływa dość znacząco na zwiększenie ilości pracy, jak również zwiększa prawdopodobieństwo wystąpienia błędu. Dodatkowo, warto w tym miejscu wspomnieć, że konieczność stosowania zaawansowanych mechanizmów, pozwalających na kontrolę jakości danych, wymusza często zaangażowanie wykwalifikowanych specjalistów. Tymczasem, DQS to dość intuicyjny mechanizm, który pozwala zaspokoić potrzeby organizacji o każdym rozmiarze, przy jednoczesnym, maksymalnym wykorzystaniu wiedzy użytkowników biznesowych do budowy samego rozwiązania.

DQS pozwala na pokrycie potrzeb w zakresie:

  • czyszczenia danych, czyli przeprowadzenia modyfikacji, usunięcia czy uzupełnienia danych, niekompletnych lub niepoprawnych, w ramach interaktywnego lub automatycznego procesu,
  • dopasowania danych / Deduplikacji, czyli procesu pozwalającego na wskazanie powtarzających się danych. Dopasowanie może zostać zrealizowane na podstawie określonych ról deduplikacji i dopasowania,
  • profilowania danych, czyli funkcjonalności pozwalającej na analizę danych źródłowych, dostarczenie statystyk dotyczących danych,
  • monitorowania, czyli procesu weryfikacji i śledzenia rozwiązań, stworzonych w oparciu o DQS,
  • budowania baz wiedzy.

Przebieg procesu i architektura rozwiązania

Aby w pełni korzystać z usług DQS, niezbędna jest odpowiednia konfiguracja i przygotowanie rozwiązania, które w kolejnym kroku będzie wykorzystywane w procesie podnoszenia jakości danych. Przykładowy proces, którego realizacja odbywa się z wykorzystaniem komponentów architektury DQS, można przeanalizować na Rys. 1.

Przykładowe odwzorowanie procesu Data Quality

Rys. 1. Przykładowe odwzorowanie procesu Data Quality.

W przypadku Microsoft SQL Server Data Quality Service, w architekturze można wyodrębnić warstwy:

  • serwera:

    • Server Data Quality jest głównym elementem architektury. Po stronie serwera działa silnik DQS, który odwołuje się do kilku baz danych, tworzonych podczas pierwszej konfiguracji usługi. W utworzonych bazach danych przechowywane są zarówno informacje o realizowanych projektach DQS, jak również wyniki przeprowadzonych operacji, takich jak: czyszczenie, deduplikacja, profilowanie,
    • DQS_MAIN - to główna baza systemu DQS. W ramach bazy zapisywane są informacje dotyczące utworzonych i wykorzystywanych baz wiedzy. Ponadto, jest to baza, w której przechowywane są wszystkie procedury składowane, wykorzystywane przez silnik Data Quality Service. Ciekawostką jest fakt, że również w tej bazie znajdują się przykładowe rozwiązania – bazy wiedzy dotyczące lokalizacji geograficznych obszaru Stanów Zjednoczonych,
    • DQS_PROJECTS – baza dedykowana do przechowywania projektów DQS,
    • DQS_STAGING_DATA - baza, wykorzystywana w procesach Data Quality jako baza pośrednia, może być dodatkowo wykorzystana do przechowania wyników działania procesów Data Quality. W zakresie bezpieczeństwa rozwiązania, Data Quality Server wymaga przeprowadzenia jednorazowej konfiguracji, realizowanej przez administratora systemu (użytkownik z prawami sysadmin). W ramach konfiguracji niezbędne jest utworzenie loginów i użytkowników dla bazy DQS_MAIN, które będą wykorzystane przez klientów DQS.
      Nowo utworzone loginy (użytkownicy) powinny zostać przypisane do ról bazodanowych, utworzonych podczas konfiguracji DQS (konfiguracja DQS została opisana w dalszej części artykułu). Standardowo tworzone role to:
    • dqs_administrator - członkowie roli to użytkownicy o pełnych uprawnieniach w zakresie konfiguracji klienta Data Quality Service. Użytkownik, będący członkiem roli, nie ma praw do tworzenia nowych użytkowników,
    • dqs_kb_editor – członkowie roli mogą wykonywać większość operacji, z wyłączeniem administracji rozwiązaniem na poziomie DQS. Członkowie roli mają również uprawnienia do budowy nowych baz wiedzy,
    • dqs_kb_operator – prawa członków roli są ograniczone do pracy z istniejącymi projektami DQS oraz dostępu do monitora aktywności,
  • klienta:

    Warstwa klienta jest interfejsem, dedykowanym de facto użytkownikom usługi. Data Quality Client występuje w formie aplikacji typu stand-alone i pozwala użytkownikom na tworzenie projektów, związanych z procesami czyszczenia danych. Z poziomu aplikacji możliwa jest również konfiguracja i zarządzanie bazą wiedzy rozwiązania, a użytkownicy z uprawnieniami administracyjnymi mają możliwość rekonfiguracji ustawień serwera DQS, do którego podłączona jest aplikacja kliencka. Elementy konfiguracji, jak i użycia aplikacji klienckiej, omówione zostały w serii webcastów, poświęconych tej tematyce <Link do webcastów>.

 

DQS dla wszystkich ?

Przyglądając się dostępnym edycjom SQL Server 2012 można zauważyć, że jednak nie wszyscy użytkownicy będą mieli możliwość skorzystania z opisanej powyżej funkcjonalności. Zgodnie ze skróconym zestawieniem funkcjonalności, SQL Server 2012 DQS dostępny jest jedynie w wersjach Enterprise oraz Business Intelligence, a zatem posiadacze edycji Standard nie będą mogli zapanować nad gromadzonymi danymi z wykorzystaniem DQS.

Zestawienie funkcjonalności edycji SQL Server 2012

Rys. 2. Zestawienie funkcjonalności edycji SQL Server 2012.

 

DQS pierwsze starcie…

Data Quality Service, jak przystało na niemal niezależny moduł funkcjonalny, jest również niezależnie konfigurowany. Chcąc wykorzystać DQS bez inicjalnej konfiguracji, użytkownik zostanie poinformowany o konieczności uruchomienia wspomnianego procesu dostosowania usługi do działania.

Na poziomie serwera dostępny jest moduł instalatora, do którego skrót widoczny jest na Rys.

Rys. 3. DQS - elementy usługi.

3.

Uruchomienie procesu instalacji wymusza konieczność wprowadzenia klucza zabezpieczającego. Klucz Database Master Key wykorzystany zostanie w bazach danych, tworzonych dla DQS. W kolejnych krokach, proces instalatora dogrywa niezbędne biblioteki (.NET assembly).

Uwaga – warto zwrócić uwagę na komunikaty instalatora dotyczące wsparcia dla poszczególnych bibliotek.

Proces instalacji dopełnia utworzenie prostej bazy wiedzy wraz z jej konfiguracją, co zostało zaprezentowane na Rys. 4.

Konfiguracja DQS

Rys. 4. Konfiguracja DQS.

Proces konfiguracji DQS

Rys. 5. Proces konfiguracji DQS.

Po zakończonej konfiguracji możliwe jest skorzystanie z warstwy klienckiej, rozwiązania – Data Quality Client,
którego podstawowy ekran zaprezentowany został na Rys. 5.

Podsumowanie

DQS jest funkcjonalnością, która pozwala osobom nietechnicznym na swobodne zarządzanie danymi organizacji, bez dodatkowych kosztów (przy założeniu posiadania licencji na SQL Server 2012).

Prosty, aczkolwiek funkcjonalny, ekran główny rozwiązania pozwala na wykorzystanie funkcjonalności związanych z DQS, wspomnianych w artykule. W kolejnych webcastach cyklu będzie możliwie przeprowadzanie pełnej, wzorcowej konfiguracji DQS, krok po kroku.