DQS의 데이터 프로파일링 및 알림

적용 대상:SQL Server

DQS(Data Quality Services)의 데이터 프로파일링은 기존 데이터 원본의 데이터를 분석하고 DQS 작업의 데이터에 대한 통계를 표시하는 프로세스입니다. 데이터 품질에 대한 자동화된 측정을 제공합니다. DQS 프로파일링은 DQS 지식 관리 및 데이터 품질 프로젝트에 통합됩니다. 동적이며 조정 가능합니다. 프로파일링에는 두 가지 주요 목표가 있습니다. 첫째, 데이터 품질 프로세스를 안내하고 의사 결정을 지원하며, 둘째, 프로세스의 효율성을 평가합니다. DQS 프로파일링 프로세스에는 다음과 같은 이점이 있습니다.

  • 프로파일링은 원본 데이터의 품질에 대한 통찰력을 제공하고 데이터 품질 문제를 식별하도록 도와줍니다.

  • 프로파일링은 데이터 품질 프로세스의 효율성을 평가하여 지식 검색, 데이터 정리, 일치 정책 및 일치 작업을 안내합니다.

  • 프로파일링은 가장 관련성이 큰 시간에 가장 관련성이 큰 정보를 제공합니다.

  • 프로파일링 프로세스는 조치를 취할 수 있는 중요한 통계 또는 이벤트를 강조하는 알림을 생성합니다. 대부분의 경우 DQS 알림은 조건을 나타내고 해당 조건을 해결하기 위해 수행할 수 있는 작업을 권장합니다.

프로파일링을 사용하면 데이터 품질 서비스를 기술 자료 검색, 정리 및 일치뿐만 아니라 분석 도구로 사용할 수 있습니다. 분석을 위한 하나의 기술 자료를 만들고 해당 기술 자료를 사용하여 기술 자료를 실행하여 프로파일링 통계에서 기술 자료가 검색, 정리 및 일치 요구 사항을 충족하는지 여부를 확인할 수 있습니다.

프로파일링 작동 방식

프로파일링은 기술 자료의 품질을 측정하지 않습니다. 원본 데이터의 품질을 평가합니다. 프로파일링은 지식 관리에서 수행하는 특정 작업 또는 원본 데이터에 대한 데이터 품질 프로젝트의 영향을 나타내는 통계를 제공합니다. 프로파일링은 항상 수행 중인 특정 활동의 컨텍스트에 있습니다. 화면에서 프로파일링 탭을 클릭하여 작업 단계를 벗어나지 않고 프로파일링 데이터를 표시할 수 있습니다. 프로파일링 테이블은 프로세스가 수행될 때 실시간으로 채워지며, 이를 수행하면서 데이터 품질 작업을 평가할 수 있습니다. 정리 또는 중복 제거 후 원본 데이터가 더 나은지 여부와 양별로 확인할 수 있습니다.

모든 프로파일링 숫자는 값의 모양 수를 참조하며, 대부분의 경우 고유성 메트릭을 제외하고 전체의 백분율을 참조합니다. 고유성 메트릭은 해당 값의 모양 수에 관계없이 절대 값 수를 나타냅니다.

프로파일링은 DQS 기술 자료 기반 솔루션의 일부입니다. 데이터 원본 필드와 기술 자료 도메인 간의 매핑에 따라 기술 자료, 일치 또는 데이터 정리 프로세스에 대한 정보를 제공합니다. 매핑이 완료된 후에만 프로파일을 작성합니다. 활동의 매핑 단계에서는 프로파일링이 수행되지 않습니다. 프로파일링은 항상 활동에 연결됩니다. 프로파일링 프로세스는 도메인의 데이터가 아닌 도메인에 매핑된 데이터에 대해 수행됩니다. 다음 작업 단계에 통합됩니다.

  • 기술 자료 검색 작업의 검색도메인 값 관리 단계

  • 정리 작업의 정리 및 관리 및 결과 단계 보기

  • 일치 정책 활동의 일치 정책일치 결과 단계

  • 일치 작업의 일치내보내기 단계

DQS는 도메인 관리 작업에 대한 프로파일링 통계를 제공하지 않습니다.

활동별 데이터 프로파일링

DQS 프로파일링은 표준 데이터 품질 차원을 사용하여 데이터의 품질을 나타냅니다. 완전성(데이터가 존재하는 범위), 정확도(의도한 용도로 데이터를 사용할 수 있는 범위), 고유성(서로 다른 값이 서로 다른 엔터티를 나타내는 범위). 기본적으로 NULL 및 빈 값은 누락된 것으로 간주되거나 전체 비율은 낮습니다. 그러나 다른 값을 NULL에 해당하는 값으로 정의할 수도 있습니다. 이 경우 누락된 것으로 간주됩니다.

프로파일링에서 프로세스를 평가하는 데 필요한 통계를 제공하지만 통계 해석은 사용자가 수행해야 합니다. 통계 열을 열별로 확인하여 프로파일링이 말하는 내용을 이해합니다.

DQS 활동에는 다음과 같이 다양한 프로파일링 통계 집합이 있습니다.

  • 정리 작업에만 정확도에 대한 프로파일링 통계가 있습니다(도메인별 백분율). 정확도는 유효성, 일관성, 구문 오류 및 도메인 규칙에 영향을 줍니다.

  • 정리 작업에만 원본의 올바름, 수정됨 및 제안과 도메인별 수정됨 및 제안 값에 대한 프로파일링 통계가 있습니다(모두 백분율).

  • 정리 및 지식 검색 활동에는 유효성에 대한 프로파일링 통계(레코드별 정리, 레코드 및 도메인별 기술 자료 검색)가 있습니다. 일치 정책 및 일치 활동에는 유효성에 대한 통계가 없습니다.

  • 정리 작업에는 고유성에 대한 프로파일링 통계가 없습니다. 기술 자료 검색, 일치 정책 및 일치 작업에는 원본에 대한 고유성과 도메인별 고유성에 대한 숫자와 백분율 단위의 프로파일링 통계가 있습니다.

활동과 관련된 특정 프로파일링 통계에 대한 자세한 내용은 다음 문서의 프로파일링 섹션을 참조하세요.

활동 모니터링에서 데이터 프로파일링

기술 자료 검색, 일치 정책, 일치 및 정리 활동에 대한 프로파일링 정보는 Data Quality 클라이언트의 활동 페이지뿐만 아니라 활동 모니터링에서도 사용할 수 있습니다. 활동 모니터링은 현재 및 과거 활동에 대한 개요를 제공합니다. 활동의 속성 및 관련 계산 프로세스 외에도 각 활동에 대해 생성된 프로파일링 정보를 한 위치에서 볼 수 있습니다. 작업 테이블에서 특정 작업을 선택하여 아래 테이블에 프로파일링 결과를 표시할 수 있습니다. 또한 프로파일링 결과를 내보낼 수도 있습니다. 자세한 내용은 DQS Administration을 참조하세요.

Notifications

DQS에서는 프로파일링을 통해 중요한 통계와 메트릭을 수집하고 표시하는 것 외에도 표시된 프로파일링 통계에 따라 작업을 수행해야 할 시기를 알려 주는 알림을 생성합니다(설정된 경우). DQS는 알림을 사용하여 데이터 원본에 대한 중요한 사실을 강조하고 현재 활동이 실행된 목적과 비교하여 효과를 표시합니다. 알림은 조건을 나타내고 지식 검색, 데이터 정리 또는 데이터 일치 작업을 개선하는 방법을 권장하는 팁과 권장 사항을 제공합니다.

DQS 알림은 사용자가 관심을 가질만한 문제를 언급하거나 잠재적인 문제를 해결하는 데 사용됩니다. 알림에 따라 작업하는지 여부는 사용자의 목적과 관련이 있는지 여부에 따라 달라집니다. 예를 들어 데이터 정리에서 수정된 값이나 제안된 값이 생성되지 않고 완전성과 정확도가 모두 100%인 경우 DQS가 알림을 게시한다고 가정합니다. 이 알림은 활동을 실행할 필요가 없음을 나타냅니다. 그러나 활동을 실행할지 여부는 결정됩니다.

알림은 프로파일링 탭에 느낌표가 있는 도구 설명으로 표시됩니다. 알림과 연결된 통계는 알림에 대한 통계적 근거를 나타내기 위해 빨간색으로 표시됩니다.

Data Quality 클라이언트 홈페이지의 관리 섹션에 있는 일반 설정에서 알림을 사용하거나 사용하지 않도록 설정할 수 있습니다( 기본값). 알림을 사용하지 않도록 설정하면 도구 팁이 표시되지 않고 통계가 빨간색으로 표시되지 않습니다. 알림을 사용하지 않도록 설정하여 성능이 크게 향상되지는 않습니다. 알림을 사용하지 않도록 설정하면 프로파일링이 계속 작동합니다.

활동에 대한 알림과 관련된 특정 조건은 다음 문서를 참조하세요.

태스크 설명 문서
DQS에서 알림을 사용하거나 사용하지 않도록 설정하는 방법을 설명합니다. DQS에서 프로파일링 알림 사용 또는 사용 안 함