데이터 정리

적용 대상:SQL Server

데이터 정리는 데이터 원본의 데이터 품질을 분석하고, 시스템의 제안을 수동으로 승인/거부하고, 데이터를 변경하는 프로세스입니다. DQS(Data Quality Services)의 데이터 정리에는 데이터가 기술 자료의 지식을 준수하는 방법을 분석하는 컴퓨터 지원 프로세스와 데이터 관리자가 컴퓨터 지원 프로세스 결과를 검토하고 수정하여 데이터 정리가 원하는 대로 정확하게 수행되도록 하는 대화형 프로세스가 포함됩니다.

데이터 관리자는 Integration Services 패키징 프로세스에서 데이터 정리를 수행할 수도 있습니다. 이 경우 데이터 관리자는 Integration Services에서 기존 기술 자료를 사용하여 데이터 정리를 자동으로 수행하는 DQS 정리 구성 요소를 사용합니다. 자세한 내용은 DQS 정리 변환을 참조하세요.

DQS의 데이터 정리 기능에는 다음과 같은 이점이 있습니다.

  • 데이터 원본(Excel 파일 또는 SQL Server 데이터베이스)에서 불완전하거나 잘못된 데이터를 식별한 다음 잘못된 데이터에 대해 수정하거나 경고합니다.

  • 데이터를 정리하는 2단계 프로세스(컴퓨터 지원대화형)를 제공합니다. 컴퓨터 지원 프로세스는 DQS 기술 자료의 지식을 사용하여 데이터를 자동으로 처리하고 대체/수정을 제안합니다. 대화형 다음 단계에서는 데이터 관리자가 컴퓨터 지원 정리 중에 DQS에서 제안한 변경 내용을 승인, 거부 또는 수정할 수 있습니다.

  • 도메인 값, 도메인 규칙 및 참조 데이터를 사용하여 고객 데이터를 표준화하고 강화합니다. 예를 들어 "St."를 "Street"로 변경하여 용어 사용을 표준화하고 , "1 Microsoft way Redmond 98006"을 "1 Microsoft Way, Redmond, WA 98006"으로 변경하여 누락된 요소를 입력하여 데이터를 보강합니다.

  • 사용자에게 간단하고 직관적이며 일관된 마법사와 같은 인터페이스를 제공하여 매우 큰 데이터 집합 간에 데이터를 탐색하고 오류를 검사합니다.

다음 그림에서는 DQS에서 데이터 정리를 수행하는 방법을 보여줍니다.

Data Cleansing Process in DQS

컴퓨터 지원 정리

DQS 데이터 정리 프로세스는 정리할 데이터에 기술 자료를 적용하고 데이터에 대한 변경 내용을 제안합니다. 데이터 관리자는 제안된 각 변경에 액세스할 수 있으므로 변경 내용을 평가하고 수정할 수 있습니다. 데이터 정리를 수행하기 위해 데이터 관리자는 다음과 같이 진행합니다.

  1. 데이터 품질 프로젝트를 만들고, 원본 데이터를 분석 및 정리할 기술 자료를 선택하고, 정리 작업을 선택합니다. 여러 데이터 품질 프로젝트에서 동일한 기술 자료를 사용할 수 있습니다.

  2. 정리할 원본 데이터가 포함된 데이터베이스 테이블/뷰 또는 Excel 파일을 지정합니다. 데이터베이스 또는 Excel 파일은 기술 자료 검색에 사용된 것과 동일하거나 다른 데이터베이스 또는 Excel 파일일 수 있습니다.

    참고 항목

    기술 자료 검색 및 정리 활동을 위해 동일한 데이터 원본을 선택한 경우 데이터가 변경되지 않습니다. 샘플 데이터에 대해 기술 자료 검색을 실행하고 나중에 기술 자료 검색 작업 중에 작성된 지식에 대해 원본 데이터를 정리하는 것이 좋습니다.

  3. 정리할 데이터 필드를 기술 자료의 적절한 도메인/복합 도메인에 매핑합니다. 필드를 복합 도메인에 매핑하는 경우 복합 도메인의 개별 도메인이 아닌 필드와 복합 도메인 간에 매핑이 수행됩니다. 또한 매핑된 필드에 대한 데이터 정리는 복합 도메인의 개별 도메인이 아니라 복합 도메인에 대해 지정된 규칙에 따라 수행됩니다. 복합 도메인에 대한 자세한 내용은 DQS Knowledge Bases and Domains을 참조하십시오.

  4. 정리 페이지에서 시작을클릭하여 컴퓨터 지원 정리 프로세스를 실행합니다.

데이터 정리 프로세스는 데이터 인스턴스와 알려진 데이터 도메인 값의 가장 일치하는 항목을 찾습니다. 이 프로세스는 샘플 데이터의 백분율에서 실행되는 기술 자료 검색 프로세스와 달리 모든 원본 데이터에 데이터 품질 지식을 적용합니다.

컴퓨터 지원 프로세스는 대화형 정리 프로세스에 사용할 데이터 품질 클라이언트의 데이터 품질 정보를 표시합니다. DQS는 구문 오류 규칙을 준수하는 것 외에도 참조 데이터 및 고급 알고리즘을 사용하여 신뢰도 수준을 사용하여 데이터를 분류합니다. 신뢰도 수준은 수정 또는 제안에 대한 DQS의 확실성 정도를 나타냅니다. 신뢰 수준은 다음 임계값에 따라 결정됩니다.

  • DQS에서 변경을 제안하고 데이터 관리자가 이를 거부하지 않는 한 이를 만드는 위의 자동 수정 임계값입니다. 구성 화면의 일반 설정 탭에서 자동 수정 임계값을 지정할 수 있습니다. 자세한 내용은 정리 및 일치에 대한 임계값 구성을 참조하세요.

  • 자동 제안 임계값 보다 높고 자동 수정 임계값보다 낮으면 DQS에서 변경 내용을 제안하고 데이터 관리자가 승인할 경우 이를 적용합니다. 구성 화면의 일반 설정 탭에서 자동 제안 임계값을 지정할 수 있습니다. 자세한 내용은 정리 및 일치에 대한 임계값 구성을 참조하세요.

신뢰 수준 값이 자동 제안 임계값보다 낮으면 데이터 관리자가 변경 내용을 지정하지 않은 한 DQS에서 데이터를 현재대로 둡니다.

대화형 정리

컴퓨터 지원 정리 프로세스에 따라 DQS는 데이터 관리자에게 데이터 변경에 대한 결정을 내리는 데 필요한 정보를 제공합니다. DQS는 다음 5개의 탭에서 데이터를 분류합니다.

  • 제안: 신뢰도 수준이 자동 제안 임계값 보다 높고 자동 수정 임계값 보다 낮은 것으로 DQS에서 검색된 제안 값입니다. 이러한 값을 검토하고 적절하게 승인하거나 거부해야 합니다.

  • 새로 만들기: DQS에 충분한 정보(제안)가 없으므로 다른 탭에 매핑할 수 없는 유효한 값입니다. 또한 이 탭에는 신뢰도 수준이 자동 제안 임계값보다 작지만 유효한 것으로 표시될 만큼 충분히 높은 값도 포함됩니다.

  • 잘못됨: 기술 자료의 도메인에 유효하지 않은 것으로 표시된 값 또는 도메인 규칙이나 참조 데이터를 준수하지 않은 값입니다. 이 탭에는 대화형 정리 프로세스 중에 다른 4개의 탭 중에서 사용자가 거부하는 값도 포함됩니다.

  • 수정됨: DQS가 자동 수정 임계값보다 신뢰도가 높은 값에 대한 수정을 찾았기 때문에 자동화된 정리 프로세스 중에 DQS에서 수정한 값입니다. 또한 이 탭에는 사용자가 대화형 정리 중에 올바른 대상 열에 올바른 값을 지정한 다음 다른 4개 탭의 승인 열에서 라디오 단추를 클릭하여 승인된 값도 포함됩니다.

  • 정답: 올바른 값을 찾았습니다. 예를 들어 값이 도메인 값과 일치했습니다. 필요한 경우 이 탭의 값을 거부하거나 [수정할 내용] 열에서 대체 단어를 지정한 다음 [수락] 열에서 라디오 단추를 클릭하여 DQS 정리를 재정의할 수 있습니다. 이 탭에는 새로 만들기 또는 잘못된 탭의 승인 열에서 라디오 단추를 클릭하여 대화형 정리 중에 사용자가 승인한 값도 포함됩니다.

참고 항목

제안됨, 수정됨수정 탭에서 DQS는 각 도메인 값에 대해 다음으로 수정 열에 도메인에 대한 선행 값(적용되는 경우)을 표시합니다.

데이터 관리자는 Data Quality 클라이언트를 사용하여 DQS가 제안한 변경 내용을 확인하고 구현 여부를 결정합니다. DQS가 올바른 값으로 지정한 값이 실제로 올바른지 확인할 수 있습니다. 신뢰 수준이 높은 DQS에서 이미 변경한 내용을 확인할 수 있습니다. 자동 제안된 변경 내용을 승인할지 여부를 결정할 수 있습니다. 그리고 컴퓨터 지원 프로세스에서 찾을 수 없는 변경을 원하는 경우 변경되지 않은 값을 검토할 수 있습니다.

DQS는 데이터 관리자가 컴퓨터 지원 데이터 정리의 결과와 함께 변경한 내용을 병합합니다. 그러나 이러한 변경 내용은 프로젝트와 함께 보관되며 기술 자료에는 추가되지 않습니다. 데이터 정리 중에 관련 기술 자료는 읽기 전용입니다.

데이터 정리 프로세스가 완료되면 처리된 데이터를 SQL Server 데이터베이스, .csv 파일 또는 Excel 파일의 새 테이블로 내보내도록 선택할 수 있습니다. 정리가 수행되는 원본 데이터는 원래 상태로 유지됩니다. 데이터 관리자는 별도의 정리된 데이터를 사용하여 실제 원본 데이터를 수정할 수 있습니다.

다음 그림에서는 Data Quality 클라이언트 애플리케이션을 사용하여 데이터 정리를 수행하는 방법을 보여줍니다.

Data Cleansing in Data Quality Client

선행 값 수정

선행 값 수정은 동의어가 있는 도메인 값에 적용되며 사용자는 동의어 값 중 하나를 값의 일관된 표현을 위해 다른 값 대신 선행 값으로 사용하려고 합니다. 예를 들어 "New York", "NYC" 및 "big apple"은 동의어이며 사용자는 "NYC" 및 "Big Apple" 대신 "New York"을 선행 값으로 사용하려고 합니다. DQS는 데이터 표준화를 위해 정리 프로세스 중에 선행 값 수정을 지원합니다. 선행 값 수정은 도메인을 만들 때 동시에 선행 값 수정을 사용하도록 도메인을 설정한 경우에만 수행됩니다. 기본적으로 도메인을 만들 때 선행 값 사용 확인란의 선택을 취소하지 않은 한 모든 도메인이 선행 값 수정을 사용하도록 설정됩니다. 이 확인란에 대한 자세한 내용은 Set Domain Properties을 참조하십시오.

정리된 데이터 표준화

도메인에 대해 정의된 출력 형식에 따라 정리된 데이터를 표준화된 형식으로 내보낼지 여부를 선택할 수 있습니다. 도메인을 만드는 동안 도메인의 데이터 값이 출력될 때 적용할 서식을 선택할 수 있습니다. 도메인의 출력 형식을 지정하는 방법은 에서 출력 형식Set Domain Properties목록을 참조하십시오.

정리 데이터 품질 프로젝트 마법사의 내보내기 페이지에서 정리된 데이터를 내보내는 동안 출력 표준화 확인란을 선택하여 정리된 데이터를 표준화된 형식으로 내보낼지 여부를 지정합니다. 기본적으로 정리된 데이터는 표준화된 형식으로 내보내집니다. 즉, 확인란이 선택되어 있습니다. 정리된 데이터를 내보내는 방법에 대한 자세한 내용은 DQS(내부) 지식을 사용하여 데이터 정리를 참조 하세요.

태스크 설명 토픽
정리 활동을 위한 임계값 구성 방법을 설명합니다. 정리 및 일치를 위한 임계값 구성
DQS에서 빌드된 지식을 사용하여 데이터를 정리하는 방법을 설명합니다. DQS(내부) 지식을 사용하여 데이터 정리
참조 데이터 서비스의 지식을 사용하여 데이터를 정리하는 방법을 설명합니다. 참조 데이터(외부) 기술 자료를 사용하여 데이터 정리
복합 도메인을 정리하는 방법을 설명합니다. 복합 도메인에서 데이터 정리

참고 항목

DQS(데이터 품질 프로젝트)
데이터 일치