TechNet
내보내기(0) 인쇄
모두 확장

데이터 정리

 

적용 대상: SQL Server 2016

데이터 정리는 데이터 원본의 데이터 품질을 분석하고, 시스템의 제안을 수동으로 승인/거부하고, 데이터를 변경하는 프로세스입니다. DQS(Data Quality Services)의 데이터 정리에는 데이터가 기술 자료의 지식을 준수하는 정도를 분석하는 컴퓨터 기반 프로세스이며, 데이터 정리가 정확히 원하는 대로 수행되는지 보장하기 위해 데이터 관리자가 컴퓨터 기반 프로세스 결과를 검토하고 수정할 수 있게 해주는 대화형 프로세스입니다.

데이터 관리자는 Integration Services 패키징 프로세스에서 데이터 정리를 수행할 수도 있습니다. 이 경우 데이터 관리자는 기존 기술 자료를 사용하여 데이터 정리를 자동으로 수행하는 Integration Services의 DQS 정리 구성 요소 를 사용합니다. 자세한 내용은 참조 DQS 정리 변환합니다.

DQS의 데이터 정리 기능에는 다음과 같은 이점이 있습니다.

  • 데이터 원본(Excel 파일 또는 SQL Server 데이터베이스)에서 완전하지 않거나 잘못된 데이터를 식별하여 데이터를 수정하거나 유효하지 않은 데이터에 대한 경고를 사용자에게 제공합니다.

  • 데이터 정리를 위한: 컴퓨터 기반대화형합니다. 컴퓨터 기반 프로세스에서는 DQS 기술 자료의 지식을 사용하여 데이터를 자동으로 처리하고 교체/수정을 제안합니다. 그 다음 단계인 대화형 프로세스에서는 데이터 관리자가 컴퓨터 기반 정리 중 DQS에서 제안된 변경 사항을 승인, 거부 또는 수정할 수 있습니다.

  • 도메인 값, 도메인 규칙 및 참조 데이터를 사용하여 고객 데이터를 표준화하고 강화합니다. 예를 들어 “St.”를 “Street”로 변경하여 용어 사용을 표준화하고, “1 Microsoft way Redmond 98006”을 “1 Microsoft Way, Redmond, WA 98006”으로 변경하여 누락된 요소를 채워서 데이터를 강화합니다.

  • 사용자가 데이터를 탐색하고 매우 큰 데이터 집합에서 오류를 조사할 수 있도록 간단하고, 직관적이며, 일관적인 마법사와 비슷한 인터페이스를 제공합니다.

다음 그림은 DQS에서 데이터 정리를 수행하는 방법을 보여 줍니다.

DQS의 데이터 정리 프로세스

DQS 데이터 정리 프로세스에서는 정리할 데이터에 기술 자료를 적용하고 데이터에 대한 변경 내용을 제시합니다. 데이터 관리자는 제시된 각 변경 내용에 액세스할 수 있으므로 변경 내용을 확인하고 수정할 수 있습니다. 데이터 관리자가 데이터 정리를 수행하기 위해 진행하는 단계는 다음과 같습니다.

  1. 데이터 품질 프로젝트를 만들고, 원본 데이터를 분석 및 정리하는 데 사용할 기술 자료를 선택하고, 정리 활동을 선택합니다. 여러 데이터 품질 프로젝트에서 동일한 기술 자료를 사용할 수 있습니다.

  2. 정리할 원본 데이터가 포함된 데이터베이스 테이블/뷰 또는 Excel 파일을 지정합니다. 데이터베이스 또는 Excel 파일은 기술 자료 검색에 사용된 것과 동일하거나 다른 데이터베이스 또는 Excel 파일일 수 있습니다.

    System_CAPS_ICON_note.jpg 참고


    기술 자료 검색 및 정리 활동을 위해 동일한 데이터 원본을 선택한 경우 데이터가 변경되지 않습니다. 예제 데이터에 대해 기술 자료 검색을 실행하고 나중에 기술 자료 검색 활동 중 작성된 지식에 따라 원본 데이터를 정리하는 것이 좋습니다.

  3. 정리할 데이터 필드를 기술 자료의 적합한 도메인/복합 도메인에 매핑합니다. 필드를 복합 도메인에 매핑할 경우 필드 및 복합 도메인 간에 매핑이 수행되며 복합 도메인의 개별 도메인에서는 매핑이 수행되지 않습니다. 또한 매핑된 필드의 데이터 정리는 복합 도메인의 개별 도메인이 아니라 복합 도메인에 대해 지정된 규칙에 따라 수행됩니다. 복합 도메인에 대한 자세한 내용은 DQS Knowledge Bases and Domains을 참조하십시오.

  4. 클릭 하 여 컴퓨터 기반 정리 프로세스를 실행 시작정리 페이지입니다.

데이터 정리 프로세스에서는 알려진 데이터 도메인 값에 가장 일치하는 데이터 인스턴스를 찾습니다. 예제 데이터의 일부에서 실행되는 기술 자료 검색 프로세스와 달리 이 프로세스에서는 모든 원본 데이터에 데이터 품질 지식을 적용합니다.

컴퓨터 기반 프로세스에서는 대화형 정리 프로세스에 사용되는 Data Quality 클라이언트에 데이터 품질 정보를 표시합니다. 구문 오류 규칙의 준수와는 별도로 DQS에서는 신뢰 수준을 사용하여 데이터를 분류하기 위한 고급 알고리즘 및 참조 데이터도 사용됩니다. 신뢰 수준은 수정 내용 또는 제안 내용에 대한 DQS의 확신도를 나타냅니다. 신뢰 수준은 다음 임계값에 따라 결정됩니다.

  • 자동 수정 임계값 기준이 DQS는 변경 내용을 제안 하 고 데이터 관리자가 거부 하지 않는 한 값입니다. 구성 화면의 일반 설정 탭에서 자동 수정 임계값을 지정할 수 있습니다. 자세한 내용은 Configure Threshold Values for Cleansing and Matching을 참조하세요.

  • 자동 제안 임계값 기준이 DQS는, 변경 내용을 제안 하 고 데이터 관리자가 승인할 경우이 자동 수정 임계값의 값입니다. 구성 화면의 일반 설정 탭에서 자동 제안 임계값을 지정할 수 있습니다. 자세한 내용은 Configure Threshold Values for Cleansing and Matching을 참조하세요.

신뢰 수준 값이 자동 제안 임계값보다 낮으면 데이터 관리자가 변경 내용을 지정하지 않은 한 DQS에서 데이터를 현재대로 둡니다.

컴퓨터 기반 정리 프로세스에 따라 DQS는 데이터 관리자에게 데이터 변경과 관련된 의사 결정에 필요한 정보를 제공합니다. DQS는 다음 5개 탭으로 데이터를 분류합니다.

  • 제안 된: dqs에서 검색 된 제안 보다 더 높은 신뢰 수준에 있는 값의 자동 제안 임계값 보다 낮은 것은 자동 수정 임계값 값. 이러한 값은 검토 후 적절하게 승인 또는 거부해야 합니다.

  • : 유효한 값을 DQS에 충분 한 정보 (제안) 없고 다른 탭에 매핑할 수 없습니다. 또한이 탭도 포함 되어 신뢰 수준에 있는 값 보다 작은 자동 제안 임계값 값과 동일 하지만 충분히 높은 유효한 것으로 표시 됩니다.

  • 잘못됨: 기술 자료의 도메인에 유효하지 않은 것으로 표시된 값 또는 도메인 규칙이나 참조 데이터를 준수하지 않은 값입니다. 이 탭에는 또한 대화형 정리 프로세스 중에 다른 네 개 탭 중에서 사용자가 거부한 값이 포함됩니다.

  • 수정: 위의 신뢰 수준으로 값에 대 한 보정을 검색을 처리 하는 자동화 된 정리 중 DQS에서 수정 되는 값은 자동 수정 임계값 값입니다. 이 탭에는 또한 대화형 정리 중 다음으로 수정 열에서 사용자가 올바른 값을 지정했고 다른 네 개 탭 중에서 승인 열의 라디오 단추를 클릭하여 승인한 값이 포함됩니다.

  • 올바름: 올바른 것으로 발견된 값입니다. 예를 들어 도메인 값과 일치하는 값이 여기에 해당합니다. 필요한 경우 이 탭에서 값을 거부하거나 다음으로 수정 열에서 대체 단어를 지정하고 수락 열에서 라디오 단추를 클릭하여 DQS 정리를 재정의할 수 있습니다. 또한 이 탭에는 새로 만들기 또는 잘못됨 탭에서 승인 열의 라디오 단추를 클릭하여 대화형 정리 중에 사용자가 승인한 값도 포함됩니다.

System_CAPS_ICON_note.jpg 참고


제안, 수정 됨, 및 올바름 탭, DQS는 도메인에 대 한 선행 값 표시에 해당 하는 경우는 수정 는 각 도메인 값에 대 한 열입니다.

데이터 관리자는 Data Quality 클라이언트 를 사용하여 DQS에서 제시한 변경 내용을 확인하고, 변경 내용을 구현할지 여부를 결정합니다. 또한 DQS에서 올바른 것으로 지정한 값이 실제로 올바른지 확인할 수 있습니다. 높은 신뢰 수준으로 DQS에서 이미 적용한 변경 내용이 타당한지 확인할 수 있습니다. 자동으로 제안된 변경 내용을 승인할지 여부를 결정할 수 있습니다. 컴퓨터 기반 프로세스에서 찾지 못한 변경 작업을 수행하려는 경우 변경되지 않은 값을 검토할 수도 있습니다.

DQS에서는 데이터 관리자가 적용한 변경 내용과 컴퓨터 기반 데이터 정리 결과를 병합합니다. 그러나 이러한 변경 내용은 프로젝트와 함께 보관되며 기술 자료에는 추가되지 않습니다. 데이터 정리 중에 관련 기술 자료는 읽기 전용 상태입니다.

데이터 정리 프로세스가 완료되면 처리된 데이터를 SQL Server 데이터베이스의 새 테이블, .csv 파일 또는 Excel 파일로 내보내도록 선택할 수 있습니다. 정리를 수행한 원본 데이터는 원래 상태로 유지됩니다. 데이터 관리자는 별도의 정리된 데이터를 사용하여 실제 원본 데이터를 수정할 수 있습니다.

다음 그림은 Data Quality 클라이언트 응용 프로그램을 사용하여 데이터 정리를 수행하는 방법을 보여 줍니다.

Data Quality 클라이언트를 시작합니다.

선행 값 수정은 동의어가 있는 도메인 값에 적용되며, 사용자는 일관적인 값 표현을 위해 다른 값 대신 동의어 값 중 하나를 선행 값으로 사용할 수 있습니다. 예를 들어 “New York”, “NYC” 및 “big apple”은 동의어이며, 사용자가 “NYC” 및 “Big Apple” 대신 “New York”을 선행 값으로 사용하도록 할 수 있습니다. DQS는 데이터 표준화를 위해 정리 프로세스 중에 선행 값 수정을 지원합니다. 선행 값 수정은 도메인을 만들 때 동시에 선행 값 수정을 사용하도록 도메인을 설정한 경우에만 수행됩니다. 기본적으로 도메인을 만들 때 선행 값 사용 확인란의 선택을 취소하지 않은 한 모든 도메인이 선행 값 수정을 사용하도록 설정됩니다. 이 확인란에 대한 자세한 내용은 Set Domain Properties을 참조하십시오.

도메인에 대해 정의된 출력 형식을 기반으로 표준화된 형식으로 정리된 데이터를 내보낼지 여부를 선택할 수 있습니다. 도메인을 만드는 동안 도메인의 데이터 값이 출력될 때 적용할 서식을 선택할 수 있습니다. 도메인의 출력 형식을 지정하는 방법은 **** 에서 출력 형식 Set Domain Properties목록을 참조하십시오.

정리 데이터 품질 프로젝트 마법사의 내보내기 페이지에서 정리된 데이터를 내보내는 동안 출력 표준화 확인란을 선택하여 정리된 데이터를 표준화된 형식으로 내보낼지 여부를 지정할 수 있습니다. 기본적으로 정리된 데이터는 표준화된 형식으로 내보냅니다. 즉, 확인란이 기본적으로 선택됩니다. 정리 된 데이터 내보내기에 대 한 자세한 내용은 참조 데이터를 사용 하 여 DQS 정리 & #40; 내부 & #41; 기술합니다.

태스크 설명항목
정리 활동을 위한 임계값 구성 방법을 설명합니다.정리 및 일치에 대한 임계값 구성
DQS에 기본 제공되는 지식을 사용하여 데이터를 정리하는 방법을 설명합니다.DQS & #40;를 사용 하 여 데이터를 정리 내부 & #41; 기술
참조 데이터 서비스의 지식을 사용하여 데이터를 정리하는 방법을 설명합니다.참조 데이터 & #40;를 사용 하 여 데이터를 정리 합니다. 외부 & #41; 기술
복합 도메인을 정리하는 방법을 설명합니다.복합 도메인의 데이터 정리

데이터 품질 프로젝트 & #40; DQS & #41;
데이터 일치

커뮤니티 추가 항목

표시:
© 2016 Microsoft