(외부) 지식 참조 데이터를 사용하여 데이터 정리 - DQS(Data Quality Services)

적용 대상:SQL Server

이 항목에서는 참조 데이터 공급자의 기술 자료를 사용하여 데이터를 정리하는 방법에 대해 설명합니다. 정리 작업을 실행하는 모든 단계는 DQS(내부) 지식을 사용하여 데이터 정리에 설명된 대로 참조 데이터 공급자의 지식을 사용하여 데이터를 정리하기 위해 동일하게 유지되지만, 이 항목에서는 DQS(Data Quality Services)의 참조 데이터 서비스를 사용하여 데이터 정리와 관련된 정보를 제공합니다.

Important

이 문서에서는 이전에 Azure DataMarket에서 사용할 수 있었던 타사 참조 데이터 서비스에 대해 설명합니다. 예를 들어 Melissa 주소 데이터를 포함한 DataMarket 및 Data Services는 2016년 12월 31일 이후에 중단되었습니다. 따라서 DataMarket에서 지정된 서비스를 사용하여 이 문서의 예제를 더 이상 실행할 수 없습니다. 타사 참조 데이터 공급자로부터 직접 온라인으로 사용할 수 있는 참조 데이터 서비스는 계속 사용할 수 있습니다.

DQS의 참조 데이터 서비스 기능을 사용하여 데이터를 정리하는 경우 DQS 정리 프로세스는 매핑된 도메인 값을 참조 데이터 서비스 공급자에게 일괄 처리 요청으로 보냅니다. 참조 데이터 서비스는 다음 정보로 응답합니다.

  • 제안된 수정

  • 신뢰

  • 매핑된 도메인에 대한 추가 정보입니다. 참조 데이터는 추가 데이터를 사용하여 원본을 표준화, 구문 분석 또는 보강할 수도 있습니다. 이 정보는 응답의 추가 필드에 제공됩니다.

참조 데이터 서비스에서 응답을 받은 후 정리 작업 중에 DQS에서 다음이 발생합니다.

  • 참조 데이터 서비스를 사용하여 도메인을 매핑하는 동안 지정된 자동 수정 임계값최소 신뢰 도 값에 따라 도메인 값은 신뢰도 수준에 따라 자동으로 수정되거나 제안됩니다.

    참고 항목

    참조 데이터 서비스에 도메인을 매핑하는 동안 지정한 임계값은 구성 섹션의 일반 설정지정된 값이 아니라 참조 데이터 서비스의 지식을 사용하여 데이터를 정리하는 동안 적용됩니다. 참조 데이터 정리에 대한 임계값을 지정하는 방법에 대한 자세한 내용은 참조 데이터에 도메인 또는 복합 도메인 연결의 9단계를 참조하세요.

  • 도메인 값은 제안됨, 새로 만들기, 잘못된 값, 수정됨 및 수정됨으로 분류됩니다.

  • 추가 데이터가 원본에 추가되고, 정보를 내보내기 위해 정리된 데이터와 함께 사용할 수 있습니다.

시작하기 전에

전제 조건

DQS 기술 자료의 필수 도메인을 적절한 참조 데이터 서비스에 매핑해야 합니다. 또한 기술 자료에는 정리하려는 데이터 형식에 대한 지식이 포함되어야 합니다. 예를 들어 미국 주소가 포함된 원본 데이터를 정리하려면 도메인을 미국 주소에 대해 고품질 데이터를 제공하는 참조 데이터 서비스 공급자에 매핑해야 합니다. 자세한 내용은 참조 데이터에 도메인 또는 복합 도메인 연결을 참조하세요.

보안

사용 권한

데이터 정리를 수행하려면 DQS_MAIN 데이터베이스에서 dqs_kb_editor 또는 dqs_kb_operator 역할이 있어야 합니다.

참조 데이터 지식을 사용하여 데이터 정리

Azure Marketplace의 Melissa Data Service를 사용하여 이전 항목에서 매핑한 도메인인 참조 데이터에 도메인 또는 복합 도메인을 연결하는 것과 동일한 예제를 계속 진행합니다. 이제 동일한 도메인을 사용하여 일부 샘플 미국 주소를 정리합니다. 데이터를 정리하는 단계는 DQS(내부) 지식을 사용하여 데이터 정리에 설명된 것과 동일합니다. 그러나 프로세스를 진행하는 동안 필요할 때마다 다시 설명하겠습니다.

  1. 데이터 품질 프로젝트를 만들고 정리 작업을 선택합니다. 데이터 품질 프로젝트 만들기를 참조하세요.

  2. 지도 페이지에서 원본 데이터에 적절한 열이 있는 다음 4개의 도메인을 매핑합니다. 주소 줄, 도시, Zip. 다음을 클릭합니다.

    참고 항목

    주소 확인 복합 도메인 내의 4개 도메인을 모두 매핑했으므로 이제 데이터 정리는 개별 도메인 수준이 아닌 복합 도메인 수준에서 수행됩니다.

  3. 정리 페이지에서 시작을 클릭하여 컴퓨터 지원 정리 프로세스를 실행합니다. 정리 프로세스가 끝난 후 다음을 클릭합니다.

    참고 항목

    정리 페이지에 다음 두 가지 방법으로 참조 데이터 서비스에 연결된 도메인에 대한 정보가 표시됩니다.

    • 시작 단추 아래에 "Domains <Domain1>, <Domain2>,... 메시지가 표시됩니다. <DomainN>은 참조 데이터 서비스 공급자를 사용하여 정리됩니다." 이 예제에서는 다음 메시지가 표시됩니다. "도메인 주소 확인은 참조 데이터 서비스 공급자를 사용하여 정리됩니다."
    • 참조 데이터 서비스 공급자에 연결된 도메인에 대해 Profiler 영역에 아이콘Domain is attached to RDS이 표시됩니다. 이 예제에서는 주소 확인 복합 도메인에 대해 아이콘이 표시됩니다.
  4. 결과 관리 및 보기 페이지에서 도메인 값을 검토합니다. 참조 데이터 서비스는 도메인을 참조 데이터 서비스에 매핑하는 동안 추천 후보 상자에 지정된 최대 제안 수에 따라 값에 대해 두 개 이상의 제안(사용 가능한 경우)을 표시할 수 있습니다. 예를 들어 다음 미국 주소에 대한 두 가지 제안이 표시됩니다.

    원래 값:

    주소란 시/군/구 우편번호
    1mft 방법 Redmond 98052

    제안된 값:

    주소란 시/군/구 우편번호
    1 Microsoft Way Redmond WA 98052
    PO 상자 1 Redmond WA 98073

    Cleansing using reference data service

    참고 항목

    복합 도메인의 경우 DQS는 컴퓨터 지원 정리 프로세스 중에 수정된 다른 색으로 개별 도메인을 강조 표시합니다. 예를 들어 이 경우에는 Address LineState 도메인이 수정되었으므로 녹청으로 강조 표시됩니다.

  5. 모든 도메인 값을 검토한 후 [다음]을 클릭하여 데이터를 내보냅니다.

  6. 내보내기 페이지에서 각 도메인(원본, 이유, 신뢰도 및 상태)에 대한 일반 정보 외에도 주소의 위도 및 경도, 카운티 이름, 주소 유형(highrise, street 등)과 같은 주소 데이터에 대한 Melissa Data 참조 데이터 서비스에서 제공하는 추가 정보가 있음을 알 수 있습니다. 등등.

  7. 필요한 대상(SQL Server, CSV 또는 Excel)로 데이터를 내보내고 마침을 클릭하여 프로젝트를 닫습니다.

    Important

    64비트 버전의 Excel을 사용하는 경우 정리된 데이터를 Excel 파일로 내보낼 수 없습니다. SQL Server 데이터베이스 또는 .csv 파일로만 내보낼 수 있습니다.