일치하는 프로젝트 실행

적용 대상:SQL Server

이 항목에서는 DQS(Data Quality Services)에서 데이터 일치를 수행하는 방법에 대해 설명합니다. 일치 프로세스는 일치 정책의 일치 규칙에 따라 일치하는 레코드의 클러스터를 식별하고, 각 클러스터에서 하나의 레코드를 survivorship 규칙에 따라 생존자로 지정하고, 결과를 내보냅니다. DQS는 컴퓨터 지원 프로세스에서 중복 제거라고도 하는 일치 프로세스를 수행하지만, 대화형으로 일치 규칙을 만들고, 몇 가지 선택 사항에서 survivorship 규칙을 선택하여 일치 프로세스를 제어합니다.

일치는 데이터 원본을 식별하고 도메인을 데이터 원본에 매핑하는 매핑 프로세스, 일치 분석을 실행하는 일치 프로세스, Survivorship 규칙을 지정하고 일치하는 결과를 내보내는 survivorship 및 내보내기 프로세스의 세 단계로 수행됩니다. 이러한 각 프로세스는 일치 작업 마법사의 별도 페이지에서 수행되므로 서로 다른 페이지로 앞뒤로 이동하고, 프로세스를 다시 실행하고, 특정 일치 프로세스를 종료한 다음, 프로세스의 동일한 단계로 돌아갈 수 있습니다. DQS는 원본 데이터, 일치 규칙 및 일치 결과에 대한 통계를 제공하여 일치에 대한 정보에 입각한 결정을 내리고 일치 프로세스를 구체화할 수 있습니다.

하나 이상의 일치 규칙을 사용하여 일치 정책을 만들고 샘플 데이터에서 정책을 실행하여 일치를 준비해야 합니다. 일치 프로젝트 프로세스는 일치 정책 프로세스와 별개이며, 기술 자료는 일치 프로젝트에서 얻은 일치 정보로 채워지지 않습니다. 일치 정책을 만드는 방법에 대한 자세한 내용은 일치 정책 만들기를 참조하세요.

시작하기 전에

전제 조건

  • 하나 이상의 일치 규칙으로 구성된 일치 정책을 사용하여 기술 자료를 만들었어야 합니다.

  • 일치하는 원본 데이터가 Excel 파일에 있는 경우 Data Quality 클라이언트 컴퓨터에 Microsoft Excel을 설치해야 합니다. 그렇지 않으면 매핑 단계에서 Excel 파일을 선택할 수 없습니다. Microsoft Excel에서 만든 파일은 .xlsx, .xls 또는.csv 확장명을 가질 수 있습니다. 64비트 버전의 Excel을 사용하는 경우 Excel 2003 파일(.xls)만 지원됩니다. Excel 2007 또는 2010 파일(.xlsx)은 지원되지 않습니다. 64비트 버전의 Excel 2007 또는 2010을 사용하는 경우 파일을 .xls 파일 또는 .csv 파일로 저장하거나 대신 32비트 버전의 Excel을 설치합니다.

보안

사용 권한

일치하는 프로젝트를 실행하려면 DQS_MAIN 데이터베이스에 dqs_kb_editor 또는 dqs_administrator 역할이 있어야 합니다.

첫 번째 단계: 일치 프로젝트 시작

DQS 클라이언트 애플리케이션에서 만든 데이터 품질 프로젝트에서 일치 작업을 수행합니다.

  1. Data Quality 클라이언트를 시작합니다. 이 작업에 대한 자세한 내용은 Data Quality 클라이언트 애플리케이션 실행을 참조하세요.

  2. Data Quality 클라이언트 홈 화면에서 새 데이터 품질 프로젝트를 클릭하여 새 데이터 품질 프로젝트에서 일치를 수행합니다. 데이터 품질 프로젝트의 이름을 입력하고, 설명을 입력하고, 기술 자료 사용에서 일치에 사용할 기술 자료를 선택합니다. 작업에 대한 일치를 클릭합니다. 다음을 클릭하여 매핑 단계로 진행합니다.

  3. 데이터 품질 프로젝트 열기를 클릭하여 기존 데이터 품질 프로젝트에서 일치를 수행합니다. 프로젝트를 선택하고 다음을 클릭합니다. (또는 아래 의 프로젝트를 클릭할 수 있습니다.최근 데이터 품질 프로젝트입니다.) 닫힌 일치 프로젝트를 여는 경우 프로젝트 테이블의 상태 열 또는 최근 데이터 품질 프로젝트의 프로젝트 이름에 표시된 대로 일치하는 프로젝트 작업이 닫힌 단계로 진행합니다. 완료된 일치 프로젝트를 연 경우 내보내기 페이지로 이동합니다. 이 경우에는 이전 화면으로 돌아갈 수 없습니다.

매핑 단계

매핑 단계에서는 일치하는 분석을 실행할 데이터의 원본을 식별하고, 도메인에 원본 열을 매핑하여 일치하는 작업에 도메인을 사용할 수 있도록 합니다.

  1. 페이지에서 데이터베이스에서 일치를 실행하려면 데이터 원본을 SQL Server두고 일치를 실행할 데이터베이스를 선택한 다음 테이블을 선택합니다. 원본 데이터베이스는 DQS 서버와 동일한 SQL Server 인스턴스에 있어야 합니다. 그렇지 않으면 드롭다운 목록에 나타나지 않습니다.

  2. Excel 스프레드시트의 데이터에 대해 일치를 실행하려면 Excel 파일데이터 원본으로 선택하고 찾아보기 를 클릭한 다음 Excel 파일을 선택합니다. 이때 해당되는 경우 첫 번째 행을 헤더로 사용하세요 를 선택된 상태로 그대로 둡니다. 워크시트에서 데이터 원본이 될 Excel 파일의 워크시트를 선택합니다. Excel 파일을 선택하려면 Data Quality 클라이언트 컴퓨터에 Excel을 설치해야 합니다. Data Quality 클라이언트 컴퓨터에 Excel이 설치되어 있지 않으면 찾아보기 단추를 사용할 수 없으며 이 텍스트 상자 아래에 Excel이 설치되어 있지 않다는 알림이 표시됩니다.

  3. 매핑에서 원본 열에 대한 데이터 원본의 필드를 선택한 다음 해당 도메인을 선택합니다. 일치 프로세스에서 사용하는 모든 도메인에 대해 반복합니다. 일치 정책에 정의된 각 도메인이 해당 원본 열에 매핑되어 있어야 합니다. 맵 페이지에는 일치하는 정책에 정의된 도메인과 오른쪽 창의 일치 정책에 있는 규칙이 표시됩니다.

    참고 항목

    원본 데이터 형식이 DQS에서 지원되고 DQS 도메인 데이터 형식과 일치하는 경우에만 원본 데이터를 DQS 도메인에 매핑할 수 있습니다. DQS에서 지원되는 데이터 형식에 대한 자세한 내용은 DQS 도메인에 대해 지원되는 SQL Server 및 SSIS 데이터 형식을 참조 하세요.

  4. 더하기(+) 컨트롤을 클릭하여 매핑 테이블에 행을 추가하거나 빼기(-) 컨트롤을 클릭하여 행을 제거합니다.

  5. 데이터 원본 미리 보기를 클릭하여 선택한 SQL Server 테이블 또는 뷰 또는 선택한 Excel 워크시트의 데이터를 확인합니다.

  6. 복합 도메인 보기/선택 을 클릭하여 기술 자료에서 사용할 수 있는 복합 도메인 목록을 확인하고 매핑에 적절한 복합 도메인을 선택합니다.

  7. 다음을 클릭하여 일치 스테이지로 진행합니다.

    참고 항목

    기를 클릭하여 일치하는 프로젝트의 단계를 저장하고 DQS 홈 페이지로 돌아갑니다. 다음에 이 프로젝트를 열면 동일한 단계에서 시작됩니다. [취소]를 클릭하여 일치 작업을 종료하고 작업을 잃고 DQS 홈페이지로 돌아갑니다.

일치 단계

이 단계에서는 일치 규칙에 따라 원본 데이터에 존재하는 일치 항목 수를 보여 주는 컴퓨터 기반 일치 프로세스를 수행합니다. 이 프로세스를 수행하면 DQS에서 확인한 클러스터, 클러스터의 각 레코드(해당 레코드 ID 및 일치 점수 포함) 및 클러스터의 초기 선행 레코드가 표시된 일치 결과 테이블이 생성됩니다. 클러스터의 선행 레코드가 임의로 선택됩니다. 일치 프로젝트를 실행할 때 내보내기 페이지에서 Survivorship 규칙을 선택하여 존속 레코드를 결정합니다. 클러스터의 각 추가 행은 일치하는 것으로 간주되며, 선행 레코드와 비교된 해당 일치 점수가 결과 테이블에 제공됩니다. 클러스터 번호는 클러스터의 선행 레코드에 대한 레코드 ID와 동일합니다.

일치하는 결과에서 원하는 데이터를 필터링하고 원하지 않는 일치 항목을 거부할 수 있습니다. 전체 일치 프로세스에 대한 프로파일링 데이터, 적용되는 일치 규칙에 대한 구체적인 정보 및 전체 일치 결과에 대한 통계를 표시할 수 있습니다. 일치 프로세스는 겹치거나 겹치지 않는 클러스터를 식별할 수 있으며, 여러 번 실행되는 경우 원본에서 새로 복사하여 다시 인덱싱된 데이터 또는 이전 데이터에서 실행할 수 있습니다.

  1. 일치 페이지에서 드롭다운 목록에서 겹치는 클러스터를 선택하여 클러스터 그룹에 공통 레코드가 있는 경우에도 일치가 실행될 때 모든 클러스터에 대한 피벗 레코드 및 다음 레코드를 표시합니다. 일치가 실행될 때 공통 레코드가 단일 클러스터로 있는 클러스터를 표시하려면 겹치지 않는 클러스터를 선택합니다.

  2. 원본(기본값)에서 데이터 다시 로드를 클릭하여 데이터 원본에서 준비 테이블로 데이터를 복사하고 일치하는 프로젝트를 실행할 때 데이터를 다시 인덱싱합니다. 준비 테이블로 데이터를 복사하여 인덱스를 다시 작성하지 않고 일치 프로젝트를 실행하려면 이전 데이터에 대해 실행 을 클릭합니다. 일치 프로젝트를 처음 실행하거나 페이지에서 매핑을 변경한 후 팝업에서 를 클릭한 경우에는 이전 데이터에 대해 실행 이 비활성화됩니다. 두 경우 모두 다시 인덱싱해야 합니다. 일치하는 프로젝트가 변경되지 않은 경우 다시 인덱싱할 필요가 없습니다. 이전 데이터에서 실행하면 성능에 도움이 될 수 있습니다.

  3. 시작을 클릭하여 선택한 데이터 원본에서 일치를 실행합니다.

  4. 일치 프로젝트를 중지하고 결과를 취소하려면 중지 를 클릭합니다.

  5. 일치 프로세스가 완료되면 일치 결과 테이블의 클러스터가 적절한지 확인할 수 있으며, 프로파일러일치 결과 탭의 통계를 보고 원하는 결과를 얻었는지 확인할 수 있습니다. 필터에 대해 일치 항목을 선택하여 일치하는 레코드를 보거나 일치하지 않는 레코드를 선택하여 일치하지 않는 레코드를 봅니다.

  6. 일치 정책에 일치하는 규칙이 여러 개 있는 경우 일치 규칙 탭을 클릭하여 각 규칙의 아이콘을 식별한 다음 일치 결과 테이블의 규칙 열에서 규칙을 식별하여 레코드를 일치 항목으로 식별한 규칙을 확인합니다.

  7. 테이블에서 피벗이 아닌 레코드를 선택하고 자세히 보기 아이콘을 클릭하거나 레코드를 두 번 클릭하면 두 번 클릭한 레코드와 해당 피벗 레코드(모든 필드의 값 포함), 두 레코드 간의 점수 및 각 필드의 일치 점수 기여도에 대한 드릴다운이 표시된 일치 점수 정보 팝업이 나타납니다. 피벗 레코드를 두 번 클릭하면 팝업이 표시되지 않습니다.

  8. [모두 축소] 아이콘을 클릭하여 일치하는 결과 테이블에 표시된 레코드를 축소하여 중복 레코드가 아닌 피벗 레코드만 포함합니다. [모두 확장]을 클릭하여 일치하는 결과 테이블에 표시된 레코드를 확장하여 모든 중복 레코드를 포함합니다.

  9. 일치하는 결과에서 레코드를 거부하려면 레코드에 대해 거부된 확인란을 클릭합니다.

  10. 레코드를 표시해야 하는 일치 수준을 결정하는 최소 일치 점수를 변경하려면 최소를 선택합니다. 표의 오른쪽 위에 있는 일치 점수 아이콘을 선택하고 더 높은 숫자를 입력합니다. 최소 일치 점수는 기본적으로 80%로 설정됩니다. 새로 고침을 클릭하여 테이블의 내용을 변경합니다.

  11. 분석이 완료되면 시작 단추가 다시 시작 단추로 바뀝니다. 다시 시작을 클릭하여 분석 프로젝트를 다시 실행합니다. 그러나 이전 분석의 결과는 아직 저장되지 않았으므로 다시 시작을 클릭하면 이전 데이터가 손실됩니다. 계속하려면 팝업에서 예를 클릭합니다. 분석이 실행 중일 때는 페이지에서 나가지 마세요. 그러면 분석 프로세스가 종료됩니다.

  12. 다음을 클릭하여 survivorship 및 내보내기 스테이지로 진행합니다.

생존자 및 내보내기 단계

Survivorship 프로세스에서 Data Quality Services는 각 클러스터에 대한 생존자 레코드를 결정합니다. 이 레코드는 클러스터에서 일치하는 다른 레코드를 대체합니다. 그런 다음 일치하는 결과 및/또는 survivorship 결과를 SQL Server 데이터베이스, .csv 파일 또는 Excel 파일의 테이블로 내보냅니다.

생존자는 선택 사항입니다. Survivorship을 실행하지 않고 결과를 내보낼 수 있습니다. 이 경우 DQS는 일치 분석에 지정된 피벗 레코드를 사용합니다. 클러스터에 있는 두 개 이상의 레코드가 survivorship 규칙을 준수하는 경우 survivorship 프로세스는 충돌하는 레코드 중에서 가장 낮은 레코드 ID를 생존자로 선택합니다. 다른 생존자 규칙을 사용하여 다른 파일 또는 테이블로 생존자를 내보낼 수 있습니다.

  1. 내보내기 페이지의 대상 유형: SQL Server, CSV 파일또는 Excel 파일에서 일치 데이터를 내보낼 대상을 선택합니다.

    Important

    64비트 버전의 Excel을 사용하는 경우 일치하는 데이터를 Excel 파일로 내보낼 수 없습니다. SQL Server 데이터베이스 또는 .csv 파일로만 내보낼 수 있습니다.

  2. 대상 유형 에 대해 SQL Server를 선택한 경우 데이터베이스 이름에서 결과를 내보낼 데이터베이스를 선택합니다.

    Important

    대상 데이터베이스는 DQS 서버와 동일한 SQL Server 인스턴스에 있어야 합니다. 그렇지 않으면 드롭다운 목록에 나타나지 않습니다.

  3. 일치 결과에 대한 확인란을 선택하여 SQL Server 데이터베이스의 지정된 테이블 또는 지정된 .csv 또는 Excel 파일로 일치하는 결과를 내보냅니다(설명은 위 참조). Survivorship 결과의 확인란을 선택하여 SQL Server 데이터베이스의 지정된 테이블 또는 지정된 .csv 또는 Excel 파일로 생존자 결과(설명은 위 참조)를 내보냅니다.

    일치하는 결과를 위해 다음을 내보냅니다.

    • 클러스터 및 각 클러스터의 일치하는 레코드 목록(규칙 이름 및 점수 포함). 피벗 레코드는 "피벗"으로 표시됩니다. 클러스터가 내보내기 목록에 먼저 표시됩니다.

    • 일치하지 않는 레코드 목록(점수 및 규칙 이름 열에 "NULL"이 표시됨). 이러한 레코드는 클러스터 뒤의 내보내기 목록에 추가됩니다.

    Survivorship 결과에 대한 내보내기 항목은 다음과 같습니다.

    • Survivorship 프로세스에서 Survivorship 규칙에 따라 결정한 존속 레코드 목록. 이러한 레코드는 내보내기 목록에 먼저 표시됩니다.

    • 일치하는 레코드의 클러스터에 포함되지 않은 일치하지 않는 레코드 목록입니다. 이러한 레코드는 생존자 결과 후에 추가됩니다.

  4. 대상 유형에 대해 SQL Server를 선택한 경우 결과를 테이블 이름으로 내보낼 테이블의 이름을 입력합니다. 일치하는 결과와 survivorship 결과를 모두 내보내는 경우 대상 테이블에는 데이터베이스에 고유한 다른 이름이 있어야 합니다.

  5. 대상 형식에 대해 CSV 파일을 선택한 경우 CSV 파일 이름으로 내보낼 CSV 파일의 파일 및 경로를 입력합니다.

  6. 대상 형식에 대한 Excel 파일을 선택한 경우 Excel 파일 이름으로 내보낼 Excel 파일의 파일과 경로를 입력합니다. 64비트 버전의 Excel을 사용하는 경우 Excel 파일로 내보낼 수 없습니다.

  7. 다음과 같이 survivorship 규칙을 선택합니다.

    • DQS에서 임의로 선택한 초기 피벗 레코드를 존속 레코드로 지정하려면 피벗 레코드 를 선택합니다.

    • 가장 완전하고 가장 긴 레코드를 선택하여 남은 레코드 를 채워진 필드 수가 가장 많고 각 필드에서 용어 수가 가장 많은 레코드로 식별합니다. 페이지에서 도메인에 매핑되지 않은 필드를 포함하여 모든 원본 필드가 선택됩니다.

    • 가장 전체 레코드를 선택하여 남은 레코드를 채워진 필드 수가 가장 많은 레코드로 식별합니다. 채워진 필드에는 하나 이상의 값(문자열, 숫자 또는 둘 다)이 포함됩니다. 맵 페이지에서 도메인에 매핑되지 않은 필드를 포함하여 모든 원본 필드가 선택됩니다. 채워진 필드에는 하나 이상의 값(문자열, 숫자 또는 둘 다)이 포함됩니다.

    • 가장 긴 레코드를 선택하여 남은 레코드를 원본 필드에서 용어 수가 가장 많은 레코드로 식별합니다. 각 레코드의 길이를 확인하기 위해 DQS는 지도 페이지의 도메인에 매핑되지 않은 필드도 모든 원본 필드에서 용어의 길이를 확인합니다.

  8. 프로파일러 탭의 통계를 보고 원하는 결과를 얻었는지 확인합니다.

  9. 내보내기를 클릭하여 결과를 내보냅니다. 진행률과 내보내기 결과를 차례로 보여 주는 일치하는 항목 내보내기 대화 상자가 표시됩니다.

    • SQL Server 를 데이터 대상으로 선택한 경우 지정한 이름의 새 테이블이 선택한 데이터베이스에서 만들어집니다.

    • CSV 파일을 데이터 대상으로 선택한 경우 이전에 Csv 파일 이름 상자에 지정한 파일 이름을 사용하여 Data Quality Server 컴퓨터의 위치에 .csv 파일이 만들어집니다.

    • Excel 파일을 데이터 대상으로 선택한 경우 Excel 파일 이름 상자에서 이전에 지정한 파일 이름을 사용하여 Data Quality Server 컴퓨터의 위치에 .xlsx 파일이 만들어집니다.

  10. 내보내기가 성공적으로 완료되었는지 확인한 다음 닫기를 클릭합니다.

  11. 마침을 클릭하여 일치하는 프로젝트를 완료합니다.

    참고 항목

    일치하는 프로젝트를 완료한 다음 다시 사용하는 경우 게시할 때 기술 자료를 제자리에 사용합니다. 즉, 프로젝트를 완료한 이후에 기술 자료에 적용한 변경 내용은 사용되지 않습니다. 이러한 변경 내용을 사용하거나 새 기술 자료를 사용하려면 일치하는 새 프로젝트를 만들어야 합니다. 반면, 일치하는 프로젝트를 만들었지만 완료하지 않은 경우 프로젝트에서 일치를 실행하는 경우 일치 정책에 게시한 변경 내용이 사용됩니다.

후속 작업: 일치하는 프로젝트를 실행한 후

일치하는 프로젝트를 실행한 후 기술 자료에서 일치 정책을 변경하고 업데이트된 일치 정책에 따라 다른 일치 프로젝트를 만들고 실행할 수 있습니다. 자세한 내용은 일치 정책 만들기를 참조 하세요.

프로파일러 및 결과 탭

프로파일러 및 결과 탭에는 일치 프로세스에 대한 통계가 포함됩니다.

프로파일러 탭

프로파일러 탭을 클릭하여 원본 데이터베이스 및 정책 규칙에 포함된 각 필드에 대한 통계를 표시합니다. 정책 규칙이 실행되면 통계가 업데이트됩니다. 프로파일링을 통해 중복 제거 프로세스의 효과를 평가하여 이 프로세스로 데이터의 품질을 개선할 수 있는 정도를 확인할 수 있습니다. 프로파일링의 정확도는 일치 프로젝트에 중요하지 않습니다.

원본 데이터베이스 통계에는 다음이 포함됩니다.

  • 레코드: 데이터베이스의 총 레코드 수

  • 총 값: 필드의 총 값 수

  • 새 값: 이전 실행 이후 새로 추가된 값의 총 수와 전체 값의 백분율입니다.

  • 고유 값: 필드에 있는 고유 값의 총 수 및 전체의 백분율

  • 새로운 고유 값: 필드에 새로 생성된 전체 고유 값 수와 값의 총 개수에 대한 해당 백분율

필드 통계에는 다음이 포함됩니다.

  • 필드: 매핑에 포함된 필드 수

  • 도메인: 필드에 매핑된 도메인의 이름입니다.

  • 새로 만들기: 찾은 새 일치 항목의 수와 총 일치 항목의 백분율

  • 고유: 필드의 고유 레코드 수와 해당 백분율

  • 완료도: 규칙 실행이 완료된 비율입니다.

일치 정책 알림

일치 정책 작업의 경우 다음과 같은 상황에서 알림이 발생합니다.

  • 모든 레코드에서 필드가 비어 있습니다. 매핑에서 제거하는 것이 좋습니다.

  • 필드 완성도 점수가 매우 낮습니다. 매핑에서 제거할 수 있습니다.

  • 필드의 모든 값이 잘못되었습니다. 필드 내용에 대한 도메인 규칙의 매핑 및 관련성을 확인해야 합니다.

  • 필드에 유효한 값이 적은 경우 - 필드 내용에 대한 도메인 규칙의 매핑과 관련성을 확인해야 합니다.

  • 이 필드의 고유성 수준이 높은 경우 - 일치 정책에 이 필드를 사용하면 일치하는 결과가 감소할 수 있습니다.

일치 규칙 탭

이 탭을 클릭하면 일치 정책의 규칙 목록과 규칙의 조건이 표시됩니다.

규칙 목록
일치 정책의 모든 일치 규칙 목록을 표시합니다. 규칙 중 하나를 클릭하면 일치 규칙 테이블에 규칙의 조건이 표시됩니다.

일치하는 규칙 테이블
도메인, 유사성 값, 가중치 및 필수 구성 요소 선택을 포함하여 선택한 규칙의 각 조건을 표시합니다.

일치 결과 탭

일치 결과 탭을 클릭하여 프로젝트에 대해 선택한 지식과 해당 기술 자료의 일치 규칙 또는 규칙을 사용하여 데이터 원본 분석에 대한 통계를 표시합니다. 통계에는 다음이 포함됩니다.

  • 데이터베이스의 총 레코드 수

  • 데이터베이스에서 일치하는 레코드의 총 수

  • 중복된 것으로 간주되지 않는 데이터베이스의 레코드 수

  • 검색된 클러스터 수

  • 평균 클러스터 크기(중복 레코드 수를 클러스터 수로 나눈 수)

  • 클러스터에서 가장 적은 수의 중복 항목

  • 클러스터에서 가장 큰 중복 수