데이터 일치

DQS(Data Quality Services) 데이터 일치 프로세스를 통해 데이터 원본에서 데이터 중복을 줄이고 데이터 정확도를 개선할 수 있습니다. 일치는 단일 데이터 원본의 모든 레코드에서 중복 수준을 분석하고 각 비교 대상 레코드 집합 간 일치 항목에 대한 가중 확률을 반환합니다. 그런 다음 어떤 레코드가 일치 항목인지 확인하고 원본 데이터에 대해 적절한 작업을 수행할 수 있습니다.

DQS 일치 프로세스에는 다음과 같은 이점이 있습니다.

  • 일치를 통해 서로 같아야 하는 데이터 값 간에 차이를 없애고 올바른 값을 확인하고 데이터 차이로 인해 발생할 수 있는 오류를 줄일 수 있습니다. 예를 들어 이름과 주소는 특히 고객 데이터와 같은 데이터 원본에서 식별 데이터로 자주 사용되지만 시간이 지나면서 데이터가 지저분해지고 질이 나빠질 수 있습니다. 일치를 수행하여 이러한 오류를 식별하고 수정하면 데이터 사용과 유지 관리가 훨씬 더 쉬워질 수 있습니다.

  • 일치를 통해 동등한 값이 다른 형식이나 스타일로 입력되었는지 확인하여 동등하게 만들 수 있습니다.

  • 일치는 정확하게 일치하는 항목 및 근사하게 일치하는 항목을 식별하므로 정의한 대로 중복 데이터를 제거할 수 있습니다. 근사하게 일치하는 항목이 실제로 일치 항목이 되는 요소를 정의합니다. 일치에 대해 평가할 필드와 평가하지 않을 필드를 정의합니다.

  • DQS에서는 컴퓨터 기반 프로세스를 사용하여 일치 정책을 만들고, 일치 결과에 따라 정책을 대화식으로 수정하고, 재사용 가능한 정책을 기술 자료에 추가할 수 있습니다.

  • 일치 정책 및 원본 데이터의 상태에 따라 원본에서 준비 테이블로 복사된 데이터의 인덱스를 다시 만들거나 만들지 않을 수 있습니다. 인덱스를 다시 만들지 않을 경우 성능이 개선될 수 있습니다.

일치 프로세스와 다른 데이터 정리 프로세스를 함께 수행하여 전반적인 데이터 품질을 개선할 수 있습니다. 또한 Master Data Services에 기본 제공되는 DQS 기능을 사용하여 데이터 중복 제거를 수행할 수도 있습니다. 자세한 내용은 Master Data Services 개요를 참조하십시오.

다음 그림은 DQS에서 데이터 일치를 수행하는 방법을 보여 줍니다.

DQS의 일치 과정

항목 내용

  • 데이터 일치를 수행하는 방법

  • 일치 정책 작성

  • 일치 프로젝트 실행

데이터 일치를 수행하는 방법

DQS의 다른 데이터 품질 프로세스와 마찬가지로 다음 단계에 따라 기술 자료를 구축하고 데이터 품질 프로젝트의 일치 작업을 실행하여 일치를 수행하십시오.

  1. 기술 자료에 일치 정책을 만듭니다.

  2. 데이터 품질 프로젝트의 일부인 일치 작업에서 중복 제거 프로세스를 수행합니다.

일치 정책 작성

기술 자료에 DQS가 일치 확률을 할당하는 방법을 정의한 일치 정책을 만들어 일치 수행을 위해 기술 자료를 준비해야 합니다. 일치 정책은 DQS에서 레코드가 서로 얼마나 일치하는지 평가할 때 사용될 도메인을 식별하고, 일치 평가에서 각 도메인 값이 가지는 가중치를 지정하는 하나 이상의 일치 규칙으로 구성됩니다. 이 규칙에 도메인 값이 정확히 일치하는 항목이어야 하는지, 또는 유사하기만 해도 되는지 여부와 유사성 수준을 지정합니다. 또한 도메인 일치 항목이 필수 구성 요소인지 여부도 지정합니다.

기술 자료 관리 마법사의 일치 정책 작업은 각 일치 규칙을 적용하여 샘플 데이터를 분석함으로써 레코드 범위 전체에서 한 번에 두 레코드를 비교합니다. 지정된 최소값보다 일치 점수가 큰 레코드는 일치 결과에서 클러스터로 그룹화됩니다. 이러한 일치 결과는 기술 자료에 추가되지 않습니다. 이 결과를 사용하여 일치 규칙을 조정하십시오. 일치 정책 만들기는 일치 결과 또는 프로파일링 통계에 따라 일치 규칙을 수정하는 반복 프로세스가 될 수 있습니다.

데이터 원본에서 도메인으로 데이터를 로드할 때 특정 도메인에 대해 데이터 문자열이 정규화되도록 지정할 수 있습니다. 이 프로세스에는 특수 문자를 null 또는 공백으로 바꾸는 과정이 포함되며, 이렇게 하면 두 문자열 간의 차이가 사라집니다. 따라서 일치 정확도가 높아지고, 일치 결과가 정규화하기 전에는 최소 일치 임계값을 통과하지 못한 경우에도 최소 일치 임계값을 초과하게 되는 경우가 많습니다.

[!참고]

두 레코드에서 해당 필드의 null 값은 일치 항목으로 간주됩니다.

일치 정책은 샘플 데이터에 매핑된 도메인에 대해 실행됩니다. 일치 정책을 실행할 때 데이터가 데이터 원본에서 준비 테이블로 복사된 후 데이터의 인덱스를 다시 만들지 여부를 지정할 수 있습니다. 기술 자료를 구축할 때와 일치 프로젝트를 실행할 때도 이렇게 할 수 있습니다. 인덱스를 다시 만들지 않으면 성능이 개선될 수 있습니다. 일치 정책이 변경되지 않았고 데이터 원본을 업데이트하거나 정책을 다시 매핑하거나 새 데이터 원본을 선택하거나 하나 이상의 새 도메인을 매핑하지 않은 경우 인덱스를 다시 만들 필요가 없습니다.

각 일치 규칙은 생성될 때 기술 자료에 저장됩니다. 그러나 기술 자료는 게시된 경우에만 데이터 품질 프로젝트에서 사용할 수 있습니다. 또한 기술 자료가 게시될 때까지 해당 기술 자료의 일치 규칙은 해당 규칙을 만든 사용자가 아닌 다른 사용자가 변경할 수 없습니다.

맨 위로 이동 링크와 함께 사용되는 화살표 아이콘[Top]

일치 프로젝트 실행

DQS에서는 원본 데이터의 각 행을 서로 비교하고 기술 자료에 정의된 일치 정책을 사용하여 행이 일치 항목일 확률을 생성하는 방식으로 데이터 중복 제거를 수행합니다. 이러한 작업은 일치 유형의 데이터 품질 프로젝트에서 수행됩니다. 일치는 데이터 품질 프로젝트의 주요 단계 중 하나입니다. 데이터 정리 후에는 일치시킬 데이터에 오류가 없으므로 이때 일치를 수행하는 것이 가장 좋습니다. 일치 프로세스를 실행하기 전에 정리 프로젝트의 결과를 데이터 테이블 또는 .csv 파일로 내보낸 다음 일치 프로젝트를 만들어 일치 프로젝트의 도메인에 정리 결과를 매핑할 수 있습니다.

데이터 일치 프로젝트는 컴퓨터 기반 프로세스와 반복 프로세스로 구성됩니다. 일치 프로젝트는 평가할 데이터 원본에 일치 정책의 일치 규칙을 적용합니다. 이 프로세스는 두 행이 일치 항목일 가능성을 일치 점수에 평가합니다. 데이터 관리자가 일치 정책에 설정한 값보다 일치 확률이 높은 레코드만 일치 항목으로 간주됩니다.

DQS는 일치 분석을 수행할 때 DQS에서 일치 항목으로 간주한 레코드의 클러스터를 만듭니다. DQS는 각 클러스터의 레코드 중 하나를 임의로 피벗(또는 선행) 레코드로 식별합니다. 데이터 관리자는 일치 결과를 확인하고 특정 클러스터의 적절한 일치 항목이 아닌 레코드를 거부합니다. 그런 다음 DQS가 일치 프로세스에서 유지할 레코드를 결정하고 일치 레코드를 바꾸는 데 사용될 Survivorship 규칙을 선택합니다. Survivorship 규칙은 "피벗 레코드"(기본값), "가장 완전하고 가장 긴 레코드", "가장 완전한 레코드" 또는 "가장 긴 레코드"가 될 수 있습니다. DQS는 Survivorship 규칙의 조건과 가장 비슷한 레코드를 기준으로 각 클러스터에서 Survivor(선행) 레코드를 결정합니다. 특정 클러스터의 여러 레코드가 Survivorship 규칙을 따르는 경우 DQS는 이러한 레코드 중 하나를 임의로 선택합니다. DQS는 "겹치지 않는 클러스터 표시"를 선택하여 공통된 레코드를 가진 클러스터를 단일 클러스터로 표시할 수 있는 옵션을 제공합니다. 이 설정에 따라 결과를 표시하려면 일치 프로세스를 실행해야 합니다.

일치 프로세스의 결과는 SQL Server 테이블 또는 .csv 파일로 내보낼 수 있습니다. 일치 결과는 두 가지 형식으로 내보낼 수 있습니다. 하나는 일치하는 레코드와 일치하지 않는 레코드이고, 다른 하나는 특정 클러스터의 Survivor 레코드만 포함된 Survivorship 레코드와 일치하지 않는 결과입니다. Survivorship 레코드에서 동일한 레코드가 여러 클러스터에 대한 Survivor로 식별된 경우 해당 레코드는 한 번만 내보내집니다.

맨 위로 이동 링크와 함께 사용되는 화살표 아이콘[Top]

섹션 내용

DQS에서 일치와 관련된 다음 태스크를 수행할 수 있습니다.

일치 정책의 일치 규칙 만들기 및 테스트

일치 정책 만들기

데이터 품질 프로젝트에서 일치 실행

일치 프로젝트 실행