일치 정책 만들기

이 항목에서는 DQS(Data Quality Services)의 기술 자료에 일치 정책을 만드는 방법에 대해 설명합니다. 예제 데이터에서 일치 정책 작업을 실행하여 DQS에서 일치 프로세스를 준비할 수 있습니다. 이 작업에서는 정책에서 하나 이상의 일치 규칙을 만들고 테스트한 다음 일치 규칙을 공개적으로 사용할 수 있도록 기술 자료를 게시합니다. 기술 자료에는 하나의 일치 정책만 있을 수 있지만 해당 정책에 여러 일치 규칙이 포함되어 있을 수 있습니다.

일치 정책 만들기는 데이터 원본을 확인하고 도메인을 열에 매핑하는 매핑 프로세스, 하나 이상의 일치 규칙을 만들고 각 일치 규칙을 개별적으로 테스트하는 일치 정책 프로세스, 그리고 모든 일치 규칙을 동시에 실행하여 결과에 만족하는 경우 정책을 기술 자료에 추가하는 일치 결과 프로세스의 3단계로 수행됩니다. 이러한 각 프로세스는 일치 정책 작업 마법사의 개별 페이지에서 수행되므로 여러 페이지를 앞뒤로 이동하고, 프로세스를 다시 실행하고, 특정 일치 정책 프로세스를 닫은 후 프로세스의 같은 단계로 돌아갈 수 있습니다. 모든 규칙을 동시에 테스트한 후 필요에 따라 일치 정책 페이지로 돌아가서 개별 규칙을 수정하고 별도로 다시 테스트한 다음 일치 결과 페이지로 돌아가서 모든 규칙을 다시 한번 동시에 실행할 수 있습니다. DQS에서는 원본 데이터, 일치 규칙 및 일치 결과에 대한 통계를 제공하므로 정보를 바탕으로 일치 정책에 대한 의사를 결정하고 이를 구체화할 수 있습니다.

항목 내용

  • 시작하기 전에

    필수 구성 요소

    보안

  • 일치 규칙 매개 변수를 설정하는 방법

  • 첫 번째 단계: 일치 정책 시작

  • 매핑 단계

  • 일치 정책 단계

  • 일치 결과 단계

  • 후속 작업: 일치 정책을 만든 후

  • 프로파일러 및 결과 탭

시작하기 전 주의 사항

필수 구성 요소

원본 데이터가 Excel 파일 형식인 경우 Data Quality 클라이언트 컴퓨터에 Microsoft Excel이 설치되어 있어야 합니다. 그렇지 않으면 매핑 단계에서 Excel 파일을 선택할 수 없습니다. Microsoft Excel에서 만든 파일은 .xlsx, .xls 또는.csv 확장명을 가질 수 있습니다. 64비트 버전의 Excel이 사용된 경우 Excel 2003 파일 (.xls)만 지원됩니다. Excel 2007 또는 2010 파일(.xlsx)은 지원되지 않습니다. 64비트 버전의 Excel 2007 또는 2010을 사용 중인 경우 파일을 .xls 파일 또는 .csv 파일로 저장하거나 32비트 버전의 Excel을 대신 설치하십시오.

보안

사용 권한

일치 정책을 만들려면 DQS_MAIN 데이터베이스에 대한 dqs_kb_editor 또는 dqs_administrator 역할이 있어야 합니다.

맨 위로 이동 링크와 함께 사용되는 화살표 아이콘[맨 위]

일치 규칙 매개 변수를 설정하는 방법

일치 규칙 만들기는 하나의 레코드가 다른 레코드와 일치하는지 확인하는 데 사용되는 요소를 입력하는 대화형 프로세스입니다. 테이블의 모든 도메인에 대한 조건을 입력할 수 있습니다. DQS에서는 두 개의 레코드에 대해 일치를 수행할 때 일치 규칙에 포함되어 있는 도메인에 매핑된 필드의 값을 비교합니다. DQS에서는 규칙의 각 필드에 있는 값을 분석한 다음 각 도메인에 대해 규칙에 입력된 요소를 사용하여 최종 일치 점수를 계산합니다. 비교한 두 레코드의 일치 점수가 최소 일치 점수보다 큰 경우에는 두 필드가 일치하는 것으로 간주됩니다.

일치 규칙에 입력하는 요소는 다음과 같습니다.

  • 가중치: 규칙의 각 도메인에 대해 숫자 가중치를 입력합니다. 이 값에 따라 도메인에 대한 일치 분석이 규칙의 다른 각 도메인에 대한 일치 분석과 비교되는 방법이 결정됩니다. 가중치는 두 레코드 간의 전체 일치 점수에 대한 필드 점수의 기여도를 나타냅니다. 각 원본 필드에 할당된 계산된 점수는 두 레코드의 복합 일치 점수에 합산됩니다. 필수 구성 요소(정확한 수치 또는 근사치의 유사성을 가짐)가 아닌 각 필드에 대해 10에서 100 사이의 가중치를 설정합니다. 필수 구성 요소가 아닌 도메인의 가중치 합은 100과 같아야 합니다. 값이 필수 구성 요소인 경우 가중치는 0으로 설정되며 변경할 수 없습니다.

  • 정확한 수치의 유사성: 같은 필드에 있는 두 레코드의 값이 동일한 경우에만 값이 일치하는 것으로 간주되도록 하려면 정확한 수치를 선택합니다. 동일한 경우 해당 도메인의 일치 점수는 "100"으로 설정되며, DQS에서는 이 점수와 규칙의 다른 도메인에 대한 점수를 사용하여 집계 일치 점수를 결정합니다. 동일하지 않은 경우 해당 도메인의 일치 점수는 "0"으로 설정되며, 규칙 처리가 다음 조건으로 이동합니다. 숫자 도메인에 대한 일치 규칙을 설정하고 근사치를 선택한 경우 백분율 또는 정수로 허용 오차를 입력할 수 있습니다. 형식이 날짜인 도메인에 대해 근사치를 선택한 경우 일, 월 또는 연도(정수)로 허용 오차를 입력할 수 있습니다. 날짜 도메인에는 백분율 허용 오차가 없습니다. 정확한 수치를 선택한 경우에는 이 옵션이 제공되지 않습니다.

  • 근사치의 유사성: 같은 필드에 있는 두 레코드의 두 값이 동일하지 않은 경우에도 일치하는 것으로 간주되도록 하려면 근사치를 선택합니다. 이 경우 DQS에서는 규칙을 실행할 때 해당 도메인의 일치 점수를 계산하고 이 점수와 규칙의 다른 도메인에 대한 점수를 사용하여 집계 일치 점수를 결정합니다. 필드의 값 사이의 최소 유사성은 60%입니다. 두 레코드의 필드에 대해 계산된 일치 점수가 60보다 작은 경우 유사성 점수는 자동으로 0으로 설정됩니다. 숫자 필드에 대한 일치 규칙을 설정하고 근사치를 선택한 경우 백분율 또는 정수로 허용 오차를 입력할 수 있습니다. 날짜 필드에 대한 일치 규칙을 설정하고 근사치를 선택한 경우 숫자 허용 오차를 입력할 수 있습니다.

  • 필수 구성 요소: 같은 필드의 두 레코드 값이 100% 일치를 반환해야 하며 그렇지 않은 경우 레코드가 일치하는 것으로 간주되지 않고 규칙의 다른 절이 무시되도록 지정하려면 필수 구성 요소를 선택합니다. 필수 구성 요소를 선택한 경우에는 도메인에 대한 가중치 필드가 제거되므로 도메인에 대한 가중치를 정의할 수 없습니다. 가중치 합계가 100과 같도록 하나 이상의 도메인 가중치를 다시 설정해야 합니다. 필수 구성 요소 도메인은 레코드 일치 점수에 기여하지 않습니다. 레코드 일치 점수는 유사성이 근사치 또는 정확한 수치로 설정된 필드의 값을 비교하여 결정됩니다. 필드를 필수 구성 요소로 지정하면 해당 도메인에 대한 유사성이 자동으로 정확한 수치로 설정됩니다.

최소 일치 점수는 해당 점수보다 크거나 같은 경우에 두 레코드가 일치하는 것으로 간주되고 레코드 상태가 "일치함"으로 설정되는 임계값입니다. 증가값에 정수 값 "1"을 입력하거나 위쪽 또는 아래쪽 화살표를 클릭하여 증가값의 값을 "10"씩 증가시키거나 감소시킵니다. 최소값은 80입니다. 일치 점수가 80보다 낮으면 두 레코드가 일치하는 것으로 간주되지 않습니다. 이 페이지에서 최소 일치 점수의 범위를 변경할 수 없습니다. 가장 낮은 최소 일치 점수는 80입니다. 그러나 DQS 관리자인 경우 관리 페이지에서 가장 낮은 최소 일치 점수를 변경할 수 있습니다.

일치 규칙 만들기는 반복적인 프로세스입니다. 원하는 결과를 얻기 위해 규칙의 도메인에 대한 상대 가중치, 도메인의 유사성 또는 필수 구성 요소 속성 또는 규칙의 최소 일치 점수를 변경해야 할 수 있기 때문입니다. 또한 일치 점수를 만들기 위해 여러 규칙을 만들고 각 규칙을 실행해야 할 수도 있습니다. 하나의 규칙만으로는 원하는 결과를 얻기 어려울 수 있습니다. 여러 규칙은 필요한 일치에 대한 다양한 보기를 제공합니다. 여러 규칙을 사용하면 각 규칙에 보다 적은 수의 도메인을 포함하고 각 도메인에 보다 높은 가중치를 사용하여 더 나은 결과를 얻을 수 있습니다. 데이터가 부정확하고 불완전한 경우 필요한 일치를 찾으려면 더 많은 규칙이 필요할 수 있습니다. 데이터의 정확성과 완결성이 높을수록 필요한 규칙 수가 적어집니다.

프로파일링은 완결성 및 고유성에 대한 통찰력을 제공합니다. 따라서 완결성과 고유성을 함께 고려해야 합니다. 완결성 및 고유성 데이터를 사용하여 일치 프로세스에서 필드에 제공할 가중치를 결정할 수 있습니다. 필드의 고유성 수준이 높은 경우 일치 정책에서 이 필드를 사용하면 일치 결과를 낮출 수 있으므로 해당 필드의 가중치를 비교적 낮은 값으로 설정할 수 있습니다. 열의 고유성 수준이 낮고 완결성 또한 낮은 경우 해당 열에 대한 도메인을 포함하지 않을 수 있습니다. 반면, 고유성 수준은 낮지만 완결성 수준이 높은 경우에는 도메인을 포함할 수 있습니다. 성별과 같은 일부 열은 본래 고유성 수준이 낮을 수 있습니다. 자세한 내용은 프로파일러 및 결과 탭을 참조하십시오.

맨 위로 이동 링크와 함께 사용되는 화살표 아이콘[맨 위]

첫 번째 단계: 일치 정책 시작

Data Quality 클라이언트 응용 프로그램의 기술 자료 관리 영역에서 일치 정책 작업을 수행할 수 있습니다.

  1. Data Quality 클라이언트를 시작합니다. 방법은 다음을 참조하십시오. 데이터 품질 클라이언트 응용 프로그램 실행.

  2. Data Quality 클라이언트 홈 화면에서 새 기술 자료를 클릭하여 새 기술 자료에 일치 정책을 만듭니다. 기술 자료의 이름과 설명을 입력하고 원하는 대로 기술 자료 만들기를 설정합니다. 작업에 대해 일치 정책을 클릭합니다. 계속 진행하려면 다음을 클릭합니다.

  3. 기술 자료 열기를 클릭하여 기존 기술 자료에서 일치 정책을 만들거나 수정합니다. 기술 자료를 선택한 다음 일치 정책을 선택하고 다음을 클릭합니다. 최근 기술 자료에서 기술 자료를 클릭할 수도 있습니다. 일치 정책에서 작업 중일 때 닫은 기술 자료를 연 경우 일치 정책 작업이 닫힌 단계(최신 기술 자료 아래의 기술 자료 이름 또는 기술 자료 테이블의 해당 기술 자료에 대한 상태 열에 표시된 단계)로 이동합니다. 일치 정책이 포함되어 있고 완료된 기술 자료를 연 경우 일치 정책 페이지로 이동합니다. 일치 정책이 포함되어 있지 않고 완료된 기술 자료를 연 경우 매핑 페이지로 이동합니다.

맨 위로 이동 링크와 함께 사용되는 화살표 아이콘[맨 위]

매핑 단계

매핑 단계에서는 일치 정책을 만들 데이터의 원본을 확인하고 도메인을 일치 정책 작업에 사용할 수 있도록 원본 열을 도메인에 매핑합니다.

  1. 페이지에서 데이터베이스에 대한 정책을 만들려면 데이터 원본SQL Server로 그대로 두고 데이터베이스에서 정책을 만들려는 데이터베이스를 선택한 다음 테이블/뷰에서 테이블 또는 뷰를 선택합니다. 원본 데이터베이스는 Data Quality 서버와 동일한 SQL Server 인스턴스에 있어야 합니다. 그렇지 않으면 드롭다운 목록에 나타나지 않습니다.

  2. Excel 스프레드시트의 데이터에 대한 정책을 만들려면 Excel 파일데이터 원본으로 선택하고 찾아보기를 클릭한 다음 Excel 파일을 선택합니다. 이때 해당되는 경우 첫 번째 행을 헤더로 사용하십시오를 선택된 상태로 그대로 둡니다. 워크시트에서 데이터의 원본으로 사용할 Excel 파일의 워크시트를 선택합니다. Excel 파일을 선택하려면 Data Quality 클라이언트 컴퓨터에 Microsoft Excel이 설치되어 있어야 합니다. 그렇지 않으면 찾아보기 단추를 사용할 수 없으며 이 텍스트 상자 아래에 Microsoft Excel이 설치되어 있지 않다는 알림이 표시됩니다.

  3. 매핑에서 원본 열에 대한 필드를 선택한 다음 도메인 만들기 아이콘을 클릭합니다.

  4. 매핑에서 원본 열에 대한 데이터 원본의 필드를 선택한 다음 해당 도메인을 선택합니다. 일치 프로세스에서 사용할 모든 도메인에 대해 작업을 반복합니다. 필요에 따라 도메인 만들기 또는 복합 도메인 만들기를 클릭하여 도메인을 만듭니다.

    [!참고]

    원본 데이터 형식이 DQS에서 지원되고 DQS 도메인 데이터 형식과 일치하는 경우에만 일치 정책을 만드는 동안 DQS 도메인에 원본 데이터를 매핑할 수 있습니다. DQS에서 지원되는 데이터 형식에 대한 자세한 내용은 DQS 도메인에 대해 지원되는 SQL Server 및 SSIS 데이터 형식을 참조하십시오.

  5. 더하기(+) 컨트롤을 클릭하여 매핑 테이블에 행을 추가하거나 빼기(–) 컨트롤을 클릭하여 행을 제거합니다.

  6. 데이터 원본 미리 보기를 클릭하여 선택한 SQL Server 테이블이나 뷰 또는 선택한 Excel 워크시트에서 데이터를 확인합니다.

  7. 복합 도메인 보기/선택을 클릭하여 기술 자료에서 사용할 수 있는 복합 도메인 목록을 확인하고 매핑에 적절한 복합 도메인을 선택합니다.

  8. 다음을 클릭하여 일치 정책 단계로 이동합니다.

    [!참고]

    일치 프로젝트의 단계를 저장하고 DQS 홈 페이지로 돌아가려면 닫기를 클릭합니다. 다음에 이 프로젝트를 열면 동일한 단계에서 시작됩니다. 취소를 클릭하면 일치 작업이 저장되지 않고 종료되며 DQS 홈 페이지로 돌아갑니다.

맨 위로 이동 링크와 함께 사용되는 화살표 아이콘[맨 위]

일치 정책 단계

일치 정책 페이지에서 일치 규칙을 만들고 개별적으로 테스트할 수 있습니다. 일치 정책 페이지에서 일치 규칙을 테스트하면 DQS에서 선택된 규칙에 대해 확인한 클러스터를 보여 주는 일치 결과 테이블이 나타납니다. 이 테이블에는 클러스터의 각 레코드가 매핑 도메인 값 및 일치 점수와 함께 표시되며 클러스터에 대한 초기 피벗 레코드도 표시됩니다. 전체 일치 프로세스에 대한 프로파일링 데이터, 각 일치 규칙의 조건 및 각 일치 규칙의 결과에 대한 통계를 개별적으로 표시할 수도 있습니다. 원하는 마스터 규칙 데이터를 필터링할 수 있습니다.

일치 규칙의 작동 방식에 대한 자세한 내용은 일치 규칙을 참조하십시오.

  1. 일치 정책 페이지에서 일치 규칙 만들기 아이콘을 클릭합니다.

  2. 규칙에 대한 이름 및 설명을 입력합니다.

  3. 일치 요구 사항을 보다 엄격하게 지정하려면 최소 일치 점수를 증가시킵니다. 최소 일치 점수에 대한 자세한 내용은 일치 규칙을 참조하십시오.

  4. 새 도메인 요소 추가 아이콘을 클릭합니다.

  5. 규칙 값을 입력할 도메인 또는 복합 도메인을 선택합니다.

    [!참고]

    복합 도메인의 각 단일 도메인이 원본 열에 매핑된 경우에만 복합 도메인을 선택할 수 있습니다.

  6. 같은 필드에 있는 두 레코드의 두 값이 동일하지 않은 경우에도 일치하는 것으로 간주되도록 하려면 유사성에 대해 근사치를 선택합니다. 같은 필드에 있는 두 레코드의 값이 동일한 경우에만 값이 일치하는 것으로 간주되도록 하려면 정확한 수치를 선택합니다. 자세한 내용은 일치 규칙을 참조하십시오.

  7. 가중치에 대해 두 레코드의 전체 일치 점수에 대한 도메인 일치 점수의 기여도를 결정하는 값을 입력합니다.

    [!참고]

    복합 도메인에 대한 가중치를 정의할 때 복합 도메인에 대해 별도의 가중치를 지정하지 않고 복합 도메인의 각 단일 도메인에 대해 서로 다른 가중치를 입력하거나, 복합 도메인의 단일 도메인에 대해 별도의 가중치를 지정하지 않고 복합 도메인에 대한 단일 가중치를 입력할 수 있습니다.

  8. 필드의 두 레코드 값이 100% 일치를 반환해야 하며 그렇지 않은 경우 레코드가 일치하는 것으로 간주되지 않고 규칙의 다른 절이 무시되도록 지정하려면 필수 구성 요소를 선택합니다. 이렇게 하면 유사성근사치인 경우 정확한 수치로 변경되고 일치가 100%여야 하므로 가중치가 제거됩니다.

  9. 일치 규칙에 포함할 다른 모든 도메인에 대해 4~8단계를 반복합니다. 규칙의 모든 도메인에 대한 가중치의 합은 100과 같아야 합니다.

  10. 일치가 실행될 때 클러스터 그룹에 공통적인 레코드가 있는 경우에도 모든 클러스터에 대한 피벗 레코드와 다음 레코드를 표시하려면 드롭다운 목록에서 겹치는 클러스터를 선택합니다. 일치가 실행될 때 공통적인 레코드가 있는 클러스터를 단일 클러스터로 표시하려면 겹치지 않는 클러스터를 선택합니다.

  11. 데이터 원본에서 준비 테이블로 데이터를 복사하여 일치 정책을 실행할 때 인덱스를 다시 작성하려면 원본에서 데이터 다시 로드를 클릭합니다. 준비 테이블로 데이터를 복사하여 인덱스를 다시 작성하지 않고 일치 정책을 실행하려면 이전 데이터에 대해 실행을 클릭합니다. 일치 정책을 처음 실행하거나 페이지에서 매핑을 변경한 후 팝업에서 를 클릭한 경우에는 이전 데이터에 대해 실행이 비활성화됩니다. 두 경우 모두 인덱스를 다시 작성해야 합니다. 일치 정책이 변경되지 않은 경우에는 인덱스를 다시 작성할 필요가 없습니다. 이전 데이터에 대해 실행하면 성능이 향상됩니다.

  12. 시작을 클릭하여 선택한 규칙에 대한 일치 프로세스를 실행합니다. 프로세스가 완료되면 테이블에 클러스터의 각 레코드에 대한 레코드 ID, 클러스터 번호 및 데이터 열(일치 규칙에 없는 데이터 열 포함)이 표시됩니다. 클러스터의 피벗 행은 중복 제거 프로세스 후에 존속되는 가장 우선적인 후보로 간주됩니다. 클러스터의 각 추가 행은 중복된 것으로 간주되며, 피벗 레코드와 비교된 해당 일치 점수가 결과 테이블에 제공됩니다. 클러스터 번호는 클러스터의 피벗 레코드에 대한 레코드 ID와 같습니다.

  13. 일치 결과 테이블의 데이터를 사용하여 다음 작업을 수행할 수 있습니다.

    • 필터에서 일치함을 선택하여 일치하는 모든 행과 해당 점수를 표시합니다. 일치하는 것으로 간주되지 않는 행(일치 점수가 최소 일치 점수보다 작은 행)은 일치 결과 테이블에 표시되지 않습니다. 일치하지 않음을 선택하면 일치하는 행을 제외하고 일치하지 않는 모든 행이 표시됩니다.

    • 백분율 드롭다운 상자의 드롭다운 목록에서 "5"씩 증가하는 백분율을 선택합니다. 일치 점수가 이 백분율보다 크거나 같은 모든 행이 일치 결과 테이블에 표시됩니다.

    • 일치 결과 테이블의 레코드를 두 번 클릭하면 피벗 레코드와 원본 레코드(두 레코드의 모든 필드 값 포함), 두 레코드 간의 점수 및 레코드 일치 드릴다운이 표시된 일치 점수 정보 팝업이 나타납니다. 드릴다운에는 피벗 레코드와 원본 레코드의 각 필드 값이 비교할 수 있도록 표시되고 각 필드가 두 레코드의 전체 일치 점수에 기여하는 일치 점수가 표시됩니다.

  14. 프로파일러일치 결과 탭의 통계를 보고 원하는 결과를 얻었는지 확인합니다. 자세한 내용은 프로파일러 및 결과 탭을 참조하십시오.

  15. 규칙을 변경해야 하는 경우 규칙 편집기에서 변경하고 다시 시작을 클릭합니다.

    [!참고]

    첫 번째 분석이 완료되면 시작 단추가 다시 시작 단추로 바뀝니다. 그러나 이전 분석 결과가 아직 저장되지 않은 경우 다시 시작을 클릭하면 이전 데이터가 손실됩니다. 분석이 실행 중일 때는 페이지에서 나가지 마십시오. 그러면 분석 프로세스가 종료됩니다.

  16. 일치 결과 탭에 마지막 두 번 실행한 규칙의 통계가 표시됩니다. 일치 규칙을 서로 다른 설정으로 두 번 이상 실행한 경우 현재 규칙과 이전 규칙에 대한 통계를 비교합니다. 이전 규칙의 결과가 더 나은 경우 이전 규칙 복원을 클릭하여 이전 규칙의 조건을 복원하면 규칙이 편집하기 이전 상태로 돌아갑니다. 현재 규칙 조건은 손실됩니다. 이렇게 하면 마지막 두 일치 실행을 기반으로 정책을 튜닝할 수 있으므로 일치 정책을 튜닝하는 데 소요되는 시간이 절감됩니다.

  17. 일치 정책에 다른 규칙을 추가하려면 1단계부터 반복합니다.

  18. 다음을 클릭하여 일치 결과 단계로 이동합니다.

맨 위로 이동 링크와 함께 사용되는 화살표 아이콘[맨 위]

일치 결과 단계

일치 결과 페이지에서 모든 일치 규칙을 한 번에 테스트할 수 있습니다. 그 전에 규칙 테스트 실행을 통해 겹치거나 겹치지 않는 클러스터를 확인하도록 지정할 수 있습니다. 규칙을 여러 번 실행하는 경우 원본에서 다시 로드된 데이터 또는 이전 데이터에 대해 규칙을 실행할 수 있습니다.

일치 결과 페이지에서 일치 규칙을 테스트하면 DQS에서 모든 규칙에 대해 확인한 클러스터를 보여 주는 일치 결과 테이블이 나타납니다. 이 테이블에는 클러스터의 각 레코드가 매핑 도메인 값 및 일치 점수와 함께 표시되며 클러스터에 대한 초기 피벗 레코드도 표시됩니다. 전체 일치 규칙에 대한 프로파일링 데이터, 각 일치 규칙의 조건 및 모든 일치 규칙의 결과에 대한 통계를 표시할 수도 있습니다.

  1. 일치가 실행될 때 클러스터 그룹에 공통적인 레코드가 있는 경우에도 모든 클러스터에 대한 피벗 레코드와 다음 레코드를 표시하려면 일치 결과 페이지의 드롭다운 목록에서 겹치는 클러스터를 선택합니다. 일치가 실행될 때 공통적인 레코드가 있는 클러스터를 단일 클러스터로 표시하려면 겹치지 않는 클러스터를 선택합니다.

  2. 데이터 원본에서 준비 테이블로 데이터를 복사하여 일치 정책을 실행할 때 인덱스를 다시 작성하려면 원본에서 데이터 다시 로드를 클릭합니다. 준비 테이블로 데이터를 복사하여 인덱스를 다시 작성하지 않고 일치 정책을 실행하려면 이전 데이터에 대해 실행을 클릭합니다. 일치 정책을 처음 실행하거나 페이지에서 매핑을 변경한 후 팝업에서 를 클릭한 경우에는 이전 데이터에 대해 실행이 비활성화됩니다. 두 경우 모두 인덱스를 다시 작성해야 합니다. 일치 정책이 변경되지 않은 경우에는 인덱스를 다시 작성할 필요가 없습니다. 이전 데이터에 대해 실행하면 성능이 향상됩니다.

  3. 시작을 클릭하여 정의한 모든 규칙에 대해 일치 프로세스를 실행합니다. 일치 결과 테이블에 클러스터의 각 레코드에 대한 레코드 ID, 클러스터 번호 및 데이터 열(일치 규칙에 없는 데이터 열 포함)이 표시됩니다. 클러스터의 선행 레코드는 임의로 선택됩니다. 일치 프로젝트를 실행할 때 내보내기 페이지에서 Survivorship 규칙을 선택하여 존속 레코드를 결정합니다. 클러스터의 각 추가 행은 중복된 것으로 간주되며, 피벗 레코드와 비교된 해당 일치 점수가 결과 테이블에 제공됩니다.

  4. 일치 결과 테이블의 데이터를 사용하여 다음 작업을 수행할 수 있습니다.

    • 필터에서 일치함을 선택하여 일치하는 모든 행과 해당 점수를 표시합니다. 일치하는 것으로 간주되지 않는 행(일치 점수가 최소 일치 점수보다 작은 행)은 일치 결과 테이블에 표시되지 않습니다. 일치하지 않음을 선택하면 일치하는 행을 제외하고 일치하지 않는 모든 행이 표시됩니다.

    • 백분율 드롭다운 상자의 드롭다운 목록에서 "5"씩 증가하는 백분율을 선택합니다. 일치 점수가 이 백분율보다 크거나 같은 모든 행이 일치 결과 테이블에 표시됩니다.

    • 일치 결과 테이블의 레코드를 두 번 클릭하면 피벗 레코드와 원본 레코드(두 레코드의 모든 필드 값 포함), 두 레코드 간의 점수 및 레코드 일치 드릴다운이 표시된 일치 점수 정보 팝업이 나타납니다. 드릴다운에는 피벗 레코드와 원본 레코드의 각 필드 값이 비교할 수 있도록 표시되고 각 필드가 두 레코드의 전체 일치 점수에 기여하는 일치 점수가 표시됩니다.

  5. 프로파일러일치 결과 탭의 통계를 보고 원하는 결과를 얻었는지 확인합니다. 일치 규칙 탭을 클릭하여 각 규칙에 대한 도메인 설정을 확인합니다. 자세한 내용은 프로파일러 및 결과 탭을 참조하십시오.

  6. 일부 규칙의 결과에 만족하지 않는 경우 뒤로를 클릭하여 일치 정책 페이지로 이동한 후 필요에 따라 하나 이상의 규칙을 수정하고 일치 결과 페이지로 돌아가서 다시 시작을 클릭합니다.

    [!참고]

    분석이 완료되면 시작 단추가 다시 시작 단추로 바뀝니다. 그러나 이전 분석 결과가 아직 저장되지 않은 경우 다시 시작을 클릭하면 이전 데이터가 손실됩니다.

  7. 모든 규칙의 결과에 만족하는 경우 마침을 클릭하여 일치 정책 프로세스를 완료한 후 다음 중 하나를 클릭합니다.

    • 예 – 기술 자료를 게시하고 끝내기: 현재 사용자나 다른 사용자가 사용할 수 있도록 기술 자료가 게시됩니다. 기술 자료가 잠기지 않고 기술 자료 테이블에서 기술 자료의 상태는 비어 있음으로 설정되며 도메인 관리 및 기술 자료 검색 작업을 둘 다 사용할 수 있습니다. 기술 자료 열기 화면으로 돌아갑니다.

    • 아니요 – 기술 자료에 대한 작업 내용을 저장하고 끝내기: 작업 내용이 저장되고 기술 자료가 잠긴 상태로 유지되며 기술 자료의 상태는 작업 중으로 설정됩니다. 도메인 관리 및 기술 자료 검색 작업을 둘 다 사용할 수 있습니다. 홈 페이지로 돌아갑니다.

    • 취소 – 현재 화면에 머무르기: 팝업이 닫히고 도메인 관리 화면으로 돌아갑니다.

  8. 닫기를 클릭하여 작업 내용을 저장하고 DQS 홈 페이지로 돌아갑니다. 기술 자료의 상태에 "일치 정책 - " 문자열과 현재 상태가 표시됩니다. 일치 결과 화면에서 닫기를 클릭한 경우 상태에 "일치 정책 - 결과"가 표시됩니다. 일치 정책 화면에서 닫기를 클릭한 경우 상태에 "일치 정책 - 일치 정책"이 표시됩니다. 닫기를 클릭한 후 기술 자료 검색 작업을 수행하려면 일치 정책 작업으로 돌아가서 마침을 클릭한 다음 를 클릭하여 기술 자료를 게시하거나 아니요를 클릭하여 기술 자료에 대한 작업 내용을 저장하고 끝내야 합니다.

    [!참고]

    일치 프로세스가 실행되는 동안에는 닫기를 클릭해도 일치 프로세스가 종료되지 않습니다. 따라서 기술 자료를 다시 열고 프로세스가 계속 실행 중인지 또는 완료된 경우 결과가 표시되었는지 확인할 수 있습니다. 프로세스가 완료되지 않은 경우에는 화면에 진행률이 표시됩니다.

  9. 취소를 클릭하면 일치 정책 작업이 저장되지 않고 종료되며 DQS 홈 페이지로 돌아갑니다.

맨 위로 이동 링크와 함께 사용되는 화살표 아이콘[맨 위]

후속 작업: 일치 정책을 만든 후

일치 정책을 만든 후 해당 일치 정책이 포함된 기술 자료를 기반으로 일치 프로젝트를 실행할 수 있습니다. 자세한 내용은 일치 프로젝트 실행을 참조하십시오.

맨 위로 이동 링크와 함께 사용되는 화살표 아이콘[맨 위]

프로파일러 및 결과 탭

프로파일러 및 결과 탭에는 일치 정책 페이지와 일치 결과 페이지 모두에 대한 통계가 포함됩니다.

프로파일러 탭

프로파일러 탭을 클릭하면 원본 데이터베이스에 대한 통계와 정책 규칙에 포함된 각 필드에 대한 통계가 표시됩니다. 정책 규칙이 실행되면 통계가 업데이트됩니다.

다음 통계를 해석하는 방법은 일치 규칙 매개 변수를 설정하는 방법을 참조하십시오.

원본 데이터베이스 통계에는 다음이 포함됩니다.

  • 레코드: 원본 데이터베이스에 있는 전체 레코드 수

  • 전체 값: 데이터 원본의 필드에 있는 전체 값 수

  • 새 값: 이전 실행 이후에 새로 생성된 전체 값 수와 값의 총 개수에 대한 해당 백분율

  • 고유 값: 필드의 전체 고유 값 수와 값의 총 개수에 대한 해당 백분율

  • 새로운 고유 값: 필드에 새로 생성된 전체 고유 값 수와 값의 총 개수에 대한 해당 백분율

필드 통계에는 다음이 포함됩니다.

  • 필드 이름

  • 도메인 이름

  • 신규: 도메인의 새 값 개수, 그리고 기존 값 대비 새 값의 비율

  • 고유: 필드의 고유 레코드 수와 해당 백분율

  • 완결성: 일치 실행을 위해 매핑된 각 원본 필드의 완결성

일치 정책 알림

일치 정책 작업의 경우 다음과 같은 상황에서 알림이 발생합니다.

  • 모든 레코드에 필드가 비어 있는 경우 - 해당 필드를 매핑에서 제거하는 것이 좋습니다.

  • 필드 완결성 점수가 매우 낮은 경우 - 해당 필드를 매핑에서 제거하는 것이 좋습니다.

  • 필드의 모든 값이 유효하지 않은 경우 - 필드 내용에 대한 도메인 규칙의 매핑과 관련성을 확인해야 합니다.

  • 필드에 유효한 값이 적은 경우 - 필드 내용에 대한 도메인 규칙의 매핑과 관련성을 확인해야 합니다.

  • 이 필드의 고유성 수준이 높은 경우 - 일치 정책에서 이 필드를 사용하면 일치 결과를 줄일 수 있습니다.

일치 결과 탭

일치 결과 탭을 클릭하면 일치 정책 규칙 실행 및 이전 규칙 실행에 대한 통계가 표시됩니다. 같은 규칙을 서로 다른 설정으로 두 번 이상 실행한 경우에는 일치 결과 테이블에 두 실행 모두에 대한 통계가 표시되므로 이를 비교할 수 있습니다. 필요한 경우 이전 규칙을 복원할 수도 있습니다.

통계에는 다음이 포함됩니다.

  • 데이터베이스에 있는 전체 레코드 수

  • 데이터베이스에 있는 전체 일치 레코드 수

  • 중복된 것으로 간주되지 않는 데이터베이스의 레코드 수

  • 검색된 클러스터 수

  • 평균 클러스터 크기(중복 레코드 수를 클러스터 수로 나눈 값)

  • 클러스터의 최소 중복 레코드 수

  • 클러스터의 최대 중복 레코드 수