DQS(내부) 기술 자료를 사용하여 데이터 정리

이 항목에서는 DQS(Data Quality Services)에서 데이터 품질 프로젝트를 사용하여 데이터를 정리하는 방법에 대해 설명합니다. 데이터 정리는 고품질 데이터 집합에 대해 DQS에 기본 제공된 기술 자료를 사용하여 원본 데이터에서 수행됩니다. 자세한 내용은 기술 자료 구축을 참조하십시오.

데이터 정리는 4단계로 수행됩니다. 매핑 단계에서는 정리할 데이터 원본을 확인하여 기술 자료의 필수 도메인에 매핑하고, 컴퓨터 기반 정리 단계에서는 DQS에서 정리할 데이터에 기술 자료를 적용하고 원본 데이터에 대한 변경 내용을 제안/적용하며, 대화형 정리 단계에서는 데이터 관리자가 데이터 변경 내용을 분석한 후 데이터 변경을 허용/거부할 수 있고, 마지막 내보내기 단계에서는 정리된 데이터를 내보낼 수 있습니다. 이러한 각 프로세스는 정리 작업 마법사의 개별 페이지에서 수행되므로 여러 페이지를 앞뒤로 이동하고, 프로세스를 다시 실행하고, 특정 정리 프로세스를 닫은 후 프로세스의 같은 단계로 돌아갈 수 있습니다. DQS에서는 원본 데이터 및 정리 결과에 대한 통계를 제공하므로 정보를 바탕으로 데이터 정리에 대한 의사를 결정할 수 있습니다.

항목 내용

  • 시작하기 전 주의 사항

    필수 구성 요소

    보안

  • 정리 데이터 품질 프로젝트 만들기

  • 매핑 단계

  • 컴퓨터 기반 정리 단계

  • 대화형 정리 단계

  • 내보내기 단계

  • 프로파일러 통계

시작하기 전 주의 사항

필수 구성 요소

  • 정리 작업에 대한 적절한 임계값을 지정해야 합니다. 이렇게 하는 방법은 정리 및 일치에 대한 임계값 구성을 참조하십시오.

  • 비교하고 원본 데이터를 정리할 Data Quality 서버에서 DQS 기술 자료를 사용할 수 있어야 합니다. 또한 정리할 데이터 유형에 대한 정보가 기술 자료에 포함되어 있어야 합니다. 예를 들어 미국 주소가 포함된 원본 데이터를 정리하려면 미국 주소의 "고품질" 예제 데이터에 대해 만든 기술 자료가 있어야 합니다.

  • 정리할 원본 데이터가 Excel 파일 형식인 경우 Data Quality 클라이언트 컴퓨터에 Microsoft Excel이 설치되어 있어야 합니다. 그렇지 않으면 매핑 단계에서 Excel 파일을 선택할 수 없습니다. Microsoft Excel에서 만든 파일은 .xlsx, .xls 또는.csv 확장명을 가질 수 있습니다. 64비트 버전의 Excel이 사용된 경우 Excel 2003 파일 (.xls)만 지원됩니다. Excel 2007 또는 2010 파일(.xlsx)은 지원되지 않습니다. 64비트 버전의 Excel 2007 또는 2010을 사용 중인 경우 파일을 .xls 파일 또는 .csv 파일로 저장하거나 32비트 버전의 Excel을 대신 설치하십시오.

보안

사용 권한

데이터 정리를 수행하려면 DQS_MAIN 데이터베이스에 대한 dqs_kb_editor 또는 dqs_kb_operator 역할이 있어야 합니다.

맨 위로 이동 링크와 함께 사용되는 화살표 아이콘[맨 위]

정리 데이터 품질 프로젝트 만들기

데이터 정리 작업을 수행하려면 데이터 품질 프로젝트를 사용해야 합니다. 정리 데이터 품질 프로젝트를 만들려면

  1. 데이터 품질 프로젝트 만들기 항목의 1~3단계를 수행합니다.

  2. 3.d 단계에서 정리 작업을 선택합니다.

  3. 만들기를 클릭하여 정리 데이터 품질 프로젝트를 만듭니다.

정리 데이터 품질 프로젝트가 만들어지고 정리 데이터 품질 마법사의 페이지가 열립니다.

맨 위로 이동 링크와 함께 사용되는 화살표 아이콘[맨 위]

매핑 단계

매핑 단계에서는 정리할 원본 데이터에 대한 연결을 지정하고 원본 데이터의 열을 선택한 기술 자료의 적절한 도메인에 매핑합니다.

  1. 정리 데이터 품질 마법사의 페이지에서 정리할 원본 데이터, 즉 SQL Server 또는 Excel 파일을 선택합니다.

    1. SQL Server: 원본 데이터를 이 데이터베이스에 복사한 경우 DQS_STAGING_DATA를 원본 데이터베이스로 선택한 다음 원본 데이터가 포함된 적절한 테이블/뷰를 선택합니다. 그렇지 않은 경우 원본 데이터베이스와 해당 테이블/뷰를 선택합니다. 원본 데이터베이스는 데이터베이스 드롭다운 목록에서 제공할 Data Quality 서버와 동일한 SQL Server 인스턴스에 있어야 합니다.

    2. Excel 파일: 찾아보기를 클릭하고 정리할 데이터가 포함된 Excel 파일을 선택합니다. Excel 파일을 선택하려면 Data Quality 클라이언트 컴퓨터에 Microsoft Excel이 설치되어 있어야 합니다. 그렇지 않으면 찾아보기 단추를 사용할 수 없으며 이 텍스트 상자 아래에 Microsoft Excel이 설치되어 있지 않다는 알림이 표시됩니다. 또한 Excel 파일의 첫 행에 머리글 데이터가 들어 있는 경우 첫 번째 행을 헤더로 사용하십시오 확인란을 선택된 그대로 둡니다.

  2. 매핑 아래에서 원본 열 열에 대한 드롭다운 목록에서 원본 열을 선택한 다음 동일한 행의 도메인 열에 대한 드롭다운 목록에서 도메인을 선택하여 원본 데이터의 데이터 열을 기술 자료의 적절한 도메인에 매핑합니다. 이 단계를 반복하여 원본 데이터의 모든 열을 기술 자료의 적절한 도메인에 매핑합니다. 필요한 경우 열 매핑 추가 아이콘을 클릭하여 매핑 테이블에 행을 추가할 수 있습니다.

    [!참고]

    원본 데이터 형식이 DQS에서 지원되고 DQS 도메인 데이터 형식과 일치하는 경우에만 데이터 정리를 수행하기 위해 DQS 도메인에 원본 데이터를 매핑할 수 있습니다. 지원되는 원본 데이터 형식에 대한 자세한 내용은 DQS 도메인에 대해 지원되는 SQL Server 및 SSIS 데이터 형식을 참조하십시오.

  3. 데이터 원본 미리 보기 아이콘을 클릭하여 선택한 SQL Server 테이블이나 뷰 또는 선택한 Excel 워크시트에서 데이터를 확인합니다.

  4. 복합 도메인 보기/선택을 클릭하여 원본 열에 매핑된 복합 도메인 목록을 확인합니다. 이 단추는 하나 이상의 복합 도메인이 원본 열에 매핑된 경우에만 사용할 수 있습니다.

  5. 다음을 클릭하여 컴퓨터 기반 정리 단계(정리 페이지)로 이동합니다.

맨 위로 이동 링크와 함께 사용되는 화살표 아이콘[맨 위]

컴퓨터 기반 정리 단계

컴퓨터 기반 정리 단계에서는 기술 자료의 매핑된 도메인에 대해 원본 데이터를 분석하고 데이터 변경 내용을 적용/제안하는 자동화된 데이터 정리 프로세스를 실행합니다.

  1. 데이터 품질 마법사의 정리 페이지에서 시작을 클릭하여 컴퓨터 기반 정리 프로세스를 실행합니다. DQS에서는 지정된 임계값 수준을 기반으로 고급 알고리즘 및 신뢰도 수준을 사용하여 선택한 기술 자료에 대해 데이터를 분석한 다음 데이터를 정리합니다. DQS에서 컴퓨터 기반 정리가 실행되는 방법은 데이터 정리에서 컴퓨터 기반 정리를 참조하십시오.

    중요 정보중요
    • 데이터 분석이 완료되면 시작 단추가 다시 시작 단추로 바뀝니다. 그러나 이전 분석 결과가 아직 저장되지 않은 경우 다시 시작을 클릭하면 이전 데이터가 손실됩니다. 분석이 실행 중일 때는 페이지에서 나가지 마십시오. 그러면 분석 프로세스가 종료됩니다.

    • 정리 프로젝트가 만들어진 후 정리 프로젝트에 사용된 기술 자료가 업데이트되어 게시된 경우 시작을 클릭하면 정리 작업에 최신 기술 자료를 사용할지 여부를 묻는 메시지가 나타납니다. 이는 일반적으로 기술 자료를 사용하여 데이터 품질 프로젝트를 만들고 닫기를 클릭하여 진행 중인 정리 프로젝트를 닫은 후 나중에 정리를 수행하기 위해 데이터 품질 프로젝트를 다시 연 경우에 발생할 수 있습니다. 그 동안 정리 프로젝트에 사용된 기술 자료가 업데이트되어 게시되었기 때문입니다.

      마찬가지로, 정리 프로젝트에 사용된 기술 자료가 컴퓨터 기반 정리를 마지막으로 실행한 후에 업데이트되어 게시된 경우 다시 시작을 클릭하면 정리 작업에 최신 기술 자료를 사용할지 여부를 묻는 메시지가 나타납니다.

      두 경우 모두 를 클릭하여 컴퓨터 기반 정리에 업데이트된 기술 자료를 사용합니다. 또한 현재 매핑과 업데이트된 기술 자료가 충돌하는 경우(예: 도메인이 삭제되었거나 도메인 데이터 형식이 변경된 경우)에도 업데이트된 기술 자료를 사용하여 현재 매핑을 수정할지 여부를 묻는 메시지가 나타납니다. 를 클릭하면 컴퓨터 기반 정리를 계속하기 전에 매핑을 수정할 수 있는 페이지로 이동합니다.

  2. 컴퓨터 기반 정리 단계 중에 프로파일러 탭을 클릭하면 프로파일러로 전환하여 실시간 데이터 프로파일링 및 알림을 확인할 수 있습니다. 자세한 내용은 프로파일러 통계를 참조하십시오.

  3. 결과에 만족하지 않는 경우 뒤로를 클릭하여 페이지로 이동한 후 필요에 따라 하나 이상의 매핑을 수정하고 정리 페이지로 돌아가서 다시 시작을 클릭합니다.

  4. 컴퓨터 기반 정리 프로세스가 완료된 후 다음을 클릭하여 대화형 정리 단계(결과 관리 및 보기 페이지)로 이동합니다.

맨 위로 이동 링크와 함께 사용되는 화살표 아이콘[맨 위]

대화형 정리 단계

대화형 정리 단계에서는 DQS에서 제안한 변경 내용을 확인하고, 이를 승인하거나 거부하여 변경 내용을 구현할지 여부를 결정할 수 있습니다. 결과 관리 및 보기 페이지의 왼쪽 창에는 컴퓨터 기반 정리 단계 중에 각 도메인에 대해 분석한 원본 데이터의 값 수와 함께 이전에 매핑 단계에서 매핑된 모든 도메인 목록이 표시됩니다. 결과 관리 및 보기 페이지의 오른쪽 창에는 도메인 규칙, 구문 오류 규칙 및 고급 알고리즘의 준수 여부에 따라 신뢰도 수준을 사용하여 5개 탭으로 데이터가 분류됩니다. 신뢰도 수준은 수정 또는 제안에 대한 DQS의 확신도를 나타내며, 다음 임계값을 기반으로 합니다.

  • 자동 수정 임계값: 신뢰도 수준이 이 임계값보다 높은 모든 값이 DQS에 의해 자동으로 수정됩니다. 그러나 데이터 관리자가 대화식 정리 중에 변경 내용을 재정의할 수 있습니다. 구성 화면의 일반 설정 탭에서 자동 수정 임계값을 지정할 수 있습니다. 자세한 내용은 정리 및 일치에 대한 임계값 구성을 참조하십시오.

  • 자동 제안 임계값: 신뢰도 수준이 이 임계값보다 높지만 자동 수정 임계값보다는 낮은 모든 값이 대체 값으로 제안됩니다. 변경 작업은 데이터 관리자가 승인하는 경우에만 수행됩니다. 구성 화면의 일반 설정 탭에서 자동 제안 임계값을 지정할 수 있습니다. 자세한 내용은 정리 및 일치에 대한 임계값 구성을 참조하십시오.

  • 기타: 자동 제안 임계값보다 낮은 모든 값이 DQS에 의해 변경되지 않고 유지됩니다.

값은 신뢰도 수준에 따라 다음 5개의 탭에 표시됩니다.

설명

제안

DQS에서 신뢰도 수준이 자동 제안 임계값보다 높고 자동 수정 임계값보다 낮은 제안 값을 검색한 도메인 값을 표시합니다.

제안 값은 원래 값에 대해 다음으로 수정 열에 표시됩니다. 상단 표의 값에 대해 승인 또는 거부 열에 있는 라디오 단추를 클릭하여 해당 값의 모든 인스턴스에 대해 제안을 허용하거나 거부할 수 있습니다. 이 경우 허용된 값은 수정됨 탭으로 이동하고, 거부된 값은 잘못됨 탭으로 이동합니다.

새로 만들기

DQS에 정보가 부족하여 다른 탭에 매핑할 수 없는 유효한 도메인을 표시합니다. 또한 이 탭에는 신뢰도 수준이 자동 제안 임계값보다 낮지만 유효한 것으로 표시될 수 있는 값도 포함됩니다.

값이 올바르다고 생각되면 승인 열의 라디오 단추를 클릭하고, 그렇지 않으면 거부 열의 라디오 단추를 클릭합니다. 허용된 값은 올바름 탭으로 이동하고, 거부된 값은 잘못됨 탭으로 이동합니다. 올바른 값을 다음으로 수정 열의 원래 값에 대한 대체 값으로 직접 입력한 다음 승인 열의 라디오 단추를 클릭하여 변경 내용을 적용할 수도 있습니다. 이 경우 값이 수정됨 탭으로 이동합니다.

잘못됨

기술 자료의 도메인에 유효하지 않은 것으로 표시된 도메인 값 또는 도메인 규칙을 준수하지 않은 값을 표시합니다. 또한 이 탭에는 다른 4개의 탭에서 사용자가 거부한 값도 포함됩니다.

그러나 값이 올바르다고 생각되면 승인 열의 라디오 단추를 클릭할 수 있습니다. 허용된 값은 올바름 탭으로 이동합니다. 올바른 값을 다음으로 수정 열의 원래 값에 대한 대체 값으로 직접 입력한 다음 승인 열의 라디오 단추를 클릭하여 변경 내용을 적용할 수도 있습니다. 이 경우 값이 수정됨 탭으로 이동합니다.

수정됨

자동화된 정리 프로세스 중에 DQS에서 신뢰도 수준이 자동 수정 임계값보다 높은 값에 대한 수정 값을 검색하여 수정한 도메인 값을 표시합니다.

수정된 값은 원래 값에 대해 다음으로 수정 열에 표시됩니다. 기본적으로 이 값에 대해 승인 열의 라디오 단추가 선택됩니다. 필요한 경우 거부 열의 라디오 단추를 클릭해 제안된 수정을 거부하여 해당 값을 잘못됨 탭으로 이동하거나, 다음으로 수정 열에 올바른 값을 직접 입력한 다음 승인 열의 라디오 단추를 클릭하여 변경 내용을 적용하고 해당 값을 수정됨 탭으로 이동할 수 있습니다.

올바름

올바른 것으로 확인된 도메인 값을 표시합니다. 예를 들어, 도메인 값과 일치하는 값이 여기에 해당합니다. 또한 이 탭에는 새로 만들기잘못됨 탭에서 승인 열의 라디오 단추를 클릭하여 사용자가 승인한 값도 포함됩니다.

기본적으로 각 값에 대해 승인 열의 라디오 단추가 선택됩니다. 그러나 이 탭의 값이 잘못되었다고 생각되는 경우 해당 값에 대해 거부 열의 라디오 단추를 클릭하여 해당 값을 잘못됨 탭으로 이동하거나, 다음으로 수정 열에 해당 값의 대체 값으로 올바른 값을 직접 입력한 다음 승인 열의 라디오 단추를 클릭하여 변경 내용을 적용하고 해당 값을 수정됨 탭으로 이동할 수 있습니다.

대화형으로 데이터를 정리하려면

  1. 정리 데이터 품질 마법사의 결과 관리 및 보기 페이지에서 왼쪽 창에 있는 도메인 이름을 클릭합니다.

  2. 5개 탭 아래의 도메인 값을 검토하고 이전에 설명된 대로 적절한 조치를 취합니다.

    • 오른쪽 위의 창에는 선택한 도메인의 각 값에 대해 원래 값, 인스턴스(레코드) 수, 다른(올바른) 값을 지정할 수 있는 상자, 신뢰도 수준(올바름 탭 아래의 값에는 사용할 수 없음), 값에 대해 DQS 작업이 수행된 이유, 값에 대한 수정 및 제안을 승인하거나 거부할 수 있는 옵션 등의 정보가 표시됩니다.

      팁

      각각 모든 용어를 승인합니다 또는 모든 용어를 거부합니다 아이콘을 클릭하여 오른쪽 위의 창에 있는 선택된 도메인의 모든 값을 승인하거나 거부할 수 있습니다. 또는 선택한 도메인의 값을 마우스 오른쪽 단추로 클릭한 다음 바로 가기 메뉴에서 모두 허용 또는 모두 거부를 클릭합니다.

    • 아래쪽 창에 오른쪽 위의 창에서 선택한 도메인 값의 개별 발생 수가 표시됩니다. 표시되는 정보에는 다른(올바른) 값을 지정할 수 있는 상자, 신뢰도 수준(올바름 탭 아래의 값에는 사용할 수 없음), 값에 대해 DQS 작업이 수행된 이유, 값에 대한 수정 및 제안을 승인하거나 거부할 수 있는 옵션, 원래 값 등이 있습니다.

  3. 도메인을 만드는 동안 해당 도메인에 대해 맞춤법 검사기 기능을 설정한 경우 잠재적 오류로 확인된 도메인 값에 대해 빨간색 물결선 밑줄이 표시됩니다. 밑줄은 전체 값에 대해 표시됩니다. 예를 들어, "New York"이 "Neu York"으로 철자가 잘못된 경우 맞춤법 검사기에서 "Neu"뿐 아니라 "Neu York" 전체에 빨간색 밑줄을 표시합니다. 값을 마우스 오른쪽 단추로 클릭하면 제안된 수정 사항이 표시됩니다. 제안 항목이 5개가 넘는 경우 상황에 맞는 메뉴에서 추가 제안을 클릭하여 나머지 제안 항목을 볼 수 있습니다. 오류 표시와 마찬가지로 전체 값에 대한 대체 값이 제안됩니다. 예를 들어, 이전 예의 경우 "New"가 아니라 "New York"이 제안 값으로 표시됩니다. 제안 중 하나를 선택하거나 해당 값에 대해 표시할 사전에 값을 추가할 수 있습니다. 값은 사용자 계정 수준에서 사전에 저장됩니다. 맞춤법 검사기 상황에 맞는 메뉴에서 제안을 선택하면 선택한 제안이 다음으로 수정 열에 추가됩니다. 그러나 다음으로 수정 열에서 제안을 선택한 경우에는 해당 열의 값이 선택한 제안으로 대체됩니다.

    맞춤법 검사기 기능은 대화형 정리 단계에서 기본적으로 사용하도록 설정됩니다. 맞춤법 검사기를 설정/해제합니다 아이콘을 클릭하거나, 도메인 값 영역을 마우스 오른쪽 단추로 클릭한 다음 바로 가기 메뉴에서 맞춤법 검사기를 클릭하여 대화형 정리 단계에서 맞춤법 검사기를 사용하지 않도록 설정할 수 있습니다. 맞춤법 검사기를 다시 사용하도록 설정하려면 이 작업을 반복하면 됩니다.

    [!참고]

    맞춤법 검사기 기능은 위쪽 창(도메인 값)에서만 사용할 수 있습니다. 또한 복합 도메인에 대해서는 맞춤법 검사기를 사용하거나 사용하지 않도록 설정할 수 없습니다. 복합 도메인에서 맞춤법 검사기 기능이 설정된 문자열 형식의 하위 도메인에는 기본적으로 대화형 정리 단계에서 맞춤법 검사기 기능이 설정됩니다.

  4. 대화형 정리 단계 중에 프로파일러 탭을 클릭하면 프로파일러로 전환하여 실시간 데이터 프로파일링 및 알림을 확인할 수 있습니다. 자세한 내용은 프로파일러 통계를 참조하십시오.

  5. 모든 도메인 값을 검토한 후 다음을 클릭하여 내보내기 단계로 이동합니다.

맨 위로 이동 링크와 함께 사용되는 화살표 아이콘[맨 위]

내보내기 단계

내보내기 단계에서는 정리한 데이터를 내보낼 매개 변수를 지정합니다. 즉, 내보낼 항목과 내보낼 위치를 지정할 수 있습니다.

  1. 정리 데이터 품질 마법사의 내보내기 페이지에서 정리한 데이터를 내보낼 대상 SQL Server, CSV 파일 또는 Excel 파일에서 일치 데이터를 내보낼 대상을 선택합니다.

    중요 정보중요

    64비트 버전의 Excel을 사용 중인 경우 정리한 데이터를 Excel 파일로 내보낼 수 없습니다. SQL Server 데이터베이스 또는 .csv 파일로만 내보낼 수 있습니다.

    1. SQL Server: 여기에서 데이터를 내보내려면 DQS_STAGING_DATA를 대상 데이터베이스로 선택한 다음 내보낸 데이터를 저장하기 위해 만들 테이블 이름을 지정합니다. 그렇지 않고 데이터를 다른 데이터베이스로 내보내려면 해당 데이터베이스로 선택한 다음 내보낸 데이터를 저장하기 위해 만들 테이블 이름을 지정합니다. 대상 데이터베이스는 데이터베이스 드롭다운 목록에서 제공할 Data Quality 서버와 동일한 SQL Server 인스턴스에 있어야 합니다.

    2. CSV 파일: 찾아보기를 클릭한 다음 정리한 데이터를 내보낼 .csv 파일의 이름과 위치를 지정합니다. 정리한 데이터를 내보낼 전체 경로와 함께 .csv 파일의 파일 이름을 입력할 수도 있습니다. 예를 들어, "c:\ExportedData.csv"를 입력합니다. 이 파일은 Data Quality 서버가 설치된 컴퓨터에 저장됩니다.

    3. Excel 파일: 찾아보기를 클릭한 다음 정리한 데이터를 내보낼 Excel 파일의 이름과 위치를 지정합니다. 정리한 데이터를 내보낼 전체 경로와 함께 Excel 파일의 파일 이름을 입력할 수도 있습니다. 예를 들어, "c:\ExportedData.xlsx"를 입력합니다. 이 파일은 Data Quality 서버가 설치된 컴퓨터에 저장됩니다.

  2. 출력 표준화 확인란을 선택하여 도메인에 대해 선택한 출력 형식에 따라 출력을 표준화합니다. 예를 들어, 문자열 값을 대문자로 변경하거나 단어의 첫 글자를 대문자로 지정합니다. 도메인의 출력 형식을 지정하는 방법은 도메인 속성 설정에서 출력 형식 목록을 참조하십시오.

  3. 그런 다음 데이터 출력을 선택합니다. 정리한 데이터만 내보내거나 정리한 데이터를 정리 정보와 함께 내보낼 수 있습니다.

    • 데이터만: 정리한 데이터만 내보내려면 이 라디오 단추를 클릭합니다.

    • 데이터 및 정리 정보: 각 도메인에 대해 다음 데이터를 내보내려면 이 라디오 버튼을 클릭합니다.

      • <Domain>_Source: 도메인의 원래 값입니다.

      • <Domain>_Output: 도메인에서 정리한 값입니다.

      • <Domain>_Reason: 값을 수정하도록 지정한 이유입니다.

      • <Domain>_Confidence: 수정된 모든 용어에 대한 신뢰도 수준입니다. 신뢰도는 해당 백분율 값과 동일한 10진수 값으로 표시됩니다. 예를 들어, 95%의 신뢰 수준은 .9500000으로 표시됩니다.

      • <Domain>_Status: 데이터 정리 후 도메인 값의 상태입니다. 예를 들어 제안, 새로 만들기, 잘못됨, 수정됨 또는 올바름이 여기에 해당합니다.

      • 레코드 상태: 매핑된 도메인별 상태 필드**(<DomainName>_Status**)와 별도로 레코드 상태 필드에는 레코드에 대한 상태가 표시됩니다. 레코드의 도메인 상태가 새로 만들기 또는 올바름인 경우 레코드 상태올바름으로 설정됩니다. 레코드의 도메인 상태가 제안, 잘못됨 또는 수정됨인 경우 레코드 상태는 해당 값으로 설정됩니다. 예를 들어 레코드의 도메인 상태가 제안인 경우 레코드 상태제안으로 설정됩니다.

        [!참고]

        정리 작업에 참조 데이터 서비스를 사용하는 경우 도메인 값에 대한 몇 가지 추가 데이터도 내보낼 수 있습니다. 자세한 내용은 참조 데이터(외부) 기술 자료를 사용하여 데이터 정리를 참조하십시오.

  4. 내보내기를 클릭하여 선택한 데이터 대상으로 데이터를 내보냅니다. 선택한 데이터 대상에 따른 결과는 다음과 같습니다.

    • SQL Server를 데이터 대상으로 선택한 경우 지정한 이름의 새 테이블이 선택한 데이터베이스에서 만들어집니다.

    • CSV 파일을 데이터 대상으로 선택한 경우 CSV 파일 이름 상자에서 이전에 지정한 파일 이름으로 Data Quality 서버 컴퓨터의 위치에 .csv 파일이 만들어집니다.

    • Excel 파일을 데이터 대상으로 선택한 경우 Excel 파일 이름 상자에서 이전에 지정한 파일 이름으로 Data Quality 서버 컴퓨터의 위치에 Excel 파일이 만들어집니다.

  5. 마침을 클릭하여 데이터 품질 프로젝트를 닫습니다.

맨 위로 이동 링크와 함께 사용되는 화살표 아이콘[맨 위]

프로파일러 통계

프로파일러 탭에서는 원본 데이터의 품질을 나타내는 통계를 제공합니다. 프로파일링을 통해 데이터 정리 작업의 효과를 평가하여 잠재적으로 데이터 정리로 데이터의 품질을 개선할 수 있는 정도를 확인할 수 있습니다.

프로파일러 탭에서는 원본 데이터에 대해 필드 및 도메인별로 다음과 같은 통계를 제공합니다.

  • 레코드: 데이터 정리 작업에 대해 분석된 데이터 예제의 레코드 수

  • 올바른 레코드: 올바른 것으로 확인된 레코드 수

  • 수정된 레코드: 수정된 레코드 수

  • 제안된 레코드: 제안된 레코드 수

  • 잘못된 레코드: 잘못된 레코드 수

필드 통계에는 다음이 포함됩니다.

  • 필드: 원본 데이터의 필드 이름

  • 도메인: 필드에 매핑된 도메인의 이름

  • 수정된 값: 수정된 도메인 값 수

  • 제안된 값: 제안된 도메인 값 수

  • 완결성: 정리 작업을 위해 매핑된 각 원본 필드의 완결성

  • 정확도: 정리 작업을 위해 매핑된 각 원본 필드의 정확도

DQS 프로파일링에서는 완결성(데이터가 존재하는 정도)과 정확도(데이터를 의도된 용도에 맞게 사용할 수 있는 정도)의 두 가지 데이터 품질 차원을 제공합니다. 프로파일링 결과 필드가 상대적으로 불완전한 것으로 나오면 데이터 품질 프로젝트의 기술 자료에서 제거하는 것이 좋습니다. 프로파일링은 복합 도메인에 대한 신뢰할 수 있는 완결성 통계를 제공할 수 없습니다. 완결성 통계가 필요한 경우 복합 도메인 대신 단일 도메인을 사용하십시오. 복합 도메인을 사용하려는 경우 프로파일링을 위해 단일 도메인을 사용하는 하나의 기술 자료를 만들어 완결성을 확인하고 정리 프로세스를 위해 복합 도메인을 사용하는 다른 도메인을 만드는 것이 좋습니다. 예를 들어 프로파일링은 복합 도메인을 사용하는 주소 레코드에 대해 95%의 완결성을 표시할 수 있지만 우편 번호 열과 같은 열의 경우 불완결성 수준이 매우 높을 수 있습니다. 이 예에서는 단일 도메인을 사용하는 우편 번호 열의 완결성을 평가하는 것이 좋습니다. 프로파일링은 복합 도메인에 대해 신뢰할 수 있는 정확성 통계를 제공할 가능성이 높습니다. 여러 열의 정확성을 함께 평가할 수 있기 때문입니다. 이 데이터의 값은 복합 집계 형식이므로 복합 도메인을 사용하여 정확성을 평가하는 것이 좋습니다.

참조 데이터 서비스를 사용하지 않는 경우에는 정확도 통계를 보다 면밀히 해석해야 할 수 있습니다. 데이터 정리에 참조 데이터 서비스를 사용하는 경우에는 정확도 통계를 어느 정도 신뢰할 수 있습니다. 참조 데이터 서비스를 사용하여 데이터를 정리하는 방법은 참조 데이터(외부) 기술 자료를 사용하여 데이터 정리를 참조하십시오.

정리 알림

다음과 같은 경우에 알림이 발생합니다.

  • 필드에 대한 수정 또는 제안이 없는 경우 - 매핑에서 제거하거나 먼저 기술 자료 검색을 실행하거나 다른 기술 자료를 사용할 수 있습니다.

  • 필드에 대한 수정 또는 제안이 비교적 적은 경우 - 매핑에서 제거하거나 먼저 기술 자료 검색을 실행하거나 다른 기술 자료를 사용할 수 있습니다.

  • 필드의 정확도 수준이 매우 낮은 경우 - 매핑을 확인하거나 먼저 기술 자료 검색을 실행할 수 있습니다.

프로파일링에 대한 자세한 내용은 DQS의 데이터 프로파일링 및 알림을 참조하십시오.

맨 위로 이동 링크와 함께 사용되는 화살표 아이콘[맨 위]