Share via


방법: 데이터 프로파일링 태스크 사용(SQL Server 비디오)

적용 대상: SQL Server 2008 Integration Services

작성자: Douglas Laudenschlager, Microsoft Corporation

시간: 00:10:12

크기: 8.96MB

형식: WMV 파일

이 비디오 보기

관련 도움말 항목:

데이터 프로파일링 태스크

데이터 프로파일링 태스크 및 뷰어를 사용하여 데이터 프로파일링

비디오 요약

SQL Server 2008에 새로 추가된 이 강력한 태스크를 사용하여 익숙하지 않은 데이터베이스를 살펴보거나 기존 데이터의 문제를 찾는 방법을 알아봅니다. 태스크에서 계산할 수 있는 8개의 프로필을 모두 빠르게 살펴봅니다.

비디오 대본

안녕하세요. Microsoft SQL Server Integration Services 설명서 팀에서 근무하고 있는 더글러스 라우덴슐라거입니다.

오늘은 SQL Server 2008의 Integration Services에 새로 추가된 데이터 프로파일링 태스크를 사용하여 익숙하지 않은 데이터베이스를 살펴보거나 기존 데이터의 문제를 찾는 방법을 알아보려고 합니다.

구체적으로

  • Integration Services 패키지에 데이터 프로파일링 태스크를 구성하고 실행하는 방법,
  • 독립 실행형 데이터 프로필 뷰어를 실행하여 태스크 출력을 보는 방법,
  • 그리고 데이터 프로필 뷰어에 표시되는 태스크 출력을 이해하고 분석하는 방법을 알아보겠습니다.

Business Intelligence Development Studio에서 새로운 Integration Services 프로젝트를 만들고 새 패키지를 디자이너에 열어 두었습니다. 도구 상자의 제어 흐름 항목에서 데이터 프로파일링 태스크를 찾아 디자인 화면으로 끌어 놓겠습니다.

태스크 자체를 구성하려면 먼저 태스크의 입력 및 출력에 필요한 두 개의 연결 관리자를 설정해야 합니다. 데이터 프로파일링 태스크는 ADO 연결에서 입력을 받으므로 AdventureWorks 예제 데이터베이스를 가리키는 새로운 ADO.NET 연결 관리자를 만들겠습니다. 데이터 프로파일링 태스크는 ADO.NET 연결만 사용하며, 이번 릴리스에서는 Microsoft SQL Server 데이터 원본만 프로파일링합니다. DPT는 해당 출력을 XML 형식의 파일로 보내므로 파일 연결 관리자도 필요합니다. 여기에서는 이전 실행에서 생성된 기존 출력 파일을 덮어쓰도록 파일 연결 관리자를 구성하겠습니다. 이제 DPT 자체를 구성할 준비가 되었습니다.

DPT용 편집기를 열고 방금 만든 파일 연결 관리자를 가장 먼저 태스크 출력 대상으로 할당해야 합니다. 기존 파일을 덮어쓸 것이므로 OverwriteDestination 속성의 값도 False에서 True로 변경하겠습니다.

프로필 요청 페이지를 살펴보면 태스크에서 계산할 수 있는 8개의 프로필 유형이 있음을 알 수 있습니다. 대부분의 프로필 유형에 대해 많은 옵션을 지정할 수 있습니다. 하지만 이러한 모든 옵션을 보다 명확하게 파악하기 위해 DPT의 샘플 출력을 먼저 살펴보는 것이 좋습니다. 여기에서는 빠른 방법을 사용하겠습니다.

General(일반) 탭으로 돌아와서 Quick Profile(빠른 프로필) 옵션을 선택하겠습니다. 빠른 프로필은 선택한 단일 테이블에 대해 기본 옵션을 사용하여 최대 7개의 사용 가능한 프로필을 실행합니다. 이 데모에서는 AdventureWorks 데이터베이스의 Person.Address 테이블을 선택하고 실행할 수 있는 7개의 프로필을 모두 선택하겠습니다.

이제 태스크가 구성되었으며 실행할 준비가 되었습니다. 실행하는 데 1분 정도 걸리므로 다시 빠른 방법으로, 이전 실행에서 생성된 출력을 살펴보겠습니다. 이러한 용도에는 별도의 독립 실행형 응용 프로그램인 데이터 프로필 뷰어를 사용해야 합니다. 방금 데이터 프로필 뷰어에서 출력 파일을 열었습니다. 왼쪽의 Profiles(프로필) 창에서 트리를 확장하여 계산된 프로필과 데이터 구조를 확인하겠습니다.

출력 자체를 자세히 살펴보기 전에 데이터 프로필 뷰어 창에 표시되는 창에 대해 잠시 설명하겠습니다. Profiles(프로필) 페이지의 왼쪽에는 실행되도록 선택한 프로필과 데이터 구조가 표시됩니다 오른쪽 위의 Results(결과) 창에는 프로필의 결과 요약이 대체로 한 줄로 표시됩니다. 오른쪽 가운데의 Details(자세히) 창에는 데이터 세부 정보가 쉽게 정렬할 수 있도록 텍스트 및 그래픽 형식으로 표시됩니다. 그리고 프로필을 실행한 데이터 원본을 사용할 수 있는 경우 오른쪽 아래의 드릴다운 창에서 각 데이터 집합의 세부 정보를 볼 수 있습니다.

이제 사용 가능한 프로필을 살펴보겠습니다. DPT는 개별 열을 검사하는 5개의 프로필과 열 간의 관계를 살피는 3개의 추가 프로필을 계산할 수 있습니다.

단일 열에 대한 가장 간단한 프로필은 지정된 열의 Null 백분율을 계산하는 열 Null 비율 프로필입니다. 이 프로필을 통해 Null이 없어야 하는 경우의 Null 값을 식별할 수 있습니다. 물론 Postal Code 열에는 Null 값이 없어야 하며, 이 프로필 결과를 통해 AdventureWorks의 Address 테이블에 실제로 Null 값이 없음을 확인할 수 있습니다.

열의 최단 문자열 길이와 최장 문자열 길이를 보여 주는 열 길이 분포 프로필을 계산할 수도 있습니다. 이 프로필을 통해 열에 필요한 길이보다 더 짧거나 길어서 허용되지 않는 문자열 값을 식별할 수 있습니다. 여기서 AdventureWorks의 AddressLine2에 대한 Null이 아닌 항목의 길이는 1자에서 28자 사이입니다. 가장 일반적인 길이는 5자이며, 드릴다운하면 일반적으로 아파트 번호임을 확인할 수 있습니다.

예를 들어 AdventureWorks의 AddressLine2 열에 195개의 고유 값이 있음을 보여 주는 열 값 분포 프로필을 계산할 수도 있습니다. 이 프로필을 통해 잘못된 값이나 범위를 벗어난 값이 있는 경우, 예를 들어 50개 미국 주의 조회 테이블에 있는 값이 50개를 초과하는 경우를 식별할 수 있습니다. 그런데 이 열에는 195개의 고유 값이 있는데 Details(자세히) 창에는 왜 하나의 값만 표시되는 걸까요? 이것은 이 프로필의 기본 설정에 따라 1% 데이터의 1/10 이상을 나타내는 값에 대해서만 세부 정보를 반환하기 때문입니다. 이 옵션은 태스크를 구성할 때 설정할 수 있는 많은 옵션 중 하나입니다.

숫자 및 날짜 열에 대해 계산되는 열 통계 프로필은 숫자 열의 최소값, 최대값, 평균값 및 표준 편차를 보여 줍니다. 날짜 열에 대한 열 통계를 보면 날짜 범위의 가장 빠른 날짜와 가장 최근 날짜가 표시됩니다. 이 정보를 통해서도 범위를 벗어난 숫자나 날짜를 확인할 수 있습니다.

개별 열에 대해 계산되는 최종 프로필은 열 패턴 프로필입니다. 이 프로필은 열의 모든 값을 포괄하는 정규식 집합을 반환하는 보다 특별한 프로필입니다. 이러한 정규식을 사용자 지정 응용 프로그램에 사용하여 기존 데이터의 유효성을 검사하거나 데이터가 데이터베이스에 들어오기 전에 사용자 입력의 유효성을 검사할 수 있습니다.

이제 열 간의 관계를 분석하는 프로필을 살펴보겠습니다.

후보 키 프로필은 고유성이 높으며 기본 키로 사용될 후보가 되는 열을 식별합니다. 고유성 위반이 있는 경우 이 프로필에서 이러한 위반도 확인할 수 있습니다. 물론 여기에서는 이 키의 고유성이 제약 조건으로 적용되었기 때문에 위반이 없습니다.

값 포함 프로필은 Quick Profile(빠른 프로필) 옵션으로 실행되지 않으며 후보 키 프로필에서 기본 키 관계를 확인하는 것과 유사한 방식으로 외래 키 관계를 확인하기 때문에 샘플 출력에 표시되지 않습니다.

함수 종속성 프로필은 보다 강력한 프로필 중 하나입니다. 함수 종속성의 예를 살펴보겠습니다. 지정된 Postal Code에 대해 State 또는 Province가 항상 예측 가능하며 변하지 않을 것이라고 예상합니다. 그러나 출력에서 보시는 것처럼 AdventureWorks에 대한 이러한 예상은 99%만 참이므로 일부 StateProvinceID 값이 잘못된 것을 즉시 알 수 있습니다. 위반이 있는 우편 번호 중 하나를 살펴보는 경우 드릴다운하여 올바른 값이 포함된 행과 잘못된 값이 포함된 행을 확인할 수 있습니다.

이 비디오에서는 SQL Server 2008의 Integration Services에 새로 추가된 데이터 프로파일링 태스크를 사용하여 익숙하지 않은 데이터베이스를 살펴보거나 기존 데이터의 문제를 찾는 방법을 살펴 보았습니다.

구체적으로

  • Integration Services 패키지에 데이터 프로파일링 태스크를 구성하고 실행하는 방법,
  • 독립 실행형 데이터 프로필 뷰어를 실행하여 태스크 출력을 보는 방법,
  • 그리고 데이터 프로필 뷰어에 표시되는 태스크 출력을 이해하고 분석하는 방법을 살펴 보았습니다.

이 비디오에서 새로운 기능과 유용한 기술을 배우셨기를 바랍니다. 이 비디오를 닫고 웹 페이지로 돌아가면 다른 Integration Services 비디오를 볼 수 있습니다. 감사합니다.