시계열 모델에 대한 요구 사항 이해(중급 데이터 마이닝 자습서)

아티클
11/01/2016

적용 대상: SQL Server 2016 Preview

예측 모델에서 사용할 데이터를 준비할 때 데이터에 시계열의 단계를 식별하는 데 사용할 수 있는 열이 포함되어 있는지 확인해야 합니다. 해당 열으로 지정 됩니다는 Key Time 열입니다. 이 열은 키이므로 고유 숫자 값을 포함해야 합니다.

에 대 한 올바른 단위를 선택 된 Key Time 열이 분석의 중요 한 부분입니다. 예를 들어 판매 데이터가 분 단위로 갱신된다고 가정해 봅니다. 시계열에 대해 단위로 분을 사용할 필요는 없으며 판매 데이터를 날짜, 주 또는 월별로 롤업하는 것이 더 의미 있을 수 있습니다. 어떤 시간 단위를 사용할지 잘 모를 경우에는 각 집계에 대해 새 데이터 원본 뷰를 만들고 관련 모델을 작성하여 각 집계 수준에서 다른 추세가 나타나는지 확인할 수 있습니다.

이 자습서에서는 트랜잭션 판매 데이터베이스에서 판매 데이터가 일별로 수집되지만, 데이터 마이닝의 경우 데이터는 뷰를 사용하여 월별로 사전 집계됩니다.

또한 데이터 간격이 가능한 한 적을수록 분석에 적합합니다. 여러 데이터 계열을 분석하려는 경우 모든 계열이 가급적 같은 날짜에 시작하고 끝나야 합니다. 계열의 시작 또는 끝 외에 데이터 간격이 있을 경우 MISSING_VALUE_SUBSTITUTION 매개 변수를 사용하여 계열을 채울 수 있습니다. Analysis Services 또한 평균 또는 상수를 사용 하는 등의 값으로 누락 된 데이터를 대체 하기 위한 여러 옵션을 제공 합니다.

경고

이전 버전의 데이터 원본 뷰 디자이너에 포함되어 있던 피벗 차트 및 피벗 테이블 도구는 더 이상 제공되지 않습니다. Integration Services에 포함된 데이터 프로파일러와 같은 도구를 사용하여 먼저 시계열 데이터의 간격을 식별하는 것이 좋습니다.

예측 모델에 대한 시간 키를 식별하려면

창에서 SalesByRegion.dsv [디자인], vTimeSeries 테이블을 마우스 오른쪽 단추로 클릭 한 다음 선택 데이터 탐색합니다.

이라는 새 탭 열립니다 vTimeSeries 테이블 탐색합니다.
에 테이블 탭에서 TimeIndex 및 Reporting Date 열에 사용 되는 데이터를 검토 합니다.

이 두 열은 모두 고유한 값이 있는 시퀀스이며 시계열 키로 사용할 수 있지만 열의 데이터 형식이 서로 다릅니다. Microsoft 시계열 알고리즘에는 필요 하지는 datetime 데이터 형식을 구분만 고유 하 고 순서가 지정 된 값 이어야 합니다. 따라서 한 열을 예측 모델에 대한 시간 키로 사용할 수 있습니다.
데이터 원본 뷰 디자인 화면에서 Reporting Date 열을 선택 하 고 선택 속성합니다. 다음으로 TimeIndex 열을 클릭 하 고 선택 속성합니다.

TimeIndex 필드는 Reporting Date 필드는 System.DateTime 데이터 형식 하는 반면, System.Int32 데이터 형식이 있습니다. 많은 데이터 웨어하우스에서 날짜/시간 값을 정수로 변환하고 이 정수 열을 키로 사용하여 인덱싱 성능을 개선합니다. 그러나 이 열을 사용하는 경우 Microsoft 시계열 알고리즘은 201014 등의 미래 값을 사용하여 예측합니다. 달력에서 날짜를 사용 하 여 예측 한 매출 데이터를 표시 하려고 하기 때문에 Reporting Date 열을 고유한 계열 식별자로 사용 합니다.

데이터 원본 뷰에 키를 설정하려면

창에서 SalesByRegion.dsv, vTimeSeries 테이블을 선택 합니다.
Reporting Date 열을 마우스 오른쪽 단추로 클릭 하 고 선택 논리적 기본 키 설정합니다.

누락된 데이터 처리(선택 사항)

계열에 누락된 데이터가 있을 경우 모델을 처리할 때 오류가 발생할 수 있습니다. 여러 가지 방법으로 누락된 데이터를 해결할 수 있습니다.

평균을 계산하거나 이전 값을 사용하여 Analysis Services에서 누락된 값을 채우도록 할 수 있습니다. 이렇게 하려면 마이닝 모델에서 MISSING_VALUE_SUBSTITUTION 매개 변수를 설정합니다. 이 매개 변수에 대 한 자세한 내용은 참조 Microsoft 시계열 알고리즘 기술 참조합니다. 기존 마이닝 모델에 매개 변수를 변경 하는 방법에 대 한 정보를 참조 하십시오. 보기 또는 변경 하는 알고리즘 매개 변수합니다.
데이터 원본을 변경하거나 기존 뷰를 필터링하여 비정형 계열을 삭제하거나 값을 바꿀 수 있습니다. 관계형 데이터 원본에서 이 작업을 수행하거나 명명된 사용자 지정 쿼리 또는 명명된 계산을 작성하여 데이터 원본 뷰를 수정할 수 있습니다. 자세한 내용은 다차원 모델의 데이터 원본 뷰를 참조하세요. 이 단원의 이후 태스크는 명명된 쿼리와 사용자 지정 계산을 작성하는 방식에 대한 예를 제공합니다.

이 시나리오에서 일부 데이터는 계열의 시작 부분에 없습니다: 즉, 데이터가 없는 T1000 제품 라인에 대 한 2007 년 7 월까지. 이를 제외하면 모든 계열이 같은 날짜에 끝나며 누락된 값이 없습니다.

Microsoft 시계열 알고리즘의 요구 사항이 단일 모델에 포함 된 모든 계열이 동일한 있어야 한다는 것뿐입니다 종료 가리킵니다. T1000 자전거 모델은 2007년에 추가되었으므로 이 계열의 데이터는 다른 자전거 모델의 계열보다 이후에 시작되지만 이 계열은 같은 날짜에 끝나므로 데이터를 사용할 수 있습니다.

데이터 원본 뷰 디자이너를 닫으려면

탭을 마우스 오른쪽 단추로 클릭 vTimeSeries 테이블 탐색, 를 선택 하 고 닫기합니다.

단원의 다음 태스크

예측 구조 및 모델 ( 중급 데이터 마이닝 자습서 ) 만들기