예측 모델에 대한 예측 비교(중급 데이터 마이닝 자습서)

 

적용 대상: SQL Server 2016 Preview

이 자습서의 이전 단계에서는 다음과 같은 여러 시계열 모델을 만들었습니다.

  • 개별 모델 및 지역 데이터만 기반으로 하는 각 지역 및 모델 조합에 대한 예측

  • 업데이트된 데이터를 기반으로 하는 각 지역에 대한 예측

  • 집계 데이터를 기반으로 하는 전세계 기준의 모든 모델에 대한 예측

  • 집계 모델을 기반으로 하는 북미 지역의 M200 모델에 대한 예측

시계열 예측에 대한 특징을 요약하기 위해 변경 사항을 검토하여 데이터를 확장하거나 바꾸기 위해 옵션을 사용하는 것이 결과 예측에 어떤 영향을 미쳤는지 알아봅니다.

EXTEND_MODEL_CASES

REPLACE_MODEL_CASES

기존 결과를 데이터 추가 후 결과와 비교

모델을 새 데이터로 업데이트하면 결과에 어떤 영향을 미치는지 알아보기 위해 태평양 지역의 M200 제품 라인에 대한 데이터만 살펴보도록 하겠습니다. 원래 데이터 계열은 2004년 6월에 끝나고 7, 8, 9월에 대한 새 데이터를 얻었음을 기억해 두십시오.

  • 첫 번째 열에는 추가된 새 데이터가 표시됩니다.

  • 두 번째 열에는 원래 데이터 계열을 기반으로 한 7월 이후에 대한 예측이 표시됩니다.

  • 세 번째 열에는 확장 데이터를 기반으로 한 예측이 표시됩니다.

M200 Pacific 업데이트된 실제 판매 데이터 데이터 추가 전의 예측 확장된 예측
7-25-2008 65 32 65
8-25-2008 54 37 54
9-25-2008 61 32 61
10-25-2008 데이터 없음 36 32
11-25-2008 데이터 없음 31 41
12-25-2008 데이터 없음 34 32

확장 데이터를 사용한 예측(여기에서 굵게 표시됨)이 실제 데이터 요소를 그대로 반복하고 있음을 알 수 있습니다. 반복은 의도된 것입니다. 사용할 실제 데이터 요소가 남아 있는 한, 예측 쿼리는 실제 값을 반환하며 새로운 실제 데이터 요소를 모두 사용한 후에만 새 예측 값을 출력합니다.

일반적으로 알고리즘은 모델 데이터의 시작 부분 데이터보다 새 데이터의 변경에 큰 가중치를 둡니다. 그러나 이 경우 새 판매 수치는 이전 기간에 비해 겨우 20~30퍼센트의 증가만 나타내므로, 예상 판매량에는 약간의 상승만 있었으며 이후에는 예상 판매량이 다시 떨어지고 새 데이터 이전 개월 동안의 추세와 더 비슷해집니다.

원래 결과와 교차 예측 결과 비교

원래 마이닝 모델에서는 지역 간 및 제품 라인 간에 큰 차이를 보였음을 기억하십시오. 예를 들어 M200 모델의 판매량이 매우 높았던 반면 T1000 모델의 판매량은 모든 지역에 걸쳐 상당히 낮았습니다. 또한 일부 계열에는 그리 많지 않은 데이터가 포함되어 있었습니다. 계열은 균일하지 않았고 이는 시작 요소가 동일하지 않았음을 의미합니다.

M200 및 T1000 수량을 예측하는 계열

그렇다면 원래 데이터 집합 대신 전 세계 판매를 기반으로 하는 일반 모델 기반 예측 시에는 예측이 어떻게 바뀌었습니까? 정보가 손실되거나 예측이 왜곡되지 않도록 하기 위해, 테이블에 결과를 저장하고 예측 테이블을 기록 데이터 테이블에 조인한 다음 기록 데이터 집합 및 예측 집합의 그래프를 그릴 수 있습니다.

다음 다이어그램은 M200 제품 라인 하나만을 기반으로 합니다. 그래프에서는 집계 마이닝 모델을 사용하는 예측에 대해 초기 마이닝 모델의 예측을 비교합니다.

예측을 비교하는 Excel 차트

이 다이어그램을 통해 집계 마이닝 모델에서 개별 데이터 계열의 변동폭을 최소화하면서 값의 전체 범위 및 추세가 유지됨을 알 수 있습니다.

결론

예측에 사용할 수 있는 시계열 모델을 만들고 사용자 지정하는 방법을 배웠습니다.

EXTEND_MODEL_CASES 매개 변수를 사용하여 새 데이터를 추가하고 예측을 생성함으로써 시계열 모델을 다시 처리하지 않고 업데이트하는 방법을 배웠습니다.

REPLACE_MODEL_CASES 매개 변수를 사용하여 다른 데이터 계열에 모델을 적용함으로써 교차 예측에 사용할 수 있는 모델을 만드는 방법을 배웠습니다.

관련 항목:

중급 데이터 마이닝 자습서 및 #40입니다. Analysis Services-데이터 마이닝 및 #41;
시계열 모델 쿼리 예제