집계 예측 모델 추가(중급 데이터 마이닝 자습서)

예측 모델 탐색을 통해 대부분 지역의 판매는 패턴을 따르지만 태평양 지역의 M200 모델과 같이 특정 지역 및 모델은 서로 매우 다른 추세를 보여 준다는 사실을 알았습니다. 지역 간 차이는 일반적인 것이며 마케팅 홍보, 정확하지 않은 보고 또는 지정학적 사건과 같은 많은 요인으로 인해 발생할 수 있습니다.

이러한 요인이 예측에 끼치는 영향을 최소화하기 위해 전세계 판매의 집계 측정값을 기반으로 하는 일반화된 마이닝 모델을 작성합니다. 그리고 나서 이 모델에 대한 예측을 만들고 해당 예측을 개별 지역에 적용할 수 있습니다. 마지막으로 여러 제품에 대해 만든 예측을 비교합니다.

일반 모델에 대한 데이터 만들기

일반화된 모델을 만드는 첫 번째 단계는 전세계 판매 데이터를 집계하는 것입니다. 기존 데이터 원본을 사용하지만 합계 또는 평균과 같은 계산을 수행하는 특수 데이터 원본 뷰를 만들어 이 작업을 수행합니다.

사용자 지정 쿼리 또는 계산을 사용하여 데이터 원본 뷰를 만들려면

  1. 솔루션 탐색기에서 데이터 원본 뷰를 마우스 오른쪽 단추로 클릭하고 새 데이터 원본 뷰를 선택합니다.

  2. 마법사 시작 페이지에서 다음을 클릭합니다.

  3. 데이터 원본 선택 페이지에서 Adventure Works DW2008을 선택한 후 다음을 클릭합니다.

  4. 테이블 및 뷰 선택 페이지에서 다음을 클릭합니다.

  5. 마법사 완료 페이지에서 AllRegions를 입력한 다음 마침을 클릭합니다.

  6. 다음으로 빈 데이터 원본 뷰 디자인 화면을 마우스 오른쪽 단추로 클릭하고 새 명명된 쿼리를 선택합니다.

  7. 명명된 쿼리 만들기 대화 상자에서 이름에 대해 AllRegions를 입력하고 설명에 대해 모든 모델 및 지역의 판매 합계 및 평균을 입력합니다.

  8. SQL 텍스트 창에 다음 문을 입력합니다.

    SELECT ReportingDate, 
    SUM([Quantity]) as SumQty, AVG([Quantity]) as AvgQty,
    SUM([Amount]) AS SumAmt, AVG([Amount]) AS AvgAmt,
    'All Regions' as [Region]
    FROM dbo.vTimeSeries 
    GROUP BY ReportingDate
    
  9. 확인을 클릭합니다.

  10. AllRegions 테이블을 마우스 오른쪽 단추로 클릭하고 데이터 탐색을 선택합니다.

    새 데이터 원본 뷰에 전세계 모든 제품 판매에 대한 합계와 평균이 모두 포함됩니다. 또한 판매를 모델별로 그룹화하고 집계할 수 있지만 이 자습서에서는 지역 또는 제품의 모든 조합에 대한 예측에 사용할 수 있는 단일 시계열 모델을 만듭니다.

데이터의 새 뷰를 만든 후에는 새 마이닝 구조를 작성한 다음 해당 구조를 기반으로 하는 마이닝 모델을 작성해야 합니다. 지금까지 마이닝 구조를 작성하는 방법에 대해 살펴보았습니다. 따라서 다음과 같이 간단하게 작업을 수행할 수 있습니다.

집계 데이터를 사용하여 마이닝 구조 및 마이닝 모델을 작성하려면

  1. 솔루션 탐색기에서 마이닝 구조를 마우스 오른쪽 단추로 클릭하고 새 마이닝 구조를 선택하여 데이터 마이닝 마법사를 시작합니다.

  2. 데이터 마이닝 마법사에서 다음을 선택합니다.

    • 알고리즘: Microsoft 시계열

    • 데이터 원본 뷰: AllRegions

    • 키: ReportingDate(Key Time) 및 Region(Key)

    • Input 및 Predict: AvgAmt, AvgQty, SumAmt, SumQty

    • 마이닝 구조 이름: All Regions

    • 마이닝 모델 이름: All Regions

  3. 구조 및 모델을 처리합니다.

결과 검토

전세계 예측을 만들기 위한 일반 모델로 적용할 모델을 결정하기 전에 예측에 대해 더 자세히 이해해야 합니다. Microsoft 시계열 뷰어에서 여러 집계 계열에 대한 마이닝 모델 및 예측을 살펴볼 때 다음과 같은 여러 가지 의문점이 생길 수 있습니다.

  • 2002년 6월까지 각 추세 선은 거의 동일한 패턴을 따릅니다. 그런데 이 시점에서 수량 및 금액 선이 갈라집니다. 이러한 변경의 원인은 무엇입니까?

  • 2004년 7월에 선이 다시 갈라집니다. 원인이 무엇입니까?

  • M200 North America 계열에 대한 예측이 다른 제품 및 지역에 대한 예측보다 훨씬 높습니다. 이러한 예측이 잘못되었을 수 있으며 이 계열을 통합하면 사용자가 만든 일반 모델이 영향을 받을 수 있습니다.

다음 태스크에서 집계 데이터를 기반으로 하는 모델과 개별 계열 모델의 추세 선과 예측을 비교하여 기본 데이터가 모델에 영향을 주는 방법을 확인합니다.

모델이 정확하고 결과를 더 자세히 이해할 필요가 없는 경우에는 평균 예측 모델을 사용하여 예측(중급 데이터 마이닝 자습서) 태스크로 건너뛰십시오.