시계열 모델의 추세 이해(중급 데이터 마이닝 자습서)

집계 데이터를 기반으로 만든 여러 모델에서 서로 다른 모델 및 지역의 금액 및 수량의 합계를 구했는지 여부 또는 수치의 평균을 구했는지 여부에 따라 추세 및 예측 선이 매우 다르게 표시됨을 확인할 수 있습니다.

전세계 예측을 만드는 일반 모델로 적용할 모델을 결정하기 전에 예측을 보다 잘 이해하기 위해 예측 차트와 함께 기본 데이터를 검토합니다.

수량 및 금액에 대한 선이 갈라지는 2006년 6월까지는 추세 선이 서로 겹쳐져 있습니다. 그리고 나서 2008년 7월에 선이 다시 갈라졌습니다.

이 태스크에서는 사용자가 수량과 가격 간의 관계를 쉽게 추적할 수 있도록 원래 데이터 원본 뷰를 기반으로 명명된 계산을 만듭니다. 그리고 나서 추세 선의 분할을 쉽게 이해할 수 있도록 이 비율을 포함하는 피벗 차트를 만듭니다.

기본 데이터 검토

명명된 계산을 만들려면

  1. 솔루션 탐색기에서 데이터 원본 뷰를 확장한 다음 SalesByRegion.dsv를 두 번 클릭합니다.

  2. vTimeSeries 테이블을 마우스 오른쪽 단추로 클릭하고 새 명명된 계산을 선택합니다.

  3. 명명된 계산 만들기 상자에서 이름에 대해 UnitAmt를 입력합니다.

  4. 입력란에 Amount/Quantity를 입력합니다. 확인을 클릭합니다.

    이제 vTimeSeries 테이블에 추가 계산 열인 UnitAmt가 포함되어 있습니다. 이 계산 열은 데이터 마이닝 프로젝트에 대한 데이터 원본 뷰 정의에만 저장되며 기본 관계형 데이터베이스 뷰에는 영향을 주지 않습니다.

명명된 계산을 사용하여 피벗 차트를 만들려면

  1. vTimeSeries 테이블을 마우스 오른쪽 단추로 클릭하고 데이터 탐색을 선택합니다.

  2. vTimeSeries 테이블 탐색 탭에서 피벗 테이블 탭을 클릭합니다.

  3. 피벗 테이블 필드 목록 상자에서 TimeIndex 필드를 끌어 **열 필드를 여기로 끌어 옵니다.**가 표시된 피벗 테이블 디자인 화면에 놓습니다.

  4. 피벗 테이블 필드 목록 상자에서 ModelRegion 필드를 끌어 **행 필드를 여기로 끌어 옵니다.**가 표시된 피벗 테이블 디자인 화면에 놓습니다.

  5. 피벗 테이블 필드 목록 상자에서 UnitAmt 필드를 끌어 **합계 또는 세부 정보 필드를 여기로 끌어 옵니다.**가 표시된 피벗 테이블 디자인 화면에 놓습니다.

집계 모델 검토

피벗 테이블에서 제품 가격 변동 등의 이유로 인해 여러 시점에서 단위당 판매액의 변동폭이 매우 큰 것을 확인할 수 있습니다. 2007년 7월에는 모든 지역에 새 버전인 T1000이 추가될 때 또 다른 큰 변화가 있었습니다. 이러한 모든 변경 내용은 모델에서 계산되는 추세에 영향을 줍니다. 일반화된 모델은 어느 한 변경 내용의 영향을 최소화하기 때문에 유용합니다. 그러나 일부 시나리오에서는 새 매장의 데이터가 추세에 영향을 주지 않도록 새 매장에 대해 별도의 모델을 만들 수 있습니다.

이 자습서의 경우 판매 예측에 적용할 집계 모델 중 하나를 선택합니다. 각각 서로 다른 집계 측정값을 기반으로 4개의 서로 다른 마이닝 모델을 만들었음을 기억하십시오. 시계열 뷰어에서 제공되는 도구를 이전에 만든 피벗 테이블과 함께 사용하여 이러한 결정을 내릴 수 있습니다. 다음 다이어그램에서는 집계 모델에 대해 만든 시계열 차트를 보여 줍니다. 회색으로 표시된 두 계열선은 평균을 나타내고 녹색으로 표시된 두 계열선은 합계를 나타냅니다.

측정값 집계를 위한 4가지 모델

판매 예측에 사용할 마이닝 모델을 결정하기 전에 다음 사항을 조사합니다.

  • Amount 추세를 기반으로 하는 마이닝 모델은 상향하지만 Quantity를 기반으로 하는 모델은 순환하여 하향합니다.

  • 평균 금액(AvgAmt)을 기반으로 하는 예측과 수량 합계(SumQty)를 기반으로 하는 예측은 서로 매우 많이 떨어져 있습니다.

  • 모델 중 세 개의 추세 선이 5개의 예측 후에는 수평을 유지하지만 수량 합계를 기반으로 하는 모델의 추세 선은 계속 급격히 상향합니다.

자세한 내용을 얻기 위해 확인할 수 있는 세 가지 항목이 있습니다. 첫 번째로 편차 표시 확인란을 선택하여 각 예측에 대한 표준 편차를 표시합니다. 오차 막대가 길수록 예측 값의 분산이 커집니다.

두 번째로 Y축 단위가 백분율인지 확인합니다. 특히 그래프 눈금이 차트의 데이터에 따라 변경되는지 확인하십시오. 기본적으로 Microsoft 시계열 뷰어는 백분율 축의 단위를 자동으로 조정하여 가장 보기 쉬운 차트를 만듭니다. 따라서 특정 눈금 또는 고정 눈금을 사용할 경우 예측 쿼리를 사용하여 값을 만들어 내보내고 Microsoft Excel과 같은 다른 응용 프로그램에서 그래프를 만들어야 합니다.

마지막으로 시계열 모델의 의사 결정 트리 뷰를 사용하여 모델의 분할을 이해할 수 있습니다. 시계열 모델에서 의사 결정 트리의 분기 또는 분할은 추세 선의 기울기가 특정 시점에서 급격히 변경되었음을 의미하거나 트리가 일부 다른 조건을 기반으로 분기되었음을 의미할 수 있습니다. 이러한 분할을 트리 뷰의 노드로 표시하는 뷰를 통해 분할 원인에 대한 세부 정보를 드릴다운할 수 있습니다.

각 계열의 의사 결정 트리를 보려면

  1. 솔루션 탐색기에서 데이터 원본 뷰를 확장한 다음 AllRegions.dsv를 마우스 오른쪽 단추로 클릭합니다.

  2. vTimeSeries 테이블을 마우스 오른쪽 단추로 클릭하고 데이터 탐색을 선택합니다.

  3. vTimeSeries 테이블 탐색 탭에서 피벗 테이블 탭을 클릭합니다.

  4. 피벗 테이블 필드 목록 상자에서 ReportingDate 필드를 끌어 **열 필드를 여기로 끌어 옵니다.**가 표시된 피벗 테이블 디자인 화면에 놓습니다.

  5. 피벗 테이블 필드 목록 상자에서 Region 필드를 끌어 **행 필드를 여기로 끌어 옵니다.**가 표시된 피벗 테이블 디자인 화면에 놓습니다.

  6. 피벗 테이블 필드 목록 상자에서 UnitAmt 필드를 끌어 **합계 또는 세부 정보 필드를 여기로 끌어 옵니다.**가 표시된 피벗 테이블 디자인 화면에 놓습니다.

또한 시계열 모델은 이동 평균을 사용하여 계산되기 때문에 데이터 계열 시작에 있는 데이터 값보다 데이터 계열 끝에 있는 데이터 값이 예측에 더 큰 영향을 줄 수 있다는 사실을 이해하는 것이 중요합니다. 또한 모델을 작성할 때 제공한 주기 힌트가 시간 경과에 따른 평균 사용 방식에도 영향을 줍니다.

결론

이 분석을 기반으로 다음과 같은 여러 사항을 배웠습니다.

  • 일부 매장에 대한 절대값이 매우 낮을 수 있기 때문에 Quantity는 기본적으로 변동이 심합니다. 또한 차트 뷰는 수치를 백분율로 나타내어 차이를 크게 강조합니다.

  • Amount는 Quantity에 따라 달라지지만 가격 변경의 영향도 받기 때문에 더 변동이 심한 것 같습니다.

  • M200 North America 계열의 예측에서 추세가 매우 강하게 상향하는 현상은 기록 데이터의 끝까지 제품과 지역의 이 조합에 대한 판매량이 매우 많기 때문에 발생합니다.

데이터와 여러 모델을 자세히 탐색한 결과 신뢰할 수 있는 모델을 찾았습니다. 분석의 정당성을 입증할 근거를 원하는 비즈니스 사용자가 있는 경우 정보 팁에서 제공되는 통계를 사용하거나 모델 콘텐츠를 찾아보거나 쿼리하여 수식 및 지원 데이터를 얻을 수 있습니다.

다음 단원에서는 평균 수량을 기반으로 하는 모델을 사용하여 모든 지역의 수량에 대한 예측을 만듭니다.