예측 모델 탐색(중급 데이터 마이닝 자습서)

아티클
05/07/2013

이제 예측 마이닝 모델을 작성했으므로 데이터 마이닝 디자이너의 마이닝 모델 뷰어 탭을 사용하여 결과를 탐색할 수 있습니다. Microsoft 시계열 뷰어에는 차트와 모델이 있습니다.

또한 모든 모델에 Microsoft 일반 트리 뷰어를 사용할 수 있습니다. 각 뷰에는 시계열 모델의 조금씩 다른 그림 정보가 표시됩니다.

차트 탭
모델 탭
Microsoft 일반 콘텐츠 뷰어

차트 탭

Microsoft 시계열 뷰어의 차트 탭은 기록 데이터 및 예측을 비롯한 각 계열을 그래픽으로 보여 줍니다. 시계열 그래프의 각 선은 제품, 지역 및 예측 가능한 특성의 고유한 조합을 나타냅니다.

뷰어 오른쪽의 범례에는 드롭다운 목록에서 선택한 항목을 기준으로 사용 가능한 시계열이 나열됩니다. 범례에서 확인란을 선택하거나 확인란의 선택을 취소하여 그래프에 표시되는 시계열을 제어할 수 있습니다.

각 시계열에 사용된 색상이나 차트의 지점에 값이 표시되는지 여부와 같은 표시 옵션을 변경할 수 있습니다.

시계열을 선택하려면

표시되지 않으면 마이닝 모델 뷰어 탭의 차트 탭을 클릭합니다.
차트 뷰의 오른쪽에 있는 드롭다운 목록을 클릭한 다음 확인란을 모두 선택합니다. 확인을 클릭합니다.

이제 차트에는 24개의 다른 계열 선이 있어야 합니다.
차트 오른쪽에 있는 확인란에서 확인란의 선택을 취소하여 Amount를 기준으로 한 모든 계열에 대한 선을 임시로 숨깁니다.

이제 R750 및 R250 자전거와 관련된 확인란의 선택을 취소합니다.

이제 차트에 다음 6개 계열 선이 포함되므로 M200 및 T1000 자전거에 대한 추세를 보다 쉽게 비교할 수 있습니다.
- M200 Europe: Quantity
- M200 North America: 수량
- M200 Pacific: 수량
- T1000 Europe: 수량
- T1000 North America: 수량
- T1000 Pacific: 수량

M200 및 T1000 수량을 예측하는 계열

이 뷰어에 표시되는 차트에는 기록 데이터 및 예측 데이터가 모두 포함됩니다. 예측 데이터는 기록 데이터와 구분하기 위해 음영 처리됩니다. 다른 계열을 쉽게 비교하기 위해 그래프에서 각 선과 관련된 색상을 변경할 수도 있습니다. 자세한 내용은 데이터 마이닝 뷰어에서 사용되는 색 변경을 참조하십시오.

추세 선으로부터 모든 지역의 총 판매액이 대개 12개월 간격으로 증가하여 12월에 최고를 기록하는 것을 알 수 있습니다. 또한 차트로부터 T1000 자전거에 대한 데이터가 다른 제품 계열의 데이터보다 훨씬 늦게 시작하는 것을 알 수 있습니다. 이는 제품이 새 제품이기 때문이지만 이 계열은 훨씬 적은 데이터를 기준으로 하고 있으므로 예측이 정확하지 않을 수 있습니다.

기본적으로 각 시계열에 대해 다섯 가지 예측 단계가 점선으로 표시됩니다. 이 값을 변경하여 더 많거나 적은 예측을 표시할 수 있습니다. 오차 막대를 차트에 추가하여 예측에 대한 표준 편차를 그래픽으로 표시할 수도 있습니다.

차트 뷰에서 예측 및 표시 옵션을 변경하려면

예측 단계에 대한 값을 5에서 10으로 증가시켜 점차 변경한 다음 다시 6으로 변경해 봅니다.

기록 데이터에 큰 변동이 있는 경우 예측 수를 증가시키는 동안 변동은 대개 반복되거나 증폭됩니다. 이때 기록 데이터가 크게 증가한 원인을 알아본 다음 이러한 결과를 허용할지 여부를 결정하거나 원본 데이터의 수정 사항을 찾거나 모델을 다듬기 위해 일부 조사가 필요할 수 있습니다.
편차 표시 확인란을 선택합니다.

이 옵션은 각 예측 값에 대한 예측 오류를 표시합니다.
X축 눈금을 확인합니다. 기록 데이터 및 예측 데이터의 변화는 모두 항상 백분율로 표시되지만 실제 값은 그래프 상의 모든 값에 맞춰 자동으로 조정됩니다. 따라서 모델을 비교할 때 시각적인 것에만 의존하지 않도록 주의해야 합니다. 정확한 값 또는 예측의 백분율 증가와 예측 값을 확인하려면 점선 또는 실선 위에 마우스를 놓거나 선을 클릭하여 마이닝 범례의 값을 봅니다.

팁: 마이닝 범례가 표시되지 않는 경우 모델 뷰로 전환하고 아무 노드나 마우스 오른쪽 단추로 클릭한 다음 범례 표시를 선택합니다.

이러한 추세를 확인한 뒤에 일부 계열의 데이터 부족이 우려되고 모델별 또는 지역별 판매의 평균을 구하여 보다 신뢰할 수 있는 예측 결과를 얻을 수 있는지 궁금해 할 수 있습니다. 이 자습서의 이후 단원에서 이 방법에 대해 알아 봅니다.

맨 위로 이동

모델 탭

데이터 마이닝 디자이너의 Microsoft 시계열 뷰어에 있는 모델 탭을 사용하면 트리 그래프 형식의 예측 모델을 볼 수 있습니다.

우선 데이터는 유럽, 북미 및 태평양(Europe, North America, Pacific)의 세 지역에서 여러 제품 라인(T1000 등)의 판매에 대한 금액과 수량(Amount, Quantity)의 두 가지 측정값을 나타내므로, 구축한 모델에는 실제 24개의 서로 다른 트리가 포함되며 각 트리는 지역, 제품 및 예측 가능한 특성의 서로 다른 조합에 대한 판매 패턴 모델을 나타냅니다.

모델 탭의 트리 드롭다운 목록에서 계열을 선택하여 표시할 제품 라인, 지역 및 판매 메트릭을 선택할 수 있습니다.

모델을 트리로 표시함으로써 얻을 수 있는 정보를 알아보기 위해 트리에 여러 수준이 있는 모델과 단일 노드만 있는 모델 두 가지를 비교해 보겠습니다.

트리 그래프에 단일 노드가 포함된 경우 모델에서 확인된 추세가 시간에 따라 거의 같은 유형을 지님을 의미합니다. 레이블이 All인 이 단일 노드를 사용하여 입력 변수와 결과와의 관계를 설명하는 수식을 볼 수 있습니다.
시계열의 트리 그래프에 여러 분기가 있는 경우 검색된 시계열이 너무 복잡하여 단일 수식으로 나타낼 수 없음을 의미합니다. 대신 각 분기의 레이블이 해당 트리를 분할한 조건인 여러 분기가 트리 그래프에 포함될 수 있습니다. 트리가 분할될 때 각 분기는 서로 다른 시간 세그먼트를 나타내며 내부의 추세는 단일 수식으로 표현될 수 있습니다.

예를 들어 차트 그래프를 보고 9월 어느 시점부터 시작되고 연말 휴가 기간 동안 지속되는 판매량 급등을 확인했다면 모델 뷰로 전환하여 추세가 변경된 정확한 날짜를 확인할 수 있습니다. "9월 이전" 및 "9월 이후"를 나타내는 트리의 분기에는 서로 다른 수식이 포함되어 있을 수 있습니다. 즉, 수식 하나는 분할 전까지의 판매 추세를 수학적으로 설명하며 다른 수식은 연말 휴가 기간 동안의 9월 판매 추세를 설명합니다.

시계열 모델의 의사 결정 트리를 탐색하려면

뷰어의 모델 탭에 있는 트리 목록에서 T1000 Europe: Amount 계열을 선택합니다.

레이블이 All인 노드를 클릭합니다.

All 노드에 대해 표시된 도구 설명에 전체 계열의 사례 수와 같은 정보와 데이터의 분석에서 파생된 시계열 수식이 포함됩니다.
마이닝 범례가 표시되지 않는 경우 노드를 마우스 오른쪽 단추로 클릭하고 범례 표시를 선택합니다.

마이닝 범례에서도 거의 동일한 정보가 도구 설명으로 제공됩니다. 독립 변수 중 불연속인 변수가 있는 경우 노드의 변수 분포를 보여 주는 히스토그램도 표시됩니다.
이제 표시할 다른 시계열을 선택합니다. 뷰어의 모델 탭에 있는 트리 목록을 사용하여 M200 North America: Amount 계열을 선택합니다.

이제 트리 그래프에 All 노드와 두 개의 자식 노드가 포함됩니다. 자식 노드의 레이블을 확인하여 추세 선의 어느 지점이 변경되었는지 알 수 있습니다.

각 자식 노드에 대해 마이닝 범례의 설명에는 트리의 각 분기에 있는 사례 수도 포함됩니다.

다음 목록에서는 트리 뷰어의 일부 추가 기능을 설명합니다.

배경 컨트롤을 사용하여 차트에 표시되는 변수를 변경할 수 있습니다. 기본적으로 배경 값이 모집단으로 설정되어 있으므로 노드가 짙을수록 노드에 있는 사례 수가 더 많습니다. 노드에 정확히 몇 개의 사례가 있는지 확인하려면 마우스를 노드 위에 놓으면 나타나는 도구 설명을 확인하거나 노드를 클릭하여 노드 범례 창에서 개수를 확인합니다.
노드의 회귀 수식은 도구 모음에서 확인하거나 노드를 클릭하여 확인할 수도 있습니다. 혼합 모델을 만든 경우 리프 노드의 ARTXP용 수식과 트리 루트 노드의 ARIMA용 수식 두 가지를 확인할 수 있습니다.
작은 다이아몬드 모양은 연속적인 수를 나타내는 노드에 사용됩니다. 특성의 범위는 다이아몬드가 놓인 막대에 표시됩니다. 다이아몬드는 노드의 평균에 있고 다이아몬드 너비는 해당 노드에서 특성의 분산을 나타냅니다.

맨 위로 이동

(선택 사항) 일반 콘텐츠 트리 뷰어

Analysis Services는 시계열에 대한 사용자 지정 뷰어 외에 모든 데이터 마이닝 모델에 사용되는 Microsoft 일반 콘텐츠 트리 뷰어를 제공합니다. 이 뷰어는 다음과 같은 이점을 제공합니다.

Microsoft 시계열 뷰어: 이 뷰는 두 가지 알고리즘의 결과를 병합합니다. 각 계열을 개별적으로 볼 수는 있지만 각 알고리즘의 결과가 결합된 방법을 확인할 수는 없습니다. 또한 이 뷰에서 도구 설명 및 마이닝 범례에는 가장 중요한 통계만 표시됩니다.
일반 콘텐츠 트리 뷰어: 모델에 사용된 모든 데이터 계열을 한 번에 탐색하고 볼 수 있으며, 혼합 모델을 만든 경우 ARIMA 및 ARTXP 트리가 같은 그래프에 모두 표시됩니다.

이 뷰어를 사용하여 두 가지 알고리즘으로부터 값의 분포는 물론 전체 통계를 얻을 수 있습니다.

ARIMA 및 ARTXP 분석에 대해 더 자세히 알고자 하는 데이터 마이닝 전문가에게 권장됩니다.

일반 콘텐츠 뷰어에서 특정 데이터 계열에 대한 세부 사항을 보려면

마이닝 모델 뷰어 탭의 뷰어 드롭다운 목록에서 Microsoft 일반 콘텐츠 트리 뷰어를 선택합니다.
노드 캡션 창에서 최상위(All) 노드를 클릭합니다.
노드 정보 창에서 ATTRIBUTE_NAME에 대한 값을 확인합니다.

이 값은 이 노드에 포함된 제품 및 지역의 결합 또는 계열을 알려 줍니다. AdventureWorks 예제에서 최상위 노드는 M200 Europe 계열에 대한 것입니다.
노드 캡션 창에서 자식 노드가 있는 첫 번째 노드를 찾습니다.

계열 노드에 자식이 있을 경우 Microsoft 시계열 뷰어의 모델 탭에 표시된 트리 뷰에도 분기 구조가 있습니다.
노드를 확장하고 자식 노드 중 하나를 클릭합니다.

스키마의 NODE_DESCRIPTION 열에는 트리를 분할한 조건이 포함됩니다.
노드 캡션 창에서 최상위 ARIMA 노드를 클릭하고 모든 자식 노드가 표시될 때까지 노드를 확장합니다.
노드 정보 창에서 ATTRIBUTE_NAME에 대한 값을 확인합니다.

이 값은 이 노드에 포함된 시계열을 알려 줍니다. ARIMA 섹션의 최상위 노드는 (All) 섹션의 최상위 노드와 일치해야 합니다. AdventureWorks 예제에서 이 노드에는 M200 Europe 계열에 대한 ARIMA 분석이 포함되어 있습니다.