예측 모델 탐색(중급 데이터 마이닝 자습서)

 

적용 대상: SQL Server 2016 Preview

사용 하 여 결과 탐색할 수는 예측 마이닝 모델을 작성 했으므로 이제는 마이닝 모델 뷰어 데이터 마이닝 디자이너의 탭 합니다. Microsoft 에 두 개의 탭이 시계열 뷰어: 차트모델합니다.

또한 모든 모델에 Microsoft 일반 트리 뷰어를 사용할 수 있습니다. 각 뷰에는 시계열 모델의 조금씩 다른 그림 정보가 표시됩니다.

  • 차트 탭

  • 모델 탭

  • Microsoft 일반 콘텐츠 뷰어

차트 탭

차트 탭은 Microsoft 시계열 뷰어를 그래픽으로 보여 줍니다 기록 데이터 및 예측을 포함 하 여 계열의 각 합니다. 시계열 그래프의 각 선은 제품, 지역 및 예측 가능한 특성의 고유한 조합을 나타냅니다.

뷰어 오른쪽의 범례에는 드롭다운 목록에서 선택한 항목을 기준으로 사용 가능한 시계열이 나열됩니다. 범례에서 확인란을 선택하거나 확인란의 선택을 취소하여 그래프에 표시되는 시계열을 제어할 수 있습니다.

각 시계열에 사용된 색상이나 차트의 지점에 값이 표시되는지 여부와 같은 표시 옵션을 변경할 수 있습니다.

시계열을 선택하려면

  1. 클릭는 차트 탭은 마이닝 모델 뷰어 탭에서 표시 되지 않습니다.

  2. 차트 뷰의 오른쪽에 있는 드롭다운 목록을 클릭한 다음 확인란을 모두 선택합니다. 확인을 클릭합니다.

    이제 차트에는 24개의 다른 계열 선이 있어야 합니다.

  3. 차트 오른쪽에 있는 확인란에서 확인란의 선택을 취소하여 Amount를 기준으로 한 모든 계열에 대한 선을 임시로 숨깁니다.

    이제 R750 및 R250 자전거와 관련된 확인란의 선택을 취소합니다.

    이제 차트에 다음 6개 계열 선이 포함되므로 M200 및 T1000 자전거에 대한 추세를 보다 쉽게 비교할 수 있습니다.

    • M200 Europe: Quantity

    • M200 North America: 수량

    • M200 Pacific: Quantity

    • T1000 Europe: Quantity

    • T1000 North America: 수량

    • T1000 Pacific:Quantity

M200 및 T1000 수량을 예측하는 계열

이 뷰어에 표시되는 차트에는 기록 데이터 및 예측 데이터가 모두 포함됩니다. 예측 데이터는 기록 데이터와 구분하기 위해 음영 처리됩니다. 다른 계열을 쉽게 비교하기 위해 그래프에서 각 선과 관련된 색상을 변경할 수도 있습니다. 자세한 내용은 데이터 마이닝 뷰어에서 사용되는 색 변경을 참조하세요.

추세 선으로부터 모든 지역의 총 판매액이 대개 12개월 간격으로 증가하여 12월에 최고를 기록하는 것을 알 수 있습니다. 또한 차트로부터 T1000 자전거에 대한 데이터가 다른 제품 계열의 데이터보다 훨씬 늦게 시작하는 것을 알 수 있습니다. 이는 제품이 새 제품이기 때문이지만 이 계열은 훨씬 적은 데이터를 기준으로 하고 있으므로 예측이 정확하지 않을 수 있습니다.

기본적으로 각 시계열에 대해 다섯 가지 예측 단계가 점선으로 표시됩니다. 이 값을 변경하여 더 많거나 적은 예측을 표시할 수 있습니다. 오차 막대를 차트에 추가하여 예측에 대한 표준 편차를 그래픽으로 표시할 수도 있습니다.

차트 뷰에서 예측 및 표시 옵션을 변경하려면

  1. 에 대 한 값을 변경해 보십시오 예측 단계 점차적으로 증가 510, 다음 다시 6합니다.

    기록 데이터에 큰 변동이 있는 경우 예측 수를 증가시키는 동안 변동은 대개 반복되거나 증폭됩니다. 이때 기록 데이터가 크게 증가한 원인을 알아본 다음 이러한 결과를 허용할지 여부를 결정하거나 원본 데이터의 수정 사항을 찾거나 모델을 다듬기 위해 일부 조사가 필요할 수 있습니다.

  2. 선택 된 편차 표시 확인란입니다.

    이 옵션은 각 예측 값에 대한 예측 오류를 표시합니다.

  3. X축 눈금을 확인합니다. 기록 데이터 및 예측 데이터의 변화는 모두 항상 백분율로 표시되지만 실제 값은 그래프 상의 모든 값에 맞춰 자동으로 조정됩니다. 따라서 모델을 비교할 때 시각적인 것에만 의존하지 않도록 주의해야 합니다. 정확한 값 또는 백분율 증가 및 예측 값 점선 또는 실선 위에 마우스를 놓으면 누르거나 줄에서 값을 볼 수는 마이닝 범례합니다.

    : 경우는 마이닝 범례 표시 되지 않으면 전환할 모델 보기 모든 노드를 마우스 오른쪽 단추로 클릭 하 고 선택 범례 표시합니다.

이러한 추세를 확인한 뒤에 일부 계열의 데이터 부족이 우려되고 모델별 또는 지역별 판매의 평균을 구하여 보다 신뢰할 수 있는 예측 결과를 얻을 수 있는지 궁금해 할 수 있습니다. 이 자습서의 이후 단원에서 이 방법에 대해 알아 봅니다.

맨 위로 이동

모델 탭

모델 탭은 Microsoft 데이터 마이닝 디자이너에서 시계열 뷰어 트리 그래프 형식의 예측 모델을 볼 수 있습니다.

우선 데이터는 유럽, 북미 및 태평양(Europe, North America, Pacific)의 세 지역에서 여러 제품 라인(T1000 등)의 판매에 대한 금액과 수량(Amount, Quantity)의 두 가지 측정값을 나타내므로, 구축한 모델에는 실제 24개의 서로 다른 트리가 포함되며 각 트리는 지역, 제품 및 예측 가능한 특성의 서로 다른 조합에 대한 판매 패턴 모델을 나타냅니다.

제품 라인, 지역 및 판매 메트릭을에서 계열을 선택 하 여 보려는의 조합을 선택할 수는 트리 드롭다운 목록에는 모델 탭 합니다.

모델을 트리로 표시함으로써 얻을 수 있는 정보를 알아보기 위해 트리에 여러 수준이 있는 모델과 단일 노드만 있는 모델 두 가지를 비교해 보겠습니다.

  • 트리 그래프에 단일 노드가 포함된 경우 모델에서 확인된 추세가 시간에 따라 거의 같은 유형을 지님을 의미합니다. 레이블이 지정 된이 단일 노드를 사용할 수 있습니다 모든, 입력 변수와 결과 간의 관계를 설명 하는 수식을 볼 수 있습니다.

  • 시계열의 트리 그래프에 여러 분기가 있는 경우 검색된 시계열이 너무 복잡하여 단일 수식으로 나타낼 수 없음을 의미합니다. 트리 그래프에 여러 분기, 각 분기의 트리를 조건으로 레이블이 대신 있을 분할합니다. 트리가 분할될 때 각 분기는 서로 다른 시간 세그먼트를 나타내며 내부의 추세는 단일 수식으로 표현될 수 있습니다.

    예를 들어 차트 그래프를 확인 하 고 시작 9 월 어느 시점 및 연말 휴가 기간 동안 지속 되는 판매량에서 급등 전환할 수 있습니다는 모델 추세 변경 된 정확한 날짜를 확인할 수 있습니다. "9 월 이전" 및 "9 월 이후를 나타내는 트리의 분기는 서로 다른 수식을 포함 됩니다: 분할, 까지의 판매 추세를 수학적으로 설명 하는 하나의 수식 및 다른 수식은 연말 휴가 기간 동안의 9 월에 대 한 판매 추세를 설명 합니다.

시계열 모델의 의사 결정 트리를 탐색하려면

  1. 트리 목록에서 모델 뷰어의 탭의 T1000 Europe: 양 시리즈입니다.

    레이블이 지정 된 노드를 클릭 모든합니다.

    에 대 한는 모든 전체 계열의 사례 수와 같은 정보를 포함 하는 노드를 표시 된 도구 설명 및에서 파생 된 시계열 수식이 데이터를 분석 합니다.

  2. 하는 경우는 마이닝 범례 표시 되지 않은 노드를 마우스 오른쪽 단추로 클릭 하 고 선택 범례 표시합니다.

    마이닝 범례 정보의 대부분의 도구 설명에 있는 제공 합니다. 독립 변수 중 불연속인 변수가 있는 경우 노드의 변수 분포를 보여 주는 히스토그램도 표시됩니다.

  3. 이제 표시할 다른 시계열을 선택합니다. 사용 하 여는 트리 목록에서 모델 뷰어의 탭은 M200 North America: Amount 시리즈입니다.

    이제 트리 그래프에 포함 되어 있는 모든 노드와 두 개의 자식 노드가 있습니다. 자식 노드의 레이블을 확인하여 추세 선의 어느 지점이 변경되었는지 알 수 있습니다.

    설명에서는 각 자식 노드에 대해는 마이닝 범례 또한 트리의 각 분기에는 사례 수를 포함 합니다.

다음 목록에서는 트리 뷰어의 일부 추가 기능을 설명합니다.

  • 사용 하 여 차트에 표시 되는 변수를 변경할 수는 배경 제어 합니다. 기본적으로 더 어두운 노드 사례가 더 많은 때문에 포함 값 배경 로 설정 된 채우기합니다. 노드에 있는 사례 수는 것을 확인 하려면 노드 위로 마우스를 일시 중지 하 고 표시 되 면 또는 노드를 클릭 하 고에서 개수를 확인 하는 도구 설명을 확인는 노드 범례 창입니다.

  • 노드의 회귀 수식은 도구 모음에서 확인하거나 노드를 클릭하여 확인할 수도 있습니다. 혼합 모델을 만든 경우 리프 노드의 ARTXP용 수식과 트리 루트 노드의 ARIMA용 수식 두 가지를 확인할 수 있습니다.

  • 작은 다이아몬드 모양은 연속적인 수를 나타내는 노드에 사용됩니다. 특성의 범위는 다이아몬드가 놓인 막대에 표시됩니다. 다이아몬드는 노드의 평균에 있고 다이아몬드 너비는 해당 노드에서 특성의 분산을 나타냅니다.

맨 위로 이동

(선택 사항) 일반 콘텐츠 트리 뷰어

시계열에 대 한 사용자 지정 뷰어 외에도 Analysis Services 제공는 MicrosoftGeneric 콘텐츠 트리 뷰어 모든 데이터 마이닝 모델을 사용 합니다. 이 뷰어는 다음과 같은 이점을 제공합니다.

  • Microsoft 시계열 뷰어:이 보기는 두 알고리즘의 결과 병합 합니다. 각 계열을 개별적으로 볼 수는 있지만 각 알고리즘의 결과가 결합된 방법을 확인할 수는 없습니다. 또한 이 뷰에서 도구 설명 및 마이닝 범례에는 가장 중요한 통계만 표시됩니다.

  • 일반 콘텐츠 트리 뷰어: 탐색 하 고 사용 된 데이터 계열의 모든 모델에 한 번에 볼 수 있습니다. 및 혼합을 만든 경우 모델을 모두 ARIMA 및 ARTXP 트리가 같은 그래프에 표시 됩니다.

    이 뷰어를 사용하여 두 가지 알고리즘으로부터 값의 분포는 물론 전체 통계를 얻을 수 있습니다.

    ARIMA 및 ARTXP 분석에 대해 더 자세히 알고자 하는 데이터 마이닝 전문가에게 권장됩니다.

일반 콘텐츠 뷰어에서 특정 데이터 계열에 대한 세부 사항을 보려면

  1. 마이닝 모델 뷰어 탭에서 Microsoft 일반 콘텐츠 트리 뷰어 에서 뷰어 드롭 다운 목록입니다.

  2. 노드 캡션 창에서 최상위 (All) 노드를 클릭 합니다.

  3. 노드 정보 창에서 ATTRIBUTE_NAME에 대 한 값을 확인 합니다.

    이 값은 이 노드에 포함된 제품 및 지역의 결합 또는 계열을 알려 줍니다. AdventureWorks 예제에서 최상위 노드는 M200 Europe 계열에 대한 것입니다.

  4. 노드 캡션 창에서 자식 노드가 있는 첫 번째 노드를 찾습니다.

    계열 노드에 자식이 트리 보기에 표시 되는 모델 는 Microsoft 시계열 뷰어 탭에는 분기 구조입니다.

  5. 노드를 확장하고 자식 노드 중 하나를 클릭합니다.

    스키마의 NODE_DESCRIPTION 열에는 트리를 분할한 조건이 포함됩니다.

  6. 노드 캡션 창에서 최상위 ARIMA 노드를 클릭 하 고 모든 자식 노드가 표시 될 때까지 노드를 확장 합니다.

  7. 노드 정보 창에서 ATTRIBUTE_NAME에 대 한 값을 확인 합니다.

    이 값은 이 노드에 포함된 시계열을 알려 줍니다. ARIMA 섹션의 최상위 노드는 (All) 섹션의 최상위 노드와 일치해야 합니다. AdventureWorks 예제에서 이 노드에는 M200 Europe 계열에 대한 ARIMA 분석이 포함되어 있습니다.

자세한 내용은 시계열 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.

맨 위로 이동

단원의 다음 태스크

시계열 예측 ( 중급 데이터 마이닝 자습서 ) 만들기

관련 항목:

시계열 모델 쿼리 예제
Microsoft 시계열 알고리즘 기술 참조