교차 유효성 검사 보고서(Analysis Services - 데이터 마이닝)

교차 유효성 검사를 사용하면 마이닝 구조를 교집합 영역으로 분할하고 데이터의 각 교집합 영역에 대해 모델을 반복적으로 학습 및 테스트할 수 있습니다. 데이터를 분할할 여러 파티션을 지정하면 각 파티션이 테스트 데이터로 사용되고 나머지 데이터는 새 모델을 학습하는 데 사용됩니다. 그러면 Analysis Services가 각 모델에 대해 표준 정확도 메트릭 집합을 생성합니다. 각 교집합 영역에 대해 생성된 모델의 메트릭을 비교하여 전체 데이터 집합에 대한 마이닝 모델의 안정성을 파악할 수 있습니다.

[!참고]

교차 유효성 검사는 KEY TIME 열 또는 KEY SEQUENCE 열을 포함하는 모델에 사용할 수 없습니다.

이 섹션에서는 데이터 마이닝 디자이너의 마이닝 정확도 차트 탭에 있는 교차 유효성 검사 보고서에 제공되는 정보에 대해 설명합니다. 보고서를 만드는 방법은 교차 유효성 검사 탭(마이닝 정확도 차트 뷰)을 참조하십시오.

교차 유효성 검사 보고서 만들기

마이닝 구조와 연결된 마이닝 모델에 대해 교차 유효성 검사를 수행하려면 데이터 마이닝 디자이너의 마이닝 정확도 뷰에 있는 교차 유효성 검사 탭이나 교차 유효성 검사 저장 프로시저를 사용하여 다음과 같은 옵션을 구성합니다.

  • 접기 수를 지정합니다.

  • 교차 유효성 검사에 사용할 최대 사례 수를 지정합니다. 이 수를 접기 수로 나눕니다.

  • 예측 가능한 열을 지정합니다. 필요에 따라 예측 가능한 상태를 지정합니다.

[!참고]

마이닝 구조에 클러스터링 모델이 포함되어 있는 경우 예측 가능한 열을 선택하는 대신 #Cluster를 지정하십시오. 그러면 클러스터링 모델에 대한 결과만 보고서에 반환됩니다.

  • 필요에 따라 예측의 정확도 평가 방법을 제어하는 매개 변수를 설정합니다.

교차 유효성 검사 데이터 집합 선택

마이닝 정확도 차트 뷰의 교차 유효성 검사 탭을 사용하는 경우 교차 유효성 검사 시 사용되는 데이터의 양과 형식을 제어하는 방법으로 접기 수를 지정하거나 사례 수를 제한하는 두 가지 방법이 있습니다. 기본적으로 Business Intelligence Development Studio의 교차 유효성 검사에는 각 모델에 대한 학습 사례가 사용됩니다. 모델과 연결된 필터가 있는 경우 해당 필터가 적용됩니다.

접기 개수 값은 만들 데이터 집합의 교집합 영역 수를 지정합니다. 각 접기는 테스트 데이터 집합으로 사용되고 나머지 접기의 데이터는 새 모델을 학습하는 데 사용됩니다. 따라서 최소값인 2를 사용한 경우 데이터 집합의 절반이 테스트용으로 사용되고 나머지 절반이 학습용으로 사용됩니다.

마이닝 구조가 Analysis Services 인스턴스에 저장되지 않고 임시 구조나 세션 구조로 만들어진 경우 사용할 수 있는 최대 접기 수는 10입니다. 마이닝 구조가 Analysis Services 인스턴스에 저장되는 경우에는 사례 수보다 많은 접기를 만들 수 없습니다. 사례 수가 접기 개수에 대해 설정한 수보다 작으면 작은 수가 사용됩니다. 

[!참고]

각 접기에 대해 모델을 생성하고 테스트해야 하기 때문에 접기 수를 늘리면 교차 유효성 검사를 수행하는 데 필요한 시간도 따라서 증가합니다. 접기 수가 너무 많으면 성능 문제가 발생할 수 있습니다.

최대 사례 값은 모든 접기에서 교차 유효성 검사에 사용될 수 있는 총 사례 수를 지정합니다. 따라서 특정 접기의 사례 수는 최대 사례 값을 접기 개수 값으로 나눈 값과 같습니다. 기본값은 0이며 마이닝 구조의 모든 사례가 사용됨을 의미합니다.

저장 프로시저 중 하나를 사용하여 교차 유효성 검사를 수행하는 경우에는 FoldCount 및 MaxCases 속성의 값을 매개 변수로 저장 프로시저에 제공해야 합니다.

[!참고]

또한 교차 유효성 검사 저장 프로시저를 사용하는 경우 DataSet 매개 변수를 설정하여 테스트에 사용되는 데이터 집합을 정의할 수 있습니다. 데이터 집합의 옵션에는 학습 집합만, 테스트 집합과 학습 집합, 마이닝 모델 필터가 있는 학습 집합과 테스트 집합의 조합이 포함됩니다. 자세한 내용은 SystemGetCrossValidationResults(Analysis Services - 데이터 마이닝)를 참조하십시오.

유효성을 검사할 모델 및 열 선택

데이터 마이닝 디자이너의 교차 유효성 검사 탭을 사용할 때는 먼저 목록에서 예측 가능한 열을 선택해야 합니다. 일반적으로 마이닝 구조는 여러 마이닝 모델을 지원할 수 있으며 이러한 모델 중 일부는 같은 예측 가능한 열을 사용하지 않을 수 있습니다. 교차 유효성 검사를 실행할 때는 같은 예측 가능한 열을 사용하는 모델만 보고서에 포함될 수 있습니다.

예측 가능한 특성을 선택하려면 대상 특성을 클릭하고 목록에서 열을 선택합니다. 대상 특성이 중첩 열이거나 중첩 테이블의 열인 경우 중첩 열의 이름을 <Nested Table Name>(key).<Nested Column> 형식으로 입력해야 합니다. 중첩 테이블에서 사용되는 유일한 열이 키 열인 경우에는 **<Nested Table Name>(key)**를 사용할 수 있습니다.

참고   저장 프로시저를 사용하면 테스트하는 모델을 보다 자세히 제어할 수 있습니다. 자세한 내용은 SystemGetCrossValidationResults(Analysis Services - 데이터 마이닝)를 참조하십시오.

예측 가능한 특성을 선택하면 Analysis Services가 동일한 예측 가능한 특성을 사용하는 모든 모델을 자동으로 테스트합니다.

대상 특성에 불연속 값이 포함되어 있는 경우에는 예측 가능한 열을 선택한 후 예측할 특정 값이 있으면 필요에 따라 대상 상태를 입력할 수 있습니다.

선택하는 대상 상태는 반환되는 측정값에 영향을 줍니다. 대상 특성, 즉 열 이름을 지정하고 모델이 예측할 특정 값을 선택하지 않으면 기본적으로 가능성이 가장 높은 상태에 대한 예측에 따라 모델이 평가됩니다.

클러스터링 모델에 대해 교차 유효성 검사를 수행하는 경우에는 예측 가능한 열이 없습니다. 대신 대상 특성 목록 상자의 예측 가능한 특성 목록에서 #Cluster를 선택합니다. 클러스터를 선택한 후에는 대상 상태와 같이 클러스터링 모델과 관계가 없는 기타 옵션을 사용할 수 없게 됩니다. Analysis Services는 마이닝 구조와 연결된 모든 클러스터링 모델을 테스트합니다.

정확도 임계값 설정

대상 임계값의 값을 설정하여 예측 정확도를 측정하기 위한 표준을 제어할 수 있습니다. 임계값은 일종의 정확도 막대를 나타냅니다. 각 예측에는 예측 값이 정확할 확률이 할당됩니다. 따라서 대상 임계값을 1에 가깝게 설정하면 특정 예측의 확률이 매우 높아야 예측이 올바른 예측으로 간주됩니다. 반대로 대상 임계값을 0에 가깝게 설정하면 확률 값이 낮은 예측도 "올바른" 예측으로 간주됩니다.

예측의 확률은 만드는 예측의 유형과 데이터에 따라 달라지므로 권장되는 임계값은 없습니다. 확률 수준이 다른 몇 가지 예측을 검토하여 데이터에 적합한 정확도 막대를 결정해야 합니다. 대상 임계값에 대해 설정하는 값이 측정되는 모델의 정확도에 상당한 영향을 주므로 이 단계는 중요합니다.

예를 들어 0.05, 0.15 및 0.8의 확률로 대상 상태를 예측하는 세 가지 모델이 구조에 포함되어 있다고 가정합니다. 임계값을 0.5로 설정하면 한 예측만 올바른 것으로 간주됩니다. 대상 임계값을 0.10으로 설정하면 두 예측이 올바른 것으로 간주됩니다.

대상 임계값을 기본값인 null로 설정하면 가능성이 가장 높은 상태가 대상으로 사용됩니다. 위의 예에서는 세 가지 모든 모델의 예측이 올바르게 됩니다. 따라서 모델을 비교할 때는 각 교차 유효성 검사 인스턴스에 사용되는 임계값을 고려해야 합니다. 교차 유효성 검사 보고서에 제공되는 평균 가능성 및 제곱 평균 오차와 같은 측정값을 사용하여 특정 모델에 있는 모든 사례의 평균 확률을 평가할 수 있습니다.

교차 유효성 검사 탭 사용 시 제한 사항

Business Intelligence Development Studio에서 교차 유효성 검사 보고서를 사용하여 교차 유효성 검사를 수행하는 경우 테스트할 수 있는 모델과 설정할 수 있는 매개 변수에 몇 가지 제한 사항이 있습니다.

  • 선택한 마이닝 구조와 연결된 모든 모델에 대해 기본적으로 교차 유효성 검사가 수행됩니다. 모델이나 모델 목록을 지정할 수는 없습니다.

  • Microsoft 시계열 알고리즘이나 Microsoft 시퀀스 클러스터링 알고리즘을 기반으로 하는 모델에 대해서는 교차 유효성 검사가 지원되지 않습니다.

  • 마이닝 구조에 교차 유효성 검사로 테스트할 수 있는 모델이 포함되어 있지 않은 경우 보고서를 만들 수 없습니다.

  • 마이닝 구조에 클러스터링 모델과 클러스터링 이외의 모델이 모두 포함되어 있는 상태에서 #Cluster 옵션을 선택하지 않으면 특성, 상태 및 임계값 설정이 클러스터링 모델에 적합하지 않더라도 두 모델 유형에 대한 결과가 모두 같은 보고서에 표시됩니다.

  • 일부 매개 변수 값은 사용에 제한이 있습니다. 예를 들어 접기 수가 10을 초과하면 너무 많은 모델이 생성되어 보고서가 느리게 표시될 수 있으므로 경고가 표시됩니다.

고급 설정을 지정하려면 교차 유효성 검사 저장 프로시저를 사용해야 합니다. 자세한 내용은 데이터 마이닝 저장 프로시저(Analysis Services - 데이터 마이닝)를 참조하십시오.

교차 유효성 검사의 결과

매개 변수를 지정한 후 새로 고침을 클릭하면 교차 유효성 검사의 결과가 결과 표에 표시됩니다. 이 섹션에서는 결과 표에 있는 각 열의 내용에 대해 설명합니다.

데이터의 접기 수 및 각 접기의 데이터 양에 대한 기본 정보 외에도 Analysis Services는 각 모델에 대한 메트릭 집합을 유형별로 범주화하여 표시합니다. 다음 표에서는 테스트와 메트릭을 메트릭의 의미에 대한 설명과 함께 나열합니다.

테스트 유형

측정값 및 설명

클러스터링

사례 유사도사례가 특정 클러스터에 속할 가능성을 나타냅니다.

분류

참 긍정다음 조건을 충족하는 사례의 수입니다.
  • 사례에 대상 값이 포함되어 있습니다.

  • 사례에 대상 값이 포함되어 있을 것으로 모델이 예측했습니다.

거짓 긍정다음 조건을 충족하는 사례의 수입니다.
  • 실제 값이 대상 값과 같습니다.

  • 사례에 대상 값이 포함되어 있을 것으로 모델이 예측했습니다.

참 부정다음 조건을 충족하는 사례의 수입니다.
  • 사례에 대상 값이 포함되어 있지 않습니다.

  • 사례에 대상 값이 포함되어 있지 않을 것으로 모델이 예측했습니다.

거짓 부정다음 조건을 충족하는 사례의 수입니다.
  • 실제 값이 대상 값과 같지 않습니다.

  • 사례에 대상 값이 포함되어 있지 않을 것으로 모델이 예측했습니다.

분류

통과/실패다음 조건을 충족하는 사례의 수입니다.
  • 확률이 가장 높은 예측 상태가 입력 상태와 같고 확률이 상태 임계값의 값보다 크면 통과합니다.

  • 그렇지 않으면 실패합니다.

가능성

리프트테스트 사례의 한계 확률에 대한 실제 예측 확률의 비율입니다. 값이 누락된 행은 제외됩니다. 이 메트릭은 모델을 사용할 때 확률이 증가하는 정도를 보여 줍니다.
제곱 평균 오차파티션의 사례 수로 나눈 모든 파티션 사례에 대한 평균 오차의 제곱근입니다. 값이 누락된 사례는 제외됩니다.
로그 점수합계된 후 입력 데이터 집합의 행 수로 나눠진 각 사례에 대한 실제 확률 로그입니다. 값이 누락된 사례는 제외됩니다. 확률이 분수로 표기되기 때문에 로그 점수는 항상 음수입니다. 점수가 0에 가까울수록 예측 확률이 높은 것입니다.

추정

제곱 평균 오차실제 값에 대한 예측 값의 평균 오차로, 제곱 오차의 평균 합계에 대한 제곱근으로 표시됩니다.
절대 평균 오차사례 수로 나눈 모든 파티션 사례의 절대 오차 합계입니다. 값이 누락된 사례는 제외됩니다.
로그 점수합계된 후 입력 데이터 집합의 행 수로 나눠진 각 사례에 대한 실제 확률 로그입니다. 값이 누락된 사례는 제외됩니다. 확률이 분수로 표기되기 때문에 로그 점수는 항상 음수입니다. 점수가 0에 가까울수록 예측 확률이 높은 것입니다.

집계

집계 측정값은 각 파티션 결과의 분산을 보여 줍니다.

평균값특정 측정값에 대한 파티션 값의 평균입니다.
표준 편차모델의 전체 파티션에서 특정 측정값에 대한 평균값과의 편차에 대한 평균입니다.

[!참고]

이러한 정확도 측정값은 각각의 대상 특성에 대해 계산되며, 각 특성에 대해 대상 값을 지정하거나 생략할 수 있습니다. 일부 기록에는 대상 특성에 값이 없을 수 있으며 이것은 누락 값이라고 하는 특별 사례입니다. 누락 값이 있는 행은 특정 대상 특성에 대한 정확도 측정값을 계산할 때 제외됩니다. 또한 각 특성에 대해 점수가 계산되기 때문에 대상 특성에 값이 있지만 다른 특성에 값이 누락되었을 경우 대상 특성의 점수에는 영향을 주지 않습니다.