아티클
09/27/2010

리프트 차트(Analysis Services - 데이터 마이닝)

데이터 마이닝 디자이너의 마이닝 정확도 차트 탭에 있는 리프트 차트 탭에는 선택하는 모델, 모델의 예측 가능한 특성 및 기타 설정에 따라 다른 종류의 차트가 표시됩니다.

모델에서 불연속 값을 예측하는 경우 리프트 차트나 수익 차트를 만들 수 있습니다. 리프트 차트는 각 모델의 예측 정확도를 비교하며 일반적인 예측의 정확도나 특정 값에 대한 예측의 정확도를 표시하도록 구성할 수 있습니다. 수익 차트는 리프트 차트와 동일한 정보가 포함된 관련 차트 종류이지만 각 모델 사용과 연관된 수익의 예상 증가치도 보여 줍니다. 차트 종류 목록을 사용하여 원하는 차트 종류를 선택할 수 있습니다.

참고 리프트 차트나 수익 차트에서 시계열 모델을 표시할 수 없지만 마이닝 모델 예측 탭을 사용하여 기록 계열과 계열 기반 예측을 모두 포함하는 차트를 볼 수 있습니다. 자세한 내용은 Microsoft 시계열 알고리즘을 참조하십시오.

참조 항목:수익 차트(Analysis Services - 데이터 마이닝), 산점도(Analysis Services - 데이터 마이닝)

시나리오

리프트 차트 탭은 마이닝 모델로 인한 리프트의 변경 내용을 그래픽으로 표시합니다. 예를 들어 Adventure Works Cycles의 마케팅 부서에서 대상 메일 캠페인을 만들려고 합니다. 과거 캠페인을 통해 응답률이 일반적으로 10%임을 알아냈습니다. 이 부서의 데이터베이스에는 10,000명의 잠재적인 고객 목록이 테이블에 저장되어 있는데 따라서 일반 응답률을 기준으로 이 중 1,000명의 잠재 고객이 응답하리라는 것을 예측할 수 있습니다.

그러나 데이터베이스에 있는 10,000명의 고객 모두에게 연락하기에는 프로젝트에 대한 예산이 부족합니다. 예산에 따라 5,000명의 고객에게만 광고 메일을 전송할 수 있는 경우 마케팅 부서에서는 다음과 같이 선택할 수 있습니다.

임의로 5,000명의 고객을 대상으로 선택
마이닝 모델을 사용하여 응답 가능성이 가장 높은 5,000명의 고객을 대상으로 선택

회사에서 5,000명의 고객을 임의로 선택하는 경우 응답 수는 일반적인 응답률을 기반으로 500개로 예상할 수 있습니다. 이 시나리오는 리프트 차트에서 임의 선으로 나타납니다. 그러나 마케팅 부서에서 마이닝 모델을 사용하여 메일 전송 대상을 결정하는 경우 응답률이 가장 높은 고객을 대상으로 선정할 수 있으므로 응답률이 훨씬 높아질 수 있습니다. 모델이 완벽하여 오류가 전혀 없는 예측을 만들 수 있는 경우에는 회사가 모델에서 권장하는 1,000명의 잠재적인 고객에게 메일을 전송하여 1,000개의 응답을 받을 수 있습니다. 이 시나리오는 리프트 차트에서 이상적인 선으로 나타납니다. 실제 상황에서는 마이닝 모델이 이러한 두 가지 극단적인 예측, 즉 임의 추측과 완벽한 예측 사이에 해당할 가능성이 높습니다. 임의 추측의 향상률은 리프트로 간주됩니다.

리프트 차트 이해

두 가지 종류의 리프트 차트 즉, 예측 가능한 열의 대상 값을 지정하는 차트와 값을 지정하지 않는 차트를 만들 수 있습니다. 입력 선택 탭과 리프트 차트 탭 간을 전환하면 차트가 업데이트되어 열 매핑이나 기타 설정의 변경 내용이 반영됩니다.

대상 값이 있는 리프트 차트

다음 차트에서는 기본 데이터 마이닝 자습서에서 만든 대상 메일 모델에 대한 리프트 차트를 보여 줍니다. 이 차트에서 대상 특성은 [Bike Buyer]이며 대상 값은 1입니다. 이는 고객이 자전거를 구입했거나 구입할 가능성이 높음을 의미합니다. 따라서 리프트 차트는 자전거를 구입할 가능성이 높은 고객을 식별할 때 모델이 제공하는 향상률을 보여 줍니다.

기본 모델 외에 차트에는 특정 고객을 대상으로 지정하기 위해 필터링된 관련 모델이 포함됩니다. 동일한 예측 가능한 특성을 가진 여러 모델을 리프트 차트에 추가할 수 있습니다. 이 필터는 학습 및 평가에 사용되는 사례를 30세 미만의 고객으로 제한합니다. 그 결과 모델이 평가되는 사례의 수는 기본 모델과 필터링된 모델에서 각기 다릅니다. 예측 결과 및 기타 통계를 해석할 때는 이러한 사실을 반드시 유념해야 합니다.

두 모델을 보여 주는 리프트 차트

차트의 X축은 예측을 비교하는 데 사용되는 테스트 데이터 집합의 비율을 나타냅니다. 차트의 Y축은 예측되는 값의 비율을 나타냅니다.

여기에 파란색으로 표시된 대각선은 모든 차트에 나타납니다. 이 선은 임의 추측의 결과를 나타내며 리프트를 평가할 기준선입니다. 리프트 차트에 추가하는 각 모델에 대해 두 개의 선이 있습니다. 첫 번째 선은 항상 완벽하게 예측되는 모델을 만들 수 있는 경우의 학습 데이터 집합에 대한 이상적인 결과를 보여 주며, 두 번째 선은 모델에 대한 결과의 실제 리프트 또는 향상률을 보여 줍니다.

이 예에서 필터링된 모델에 대한 이상적인 선은 진한 파란색으로 표시되며 실제 리프트에 대한 선은 노란색으로 표시됩니다. 이 차트에서 이상적인 선은 40% 부근에서 꼭지점을 이루는데, 이는 모델이 완벽한 경우 전체 모집단의 40%에 메일을 보낼 때 100%의 대상 고객에 도달할 수 있음을 의미합니다. 모집단의 40%를 대상으로 지정할 경우 필터링된 모델에 대한 실제 리프트는 60%에서 70% 사이이며, 이는 전체 고객 모집단의 40%에 메일을 보낼 때 60 ~ 70%의 대상 고객에 도달할 수 있음을 의미합니다.

마이닝 범례에는 곡선에 있는 모든 점의 실제 값이 포함되어 있습니다. 회색 세로 막대를 클릭하여 옮기면 측정되는 위치를 바꿀 수 있습니다. 차트에서 회색 선은 30% 지점으로 옮겨졌습니다. 이 지점이 필터링된 모델과 필터링되지 않은 모델 두 가지 모두 가장 효과적인 지점이며, 이 지점 이후 리프트의 양이 감소하기 때문입니다.

마이닝 범례에는 차트 해석에 도움이 되는 점수와 통계도 포함되어 있습니다. 이러한 결과는 회색 선에서의 모델 정확도를 나타내며 이 시나리오의 경우 회색 선은 전체 테스트 사례의 30%를 포함하는 위치에 있습니다.

계열, 모델	점수	대상 모집단	예측 확률
전체 대상 메일	0.71	47.40%	61.38%
30세 미만 대상 메일	0.85	51.81%	46.62%
임의 추측 모델		31.00%
이상적인 모델: 전체 대상 메일		62.48%
이상적인 모델: 30세 미만 대상 메일		65.28%

이 결과를 보면 모든 사례의 30%에서 측정할 때 일반적인 모델(전체 대상 메일)은 대상 모집단의 47.40%에 대해 자전거 구입 행동을 예측할 수 있습니다. 즉, 데이터베이스에 있는 고객의 30%에게만 대상 메일링을 보낼 경우 대상의 절반에 조금 못미치게 도달할 수 있습니다. 필터링된 모델을 사용한다면 대상 고객의 약 51%에 도달할 수 있습니다.

예측 확률 값은 “구입할 가능성이 높은” 사례의 고객을 포함하는 데 필요한 임계값을 나타냅니다. 각 사례에 대해 모델은 각 예측의 정확도를 예상하여 이 값을 저장합니다. 이 값은 고객을 걸러내거나 대상으로 지정하는 데 사용할 수 있습니다. 예를 들어 기본 모델에서 구입할 가능성이 높은 고객을 식별하려면 예측 확률이 61% 이상인 사례를 검색하는 쿼리를 사용하면 됩니다. 필터링된 모델에 의해 대상으로 지정된 고객을 가져오려면 모든 조건, 즉 나이와 최소 46%의 PredictProbability 값을 모두 충족하는 사례를 검색하는 쿼리를 만들면 됩니다.

모델을 비교해 보면 흥미롭습니다. 필터링된 모델은 더 많은 잠재 고객을 잡아내는 것으로 나타나지만 46%의 예측 확률 점수로 고객을 대상으로 지정할 경우 자전거를 구입하지 않을 사람에게 메일을 보낼 가능성도 53%가 됩니다. 따라서 어느 모델이 더 나은지 결정해야 한다면 기본 모델의 선택력, 그리고 필터링된 모델의 높은 정확도 및 작은 대상 크기를 상호 비교 평가해야 합니다.

점수 값은 정규화된 모집단에 대한 모델의 효율성을 계산하는 방법으로 모델을 비교하는 데 도움이 됩니다. 점수는 높을수록 더 좋으므로 이 사례에서는 30세 미만의 고객을 대상으로 지정하는 방법이 낮은 예측 확률에도 불구하고 가장 효율적인 전략이라고 판단할 수 있습니다.

대상 값이 없는 모델에 대한 리프트 차트

예측 가능한 열의 상태를 지정하지 않은 경우에는 다음 다이어그램에 표시된 차트 종류를 만들어야 합니다. 이 차트는 예측 가능한 특성의 모든 상태에 대한 모델의 성능을 보여 줍니다. 예를 들어 이 차트는 자전거를 구입할 가능성이 높은 고객과 구입할 가능성이 낮은 고객을 모델이 얼마나 잘 예측하는지 보여 줍니다.

X축은 예측 가능한 열이 지정된 차트에서와 동일하지만 Y축은 정확한 예측의 비율을 나타냅니다. 따라서 이상적인 선은 대각선이며, 이 선은 모델이 데이터의 50%에서 사례의 50%(예측 가능한 최대값)를 정확히 예측함을 보여 줍니다.

올바른 예측을 보여 주는 리프트 차트

차트를 클릭하여 회색 세로 막대를 옮길 수 있으며 마이닝 범례는 전체 사례의 비율과 정확하게 예측된 사례의 비율을 표시합니다. 예를 들어 회색 슬라이더를 50% 표시 지점에 놓으면 마이닝 범례는 다음과 같은 정확도 점수를 표시합니다. 이 수치는 기본 데이터 마이닝 자습서에서 만든 TM_Decision 트리 모델을 기반으로 합니다.

계열, 모델	점수	대상 모집단	예측 확률
TM_Decision 트리	0.77	40.50%	72.91%
이상적인 모델		50.00%

이 표를 보면 모델이 모집단의 50%에서 정확히 사례의 40%를 예측함을 알 수 있습니다. 이 모델은 꽤 정확한 모델로 볼 수 있습니다. 그러나 이 특정 모델은 예측 가능한 특성의 모든 값을 예측한다는 점을 유의하십시오. 따라서 고객의 90%가 자전거를 구입하지 않을 것이란 이 모델의 예측이 정확할 수도 있습니다.