데이터 마이닝 모델 유효성 검사(Analysis Services - 데이터 마이닝)

유효성 검사는 실제 데이터에 대한 마이닝 모델의 성능을 평가하는 프로세스입니다. 마이닝 모델을 프로덕션 환경으로 배포하기 전에 품질과 특징을 이해하여 마이닝 모델의 유효성을 검사하는 것이 중요합니다.

데이터 마이닝 모델의 품질과 특징을 평가하는 데에는 여러 가지 방법이 있습니다. 첫 번째 방법에서는 통계 유효성의 다양한 측정값을 사용하여 데이터나 모델에 문제가 있는지 여부를 확인할 수 있습니다. 두 번째 방법에서는 데이터를 학습 집합과 테스트 집합으로 구분하여 예측의 정확도를 테스트할 수 있습니다. 마지막 방법에서는 비즈니스 전문가에게 데이터 마이닝 모델의 결과를 검토하도록 요청하여 검색된 패턴이 대상 비즈니스 시나리오에서 의미가 있는지 여부를 결정할 수 있습니다. 이러한 모든 방법은 데이터 마이닝 방법에서 유용하며 특정 문제를 해결하기 위한 모델을 생성, 테스트 및 구체화하면서 반복적으로 사용됩니다.

이 섹션에서는 모델 품질과 관련된 몇 가지 기본 개념을 소개하고 Microsoft SQL Server 2008 Analysis Services에 제공된 모델 유효성 검사를 위한 전략을 소개합니다. 대규모 데이터 마이닝 프로세스에서 모델 유효성 검사를 수행하는 방법에 대한 개요는 데이터 마이닝 프로젝트(Analysis Services - 데이터 마이닝)을 참조하십시오.

데이터 마이닝 모델의 측정 조건

데이터 마이닝 모델의 유효성을 검사하는 대부분의 방법을 통해 비즈니스 관련 질문에 대한 직접적인 답을 얻을 수는 없지만 비즈니스 또는 개발 의사 결정을 내리는 데 도움이 되는 메트릭을 얻을 수 있습니다. 모델이 적당하거나 데이터가 충분하다고 판단하는 기준으로 삼을 수 있는 포괄적인 규칙은 없습니다.

데이터 마이닝의 측정값은 일반적으로 정확도, 안정성 및 유용성의 범주로 나누어집니다.

정확도, 안정성 및 유용성

정확도는 모델이 제공된 데이터의 특성과 결과 간 상관 관계를 얼마나 잘 찾아내는지를 측정합니다. 다양한 정확도 측정값이 있지만 모든 정확도 측정값은 사용되는 데이터에 따라 달라집니다. 실제로는 값이 없거나 근사값일 수 있으며 여러 프로세스에 의해 데이터가 변경되었을 수 있습니다. 특히 탐색 및 개발 단계에서 데이터의 특징이 비교적 균일한 경우 데이터에서 오류가 일정 정도 발생하도록 허용할 수 있습니다. 예를 들어 과거 판매량을 기반으로 특정 매장의 판매량을 예측하는 모델은 해당 매장에서 계속 잘못된 회계 방법을 사용한 경우에도 상관 관계가 높고 매우 정확할 수 있습니다. 따라서 정확도 측정은 안정성 평가에 따라 균형을 맞춰야 합니다.

안정성은 다른 데이터 집합에 대한 데이터 마이닝 모델의 성능을 평가합니다. 제공된 테스트 데이터와 상관없이 동일한 유형의 예측을 생성하거나 동일한 일반적인 종류의 패턴을 찾는 경우 데이터 마이닝 모델은 안정적입니다. 예를 들어 잘못된 회계 방법을 사용한 매장에 대해 생성하는 모델은 다른 매장에도 적용할 수 있을 정도로 일반화될 수 없으므로 안정적이지 않습니다.

유용성에는 모델이 유용한 정보를 제공하는지 여부를 알려 주는 다양한 메트릭이 포함됩니다. 예를 들어 매장 위치와 판매량 간 상관 관계를 찾는 데이터 마이닝 모델은 정확하면서 안정적일 수 있지만 동일한 위치에 있는 다른 매장을 추가하여 결과를 일반화할 수 없으므로 유용하지 않을 수 있습니다. 또한 이 모델로는 특정 위치에서 판매량이 왜 더 많은가라는 기본적인 비즈니스 질문에 대한 답을 얻을 수 없습니다. 성공적으로 보이는 모델이 데이터의 교차 상관 관계를 기반으로 하고 있기 때문에 실제로는 의미가 없을 수도 있습니다.

Microsoft 데이터 마이닝 프레임워크

CRISP-DM은 데이터 마이닝 프로젝트를 정의, 개발 및 구현하는 단계를 설명하는 잘 알려진 방법입니다. 그러나 CRISP-DM은 프로젝트의 범위를 지정하고 프로젝트를 예약하는 방법에 대한 구체적인 지침을 제공하지 않는 개념적인 프레임워크입니다. 데이터 마이닝에 관심은 있지만 어떻게 계획을 시작해야 하는지 모르는 비즈니스 사용자의 특정 요구와 .NET 응용 프로그램 개발은 잘 알지만 데이터 마이닝은 잘 모르는 개발자의 요구를 보다 잘 충족하기 위해 Microsoft는 포괄적인 평가 시스템을 포함하는 데이터 마이닝 프로젝트 구현 방법을 개발했습니다.

자세한 내용은 Microsoft 데이터 마이닝 리소스 페이지를 참조하십시오.

SQL Server Analysis Services에서의 마이닝 모델 유효성 검사 방법

SQL Server 2008에서는 데이터 마이닝 개발 방법의 모든 단계를 지원하는 데이터 마이닝 솔루션의 유효성을 여러 가지 방법으로 검사할 수 있습니다.

학습 및 테스트 집합으로 데이터 분할

학습 및 테스트 집합으로 데이터를 분할하는 것은 평가할 데이터를 준비하는 인증된 기법입니다. 학습 데이터 집합의 데이터 중 일부가 테스트용으로 예약되고 나머지 데이터는 학습에 사용됩니다. 모델이 완료된 후에는 해당 모델이 테스트 집합에 대한 예측에 사용됩니다. 학습 집합의 데이터는 학습에 사용되는 동일한 데이터에서 임의로 선택되기 때문에 테스트에서 파생시키는 정확도 메트릭이 데이터 불일치의 영향을 받을 가능성이 적으며 이에 따라 모델의 특징을 보다 잘 반영합니다.

자세한 내용은 학습 및 테스트 집합으로 데이터 분할(Analysis Services - 데이터 마이닝)을 참조하십시오.

마이닝 모델의 교차 유효성 검사

교차 유효성 검사를 사용하면 데이터 집합을 많은 수의 작은 교집합 영역으로 분할하고 이러한 교집합 영역에 대해 여러 모델을 만들어 전체 데이터 집합의 유효성을 검사할 수 있습니다. 그러면 Analysis Services가 각 파티션에 대한 자세한 정확도 메트릭을 생성합니다. 이 정보를 사용하여 개별 모델의 품질을 개선하거나 특정 데이터 집합에 대한 최상의 모델을 식별할 수 있습니다.

자세한 내용은 교차 유효성 검사(Analysis Services - 데이터 마이닝)를 참조하십시오.

마이닝 모델 정확도 차트

Microsoft SQL Server Analysis Services는 예측 정확도 그래프를 작성하거나, 새 데이터 또는 기존 데이터에 대해 모델을 테스트하거나, 차트 및 보고서에서 여러 모델을 비교하는 데 도움이 되는 도구를 제공합니다.

리프트 차트는 데이터 마이닝 모델을 사용하여 얻는 이점을 임의 추측과 비교하여 시각화하는 방법입니다. 마이닝 모델 사용과 재무 이익 또는 비용을 연결하는 수익 차트 및 회귀 모델을 위한 산점도도 만들 수 있습니다. 분류 행렬은 모델이 대상 값을 얼마나 정확하게 예측하는지를 빠르고 쉽게 측정할 수 있도록 올바른 추측과 잘못된 추측을 테이블로 정렬하는 방법입니다.

자세한 내용은 모델 정확도 차트용 도구(Analysis Services - 데이터 마이닝)를 참조하십시오.

모델을 다양한 방법으로 필터링하여 동일한 원본 데이터의 서로 다른 조합을 학습하고 테스트할 수도 있습니다. 자세한 내용은 마이닝 모델 정확도 측정(Analysis Services - 데이터 마이닝)을 참조하십시오.

모델 콘텐츠와 사례 찾아보기 및 쿼리

Analysis Services는 모델을 찾아보고 탐색하기 위한 데이터 마이닝 뷰어 집합을 제공합니다. 모델을 보다 잘 이해하고 선택한 방법이나 데이터에서 예기치 않은 문제를 찾는 데 도움이 되는 콘텐츠 쿼리를 만들 수도 있습니다. DMX(Data Mining Extensions)를 사용하여 콘텐츠 쿼리를 만들 때는 마이닝 모델에서 검색된 패턴에 대한 통계 정보를 얻거나 모델에서 찾은 특정 패턴을 지원하는 사례를 검색할 수 있습니다. 기본 마이닝 구조의 세부 정보로 드릴스루하여 모델에 포함되지 않은 자세한 정보를 검색 또는 제공하거나 데이터에서 찾은 패턴에 대해 조치를 취할 수 있습니다.

모델 콘텐츠를 쿼리하는 방법은 데이터 마이닝 모델 쿼리(Analysis Services - 데이터 마이닝)를 참조하십시오.

모델 콘텐츠를 찾아보는 방법은 데이터 마이닝 모델 보기를 참조하십시오.

특정 알고리즘에 대해 모델 콘텐츠를 해석하는 방법은 데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)을 참조하십시오.