아티클
09/27/2010

데이터 마이닝 모델 사용자 지정(Analysis Services - 데이터 마이닝)

비즈니스 요구를 충족하는 알고리즘을 선택한 후 다음과 같은 방법으로 마이닝 모델을 사용자 지정하여 결과를 잠재적으로 향상시킬 수 있습니다.

모델에서 다른 열의 데이터를 사용하거나 열의 사용 또는 내용 유형을 변경합니다.
마이닝 모델에서 필터를 만들어 모델 학습에 사용되는 데이터를 제한합니다.
알고리즘 매개 변수를 설정하여 임계값, 트리 분할 또는 기타 조건을 제어합니다.
데이터를 분석하거나 예측을 수행하는 데 사용되는 기본 알고리즘을 변경합니다.

모델에 사용되는 데이터 변경

모델에서 사용할 데이터 열과 해당 데이터를 사용 및 처리하는 방법에 대한 결정은 분석 결과에 큰 영향을 줄 수 있습니다. 다음 항목에서는 이러한 선택 사항을 이해하는 데 도움이 되는 정보를 제공합니다.

마이닝 모델(Analysis Services - 데이터 마이닝)

기본 마이닝 구조 및 마이닝 열 선택을 포함하는 마이닝 모델의 아키텍처에 대한 개요를 제공합니다.
마이닝 모델에 대한 필터 만들기(Analysis Services - 데이터 마이닝)

마이닝 구조 데이터의 하위 집합을 기반으로 하는 모델을 만들기 위해 마이닝 모델에 적용되는 필터를 만들 수 있는 방법을 설명합니다.
데이터 마이닝에서 기능 선택.

기능 선택이라는 프로세스를 Analysis Services에서 사용하여 모델에 추가할 가장 유용한 속성만 선택하는 방법을 설명합니다. 열과 특성 수를 줄이면 모델 품질 및 성능을 향상시킬 수 있습니다. 사용 가능한 기능 선택 방법은 선택한 알고리즘에 따라 달라집니다.

데이터 마이닝 마법사를 사용할 경우 특정 모델을 작성하는 데 가장 유용한 데이터를 Analysis Services에서 자동으로 선택하게 할 수도 있습니다.

알고리즘 설정 사용자 지정

선택한 알고리즘에 따라 결과의 종류가 결정됩니다. 특정 알고리즘이 작동하는 방법에 대한 일반적인 내용이나 특정 알고리즘을 사용하는 것이 이익이 되는 비즈니스 시나리오는 데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)을 참조하십시오.

또한 Analysis Services에서 제공되는 데이터 마이닝 알고리즘은 광범위하게 사용자 지정할 수 있습니다. 알고리즘 매개 변수를 설정하여 알고리즘의 동작과 알고리즘이 데이터를 처리하는 방법을 제어할 수 있습니다. 다음 항목에서는 각 알고리즘이 지원하는 매개 변수에 대한 자세한 내용을 제공합니다.

Microsoft 의사 결정 트리 알고리즘 기술 참조

Microsoft 클러스터링 알고리즘 기술 참조

Microsoft Naive Bayes 알고리즘 기술 참조

Microsoft 연결 알고리즘 기술 참조

Microsoft 시퀀스 클러스터링 알고리즘 기술 참조

Microsoft 신경망 알고리즘 기술 참조

Microsoft 로지스틱 회귀 알고리즘 기술 참조

Microsoft 선형 회귀 알고리즘 기술 참조

Microsoft 시계열 알고리즘 기술 참조

또한 각 알고리즘 유형에 대한 항목에서는 해당 알고리즘을 기반으로 하는 모델과 함께 사용할 수 있는 예측 함수가 나열됩니다.

알고리즘 매개 변수 목록

각 알고리즘에는 알고리즘의 동작을 사용자 지정하고 모델 결과를 미세 조정하는 데 사용할 수 있는 매개 변수가 지원됩니다. 각 매개 변수를 사용하는 방법은 다음 항목을 참조하십시오.

속성 이름	적용 대상
AUTO_DETECT_PERIODICITY	Microsoft 시계열 알고리즘 기술 참조
CLUSTER_COUNT	Microsoft 클러스터링 알고리즘 기술 참조 Microsoft 시퀀스 클러스터링 알고리즘 기술 참조
CLUSTER_SEED	Microsoft 클러스터링 알고리즘 기술 참조
CLUSTERING_METHOD	Microsoft 클러스터링 알고리즘 기술 참조
COMPLEXITY_PENALTY	Microsoft 의사 결정 트리 알고리즘 기술 참조 Microsoft 시계열 알고리즘 기술 참조
FORCED_REGRESSOR	Microsoft 의사 결정 트리 알고리즘 기술 참조 Microsoft 선형 회귀 알고리즘 기술 참조
FORECAST_METHOD	Microsoft 시계열 알고리즘 기술 참조
HIDDEN_NODE_RATIO	Microsoft 신경망 알고리즘 기술 참조
HISTORIC_MODEL_COUNT	Microsoft 시계열 알고리즘 기술 참조
HISTORICAL_MODEL_GAP	Microsoft 시계열 알고리즘 기술 참조
HOLDOUT_PERCENTAGE	Microsoft 로지스틱 회귀 알고리즘 기술 참조 Microsoft 신경망 알고리즘 기술 참조 참고 이 매개 변수는 마이닝 구조에 적용되는 홀드아웃 비율 값과 다릅니다.
HOLDOUT_SEED	Microsoft 로지스틱 회귀 알고리즘 기술 참조 Microsoft 신경망 알고리즘 기술 참조 참고 이 매개 변수는 마이닝 구조에 적용되는 홀드아웃 초기값과 다릅니다.
INSTABILITY_SENSITIVITY	Microsoft 시계열 알고리즘 기술 참조
MAXIMUM_INPUT_ATTRIBUTES	Microsoft 클러스터링 알고리즘 기술 참조 Microsoft 의사 결정 트리 알고리즘 기술 참조 Microsoft 선형 회귀 알고리즘 기술 참조 Microsoft Naive Bayes 알고리즘 기술 참조 Microsoft 신경망 알고리즘 기술 참조 Microsoft 로지스틱 회귀 알고리즘 기술 참조
MAXIMUM_ITEMSET_COUNT	Microsoft 연결 알고리즘 기술 참조
MAXIMUM_ITEMSET_SIZE	Microsoft 연결 알고리즘 기술 참조
MAXIMUM_OUTPUT_ATTRIBUTES	Microsoft 의사 결정 트리 알고리즘 기술 참조 Microsoft 선형 회귀 알고리즘 기술 참조 Microsoft 로지스틱 회귀 알고리즘 기술 참조 Microsoft Naive Bayes 알고리즘 기술 참조 Microsoft 신경망 알고리즘 기술 참조
MAXIMUM_SEQUENCE_STATES	Microsoft 시퀀스 클러스터링 알고리즘 기술 참조
MAXIMUM_SERIES_VALUE	Microsoft 시계열 알고리즘 기술 참조
MAXIMUM_STATES	Microsoft 클러스터링 알고리즘 기술 참조 Microsoft 신경망 알고리즘 기술 참조 Microsoft 시퀀스 클러스터링 알고리즘 기술 참조
MAXIMUM_SUPPORT	Microsoft 연결 알고리즘 기술 참조
MINIMUM_IMPORTANCE	Microsoft 연결 알고리즘 기술 참조
MINIMUM_ITEMSET_SIZE	Microsoft 연결 알고리즘 기술 참조
MINIMUM_DEPENDENCY_PROBABILITY	Microsoft Naive Bayes 알고리즘 기술 참조
MINIMUM_PROBABILITY	Microsoft 연결 알고리즘 기술 참조
MINIMUM_SERIES_VALUE	Microsoft 시계열 알고리즘 기술 참조
MINIMUM_SUPPORT	Microsoft 연결 알고리즘 기술 참조 Microsoft 클러스터링 알고리즘 기술 참조 Microsoft 의사 결정 트리 알고리즘 기술 참조 Microsoft 시퀀스 클러스터링 알고리즘 기술 참조 Microsoft 시계열 알고리즘 기술 참조
MISSING_VALUE_SUBSTITUTION	Microsoft 시계열 알고리즘 기술 참조
MODELLING_CARDINALITY	Microsoft 클러스터링 알고리즘 기술 참조
PERIODICITY_HINT	Microsoft 시계열 알고리즘 기술 참조
PREDICTION_SMOOTHING	Microsoft 시계열 알고리즘 기술 참조
SAMPLE_SIZE	Microsoft 클러스터링 알고리즘 기술 참조 Microsoft 로지스틱 회귀 알고리즘 기술 참조 Microsoft 신경망 알고리즘 기술 참조
SCORE_METHOD	Microsoft 의사 결정 트리 알고리즘 기술 참조
SPLIT_METHOD	Microsoft 의사 결정 트리 알고리즘 기술 참조
STOPPING_TOLERANCE	Microsoft 클러스터링 알고리즘 기술 참조

추가 요구 사항

데이터 선택과 준비는 데이터 마이닝 프로세스에서 중요한 부분입니다. 예를 들어 Microsoft에서 제공하는 알고리즘은 중복 키를 허용하지 않습니다. 각 모델에 필요한 데이터 형식은 알고리즘에 따라 달라집니다. 자세한 내용은 다음 항목의 요구 사항 섹션을 참조하십시오.

Microsoft 의사 결정 트리 알고리즘	Microsoft 시계열 알고리즘
Microsoft 클러스터링 알고리즘	Microsoft 신경망 알고리즘
Microsoft Naive Bayes 알고리즘	Microsoft 로지스틱 회귀 알고리즘
Microsoft 연결 알고리즘	Microsoft 선형 회귀 알고리즘
Microsoft 시퀀스 클러스터링 알고리즘

쿼리 및 예측 함수를 사용하여 결과 사용자 지정

모델이 작성 및 처리된 후 각 모델 유형별 뷰어 중 하나를 사용하여 정보를 볼 수 있습니다. 또는 데이터에서 발견된 패턴에 대한 고급 또는 세부 정보를 얻기 위한 DMX(Data Mining Extensions)를 사용하여 사용자 지정 쿼리를 작성할 수 있습니다.

모델 콘텐츠를 반환하는 쿼리를 만드는 방법은 데이터 마이닝 모델 쿼리(Analysis Services - 데이터 마이닝)를 참조하십시오.

함수를 사용하여 마이닝 모델이 반환하는 결과를 확장할 수 있습니다. 또한 일부 함수는 결과의 확률 또는 기타 점수를 나타내는 통계를 반환합니다. 이외에도 개별 알고리즘에서 추가 함수를 지원할 수 있습니다. 예를 들어 마이닝 모델에서 클러스터링을 사용할 경우 특수한 함수를 사용하여 클러스터에 대한 정보를 찾을 수 있습니다. 그러나 모델이 시계열 알고리즘을 기반으로 하는 경우 예측을 수행하고 모델 콘텐츠를 쿼리하기 위해 다른 함수 집합을 사용할 수 있습니다. 자세한 내용은 각 알고리즘에 대한 기술 참조 항목을 참조하십시오.

마이닝 모델을 쿼리하고 특정 모델 유형에 맞게 설계된 예측 함수를 사용하는 방법은 데이터 마이닝 모델 쿼리(Analysis Services - 데이터 마이닝)를 참조하십시오.

모든 알고리즘 유형에 대해 지원되는 예측 함수 목록은 쿼리 유형에 대한 함수 매핑(DMX)을 참조하십시오.

모델의 변경 사항 평가

비즈니스 문제 해결에 다른 모델을 사용하거나 모델을 변경하는 경우 각 모델의 정확성을 측정하고 각 모델이 비즈니스 문제에 얼마나 잘 대처하는지를 평가해야 합니다. 데이터 마이닝 모델 평가에 대한 자세한 내용은 데이터 마이닝 모델 유효성 검사(Analysis Services - 데이터 마이닝)를 참조하십시오. 다른 마이닝 모델의 정확도를 차트로 작성하는 방법은 모델 정확도 차트용 도구(Analysis Services - 데이터 마이닝)를 참조하십시오.

참고 항목

개념

데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)

물리적 아키텍처(Analysis Services - 데이터 마이닝)