마이닝 구조(Analysis Services - 데이터 마이닝)

마이닝 구조는 마이닝 모델을 작성하는 데이터, 즉 원본 데이터 뷰, 열 유형과 수, 그리고 학습 및 테스트 집합으로의 선택적 분할을 정의합니다. 하나의 마이닝 구조는 같은 도메인을 공유하는 여러 개의 마이닝 모델을 지원할 수 있습니다. 다음 다이어그램에서는 데이터 마이닝 구조와 이를 구성하는 데이터 마이닝 모델 및 데이터 원본 간의 관계를 보여 줍니다.

데이터 처리: 원본, 구조, 모델 순으로 처리

다이어그램의 마이닝 구조는 CustomerID 필드에 조인된 여러 개의 테이블 또는 뷰가 들어 있는 데이터 원본을 기반으로 합니다. 한 테이블에는 지리적 영역, 나이, 수입 및 성별과 같은 고객에 대한 정보가 들어 있고, 관련된 중첩 테이블에는 고객이 구매한 제품과 같은 각 고객에 대한 추가 정보가 여러 행으로 들어 있습니다. 이 다이어그램에서는 한 마이닝 구조에서 여러 개의 모델이 만들어질 수 있으며 각 모델이 구조에서 사용하는 열이 서로 다를 수 있다는 것을 보여 줍니다.

모델 1   CustomerID, Income, Age, Region을 사용하고 Region의 데이터를 필터링합니다.

모델 2   CustomerID, Income, Age, Region을 사용하고 Age의 데이터를 필터링합니다.

모델 3   CustomerID, Age, Gender 및 중첩 테이블을 사용하고 필터는 적용하지 않습니다.

각 모델에서는 입력에 서로 다른 열을 사용하고 두 개의 모델에서는 추가적으로 필터를 적용하여 모델에 사용되는 데이터를 제한하므로 세 모델이 모두 동일한 데이터를 기반으로 함에도 불구하고 결과는 매우 다를 수 있습니다. 사례 키로 사용할 수 있는 열은 CustomerID 열뿐이므로 모든 모델에서 이 열이 필요합니다.

이 섹션에서는 데이터 마이닝 구조의 기본 아키텍처에 대해 설명합니다. 데이터 마이닝 구조를 작성, 관리, 수정하거나 보는 방법은 마이닝 구조 및 마이닝 모델 관리를 참조하십시오.

마이닝 구조 정의

마이닝 구조 설정은 다음과 같은 단계로 구성됩니다.

  • 데이터 원본 정의

  • 구조 열 선택 및 키 정의

  • 원본 데이터를 학습 집합과 선택적인 테스트 집합으로 분할

  • 구조 처리

마이닝 구조를 위한 데이터 원본

마이닝 구조를 정의할 때는 기존 데이터 원본 뷰에서 제공하는 열을 사용합니다. 데이터 원본 뷰를 사용하면 여러 데이터 원본을 결합하여 생성된 구조 또는 마이닝 모델에서 하나의 원본으로 사용할 수 있습니다. 원래의 데이터 원본은 클라이언트 응용 프로그램에서 볼 수 없습니다.

데이터 원본 뷰에 대한 자세한 내용은 데이터 원본 뷰(Analysis Services - 다차원 데이터)를 참조하십시오.

동일한 마이닝 구조에서 여러 마이닝 모델을 만드는 경우 각 모델은 구조에서 서로 다른 열을 다른 방식으로 사용할 수 있습니다. 예를 들어 단일 구조를 만든 다음, 이를 통해 각기 다른 열을 사용하고 다른 특성을 예측하는 별도의 의사 결정 트리 및 클러스터링 모델을 만들 수 있습니다.

데이터 마이닝 구조에는 원본 데이터에 대한 바인딩만 저장됩니다. DMX CREATE MINING STRUCTURE(DMX) 문을 사용하여 특정 데이터 원본에 바인딩하지 않고 데이터 마이닝 구조를 만들 수도 있습니다.

마이닝 구조 열

마이닝 구조의 빌드 블록은 데이터 원본에 포함된 데이터를 설명하는 마이닝 구조 열입니다. 이러한 열에는 데이터 형식, 내용 유형, 데이터 배포 방법 등의 정보가 포함됩니다. 마이닝 구조는 특정 마이닝 모델의 열 사용 방법이나 모델 작성 시 사용되는 알고리즘 유형에 대한 정보를 포함하지 않습니다. 이 정보는 마이닝 모델에서 정의됩니다.

마이닝 구조는 중첩 테이블을 포함할 수도 있습니다. 중첩 테이블은 사례 엔터티 및 관련 특성 간의 일 대 다 관계를 나타냅니다. 예를 들어 고객을 설명하는 정보가 한 테이블에 있고 이 고객의 구매 내용이 다른 테이블에 있으면 중첩 테이블을 사용하여 정보를 단일 사례로 결합할 수 있습니다. 고객 식별자는 엔터티이고 구매 내용은 관련 특성입니다. 중첩 테이블 사용 시기에 대한 자세한 내용은 중첩 테이블(Analysis Services - 데이터 마이닝)을 참조하십시오.

Business Intelligence Development Studio에서 데이터 마이닝 모델을 만들려면 먼저 데이터 마이닝 구조를 만들어야 합니다. 데이터 마이닝 마법사는 마이닝 구조를 만들고 데이터를 선택하고 마이닝 모델을 추가하는 과정을 안내해 줍니다.

DMX(Data Mining Extensions)를 사용하여 마이닝 모델을 만드는 경우 모델과 해당 모델의 열을 지정할 수 있으며 DMX에서는 필요한 마이닝 구조를 자동으로 만듭니다. 자세한 내용은 CREATE MINING MODEL(DMX)을 참조하십시오.

자세한 내용은 마이닝 구조 열을 참조하십시오.

학습 및 테스트 데이터

마이닝 구조를 위한 데이터를 정의할 때 학습 및 테스트에 사용될 몇 가지 데이터도 지정할 수 있습니다. 따라서 더 이상 데이터 마이닝 구조를 만들기 전에 데이터를 분할할 필요가 없습니다. 특정 데이터 비율을 테스트용으로 지정하고 나머지는 학습용으로 지정하거나, 특정 사례 수를 테스트 데이터 집합으로 사용하도록 지정할 수 있습니다. 파티션 정보는 마이닝 구조와 함께 캐시되므로 해당 구조를 기반으로 하는 모든 모델에서 동일한 테스트 집합을 사용할 수 있습니다.

자세한 내용은 학습 및 테스트 집합으로 데이터 분할(Analysis Services - 데이터 마이닝)을 참조하십시오.

드릴스루 사용

특정 마이닝 모델에서 열을 사용할 계획이 없더라도 마이닝 구조에 해당 열을 추가할 수 있습니다. 열을 사용하도록 지정하지 않으면 이 열은 분석 및 예측에서 무시됩니다. 그러나 마이닝 모델에 드릴스루를 사용하도록 설정하면 쿼리에서 이러한 열을 사용할 수 있습니다. 예를 들어 적절한 권한이 있는 경우 마이닝 모델의 특정 결과에서 드릴스루하여 해당 노드의 사례에 대한 세부 정보를 검색하고 모델에 사용되지 않은 구조 열에 액세스할 수 있습니다.

자세한 내용은 마이닝 모델 및 마이닝 구조에 드릴스루 사용(Analysis Services - 데이터 마이닝)을 참조하십시오.

마이닝 구조 처리

마이닝 구조는 처리되기 전까지는 단순한 메타데이터 컨테이너입니다. 마이닝 구조를 처리할 때 Analysis Services에서는 데이터에 대한 통계, 연속 특성을 분할하는 방법 및 나중에 마이닝 모델에서 사용되는 기타 정보를 저장하는 캐시를 만듭니다. 즉, 마이닝 모델은 데이터를 직접 저장하는 것이 아니라 캐시 내의 정보를 참조합니다. 따라서 마이닝 모델을 처리할 때 구조 캐시를 사용할 수 있어야 합니다. 구조 캐시를 사용할 수 없는 경우에는 구조를 다시 처리해야 모델을 만들 수 있습니다.

데이터를 캐시하지 않으려면 마이닝 구조의 CacheMode 속성을 ClearAfterProcessing으로 변경하면 됩니다. 이렇게 하면 모델이 처리된 후 캐시가 삭제됩니다. CacheMode 속성을 ClearAfterProcessing으로 설정하면 마이닝 모델에서 드릴스루 기능을 사용할 수 없게 됩니다.

캐시된 데이터를 사용할 수 있으면 마이닝 구조에 새 마이닝 모델을 추가할 때 구조를 다시 처리할 필요가 없으며 모델만 처리하면 됩니다. 자세한 내용은 데이터 마이닝 개체 처리를 참조하십시오.

마이닝 구조 보기

뷰어를 사용하여 마이닝 구조의 데이터를 탐색할 수 있습니다. Business Intelligence Development Studio에서는 데이터 마이닝 디자이너의 마이닝 구조 탭을 사용하여 구조 열 및 해당 정의를 볼 수 있습니다. 자세한 내용은 데이터 마이닝 디자이너를 참조하십시오.

마이닝 구조의 데이터를 검토하려면 DMX(Data Mining Extensions)를 사용하여 쿼리를 만들면 됩니다. 예를 들어 SELECT * FROM <structure>.CASES 문은 마이닝 구조의 모든 데이터를 반환합니다. 이 정보를 검토하려면 먼저 마이닝 구조가 처리되어 있고 처리 결과가 캐시되어 있어야 합니다.

SELECT * FROM <model>.CASES 문은 이와 동일하지만 해당 모델의 사례에 대한 열만 반환합니다. 자세한 내용은 SELECT FROM <structure>.CASESSELECT FROM <model>.CASES(DMX)를 참조하십시오.

마이닝 구조에서 데이터 마이닝 모델 사용

데이터 마이닝 모델은 마이닝 구조가 나타나는 데이터에 마이닝 모델 알고리즘을 적용합니다. 마이닝 모델은 특정 마이닝 구조에 속하는 개체로서, 마이닝 구조에서 정의한 속성의 모든 값을 상속받습니다. 모델은 마이닝 구조에 포함된 모든 열이나 이 열의 하위 집합을 사용할 수 있습니다. 하나의 구조에 여러 구조 열 복사본을 추가할 수 있습니다. 또한 하나의 모델에 여러 구조 열 복사본을 추가한 다음 모델의 각 구조 열에 다른 이름이나 별칭을 할당할 수 있습니다. 구조 열의 별칭 지정에 대한 자세한 내용은 방법: 모델 열의 별칭 만들기마이닝 모델에서 속성 설정을 참조하십시오.

데이터 마이닝 모델의 아키텍처에 대한 자세한 내용은 마이닝 모델(Analysis Services - 데이터 마이닝)을 참조하십시오.