논리적 아키텍처(Analysis Services - 데이터 마이닝)

데이터 마이닝은 여러 구성 요소와의 상호 작용을 수반하는 프로세스입니다. 우선 학습, 테스트 및 예측에 사용하기 위해 SQL Server 데이터베이스나 기타 데이터 원본에 있는 데이터의 원본에 액세스해야 합니다. 또한 Business Intelligence Development Studio 또는 Visual Studio 2005를 사용하여 데이터 마이닝 구조 및 모델을 정의해야 합니다. SQL Server Management Studio로는 데이터 마이닝 개체를 관리하고 예측 및 쿼리를 만들 수 있습니다. 솔루션이 완료되면 이를 Analysis Services의 인스턴스에 배포해야 합니다.

데이터 마이닝 솔루션 및 프로젝트

데이터 마이닝 프로젝트를 만들려면 데이터 원본, 데이터 마이닝 구조 및 데이터 마이닝 모델을 정의해야 합니다. 데이터 마이닝 프로젝트를 만들 때 모델의 유효성을 검사하기 위한 테스트 집합을 포함할 수도 있습니다. 서버에 프로젝트를 배포한 후에는 원본 솔루션에서 새 모델을 계속 개발 및 테스트할 수 있습니다.

데이터 마이닝 원본 데이터

데이터 마이닝을 수행하기 위해 큐브나 그 밖의 특수한 데이터 원본을 사용할 필요는 없습니다. 관계형 데이터 테이블이나 Analysis Services 데이터 원본 뷰로 정의된 기타 데이터 원본에서도 데이터 마이닝을 빠르고 쉽게 수행할 수 있습니다. 데이터 마이닝에 사용하는 데이터는 데이터 마이닝 솔루션에 저장되지 않고 바인딩만 저장됩니다. 데이터는 이전 버전의 SQL Server 또는 CRM 시스템에서 만들거나 플랫 파일로 만든 데이터베이스에 있을 수도 있습니다. Analysis Services 데이터 원본 뷰를 사용하면 여러 테이블 간의 조인을 지정하여 다양한 데이터 원본을 결합할 수 있습니다. 다 대 일 관계를 갖는 테이블을 추가하여 중첩 테이블 열을 만들 수도 있습니다.

데이터 마이닝 솔루션에서 데이터를 사용해야 할 경우 Analysis Services에서는 원본의 데이터를 읽고 집계와 그 밖의 사용된 정보에 대한 캐시를 생성합니다. 캐시된 정보를 보관했다가 이를 사용하여 새 데이터 마이닝 모델을 만들 수도 있고, 삭제하여 저장소 공간을 절약할 수도 있습니다.

데이터 마이닝 솔루션을 지속적으로 새 데이터로 업데이트할 수도 있고, 적합한 모델을 찾은 경우에는 해당 모델을 있는 그대로 배포한 후 모델에 새 데이터를 추가하지 않을 수도 있습니다.

SQL Server 2008 Analysis Services에서는 데이터를 학습 데이터 집합과 테스트 데이터 집합으로 분리하는 기능도 제공하므로 임의로 선택된 대표 데이터 집합에 대해 마이닝 모델을 테스트할 수 있습니다.

Analysis Services 데이터 원본 및 데이터 원본 뷰의 만들기 및 사용에 대한 자세한 내용은 데이터 원본 정의(Analysis Services)를 참조하십시오.

데이터 마이닝 구조

데이터 마이닝 구조는 마이닝 모델이 생성된 데이터 도메인을 정의하는 논리적 데이터 구조입니다. 하나의 마이닝 구조는 같은 도메인을 공유하는 여러 개의 마이닝 모델을 지원할 수 있습니다. HOLDOUT으로 백분율이나 데이터 양을 지정하여 데이터 마이닝 구조를 학습 집합과 테스트 집합으로 분할할 수도 있습니다. 이러한 분할은 데이터 마이닝 구조를 정의할 때 자동으로 수행될 수 있습니다.

자세한 내용은 마이닝 구조(Analysis Services - 데이터 마이닝)를 참조하십시오.

데이터 마이닝 구조에는 중첩 테이블이 포함될 수도 있습니다. 중첩 테이블은 기본 데이터 테이블에서 모델링된 사례에 대한 추가 정보를 제공합니다. 자세한 내용은 중첩 테이블(Analysis Services - 데이터 마이닝)을 참조하십시오.

데이터 마이닝 모델

데이터 마이닝 모델은 데이터, 데이터 마이닝 알고리즘, 그리고 사용되는 데이터와 데이터가 처리되는 방식에 영향을 주는 매개 변수 및 필터 설정의 컬렉션을 조합한 것을 나타냅니다. 자세한 내용은 마이닝 모델(Analysis Services - 데이터 마이닝)을 참조하십시오.

DMX(Data Mining Extensions) 언어를 사용하거나 BI Development Studio의 데이터 마이닝 마법사를 사용하여 데이터 마이닝 모델을 정의할 수 있습니다. 데이터 마이닝 마법사 사용 방법은 데이터 마이닝 마법사(Analysis Services – 데이터 마이닝)를 참조하십시오. DMX 사용 방법은 DMX(Data Mining Extensions) 참조를 참조하십시오.

마이닝 모델의 구조를 정의한 다음에는 이를 처리하여 모델을 설명하는 패턴으로 빈 구조를 채웁니다. 이를 모델 학습이라고 합니다. 수학적 알고리즘을 통해 원본 데이터를 전달하면 패턴을 찾을 수 있습니다. 또한 매개 변수를 사용하여 각 알고리즘을 조정할 수 있습니다. 데이터 마이닝 알고리즘을 선택하는 방법은 데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)을 참조하십시오. 개별 데이터 마이닝 알고리즘에 매개 변수를 설정하여 모델의 결과를 세부 조정하는 방법은 데이터 마이닝 모델 사용자 지정(Analysis Services - 데이터 마이닝)을 참조하십시오.

새 데이터 마이닝 모델을 만들 때는 예측 후 변경을 통해 결과를 개선하는 방법으로 모델을 반복적으로 테스트합니다. 변경 작업에는 데이터를 추가하거나 데이터에 보다 적합하도록 모델의 매개 변수를 변경하는 작업이 포함될 수 있습니다. 예측 정확도 테스트에 대한 자세한 내용은 데이터 마이닝 모델 유효성 검사(Analysis Services - 데이터 마이닝)를 참조하십시오.

배포

데이터 마이닝 개발의 궁극적 목적은 최종 사용자와 분석가가 예측 및 깊이 있는 분석을 수행하는 데 사용할 수 있는 모델을 만드는 것입니다. 따라서 모델에서 생성된 결과가 만족스러우면 모델을 프로덕션 환경에 배포합니다. 프로덕션 환경에서 마이닝 모델은 사용자의 필요에 따라 다양한 용도로 사용될 수 있습니다. 다음 목록에서는 데이터 마이닝 모델을 사용하여 수행할 수 있는 태스크의 몇 가지 예를 제공합니다.

  • 모델을 사용하여 예측 만들기. 이러한 예측을 사용하여 비즈니스상의 결정을 내릴 수 있습니다. SQL Server에서는 예측 쿼리를 만드는 데 사용할 수 있는 DMX 언어와 쿼리 작성에 도움이 되는 예측 쿼리 작성기를 제공합니다.

  • 데이터 마이닝 기능을 응용 프로그램에 직접 포함. 마이닝 구조 및 마이닝 모델 생성, 변경, 처리 및 삭제를 위해 응용 프로그램에서 사용할 수 있는 개체 집합이 포함된 어셈블리 또는 AMO(Analysis Management Objects)를 포함시킬 수 있습니다. 또는 Analysis Services 인스턴스에 XMLA(XML for Analysis) 메시지를 직접 보낼 수도 있습니다.

  • Integration Services를 사용하여 마이닝 모델을 통해 들어오는 데이터를 여러 테이블에 논리적으로 분리하는 패키지 만들기. 예를 들어 잠재적인 고객으로 데이터베이스를 계속 업데이트하는 경우 Integration Services와 함께 마이닝 모델을 사용하여 들어오는 데이터를 제품을 구매할 가능성이 높은 고객과 제품을 구매하지 않을 가능성이 높은 고객으로 분할할 수 있습니다.

  • 사용자가 기존 마이닝 모델에 대해 직접 쿼리할 수 있는 보고서 만들기. 다양한 예측을 만들기를 원하는 사용자나 마이닝 모델 콘텐츠에 직접 액세스하기를 원하는 분석가는 데이터에서 주목할 만한 패턴을 탐색할 수 있습니다.

모델 업데이트는 배포 전략의 일부입니다. 더 많은 데이터가 조직에 들어오면 모델을 다시 처리하여 효율성을 향상시켜야 합니다. 자세한 내용은 배포(Analysis Services - 데이터 마이닝)DMX 예측 쿼리 만들기를 참조하십시오.