의사 결정 트리 모델 탐색(기본 데이터 마이닝 자습서)

 

적용 대상: SQL Server 2016 Preview

Microsoft 의사 결정 트리 알고리즘은 학습 집합의 나머지 열을 기준으로 자전거 구매 결정에 영향을 주는 열을 예측합니다.

Microsoft 의사 결정 트리 뷰어는 의사 결정 트리 마이닝 모델 탐색 시 사용할 다음 탭을 제공 합니다.

의사 결정 트리

종속성 네트워크

의사 결정 트리 탭

의사 결정 트리 탭에서 데이터 집합의 모든 예측 가능한 특성에 대 한 의사 결정 트리를 볼 수 있습니다.

이 경우 모델 트리가 하나만 표시 되므로 하나의 열만 Bike Buyer를 예측 합니다. 많은 트리가 있는 경우 사용할 수 있습니다는 트리 상자에 다른 트리를 선택 합니다.

볼 때의 TM_Decision_Tree 모델 의사 결정 트리 뷰어에서 차트의 왼쪽된 끝에서 가장 중요 한 특성을 확인할 수 있습니다. "가장 중요 한" 이러한 특성에는 결과에 가장 큰 영향을 의미 합니다. 에 특성은 추가 (차트의 오른쪽)에 트리의 적은 영향을 미칩니다.

이 예제에서는 시대는 자전거 구매 예측에 가장 중요 한 단일 요소. 모델 나이별로 고객을 그룹화 한 다음 각 나가 그룹에 대 한 다음 더 중요 한 특성을 보여 줍니다. 예를 들어 34 ~ 40 오래 된 고객의 그룹을 소유한 자동차 수가 나가 다음 가장 강력한 예측 요인은 합니다.

의사 결정 트리 탭에서 모델을 탐색하려면

  1. 선택 된 마이닝 모델 뷰어 탭에서 데이터 마이닝 디자이너합니다.

    기본적으로,이 경우 구조에 추가 된 첫 번째 모델 디자이너가 열립니다 TM_Decision_Tree합니다.

  2. 돋보기 단추를 사용하여 트리 표시 크기를 조정합니다.

    기본적으로 Microsoft 트리 뷰어에는 트리의 처음 세 수준만 표시됩니다. 트리의 수준이 셋 미만이면 뷰어에 기존 수준만 표시됩니다. 사용 하 여 더 많은 수준을 볼 수 있습니다는 수준 표시 슬라이더 또는 기본 확장 목록입니다.

  3. 슬라이드 수준 표시 네 번째 모음에 있습니다.

  4. 배경 값을 1로 변경합니다.

    변경 하 여는 배경 을 설정 하에 대상 값의 각 노드에 사례 수가 빠르게 확인할 수 있습니다 1 [Bike buyer]. 이 특정 시나리오에서 각 사례는 고객을 나타냅니다. 값 1 고객; 자전거를 구매한 적 나타냅니다 값 0 고객이 자전거를 구입 하지에 나타냅니다. 노드의 음영이 짙을수록 노드에 대상 값을 가진 사례의 비율이 높습니다.

  5. 레이블이 지정 된 노드 위에 커서를 두고 모든합니다. 도구 설명에 다음 정보가 표시됩니다.

    • 총 사례 수

    • 자전거를 구매하지 않은 구매자 사례 수

    • 자전거 구매자 사례 수

    • [Bike Buyer]에 대해 누락된 값이 있는 사례 수

    또는 커서를 트리의 노드에 두면 상위 노드에서 해당 노드에 도달하는 데 필요한 조건이 표시됩니다. 이 정보를 볼 수는 마이닝 범례합니다.

  6. 에 대 한 노드를 클릭 **Age > = 34 and 41 <**합니다. 히스토그램이 노드에 가는 가로 막대로 표시되며, 이 연령 범위에서 이전에 자전거를 구매한 고객(분홍색)과 구매하지 않은 고객(파란색)의 분포를 나타냅니다. 뷰어를 통해 한 대의 자동차를 보유하거나 보유하지 않은 34 ~ 40대의 고객이 자전거를 구매할 가능성이 있음을 알 수 있습니다. 이 단계를 더욱 발전시킨 결과 고객의 실제 나이가 38 ~ 40인 경우 자전거를 구매할 가능성이 늘어난다는 것을 알았습니다.

구조와 모델을 만들 때 드릴스루를 사용했기 때문에 마이닝 모델에 포함되지 않은 열을 비롯하여(예: emailAddress, FirstName) 모델 사례 및 마이닝 구조의 세부 정보를 검색할 수 있습니다.

자세한 내용은 드릴스루 쿼리(데이터 마이닝)를 참조하세요.

사례 데이터를 드릴스루하려면

  1. 노드를 마우스 오른쪽 단추로 클릭 하 고 선택 드릴스루 다음 모델 열만합니다.

    각 학습 사례에 대한 세부 사항은 스프레드시트 형식으로 표시됩니다. 이러한 세부 사항은 마이닝 구조를 작성할 때 사례 테이블로 선택한 vTargetMail 뷰에서 가져옵니다.

  2. 노드를 마우스 오른쪽 단추로 클릭 하 고 선택 드릴스루 다음 모델 및 구조 열합니다.

    끝에 구조 열이 추가된 같은 스프레드시트가 표시됩니다.

맨 위로 이동

종속성 네트워크 탭

종속성 네트워크 탭은 마이닝 모델의 예측 기능에 기여 하는 특성 간의 관계를 표시 합니다. 종속성 네트워크 뷰어에서 Age 및 Region이 자전거 구매 예측에 중요한 요소임을 나타냅니다.

종속성 네트워크 탭에서 모델을 탐색하려면
  1. 클릭 된 Bike Buyer 노드를 해당 종속성을 식별 합니다.

    종속성 네트워크의 가운데 노드인 Bike Buyer, 마이닝 모델에서 예측 가능한 특성을 나타냅니다. 그래프에는 예측 가능한 특성에 영향을 줄 수는 연결 된 노드가 강조 표시 합니다.

  2. 조정는 모든 링크 슬라이더를 가장 큰 영향을 주는 특성을 식별 합니다.

    슬라이더를 아래로 끌면 [Bike Buyer] 열에 적은 영향만 포함 된 특성의 그래프에서 제거 됩니다. 슬라이더를 조정 하 여 나 이와 지역이 자전거 구매자를 예측에 가장 큰 요인 지 확인할 수 있습니다.

관련 작업

다른 종류의 모델을 사용 하 여 데이터를 탐색 하려면 다음이 항목을 참조 하십시오.

단원의 다음 태스크

클러스터링 모델 ( 탐색 기본 데이터 마이닝 자습서 및 #41;

관련 항목:

마이닝 모델 뷰어 태스크 및 방법
의사 결정 트리 탭(마이닝 모델 뷰어)
종속성 네트워크 탭(마이닝 모델 뷰어)
Microsoft 트리 뷰어를 사용하여 모델 찾아보기