시퀀스 클러스터링 모델 탐색(중급 데이터 마이닝 자습서)

 

적용 대상: SQL Server 2016 Preview

작성 한 했으므로 Sequence Clustering with Region 모델을 탐색할 수 있습니다를 사용 하 여는 Microsoft 에서 시퀀스 클러스터링 뷰어는 마이닝 모델 뷰어 데이터 마이닝 디자이너의 탭 합니다. Microsoft 시퀀스 클러스터 뷰어에: 클러스터 다이어그램, 클러스터 프로필, 클러스터 특징, ClusterDiscrimination, 및 상태 전환을합니다. 이 뷰어를 사용 하는 방법에 대 한 자세한 내용은 참조 Microsoft 시퀀스 클러스터 뷰어를 사용 하 여 모델 찾아보기합니다.

  • 클러스터 다이어그램 탭

  • 클러스터 프로필 탭

  • 클러스터 특징 탭

  • 클러스터 판별 탭

  • 상태 전환 탭

  • 일반 콘텐츠 뷰

클러스터 다이어그램 탭

클러스터 다이어그램 탭 데이터베이스에서 알고리즘이 검색 하는 클러스터를 그래픽으로 표시 합니다. 다이어그램의 레이아웃은 비슷한 클러스터가 서로 가깝게 그룹화되는 클러스터 관계를 나타냅니다. 기본적으로 각 노드의 음영은 클러스터에 있는 모든 사례의 밀도를 나타냅니다. 노드의 음영이 짙을수록 노드에 있는 사례 개수가 많습니다. 노드 음영이 각 클러스터 내에서 특성과 상태에 대한 지원을 나타내도록 음영의 의미를 변경할 수 있습니다.

식별 및 대상 클러스터와의 작업이 쉽도록 클러스터의 이름을 바꿀 수도 있습니다. 이 자습서에서는 Pacific 지역에서 고객 비율이 가장 높은 클러스터와 전체적으로 가장 많은 사례를 포함하는 클러스터의 이름을 바꿉니다.

참고


데이터 및 모델 매개 변수에 따라 모델을 다시 처리할 때 특정 클러스터에 할당된 사례가 변경될 수 있습니다. 또한 클러스터의 이름을 바꿀 경우 마이닝 모델을 다시 처리하면 이름이 손실됩니다.

클러스터를 강조 표시하는 데 사용되는 특성을 변경하려면

  1. 음영 변수 목록에서 모델합니다.

  2. 선택 Cycling Cap상태 목록입니다.

    다이어그램이 업데이트되어 각 클러스터에서 선택된 제품의 집중 정보가 표시됩니다. 음영이 가장 짙은 클러스터에는 가장 높은 밀도의 자전거 모자가 포함되어 있습니다. 모든 입력 열의 임의 상태를 사용하도록 음영 변수를 변경할 수 있습니다.

  3. 음영 변수 목록에서 채우기합니다.

    음영 변수를 모집단으로 변경하면 다이어그램이 업데이트되어 클러스터가 크기별로 비교됩니다. 음영이 가장 짙은 클러스터에는 다른 클러스터보다 많은 사례가 포함되어 있습니다.

모델 노드의 이름을 바꾸려면

  1. 변경 음영 변수지역, 설정 및 상태태평양합니다.

  2. 그래프에서 가장 짙은 노드를 강조 표시합니다.

  3. 이 클러스터를 마우스 오른쪽 단추로 클릭 하 고 선택 클러스터 이름 바꾸기.

  4. 이름을 입력Pacific Cluster 합니다.

  5. 값을 변경 음영 변수채우기합니다.

  6. 업데이트된 그래프에서 가장 짙은 클러스터, 즉 가장 큰 클러스터를 찾습니다. 음영으로 가장 큰 클러스터를 찾을 수 없는 경우 각 클러스터 위에 마우스를 놓으면 나타나는 도구 설명을 확인하여 사례가 가장 많이 포함된 클러스터를 선택합니다.

  7. 이 클러스터를 마우스 오른쪽 단추로 클릭 하 고 선택 클러스터 이름 바꾸기합니다. 새 이름을 입력 Largest Cluster합니다.

클러스터를 나타내는 노드에서 드릴스루하면 각 클러스터에 있는 사례에 대한 세부 정보를 볼 수 있습니다. 분석 결과에 따라 고객에게 전자 메일을 보내는 등의 조치를 취하려는 경우 이렇게 하면 유용합니다. 구조에 포함했지만 모델에 사용하지는 않은 사례의 기타 특성(예: Region 및 Income Group)을 찾아볼 수도 있습니다. 기본 사례를 마이닝 모델에서 드릴스루 하는 방법에 대 한 자세한 내용은 참조 드릴스루 쿼리 ( 데이터 마이닝 )합니다.

클러스터 다이어그램에서 세부 정보로 드릴스루하려면

  1. 마우스 오른쪽 단추로 클릭 Pacific Cluster, 선택, 드릴스루, 를 선택한 다음 모델 및 구조 열합니다.

    드릴스루 대화 상자가 열립니다. 열 모델에 사용 되지 않으므로 없지만 쿼리에 사용할 수 있는 접두사가 붙은 구조합니다.

    이 클러스터에 포함된 고객이 대부분 Pacific 지역 고객이고 일부만 다른 지역 고객임을 확인할 수 있습니다.

  2. 중첩 열 v Assoc Seq Line Items의 더하기 기호를 클릭하여 특정 고객 주문에 포함된 항목의 시퀀스를 확인합니다.

  3. 닫기는 드릴스루 대화 상자입니다.

    참고


    그러나 재생 단추를 사용 하면 데이터를 다시 쿼리, 다시 쿼리 바뀌지 않습니다 표시 되는 데이터 모델 업데이트 되지 않으면 동적으로 백그라운드에서 다른 프로세스에 의해 합니다.

맨 위로 이동

클러스터 프로필 탭

클러스터 프로필 탭에는 각 클러스터에 있는 시퀀스가 표시 됩니다. 클러스터의 오른쪽에 개별 열에 나열 되는 상태 열입니다.

뷰어에서 모델 는 클러스터에 있는 항목의 전체 분포를 설명 하는 행 및 Model.samples 행은 항목의 시퀀스를 포함 합니다. 각 셀에 있는 색 시퀀스의 각 줄은 Model.samples 행은 클러스터에서 임의로 선택 된 사용자의 동작을 나타냅니다.

개별 시퀀스 히스토그램의 각 색은 제품 모델을 나타냅니다. 마이닝 범례는 색 구분 및 제품 모델 이름을 모두 사용하여 제품의 시퀀스를 보여 줍니다. 모델에 다른 클러스터링용 열(예: Region 또는 Income Group)을 추가한 경우 뷰어에는 각 클러스터 내에서 이러한 값의 분포를 보여 주는 추가 행이 각 열에 대해 포함됩니다.

클러스터에서 가장 일반적인 시퀀스를 보려면

  1. 마우스 오른쪽 단추로 클릭는 모델 클러스터에 대 한 열의 행 Largest Cluster, 선택한 범례 표시합니다.

    열 시퀀스에 있는 항목의 빈도 나타내는 음영 처리 된 막대를 포함 합니다. 각 항목은 서로 다른 색으로 표시됩니다. 의미 열 각 색에 대 한 제품 모델 이름을 나열 합니다. 배포 열 시퀀스에서이 항목이 포함 된 사례의 비율을 알려 줍니다.

  2. 닫기는 마이닝 범례합니다.

  3. 마우스 오른쪽 단추로 클릭는 Model.samples 제목, 열의 행 채우기 선택한 범례 표시합니다.

  4. 전체 모델에서 시퀀스 목록을 훑어 봅니다합니다.

    마이닝 범례에는 가장 일반적인 시퀀스가 먼저 나열되므로 Mountain Tire Tube가 많은 시퀀스에서 첫 번째 항목임을 확인할 수 있습니다. 이는 고객이 시장 바구니에 Mountain Tire Tube를 먼저 담을 가능성이 매우 높음을 의미합니다.

클러스터 뷰어에서 사례로 드릴스루하려면

  1. 에 대 한 행을 찾을 때까지 특성 창에서 아래로 스크롤하여는 지역 특성입니다.

    행에 대 한 추가 히스토그램 하나는 모델의 각 클러스터에 대 한 히스토그램 포함 채우기, 모델에 사용 되는 경우의 전체 집합을 의미 합니다. 히스토그램은 다양한 색이 포함된 막대입니다. 여기서 각 색은 특성을 나타내며 이러한 특성에 대해 색이 지정된 부분의 크기는 해당 특성이 지정된 사례의 비율을 나타냅니다.

  2. 이름을 바꾼 클러스터에 대 한 히스토그램을 비교 Pacific ClusterLargest Cluster합니다. 각 클러스터는 서로 다른 열에 나타납니다.

    둘 모두 단색처럼 보이지만 사실은 다른 색입니다.

  3. 지역 행에서 대 한 색이 지정 된 히스토그램 위에 마우스를 놓으면 Largest Cluster합니다.

    도구 설명에 각 지역의 실제 사례 비율을 보여 주는 값이 표시됩니다.

  4. 색이 지정 된 히스토그램을 마우스 오른쪽 단추로 클릭는 지역Pacific Cluster, 선택, 드릴스루, 선택한 다음 모델 열만합니다.

  5. 스크롤 막대를 이동하여 이 클러스터의 모든 고객을 검토합니다.

    다시 세부 정보로 드릴스루하면 클러스터에 포함된 주문이 대부분 Pacific 지역 주문이지만 North America 및 Europe 지역 주문도 일부 있음을 확인할 수 있습니다.

  6. 닫기는 드릴스루 대화 상자입니다.

맨 위로 이동

클러스터 특징 탭

클러스터 특징 탭에는 선택한 클러스터에 대 한 특성 값의 중요도 시각적으로 나타내는 막대를 표시 하 여 클러스터의 상태 전환을 요약 되어 있습니다. 변수 열을 알려 모델 선택 된 클러스터 또는 모집단에 대 한 중요 한 것으로 찾은: 특정 값 또는 라는 값 사이의 관계 전환합니다. 값 또는 전환에 대 한 자세한 정보를 제공 하는 열 및 확률 열이 특성 또는 전환의 가중치를 시각적으로 나타냅니다.

클러스터에 대해 중요한 특성을 보려면

  1. 클러스터 드롭다운 목록에서 선택 Pacific Cluster합니다.

    이름을 바꾼 클러스터의 특성을 보여 주는 목록이 업데이트 Pacific Cluster합니다. 이 클러스터에는 가장 중요 한 특징은 지역합니다.

  2. 에 대 한 행에 있는 음영 처리 된 막대 위에 마우스를 놓으면 지역합니다.

    값이 Pacific일 확률이 매우 높습니다. 이러한 값을 해석 하는 방법에 대 한 자세한 내용은 참조 Microsoft 시퀀스 클러스터링 알고리즘 기술 참조합니다.

  3. 클러스터의 특징 목록을 살펴보아 첫 번째 전환 행을 찾습니다.

  4. 전환 이라는 텍스트를 포함 하는 전환 행에는 변수 열 및의 순차적 특성 값을 조합한은 열입니다. 시퀀스는 시작 지점 및 누락 값도 포함할 수 있습니다.

    예를 들어 전환 값이 [시작] -> Road Tire Tube인 경우 이 클러스터의 고객이 시장 바구니에 Road Tire Tube를 먼저 담는 경우가 많음을 의미합니다. 이는 해당 제품이 고객이 먼저 찾는 인기 항목임을 나타내거나 단지 구매처에서 찾기 쉬운 항목임을 나타낼 수 있습니다.

  5. 같지 않은 첫 번째 전환 될 때까지 목록 스크롤하여 [시작] 또는 누락 에 있습니다.

    예를 들어, 전환을 찾은 Touring Tire, Touring Tire Tube합니다. 이 클러스터의 고객이 해당 항목을 이 순서대로 함께 구매하는 경우가 많음을 의미합니다.

  6. 이 전환에 대해 음영 처리된 막대 위에 마우스를 놓습니다.

    이 전환의 확률이 백분율로 표시됩니다.

  7. 클러스터 드롭다운 목록에서 선택 **채우기 (모두)**합니다.

    특성 목록이 업데이트되어 모델을 만드는 데 사용된 모든 주문의 특징이 표시됩니다. 이 마이닝 모델에서 클러스터를 구별 하는 것에 대 한 가장 중요 한 특징은 지역, 값이 북미 지역합니다.

이러한 태스크를 검토하면 두 가지 사실을 알게 됩니다. 첫 번째는 의미 있는 조합 수를 얻으려면 많은 데이터가 필요하다는 것입니다. 예를 들어 확률이 가장 높은 시퀀스를 포함할 가능성이 높습니다는 [시작] 또는 누락 상태입니다.

두 번째는에 대 한 특성에는 강력한 클러스터링 영향 인지 지역, 시퀀스의 그룹을 보려면 더 어렵게 만듭니다. 이에 따라 시퀀스만 사용하며 지역 또는 수입에 대한 열을 포함하지 않는 다른 모델을 만들기로 결정합니다.

맨 위로 이동

클러스터 판별 탭

클러스터 판별 탭을 사용 하면 다른 클러스터에서 특정 클러스터를 구별 하는 특성을 확인 하려면 두 클러스터를 비교 합니다. 탭에 4 개의 열: 변수, , 클러스터 1, 및 Cluster 2합니다. 모든 클러스터로 사용할 수 있습니다 클러스터 1Cluster 2합니다.

변수 열은 열 이름 또는 열 이름 및 단어의 조합 수 있는 특성의 이름을 나타냅니다 전환합니다. 열은 특성 또는 전환의 정확한 값을 표시 합니다. 에 대 한 열에 있는 음영 처리 된 막대 클러스터 1Cluster 2 비교 하는 클러스터에 대 한 특성의 강도 나타냅니다. 막대가 길수록 클러스터가 해당 특성이 지정된 사례를 포함할 가능성이 높아집니다.

클러스터 판별 탭을 사용하여 두 클러스터를 비교하려면

  1. 클러스터 판별 탭에 대 한 클러스터 1, 선택, Pacific Cluster합니다.

    기본적으로 선택 Cluster 2 변경 보수의 태평양 * * * 클러스터합니다.

    구별 하는 가장 중요 한 특성 Pacific Cluster 다른 모든 경우에서의 영역입니다. Region은 클러스터링에 대해 영향이 큰 특성이어서 다른 특성을 모호하게 만듭니다. 이러한 영향을 방지하려면 보다 작은 여러 클러스터를 서로 비교해 보십시오. 이렇게 하면 특성 목록이 변경되어 모델 간에 더 많은 전환이 포함될 수 있습니다.

  2. 전환 열을 찾아 음영 처리된 막대 위에 마우스를 놓습니다.

    항목에는 열 상태와 전환이 모두 포함 될 수 있습니다. 각 항목의 음영은 판별 점수를 나타냅니다. 다양 한 점수의 의미에 대 한 자세한 참조 마이닝 모델 콘텐츠 #40; 및 시퀀스 클러스터링 모델에 대 한 Analysis Services-데이터 마이닝 및 #41;합니다.

맨 위로 이동

상태 전환 탭

상태 전환을 탭에서 클러스터를 선택 하 고 해당 상태 전환을 통해 찾아볼 수 있습니다. 선택 하는 경우 채우기 (모두) 다이어그램 클러스터 드롭 다운 목록에서 전체 마이닝 모델에 대 한 상태 분포를 보여 줍니다.

그래프의 각 노드는 분석하려는 시퀀스의 상태 또는 가능한 값을 나타냅니다. 노드의 배경색은 해당 상태의 빈도를 나타냅니다. 일부 상태를 연결하는 선은 상태 간 전환을 나타냅니다. 슬라이더를 위나 아래로 이동하여 전환에 대한 확률 임계값을 변경할 수 있습니다. 일부 노드와 연결된 숫자는 해당 상태의 확률을 나타냅니다.

상태 전환 탭에서 관계를 탐색하려면

  1. 상태 전환을 마이닝 모델 뷰어 탭 Pacific Cluster 클러스터 목록에서. 확인 된 가장자리 레이블 표시 옵션을 선택 합니다.

    그래프가 업데이트되어 이 클러스터에서 가장 일반적인 전환이 표시됩니다.

  2. 선으로 다른 노드에 연결된 임의의 노드를 클릭합니다.

    그래프가 업데이트되고 관련 노드가 강조 표시됩니다. 선 옆의 숫자 값은 해당 전환의 확률을 나타냅니다.

  3. 슬라이더를 최대 발생 모든 링크, 그래프에 포함 된 전환 수를 늘려야 합니다.

  4. 선택 채우기 (모두) 에서 클러스터합니다.

    다른 클러스터를 로드하면 그래프가 기본 표시 설정으로 다시 설정되어 슬라이더 컨트롤이 가운데 위치로 다시 설정됩니다.

  5. 있어야 하 고 그래프에서 가장 짙은 노드를 클릭 sport-100합니다.

    이 제품을 다른 제품에 연결하는 선이 없습니다.

  6. 슬라이더를 한 단계 올려 그래프에 포함되는 전환 수를 늘립니다. 모든 기능을 이동 하지 않도록 모든 링크 아직 있습니다.

    그래프가 업데이트되어 여러 전환이 더 추가되지만 Sport-100 모델을 포함하는 전환은 아직 없습니다.

  7. 슬라이더는 모든 기능을 제어 하는 이동 모든 링크합니다. Sport-100 노드가 선택되어 있지 않으면 선택합니다.

    그래프가 업데이트되어 Sport-100 제품을 포함한 많은 전환이 표시됩니다. 연결선에 있는 화살표의 방향을 통해 Sport-100 항목이 해당 쌍에서 첫 번째 항목으로 선택되었는지, 아니면 두 번째 항목으로 선택되었는지를 알 수 있습니다.

  8. Touring Tire에 대한 노드를 클릭하면 슬라이더 컨트롤이 다시 가운데 위치로 내려갑니다.

    처음에는 Touring Tire를 다른 제품에 연결하는 전환 선이 많지만 확률 임계값을 올리면 가능성이 낮은 전환이 그래프에서 제거되어 Touring Tire > Touring Tire Tube 전환만 남게 됩니다. 이 전환은 한 고객이 Touring Tire를 시장 바구니에 담을 경우 해당 고객이 다음에 Touring Tire Tube를 시장 바구니에 담을 확률이 매우 높음을 의미합니다.

맨 위로 이동

일반 콘텐츠 트리 뷰어

이 뷰어는 알고리즘이나 모델 유형에 관계없이 모든 모델에 사용할 수 있습니다. MicrosoftGeneric 콘텐츠 트리 뷰어 에서 사용할 수는 뷰어 드롭 다운 목록입니다.

콘텐츠 트리는 마이닝 모델을 일련의 노드로 표현한 것입니다. 여기서 각 노드는 학습 데이터에 대해 얻은 지식을 나타냅니다. 노드에는 패턴, 일련의 규칙, 클러스터 또는 일부 특성을 공유하는 날짜 범위의 정의가 포함될 수 있습니다. 노드의 콘텐츠는 알고리즘 및 예측 가능한 특성에 따라 달라지지만 콘텐츠의 일반적인 표현은 동일합니다.

각 노드를 확장하여 세부 수준을 높이고 노드의 콘텐츠를 클립보드로 복사할 수 있습니다. 자세한 내용은 Microsoft 일반 콘텐츠 트리 뷰어를 사용하여 모델 찾아보기를 참조하세요.

일반 콘텐츠 트리 뷰어를 사용하여 시퀀스 클러스터링 모델에 대한 세부 정보를 보려면

  1. 마이닝 모델 뷰어 탭을 클릭 하는 뷰어 를 나열 하 고 선택 Microsoft 일반 콘텐츠 트리 뷰어합니다.

  2. 노드 캡션 창에서 클릭 **Pacific Cluster (1)**합니다.

    이 노드의 이름에는 사용자가 클러스터에 할당한 이름과 기본 노드 ID가 모두 포함됩니다. 노드 ID를 사용하여 모델의 추가 세부 정보로 드릴다운할 수 있습니다.

  3. 명명 된 첫 번째 자식 노드를 확장 하 고 시퀀스 클러스터 1에 대 한 수준합니다.

    클러스터에 대한 시퀀스 수준 노드에는 해당 클러스터에 포함된 상태 및 전환에 대한 세부 정보가 포함됩니다. NODE_DISTRIBUTION 열에서 사용 가능한 이러한 세부 정보를 통해 각 클러스터 또는 전체 모델에 대한 시퀀스 및 상태를 탐색할 수 있습니다.

  4. HTML 뷰어 창에서 계속 노드를 확장하여 세부 정보를 봅니다.

마이닝 모델 콘텐츠 및 뷰어에서 세부 정보를 사용 하는 방법에 대 한 자세한 내용은 참조 #40; 및 시퀀스 클러스터링 모델에 대 한 마이닝 모델 콘텐츠 Analysis Services-데이터 마이닝 및 #41;합니다.

맨 위로 이동

단원의 다음 태스크

관련된 시퀀스 클러스터링 모델에는 ( 중급 데이터 마이닝 자습서 ) 만들기

관련 항목:

Microsoft 시퀀스 클러스터링 알고리즘
시퀀스 클러스터링 모델 쿼리 예제