Share via


瀏覽群集模型 (基本資料採礦教學課程)

Microsoft 群集演算法會將案例分成包含類似特性的群集。這些群集對於瀏覽資料、識別資料的異常及建立預測很有幫助。

Microsoft 群集檢視器會提供下列索引標籤,用來瀏覽群集採礦模型:

群集圖表

群集設定檔

群集特性

群集辨識

下列章節描述如何選取適當的檢視器及瀏覽其他採礦模型。

[群集圖表] 索引標籤

[群集圖表] 索引標籤會顯示採礦模型中的所有群集。群集之間的線代表「相似程度」,並根據群集的相似程度加上陰影。每一個群集的實際色彩各代表變數的頻率和群集中的狀態。

若要在群集圖表索引標籤中瀏覽模型

  1. 您可以使用 [採礦模型檢視器] 索引標籤頂端的 [採礦模型] 清單,切換到 TM_Clustering 模型。

  2. [檢視器] 清單中,選取 [Microsoft 群集檢視器]

  3. [陰影變數] 方塊中,選取 [Bike Buyer]

    預設變數是 Population,不過您可以將它變更成模型中的任何屬性,以探索哪些群集包含內有您想要之屬性的成員。

  4. [狀態] 方塊中選取 1,可探索已購買自行車的案例。

    [密度] 圖例會描述 [陰影變數] 和 [狀態] 中所選取之屬性狀態配對的密度。此範例告訴我們,具有最深陰影的群集將具有最高百分比的自行車買主。

  5. 將滑鼠暫停在最深陰影的群集上方。

    工具提示會顯示具有 Bike Buyer = 1 屬性的案例百分比。

  6. 選取具有最高密度的群集,並以滑鼠右鍵按一下該群集,然後選取 [重新命名群集],再輸入 Bike Buyers High,以便日後識別。按一下 [確定]。

  7. 尋找具有最淺陰影 (和最低密度) 的群集。以滑鼠右鍵按一下該群集,再選取 [重新命名群集],然後輸入 Bike Buyers Low。按一下 [確定]。

  8. 按一下 Bike Buyers High 群集,並將它拖曳到窗格的某個區域上,這個區域可讓您清楚檢視它與其他群集的連接。

    當您選取群集時,將此群集連接至其他群集的線條會反白顯示,如此您就可以輕鬆看見這個群集的所有關聯性。當未選取此群集時,您可以透過線條的明暗度來區分圖表中所有群集之間關聯性的強烈程度。如果陰影很淡或不存在,則表示群集不太相似。

  9. 利用網路左側的滑動軸,可以篩選掉較弱的連結,並找出關聯性最近的群集。Adventure Works Cycles 行銷部門在判斷傳遞目標郵件的最佳方法時,可能會想要將類似的群集結合在一起。

回到頁首

[群集設定檔] 索引標籤

[群集設定檔] 索引標籤會提供 TM_Clustering 模型的整體檢視。[群集設定檔] 索引標籤會針對模型中的每個群集包含一個資料行。第一個資料行列出至少與一個群集相關聯的變數。檢視器的其餘部份含有每一個群集的變數,其狀態的分佈情形。分隔變數的分佈情形顯示成為著色圖列,其中最大數目的圖列顯示在 [長條圖列] 清單中。連續變數是以鑽石圖顯示,代表在每一個群集中的平均與標準差。

若要在群集設定檔索引標籤中瀏覽模型

  1. [長條圖列] 設定為 5

    在我們的模型中,5 是任何一個變數的最大狀態數。

  2. 如果 [採礦圖例] 阻礙了 [屬性設定檔] 的顯示,請將它移開。

  3. 選取 Bike Buyers High 資料行,並將它拖曳到 [Population] 資料行的右邊。

  4. 選取 Bike Buyers Low 資料行,並將它拖曳到 Bike Buyers High 資料行的右邊。

  5. 按一下 Bike Buyers High 資料行。

    [變數] 資料行會依照該群集的重要性排序。捲動資料行,並檢閱 Bike Buyer High 群集的特性。例如,它們可能會有比較短的通勤距離。

  6. 按兩下 Bike Buyers High 資料行中的 [Age] 資料格。

    [採礦圖例] 會顯示比較詳細的檢視,而且您可以看到這些客戶的年齡範圍及平均年齡。

  7. 以滑鼠右鍵按一下 Bike Buyers Low 資料行,並選取 [隱藏資料行]

回到頁首

[群集特性] 索引標籤

您可以使用 [群集特性] 索引標籤,更詳細地檢查組成群集的特性。您可以一次瀏覽一個群集,而不是比較所有群集的特性 (如同 [群集設定檔] 索引標籤上的處理方式)。例如,如果您從 [群集] 清單中選取 Bike Buyers High,您可以看到這個群集中客戶的特性。雖然這個顯示與 [群集設定檔] 檢視器不同,但是找到的結果是相同的。

[!附註]

除非您為 [holdoutseed] 設定了初始值,否則每次當您處理模型時,結果都會不同。如需詳細資訊,請參閱<HoldoutSeed 元素>。

回到頁首

[群集辨識] 索引標籤

您可以使用 [群集辨識] 索引標籤來探索區分群集的特性。當您選取兩個群集 (一個來自 [群集 1] 清單而另一個來自 [群集 2] 清單) 之後,檢視器會計算群集之間的差異,並且顯示最能區分群集的屬性清單。

若要在群集辨識索引標籤中瀏覽模型

  1. [群集 1] 方塊中,選取 Bike Buyers High。

  2. [群集 2] 方塊中,選取 Bike Buyers Low。

  3. 按一下 [變數],即可依照字母順序排序。

    在 Bike Buyers Low 與 Bike Buyers High 群集中,客戶間某些更重大的差異包括年齡、是否擁有汽車、小孩人數及地區。