發行項
04/02/2012

分隔方法 (資料採礦)

有些用於在 SQL Server Analysis Services 中建立資料採礦模型的演算法需要特定內容類型，才能正確運作。例如，Microsoft 貝氏機率分類演算法無法使用連續資料行做為輸入，也無法預測連續值。另外，有些資料行可能包含太多值，使得演算法不容易識別資料中的模式來建立模型。

在這些情況下，您可以分隔資料行中的資料，以便使用演算法來產生採礦模型。「離散化」 (Discretization) 是將值放入值區內的程序，以產生有限數目的可能狀態。值區本身會被視為已排序且會分隔值。您可以分隔數值和字串資料行。

您有許多方法可用於分隔資料。如果資料採礦方案使用關聯式資料，則您可以設定 DiscretizationBucketCount 屬性的値來控制用於分組資料的値區數。預設的値區數為 5。

如果資料採礦方案使用於自線上分析處理 (Online Analytical Processing，OLAP) Cube 的資料，則資料採礦演算法會使用下列方程式來自動計算要產生的値區數，其中 n 是資料行中相異資料值的數目：

Number of Buckets = sqrt(n)

如果您不想要 Analysis Services 計算值區數目，則可使用 DiscretizationBucketCount 屬性來手動指定值區數目。

下表描述您可用於分隔 Analysis Services 中之資料的方法。

分隔方法	描述
AUTOMATIC	Analysis Services 會決定要使用的分隔方法。
CLUSTERS	演算法會將資料分成群組，流程是先取樣定型資料、初始化為一些隨機點，然後使用 Expectation Maximization (EM) 群集方法來執行 Microsoft 群集演算法的數次反覆運算。CLUSTERS 方法很有用，因為它在任何分佈曲線上都可以運作。不過，它比其他分隔方法需要更多的處理時間。這個方法只能用於數值資料行。
EQUAL_AREAS	演算法會將資料分成數個值的數目相同之群組。這個方法最適合標準分佈曲線，但如果分佈中有大量的值集中在連續資料的群組中，則效果不佳。例如，如果有一半項目的成本是 0，則有一半的資料將會出現在曲線的單一點之下。在這樣的分佈中，這個方法會將資料再細分，以建立成多個區域的相等分隔。這樣會產生不精確的資料呈現。

AUTOMATIC

Analysis Services 會決定要使用的分隔方法。

CLUSTERS

演算法會將資料分成群組，流程是先取樣定型資料、初始化為一些隨機點，然後使用 Expectation Maximization (EM) 群集方法來執行 Microsoft 群集演算法的數次反覆運算。CLUSTERS 方法很有用，因為它在任何分佈曲線上都可以運作。不過，它比其他分隔方法需要更多的處理時間。

這個方法只能用於數值資料行。

EQUAL_AREAS

演算法會將資料分成數個值的數目相同之群組。這個方法最適合標準分佈曲線，但如果分佈中有大量的值集中在連續資料的群組中，則效果不佳。例如，如果有一半項目的成本是 0，則有一半的資料將會出現在曲線的單一點之下。在這樣的分佈中，這個方法會將資料再細分，以建立成多個區域的相等分隔。這樣會產生不精確的資料呈現。

備註

您可以使用 EQUAL_AREAS 方法來分隔字串。
CLUSTERS 方法使用 1000 筆隨機取樣記錄來離散化資料。如果您不想要演算法取樣資料，請使用 EQUAL_AREAS 方法。
類神經網路採礦模型提供了一個範例，為您示範如何自訂分隔。如需詳細資訊，請參閱＜第五課：建立類神經網路和羅吉斯迴歸模型 (中繼資料採礦教學課程)＞。

請參閱

Share via

分隔方法 (資料採礦)

備註

請參閱

參考

概念

其他資源

其他資源