發行項
04/02/2012

Microsoft 貝氏機率分類演算法

Microsoft 貝氏機率分類演算法是 Microsoft SQL Server Analysis Services 所提供用於預測模型的分類演算法。貝氏 (Naive Bayes) 這個名稱源自此演算法使用貝氏定理但卻沒有考量可能存在的相依性，因此其假設被視為「Naive」(亦即天真之意)。

此演算法比其他 Microsoft 演算法更少計算，因此對於快速產生採礦模型來探索輸入資料行和可預測資料行之間的關聯性很有用。您可以使用此演算法來執行資料的初始瀏覽，然後您可以套用其結果，以其他更多計算和更精確的演算法來建立其他採礦模型。

範例

做為一項正在進行的促銷策略，Adventure Works Cycle 公司的行銷部門決定郵寄廣告傳單來鎖定目標潛在客戶。為了減少成本，他們想要將廣告傳單只寄給那些有可能回應的客戶。公司會將有關人口統計資料和舊郵件的回應等資訊儲存在資料庫中。他們想要使用此資料來了解人口統計資料 (例如年齡和地點) 如何協助預測促銷的回應，藉由將潛在客戶與具有類似特性而且過去曾向公司購買產品的客戶做比較。尤其，他們想要看看那些有購買腳踏車和沒有購買腳踏車的客戶之間的差異。

使用 Microsoft 貝氏機率分類演算法，行銷部門可以快速預測特定客戶設定檔的結果，因此可以判斷哪些客戶最有可能對廣告傳單做出回應。使用 Business Intelligence Development Studio 中的 Microsoft 貝氏機率分類檢視器，他們還可以利用視覺化方式來調查哪些輸入資料行促成廣告傳單的正面回應。

演算法的運作方式

在提供了可預測資料行的每一個可能狀態之後，Microsoft 貝氏機率分類演算法可計算出每一個輸入資料行的每一個狀態的機率。您可以使用 Business Intelligence Development Studio 中的 Microsoft 貝氏機率分類檢視器，來查看演算法如何散發狀態的視覺表示法，如下列圖形所示。

狀態的貝氏機率分類分佈

在提供了可預測資料行的每一個狀態之後，Microsoft 貝氏機率分類檢視器可列出資料集內的每一個輸入資料行，並顯示如何散發每一個資料行的狀態。您可以使用此檢視來識別在區分可預測資料行的狀態時很重要的輸入資料行。例如，在此處所顯示的 Commute Distance 資料行中，如果客戶與工作地點的通勤距離是 1 到 2 英里，則其購買腳踏車的機率是 0.387，而不購買腳踏車的機率是 0.287。在此範例中，演算法會使用從客戶特性中衍生的數值資訊 (例如通勤距離)，來預測客戶是否會購買腳踏車。如需有關使用 Microsoft 貝氏機率分類檢視器的詳細資訊，請參閱＜以 Microsoft 貝氏機率分類檢視器檢視採礦模型＞。

貝氏機率分類模型所需的資料

當您準備資料以供貝氏機率分類模型定型使用時，應該要了解特定演算法的需求，包括所需的資料量及資料的使用方式等。

貝氏機率分類模型的需求如下：

單一索引鍵資料行：每個模型都必須包含一個能唯一識別每一筆記錄的數值或文字資料行。不允許複合的索引鍵。
輸入資料行：在貝氏機率分類模型中，所有的資料行都必須是離散或離散化的資料行。如需有關分隔資料行的資訊，請參閱＜分隔方法 (資料採礦)＞。對貝氏機率分類模型而言，確保輸入屬性彼此無關很重要。
至少有一個可預期的資料行：可預期的屬性必須包含離散或離散化的値。可預期資料行的値可以也經常當做輸入，可用來找出資料行之間的關聯性。