發行項
04/02/2012

驗證資料採礦模型 (Analysis Services - 資料採礦)

驗證是評估採礦模型對實際資料的執行效能有多好的處理程序。在部署採礦模型之前，先了解其品質和特性以驗證採礦模型是很重要的。

有數種方法可以評估資料採礦模型的品質和特性。首先，您可以使用各種統計驗證量值來判斷資料或模型中是否有問題。其次，也可以將資料分隔成定型集和測試集以測試預測的精確度。最後，您也可以要求商務專家檢閱資料採礦模型的結果，以判斷找到的模式在目標商務案例中是否具有意義。上述所有方法在資料採礦方法中都很有用，可在您建立、測試和精簡模型以回答特定問題時反覆使用。

本章節介紹一些與模型品質相關的基本概念，也介紹在 Microsoft SQL Server 2008 Analysis Services 中提供的模型驗證策略。如需模型驗證如何配合較大型資料採礦處理的概觀，請參閱＜資料採礦專案 (Analysis Services - 資料採礦)＞。

測量資料採礦模型的準則

大多數資料採礦模型的驗證方法都無法直接回答商務問題，但可提供用來指引商務或開發決策的標準。沒有一項規則能完整到可以告訴您模型是否夠好，或是資料是否足夠。

資料採礦的量值一般可分為精確度、可靠性和效益等類別。

精確度、可靠性和效益

「精確度」是一種量值，代表模型可將結果與所提供資料中的屬性相互關聯的程度。精確度有多種量值，但所有的精確度量值都是依所使用的資料而定。事實上，值可能會遺失或僅是近似值，或者資料可能已由多項處理序變更。特別是在瀏覽和開發階段中，您可能會決定接受資料中特定的錯誤量 (尤其是當資料的特性相當統一時)。例如，根據過去的銷售量而預測特定店家銷售額的模型，可能會具有強烈的關聯性而且非常正確，即使該店家過去一直使用錯誤的會計方法；因此，精確度的測量必須藉由可靠性的評估來平衡。

「可靠性」評估資料採礦模型在不同的資料集上執行的方式。如果不管所提供的測試資料為何，資料採礦模型都會產生相同的預測類型或找到相同的一般模式類型，則該模型就是可靠的。例如，您針對使用錯誤會計方法的店家所產生的模型，就無法通用於其他店家，因此並不可靠。

「效益」包含多種標準，可表示模型是否提供有用的資訊。例如，將店家地點與銷售額相互關聯的資料採礦模型可能既精確又可靠，但效益卻可能不高，因為無法新增更多位於相同地點的店家來廣泛應用該結果。此外，該模型也無法回答為何特定地點的銷售額較高的基本商務問題。您也可能發現看來成功的模型實際上卻沒有意義，因為它是根據資料中的交叉相互關聯而定。

Microsoft 資料採礦架構

CRISP-DM 是描述定義、開發和實作資料採礦專案之步驟的已知方法。不過，CRISP-DM 是概念性的架構，並未提供如何設定專案範圍和排程的特定指南。為了能更滿足對資料採礦感興趣、但不知道該如何開始規劃的商務使用者的特定需求，以及可能熟悉 .NET 應用程式開發、但才接觸資料採礦的開發人員的需求，Microsoft 開發出實作資料採礦專案的方法，且其中包含完整的評估系統。

如需詳細資訊，請參閱 Microsoft 資料採礦資源頁面 (英文)。

SQL Server Analysis Services 中的採礦模型驗證方法

SQL Server 2008 支援資料採礦方案的多種驗證方法，這些方法支援資料採礦開發方法的所有階段。

將資料分割到定型集和測試集中

將資料分割成定型集和測試集是準備資料以供評估的既定技巧。訓練資料集的某部分資料會保留用於測試，而剩餘的資料則用於定型。當模型完成後，就會用來針對測試集進行預測。因為定型集中的資料是從用於定型的相同資料隨機選取而來，所以從測試所衍生的精確度標準比較不會受到資料差異的影響，因此比較能反映模型的特性。

如需詳細資訊，請參閱＜將資料分割成培訓集和測試集 (Analysis Services - 資料採礦)＞。

採礦模型的交叉驗證

交叉驗證可讓您將資料分割成許多較小的交叉區段，並在交叉區段上建立多個模型以測試完整資料集的有效性。Analysis Services 接著會針對每個資料分割而產生詳細的精確度標準。藉由這項資訊，您可以改進各個模型的品質，或針對特定資料集辨識出最佳模型。

如需詳細資訊，請參閱＜交叉驗證 (Analysis Services - 資料採礦)＞。

圖表採礦模型的精確度

Microsoft SQL Server Analysis Services 提供工具以協助您繪製預測精確度圖表、根據新增或現有的資料測試模型，或比較圖表和報表中的多個模型。

「增益圖」是當您將使用資料採礦模型而獲得的改進與隨機猜測進行比較時，將改進的程度視覺化的方法。您也可以建立「收益圖」，將財務收益或成本與採礦模型使用方式產生相互關聯，或針對迴歸模型建立「散佈圖」。「分類矩陣」是一種將良好和不良的猜測排序成資料表，以快速簡易地的方式量測模型在預測目標值時精確度的方法。

如需詳細資訊，請參閱＜圖表模型精確度的工具 (Analysis Services - 資料採礦)＞。

您也可以用多種方式來篩選模型，以定型和測試相同來源資料的不同組合。如需詳細資訊，請參閱＜測量採礦模型精確度 (Analysis Services - 資料採礦)＞。

瀏覽和查詢模型內容和案例

Analysis Services 提供一組資料採礦檢視器，可用於瀏覽和探索模型。您也可以建立內容查詢，以協助您更深入了解模型並在方法或資料中尋找非預期的問題。當使用「資料採礦延伸模組」(DMX) 建立內容查詢時，可以取得有關採礦模型所發現模式的統計資訊，或者擷取模型所發現特定模式的支援案例。您也可以鑽研基礎採礦結構中的詳細資料、尋找或展示未包含在模型中的詳細資訊，或針對資料中找到的模式採取動作。

如需有關如何查詢模型內容的詳細資訊，請參閱＜查詢資料採礦模型 (Analysis Services - 資料採礦)＞。

如需有關瀏覽模型內容的詳細資訊，請參閱＜檢視資料採礦模型＞。

如需有關如何針對特定演算法解譯模型內容的詳細資訊，請參閱＜資料採礦演算法 (Analysis Services - 資料採礦)＞。

請參閱

概念

使用資料採礦工具

資料採礦專案 (Analysis Services - 資料採礦)