驗證資料採礦模型 (Analysis Services - 資料採礦)

驗證是評估採礦模型對實際資料的執行效能有多好的處理程序。在部署採礦模型之前,先了解其品質和特性以驗證採礦模型是很重要的。

有數種方法可以評估資料採礦模型的品質和特性。首先,您可以使用各種統計驗證量值來判斷資料或模型中是否有問題。其次,也可以將資料分隔成定型集和測試集以測試預測的精確度。最後,您也可以要求商務專家檢閱資料採礦模型的結果,以判斷找到的模式在目標商務案例中是否具有意義。上述所有方法在資料採礦方法中都很有用,可在您建立、測試和精簡模型以回答特定問題時反覆使用。

本章節介紹一些與模型品質相關的基本概念,也介紹在 Microsoft SQL Server 2008 Analysis Services 中提供的模型驗證策略。如需模型驗證如何配合較大型資料採礦處理的概觀,請參閱<資料採礦專案 (Analysis Services - 資料採礦)>。

測量資料採礦模型的準則

大多數資料採礦模型的驗證方法都無法直接回答商務問題,但可提供用來指引商務或開發決策的標準。沒有一項規則能完整到可以告訴您模型是否夠好,或是資料是否足夠。

資料採礦的量值一般可分為精確度、可靠性和效益等類別。

精確度、可靠性和效益

「精確度」是一種量值,代表模型可將結果與所提供資料中的屬性相互關聯的程度。精確度有多種量值,但所有的精確度量值都是依所使用的資料而定。事實上,值可能會遺失或僅是近似值,或者資料可能已由多項處理序變更。特別是在瀏覽和開發階段中,您可能會決定接受資料中特定的錯誤量 (尤其是當資料的特性相當統一時)。例如,根據過去的銷售量而預測特定店家銷售額的模型,可能會具有強烈的關聯性而且非常正確,即使該店家過去一直使用錯誤的會計方法;因此,精確度的測量必須藉由可靠性的評估來平衡。

「可靠性」評估資料採礦模型在不同的資料集上執行的方式。如果不管所提供的測試資料為何,資料採礦模型都會產生相同的預測類型或找到相同的一般模式類型,則該模型就是可靠的。例如,您針對使用錯誤會計方法的店家所產生的模型,就無法通用於其他店家,因此並不可靠。

「效益」包含多種標準,可表示模型是否提供有用的資訊。例如,將店家地點與銷售額相互關聯的資料採礦模型可能既精確又可靠,但效益卻可能不高,因為無法新增更多位於相同地點的店家來廣泛應用該結果。此外,該模型也無法回答為何特定地點的銷售額較高的基本商務問題。您也可能發現看來成功的模型實際上卻沒有意義,因為它是根據資料中的交叉相互關聯而定。

Microsoft 資料採礦架構

CRISP-DM 是描述定義、開發和實作資料採礦專案之步驟的已知方法。不過,CRISP-DM 是概念性的架構,並未提供如何設定專案範圍和排程的特定指南。為了能更滿足對資料採礦感興趣、但不知道該如何開始規劃的商務使用者的特定需求,以及可能熟悉 .NET 應用程式開發、但才接觸資料採礦的開發人員的需求,Microsoft 開發出實作資料採礦專案的方法,且其中包含完整的評估系統。

如需詳細資訊,請參閱 Microsoft 資料採礦資源頁面 (英文)。

SQL Server Analysis Services 中的採礦模型驗證方法

SQL Server 2008 支援資料採礦方案的多種驗證方法,這些方法支援資料採礦開發方法的所有階段。

將資料分割到定型集和測試集中

將資料分割成定型集和測試集是準備資料以供評估的既定技巧。訓練資料集的某部分資料會保留用於測試,而剩餘的資料則用於定型。當模型完成後,就會用來針對測試集進行預測。因為定型集中的資料是從用於定型的相同資料隨機選取而來,所以從測試所衍生的精確度標準比較不會受到資料差異的影響,因此比較能反映模型的特性。

如需詳細資訊,請參閱<將資料分割成培訓集和測試集 (Analysis Services - 資料採礦)>。

採礦模型的交叉驗證

交叉驗證可讓您將資料分割成許多較小的交叉區段,並在交叉區段上建立多個模型以測試完整資料集的有效性。Analysis Services 接著會針對每個資料分割而產生詳細的精確度標準。藉由這項資訊,您可以改進各個模型的品質,或針對特定資料集辨識出最佳模型。

如需詳細資訊,請參閱<交叉驗證 (Analysis Services - 資料採礦)>。

圖表採礦模型的精確度

Microsoft SQL Server Analysis Services 提供工具以協助您繪製預測精確度圖表、根據新增或現有的資料測試模型,或比較圖表和報表中的多個模型。

「增益圖」是當您將使用資料採礦模型而獲得的改進與隨機猜測進行比較時,將改進的程度視覺化的方法。您也可以建立「收益圖」,將財務收益或成本與採礦模型使用方式產生相互關聯,或針對迴歸模型建立「散佈圖」。「分類矩陣」是一種將良好和不良的猜測排序成資料表,以快速簡易地的方式量測模型在預測目標值時精確度的方法。

如需詳細資訊,請參閱<圖表模型精確度的工具 (Analysis Services - 資料採礦)>。

您也可以用多種方式來篩選模型,以定型和測試相同來源資料的不同組合。如需詳細資訊,請參閱<測量採礦模型精確度 (Analysis Services - 資料採礦)>。

瀏覽和查詢模型內容和案例

Analysis Services 提供一組資料採礦檢視器,可用於瀏覽和探索模型。您也可以建立內容查詢,以協助您更深入了解模型並在方法或資料中尋找非預期的問題。當使用「資料採礦延伸模組」(DMX) 建立內容查詢時,可以取得有關採礦模型所發現模式的統計資訊,或者擷取模型所發現特定模式的支援案例。您也可以鑽研基礎採礦結構中的詳細資料、尋找或展示未包含在模型中的詳細資訊,或針對資料中找到的模式採取動作。

如需有關如何查詢模型內容的詳細資訊,請參閱<查詢資料採礦模型 (Analysis Services - 資料採礦)>。

如需有關瀏覽模型內容的詳細資訊,請參閱<檢視資料採礦模型>。

如需有關如何針對特定演算法解譯模型內容的詳細資訊,請參閱<資料採礦演算法 (Analysis Services - 資料採礦)>。