採礦結構 (Analysis Services - 資料採礦)

採礦結構定義從中建立採礦模型的資料:此結構會指定來源資料檢視、資料行的數目和類型,並將選用的資料分割指定為定型集和測試集。單一採礦結構可支援共用相同網域的多個採礦模型。下列圖表說明資料採礦結構與資料來源及其所構成資料採礦模型間的關聯性。

資料處理:來源到結構到模型

此圖表的採礦結構是根據包含多個資料表或檢視的資料來源而定,這些資料表或檢視則是以 CustomerID 欄位聯結。其中一個資料表包含客戶的相關資訊,例如地理區域、年齡、收入和性別,而相關的巢狀資料表則包含多個與個別客戶相關的其他資訊,例如該客戶曾購買過的產品。此圖表顯示可以根據一個採礦結構而建立多個模型,而這些模型可使用此結構的不同資料行。

模型 1 使用 CustomerID、收入、年齡和區域,並根據區域篩選資料。

模型 2 使用 CustomerID、收入、年齡和區域,並根據年齡篩選資料。

模型 3 使用 CustomerID、年齡、性別和巢狀資料表,且沒有任何篩選。

因為這些模型會使用不同的資料行做為輸入,而且其中兩個模型因套用篩選而會對模型中使用的資料進行額外的限制,所以即使模型是以相同的資料為基礎,也可能會產生非常不同的結果。請注意,所有模型都需要 CustomerID 資料行,因為這是唯一可用來當做案例索引鍵的資料行。

本章節將說明資料採礦結構的基本架構。如需有關如何建立、管理、修改或檢視資料採礦結構的詳細資訊,請參閱<管理資料採礦結構和模型>。

定義採礦結構

資料採礦結構的設定包含以下步驟:

  • 定義資料來源。

  • 選取結構資料行並定義索引鍵。

  • 將來源資料分割為培訓集和選擇性的測試集。

  • 處理此結構。

採礦結構的資料來源

當您定義採礦結構時,您會使用現有資料來源檢視中可用的資料行。資料來源檢視可讓您結合多個資料來源,並將它們當做建立之結構或採礦模型中的單一來源使用。用戶端應用程式看不到原始資料來源。

如需有關資料來源檢視的詳細資訊,請參閱<資料來源檢視 (Analysis Services - 多維度資料)>。

如果您從相同的採礦結構建立多個採礦模型,這些模型可使用此結構中的不同資料行,並以不同方式使用這些資料行。例如,您可以建立單一結構,然後從此結構建立個別的決策樹和群集模型,每一個模型都使用不同的資料行,並預測不同的屬性。

資料採礦結構僅會儲存來源資料的繫結。您也可以使用 DMX CREATE MINING STRUCTURE (DMX) 陳述式來建立資料採礦結構,而不必將它與特定的資料來源繫結。

採礦結構資料行

採礦結構的建置組塊是採礦結構資料行,它們會描述資料來源包含的資料。這些資料行包含如資料類型、內容類型和資料散發方式等資訊。採礦結構不包含有關資料行如何用於特定採礦模型的資訊,或有關用來建立模型之演算法類型的資訊;此資訊是在採礦模型本身中定義。

採礦結構也可以包含巢狀資料表。巢狀資料表代表案例實體及其相屬性之間的一對多關聯性。例如,若描述客戶的資訊位於一個資料表中,而客戶的採購資料位於另一個資料表中,您就可以使用巢狀資料表將資訊結合成單一案例。客戶識別碼是實體,而採購是相關的屬性。如需有關何時使用巢狀資料表的詳細資訊,請參閱<巢狀資料表 (Analysis Services - 資料採礦)>。

若要在 Business Intelligence Development Studio 中建立資料採礦模型,必須先建立資料採礦結構。[資料採礦精靈] 會帶領您逐步完成建立採礦結構、選擇資料和加入採礦模型的程序。

如果是利用資料採礦延伸模組 (DMX) 建立採礦模型,則可在其中指定模型和資料行,DMX 就會自動建立所需的採礦結構。如需詳細資訊,請參閱<CREATE MINING MODEL (DMX)>。

如需詳細資訊,請參閱<採礦結構資料行>。

培訓和測試資料

當您為採礦結構定義資料時,也可以指定某些資料用於培訓,某些資料則用於測試。因此,不再需要在建立資料採礦結構之前事先分割資料。您可以指定保留某個百分比的資料用於測試,並將其餘的資料用於培訓,或者可以指定某個案例數當做測試資料集來使用。資料分割資訊會使用採礦結構來快取;因此,可以將相同的測試集搭配以該結構為根據的所有模型一起使用。

如需詳細資訊,請參閱<將資料分割成培訓集和測試集 (Analysis Services - 資料採礦)>。

啟用鑽研

即使您不打算在特定的採礦模型中使用資料行,還是可以將此資料行加入到採礦結構。如果您不指定此資料行的使用方式,分析和預測作業中將會忽略此資料行。不過,它仍然可以用於查詢中,其方式是針對採礦模型啟用鑽研。例如,如果您擁有適當的權限,您可以從採礦模型中的特定結果鑽研,以擷取有關此節點中之案例的詳細資訊,甚至可以存取此模型中未使用的結構資料行。

如需詳細資訊,請參閱<針對採礦模型和採礦結構使用鑽研 (Analysis Services - 資料採礦)>。

處理採礦結構

採礦結構在處理之前只是一個中繼資料容器。當您處理採礦結構時,Analysis Services 會建立快取來儲存有關資料的統計資料、如何將連續屬性離散化的資訊,以及採礦模型稍後所使用的其他資訊。採礦模型本身並不會儲存任何資料,而是參考快取中的資訊。因此在處理採礦模型時,必須提供結構快取。如果沒有提供,就必須重新處理結構才能建立模型。

如果不要快取資料,您可以將採礦結構的 CacheMode 屬性變更為 ClearAfterProcessing。這樣一來就會在處理任何模型之後將快取終結。將 CacheMode 屬性設定為 ClearAfterProcessing 會從採礦模型停用鑽研。

只要有提供快取資料,就不需要在將新採礦模型加入至採礦結構時重新處理結構;您可以只處理模型。如需詳細資訊,請參閱<處理資料採礦物件>。

檢視採礦結構

您無法使用檢視器來瀏覽採礦結構中的資料。但是在 Business Intelligence Development Studio 中,您可以使用資料採礦設計師的 [採礦結構] 索引標籤,檢視結構資料行和其定義。如需詳細資訊,請參閱<資料採礦設計師>。

如果想要檢視採礦結構中的資料,可以使用資料採礦延伸模組 (DMX) 來建立查詢。例如,SELECT * FROM <structure>.CASES 陳述式會傳回採礦結構中的所有資料。若要擷取這項資訊,必須已經處理過採礦結構,且必須將處理結果存入快取。

SELECT * FROM <model>.CASES 陳述式會傳回相同的資料行,但是僅針對該特定模型中的案例。如需詳細資訊,請參閱<SELECT FROM <structure>.CASES>和<SELECT FROM <model>.CASES (DMX)>。

搭配採礦結構使用資料採礦模型

資料採礦模型會將採礦模型演算法套用至以採礦結構表示的資料。採礦模型是屬於特定採礦結構的物件,且繼承採礦結構所定義的所有屬性值。此模型可以使用採礦結構包含的所有資料行或資料行子集。您可以將結構資料行的多個複本加入到結構中。您也可以將結構資料行的多個複本加入到模型中,然後針對此模型中的每一個結構資料行指派不同的名稱或「別名」(Alias)。如需有關為結構資料行建立別名的詳細資訊,請參閱<如何:建立模型資料行的別名>和<在採礦模型上設定屬性>。

如需有關資料採礦模型之結構的詳細資訊,請參閱<採礦模型 (Analysis Services - 資料採礦)>。