第 5 課:使用 SSIS 自動化清理和比對

在第 1 課,您已經建立「供應商」知識庫,並在第 2 課用它來清理資料,而在第 3 課則使用 DQS 用戶端工具來比對資料。 在實際狀況中,您可能必須從 DQS 不支援的來源提取資料,或者您可能想要自動化清理和比對程序,而不必使用 DQS 用戶端工具。 SQL Server Integration Services (SSIS) 的元件可讓您用來整合各種異質來源的資料,而 **DQS 清理轉換元件則可叫用 DQS 所公開的清理功能。 目前,DQS 不會公開比對功能給 SSIS 使用,但是您可以使用模糊群組轉換**來識別資料中的重複項。

您可以使用實體式暫存功能,將資料上傳到 MDS。 當您在 MDS 中建立實體時,將會自動建立對應的暫存資料表和預存程序。 例如,當您建立 Supplier 實體時,也自動建立了 stg.supplier_Leaf 資料表和 stg.udp_Supplier_Leaf 預存程序。 您會使用暫存資料表和程序來建立、更新及刪除實體成員。 在這一課,您會建立 Supplier 實體的新實體成員。 為了將資料載入 MDS 伺服器,SSIS 封裝會先將資料載入暫存資料表 stg.supplier_Leaf,然後觸發相關的預存程序 stg.udp_Supplier_Leaf。 如需詳細資訊,請參閱匯入資料

在這一課,您會執行下列工作:

  1. 在 MDS 中移除供應商資料 (如果您已經完成之前的四個課程)。 您在這一課建立的 SSIS 封裝會將資料自動上傳至 MDS。 您在稍早已使用 DQS 用戶端,手動將已清理和比對的供應商資料上傳至 MDS 伺服器。

  2. 請在 Supplier 實體中建立訂閱檢視,向其他應用程式公開此實體中的資料。 此動作會建立一個 SQL 檢視表,您將使用 SQL Server Management Studio 加以驗證。 您不會在這一版的教學課程中使用這個檢視表。

  3. 使用 SQL Server Data Tools 建立及執行 SSIS 專案。 此專案會使用 [資料清理] 轉換,將清理要求提交給 DQS 伺服器。 DQS 尚未公開比對功能,所以您將使用 [模糊群組] 轉換來識別重複項。

  4. 確認已使用主資料管理員在 MDS 中建立資料。

  5. 檢閱 SSIS 封裝所建立之 DQS 清理專案的結果,並選擇性地執行互動式清理,進一步建立知識庫。

下一個步驟

工作 1 (必要條件):在 MDS 中移除供應商資料