任务 12:发现知识(知识发现)

在本任务中,您将对 Supplier IDSupplier Name 域执行“知识发现”活动。 在此方案中,知识发现过程主要导入这两个域的值。

在本教程中,您是从头开始构建知识库的。 还可以通过执行知识发现活动来创建知识库。 当您在主页中单击“创建知识库”时,DQS 客户端将您带入已为该活动选择了“域管理”活动的页面。 您可以将“活动”更改为“知识发现”,然后在下一页中,您可以创建域以作为知识发现过程的一部分。 有关详细信息,请参阅执行知识发现

  1. 在 DQS 客户端的主页中,在“最近的知识库”部分中,单击 Suppliers 知识库旁边的“右箭头”,然后单击“知识发现”。 或者,也可以单击“打开知识库”,从“知识库列表”中选择 Suppliers,选择“知识发现”作为“活动”,然后单击“下一步”。

    主页上的“知识发现”菜单

  2. 对于“数据源”,选择“Excel 文件”。

  3. 单击“浏览”,导航并选择 Suppliers.xls,然后单击“打开”。

  4. 对于“工作表”,选择 Suppliers for Discovery

  5. 在“映射”部分,使用“下拉列表”,将 Excel 文件中的 SupplierID 列映射到 Supplier ID 域,并将 Supplier Name 列映射到 Supplier Name 域。 Excel 文件具有对应于 Supplier ID 域和 Supplier Name 域的示例数据。 在发现过程中,您可以选择要为其发现值的域。 您可以在此页上创建域,然后将源列映射到这些域。 在知识发现活动中创建域的情况并不少见,而不是在域管理活动期间创建域。

    发现过程的“映射”页

  6. 单击“下一步”切换到“发现”页。

  7. 在“发现”页上,单击“开始”以开始发现过程。 此时将对 Suppliers.xls 文件中的列 SupplierIDSupplier Name 执行发现。 Supplier IDSupplier Name 域应使用发现过程中获得的知识进行填充。

    发现过程的“发现”页

  8. 完成分析后,查看页面底部“事件探查器”选项卡中的“源统计信息”。 请注意,发现了 10 条新记录以及总共 20 个值(Excel 工作表中的 SupplierIDSupplier Name 值)。 我们还看到多少个值是新的、唯一的、新并且是唯一的以及有效的。 在右侧的列表框中,您可以看到发现过程中涉及的每个域的详细信息。 如果您将鼠标悬停在“完整性”列的状态栏上,您可以看到源列中是否有任何缺失值。

    知识发现结果

  9. 单击“下一步”切换到“管理域值”页。

  10. 在“管理域值”页中,从域列表中单击 Supplier Name 域。

  11. 在右窗格中,右键单击 Lazy Country Storex(注意尾部的“x”),然后选择 Lazy Country Store。 DQS 建议在对域运行拼写检查程序后进行此更改。 默认情况下,在您创建的域上启用拼写检查程序。

    正确供应商名称 - 惰性国家/地区商店

  12. 在域值列表中,确认值 Lazy Country Storex 设置为错误(红色的 X 标记),并将 Lazy Country Store 作为更正值,此外,Lazy Country Store 也添加为一个有效值。

    域值和更正为值

  13. 单击“完成”。

  14. SQL Server Data Quality Services 对话框中,单击“发布”。

  15. 单击成功消息框上的“确定”。

    您已经完成本教程的第一个课程。

下一步

第 2 课:使用 Suppliers 知识库清理供应商数据