浏览决策树模型(数据挖掘基础教程)

 

适用于: SQL Server 2016 Preview

Microsoft 决策树算法预测哪些列影响基于定型集中的其余列做出的自行车购买决策。

Microsoft 决策树查看器用于浏览决策树挖掘模型提供了以下选项卡︰

决策树

依赖关系网络

“决策树”选项卡

决策树 选项卡上,您可以查看每个可预测属性的决策树中该数据集。

在这种情况下,该模型仅预测一列,Bike Buyer,因此,则只需查看一个树。 如果有多个树,您可以使用 框以选择另一个树。

当您查看 TM_Decision_Tree 模型在决策树查看器中,您可以看到最重要的属性,该图表的左侧。 “最重要”意味着这些属性对结果的影响最大。 沿着该树越向下走的属性(图表右侧)的影响越小。

在此示例中,在预测自行车购买行为时,年龄是最重要的因素。 模型按年龄对客户进行分组,然后显示每个年龄组的下一个较重要的属性。 例如,在年龄为 34 到 40 的客户组中,拥有的汽车数是仅次于年龄的预测因子。

在“决策树”选项卡中浏览模型

  1. 选择 挖掘模型查看器 选项卡中 数据挖掘设计器

    默认情况下,设计器将打开到第一个模型,在这种情况下,添加到结构- TM_Decision_Tree

  2. 使用放大镜按钮调整树的显示大小。

    默认情况下,Microsoft 树查看器仅显示树的前三个级别。 如果树级别不到三个,则查看器仅显示现有级别。 您可以通过查看更多级别 显示级别 滑块或 默认扩展 列表。

  3. 幻灯片 显示级别 到第四条。

  4. 将“背景” 值更改为 1

    通过更改 背景 设置,您可以快速查看每个节点都具有目标值的事例数 1 [Bike buyer]。 请注意,在这种特定的情况下,每个事例均表示一个客户。 值 1 指示该客户之前购买了自行车; 值 0 指示客户未购买自行车。 节点的底纹颜色越深,节点中具有目标值的事例所占的百分比越大。

  5. 将光标置于标记为节点 所有。 将出现显示以下信息的工具提示:

    • 事例总数

    • 非自行车购买者事例的数量

    • 自行车购买者事例的数量

    • 缺少 [Bike Buyer] 值的事例的数量

    或者,将光标放在树中的任何节点上,查看从上级节点到达该节点所需的条件。 您还可以查看在此相同信息 挖掘图例

  6. 在节点上单击 Age > = 34 且 < 41。 直方图将显示为一个穿过该节点的窄水平条,并表示此年龄范围中以前买过自行车的客户(粉色)和没有买过自行车的客户(蓝色)的分布情况。 查看器显示:没有汽车或者有一辆汽车、年龄在 34 到 40 的客户有可能购买自行车。 再进一步考察发现,实际年龄在 38 到 40 的客户购买自行车的可能性会增加。

由于您在创建结构和模型时启用了钻取,因此,可以从模型事例和挖掘结构中检索详细的信息,其中包括挖掘模型中所不包含的列(例如,emailAddress 和 FirstName)。

有关详细信息,请参阅钻取查询(数据挖掘)

钻取到事例数据

  1. 右键单击一个节点,然后选择 钻取 然后 仅限模型列

    每个定型事例的详细信息将以电子表格方式显示。 这些详细信息来自您在生成挖掘结构时选作事例表的 vTargetMail 视图。

  2. 右键单击一个节点,然后选择 钻取 然后 模型和结构列

    将显示同一个电子表格,并在末尾处附加结构列。

返回页首

“依赖关系网络”选项卡

依赖关系网络 选项卡显示挖掘模型的预测能力参与属性之间的关系。 依赖关系网络查看器进一步证实了我们的发现:年龄和地区是预测自行车购买行为的重要因素。

在“依赖关系网络”选项卡中浏览模型
  1. 单击 Bike Buyer 节点以确定其依赖项。

    依赖关系网络的中间节点 Bike Buyer, ,表示挖掘模型中的可预测属性。 该图形突出显示了影响可预测的属性的任何已连接节点。

  2. 调整 所有链接 滑块可标识影响最大的属性。

    下移滑块拖动时,将从关系图删除有微弱影响对 [Bike Buyer] 列的属性。 通过调整滑块,可以发现“年龄”和“地区”是预测个人自行车购买行为的最主要因素。

相关任务

请参阅以下主题,了解如何使用其他模型类型来探索数据。

课程中的下一个任务

浏览聚类分析模型 (数据挖掘基础教程 )

另请参阅

挖掘模型查看器任务和操作指南
“决策树”选项卡(挖掘模型查看器)
“依赖关系网络”选项卡(挖掘模型查看器)
使用 Microsoft 树查看器浏览模型