数据挖掘向导

每次在数据挖掘项目中添加新的挖掘结构时,都会启动 Microsoft SQL Server 2005 Analysis Services (SSAS) 中的数据挖掘向导。该向导可以定义新的结构,还将为每个结构定义初始挖掘模型。包括表和列在内的初始模型的结构是从现有的数据源视图或多维数据集派生而来的。

您可以使用数据挖掘向导完成以下任务:

  • 指定是根据关系数据库还是根据 OLAP 数据库中的现有多维数据集生成数据挖掘结构和模型。
  • 指定生成初始模型时使用的算法。
  • 指定包含据以生成模型的定型数据的数据源视图或多维数据集维度。
  • 通过指定关系数据源中的事例表和嵌套表或者指定 OLAP 数据源中的事例健和事例级别列来定义事例集。
  • 定义事例集中列的用法。
  • 自动检测和设置列内容和数据类型。
  • 如果挖掘模型基于 OLAP 数据源,则对多维数据集进行切片。
  • 命名新挖掘结构和初始挖掘模型。
  • 如果挖掘模型基于 OLAP 数据源,则创建新的数据挖掘维度。

数据挖掘向导完成后,使用数据挖掘设计器修改挖掘结构和模型,然后浏览模型并根据模型进行预测。

有关详细信息,请参阅数据挖掘设计器

使用数据挖掘向导

若要启动数据挖掘向导,请使用解决方案资源管理器或 Business Intelligence Development Studio 中的**“项目”**菜单,在 Analysis Services 项目中添加一个新的挖掘结构。

数据挖掘向导有以下两个分支,分别对应于两种类型的数据源:

  • 关系挖掘模型
  • OLAP 挖掘模型

关系挖掘模型

根据 Analysis Services 中的关系数据源生成挖掘模型时,首先在数据挖掘向导中指定要使用现有关系数据库来定义模型的结构。然后,可以通过选择最适于所需数据挖掘分析类型的算法,指定要使用的数据挖掘技术。

有关详细信息,请参阅数据挖掘算法

指定数据源视图和表类型

向导中的下一个步骤是选择想用于定义挖掘模型的特定数据源视图,并指定事例表。事例表包括要用来为挖掘模型定型的定型数据。如果数据包含在多个表中,则还可以指定要在事例表中嵌套的表。

有关详细信息,请参阅嵌套表

指定列的用法

指定了事例表和嵌套表后,可以确定要包括在挖掘结构中的表的每一列的使用类型。如果没有指定列的使用类型,则挖掘结构中将不会包含该列。数据挖掘列可以为下列四种类型之一:键列、输入列、可预测列或输入列和可预测列的组合。键列包含表中每个行的唯一标识符。某些挖掘模型(如顺序分析和聚类分析以及时序模型)可能包含多个键列。输入列提供据以进行预测的信息。预测列包含要在挖掘模型中预测的信息。

例如,一系列表可能包含客户 ID、人口统计信息以及每位客户在某个特定商店消费的金额。客户 ID 可以唯一地标识客户,并且使事例表与嵌套表相关,因此,一般会将客户 ID 作为键列。您可以使用从人口统计信息中选择的列作为输入列,将说明每位客户消费金额的列作为预测列。然后,您可以生成一个挖掘模型,该模型可将人口统计信息与某位客户在商店中的消费金额关联起来。您可以使用此模型作为有针对性的营销的基础。

数据挖掘向导提供了**“建议”功能,在选择预测列时将启用该功能。数据集包含的列经常多于生成挖掘模型时要使用的列。“建议”功能可以计算出一个数值分数(介于 0 到 1 之间),用于说明数据集中的每一列与预测列之间的关系。根据此分数,该功能可以建议可用作挖掘模型的输入的列。如果使用了“建议”**功能,您就可以使用建议的列,修改选择的列以满足需要,也可以忽略建议。

指定内容类型和数据类型

在选择一个或多个可预测列和输入列后,您可以指定各列的内容类型和数据类型。

有关详细信息,请参阅数据类型(数据挖掘)内容类型(数据挖掘)

完成向导

向导中的最后一步是对挖掘结构和关联的挖掘模型进行命名。如果选择**“允许钻取”**,则会在模型中启用钻取功能。这样,您就可以浏览用于生成模型的源数据。

返回页首

OLAP 挖掘模型

根据 Analysis Services 的 OLAP 数据源生成多维挖掘模型时,首先在数据挖掘向导中指定要使用现有多维数据集来定义模型的结构。然后,可以通过选择最适于所需数据挖掘分析类型的算法,指定要使用的数据挖掘技术。

有关详细信息,请参阅数据挖掘算法

指定数据源和事例健

然后,选择要用作数据源的多维数据集维度来定义挖掘结构。最后,选择要用作挖掘模型的键(即“事例键”)的属性**。

ms175645.note(zh-cn,SQL.90).gif注意:
要生成的 OLAP 挖掘模型和用于创建模型的源多维数据集必须包含在同一个 Analysis Services 数据库中。

指定事例级别列和列用法

选择了事例键后,与该键关联的属性和度量值将在向导的下一页的树视图中显示。您可以从此列表中选择用作结构的列的属性和度量值。这些列被称为“事例级别列”**。与使用关系模型时一样,您也必须指定每一列在结构中的使用方法,这将在向导的下一页中执行。列可以是键列、输入列、可预测列、输入和预测列的组合,也可以不选择列。

添加嵌套表

在数据挖掘向导的 OLAP 分支中,可以选择在挖掘模型结构中添加嵌套表。在向导的**“指定挖掘模型列用法”页中,单击“添加嵌套表”**将打开一个单独的对话框,该对话框可以指导完成添加嵌套表的步骤。其中只显示应用于维度的度量值组。选择包含事例维度外键的度量值组。然后,指定度量值组中每个列的用法(输入列还是可预测列)。最后,向导将嵌套表添加到事例表中。嵌套表的默认名称为嵌套维度的名称,但是您可以重命名嵌套表和嵌套表的列。有关详细信息,请参阅嵌套表

指定内容类型和数据类型

在选择一个或多个可预测列和输入列后,您可以指定各列的内容类型和数据类型。

有关详细信息,请参阅数据类型(数据挖掘)内容类型(数据挖掘)

对源多维数据集进行切片

在向导的 OLAP 分支中,您可以在为挖掘模型定型之前,通过对源多维数据集进行切片,以限制挖掘模型的作用域。对多维数据集进行切片类似于在 SQL 语句中添加 WHERE 子句。例如,如果某个多维数据集包含有关产品购买的信息,则您可将年纪属性限制为 30 岁以上,性别列限制为女性,购买日期不早于 2000 年 3 月。这样一来,模型的作用域就被限制为年纪大于 30 岁且在 2000 年 3 月之后购买了产品的女性。

完成向导

向导中的最后一步是对挖掘结构和关联的挖掘模型进行命名。如果选择**“允许钻取”**,则会在模型中启用钻取功能。这样,您就可以浏览用于生成模型的源数据。基于该挖掘模型,您还可以指定是在源多维数据集中添加一个新维度,还是根据挖掘模型创建一个新的多维数据集。

返回页首

请参阅

概念

创建新的挖掘结构
在数据挖掘设计器中管理挖掘模型
数据挖掘概念
使用数据挖掘工具
使用数据挖掘

其他资源

“挖掘结构”选项卡操作指南主题

帮助和信息

获取 SQL Server 2005 帮助