创建新的挖掘结构

在 Microsoft SQL Server Analysis Services 中生成数据挖掘解决方案时,第一步是使用 Business Intelligence Development Studio 中的数据挖掘向导(Analysis Services - 数据挖掘)创建挖掘结构。挖掘结构定义据以生成挖掘模型的数据域。所有的挖掘模型都基于一个结构。

挖掘结构使用关系数据源或联机分析处理 (OLAP) 数据源。关系挖掘结构基于存储在表、文件或关系数据库系统中并且定义为数据源视图的数据。OLAP 挖掘结构基于挖掘结构所在数据库中的 OLAP 多维数据集内的维度和相关度量值。

有关详细信息,请参阅:设计数据库设计 Analysis Services 多维数据库对象

数据挖掘向导自动定义挖掘结构,并允许在该结构中添加一个初始挖掘模型。由于挖掘结构可以包含多个挖掘模型,因此可以使用数据挖掘设计器在该结构中添加多个挖掘模型。

下面几个部分提供有关如下内容的详细信息:如何用数据挖掘向导新建挖掘结构;如何对于挖掘结构设置将用来针对挖掘结构中的数据创建测试集或运行查询的选项。

  • 创建关系挖掘结构

  • 创建 OLAP 挖掘结构

  • 启用维持和钻取

创建关系挖掘结构

关系挖掘结构可以基于可通过 OLE DB 数据源获取的任何数据。如果源数据包含在多个表内,您可以创建将所需的表和列组合在一起的数据源视图。如果表包括任何一对多关系(例如,对于您要分析的每个客户,您具有多个采购记录),您可以添加这两个表,使用一个表作为事例表并且使用来自关系的多方的数据作为嵌套表。

有关详细信息,请参阅嵌套表(Analysis Services – 数据挖掘)

数据挖掘向导可指导您通过以下步骤创建新挖掘模型的结构:

  1. 选择数据源类型,在本例中为关系数据库。

  2. 确定是只生成结构还是生成具有挖掘模型的结构。

  3. 为该模型选择一个算法。

  4. 选择数据源。

  5. 选择事例表,以及任意嵌套表(可选)。

  6. 选择每个列的类型:可预测列、输入列或键列。

  7. 指定列内容类型。

  8. 指定可选的维持数据集。

  9. 针对结构启用钻取功能;命名和保存新挖掘结构及其关联的挖掘模型。

有关详细信息,请参阅:数据挖掘算法(Analysis Services – 数据挖掘)挖掘模型列挖掘结构列数据类型(数据挖掘)内容类型(数据挖掘)

创建 OLAP 挖掘结构

OLAP 多维数据集通常包含如此多的成员和维度,以至于很难知道从何处开始进行数据挖掘。为了帮助标识多维数据集所包含的模式,通常需要标识单个相关维度,然后开始浏览与该维度相关的模式。下表列出了几项常见的 OLAP 数据挖掘任务,说明了一些可能要应用各项任务的示例场景,并标识了要用于各项任务的数据挖掘算法。

任务

示例场景

算法

将成员分组为分类

根据客户成员属性、客户购买的产品和客户支出的金额,将客户维度分段。

Microsoft 聚类分析算法

查找受关注的或异常的成员

根据销售额、利润、存储地点和存储量标识 Store 维度中受关注的或异常的商店。

Microsoft 决策树算法

查找受关注的或异常的单元

标识随时间变化而呈典型趋势的商店销售额。

Microsoft 时序算法

数据挖掘向导可指导您通过以下过程创建新挖掘模型的结构:

  1. 选择数据源类型,在本例中为多维数据集。

    注意注意

    OLAP 多维数据集必须与挖掘结构存在于同一数据库中。不能使用 PowerPivot for Excel 外接程序创建的多维数据集作为数据挖掘的源。

  2. 选择一种算法。

  3. 选择源多维数据集维度。

  4. 选择事例键。

  5. 选择事例列。

  6. 选择任意嵌套表。

  7. 选择每个列的用法:可预测列、输入列或键列。

  8. 指定列内容类型。

  9. 对源多维数据集切片。

  10. 创建可选的测试数据集。

  11. 命名并保存新的挖掘结构和关联的挖掘模型。

可以在向导的最后一页设置以下选项:

  • 允许钻取

  • 创建挖掘模型维度

  • 使用挖掘模型维度创建多维数据集

如果选择在源多维数据集内创建新挖掘模型维度,则可以包括数据挖掘算法在 OLAP 数据源中找到的信息。通过创建挖掘模型维度,能够以维度形式浏览和查询已存储的模型内容。此选项对于那些借助于 Microsoft 聚类分析、Microsoft 决策树和 Microsoft 关联规则算法生成的模型可用。

如果您选择用来创建新多维数据集的选项,系统将根据包括该挖掘模型维度和可选的任何相关维度的数据库来定义新的多维数据集。这使您可以按挖掘模型发现的层次结构对事实数据执行切片操作。

有关详细信息,请参阅:数据挖掘算法(Analysis Services – 数据挖掘)挖掘模型列挖掘结构列数据类型(数据挖掘)内容类型(数据挖掘)

启用钻取和维持

在创建挖掘结构时,还必须设置两个用来处理数据的重要选项:维持和钻取。维持可用于将挖掘结构中的数据分成定型集和测试集,以便在与该结构相关联的所有模型中使用它们。有关详细信息,请参阅将数据分区为定型集和测试集(Analysis Services - 数据挖掘)

使用钻取功能,可以通过查询挖掘模型来查看挖掘结构中的源数据。当您查看挖掘模型的结果,而且希望查看基础事例中的其他详细信息时,这非常有用。例如,您可能希望查找联系信息、用来为特定分类定型的事例等。若要使用钻取功能,必须在创建挖掘结构时启用该功能,而不能在以后再启用。有关详细信息,请参阅针对挖掘模型和挖掘结构使用钻取(Analysis Services – 数据挖掘)